Algunos proyectos realizados

  • Desarrollo de un modelo predictivo de demanda y optimización de producción en la industria láctea
    Desarrollo e implementación de una prueba de concepto (PoC) para optimizar la planificación de producción semanal en una empresa láctea nacional. Se desarrollaron scripts en Python para la preparación y unificación de datos provenientes del ERP IZARO, integrando información de pedidos, stock, artículos, recetas y FCME. Se implementaron modelos de machine learning avanzados, incluyendo Gradient Boosting Regressor y SARIMAX, para predecir la demanda futura por artículo y cliente, considerando tendencias estacionales y restricciones de producción. El sistema incorpora la Fecha de Caducidad Mínima Exigida (FCME) para minimizar el producto no vendible y optimizar el uso del stock existente. Utilización de librerías como Pandas para el manejo de datos y herramientas de visualización para presentar los resultados.
  • Desarrollo de un sistema de búsqueda documental y question-answering (QA) para empresa farmacéutica.
    Desarrollo de una prueba de concepto (PoC) de búsqueda de documentos internos (RAG – Retrieval Augmented Generation) mediante el uso de una base de datos vectorial (ChromaDB) y un modelo de embeddings multilingüe (LaBSE). El sistema detecta nuevos archivos (PDF, DOCX, TXT, PPTX), los convierte a texto plano, genera embeddings y los almacena en ChromaDB. Se implementó un segundo script para consultas en español que recupera el contexto más relevante de los documentos y genera respuestas utilizando un modelo LLM de question-answering (QA) entrenado en español. Se implementaron mecanismos para traducir el contexto en caso de estar en inglés y evitar duplicidades en los archivos procesados. Programación en Python y uso de modelos de NLP avanzados.
  • Análisis de datos y diseño de modelos para plataforma de analítica avanzada para el pequeño comercio.
    Desarrollo de una plataforma de analítica avanzada para el pequeño comercio, enfocada en el uso de datos de actividades económicas y sociodemográficas. Utilización de Python, Jupyter y SQLServer para el tratamiento y análisis de datos, junto con GIT para la gestión del código. Los modelos predictivos generados fueron implementados para optimizar decisiones estratégicas y operativas del pequeño comercio, proporcionando insights clave mediante análisis descriptivos y predictivos. Además, se utilizó Scikit-learn para la creación de modelos de machine learning que proporcionan segmentaciones y recomendaciones personalizadas para los usuarios.
  • Implementación de modelos de predicción de contratación mediante series temporales y redes neuronales.
    Creación de modelos de predicción avanzados basados en series temporales y Redes Neuronales Recurrentes (RNN) para predecir las necesidades de contratación por departamentos y perfiles en una empresa de IT a nivel nacional. Se realizaron pruebas de concepto, seguidas de una implementación completa en producción, utilizando Python como lenguaje de programación principal y TensorFlow para la creación de las redes neuronales. Además, se realizaron visualizaciones avanzadas de los resultados utilizando Matplotlib y Seaborn, para una mejor comprensión de las tendencias detectadas en los datos históricos.
  • Modelo predictivo para éxito en la contratación de perfiles técnicos en tiempo real.
    Desarrollo e implementación de un modelo de predicción para identificar las probabilidades de éxito en la contratación de nuevos perfiles técnicos. Se utilizaron modelos de aprendizaje supervisado entrenados en Python y TensorFlow. El modelo se implementó en AWS Lambda para la predicción en tiempo real, permitiendo a los equipos de contratación evaluar candidatos de manera instantánea. También se integraron mecanismos de actualización automática del modelo para adaptarse a las tendencias cambiantes del mercado laboral. La solución incluyó además la utilización de Amazon S3 para el almacenamiento de datos.
  • Predicción de fugas de talento en empresas de IT.
    Desarrollo de un modelo de predicción basado en aprendizaje supervisado para detectar fugas de empleados clave en una empresa de IT, con el objetivo de mejorar la retención de talento. Utilización de técnicas de análisis de datos avanzadas, como análisis de correlación y selección de características, para identificar los principales factores que influyen en la fuga de empleados. La implementación del modelo en Python permitió generar recomendaciones a los equipos de recursos humanos sobre cómo mitigar estos riesgos. Se emplearon técnicas de regularización para evitar el sobreajuste y garantizar la generalización del modelo.
  • Predicción de éxito en oportunidades comerciales para una empresa IT.
    Implementación de un modelo de aprendizaje supervisado para predecir el éxito en oportunidades comerciales, basado en datos históricos de ventas y comportamiento de los clientes. El sistema se desarrolló en Python utilizando Scikit-learn para el entrenamiento y validación del modelo, y fue integrado en el CRM de la empresa para facilitar su uso por los equipos comerciales. Se generaron dashboards interactivos con Plotly y Dash, permitiendo a los usuarios visualizar las predicciones en tiempo real y tomar decisiones más informadas sobre las oportunidades comerciales.
  • Modelo de predicción de fuga de suscriptores para diario de tirada nacional.
    Diseño y puesta en producción de un modelo predictivo para identificar posibles fugas de suscriptores en un diario nacional, usando aprendizaje supervisado y técnicas de segmentación avanzada. Utilización de Python para el desarrollo del modelo y Google BigQuery como repositorio de datos. Además de la predicción de la fuga, se generaron reportes detallados con recomendaciones personalizadas para retener a los suscriptores en riesgo, usando técnicas de marketing dirigidas. La integración con plataformas de CRM permitió automatizar las acciones correctivas, basadas en las predicciones del modelo.
  • Análisis avanzado en equipo de Management Information System (MIS) de un banco nacional.
    Tareas de analítica avanzada y gestión de grandes volúmenes de datos en un banco nacional, con el objetivo de garantizar la correcta estructuración de las bases de datos informacionales del equipo de MIS. Utilización de PySpark para procesar grandes conjuntos de datos en DATIO, optimizando los cálculos corporativos y generando informes para el equipo directivo. Además, se emplearon técnicas de modelado predictivo para detectar patrones de riesgo financiero y mejorar la toma de decisiones en el banco.
  • Mantenimiento y mejora de modelos de predicción de impagos y fraude en comercializadora eléctrica.
    Mantenimiento e implementación de mejoras en modelos de predicción de impagos y detección de fraude, utilizados por una comercializadora eléctrica. El proyecto incluyó la obtención de datos con SQL, programación en Python y uso de Amazon Redshift como repositorio de información. Se añadieron nuevas características al modelo, mejorando la precisión en la predicción de comportamientos fraudulentos. Además, se implementaron técnicas de ensamblado para combinar varios modelos de machine learning y mejorar el rendimiento general del sistema.
  • Clusterización de inversores solares para predicción de fallos en plantas fotovoltaicas.
    Desarrollo de un sistema de predicción de fallos en inversores solares mediante la clusterización de datos y el uso de redes neuronales. Utilización de técnicas avanzadas de machine learning para identificar patrones en el rendimiento de los inversores y predecir averías antes de que ocurran. La base de datos utilizada fue Google BigQuery, con programación en R para el análisis y visualización de los datos, empleando ggplot2. La implementación de este sistema permitió reducir significativamente los tiempos de inactividad de las plantas fotovoltaicas y optimizar el mantenimiento preventivo.
  • Análisis de normalidad de componentes en plantas solares y eólicas.
    Implementación de un algoritmo de aprendizaje no supervisado para analizar la normalidad de los diferentes elementos de una planta solar o eólica. Utilización de Google BigQuery como base de datos y programación en R para el análisis de los datos y la generación de reportes visuales con ggplot2. Se utilizaron técnicas de clustering y detección de anomalías para identificar comportamientos anormales en los componentes de las plantas, permitiendo a los equipos de mantenimiento actuar de forma preventiva y mejorar la eficiencia operativa de las plantas.
  • Modelo predictor de generación de energía en plantas fotovoltaicas mediante machine learning.
    Desarrollo de un modelo avanzado de machine learning para predecir la generación de energía eléctrica en plantas fotovoltaicas, utilizando datos históricos y variables meteorológicas. La base de datos utilizada fue Google BigQuery, con programación en R para el análisis estadístico y la creación de modelos predictivos. Se emplearon técnicas de regresión y optimización de hiperparámetros para mejorar la precisión del modelo. La visualización de los resultados se realizó mediante ggplot2, proporcionando informes detallados a los responsables de la planta para mejorar la planificación de la producción energética.