Proyectos – Pablo Beret Grande

Algunos proyectos realizados

Diseño e implementación de un modelo de proyección de ventas por barrio y sector (Detail.Shop)
Diseño e implementación de un modelo de forecasting mensual para proyectar actividad comercial a corto plazo por combinación (barrio, sector), generando predicciones a 3 meses vista para num_operaciones e importe_total. Pipeline end-to-end en Python conectado a BBDD PostgreSQL: agregación mensual de transacciones, armonización sectorial mediante tabla conversora (taxonomía bancaria -> sector del sistema), y construcción de un universo “representativo” con filtros automáticos (mínimo de establecimientos, mínimo histórico y control de sanidad por €/establecimiento/año). Modelado univariado por serie con selección automática ARIMA/SARIMAX (estacionalidad mensual cuando aplica) y mecanismos de fallback para garantizar cobertura. Incluye backtest hold-out por serie (MAE/MAPE) y metadatos de trazabilidad para consumo directo en Power BI mediante CSV listo para explotación.
Diseño e implementación de nodedatos, una newsletter semanal automatizada sobre inteligencia artificial en español
Diseño e implementación completa de un sistema de generación y publicación autónoma de newsletter semanal sobre IA, operativo desde cero y totalmente autónomo. El pipeline, orquestado con GitHub Actions, ingesta contenido de 44 fuentes (28 feeds RSS y 15 cuentas de X/Twitter), aplica deduplicación, filtrado y priorización automática, y genera el contenido editorial usando Grok (xAI) mediante prompts con voz y estructura definidas. La publicación es simultánea en una web estática construida con Hugo y desplegada en GitHub Pages, y en Buttondown para distribución por email. El sistema incorpora también generación automática de tweets promocionales semanales. Implementación íntegra en Python.
Diseño e implementación de una PoC de clasificación de alertas de procesos en cajeros (ATMs)
Diseño e implementación de una prueba de concepto (PoC) para clasificar alertas de ejecución de procesos en cajeros, reduciendo falsos positivos y acelerando el triage. Enfoque híbrido reglas + ML: reglas deterministas para marcar ALLOW “seguros” y un modelo supervisado posterior para resolver la “zona gris” (ALLOW vs BLOCK). De forma opcional, segundo modelo para separar PARAM vs NO_PARAM dentro de ALLOW. Validación con particionado agrupado por “firma” para evitar leakage por duplicados/casi-duplicados y salidas interpretables (reglas activadas + señales principales del modelo) para facilitar su adopción operativa. Implementación en Python con pipeline reproducible de preparación, entrenamiento y scoring.
Desarrollo de un buscador semántico de perfiles en CVs
Diseño e implementación de una PoC de búsqueda de CVs para acelerar la preselección de perfiles en una empresa de la industria del metal. Pipeline de ingesta de PDFs (nativos y escaneados) con OCR para hacerlos buscables (OCRmyPDF + Tesseract); textos normalizados y trazabilidad por manifiesto. Vectorización con Sentence-Transformers e indexado en ChromaDB. Exposición vía API FastAPI con búsqueda híbrida (literal + semántica), agrupación por CV y snippets explicativos. El sistema mostró robustez ante tildes, acrónimos y pequeños typos y desbloqueó escaneados inicialmente ilegibles.
Desarrollo de un modelo predictivo de demanda y optimización de producción en la industria láctea
Desarrollo e implementación de una prueba de concepto (PoC) para optimizar la planificación de producción semanal en una empresa láctea nacional. Se desarrollaron scripts en Python para la preparación y unificación de datos provenientes del ERP IZARO, integrando información de pedidos, stock, artículos, recetas y FCME. Se implementaron modelos de machine learning avanzados, incluyendo Gradient Boosting Regressor y SARIMAX, para predecir la demanda futura por artículo y cliente, considerando tendencias estacionales y restricciones de producción. El sistema incorpora la Fecha de Caducidad Mínima Exigida (FCME) para minimizar el producto no vendible y optimizar el uso del stock existente. Utilización de librerías como Pandas para el manejo de datos y herramientas de visualización para presentar los resultados.
Desarrollo de un sistema de búsqueda documental y question-answering (QA) para empresa farmacéutica.
Desarrollo de una prueba de concepto (PoC) de búsqueda de documentos internos (RAG – Retrieval Augmented Generation) mediante el uso de una base de datos vectorial (ChromaDB) y un modelo de embeddings multilingüe (LaBSE). El sistema detecta nuevos archivos (PDF, DOCX, TXT, PPTX), los convierte a texto plano, genera embeddings y los almacena en ChromaDB. Se implementó un segundo script para consultas en español que recupera el contexto más relevante de los documentos y genera respuestas utilizando un modelo LLM de question-answering (QA) entrenado en español. Se implementaron mecanismos para traducir el contexto en caso de estar en inglés y evitar duplicidades en los archivos procesados. Programación en Python y uso de modelos de NLP avanzados.
Análisis de datos y diseño de modelos para plataforma de analítica avanzada para el pequeño comercio.
Desarrollo de una plataforma de analítica avanzada para el pequeño comercio, enfocada en el uso de datos de actividades económicas y sociodemográficas. Utilización de Python, Jupyter y SQLServer para el tratamiento y análisis de datos, junto con GIT para la gestión del código. Los modelos predictivos generados fueron implementados para optimizar decisiones estratégicas y operativas del pequeño comercio, proporcionando insights clave mediante análisis descriptivos y predictivos. Además, se utilizó Scikit-learn para la creación de modelos de machine learning que proporcionan segmentaciones y recomendaciones personalizadas para los usuarios.
Implementación de modelos de predicción de contratación mediante series temporales y redes neuronales.
Creación de modelos de predicción avanzados basados en series temporales y Redes Neuronales Recurrentes (RNN) para predecir las necesidades de contratación por departamentos y perfiles en una empresa de IT a nivel nacional. Se realizaron pruebas de concepto, seguidas de una implementación completa en producción, utilizando Python como lenguaje de programación principal y TensorFlow para la creación de las redes neuronales. Además, se realizaron visualizaciones avanzadas de los resultados utilizando Matplotlib y Seaborn, para una mejor comprensión de las tendencias detectadas en los datos históricos.
Modelo predictivo para éxito en la contratación de perfiles técnicos en tiempo real.
Desarrollo e implementación de un modelo de predicción para identificar las probabilidades de éxito en la contratación de nuevos perfiles técnicos. Se utilizaron modelos de aprendizaje supervisado entrenados en Python y TensorFlow. El modelo se implementó en AWS Lambda para la predicción en tiempo real, permitiendo a los equipos de contratación evaluar candidatos de manera instantánea. También se integraron mecanismos de actualización automática del modelo para adaptarse a las tendencias cambiantes del mercado laboral. La solución incluyó además la utilización de Amazon S3 para el almacenamiento de datos.
Predicción de fugas de talento en empresas de IT.
Desarrollo de un modelo de predicción basado en aprendizaje supervisado para detectar fugas de empleados clave en una empresa de IT, con el objetivo de mejorar la retención de talento. Utilización de técnicas de análisis de datos avanzadas, como análisis de correlación y selección de características, para identificar los principales factores que influyen en la fuga de empleados. La implementación del modelo en Python permitió generar recomendaciones a los equipos de recursos humanos sobre cómo mitigar estos riesgos. Se emplearon técnicas de regularización para evitar el sobreajuste y garantizar la generalización del modelo.
Predicción de éxito en oportunidades comerciales para una empresa IT.
Implementación de un modelo de aprendizaje supervisado para predecir el éxito en oportunidades comerciales, basado en datos históricos de ventas y comportamiento de los clientes. El sistema se desarrolló en Python utilizando Scikit-learn para el entrenamiento y validación del modelo, y fue integrado en el CRM de la empresa para facilitar su uso por los equipos comerciales. Se generaron dashboards interactivos con Plotly y Dash, permitiendo a los usuarios visualizar las predicciones en tiempo real y tomar decisiones más informadas sobre las oportunidades comerciales.
Modelo de predicción de fuga de suscriptores para diario de tirada nacional.
Diseño y puesta en producción de un modelo predictivo para identificar posibles fugas de suscriptores en un diario nacional, usando aprendizaje supervisado y técnicas de segmentación avanzada. Utilización de Python para el desarrollo del modelo y Google BigQuery como repositorio de datos. Además de la predicción de la fuga, se generaron reportes detallados con recomendaciones personalizadas para retener a los suscriptores en riesgo, usando técnicas de marketing dirigidas. La integración con plataformas de CRM permitió automatizar las acciones correctivas, basadas en las predicciones del modelo.
Análisis avanzado en equipo de Management Information System (MIS) de un banco nacional.
Tareas de analítica avanzada y gestión de grandes volúmenes de datos en un banco nacional, con el objetivo de garantizar la correcta estructuración de las bases de datos informacionales del equipo de MIS. Utilización de PySpark para procesar grandes conjuntos de datos en DATIO, optimizando los cálculos corporativos y generando informes para el equipo directivo. Además, se emplearon técnicas de modelado predictivo para detectar patrones de riesgo financiero y mejorar la toma de decisiones en el banco.
Mantenimiento y mejora de modelos de predicción de impagos y fraude en comercializadora eléctrica.
Mantenimiento e implementación de mejoras en modelos de predicción de impagos y detección de fraude, utilizados por una comercializadora eléctrica. El proyecto incluyó la obtención de datos con SQL, programación en Python y uso de Amazon Redshift como repositorio de información. Se añadieron nuevas características al modelo, mejorando la precisión en la predicción de comportamientos fraudulentos. Además, se implementaron técnicas de ensamblado para combinar varios modelos de machine learning y mejorar el rendimiento general del sistema.
Clusterización de inversores solares para predicción de fallos en plantas fotovoltaicas.
Desarrollo de un sistema de predicción de fallos en inversores solares mediante la clusterización de datos y el uso de redes neuronales. Utilización de técnicas avanzadas de machine learning para identificar patrones en el rendimiento de los inversores y predecir averías antes de que ocurran. La base de datos utilizada fue Google BigQuery, con programación en R para el análisis y visualización de los datos, empleando ggplot2. La implementación de este sistema permitió reducir significativamente los tiempos de inactividad de las plantas fotovoltaicas y optimizar el mantenimiento preventivo.
Análisis de normalidad de componentes en plantas solares y eólicas.
Implementación de un algoritmo de aprendizaje no supervisado para analizar la normalidad de los diferentes elementos de una planta solar o eólica. Utilización de Google BigQuery como base de datos y programación en R para el análisis de los datos y la generación de reportes visuales con ggplot2. Se utilizaron técnicas de clustering y detección de anomalías para identificar comportamientos anormales en los componentes de las plantas, permitiendo a los equipos de mantenimiento actuar de forma preventiva y mejorar la eficiencia operativa de las plantas.
Modelo predictor de generación de energía en plantas fotovoltaicas mediante machine learning.
Desarrollo de un modelo avanzado de machine learning para predecir la generación de energía eléctrica en plantas fotovoltaicas, utilizando datos históricos y variables meteorológicas. La base de datos utilizada fue Google BigQuery, con programación en R para el análisis estadístico y la creación de modelos predictivos. Se emplearon técnicas de regresión y optimización de hiperparámetros para mejorar la precisión del modelo. La visualización de los resultados se realizó mediante ggplot2, proporcionando informes detallados a los responsables de la planta para mejorar la planificación de la producción energética.