Proyecto Final

Overview

Objetivo

Diseñar, validar y comunicar un sistema estadístico para resolver un desafío de Kaggle (p. ej., M5 Forecasting – Accuracy), maximizando el desempeño predictivo, la reproducibilidad (código y reporte) y la interpretabilidad de los resultados mediante un proceso riguroso de EDA, ingeniería de features, modelado comparativo y validación robusta.

Objetivos específicos

Realizar EDA y diagnóstico de calidad (faltantes, outliers, estacionalidad/tendencias si aplica).
Implementar preprocesamiento y feature engineering trazable (pipelines).
Comparar familias de modelos (baselines y avanzados) con búsqueda de hiperparámetros.
Definir y ejecutar validación robusta (K-fold estratificado o walk-forward en series) con reporte de media ± DE/IC.
Entregar interpretabilidad (importancias, SHAP/PD) y análisis de errores por subgrupos.
Comunicar resultados en notebook ejecutable (Colab), presentación BEAMER y informe.

Alcance del Proyecto

Uso del dataset oficial de Kaggle (p. ej., M5: ventas, calendario, precios) sin agregar datos sensibles.
Comparación de modelos con métricas adecuadas (p. ej., RMSSE/MAPE/RMSE en series; AUC/F1/LogLoss en clasificación).
Validación correcta al tipo de problema (K-fold o walk-forward) y reporte de incertidumbre (media ± DE / bootstrap).
Materiales reproducibles: repositorio GitHub (notebook Colab, scripts/pipelines, requirements.txt), PDF BEAMER y informe.
Formulación del proyecto: cuestionario guiado (objetivos/hipótesis/impacto), carta Gantt y planilla de costos coherentes con el plan de trabajo.

Fuera de alcance del proyecto: despliegue/MLOps (APIs, CI/CD) ni integraciones externas; recolección de datos privados adicionales a Kaggle; automatización de decisiones sin supervisión humana en entornos reales.

Entregables

Todos los artefactos del proyecto (notebooks, PDFs, planillas, etc.) deben publicarse en el repositorio personal de cada estudiante, dentro de la carpeta project/. Usa nombres de archivos claros y añade un README.md con instrucciones de ejecución y enlace al informe final.

Información importante

Plazo de entrega: 25 de noviembre de 2025 (hora local Chile).
Competencia base: Kaggle — M5 Forecasting – Accuracy (ver competencia).
Datos: descarga el dataset desde la pestaña Data (enlace directo).
Referencias: usa como inspiración los notebooks de la pestaña Code (explorar ejemplos).
Presentación: Utilizar diapositivas con BEAMER. Se deja el siguiente tutorial a modo de ejemplo.

Sugerencia: asegúrate de tener cuenta en Kaggle para habilitar la descarga de datos.

Parte Técnica + Presentación (70%)

Objetivo

Construir y justificar un sistema de pronóstico de demanda diaria para M5 (nivel ítem/tienda/estado) con pipeline reproducible, modelamiento comparativo y validación walk-forward, reportando RMSSE (obligatoria) y RMSE/MAE, con resultados interpretables y accionables.

Entregables (obligatorios)

Notebook ejecutable (Google Colab), que corra end-to-end:
- datos → EDA → features → modelos → validación → interpretabilidad → tablas/figuras
Presentación Beamer (PDF), 10–20 min, centrada en hallazgos clave

Secciones mínimas del Notebook

Definición del problema
- Relevancia del forecasting en retail (inventario, logística, decisiones).
- Objetivo técnico y unidad de modelado (ítem/tienda/estado o agregaciones) con justificación.
Exploración de datos (EDA)
- Archivos: sales_train_validation.csv, calendar.csv, sell_prices.csv.
- Entender d_1 … d_1913 y claves (item_id, store_id, state_id, etc.).
- Calidad: faltantes, ceros, rupturas; primeras correlaciones y patrones.
Visualización
- Tendencias y estacionalidad por producto/tienda/estado.
- Cambios de precio, patrones semanales, eventos especiales.
- Anomalías y comparación de subgrupos (top sellers vs long tail).
Preprocesamiento
- Reformateo a largo (melt) para lags/rollings.
- Regresores exógenos: precios (niveles/variaciones), eventos/feriados (calendar).
- Feature engineering (mínimos):
- Lags (7, 28, …), rolling means/std (7/28/56), calendario (dow, month, fin de semana, proximidad a evento).
- Codificación categóricas (one-hot/target) evitando leakage.
- Pipelines (sklearn): imputación, escala, codificación y selección integradas.
Modelamiento (comparativa ≥ 4)
- Baselines: Naive / SNaive (estacional) o media móvil.
- Clásicos: ARIMA/SARIMA/ETS (por unidad o segmentos).
- Regresión con lags: Linear/Elastic Net y Gradient Boosting (XGBoost/LightGBM/CatBoost).
- Multivariados: Prophet (con regresores) o VAR (si agrupas pocas series correlrelacionadas).
- Opcional: LSTM/RNN/DeepAR/Temporal Fusion (si justificas costo y comparas).
Validación
- Backtesting / walk-forward con origen rodante y ventana creciente.
- Explicitar fechas de train/validation por split y mantener causalidad temporal.
- Grid/random/Optuna dentro del esquema temporal (sin mirar el futuro).
Evaluación
- Métricas: RMSSE (M5), RMSE, MAE.
- Reporte: tabla media ± DE por modelo y por split.
- Gráficos: pred vs real (casos típicos y difíciles), residuales, error por subgrupos (tienda/estado/categoría).
- Ablation breve: impacto de features clave (precio/eventos).
Interpretabilidad y análisis de error
- Importancias (gain/perm) y SHAP/Partial Dependence en 1–2 modelos top.
- ≥ 2 insights accionables (sensibilidad a precio, efecto calendario/feriados).
Conclusiones técnicas
- Modelo recomendado + justificación: métrica principal, estabilidad, costo/tiempo.
- Limitaciones y próximos pasos (nuevas features, segmentación, mejor tuning).

Secciones mínimas del Beamer

Duración: 20–30 minutos.
Contenido mínimo: problema → datos/EDA → método/validación → resultados (tabla + gráficos) → interpretabilidad → limitaciones → próximos pasos.
Formato: PDF Beamer (subir al Portafolio).

Recomendación para el cierre (últimas 2–3 diapositivas)

Conclusión ejecutiva (1 slide)
- Modelo elegido + RMSSE (y RMSE/MAE) con media ± DE.
- 1 gráfico clave (pred vs real) y una frase de valor práctico.
- Limitaciones y riesgos (1 slide)
- 2–3 puntos concretos (datos, horizonte, complejidad) y cómo afectan el uso.
- Próximos pasos / llamada a la acción (1 slide)
- Qué mejorarías (feature/segmentación/validación), costo estimado y beneficio esperado.
- Link al repo y al notebook Colab para reproducir.

Formulación del Proyecto (30%)

Objetivos de esta parte

Objetivo general Estructurar el trabajo como proyecto estadístico aplicado, definiendo objetivos medibles, plan de trabajo (Gantt), presupuesto y criterios de éxito coherentes con la Parte Técnica.

Objetivos específicos

Formular OG y OE medibles con métricas/umbrales y alcance explícito.
Responder un cuestionario guiado (estilo ANID) que cubra problema, hipótesis, metodología, riesgos, ética e impacto.
Elaborar una Carta Gantt con hitos, tareas, responsables, dependencias y criterios de finalización.
Construir un presupuesto trazable por rubros (personal, infraestructura, difusión, misceláneos), con supuestos y tasas documentadas.

Entregables

Informe de Formulación (PDF o Markdown).
Carta Gantt (Excel).
Planilla de costos (Excel).

Cuestionario guiado (responder en el informe)

A. Contenido científico/tecnológico

Problema y oportunidad: ¿qué necesidad resuelve el pronóstico M5 y por qué ahora?
Resultados previos: ¿qué baselines/EDA ya tienes y qué aprendiste?
Hipótesis (1–3, contrastables): p. ej., “incluir lags 28 y eventos reduce RMSSE ≥ X%”.
Estado del arte: ¿qué enfoques comparables tomas como referencia y cómo te diferencias?
Criterios de éxito: métrica principal (RMSSE) + umbral esperado; métricas secundarias.

B. Estrategia de desarrollo e impacto

Producto final: repo reproducible + informe + póster/diapositivas. ¿Para qué decisiones sirve?
Usuarios/beneficiarios: ¿quién lo usaría (curso/industria) y cómo?
Ventajas: reproducibilidad, claridad, costo-tiempo, interpretabilidad.
Impacto esperado: técnico (lecciones/benchmark) y aplicado (decisiones de inventario, etc.).

C. Capacidades y organización

Equipo y roles: quién lidera EDA, modelado, validación, documentación y presentación.
Coordinación: ¿cómo gestionarán issues, branches, reviews?

D. Objetivos y métricas

OG del proyecto (1) y OE (4–6) con métrica y umbral cada uno.
Alineación: explicar cómo validación y métricas permiten verificar cada OE.

E. Metodología

Validación: por qué walk-forward es adecuado; detalle de splits y fechas.
Métricas: RMSSE (principal) + RMSE/MAE; cómo estimar incertidumbre (media ± DE, bootstrap).
Interpretabilidad: qué técnicas (importancias, SHAP/PD) y cómo se usarán para decisiones.
Sesgos y leakage: riesgos y mecanismos de prevención.

F. Ética, permisos y datos

Datos: naturaleza pública del M5; ausencia de datos sensibles; licencias/notebooks citados.
Uso responsable: límites de aplicación fuera del entorno académico.

G. Resultados e hitos

Resultados: R1 informe, R2 repo, R3 póster (y links).
Hitos: H1…H5 con entregables verificables.

Carta Gantt — temas mínimos (qué debe contener)

Horizonte sugerido: 8 semanas (ajustable). Hitos y tareas base (ejemplo)

Fase	Hito / Tarea	Descripción	Responsable	Inicio	Fin	Depende de	Entregable	Criterio de finalización
H1	EDA + limpieza	Calidad de datos, visuales clave	Analista	S1	S2	—	Notebook EDA	Checklist EDA completo
H2	Features + baselines	Lags/rollings, calendario; Naive/SNaive	Analista	S3	S4	H1	Notebook features	Tabla baselines
H3	Modelos + tuning	ARIMA/SARIMA/ETS + GBMs	Analista	S5	S6	H2	Notebook modelos	CV temporal implementado
H4	Validación + interpretabilidad	Walk-forward, SHAP/PD, subgrupos	Líder/Analista	S7	S7	H3	Figuras y tabla media ± DE	Reproducible y documentado
H5	Informe + BEAMER + repo	Redacción y slides finales	Autor/Líder	S8	S8	H4	PDF informe + PDF Beamer + README	Checklist de entrega

Incluir en tu Gantt

Responsable por tarea, dependencias, entregables y criterio de salida.
Riesgos por fase (p. ej., sobretiempos en tuning) y plan de contingencia.
Marcar hitos (diamante) y tareas (barras) si usas diagrama.

Consejo: alinear las fechas del Gantt con las fechas de splits del walk-forward para que la validación quede calendarizada y auditable.

Presupuesto — estructura y supuestos

Rubros mínimos

Personal: horas y rol (Líder, Analista, Autor/a del informe/póster).
Infraestructura: cómputo (CPU/GPU/TPU), almacenamiento.
Difusión: impresión de póster, insumos de presentación.
Misceláneos/contingencias: transporte, imprevistos menores.

Plantilla de tabla (resumen por ítem)

Categoría	Ítem	UM	Cantidad	Costo unitario	Periodo	Notas	Subtotal
Personal	Líder de proyecto	hora	20	35.000	S1–S8	Revisión/seguimiento	$…
Personal	Analista de datos	hora	80	25.000	S1–S8	EDA/modelado	$…
Infraestructura	Cómputo nube	hora	30	1.800	S3–S6	Entrenamiento/tuning	$…
Difusión	Impresión póster	unidad	1	45.000	S8	A0 satinado	$…
Misceláneos	Contingencias	lump-sum	1	30.000	S1–S8	Varios	$…

Totales

Subtotal = Σ Subtotales
IVA (ej. 19%, si aplica)
Contingencia (ej. 10%, configurable)
TOTAL = Subtotal + IVA + Contingencia

Supuestos (dejar explícitos en el informe)

Tarifas por hora y disponibilidad del equipo.
Cantidad de horas de cómputo estimadas según tuning y tamaño de muestra.
Necesidad de impresión del póster (o solo digital).
Tasas de IVA/contingencia y política de redondeo.

Tip: vincula cada ítem de costo a un hito/tarea de la carta Gantt.