Manipulación de Datos

"En ciencia de datos, el 80% del tiempo se gasta preparando datos. El otro 20% se queja de eso." — anónimo, pero muy cierto.

Antes de entrenar modelos o crear visualizaciones impactantes, existe una etapa que define si todo lo demás tiene sentido: preparar los datos.

Imagina que tienes acceso a los registros históricos de matrículas de todas las universidades chilenas, o a los datos de calidad del aire en tiempo real de la Región Metropolitana. Antes de responder cualquier pregunta con esos datos, necesitas limpiarlos, estructurarlos y transformarlos. Eso es exactamente lo que aprenderás en este módulo.

¿Qué aprenderás aquí?

Este módulo cubre el flujo completo de trabajo con datos, integrando desde el primer momento una visualización básica como herramienta de comprensión — no como un tema aparte, sino como parte natural del proceso de análisis.

Etapa	Contenido	Visualización asociada
🔢 NumPy	Arreglos, operaciones numéricas, álgebra lineal	`matplotlib` básico
🗂️ Pandas I	Carga, limpieza y transformación de datos	`seaborn` básico
🗂️ Pandas II	Agrupaciones, combinaciones, reshaping	`seaborn` básico
🔍 EDA	Exploración y calidad del dato	`matplotlib` + `seaborn`

💡 La visualización avanzada (interactiva, geoespacial, redes) se aborda en profundidad en el módulo de Visualización. Aquí la usamos como lente para entender los datos.