MAT281 - Tarea N°02: Análisis de Datos e Inferencia Estadística¶

Objetivos de la Tarea¶

Esta tarea integra la segunda mitad del curso con énfasis en la inferencia estadística. Primero realizarás un análisis exploratorio extenso con pandas y, sobre esa base, aplicarás herramientas de inferencia: pruebas de hipótesis, intervalos de confianza, correlación y regresión (con diagnóstico de supuestos) usando scipy y statsmodels. El objetivo es explicar y cuantificar la incertidumbre, no solo describir.

Objetivos específicos¶

Realizar un análisis exploratorio profundo con pandas (groupby, pivot_table, tendencias).
Distinguir parámetro vs estadístico y la lógica del muestreo.
Formular y contrastar pruebas de hipótesis e interpretar correctamente el valor-p.
Construir e interpretar intervalos de confianza y medir correlación.
Ajustar e interpretar una regresión con statsmodels, evaluando sus supuestos.

Instrucciones¶

Completa tus datos personales en la celda correspondiente:
- Nombre:
- Rol USM:
Este archivo debe ser actualizado con tus respuestas y luego subido a tu repositorio personal del curso. Asegúrate de incluir todos los archivos necesarios para su ejecución (datos, imágenes, scripts, etc.).
La evaluación de la tarea considerará los siguientes aspectos:
- Desarrollo correcto de las soluciones solicitadas.
- Claridad, legibilidad y calidad del código.
- Calidad de las interpretaciones y conclusiones escritas.
- Reproducibilidad: al ejecutar Kernel → Restart Kernel and Run All Cells, el notebook debe correr sin errores.

Nota: cada vez que veas una celda con # FIXME, reemplázala por tu solución. Cada vez que se pida una interpretación, responde en la celda de texto indicada.

Datos personales¶

Nombre:
Rol USM:

In [ ]:

Copied!





# !pip install statsmodels
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from scipy import stats
import statsmodels.api as sm
import statsmodels.formula.api as smf

sns.set_theme(style="whitegrid")
# !pip install statsmodels
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from scipy import stats
import statsmodels.api as sm
import statsmodels.formula.api as smf

sns.set_theme(style="whitegrid")

Contexto: Suicide Rates Overview (1985–2016)¶

El dataset recopila tasas de suicidio de múltiples países, desagregadas por sexo, grupo etario y generación, junto con indicadores económicos.

Variable	Descripción
`country`, `year`	País y año
`sex`, `age`	Sexo y grupo etario
`suicides_no`	Número de suicidios
`population`	Población del grupo
`suicides/100k pop`	Tasa por 100.000 habitantes (variable clave)
`gdp_per_capita ($)`	PIB per cápita
`generation`	Generación demográfica

🖼️ Sugerencia de imagen — Inferencia estadística: busca "statistical inference population sample diagram" (Google Imágenes / Unsplash / Wikimedia) y pega una imagen aquí para reforzar la idea de esta sección. Descárgala en la carpeta images/ y reemplaza el marcador siguiente:

![Inferencia estadística](images/inferencia.png)

In [ ]:

Copied!

df = pd.read_csv("https://raw.githubusercontent.com/fralfaro/MAT281/main/docs/homeworks/data/suicide_rates.csv")
df.columns = df.columns.str.strip()
df.head()
df = pd.read_csv("https://raw.githubusercontent.com/fralfaro/MAT281/main/docs/homeworks/data/suicide_rates.csv")
df.columns = df.columns.str.strip()
df.head()

Ejercicio 0 — Preparación¶

Tu tarea:

Renombra suicides/100k pop → rate y gdp_per_capita ($) → gdp_pc.
Revisa tipos y nulos; convierte gdp_pc a numérico si fuese necesario.
Reporta el rango de años y la cantidad de países.

In [ ]:

Copied!

# FIXME
# FIXME

I.- Análisis exploratorio con pandas¶

Ejercicio 1.1 — Agregaciones¶

Tu tarea:

Tasa media de suicidio (rate) por sexo y por grupo etario (groupby).
Tabla wide con pivot_table: filas = age, columnas = sex, valores = rate media.
Interpreta: ¿qué grupo presenta la mayor tasa?

In [ ]:

Copied!

# FIXME
# FIXME

Interpretación (1.1): (escribe aquí)

Ejercicio 1.2 — Tendencias temporales¶

Tu tarea:

Calcula la tasa global por año y grafícala. ¿Hay tendencia?
Compara la evolución temporal entre hombres y mujeres en un mismo gráfico.
Identifica los 10 países con mayor tasa media histórica.

🖼️ Sugerencia de imagen — Tendencia temporal: busca "time series trend line chart" (Google Imágenes / Unsplash / Wikimedia) y pega una imagen aquí para reforzar la idea de esta sección. Descárgala en la carpeta images/ y reemplaza el marcador siguiente:

![Tendencia temporal](images/trend.png)

In [ ]:

Copied!

# FIXME
# FIXME

Ejercicio 1.3 — Relación con la economía¶

Tu tarea:

Construye un dataset agregado a nivel país-año (tasa media y gdp_pc).
Grafica un scatter de gdp_pc vs rate. ¿Se aprecia alguna relación?
Calcula la matriz de correlación de las variables numéricas (heatmap).

In [ ]:

Copied!

# FIXME
# FIXME

II.- Inferencia estadística¶

Ejercicio 2.1 — Parámetro vs estadístico¶

Considera la columna rate (a nivel país-año) como tu población.

Tu tarea:

Calcula la media poblacional $\mu$.
Toma una muestra aleatoria de $n=50$ y calcula su media $\bar{x}$.
Repite el muestreo 1000 veces, guarda las medias y grafica su histograma. Pregunta: ¿alrededor de qué valor se centran? Relaciónalo con el Teorema Central del Límite.

🖼️ Sugerencia de imagen — Teorema Central del Límite: busca "central limit theorem sampling distribution" (Google Imágenes / Unsplash / Wikimedia) y pega una imagen aquí para reforzar la idea de esta sección. Descárgala en la carpeta images/ y reemplaza el marcador siguiente:

![Teorema Central del Límite](images/tcl.png)

In [ ]:

Copied!

# FIXME
# FIXME

Interpretación (2.1): (escribe aquí)

Ejercicio 2.2 — Prueba de hipótesis (dos grupos)¶

¿La tasa de suicidio difiere entre hombres y mujeres?

Tu tarea:

Plantea $H_0$ y $H_1$ (bilateral).
Visualiza la distribución de rate por sexo.
Aplica una prueba t de dos muestras (stats.ttest_ind, Welch).
Concluye con $\alpha = 0.05$, en lenguaje del problema.

🖼️ Sugerencia de imagen — Valor-p: busca "p-value hypothesis test rejection region normal curve" (Google Imágenes / Unsplash / Wikimedia) y pega una imagen aquí para reforzar la idea de esta sección. Descárgala en la carpeta images/ y reemplaza el marcador siguiente:

![Valor-p](images/pvalue.png)

In [ ]:

Copied!

# FIXME
# FIXME

Conclusión (2.2): (escribe aquí $H_0$, $H_1$ y tu decisión)

Ejercicio 2.3 — Comparación de varios grupos¶

Tu tarea:

Compara la tasa media entre los grupos etarios (age).
Aplica un ANOVA de una vía (stats.f_oneway) para contrastar si al menos un grupo difiere.
Pregunta: ¿qué ventaja tiene el ANOVA frente a hacer muchas pruebas t por pares?

In [ ]:

Copied!

# FIXME
# FIXME

Respuesta (2.3): (escribe aquí)

Ejercicio 2.4 — Intervalo de confianza y correlación¶

Tu tarea:

Construye un IC del 95% para la tasa media de un país a tu elección (distribución t). Interprétalo en palabras.
Calcula el coeficiente de correlación de Pearson entre gdp_pc y rate y su valor-p (stats.pearsonr).
Pregunta: ¿correlación implica causalidad? Justifica.

In [ ]:

Copied!

# FIXME
# FIXME

Interpretación (2.4): (escribe aquí)

III.- Regresión e inferencia¶

Ejercicio 3.1 — Ajuste e interpretación¶

Sobre el dataset país-año, modela rate en función de gdp_pc (y, opcionalmente, otra variable como year o population).

Tu tarea:

Ajusta el modelo con smf.ols(...).fit() y muestra el summary().
Escribe la ecuación estimada e interpreta cada coeficiente y su valor-p.
Interpreta la prueba F global y el $R^2$.

🖼️ Sugerencia de imagen — Regresión lineal: busca "linear regression line of best fit residuals" (Google Imágenes / Unsplash / Wikimedia) y pega una imagen aquí para reforzar la idea de esta sección. Descárgala en la carpeta images/ y reemplaza el marcador siguiente:

![Regresión lineal](images/regresion.png)

In [ ]:

Copied!

# FIXME
# FIXME

Interpretación (3.1): (escribe aquí)

Ejercicio 3.2 — Diagnóstico de supuestos¶

Tu tarea:

Grafica residuos vs valores ajustados (¿homocedasticidad?).
QQ-plot de los residuos (sm.qqplot) para evaluar normalidad.
Si usas más de un predictor, calcula el VIF (multicolinealidad).
Concluye: ¿el modelo cumple razonablemente los supuestos? ¿Confiarías en sus valores-p?

In [ ]:

Copied!

# FIXME
# FIXME

Conclusión del diagnóstico (3.2): (escribe aquí)

IV.- Conclusiones¶

Redacta 3 a 5 conclusiones que integren el análisis descriptivo con la inferencia: ¿qué diferencias entre grupos resultaron estadísticamente significativas? ¿qué tan fuerte y confiable es la relación con la economía? ¿qué limitaciones y consideraciones éticas tiene trabajar con estos datos?

Conclusiones: (escribe aquí)