Análisis Exploratorio de Datos del Desafío del Titanic en Kaggle¶
Descripción del Desafío de Kaggle¶
El Desafío del Titanic en Kaggle es uno de los concursos más populares para principiantes en el campo del análisis de datos y el aprendizaje automático. El objetivo es construir un modelo predictivo que determine si un pasajero sobrevivió o no al hundimiento del Titanic en función de las características disponibles sobre los pasajeros.
Puedes encontrar el desafío en el siguiente enlace: Titanic: Machine Learning from Disaster
Objetivo del Ejercicio¶
El objetivo de este ejercicio es realizar un análisis exploratorio de datos (EDA) para comprender mejor el conjunto de datos del Titanic. Esto implica:
- Carga y visualización de los datos: Importar los datos y familiarizarse con su estructura.
- Resumen estadístico y visualización de datos faltantes: Identificar datos faltantes y obtener un resumen estadístico básico.
- Análisis de variables clave: Explorar cómo variables específicas, como el sexo, la clase y la edad, afectan la tasa de supervivencia.
- Visualización de patrones y relaciones: Utilizar gráficos para identificar patrones y relaciones en los datos.
Pasos a Seguir (Ejemplo)¶
1. Cargar los Datos¶
- Ve a la página del desafío del Titanic en Kaggle.
- Inicia sesión en tu cuenta de Kaggle.
- Descarga los archivos
train.csv
ytest.csv
.
2. Configurar Google Colab¶
- Ve a Google Colab.
- Inicia sesión con tu cuenta de Google.
- Crea un nuevo cuaderno (
File > New Notebook
).
3. Importar Bibliotecas Necesarias¶
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
4. Cargar y Visualizar los Datos¶
Carga los datos en un DataFrame de pandas:
train_df = pd.read_csv('https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv')
train_df.head()
5. Realizar el Análisis Exploratorio de Datos (EDA)¶
a. Resumen Estadístico¶
Obtén un resumen estadístico de las características numéricas:
train_df.describe()
b. Información sobre el DataFrame¶
Obtén información sobre el DataFrame, incluyendo el tipo de datos y los valores faltantes:
train_df.info()
c. Visualización de Datos Faltantes¶
Identifica y visualiza los datos faltantes en el DataFrame:
sns.heatmap(train_df.isnull(), cbar=False, cmap='viridis')
d. Distribución de Supervivientes¶
Visualiza la distribución de los pasajeros que sobrevivieron y los que no:
sns.countplot(x='Survived', data=train_df)
e. Análisis de Supervivencia por Sexo¶
Explora cómo la tasa de supervivencia varía según el sexo:
sns.countplot(x='Survived', hue='Sex', data=train_df)
f. Análisis de Supervivencia por Clase¶
Analiza la tasa de supervivencia en función de la clase del pasajero:
sns.countplot(x='Survived', hue='Pclass', data=train_df)
g. Análisis de Edad¶
Examina la distribución de las edades de los pasajeros:
sns.histplot(train_df['Age'].dropna(), kde=True, bins=30)
h. Análisis de Supervivencia por Edad¶
Visualiza la relación entre la edad y la supervivencia:
plt.figure(figsize=(10, 6))
sns.boxplot(x='Survived', y='Age', data=train_df)