Caso de estudio

Desafío
El hundimiento del Titanic es uno de los naufragios más infames de la historia.
El 15 de abril de 1912, durante su viaje inaugural, el ampliamente considerado "insubmergible" RMS Titanic se hundió después de chocar con un iceberg. Desafortunadamente, no había suficientes botes salvavidas para todos a bordo, lo que resultó en la muerte de 1502 de los 2224 pasajeros y tripulantes.
Si bien hubo cierto elemento de suerte involucrado en sobrevivir, parece que algunos grupos de personas tenían más probabilidades de sobrevivir que otros.
En este desafío, te pedimos que construyas un modelo predictivo que responda a la pregunta: "¿qué tipo de personas tenían más probabilidades de sobrevivir?" utilizando datos de pasajeros (es decir, nombre, edad, género, clase socioeconómica, etc.).
Descripción del Dataset
Overview
Los datos se han dividido en dos grupos:
- training set (
train.csv) - test set (
test.csv)
El training set debe usarse para construir tus modelos de aprendizaje automático. Para el conjunto de entrenamiento, proporcionamos el resultado (también conocido como "verdad absoluta") para cada pasajero. Tu modelo se basará en "características" como el género y la clase de los pasajeros. También puedes usar ingeniería de características para crear nuevas características.
El test set debe usarse para ver qué tan bien funciona tu modelo en datos invisibles. Para el conjunto de prueba, no proporcionamos la verdad absoluta para cada pasajero. Es tu trabajo predecir estos resultados. Para cada pasajero en el conjunto de prueba, usa el modelo que entrenaste para predecir si sobrevivieron o no al hundimiento del Titanic.
También incluimos gender_submission.csv, un conjunto de predicciones que asumen que todas y solo las pasajeras mujeres sobreviven, como un ejemplo de cómo debería ser un archivo de envío.
Diccionario de Datos
| Variable Name | Definition | Possible Values |
|---|---|---|
survival |
Survival status | 0 (No), 1 (Yes) |
pclass |
Passenger class | 1 (1st), 2 (2nd), 3 (3rd) |
sex |
Gender | Male, Female |
age |
Age in years | Numerical |
sibsp |
Number of siblings/spouses on board | Numerical |
parch |
Number of parents/children on board | Numerical |
ticket |
Ticket number | String |
fare |
Passenger fare | Numerical |
cabin |
Cabin number | String (may contain missing values) |
embarked |
Port of embarkation | C (Cherbourg), Q (Queenstown), S (Southampton) |
Variable Notes
-
pclass: Un proxy para el estatus socioeconómico (SES)
- 1st = Upper
- 2nd = Middle
- 3rd = Lower
-
age: La edad es fraccionaria si es menor que 1. Si la edad se estima, está en forma de xx.5
-
sibsp: El conjunto de datos define las relaciones familiares de la siguiente manera...
- Sibling = brother, sister, stepbrother, stepsister
- Spouse = husband, wife (amantes y prometidos fueron ignorados)
-
parch: El conjunto de datos define las relaciones familiares de la siguiente manera...
- Parent = madre, padre
- Child = daughter, son, stepdaughter, stepson
- Algunos niños viajaron solo con una niñera, por lo tanto, parch=0 para ellos.
🔑 Nota: Para obtener más detalles sobre el proyecto, consulta la documentación de Kaggle sobre el desafío del Titanic.