MAT281 - Tarea N°02¶
Instrucciones¶
1.- Completa tus datos personales (nombre y rol USM) en siguiente celda.
Nombre:
Rol:
2.- Debes subir este archivo con tus cambios a tu repositorio personal del curso, incluyendo datos, imágenes, scripts, etc.
3.- Se evaluará:
- Soluciones
- Código
- Al presionar
Kernel -> Restart Kernel and Run All Cells
deben ejecutarse todas las celdas sin error.
4.- Esta Tarea debe ser entregada en Dos Jupyter Notebooks Distinto.
- Ejemplo:
hw_02_part_01.ipynb
,hw_02_part_02.ipynb
.
I.- LearnPlatform¶
Introducción¶
Nelson Mandela creía que la educación era el arma más poderosa para cambiar el mundo. Pero no todos los estudiantes tienen las mismas oportunidades de aprender. Es necesario promulgar políticas y planes efectivos para que la educación sea más equitativa, y tal vez su innovador análisis de datos ayude a revelar la solución.
La investigación actual muestra que los resultados educativos están lejos de ser equitativos. El desequilibrio se vio agravado por la pandemia de COVID-19. Existe una necesidad urgente de comprender y medir mejor el alcance y el impacto de la pandemia en estas inequidades.
La empresa de tecnología educativa LearnPlatform se fundó en 2014 con la misión de ampliar el acceso equitativo a la tecnología educativa para todos los estudiantes y profesores. Los distritos y estados utilizan el sistema integral de efectividad de la tecnología educativa de LearnPlatform para mejorar continuamente la seguridad, la equidad y la efectividad de su tecnología educativa. LearnPlatform lo hace generando una base de evidencia de lo que está funcionando y promulgándola en beneficio de los estudiantes, los profesores y los presupuestos.
En esta competencia de análisis, trabajará para descubrir tendencias en el aprendizaje digital. Logre esto con un análisis de datos sobre cómo el compromiso con el aprendizaje digital se relaciona con factores como la demografía del distrito, el acceso a la banda ancha y las políticas y eventos a nivel estatal / nacional. Luego, envíe un notebook de Kaggle para proponer su mejor solución a estas desigualdades educativas.
Sus presentaciones informarán las políticas y prácticas que cierran la brecha digital. Con una mejor comprensión de las tendencias de aprendizaje digital, puede ayudar a revertir la pérdida de aprendizaje a largo plazo entre los más vulnerables de Estados Unidos, haciendo que la educación sea más equitativa.
Planteamiento del problema¶
La pandemia COVID-19 ha interrumpido el aprendizaje de más de 56 millones de estudiantes en los Estados Unidos. En la primavera de 2020, la mayoría de los gobiernos estatales y locales de los EE. UU. Cerraron las instituciones educativas para detener la propagación del virus. En respuesta, las escuelas y los maestros han intentado llegar a los estudiantes de forma remota a través de herramientas de aprendizaje a distancia y plataformas digitales. Hasta el día de hoy, las preocupaciones sobre la exacerbación de la brecha digital y la pérdida de aprendizaje a largo plazo entre los estudiantes más vulnerables de Estados Unidos continúan creciendo.
Desafío¶
Los estudiantes deben explorar (1) el estado del aprendizaje digital en 2020 y (2) cómo la participación del aprendizaje digital se relaciona con factores como la demografía del distrito, el acceso a banda ancha y las políticas y eventos a nivel estatal/nacional.
Le recomendamos que oriente el análisis con preguntas relacionadas con los temas descritos anteriormente (en negrita). A continuación se muestran algunos ejemplos de preguntas que se relacionan con el planteamiento de nuestro problema:
- ¿Cuál es el panorama de la conectividad y el compromiso digitales en 2020?
- ¿Cuál es el efecto de la pandemia de COVID-19 en el aprendizaje en línea y a distancia, y cómo podría evolucionar también en el futuro?
- ¿Cómo cambia la participación de los estudiantes con los diferentes tipos de tecnología educativa durante el transcurso de la pandemia?
- ¿Cómo se relaciona la participación de los estudiantes con las plataformas de aprendizaje en línea con las diferentes geografías? ¿Contexto demográfico (por ejemplo, raza/etnia, ESL, discapacidad de aprendizaje)? Contexto de aprendizaje? ¿Estatus socioeconómico?
- ¿Se correlacionan ciertas intervenciones, prácticas o políticas estatales (por ejemplo, estímulo, reapertura, moratoria de desalojo) con el aumento o la disminución de la participación en línea?
Evaluación¶
Claridad¶
- ¿El autor presentó un hilo claro de preguntas o temas que motivaron su análisis?
- ¿El autor documentó por qué/cómo se eligió y utilizó un conjunto de métodos para su análisis?
- ¿Está documentado el notebook de una manera que sea fácilmente reproducible (p. Ej., Código, fuentes de datos adicionales, citas)?
- ¿El notebook contiene visualizaciones de datos claras que ayuden a comunicar de manera eficaz los hallazgos del autor tanto a expertos como a no expertos?
Precisión¶
- ¿El autor procesó los datos (por ejemplo, fusionando) y/o fuentes de datos adicionales con precisión?
- ¿La metodología utilizada en el análisis es apropiada y razonable?
- ¿Son razonables y convincentes las interpretaciones basadas en el análisis y la visualización?
Creatividad¶
- ¿El notebook ayuda al lector a aprender algo nuevo o lo desafía a pensar de una manera nueva?
- ¿El notebook aprovecha métodos novedosos y/o visualizaciones que ayudan a revelar información a partir de datos y/o comunicar hallazgos?
- ¿El autor utilizó fuentes de datos públicas adicionales en su análisis?
## FIX ME PLEASE ##
II.- Titanic - Machine Learning from Disaster¶
El desafío Titanic - Machine Learning from Disaster en Kaggle invita a predecir qué pasajeros sobrevivieron al naufragio del Titanic mediante un modelo de machine learning. Utiliza datos reales de los pasajeros, como su nombre, edad, género y clase socioeconómica, para explorar patrones de supervivencia y construir un modelo predictivo. Este es uno de los desafíos más populares de Kaggle y un excelente punto de partida para aprender sobre machine learning y análisis de datos.
Pasos para participar:¶
Unirse a la competencia:
- Crea una cuenta o inicia sesión en Kaggle y acepta las reglas para acceder a los datos de la competencia.
Descargar y explorar los datos:
- Descarga los archivos
train.csv
ytest.csv
desde la página de datos. train.csv
contiene información de 891 pasajeros, incluyendo si sobrevivieron o no (columnaSurvived
). Entest.csv
, se oculta esta columna para que tu modelo prediga la supervivencia de 418 pasajeros adicionales.
- Descarga los archivos
Desarrollar el modelo:
- Usa
train.csv
para explorar y descubrir patrones, luego entrena un modelo de machine learning que pueda predecir la supervivencia entest.csv
. Un recurso útil para aprender es el tutorial de Alexis Cook, que explica paso a paso cómo hacer tu primera predicción. - Puedes explorar notebooks de otros participantes para inspiración y técnicas avanzadas en la sección de notebooks.
- Usa
Realizar una predicción y enviar tu archivo:
- El archivo CSV de predicciones debe tener dos columnas:
PassengerId
ySurvived
. Puedes consultar un ejemplo en el archivogender_submission.csv
disponible en la página de datos. - Sube tu archivo en la sección de envíos y revisa tu puntaje de precisión, que mide el porcentaje de pasajeros que tu modelo predijo correctamente.
- El archivo CSV de predicciones debe tener dos columnas:
Revisar el leaderboard y mejorar el modelo:
- Ve tu posición en el leaderboard y mejora tu modelo basándote en ideas de los foros o pruebas adicionales.
Ayuda y recursos adicionales:¶
- Foro de discusión del Titanic: Un espacio donde puedes hacer preguntas y ver consejos de otros participantes.
- Vídeo sobre la jerga de Kaggle por Dr. Rachael Tatman, para entender mejor los términos comunes en Kaggle.
- Notebooks de la competencia: Revisa notebooks compartidos para ver cómo otros abordan el desafío.
Este desafío es ideal para principiantes en machine learning y permite practicar desde la limpieza de datos hasta el desarrollo y evaluación de modelos.
## FIX ME PLEASE ##