En esta sección debe redactar: * La importancia del problema a resolver: Describa el impacto del fenómeno que está estudiando. * Justificación: Explique por qué el análisis de datos es la herramienta adecuada para este caso particular. * Hoja de ruta: Una breve descripción de lo que el lector encontrará en las siguientes secciones del documento.
Describa la naturaleza de su conjunto de datos: * Origen: Indique la fuente de donde se extrajeron (ej. Kaggle, UCI Machine Learning Repository, base de datos institucional). * Diccionario de variables: Explique detalladamente qué representa cada columna y su unidad de medida. * Limpieza inicial: Mencione si realizó tratamiento de valores nulos (NA), imputación de datos o eliminación de valores atípicos (outliers).
Explique los fundamentos de las herramientas utilizadas: * Definición del Modelo: Describa brevemente el algoritmo o método estadístico (ej: Regresión Lineal Múltiple o Random Forest). * Supuestos: Liste los requisitos teóricos necesarios para que el modelo sea válido (ej: Normalidad, Homocedasticidad, Independencia, Linealidad). * Métricas de Evaluación: Explique el significado de las métricas que usará (ej: \(R^2\), MSE, RMSE, o Accuracy/Precisión si es clasificación).
Inserte aquí sus bloques de código para la exploración de datos: * Histogramas de la variable objetivo. * Matrices de correlación (Heatmaps). * Gráficos de dispersión para observar tendencias.
Inserte el código para la fase de modelado: * División de
datos: Partición en conjuntos de entrenamiento (train)
y prueba (test). * Entrenamiento: Ejecución de
los algoritmos vistos en el curso (ej. lm(),
randomForest(), o glm()).
Presente la evidencia visual y numérica del desempeño de su modelo: * Gráficas de residuos: Para verificar errores. * Comparación: Gráficos que contrasten los valores reales vs. las predicciones. * Tablas de métricas: Resumen de los errores encontrados.
Demuestre formalmente la validez de su modelo mediante pruebas estadísticas: * Normalidad: Prueba de Shapiro-Wilk o análisis de gráfico Q-Q. * Varianza: Prueba de Breusch-Pagan para verificar homocedasticidad. * Multicolinealidad: Cálculo del factor de inflación de la varianza (VIF).