Este control tiene como finalidad evaluar la utilización de distintos métodos estadísticos enseñados en clases (Regresión Lineal, CV, Cluster, CART). Se evaluará la correcta ejecución del código y el uso eficiente de las herramientas de codificación entregadas.
rmarkdown
El formato de respuesta es el siguiente:
El formato tiene un puntaje asignado dentro de la nota. 3 puntos
Importante: Deben ser suprimidos los mensajes y warnings del informe.
Suponga que Ud. trabaja como analista de datos en McDonalds. Usted cuenta con una base de datos cuyas observaciones corresponden a todos los productos vendidos en sus locales y su información nutricional. Cuenta con el nombre del producto (Item) y las siguientes características del mismo:
Para comenzar con su análisis:
data.table
, modelos de predicción de regresión, CART, cluster y Cross-Validation. Además, cargue la base de datos. (1 punto)Importante: Verifique la clase (class
) de las variables que vaya a utilizar en todos sus modelos y si es necesario transformarla a numérica o factor, hágalo!
Observación: No obtendrá puntaje si compara un modelo de regresión de una variable.
Pista1: Recuerde setear la semilla set.seed(12345)
.
Pista2: Si existen variables con NA
recuerde que puede excluirlas esas observaciones del análisis, pero no las elimine.
Proponga dos variables sobre las cuales segmentar la muestra, en orden de hacer análisis de clusters con el método de kmeans. Muestre sus resultados gráficamente. (5 puntos)
Cree la variable cat2
que clasifique a la variable Categoria
de la siguiente forma: (3 puntos)
Categoria | cat2 |
---|---|
Desayuno | Desayuno |
Café o té | Desayuno |
Carne de cerdo | Almuerzo |
Pollo y pescado | Almuerzo |
Ensaladas | Almuerzo |
Aperitivos | Almuerzo |
Postres | Postres y Líquidos |
Bebidas | Postres y Líquidos |
Batidos | Postres y Líquidos |
Pista: La variable cat2
debe ser una variable factor
.
cat2
. Pruebe cuál modelo clasifica mejor con validación cruzada. Entrene el modelo con un 80% de la muestra y testee con el 20% restante. Explicite qué modelo es mejor y porqué. (12 puntos)Importante: Recuerde setear la semilla set.seed(12345)
.