Control 3: Métodos estadísticos en DS

Este control tiene como finalidad evaluar la utilización de distintos métodos estadísticos enseñados en clases (Regresión Lineal, CV, Cluster, CART). Se evaluará la correcta ejecución del código y el uso eficiente de las herramientas de codificación entregadas.

Formato de rmarkdown

El formato de respuesta es el siguiente:

  1. Antes de la respuesta debes agregar un encabezado de tercer nivel (###) con P y el número de pregunta.
  2. Abajo del encabezado, debe estar escrita la pregunta.
  3. Agregar la linea de código.
  4. Agregar el output de ser necesario.
  5. Si requieres agregar alguna respuesta analítica, agregar al final de la pregunta (después del output).
  6. El título del informe debe tener un encabezado de primer nivel (#) y debe ser: Control 3 - Apellido.
  7. El nombre del archivo .rmd debe tener la siguiente forma: Control 3 - Apellido.

El formato tiene un puntaje asignado dentro de la nota. 3 puntos

Importante: Deben ser suprimidos los mensajes y warnings del informe.

Reglas de Envío

  1. Este trabajo debe ser publicado en su rpubs personal.
  2. Se habilitará (al igual que para la actividades anteriores) en webcursos un apartado para que envíen el link de rpubs y el archivo .rmd del control.
  3. El plazo para enviar su control es hasta finalizar la clase.

McDonalds

Suponga que Ud. trabaja como analista de datos en McDonalds. Usted cuenta con una base de datos cuyas observaciones corresponden a todos los productos vendidos en sus locales y su información nutricional. Cuenta con el nombre del producto (Item) y las siguientes características del mismo:

  1. “Categoría”: Categoría del producto
  2. “Item”: Nombre del producto
  3. “Porción”: Porción
  4. “Calorías” Calorías de la porción en cal
  5. “Calorías de grasa”: calorías de grada de la porción en cal
  6. “Grasas totales”: grasas totales en gramos
  7. “Grasas totales (% diario recomendado)”: Porcentaje entre 0 a 100
  8. “Grasas saturadas”: grasas saturadas en gramos
  9. “Grasas saturadas (% diario recomendado)”: Porcentaje entre 0 a 100
  10. “Grasas trans”: Grasas trans en gramos
  11. “Colesterol”: Colesterol en gramos
  12. “Colesterol (% diario recomendado)”: Porcentaje entre 0 a 100
  13. “Sodio”: Sodio en gramos
  14. “Sodio (% diario recomendado)”: Porcentaje entre 0 a 100
  15. “Carbohidratos”: Carbohidratos en gramos
  16. “Carbohidratos (% diario recomendado)”: Porcentaje entre 0 a 100
  17. “Fibra dietética”: Fibra dietética en gramos
  18. “Fibra dietética (% diario recomendado)”: Porcentaje entre 0 a 100
  19. “Azúcar”: Azúcar en gramos
  20. “Proteína”: Proteína en gramos
  21. “Vitamina A (% diario recomendado)”: Porcentaje entre 0 a 100
  22. “Vitamina C (% diario recomendado)”: Porcentaje entre 0 a 100
  23. “Calcio (% diario recomendado)”: Porcentaje entre 0 a 100
  24. “Hierro (% diario recomendado)”: Porcentaje entre 0 a 100

Para comenzar con su análisis:

  1. Cargue todos los paquetes que necesita para trabajar con data.table, modelos de predicción de regresión, CART, cluster y Cross-Validation. Además, cargue la base de datos. (1 punto)

Importante: Verifique la clase (class) de las variables que vaya a utilizar en todos sus modelos y si es necesario transformarla a numérica o factor, hágalo!

  1. Realice dos modelos de regresión lineal para predecir las calorías de los alimentos ¿Cuál predice mejor dentro de muestra?. (8 puntos)

Observación: No obtendrá puntaje si compara un modelo de regresión de una variable.

  1. Realice validación cruzada (CV) a los modelos de la pregunta anterior por el método K-folds con 5 folds. ¿Se mantienen las conclusiones anteriores?. (8 putos)

Pista1: Recuerde setear la semilla set.seed(12345).

Pista2: Si existen variables con NA recuerde que puede excluirlas esas observaciones del análisis, pero no las elimine.

  1. Proponga dos variables sobre las cuales segmentar la muestra, en orden de hacer análisis de clusters con el método de kmeans. Muestre sus resultados gráficamente. (5 puntos)

  2. Cree la variable cat2 que clasifique a la variable Categoria de la siguiente forma: (3 puntos)

Categoria cat2
Desayuno Desayuno
Café o té Desayuno
Carne de cerdo Almuerzo
Pollo y pescado Almuerzo
Ensaladas Almuerzo
Aperitivos Almuerzo
Postres Postres y Líquidos
Bebidas Postres y Líquidos
Batidos Postres y Líquidos

Pista: La variable cat2 debe ser una variable factor.

  1. Realice dos modelos de árboles de clasificación de la variable cat2. Pruebe cuál modelo clasifica mejor con validación cruzada. Entrene el modelo con un 80% de la muestra y testee con el 20% restante. Explicite qué modelo es mejor y porqué. (12 puntos)

Importante: Recuerde setear la semilla set.seed(12345).