Trabajo Aplicado Análisis Multivariado, Validación Cruzada, Árboles de decisión y Cluster con rmarkdown

Este trabajo tiene como finalidad realizar análisis multivariado y validación cruzada, modelos CART y cluster en una base de datos, utilizando rmarkdown. Se evaluará la correcta ejecución del código y el uso eficiente de las herramientas de codificación entregadas.

Formato de rmarkdown

El formato de respuesta es el siguiente:

  1. Antes de la respuesta debes agregar un encabezado de tercer nivel (###) con P y el número de pregunta.
  2. Abajo del encabezado, debe estar escrita la pregunta.
  3. Agregar la linea de código.
  4. Agregar el output de ser necesario.
  5. Si requieres agregar alguna respuesta analítica, agregar al final de la pregunta (después del output).
  6. El título del informe debe tener un encabezado de primer nivel (#) y debe ser: Actividad 6.
  7. En los autores, agregar todos/as los/as integrantes del grupo
  8. El nombre del archivo .rmd debe tener la siguiente forma: Actividad 6 - Apellido.

El formato tiene un puntaje asignado dentro de la nota - 3 puntos.

Importante: Deben ser suprimidos los mensajes y warnings del informe.

Reglas de Envío

  1. Este trabajo debe ser publicado en su rpubs personal.
  2. Se habilitará en webcursos un apartado para que envíen el link de la actividad publicada en su rpubs y el archivo .rmd
  3. El plazo para enviar el link de su actividad es hasta las 23:59 hrs. del día martes 24 de Noviembre.

Investigando el mercado de computadoras.

Suponga que Ud. está interesado/a en entrar al mercado de las computadoras. Usted cuenta con una base de datos cuyas observaciones corresponden a computadoras vendidas durante un cierto período de tiempo. Cuenta con el precio (price) de cada computadora vendida y con las siguientes características de la misma:

  1. Velocidad en MhZ (speed)
  2. Capacidad del disco duro (hd)
  3. Memoria RAM (ram)
  4. Tamaño de la pantalla (screen)
  5. Entrada de cd (cd)
  6. Categoría Premium (premium)
  7. Año de la venta (ads)
  8. Marca del computador (brand)

Para comenzar con su análisis:

  1. Cargue todos los paquetes que necesita para trabajar con data.table, modelos de predicción de regresión, CART, cluster y Cross-Validation. Además, cargue la base de datos. 1 punto

  2. Plantee dos modelos de regresión distintos que logren predecir el precio de las computadoras. 4 puntos

  3. Evalúe cual modelo predice mejor el precio de las computadoras. Sea claro/a con su criterio de evaluación. Recuerde que no es lo mismo predecir dentro de muestra que fuera de muestra. 8 puntos

Pista: utilice set.seed(12345)

Ahora queremos predecir la calidad del computador, es decir, si el computador es premium (yes o no) utilizando árboles de decisión.

  1. Para esto plantee un modelo utilizando la información de la base de datos. Muestre su modelo. 6 puntos

Pista: No utilice todas las variables para crear el modelo CART, seleccione algunas.

  1. Explique los resultados de su modelo. 4 puntos

Importante: No es necesario explicar todos los nodos, pero si debe explicar al menos 2 nodos.

Ahora utilizaremos el método de validación cruzada para estimar la precisión de su modelo CART.

  1. Cree el set de entrenamiento y de prueba. Utilice set.seed(12345). Muestre los resultados del set de entrenamiento. 8 puntos

  2. Calcule la predicción del modelo 4 puntos

  3. Calcule la matriz de confusión y la precisión del modelo. Muestre y explique ambos. 7 puntos

Un compañero de trabajo le ha sugerido que la demanda por computadoras tiene que ver con la velocidad de las mismas, por lo que debería ser posible encontrar una buena segmentación al organizar los datos en clusters por precio y velocidad. Usted, intrigado/a, decide comprobarlo. Para esto:

  1. Cree un nuevo objeto que contenta solo el precio y la velocidad (speed). 3 puntos

  2. Obtenga 5 clusters para esta segmentación a partir del objeto anterior y agregue estos clusters a la base de datos original. 7 puntos

  3. Visualice estos clusters en un gráfico. 5 puntos