rmarkdown
Este trabajo tiene como finalidad realizar análisis multivariado y validación cruzada, modelos CART y cluster en una base de datos, utilizando rmarkdown
. Se evaluará la correcta ejecución del código y el uso eficiente de las herramientas de codificación entregadas.
rmarkdown
El formato de respuesta es el siguiente:
El formato tiene un puntaje asignado dentro de la nota - 3 puntos.
Importante: Deben ser suprimidos los mensajes y warnings del informe.
Suponga que Ud. está interesado/a en entrar al mercado de las computadoras. Usted cuenta con una base de datos cuyas observaciones corresponden a computadoras vendidas durante un cierto período de tiempo. Cuenta con el precio (price) de cada computadora vendida y con las siguientes características de la misma:
Para comenzar con su análisis:
Cargue todos los paquetes que necesita para trabajar con data.table
, modelos de predicción de regresión, CART, cluster y Cross-Validation. Además, cargue la base de datos. 1 punto
Plantee dos modelos de regresión distintos que logren predecir el precio de las computadoras. 4 puntos
Evalúe cual modelo predice mejor el precio de las computadoras. Sea claro/a con su criterio de evaluación. Recuerde que no es lo mismo predecir dentro de muestra que fuera de muestra. 8 puntos
Pista: utilice set.seed(12345)
Ahora queremos predecir la calidad del computador, es decir, si el computador es premium (yes
o no
) utilizando árboles de decisión.
Pista: No utilice todas las variables para crear el modelo CART, seleccione algunas.
Importante: No es necesario explicar todos los nodos, pero si debe explicar al menos 2 nodos.
Ahora utilizaremos el método de validación cruzada para estimar la precisión de su modelo CART.
Cree el set de entrenamiento y de prueba. Utilice set.seed(12345). Muestre los resultados del set de entrenamiento. 8 puntos
Calcule la predicción del modelo 4 puntos
Calcule la matriz de confusión y la precisión del modelo. Muestre y explique ambos. 7 puntos
Un compañero de trabajo le ha sugerido que la demanda por computadoras tiene que ver con la velocidad de las mismas, por lo que debería ser posible encontrar una buena segmentación al organizar los datos en clusters por precio y velocidad. Usted, intrigado/a, decide comprobarlo. Para esto:
Cree un nuevo objeto que contenta solo el precio y la velocidad (speed). 3 puntos
Obtenga 5 clusters para esta segmentación a partir del objeto anterior y agregue estos clusters a la base de datos original. 7 puntos
Visualice estos clusters en un gráfico. 5 puntos