El objetivo es estudiar la relación calidad precio de 35 marcas de whisky, utilizando las variables
Se dispone además de una variable categórica “categorías”, que clasifica las marcas según su contenido de malta (1=Bajo, 2=Estándar, 3=Puro malta).
Muestra de la data inicial
price | malt | type | aging | taste |
---|---|---|---|---|
70 | 20 | low | 5.0 | 3 |
60 | 20 | low | 5.0 | 2 |
65 | 20 | low | 7.5 | 2 |
74 | 25 | low | 12.0 | 2 |
70 | 25 | low | 12.0 | 3 |
73 | 30 | low | 5.0 | 0 |
Resumen de las variables de la data
price | malt | type | aging | taste | |
---|---|---|---|---|---|
Min. : 55.00 | Min. : 20.0 | low :11 | Min. : 5.000 | Min. :0.000 | |
1st Qu.: 73.00 | 1st Qu.: 30.0 | med :17 | 1st Qu.: 8.000 | 1st Qu.:2.000 | |
Median : 83.00 | Median : 40.0 | pure: 7 | Median :10.000 | Median :2.000 | |
Mean : 85.71 | Mean : 47.4 | NA | Mean : 9.529 | Mean :2.229 | |
3rd Qu.: 91.50 | 3rd Qu.: 45.0 | NA | 3rd Qu.:12.000 | 3rd Qu.:3.000 | |
Max. :160.00 | Max. :100.0 | NA | Max. :12.500 | Max. :4.000 |
Data cuantitativa
price | malt | aging | taste |
---|---|---|---|
70 | 20 | 5.0 | 3 |
60 | 20 | 5.0 | 2 |
65 | 20 | 7.5 | 2 |
74 | 25 | 12.0 | 2 |
70 | 25 | 12.0 | 3 |
73 | 30 | 5.0 | 0 |
Trabajo
Realice primero un ACP no normado y luego un ACP normado utilizando el software R y responda a las preguntas.
eigenvalue | variance.percent | cumulative.variance.percent | |
---|---|---|---|
Dim.1 | 953.238889 | 84.4467052 | 84.44671 |
Dim.2 | 169.350357 | 15.0026188 | 99.44932 |
Dim.3 | 4.980882 | 0.4412525 | 99.89058 |
Dim.4 | 1.235178 | 0.1094234 | 100.00000 |
En el ACP no normado, analice la contribución de las variables a la inercia(varianza). ¿Realmente se puede considerar un análisis de las cuatro variables?
Dim.1 | Dim.2 | Dim.3 | Dim.4 | |
---|---|---|---|---|
price | 27.4806116 | 72.2114471 | 0.2990155 | 0.0089257 |
malt | 72.3644119 | 27.6211124 | 0.0136137 | 0.0008621 |
aging | 0.1411796 | 0.1553773 | 98.4415515 | 1.2618916 |
taste | 0.0137969 | 0.0120632 | 1.2458193 | 98.7283206 |
En primera instancia, teniendo en cuenta el porcentaje de varianza acumulada que explica las dimensiones, agregando las dos primeras dimensiones, se explica el 99% de la varianza por lo que se escoge unicamente las dos primeras dimensiones. En esos terminos, las únicas variables que aportan significativamente a las dos dimensiones seleccionaas son el Price y el Malt por lo que se descartan las otras dos variables, es decir, no se puede considerar un análisis con las 4 variables.
Realice el ACP normado, justifique por qué es el que conviene para los objetivos de este taller.
eigenvalue | variance.percent | cumulative.variance.percent | |
---|---|---|---|
Dim.1 | 2.2332690 | 55.831725 | 55.83172 |
Dim.2 | 0.8064826 | 20.162065 | 75.99379 |
Dim.3 | 0.6295103 | 15.737758 | 91.73155 |
Dim.4 | 0.3307381 | 8.268451 | 100.00000 |
## Dim.1 Dim.2 Dim.3 Dim.4
## price 32.98278 6.83923015 3.085017 57.0929775
## malt 29.08912 13.53859727 17.211516 40.1607634
## aging 23.58356 0.04937816 73.749324 2.6177390
## taste 14.34454 79.57279442 5.954142 0.1285201
Si bien, la varianza explicada en el ejercicio normado no se consigue sin incluir todas las dimensiones, este ejercicio es mejor ya que incluye la variable taste la cual es objetivo de estudio con los datos. Sin embargo es importante resaltar que se debe incluir por lo menos 3 dimensiones para que se pueda explicar al menos un 90% de la varianza de los datos.
¿Cuántos ejes retiene para el análisis? ¿Por qué?
3 dimensiones, ya que, al incluir las tres primeras dimensiones, se explica al menos el 91,7% de la varianza de la muestra. Si bien, lo ideal es incluir una dimension que tenga un eingevalor mayor a 1, solo considerar la primera dimensión reduciría demasiado el porcentaje de varianza explicado.
¿Cuál es la variable que más contribuye al primer eje? ¿Cuál es la que menos? (indique los porcentajes).
x | |
---|---|
price | 32.98277 |
malt | 29.08912 |
aging | 23.58356 |
taste | 14.34454 |
Price es la variable con mayor aporte a la Dim1 con un 32.98% mientras que taste es la que menos aporta con tan solo un 14.34%.
Según el círculo de correlaciones, ¿cuáles son las variables más correlacionadas? ¿Cuánto es la correlación? ¿Si corresponden a lo que se observa en la matriz de correlaciones?
Las variables que presentan mayor correlación son Price y Malt con una correlación positiva del 0.66
Además, gracias a los 3 asterizcos, podemos inferir que la correlación existente entre las dos variables es significativa al 99%.
Las correlaciones individuales entre pares de variables se corrobora a su vez entre las correlaciones que estas presentan con las dimensiones resultantes del ACP quedando las variables con mayor correlación en la primera dimensión (price + malt + aging) y la restante en la dimension 2 (taste).
¿Cuál es la variable mejor representada en el primer plano factorial? ¿Cuál la peor? (escriba los porcentajes).
Dim.1 | Dim.2 | Dim.3 | Dim.4 | |
---|---|---|---|---|
price | 0.8582506 | -0.2348557 | -0.1393575 | -0.4345437 |
malt | 0.8060015 | -0.3304337 | -0.3291630 | 0.3644543 |
aging | 0.7257302 | 0.0199556 | 0.6813660 | 0.0930476 |
taste | 0.5659967 | 0.8010872 | -0.1936025 | 0.0206171 |
La mejor representada en el primer plano es el precio con un 85% de su comportamiento representado, mientras que la peor es la apreciación, con un 56% de su comportamiento representado.
¿Qué representa el primer eje? ¿Qué nombre le asignaría? ¿Qué representa el segundo eje?
El primer eje representa atributos netamente del producto como el tiempo de añejo (vejez), concentración de malta y su precio de venta, por lo que le asignaria el nombre de caracteristicas del producto. La segunda dimensión adoptaría el nombre de la única variable que contiene, en este caso Apreciación.
¿Cuál es el individuo mejor representado en el primer plano factorial? Ubique sobre el gráfico de individuos al peor representado sobre el primer plano factorial (indique los porcentajes).
Primero se realiza la grafica de las dos dimensiones elegidas y los individuos del dataframe.
## 1 2 3 4 5 6
## 3.364301530 6.367478764 3.313206812 0.195485229 0.047039291 6.674079122
## 7 8 9 10 11 12
## 4.152905503 6.072775251 5.491416174 0.172835514 0.004179031 3.369804144
## 13 14 15 16 17 18
## 1.350541929 0.276971380 0.265007922 0.065030629 0.182025535 0.433767435
## 19 20 21 22 23 24
## 0.077245339 0.083499349 0.196798934 0.492817901 0.283800464 2.090328978
## 25 26 27 28 29 30
## 1.148357468 4.061846902 1.197390869 0.397305978 8.780181173 19.814526774
## 31 32 33 34 35
## 6.197597381 2.693992161 4.133469395 5.053879532 1.498110207
El individuo mejor representado en la dimensión 1 es el 30 con un 19.81% y el peor es el 11, con un 0.41.
¿Qué características tienen las marcas de Whisky según sus ubicaciones en el plano? (a la derecha, a la izquierda, arriba, abajo).
Dim.1 | Dim.2 | Dim.3 | Dim.4 | |
---|---|---|---|---|
price | 0.8582506 | -0.2348557 | -0.1393575 | -0.4345437 |
malt | 0.8060015 | -0.3304337 | -0.3291630 | 0.3644543 |
aging | 0.7257302 | 0.0199556 | 0.6813660 | 0.0930476 |
taste | 0.5659967 | 0.8010872 | -0.1936025 | 0.0206171 |
Si el vector se posiciona arriba, quiere decir que es mejor explicado por la dimensión 2, mientras que si se posiciona abajo, será mejor explicado por la dimensión 1. A su vez, entre más tienda a alcanzar el valor 1 de la circunferencia, más participación dentro de la dimensión tendrá. Por ende, tal como se evidencia en la tabla de correlaciones, las primeras 3 variables quedan en la dim 1 y la ultima en la dim 2 porque es allí en esas dimensiones donde cada una de las variables presenta el mayor porcentaje de explicación de su comportamiento.
A partir de la posición en el plano deduzca las características de las tres categorías de whisky (bajo, estándar y pura malta).
Teniendo en cuenta la dirección del vector de cada variable, no necesariamente las marcas mas costosas, con mayor nivel de malta y más vejez, fueron las que obtuvieron mejores calificaciones. Las mejores calificaciones fueron obtenidas por aquelas marcas con niveles medios y bajos en malta.
Supongamos que usted desea comprar una botella de Whisky con buena apreciación y que no sea tan cara. Dé dos números de marcas que compraría. ¿Por qué? ?Cuáles son las características de las dos marcas?
La 16 y la 20. En primera instancia son las dos que tienen mejor calificación al estar apuntando a la dirección de la dimensión 2 y además, al estar cerca al origen de la dimensión 1, puede indicar que tiene un precio que no está entre los más altos.
Seleccione dos marcas que definitivamente no compraría. ¿Por qué? ¿Qué características tienen?
La 30 y 35. Son dos de las marcas con peores calificaciones al estar opuestas al vector de calificación y además, con un precio de los mas altos al ser paralelas al vector de precio. Es cierto que están entre las de mayor vejez y mayor concentración de malta, pero como lo mencioné anteriormente, no necesariamente esto implica que tengan mejor calificación.
```