Objetivo
El objetivo es estudiar la relación calidad precio de 35 marcas de whisky, utilizando las variables
- precio (francos franceses)
- proporción de malta ( %)
- vejez (añejamiento en años)
- apreciación (nota promedio de un panel de catadores redondeada a entero).
Se dispone además de una variable categórica “categorías”, que clasifica las marcas según su contenido de malta (1=Bajo, 2=Estándar, 3=Puro malta).
Para obtener los datos use:
## price malt type aging taste
## 1 70 20 low 5.0 3
## 2 60 20 low 5.0 2
## 3 65 20 low 7.5 2
## 4 74 25 low 12.0 2
## 5 70 25 low 12.0 3
## 6 73 30 low 5.0 0
## price malt aging taste
## 1 70 20 5.0 3
## 2 60 20 5.0 2
## 3 65 20 7.5 2
## 4 74 25 12.0 2
## 5 70 25 12.0 3
## 6 73 30 5.0 0
## 7 70 30 8.0 0
## 8 55 30 5.0 2
## 9 77 30 5.5 0
## 10 93 30 12.0 0
## 11 82 30 12.0 2
## 12 73 33 6.5 1
## 13 62 33 8.0 3
## 14 87 33 12.0 3
## 15 78 35 10.0 2
## 16 73 40 10.5 4
## 17 87 40 8.5 2
## 18 80 40 8.5 2
## 19 85 40 9.5 2
## 20 87 40 8.5 4
## 21 80 40 9.5 2
## 22 83 40 9.5 1
## 23 90 40 12.5 2
## 24 110 40 12.0 3
## 25 87 40 5.5 2
## 26 113 45 12.0 4
## 27 96 45 12.0 3
## 28 82 45 12.0 3
## 29 127 100 8.5 4
## 30 160 100 12.0 3
## 31 90 100 12.0 4
## 32 86 100 12.0 2
## 33 100 100 10.0 3
## 34 100 100 11.0 3
## 35 95 100 12.0 0
Trabajo
Realice primero un ACP no normado y luego un ACP normado utilizando el software R y responda a las preguntas.
Para el ACP NO normado utilice:
Graficas
Eingevalores
## eigenvalue variance.percent cumulative.variance.percent
## Dim.1 953.238889 84.4467052 84.44671
## Dim.2 169.350357 15.0026188 99.44932
## Dim.3 4.980882 0.4412525 99.89058
## Dim.4 1.235178 0.1094234 100.00000
Pregunta 1
En el ACP no normado, analice la contribución de las variables a la inercia(varianza). ¿Realmente se puede considerar un análisis de las cuatro variables?
## price malt aging taste
## 1 70 20 5.0 3
## 2 60 20 5.0 2
## 3 65 20 7.5 2
## 4 74 25 12.0 2
## 5 70 25 12.0 3
## 6 73 30 5.0 0
## 7 70 30 8.0 0
## 8 55 30 5.0 2
## 9 77 30 5.5 0
## 10 93 30 12.0 0
## 11 82 30 12.0 2
## 12 73 33 6.5 1
## 13 62 33 8.0 3
## 14 87 33 12.0 3
## 15 78 35 10.0 2
## 16 73 40 10.5 4
## 17 87 40 8.5 2
## 18 80 40 8.5 2
## 19 85 40 9.5 2
## 20 87 40 8.5 4
## 21 80 40 9.5 2
## 22 83 40 9.5 1
## 23 90 40 12.5 2
## 24 110 40 12.0 3
## 25 87 40 5.5 2
## 26 113 45 12.0 4
## 27 96 45 12.0 3
## 28 82 45 12.0 3
## 29 127 100 8.5 4
## 30 160 100 12.0 3
## 31 90 100 12.0 4
## 32 86 100 12.0 2
## 33 100 100 10.0 3
## 34 100 100 11.0 3
## 35 95 100 12.0 0
## **Results for the Principal Component Analysis (PCA)**
## The analysis was performed on 35 individuals, described by 4 variables
## *The results are available in the following objects:
##
## name description
## 1 "$eig" "eigenvalues"
## 2 "$var" "results for the variables"
## 3 "$var$coord" "coord. for the variables"
## 4 "$var$cor" "correlations variables - dimensions"
## 5 "$var$cos2" "cos2 for the variables"
## 6 "$var$contrib" "contributions of the variables"
## 7 "$ind" "results for the individuals"
## 8 "$ind$coord" "coord. for the individuals"
## 9 "$ind$cos2" "cos2 for the individuals"
## 10 "$ind$contrib" "contributions of the individuals"
## 11 "$call" "summary statistics"
## 12 "$call$centre" "mean of the variables"
## 13 "$call$ecart.type" "standard error of the variables"
## 14 "$call$row.w" "weights for the individuals"
## 15 "$call$col.w" "weights for the variables"
#Coordenadas.
## Dim.1 Dim.2 Dim.3 Dim.4
## price 16.1850510 11.0584964 -0.12203939 -0.010499940
## malt 26.2641527 -6.8393313 -0.02603999 -0.003263127
## aging 1.1600771 0.5129639 2.21433008 -0.124846312
## taste 0.3626533 0.1429305 0.24910397 1.104296176
#Eingevalores y contribuciones.
## eigenvalue variance.percent cumulative.variance.percent
## Dim.1 953.238889 84.4467052 84.44671
## Dim.2 169.350357 15.0026188 99.44932
## Dim.3 4.980882 0.4412525 99.89058
## Dim.4 1.235178 0.1094234 100.00000
Observacion 1: No es posible considerar un analisis con las 4 dimensiones debido a que la DIM3 y DIM4 no alcanzan a representar un 1% de la información frente a las DIM1 y DIM3 que son el 99.4%
Pregunta 2
Realice el ACP normado, justifique por qué es el que conviene para los objetivos de este taller.
## price malt aging taste
## 1 70 20 5.0 3
## 2 60 20 5.0 2
## 3 65 20 7.5 2
## 4 74 25 12.0 2
## 5 70 25 12.0 3
## 6 73 30 5.0 0
## 7 70 30 8.0 0
## 8 55 30 5.0 2
## 9 77 30 5.5 0
## 10 93 30 12.0 0
## 11 82 30 12.0 2
## 12 73 33 6.5 1
## 13 62 33 8.0 3
## 14 87 33 12.0 3
## 15 78 35 10.0 2
## 16 73 40 10.5 4
## 17 87 40 8.5 2
## 18 80 40 8.5 2
## 19 85 40 9.5 2
## 20 87 40 8.5 4
## 21 80 40 9.5 2
## 22 83 40 9.5 1
## 23 90 40 12.5 2
## 24 110 40 12.0 3
## 25 87 40 5.5 2
## 26 113 45 12.0 4
## 27 96 45 12.0 3
## 28 82 45 12.0 3
## 29 127 100 8.5 4
## 30 160 100 12.0 3
## 31 90 100 12.0 4
## 32 86 100 12.0 2
## 33 100 100 10.0 3
## 34 100 100 11.0 3
## 35 95 100 12.0 0
## **Results for the Principal Component Analysis (PCA)**
## The analysis was performed on 35 individuals, described by 4 variables
## *The results are available in the following objects:
##
## name description
## 1 "$eig" "eigenvalues"
## 2 "$var" "results for the variables"
## 3 "$var$coord" "coord. for the variables"
## 4 "$var$cor" "correlations variables - dimensions"
## 5 "$var$cos2" "cos2 for the variables"
## 6 "$var$contrib" "contributions of the variables"
## 7 "$ind" "results for the individuals"
## 8 "$ind$coord" "coord. for the individuals"
## 9 "$ind$cos2" "cos2 for the individuals"
## 10 "$ind$contrib" "contributions of the individuals"
## 11 "$call" "summary statistics"
## 12 "$call$centre" "mean of the variables"
## 13 "$call$ecart.type" "standard error of the variables"
## 14 "$call$row.w" "weights for the individuals"
## 15 "$call$col.w" "weights for the variables"
#Coordenadas.
## Dim.1 Dim.2 Dim.3 Dim.4
## price 0.8582506 -0.23485571 -0.1393575 -0.43454368
## malt 0.8060015 -0.33043371 -0.3291630 0.36445429
## aging 0.7257302 0.01995561 0.6813660 0.09304762
## taste 0.5659967 0.80108723 -0.1936025 0.02061710
#Eingevalores y contribuciones.
## eigenvalue variance.percent cumulative.variance.percent
## Dim.1 2.2332690 55.831725 55.83172
## Dim.2 0.8064826 20.162065 75.99379
## Dim.3 0.6295103 15.737758 91.73155
## Dim.4 0.3307381 8.268451 100.00000
Observacion 2: Es recomendable tener un ACP normado debido a que se aseguran que los datos tengan la misma escala uniforme y que ninguna variable influya desproporcionadamente en el análisis, por tanto evita datos esten sesgados, como puede presentarse en un ACP no normado.
Pregunta 3
¿Cuántos ejes retiene para el análisis? ¿Por qué?
##
## Attaching package: 'psych'
## The following objects are masked from 'package:ggplot2':
##
## %+%, alpha
##Obtener eingevalores
## eigenvalue variance.percent cumulative.variance.percent
## Dim.1 2.2332690 55.831725 55.83172
## Dim.2 0.8064826 20.162065 75.99379
## Dim.3 0.6295103 15.737758 91.73155
## Dim.4 0.3307381 8.268451 100.00000
Observacion 3:
Se deben retener para el analisis las 3 primeros dimensiones(ejec),
porque la suma de las tres explican alrededor del 91,7% de los
datos.
Pregunta 4
¿Cuál es la variable que más contribuye al primer eje? ¿Cuál es la que menos? (indique los porcentajes).
## Dim.1 Dim.2 Dim.3 Dim.4
## price 32.98278 6.83923015 3.085017 57.0929775
## malt 29.08912 13.53859727 17.211516 40.1607634
## aging 23.58356 0.04937816 73.749324 2.6177390
## taste 14.34454 79.57279442 5.954142 0.1285201
Observacion 4:
La variable que mas contribuye en la DIM1 es la del
precio con un 32.9%. Y la que menos contribuye en la
misma dimension es apreciacion, aporta solo el 14,3%
siendo la de menor aporte.
Pregunta 5
Según el círculo de correlaciones, ¿cuáles son las variables más correlacionadas? ¿Cuánto es la correlación? ¿Si corresponden a lo que se observa en la matriz de correlaciones?
Observacion 5.
Al revisar la correlacion es posible observar que las variables mas
correlacionadas son el Precio y proporcion de
malta con un 0.66 de correlacion, interpretando que a mayor
precio , mayor es la proporcion de malta que posee el whisky.
Pregunta 6
¿Cuál es la variable mejor representada en el primer plano factorial? ¿Cuál la peor? (escriba los porcentajes).
## corrplot 0.92 loaded
Observacion 6. La variable mejor representada es apreciacion (taste) con un 100%, y la peor es vejez (Aging) con un 50%.
Pregunta 7
¿Qué representa el primer eje? ¿Qué nombre le asignaría? ¿Qué representa el segundo eje?
fviz_pca_var(x1,repel = T, colvar="cos2", col.var = "contrib", alpha.var = "contrib", gradient.cols=c("#FF0000","#FFFF00","#00FF00"))
Observacion 7. De acuerdo con el anterior grafico, para el eje X representa vejez(aging) del whisky, y para el eje Y la apreciacion(taste) que puede traducirse al sabor del Whisky.
Pregunta 8.
¿Cuál es el individuo mejor representado en el primer plano factorial? Ubique sobre el gráfico de individuos al peor representado sobre el primer plano factorial (indique los porcentajes).
## Dim.1 Dim.2 Dim.3 Dim.4
## price 0.8582506 -0.23485571 -0.1393575 -0.43454368
## malt 0.8060015 -0.33043371 -0.3291630 0.36445429
## aging 0.7257302 0.01995561 0.6813660 0.09304762
## taste 0.5659967 0.80108723 -0.1936025 0.02061710
## $coord
## Dim.1 Dim.2 Dim.3 Dim.4
## low -1.34594618 -0.1173957 0.1214117 -0.06627865
## med -0.01582504 0.3390561 0.1630214 -0.15082026
## pure 2.15349053 -0.6389430 -0.5866989 0.47042993
##
## $cos2
## Dim.1 Dim.2 Dim.3 Dim.4
## low 0.982154698 0.007471862 0.007991824 0.002381616
## med 0.001522085 0.698702440 0.161524408 0.138251066
## pure 0.826462691 0.072754787 0.061343403 0.039439120
##
## $v.test
## Dim.1 Dim.2 Dim.3 Dim.4
## low -3.55539088 -0.5160417 0.604073 -0.454948
## med -0.06000702 2.1394479 1.164316 -1.486090
## pure 4.20128274 -2.0743120 -2.155874 2.384857
##
## $dist
## low med pure
## 1.3581187 0.4056257 2.3688161
##
## $eta2
## Dim.1 Dim.2 Dim.3 Dim.4
## type 0.6703074 0.1758479 0.1372245 0.1714042
Observacion 8. De acuerdo al anterior grafico la marca 30 es el mejor representado con un 15% mientras que la marca 11 esta muy cerca a 0%, interpretando que es el de menor calidad.
Pregunta 9
¿Qué características tienen las marcas de Whisky según sus ubicaciones en el plano? (a la derecha, a la izquierda, arriba, abajo).
Observacion 9. Es posible evidenciar 3 segmentaciones de las marcas de whisky dentro de las que estan las clases Low, Med y pure basado en 2 dimensiones edad del whisky(precio, malta) y sabor.
Pregunta 10
A partir de la posición en el plano deduzca las características de las tres categorías de whisky (lujo, estándar y pura malta).
Observacion 10: al deducir las categorias se dividirian asi: LOW = Baja calidad , MED = Estandar y PURE = Lujo y pura malta
Pregunta 11
Supongamos que usted desea comprar una botella de Whisky con buena apreciación y que no sea tan cara. Dé dos números de marcas que compraría. ¿Por qué? ?Cuáles son las características de las dos marcas?
Observacion 11. De acuerdo con los datos, compraria el marca 31 y 26 debido a que mantienen una relacion buena entre calidad-precio favorable y tienen un buena apreciacion.
Pregunta 12
Seleccione dos marcas que definitivamente no compraría. ¿Por qué? ¿Qué características tienen?
Observacion 12.
Definitivamente no me compraria entre las marcas 6, 9
y 10 debido a que presentan escasa relacion entre las
variables, precio, calidad y menos apreciacion.