Objetivo
El objetivo es estudiar la relación calidad precio de 35 marcas de whisky, utilizando las variables
- precio (francos franceses)
- proporción de malta ( %)
- vejez (añejamiento en años)
- apreciación (nota promedio de un panel de catadores redondeada a entero).
Se dispone además de una variable categórica “categorías”, que clasifica las marcas según su contenido de malta (1=Bajo, 2=Estándar, 3=Puro malta).
Para obtener los datos use:
library(FactoClass)
data("Whisky")
head(Whisky)## price malt type aging taste
## 1 70 20 low 5.0 3
## 2 60 20 low 5.0 2
## 3 65 20 low 7.5 2
## 4 74 25 low 12.0 2
## 5 70 25 low 12.0 3
## 6 73 30 low 5.0 0
WhiskyA=Whisky[,-3]Trabajo
Realice primero un ACP no normado y luego un ACP normado utilizando el software R y responda a las preguntas.
Para el ACP no normado utilice:
library(FactoMineR)
library(factoextra)acpc <- PCA(WhiskyA, scale.unit = F)## Warning: ggrepel: 20 unlabeled data points (too many overlaps). Consider
## increasing max.overlaps
get_eigenvalue(acpc)## eigenvalue variance.percent cumulative.variance.percent
## Dim.1 953.238889 84.4467052 84.44671
## Dim.2 169.350357 15.0026188 99.44932
## Dim.3 4.980882 0.4412525 99.89058
## Dim.4 1.235178 0.1094234 100.00000
fviz_eig(acpc, addlabels=T)library(FactoMineR)
library(factoextra)acp_NoNormado <- PCA(WhiskyA, scale.unit = F)## Warning: ggrepel: 5 unlabeled data points (too many overlaps). Consider
## increasing max.overlaps
Pregunta 1
En el ACP no normado, analice la contribución de las variables a la inercia(varianza). ¿Realmente se puede considerar un análisis de las cuatro variables?
get_pca_var(acp_NoNormado)$coord[,1:4]## Dim.1 Dim.2 Dim.3 Dim.4
## price 16.1850510 11.0584964 -0.12203939 -0.010499940
## malt 26.2641527 -6.8393313 -0.02603999 -0.003263127
## aging 1.1600771 0.5129639 2.21433008 -0.124846312
## taste 0.3626533 0.1429305 0.24910397 1.104296176
get_eigenvalue(acp_NoNormado)## eigenvalue variance.percent cumulative.variance.percent
## Dim.1 953.238889 84.4467052 84.44671
## Dim.2 169.350357 15.0026188 99.44932
## Dim.3 4.980882 0.4412525 99.89058
## Dim.4 1.235178 0.1094234 100.00000
Respuesta
No es apropiado incluir las cuatro 4 en su escala original, puesto que las variables price y malt tienen una varianza muy alta comparada con las otras dos variables. Esto genera que sus contribuciones a las primeras dos componentes sea superior al de las variables aging y taste tomen toda la varianza que explican estas componentes, con un 99,4% de contribución.
Pregunta 2
Realice el ACP normado, justifique por qué es el que conviene para los objetivos de este taller.
Respuesta
Dado que de acuerdo a los datos hay varianzas muy altas es necesario acomodar esta influencia con el ACP Normado y obtener un análisis más preciso.
acp_Normado <- PCA(WhiskyA, scale.unit = T)Pregunta 3
¿Cuántos ejes retiene para el análisis? ¿Por qué?
Respuesta
Se retienen 2 ejes ya que con el 55.83% del primer eje y un 20.16% del segundo, se puede dar una explicación a los datos de un 75.99%
get_eigenvalue(acp_Normado)## eigenvalue variance.percent cumulative.variance.percent
## Dim.1 2.2332690 55.831725 55.83172
## Dim.2 0.8064826 20.162065 75.99379
## Dim.3 0.6295103 15.737758 91.73155
## Dim.4 0.3307381 8.268451 100.00000
fviz_eig(acp_Normado, addlabels = TRUE, ylim = c(0, 65))Pregunta 4
¿Cuál es la variable que más contribuye al primer eje? ¿Cuál es la que menos? (indique los porcentajes).
Respuesta
Gracias a la tabla de contribución de las variables, se puede identifica una contribución del 32.98% de la variable ´price´ y con un 29.08% de la variable ´matl´. La ultima vairable seria ´taste´ con un 14.34%
get_pca_var(acp_Normado)$contrib[,1:2]## Dim.1 Dim.2
## price 32.98278 6.83923015
## malt 29.08912 13.53859727
## aging 23.58356 0.04937816
## taste 14.34454 79.57279442
Pregunta 5
Según el círculo de correlaciones, ¿cuáles son las variables más correlacionadas? ¿Cuánto es la correlación? ¿Si corresponden a lo que se observa en la matriz de correlaciones?
Respuesta
Según el círculo de correlaciones, ´price´ y ´malt´ son las variables más correlacionadas, dado la proximidad entre ellas que se evidencia en el gráfico.
fviz_pca_var(acp_Normado, col.var = "black")La matriz de correlación para el conjunto de datos WhiskyA, se presenta a continuación:
library(psych)##
## Attaching package: 'psych'
## The following objects are masked from 'package:ggplot2':
##
## %+%, alpha
corPlot(WhiskyA, cex = 1.2, main = "Matriz de correlación")Gracias a la matriz de correlaciones se evidencia efectivamente la correlación que eexiste entra las variables ´price´y ´malt´.
Pregunta 6
¿Cuál es la variable mejor representada en el primer plano factorial? ¿Cuál la peor? (escriba los porcentajes).
Respuesta
Para medir la calidad de representación de las variables en las componentes y, especificamente en el primer plano factorial, se suman las correlaciones al cuadrado (cos2) de las primeras dos componentes. Valores que se presentan en la siguiente tabla:
fviz_contrib(acp_Normado, choice='var', axes =1:2 )rep6 <- as.data.frame(round(factoextra::get_pca_var(acp_Normado)$cos2[, 1:2], 4))
rep6$RepresentacionPlano=rep6$Dim.1+rep6$Dim.2
rep6## Dim.1 Dim.2 RepresentacionPlano
## price 0.7366 0.0552 0.7918
## malt 0.6496 0.1092 0.7588
## aging 0.5267 0.0004 0.5271
## taste 0.3204 0.6417 0.9621
La variable mejor representada de acuerdo a la tabla anterior es ´taste´ con un 96.21% y la que tiene un porcentaje menor en la representación es ´aging´ con un 52.71%
library("corrplot")## corrplot 0.92 loaded
corrplot(get_pca_var(acp_Normado)$cos2)Pregunta 7
¿Qué representa el primer eje? ¿Qué nombre le asignaría? ¿Qué representa el segundo eje?
Respuesta
El primer eje representa las características que agregan valor al whisky, como el precio, la concentración de malta y el añejamiento, por lo que se llamara ´Calidad´. El segundo eje representa la calificación que dieron dada su satisfaccion o sensacion con el sabor por lo que se llamara ´Satisfaccion´.
acp_NormadoA <- get_pca_var(acp_Normado)$cor[,1:2]
acp_NormadoA[abs(acp_NormadoA) < 0.4]<- NA
print(acp_NormadoA, na.print="")## Dim.1 Dim.2
## price 0.8582506
## malt 0.8060015
## aging 0.7257302
## taste 0.5659967 0.8010872
fviz_pca_var(acp_Normado, col.var = "cos2",
gradient.cols = c("#00AFBB", "#E7B800", "#FC4E07"),
repel = TRUE
)Pregunta 8
¿Cuál es el individuo mejor representado en el primer plano factorial? Ubique sobre el gráfico de individuos al peor representado sobre el primer plano factorial (indique los porcentajes).
Respuesta
Para identificar el individuo mejor representado en el primer plano factorial se suman las correlaciones al cuadrado (cos2) de los individuos con las dos primeras componentes y se busca el valor máximo y mínimo.
fviz_cos2(acp_Normado, choice = 'ind', axes = 1:2)fviz_contrib(acp_Normado, choice = 'ind', axes = 1:2)Individuo <- as.data.frame(round(factoextra::get_pca_ind(acp_Normado)$cos2[, 1:2], 4))
Individuo$RepresentacionPlano=Individuo$Dim.1+Individuo$Dim.2
summary(Individuo)## Dim.1 Dim.2 RepresentacionPlano
## Min. :0.0023 Min. :0.00000 Min. :0.0155
## 1st Qu.:0.1847 1st Qu.:0.02835 1st Qu.:0.5496
## Median :0.5379 Median :0.07550 Median :0.7463
## Mean :0.4824 Mean :0.20595 Mean :0.6884
## 3rd Qu.:0.7003 3rd Qu.:0.31965 3rd Qu.:0.8738
## Max. :0.9475 Max. :0.90300 Max. :0.9995
which.max(Individuo$RepresentacionPlano)## [1] 3
which.min(Individuo$RepresentacionPlano)## [1] 11
Mejor = Individuo[3,]
Peor = Individuo[11,]
IndividuoRepres = rbind(Mejor, Peor)
IndividuoRepres## Dim.1 Dim.2 RepresentacionPlano
## 3 0.9240 0.0755 0.9995
## 11 0.0023 0.0132 0.0155
De acuerdo a los anteriores resultados, el individuo 3 es el que mejor representado está en el primer plano factorial con un porcentaje de varianza explicado del 99,95% y el peor representado es el individuo 11 con un 1.55%.
A continuación se presenta el gráfico de individuos para la dos primeras componentes:
fviz_pca_ind(acp_Normado, col.ind = "cos2",
gradient.cols = c("#00AFBB", "#E7B800", "#FC4E07")
#,repel = TRUE
)Pregunta 9
¿Qué características tienen las marcas de Whisky según sus ubicaciones en el plano? (a la derecha, a la izquierda, arriba, abajo).
Respuesta
A la derecha están las marcas con las mejores características considerdas como calificación, añejamiento, precio y concentración de malta. En contraste a la izquierda están las marcas con los menores precios, menor cantidad de malta, pocos años de añejamiento y bajas calificaciones dadas por los catadores. En la parte superior están las marcas con las mejores calificaciones dadas por los catadores, estando en el lado superior derecho las que tienen las más altas califiaciones y en la parte inferior están las marcas con las menores calificaciones.
fviz_pca_biplot(acp_Normado, repel = FALSE,
col.var = "#ff4040",
col.ind = "#696969"
)Pregunta 10
A partir de la posición en el plano deduzca las características de las tres categorías de whisky (lujo, estándar y pura malta).
Respuesta
En la categoría pura malta se encuentran las marcas de mejor calidad, tienen los precios más altos, el mayor tiempo de añejamiento, altas concentraciones de malta y buenas calificaciones dadas por los catadores. En la categoría media están las marcas con precios promedio, no tan buenas concetraciones de malta ni buen añejamiento.En la categoría baja están las marcas con bajas concentraciones de malta, poco añejamiento, bajos precios.
fviz_pca_biplot(acp_Normado,
col.ind = Whisky$type, palette = "heat",
addEllipses = TRUE, label = "var",
col.var = "black", repel = TRUE,
legend.title = "Categorías")Pregunta 11
Supongamos que usted desea comprar una botella de Whisky con buena apreciación y que no sea tan cara. Dé dos números de marcas que compraría. ¿Por qué? ?Cuáles son las características de las dos marcas?
Respuesta
Escogeria las marcas 16 y 20, ya que estas estan mejor representa-das en el eje 2 (Apreciacion), es decir, tiene los valores mas altos en la apreciacion, ademas estas marcas se encuentran centradas en el eje 1 lo cual nos indica que su precio no es alto. Asi tenemos que estas dos marcasa pesar de no tener un añejado, precio alto, estan bien valoradas por los catadores.
order(acp_Normado$ind$coord[,2], decreasing = T)## [1] 16 20 1 5 13 26 14 28 31 2 27 3 8 24 4 11 15 29 21 18 19 17 23 25 34
## [26] 33 12 22 32 30 7 6 9 10 35
MejorCalidad <- WhiskyA[WhiskyA$taste == 4,]
MejorCalidad## price malt aging taste
## 16 73 40 10.5 4
## 20 87 40 8.5 4
## 26 113 45 12.0 4
## 29 127 100 8.5 4
## 31 90 100 12.0 4
Pregunta 12
Seleccione dos marcas que definitivamente no compraría. ¿Por qué? ¿Qué características tienen?
Respuesta
Las marcas que no se comprarían son la 6 y 9, porque son las de peor calificación (taste=0), su precio es económico pero su concentración de malta es baja y tienen poco añejamiento, menos de 6 años (están en el lado opuesto de la dirección de la variable aging). Información que se presenta en la siguiente tabla:
PeorCalidad <- WhiskyA[Whisky$taste == 0,]
PeorCalidad## price malt aging taste
## 6 73 30 5.0 0
## 7 70 30 8.0 0
## 9 77 30 5.5 0
## 10 93 30 12.0 0
## 35 95 100 12.0 0