Actividad ACP Oscar carvajal

2022-08-25

Objetivo

El objetivo es estudiar la relación calidad precio de 35 marcas de whisky, utilizando las variables

  • precio (francos franceses)
  • proporción de malta ( %)
  • vejez (añejamiento en años)
  • apreciación (nota promedio de un panel de catadores redondeada a entero).

Se dispone además de una variable categórica “categorías”, que clasifica las marcas según su contenido de malta (1=Bajo, 2=Estándar, 3=Puro malta).

Para obtener los datos use:

library(FactoClass)
data("Whisky")
head(Whisky)
##   price malt type aging taste
## 1    70   20  low   5.0     3
## 2    60   20  low   5.0     2
## 3    65   20  low   7.5     2
## 4    74   25  low  12.0     2
## 5    70   25  low  12.0     3
## 6    73   30  low   5.0     0
WhiskyA=Whisky[,-3]

Trabajo

Realice primero un ACP no normado y luego un ACP normado utilizando el software R y responda a las preguntas.

Para el ACP no normado utilice:

library(FactoMineR)
library(factoextra)
acpc <- PCA(WhiskyA, scale.unit = F)
## Warning: ggrepel: 20 unlabeled data points (too many overlaps). Consider
## increasing max.overlaps

get_eigenvalue(acpc)
##       eigenvalue variance.percent cumulative.variance.percent
## Dim.1 953.238889       84.4467052                    84.44671
## Dim.2 169.350357       15.0026188                    99.44932
## Dim.3   4.980882        0.4412525                    99.89058
## Dim.4   1.235178        0.1094234                   100.00000
fviz_eig(acpc, addlabels=T)

library(FactoMineR)
library(factoextra)
acp_NoNormado <- PCA(WhiskyA, scale.unit = F)
## Warning: ggrepel: 5 unlabeled data points (too many overlaps). Consider
## increasing max.overlaps

Pregunta 1

En el ACP no normado, analice la contribución de las variables a la inercia(varianza). ¿Realmente se puede considerar un análisis de las cuatro variables?

get_pca_var(acp_NoNormado)$coord[,1:4]
##            Dim.1      Dim.2       Dim.3        Dim.4
## price 16.1850510 11.0584964 -0.12203939 -0.010499940
## malt  26.2641527 -6.8393313 -0.02603999 -0.003263127
## aging  1.1600771  0.5129639  2.21433008 -0.124846312
## taste  0.3626533  0.1429305  0.24910397  1.104296176
get_eigenvalue(acp_NoNormado)
##       eigenvalue variance.percent cumulative.variance.percent
## Dim.1 953.238889       84.4467052                    84.44671
## Dim.2 169.350357       15.0026188                    99.44932
## Dim.3   4.980882        0.4412525                    99.89058
## Dim.4   1.235178        0.1094234                   100.00000

Respuesta

No es apropiado incluir las cuatro 4 en su escala original, puesto que las variables price y malt tienen una varianza muy alta comparada con las otras dos variables. Esto genera que sus contribuciones a las primeras dos componentes sea superior al de las variables aging y taste tomen toda la varianza que explican estas componentes, con un 99,4% de contribución.

Pregunta 2

Realice el ACP normado, justifique por qué es el que conviene para los objetivos de este taller.

Respuesta

Dado que de acuerdo a los datos hay varianzas muy altas es necesario acomodar esta influencia con el ACP Normado y obtener un análisis más preciso.

acp_Normado <- PCA(WhiskyA, scale.unit = T)

Pregunta 3

¿Cuántos ejes retiene para el análisis? ¿Por qué?

Respuesta

Se retienen 2 ejes ya que con el 55.83% del primer eje y un 20.16% del segundo, se puede dar una explicación a los datos de un 75.99%

get_eigenvalue(acp_Normado)
##       eigenvalue variance.percent cumulative.variance.percent
## Dim.1  2.2332690        55.831725                    55.83172
## Dim.2  0.8064826        20.162065                    75.99379
## Dim.3  0.6295103        15.737758                    91.73155
## Dim.4  0.3307381         8.268451                   100.00000
fviz_eig(acp_Normado, addlabels = TRUE, ylim = c(0, 65))

Pregunta 4

¿Cuál es la variable que más contribuye al primer eje? ¿Cuál es la que menos? (indique los porcentajes).

Respuesta

Gracias a la tabla de contribución de las variables, se puede identifica una contribución del 32.98% de la variable ´price´ y con un 29.08% de la variable ´matl´. La ultima vairable seria ´taste´ con un 14.34%

get_pca_var(acp_Normado)$contrib[,1:2]
##          Dim.1       Dim.2
## price 32.98278  6.83923015
## malt  29.08912 13.53859727
## aging 23.58356  0.04937816
## taste 14.34454 79.57279442

Pregunta 5

Según el círculo de correlaciones, ¿cuáles son las variables más correlacionadas? ¿Cuánto es la correlación? ¿Si corresponden a lo que se observa en la matriz de correlaciones?

Respuesta

Según el círculo de correlaciones, ´price´ y ´malt´ son las variables más correlacionadas, dado la proximidad entre ellas que se evidencia en el gráfico.

fviz_pca_var(acp_Normado, col.var = "black")

La matriz de correlación para el conjunto de datos WhiskyA, se presenta a continuación:

library(psych)
## 
## Attaching package: 'psych'
## The following objects are masked from 'package:ggplot2':
## 
##     %+%, alpha
corPlot(WhiskyA, cex = 1.2, main = "Matriz de correlación")

Gracias a la matriz de correlaciones se evidencia efectivamente la correlación que eexiste entra las variables ´price´y ´malt´.

Pregunta 6

¿Cuál es la variable mejor representada en el primer plano factorial? ¿Cuál la peor? (escriba los porcentajes).

Respuesta

Para medir la calidad de representación de las variables en las componentes y, especificamente en el primer plano factorial, se suman las correlaciones al cuadrado (cos2) de las primeras dos componentes. Valores que se presentan en la siguiente tabla:

fviz_contrib(acp_Normado, choice='var', axes =1:2 )

rep6 <- as.data.frame(round(factoextra::get_pca_var(acp_Normado)$cos2[, 1:2], 4))
rep6$RepresentacionPlano=rep6$Dim.1+rep6$Dim.2
rep6
##        Dim.1  Dim.2 RepresentacionPlano
## price 0.7366 0.0552              0.7918
## malt  0.6496 0.1092              0.7588
## aging 0.5267 0.0004              0.5271
## taste 0.3204 0.6417              0.9621

La variable mejor representada de acuerdo a la tabla anterior es ´taste´ con un 96.21% y la que tiene un porcentaje menor en la representación es ´aging´ con un 52.71%

library("corrplot")
## corrplot 0.92 loaded
corrplot(get_pca_var(acp_Normado)$cos2)

Pregunta 7

¿Qué representa el primer eje? ¿Qué nombre le asignaría? ¿Qué representa el segundo eje?

Respuesta

El primer eje representa las características que agregan valor al whisky, como el precio, la concentración de malta y el añejamiento, por lo que se llamara ´Calidad´. El segundo eje representa la calificación que dieron dada su satisfaccion o sensacion con el sabor por lo que se llamara ´Satisfaccion´.

acp_NormadoA <- get_pca_var(acp_Normado)$cor[,1:2]
acp_NormadoA[abs(acp_NormadoA) < 0.4]<- NA
print(acp_NormadoA, na.print="")
##           Dim.1     Dim.2
## price 0.8582506          
## malt  0.8060015          
## aging 0.7257302          
## taste 0.5659967 0.8010872
fviz_pca_var(acp_Normado, col.var = "cos2",
             gradient.cols = c("#00AFBB", "#E7B800", "#FC4E07"), 
             repel = TRUE 
             )

Pregunta 8

¿Cuál es el individuo mejor representado en el primer plano factorial? Ubique sobre el gráfico de individuos al peor representado sobre el primer plano factorial (indique los porcentajes).

Respuesta

Para identificar el individuo mejor representado en el primer plano factorial se suman las correlaciones al cuadrado (cos2) de los individuos con las dos primeras componentes y se busca el valor máximo y mínimo.

fviz_cos2(acp_Normado, choice = 'ind', axes = 1:2)

fviz_contrib(acp_Normado, choice = 'ind', axes = 1:2)

Individuo <- as.data.frame(round(factoextra::get_pca_ind(acp_Normado)$cos2[, 1:2], 4))
Individuo$RepresentacionPlano=Individuo$Dim.1+Individuo$Dim.2
summary(Individuo)
##      Dim.1            Dim.2         RepresentacionPlano
##  Min.   :0.0023   Min.   :0.00000   Min.   :0.0155     
##  1st Qu.:0.1847   1st Qu.:0.02835   1st Qu.:0.5496     
##  Median :0.5379   Median :0.07550   Median :0.7463     
##  Mean   :0.4824   Mean   :0.20595   Mean   :0.6884     
##  3rd Qu.:0.7003   3rd Qu.:0.31965   3rd Qu.:0.8738     
##  Max.   :0.9475   Max.   :0.90300   Max.   :0.9995
which.max(Individuo$RepresentacionPlano)
## [1] 3
which.min(Individuo$RepresentacionPlano)
## [1] 11
Mejor = Individuo[3,]
Peor = Individuo[11,]
IndividuoRepres = rbind(Mejor, Peor)
IndividuoRepres
##     Dim.1  Dim.2 RepresentacionPlano
## 3  0.9240 0.0755              0.9995
## 11 0.0023 0.0132              0.0155

De acuerdo a los anteriores resultados, el individuo 3 es el que mejor representado está en el primer plano factorial con un porcentaje de varianza explicado del 99,95% y el peor representado es el individuo 11 con un 1.55%.

A continuación se presenta el gráfico de individuos para la dos primeras componentes:

fviz_pca_ind(acp_Normado, col.ind = "cos2", 
             gradient.cols = c("#00AFBB", "#E7B800", "#FC4E07")
             #,repel = TRUE 
             )

Pregunta 9

¿Qué características tienen las marcas de Whisky según sus ubicaciones en el plano? (a la derecha, a la izquierda, arriba, abajo).

Respuesta

A la derecha están las marcas con las mejores características considerdas como calificación, añejamiento, precio y concentración de malta. En contraste a la izquierda están las marcas con los menores precios, menor cantidad de malta, pocos años de añejamiento y bajas calificaciones dadas por los catadores. En la parte superior están las marcas con las mejores calificaciones dadas por los catadores, estando en el lado superior derecho las que tienen las más altas califiaciones y en la parte inferior están las marcas con las menores calificaciones.

fviz_pca_biplot(acp_Normado, repel = FALSE,
                col.var = "#ff4040", 
                col.ind = "#696969"  
                )

Pregunta 10

A partir de la posición en el plano deduzca las características de las tres categorías de whisky (lujo, estándar y pura malta).

Respuesta

En la categoría pura malta se encuentran las marcas de mejor calidad, tienen los precios más altos, el mayor tiempo de añejamiento, altas concentraciones de malta y buenas calificaciones dadas por los catadores. En la categoría media están las marcas con precios promedio, no tan buenas concetraciones de malta ni buen añejamiento.En la categoría baja están las marcas con bajas concentraciones de malta, poco añejamiento, bajos precios.

fviz_pca_biplot(acp_Normado,
col.ind = Whisky$type, palette = "heat",
addEllipses = TRUE, label = "var",
col.var = "black", repel = TRUE,
legend.title = "Categorías")

Pregunta 11

Supongamos que usted desea comprar una botella de Whisky con buena apreciación y que no sea tan cara. Dé dos números de marcas que compraría. ¿Por qué? ?Cuáles son las características de las dos marcas?

Respuesta

Escogeria las marcas 16 y 20, ya que estas estan mejor representa-das en el eje 2 (Apreciacion), es decir, tiene los valores mas altos en la apreciacion, ademas estas marcas se encuentran centradas en el eje 1 lo cual nos indica que su precio no es alto. Asi tenemos que estas dos marcasa pesar de no tener un añejado, precio alto, estan bien valoradas por los catadores.

order(acp_Normado$ind$coord[,2], decreasing = T)
##  [1] 16 20  1  5 13 26 14 28 31  2 27  3  8 24  4 11 15 29 21 18 19 17 23 25 34
## [26] 33 12 22 32 30  7  6  9 10 35
MejorCalidad <- WhiskyA[WhiskyA$taste == 4,] 
MejorCalidad
##    price malt aging taste
## 16    73   40  10.5     4
## 20    87   40   8.5     4
## 26   113   45  12.0     4
## 29   127  100   8.5     4
## 31    90  100  12.0     4

Pregunta 12

Seleccione dos marcas que definitivamente no compraría. ¿Por qué? ¿Qué características tienen?

Respuesta

Las marcas que no se comprarían son la 6 y 9, porque son las de peor calificación (taste=0), su precio es económico pero su concentración de malta es baja y tienen poco añejamiento, menos de 6 años (están en el lado opuesto de la dirección de la variable aging). Información que se presenta en la siguiente tabla:

PeorCalidad <- WhiskyA[Whisky$taste == 0,] 
PeorCalidad
##    price malt aging taste
## 6     73   30   5.0     0
## 7     70   30   8.0     0
## 9     77   30   5.5     0
## 10    93   30  12.0     0
## 35    95  100  12.0     0