Objetivo

El objetivo es estudiar la relación calidad precio de 35 marcas de whisky, utilizando las variables

Se dispone además de una variable categórica “categorías”, que clasifica las marcas según su contenido de malta (1=Bajo, 2=Estándar, 3=Puro malta).

Para obtener los datos use:

library(FactoClass)
library(FactoMineR)
library(factoextra)
data("Whisky")
head(Whisky)
##   price malt type aging taste
## 1    70   20  low   5.0     3
## 2    60   20  low   5.0     2
## 3    65   20  low   7.5     2
## 4    74   25  low  12.0     2
## 5    70   25  low  12.0     3
## 6    73   30  low   5.0     0
Y=Whisky[,-3]
Y
##    price malt aging taste
## 1     70   20   5.0     3
## 2     60   20   5.0     2
## 3     65   20   7.5     2
## 4     74   25  12.0     2
## 5     70   25  12.0     3
## 6     73   30   5.0     0
## 7     70   30   8.0     0
## 8     55   30   5.0     2
## 9     77   30   5.5     0
## 10    93   30  12.0     0
## 11    82   30  12.0     2
## 12    73   33   6.5     1
## 13    62   33   8.0     3
## 14    87   33  12.0     3
## 15    78   35  10.0     2
## 16    73   40  10.5     4
## 17    87   40   8.5     2
## 18    80   40   8.5     2
## 19    85   40   9.5     2
## 20    87   40   8.5     4
## 21    80   40   9.5     2
## 22    83   40   9.5     1
## 23    90   40  12.5     2
## 24   110   40  12.0     3
## 25    87   40   5.5     2
## 26   113   45  12.0     4
## 27    96   45  12.0     3
## 28    82   45  12.0     3
## 29   127  100   8.5     4
## 30   160  100  12.0     3
## 31    90  100  12.0     4
## 32    86  100  12.0     2
## 33   100  100  10.0     3
## 34   100  100  11.0     3
## 35    95  100  12.0     0

Trabajo

Realice primero un ACP no normado y luego un ACP normado utilizando el software R y responda a las preguntas.

Para el ACP NO normado utilice:

library(FactoMineR)
library(factoextra)
acpc <- PCA(Y, scale.unit = F)

Graficas

Eingevalores

get_eigenvalue(acpc)
##       eigenvalue variance.percent cumulative.variance.percent
## Dim.1 953.238889       84.4467052                    84.44671
## Dim.2 169.350357       15.0026188                    99.44932
## Dim.3   4.980882        0.4412525                    99.89058
## Dim.4   1.235178        0.1094234                   100.00000
fviz_eig(acpc, addlabels=T)

Pregunta 1

En el ACP no normado, analice la contribución de las variables a la inercia(varianza). ¿Realmente se puede considerar un análisis de las cuatro variables?

sel <- Whisky[, c("price", "malt","aging","taste")]
sel
##    price malt aging taste
## 1     70   20   5.0     3
## 2     60   20   5.0     2
## 3     65   20   7.5     2
## 4     74   25  12.0     2
## 5     70   25  12.0     3
## 6     73   30   5.0     0
## 7     70   30   8.0     0
## 8     55   30   5.0     2
## 9     77   30   5.5     0
## 10    93   30  12.0     0
## 11    82   30  12.0     2
## 12    73   33   6.5     1
## 13    62   33   8.0     3
## 14    87   33  12.0     3
## 15    78   35  10.0     2
## 16    73   40  10.5     4
## 17    87   40   8.5     2
## 18    80   40   8.5     2
## 19    85   40   9.5     2
## 20    87   40   8.5     4
## 21    80   40   9.5     2
## 22    83   40   9.5     1
## 23    90   40  12.5     2
## 24   110   40  12.0     3
## 25    87   40   5.5     2
## 26   113   45  12.0     4
## 27    96   45  12.0     3
## 28    82   45  12.0     3
## 29   127  100   8.5     4
## 30   160  100  12.0     3
## 31    90  100  12.0     4
## 32    86  100  12.0     2
## 33   100  100  10.0     3
## 34   100  100  11.0     3
## 35    95  100  12.0     0
## para scale.unit = F no normado si es T = a true normalizado
x1 <- PCA(sel, , scale.unit = F)

x1
## **Results for the Principal Component Analysis (PCA)**
## The analysis was performed on 35 individuals, described by 4 variables
## *The results are available in the following objects:
## 
##    name               description                          
## 1  "$eig"             "eigenvalues"                        
## 2  "$var"             "results for the variables"          
## 3  "$var$coord"       "coord. for the variables"           
## 4  "$var$cor"         "correlations variables - dimensions"
## 5  "$var$cos2"        "cos2 for the variables"             
## 6  "$var$contrib"     "contributions of the variables"     
## 7  "$ind"             "results for the individuals"        
## 8  "$ind$coord"       "coord. for the individuals"         
## 9  "$ind$cos2"        "cos2 for the individuals"           
## 10 "$ind$contrib"     "contributions of the individuals"   
## 11 "$call"            "summary statistics"                 
## 12 "$call$centre"     "mean of the variables"              
## 13 "$call$ecart.type" "standard error of the variables"    
## 14 "$call$row.w"      "weights for the individuals"        
## 15 "$call$col.w"      "weights for the variables"

#Coordenadas.

x1$var$coord
##            Dim.1      Dim.2       Dim.3        Dim.4
## price 16.1850510 11.0584964 -0.12203939 -0.010499940
## malt  26.2641527 -6.8393313 -0.02603999 -0.003263127
## aging  1.1600771  0.5129639  2.21433008 -0.124846312
## taste  0.3626533  0.1429305  0.24910397  1.104296176

#Eingevalores y contribuciones.

get_eigenvalue(x1)
##       eigenvalue variance.percent cumulative.variance.percent
## Dim.1 953.238889       84.4467052                    84.44671
## Dim.2 169.350357       15.0026188                    99.44932
## Dim.3   4.980882        0.4412525                    99.89058
## Dim.4   1.235178        0.1094234                   100.00000

Observacion 1: No es posible considerar un analisis con las 4 dimensiones debido a que la DIM3 y DIM4 no alcanzan a representar un 1% de la información frente a las DIM1 y DIM3 que son el 99.4%

Pregunta 2

Realice el ACP normado, justifique por qué es el que conviene para los objetivos de este taller.

sel <- Whisky[, c("price", "malt","aging","taste")]
sel
##    price malt aging taste
## 1     70   20   5.0     3
## 2     60   20   5.0     2
## 3     65   20   7.5     2
## 4     74   25  12.0     2
## 5     70   25  12.0     3
## 6     73   30   5.0     0
## 7     70   30   8.0     0
## 8     55   30   5.0     2
## 9     77   30   5.5     0
## 10    93   30  12.0     0
## 11    82   30  12.0     2
## 12    73   33   6.5     1
## 13    62   33   8.0     3
## 14    87   33  12.0     3
## 15    78   35  10.0     2
## 16    73   40  10.5     4
## 17    87   40   8.5     2
## 18    80   40   8.5     2
## 19    85   40   9.5     2
## 20    87   40   8.5     4
## 21    80   40   9.5     2
## 22    83   40   9.5     1
## 23    90   40  12.5     2
## 24   110   40  12.0     3
## 25    87   40   5.5     2
## 26   113   45  12.0     4
## 27    96   45  12.0     3
## 28    82   45  12.0     3
## 29   127  100   8.5     4
## 30   160  100  12.0     3
## 31    90  100  12.0     4
## 32    86  100  12.0     2
## 33   100  100  10.0     3
## 34   100  100  11.0     3
## 35    95  100  12.0     0
##scale.unit = F no normado si es T = a true normalizado
x1 <- PCA(sel, , scale.unit = T)

x1
## **Results for the Principal Component Analysis (PCA)**
## The analysis was performed on 35 individuals, described by 4 variables
## *The results are available in the following objects:
## 
##    name               description                          
## 1  "$eig"             "eigenvalues"                        
## 2  "$var"             "results for the variables"          
## 3  "$var$coord"       "coord. for the variables"           
## 4  "$var$cor"         "correlations variables - dimensions"
## 5  "$var$cos2"        "cos2 for the variables"             
## 6  "$var$contrib"     "contributions of the variables"     
## 7  "$ind"             "results for the individuals"        
## 8  "$ind$coord"       "coord. for the individuals"         
## 9  "$ind$cos2"        "cos2 for the individuals"           
## 10 "$ind$contrib"     "contributions of the individuals"   
## 11 "$call"            "summary statistics"                 
## 12 "$call$centre"     "mean of the variables"              
## 13 "$call$ecart.type" "standard error of the variables"    
## 14 "$call$row.w"      "weights for the individuals"        
## 15 "$call$col.w"      "weights for the variables"

#Coordenadas.

x1$var$coord
##           Dim.1       Dim.2      Dim.3       Dim.4
## price 0.8582506 -0.23485571 -0.1393575 -0.43454368
## malt  0.8060015 -0.33043371 -0.3291630  0.36445429
## aging 0.7257302  0.01995561  0.6813660  0.09304762
## taste 0.5659967  0.80108723 -0.1936025  0.02061710

#Eingevalores y contribuciones.

get_eigenvalue(x1)
##       eigenvalue variance.percent cumulative.variance.percent
## Dim.1  2.2332690        55.831725                    55.83172
## Dim.2  0.8064826        20.162065                    75.99379
## Dim.3  0.6295103        15.737758                    91.73155
## Dim.4  0.3307381         8.268451                   100.00000

Observacion 2: Es recomendable tener un ACP normado debido a que se aseguran que los datos tengan la misma escala uniforme y que ninguna variable influya desproporcionadamente en el análisis, por tanto evita datos esten sesgados, como puede presentarse en un ACP no normado.

Pregunta 3

¿Cuántos ejes retiene para el análisis? ¿Por qué?

library(psych)
## 
## Attaching package: 'psych'
## The following objects are masked from 'package:ggplot2':
## 
##     %+%, alpha

##Obtener eingevalores

get_eigenvalue(x1)
##       eigenvalue variance.percent cumulative.variance.percent
## Dim.1  2.2332690        55.831725                    55.83172
## Dim.2  0.8064826        20.162065                    75.99379
## Dim.3  0.6295103        15.737758                    91.73155
## Dim.4  0.3307381         8.268451                   100.00000
fviz_eig(x1, addlabels=T)

Observacion 3:
Se deben retener para el analisis las 3 primeros dimensiones(ejec), porque la suma de las tres explican alrededor del 91,7% de los datos.

Pregunta 4

¿Cuál es la variable que más contribuye al primer eje? ¿Cuál es la que menos? (indique los porcentajes).

get_pca_var(x1)$contrib
##          Dim.1       Dim.2     Dim.3      Dim.4
## price 32.98278  6.83923015  3.085017 57.0929775
## malt  29.08912 13.53859727 17.211516 40.1607634
## aging 23.58356  0.04937816 73.749324  2.6177390
## taste 14.34454 79.57279442  5.954142  0.1285201

Observacion 4:
La variable que mas contribuye en la DIM1 es la del precio con un 32.9%. Y la que menos contribuye en la misma dimension es apreciacion, aporta solo el 14,3% siendo la de menor aporte.

Pregunta 5

Según el círculo de correlaciones, ¿cuáles son las variables más correlacionadas? ¿Cuánto es la correlación? ¿Si corresponden a lo que se observa en la matriz de correlaciones?

corPlot(sel, cex = 1.2, pval = TRUE , main = "Matriz de correlación")

Observacion 5.
Al revisar la correlacion es posible observar que las variables mas correlacionadas son el Precio y proporcion de malta con un 0.66 de correlacion, interpretando que a mayor precio , mayor es la proporcion de malta que posee el whisky.

Pregunta 6

¿Cuál es la variable mejor representada en el primer plano factorial? ¿Cuál la peor? (escriba los porcentajes).

library(corrplot)
## corrplot 0.92 loaded
corrplot(get_pca_var(x1)$cos2)

Observacion 6. La variable mejor representada es apreciacion (taste) con un 100%, y la peor es vejez (Aging) con un 50%.

Pregunta 7

¿Qué representa el primer eje? ¿Qué nombre le asignaría? ¿Qué representa el segundo eje?

fviz_pca_var(x1,repel = T, colvar="cos2", col.var = "contrib", alpha.var = "contrib", gradient.cols=c("#FF0000","#FFFF00","#00FF00"))

Observacion 7. De acuerdo con el anterior grafico, para el eje X representa vejez(aging) del whisky, y para el eje Y la apreciacion(taste) que puede traducirse al sabor del Whisky.

Pregunta 8.

¿Cuál es el individuo mejor representado en el primer plano factorial? Ubique sobre el gráfico de individuos al peor representado sobre el primer plano factorial (indique los porcentajes).

w_pca_anal_sup=PCA(Whisky, quali.sup = 3, graph = T)

w_pca_anal_sup$var$coord
##           Dim.1       Dim.2      Dim.3       Dim.4
## price 0.8582506 -0.23485571 -0.1393575 -0.43454368
## malt  0.8060015 -0.33043371 -0.3291630  0.36445429
## aging 0.7257302  0.01995561  0.6813660  0.09304762
## taste 0.5659967  0.80108723 -0.1936025  0.02061710
w_pca_anal_sup$quali.sup
## $coord
##            Dim.1      Dim.2      Dim.3       Dim.4
## low  -1.34594618 -0.1173957  0.1214117 -0.06627865
## med  -0.01582504  0.3390561  0.1630214 -0.15082026
## pure  2.15349053 -0.6389430 -0.5866989  0.47042993
## 
## $cos2
##            Dim.1       Dim.2       Dim.3       Dim.4
## low  0.982154698 0.007471862 0.007991824 0.002381616
## med  0.001522085 0.698702440 0.161524408 0.138251066
## pure 0.826462691 0.072754787 0.061343403 0.039439120
## 
## $v.test
##            Dim.1      Dim.2     Dim.3     Dim.4
## low  -3.55539088 -0.5160417  0.604073 -0.454948
## med  -0.06000702  2.1394479  1.164316 -1.486090
## pure  4.20128274 -2.0743120 -2.155874  2.384857
## 
## $dist
##       low       med      pure 
## 1.3581187 0.4056257 2.3688161 
## 
## $eta2
##          Dim.1     Dim.2     Dim.3     Dim.4
## type 0.6703074 0.1758479 0.1372245 0.1714042
fviz_pca_biplot(x1)

fviz_contrib(x1,choice="ind", axes = 1)

Observacion 8. De acuerdo al anterior grafico la marca 30 es el mejor representado con un 15% mientras que la marca 11 esta muy cerca a 0%, interpretando que es el de menor calidad.

Pregunta 9

¿Qué características tienen las marcas de Whisky según sus ubicaciones en el plano? (a la derecha, a la izquierda, arriba, abajo).

fviz_pca_ind(w_pca_anal_sup, addEllipses = T, habillage = 3)

Observacion 9. Es posible evidenciar 3 segmentaciones de las marcas de whisky dentro de las que estan las clases Low, Med y pure basado en 2 dimensiones edad del whisky(precio, malta) y sabor.

Pregunta 10

A partir de la posición en el plano deduzca las características de las tres categorías de whisky (lujo, estándar y pura malta).

Observacion 10: al deducir las categorias se dividirian asi: LOW = Baja calidad , MED = Estandar y PURE = Lujo y pura malta

Pregunta 11

Supongamos que usted desea comprar una botella de Whisky con buena apreciación y que no sea tan cara. Dé dos números de marcas que compraría. ¿Por qué? ?Cuáles son las características de las dos marcas?

Observacion 11. De acuerdo con los datos, compraria el marca 31 y 26 debido a que mantienen una relacion buena entre calidad-precio favorable y tienen un buena apreciacion.

Pregunta 12

Seleccione dos marcas que definitivamente no compraría. ¿Por qué? ¿Qué características tienen?

Observacion 12.
Definitivamente no me compraria entre las marcas 6, 9 y 10 debido a que presentan escasa relacion entre las variables, precio, calidad y menos apreciacion.