Objetivo

El objetivo es estudiar la relación calidad precio de 35 marcas de whisky, utilizando las variables precio (francos franceses), proporción de malta ( %), vejez (añejamiento en años) y apreciación (nota promedio de un panel de catadores redondeada a entero). Se dispone además de una variable categórica “categorías”, que clasifica las marcas según su contenido de malta (1=Bajo, 2=Estándar, 3=Puro malta).

Para obtener los datos use:

library(FactoClass)
## Warning: package 'FactoClass' was built under R version 4.1.2
## Warning: package 'ade4' was built under R version 4.1.2
## Warning: package 'ggrepel' was built under R version 4.1.2
## Warning: package 'scatterplot3d' was built under R version 4.1.1
data("Whisky")
head(Whisky)
##   price malt type aging taste
## 1    70   20  low   5.0     3
## 2    60   20  low   5.0     2
## 3    65   20  low   7.5     2
## 4    74   25  low  12.0     2
## 5    70   25  low  12.0     3
## 6    73   30  low   5.0     0
Y=Whisky[,-3]

Trabajo

Realice primero un ACP no normado y luego un ACP normado utilizando el software R y responda a las preguntas.

Para el ACP no normado utilice:

library(FactoMineR)
## Warning: package 'FactoMineR' was built under R version 4.1.2
library(factoextra)
## Warning: package 'factoextra' was built under R version 4.1.2
acpc <- PCA(Y, scale.unit = F)
## Warning: ggrepel: 20 unlabeled data points (too many overlaps). Consider
## increasing max.overlaps

get_eigenvalue(acpc)
##       eigenvalue variance.percent cumulative.variance.percent
## Dim.1 953.238889       84.4467052                    84.44671
## Dim.2 169.350357       15.0026188                    99.44932
## Dim.3   4.980882        0.4412525                    99.89058
## Dim.4   1.235178        0.1094234                   100.00000
fviz_eig(acpc, addlabels=T)

Whisky1 = Whisky[-3]
#Whisky1

Pregunta 1

En el ACP no normado, analice la contribución de las variables a la inercia(varianza). ¿Realmente se puede considerar un análisis de las cuatro variables?

Pregunta 2

Realice el ACP normado, justifique por qué es el que conviene para los objetivos de este taller.

whisky_pca =PCA(Whisky1, graph = T, scale.unit = T)
## Warning: ggrepel: 7 unlabeled data points (too many overlaps). Consider
## increasing max.overlaps

Pregunta 3

¿Cuántos ejes retiene para el análisis? ¿Por qué?

get_eigenvalue(whisky_pca)
##       eigenvalue variance.percent cumulative.variance.percent
## Dim.1  2.2332690        55.831725                    55.83172
## Dim.2  0.8064826        20.162065                    75.99379
## Dim.3  0.6295103        15.737758                    91.73155
## Dim.4  0.3307381         8.268451                   100.00000
fviz_eig(whisky_pca, addlabels=T)

Se toman 3 dimensiones toda vez que abarcan el 91.7%

Pregunta 4

¿Cuál es la variable que más contribuye al primer eje? ¿Cuál es la que menos? (indique los porcentajes).

get_pca_var(whisky_pca)$contrib
##          Dim.1       Dim.2     Dim.3      Dim.4
## price 32.98278  6.83923015  3.085017 57.0929775
## malt  29.08912 13.53859727 17.211516 40.1607634
## aging 23.58356  0.04937816 73.749324  2.6177390
## taste 14.34454 79.57279442  5.954142  0.1285201
fviz_contrib(whisky_pca, choice = "var", axes=1)

La variable que más contribuye con la dimensión 1 es el precio con un 32.98% y la que menos contribuye es el sabor con un 14.34%.

Pregunta 5

Según el círculo de correlaciones, ¿cuáles son las variables más correlacionadas? ¿Cuánto es la correlación? ¿Si corresponden a lo que se observa en la matriz de correlaciones?

library(corrplot)
## Warning: package 'corrplot' was built under R version 4.1.2
## corrplot 0.92 loaded
library(psych)
## Warning: package 'psych' was built under R version 4.1.1
## 
## Attaching package: 'psych'
## The following objects are masked from 'package:ggplot2':
## 
##     %+%, alpha
pairs.panels(Whisky1, smooth = TRUE,scale = FALSE, density = TRUE,ellipses = TRUE,             method = "pearson",pch = 21,lm = FALSE,cor = TRUE,jiggle = FALSE,factor = 2,hist.col = 4,stars = TRUE,ci = TRUE)          

whisky_pca =PCA(Whisky1, graph = T, scale.unit = T)

Las variables más correlacionadas son el precio y la malta (0.66), que nos quiere decir que a mayor precio, mayor es porcentaje de malta que contiene el whisky, lo cual se ve reflejado en el circulo de correlaciones.

Pregunta 6

¿Cuál es la variable mejor representada en el primer plano factorial? ¿Cuál la peor? (escriba los porcentajes).

corrplot(get_pca_var(whisky_pca)$cos2, insig = c("p-value"), sig.level=-1)

La variable que mejor se representa en el primer plano factorial es “taste” con un 100%, la peor representada es “aging” con un 50% aproximadamente.

Pregunta 7

¿Qué representa el primer eje? ¿Qué nombre le asignaría? ¿Qué representa el segundo eje?

fviz_pca_var(whisky_pca,repel = T, colvar="cos2", col.var = "contrib", alpha.var = "contrib", gradient.cols=c("#FF0000","#FFFF00","#00FF00"))

El primer eje (horizontal) representa lo añejo del whisky, mientras que el segundo eje se asocia con el sabor del whisky

Pregunta 8

¿Cuál es el individuo mejor representado en el primer plano factorial? Ubique sobre el gráfico de individuos al peor representado sobre el primer plano factorial (indique los porcentajes).

w_pca_anal_sup=PCA(Whisky, quali.sup = 3, graph = T)

fviz_contrib(whisky_pca,choice="ind", axes = 1:2)

El individuo mejor representado en el plano factorial es el “30” con un porcentaje superior al 15% y el peor representado es el “11” con un valor cercano al 0%

Pregunta 9

¿Qué características tienen las marcas de Whisky según sus ubicaciones en el plano? (a la derecha, a la izquierda, arriba, abajo).

fviz_pca_ind(w_pca_anal_sup, addEllipses = T, habillage = 3)

La dimensión 2 se asocia con el sabor del whisky, mientras que la dimensión 1 con el precio/calidad del whisky.

Pregunta 10

A partir de la posición en el plano deduzca las características de las tres categorías de whisky (lujo, estándar y pura malta).

Low: Whisky más económico Pure: Whisky más costoso y añejo con más malta

Pregunta 11

Supongamos que usted desea comprar una botella de Whisky con buena apreciación y que no sea tan cara. Dé dos números de marcas que compraría. ¿Por qué? ?Cuáles son las características de las dos marcas?

La 31 y la 29

Pregunta 12

Seleccione dos marcas que definitivamente no compraría. ¿Por qué? ¿Qué características tienen?

La 19 y la 11