Objetivo
El objetivo es estudiar la relación calidad precio de 35 marcas de whisky, utilizando las variables precio (francos franceses), proporción de malta ( %), vejez (añejamiento en años) y apreciación (nota promedio de un panel de catadores redondeada a entero). Se dispone además de una variable categórica “categorías”, que clasifica las marcas según su contenido de malta (1=Bajo, 2=Estándar, 3=Puro malta).
Para obtener los datos use:
library(FactoClass)
## Warning: package 'FactoClass' was built under R version 4.1.2
## Warning: package 'ade4' was built under R version 4.1.2
## Warning: package 'ggrepel' was built under R version 4.1.2
## Warning: package 'scatterplot3d' was built under R version 4.1.1
data("Whisky")
head(Whisky)
## price malt type aging taste
## 1 70 20 low 5.0 3
## 2 60 20 low 5.0 2
## 3 65 20 low 7.5 2
## 4 74 25 low 12.0 2
## 5 70 25 low 12.0 3
## 6 73 30 low 5.0 0
Y=Whisky[,-3]
Trabajo
Realice primero un ACP no normado y luego un ACP normado utilizando el software R y responda a las preguntas.
Para el ACP no normado utilice:
library(FactoMineR)
## Warning: package 'FactoMineR' was built under R version 4.1.2
library(factoextra)
## Warning: package 'factoextra' was built under R version 4.1.2
acpc <- PCA(Y, scale.unit = F)
## Warning: ggrepel: 20 unlabeled data points (too many overlaps). Consider
## increasing max.overlaps
get_eigenvalue(acpc)
## eigenvalue variance.percent cumulative.variance.percent
## Dim.1 953.238889 84.4467052 84.44671
## Dim.2 169.350357 15.0026188 99.44932
## Dim.3 4.980882 0.4412525 99.89058
## Dim.4 1.235178 0.1094234 100.00000
fviz_eig(acpc, addlabels=T)
Whisky1 = Whisky[-3]
#Whisky1
En el ACP no normado, analice la contribución de las variables a la inercia(varianza). ¿Realmente se puede considerar un análisis de las cuatro variables?
Realice el ACP normado, justifique por qué es el que conviene para los objetivos de este taller.
whisky_pca =PCA(Whisky1, graph = T, scale.unit = T)
## Warning: ggrepel: 7 unlabeled data points (too many overlaps). Consider
## increasing max.overlaps
¿Cuántos ejes retiene para el análisis? ¿Por qué?
get_eigenvalue(whisky_pca)
## eigenvalue variance.percent cumulative.variance.percent
## Dim.1 2.2332690 55.831725 55.83172
## Dim.2 0.8064826 20.162065 75.99379
## Dim.3 0.6295103 15.737758 91.73155
## Dim.4 0.3307381 8.268451 100.00000
fviz_eig(whisky_pca, addlabels=T)
Se toman 3 dimensiones toda vez que abarcan el 91.7%
¿Cuál es la variable que más contribuye al primer eje? ¿Cuál es la que menos? (indique los porcentajes).
get_pca_var(whisky_pca)$contrib
## Dim.1 Dim.2 Dim.3 Dim.4
## price 32.98278 6.83923015 3.085017 57.0929775
## malt 29.08912 13.53859727 17.211516 40.1607634
## aging 23.58356 0.04937816 73.749324 2.6177390
## taste 14.34454 79.57279442 5.954142 0.1285201
fviz_contrib(whisky_pca, choice = "var", axes=1)
La variable que más contribuye con la dimensión 1 es el precio con un 32.98% y la que menos contribuye es el sabor con un 14.34%.
Según el círculo de correlaciones, ¿cuáles son las variables más correlacionadas? ¿Cuánto es la correlación? ¿Si corresponden a lo que se observa en la matriz de correlaciones?
library(corrplot)
## Warning: package 'corrplot' was built under R version 4.1.2
## corrplot 0.92 loaded
library(psych)
## Warning: package 'psych' was built under R version 4.1.1
##
## Attaching package: 'psych'
## The following objects are masked from 'package:ggplot2':
##
## %+%, alpha
pairs.panels(Whisky1, smooth = TRUE,scale = FALSE, density = TRUE,ellipses = TRUE, method = "pearson",pch = 21,lm = FALSE,cor = TRUE,jiggle = FALSE,factor = 2,hist.col = 4,stars = TRUE,ci = TRUE)
whisky_pca =PCA(Whisky1, graph = T, scale.unit = T)
Las variables más correlacionadas son el precio y la malta (0.66), que nos quiere decir que a mayor precio, mayor es porcentaje de malta que contiene el whisky, lo cual se ve reflejado en el circulo de correlaciones.
¿Cuál es la variable mejor representada en el primer plano factorial? ¿Cuál la peor? (escriba los porcentajes).
corrplot(get_pca_var(whisky_pca)$cos2, insig = c("p-value"), sig.level=-1)
La variable que mejor se representa en el primer plano factorial es “taste” con un 100%, la peor representada es “aging” con un 50% aproximadamente.
¿Qué representa el primer eje? ¿Qué nombre le asignaría? ¿Qué representa el segundo eje?
fviz_pca_var(whisky_pca,repel = T, colvar="cos2", col.var = "contrib", alpha.var = "contrib", gradient.cols=c("#FF0000","#FFFF00","#00FF00"))
El primer eje (horizontal) representa lo añejo del whisky, mientras que el segundo eje se asocia con el sabor del whisky
¿Cuál es el individuo mejor representado en el primer plano factorial? Ubique sobre el gráfico de individuos al peor representado sobre el primer plano factorial (indique los porcentajes).
w_pca_anal_sup=PCA(Whisky, quali.sup = 3, graph = T)
fviz_contrib(whisky_pca,choice="ind", axes = 1:2)
El individuo mejor representado en el plano factorial es el “30” con un porcentaje superior al 15% y el peor representado es el “11” con un valor cercano al 0%
¿Qué características tienen las marcas de Whisky según sus ubicaciones en el plano? (a la derecha, a la izquierda, arriba, abajo).
fviz_pca_ind(w_pca_anal_sup, addEllipses = T, habillage = 3)
La dimensión 2 se asocia con el sabor del whisky, mientras que la dimensión 1 con el precio/calidad del whisky.
A partir de la posición en el plano deduzca las características de las tres categorías de whisky (lujo, estándar y pura malta).
Low: Whisky más económico Pure: Whisky más costoso y añejo con más malta
Supongamos que usted desea comprar una botella de Whisky con buena apreciación y que no sea tan cara. Dé dos números de marcas que compraría. ¿Por qué? ?Cuáles son las características de las dos marcas?
La 31 y la 29
Seleccione dos marcas que definitivamente no compraría. ¿Por qué? ¿Qué características tienen?
La 19 y la 11