library(FactoMineR)
## Warning: package 'FactoMineR' was built under R version 4.4.3
library(factoextra)
## Warning: package 'factoextra' was built under R version 4.4.3
## Cargando paquete requerido: ggplot2
## Warning: package 'ggplot2' was built under R version 4.4.3
## Welcome to factoextra!
## Want to learn more? See two factoextra-related books at https://www.datanovia.com/en/product/practical-guide-to-principal-component-methods-in-r/
library(corrplot)
## Warning: package 'corrplot' was built under R version 4.4.3
## corrplot 0.95 loaded
whisky <- read.table("C:/Users/bpena/Downloads/whisky.txt", header = TRUE)

summary(whisky)
##      IDENT           PRE              PRO            CAT           
##  Min.   : 1.0   Min.   : 55.00   Min.   : 20.0   Length:35         
##  1st Qu.: 9.5   1st Qu.: 73.00   1st Qu.: 30.0   Class :character  
##  Median :18.0   Median : 83.00   Median : 40.0   Mode  :character  
##  Mean   :18.0   Mean   : 85.71   Mean   : 47.4                     
##  3rd Qu.:26.5   3rd Qu.: 91.50   3rd Qu.: 45.0                     
##  Max.   :35.0   Max.   :160.00   Max.   :100.0                     
##       VEJ              APR       
##  Min.   : 5.000   Min.   :0.000  
##  1st Qu.: 8.000   1st Qu.:2.000  
##  Median :10.000   Median :2.000  
##  Mean   : 9.514   Mean   :2.229  
##  3rd Qu.:12.000   3rd Qu.:3.000  
##  Max.   :12.500   Max.   :4.000

Se seleccionan las variables numéricas relevantes para el análisis:

whisky.active <- whisky[, c("PRE", "PRO", "VEJ", "APR")]

Aplicación del ACP

res.pca <- PCA(whisky.active, scale.unit = TRUE, graph = FALSE)

Valores propios

eig.val <- get_eigenvalue(res.pca)
eig.val
##       eigenvalue variance.percent cumulative.variance.percent
## Dim.1  2.2339906        55.849765                    55.84976
## Dim.2  0.8064089        20.160222                    76.00999
## Dim.3  0.6296070        15.740175                    91.75016
## Dim.4  0.3299935         8.249838                   100.00000
fviz_eig(res.pca, addlabels = TRUE)

Interpretación: Las dos primeras dimensiones capturan aproximadamente el 76% de la variabilidad total (55.8% la Dim 1 y 20.2% la Dim 2). Al superar el umbral del 70-75%, el plano factorial es altamente confiable para la interpretación. —

Análisis de variables

fviz_pca_var(res.pca, repel = TRUE)

var <- get_pca_var(res.pca)

corrplot(var$cos2, is.corr = FALSE)

corrplot(var$contrib, is.corr = FALSE)

Interpretación:

Las cargas de las variables muestran lo siguiente:

Esto indica que la Dimensión 1 está fuertemente asociada con el precio, la proporción de malta y la vejez, por lo que puede interpretarse como un eje de calidad/costo.

Por otro lado, la Dimensión 2 está dominada por la apreciación (APR = 0.81), lo que indica que separa principalmente los whiskys según su valoración.

Además, se observa que PRE, PRO y VEJ están altamente correlacionadas entre sí, mientras que APR presenta una relación más débil con estas variables.


Análisis de individuos

fviz_pca_ind(res.pca, col.ind = "cos2",
             gradient.cols = c("#00AFBB", "#E7B800", "#FC4E07"))


Biplot

fviz_pca_biplot(res.pca, repel = TRUE)


Respuestas del taller

¿Dónde están los whiskys más costosos, con alta proporción de malta, añejos y apreciados?

Se ubican en el cuadrante superior derecho del plano factorial (Dim 1 positiva y Dim 2 positiva).

Ejemplos claros:

  • Whisky 26 (1.78, 1.00)
  • Whisky 31 (2.20, 0.58)
  • Whisky 27 (0.96, 0.46)

Estos whiskys presentan altos valores en precio, proporción de malta, vejez y apreciación.


¿Dónde están los whiskys más económicos, con baja proporción de malta, jóvenes y poco apreciados?

Se ubican en el cuadrante inferior izquierdo (Dim 1 negativa y Dim 2 negativa).

Ejemplos:

  • Whisky 6 (-2.27, -1.26)
  • Whisky 9 (-2.06, -1.32)
  • Whisky 7 (-1.79, -1.24)

Estos corresponden a whiskys de menor calidad general.


¿Cuáles son las variables más correlacionadas? ¿Cuáles las menos?

Las variables más correlacionadas son:

  • PRE (precio)
  • PRO (proporción de malta)
  • VEJ (vejez)

La variable menos correlacionada es:

  • APR (apreciación)

¿Cuáles son las marcas mejor apreciadas y más económicas?

Se ubican en el cuadrante superior izquierdo (bajo precio y alta apreciación).

Ejemplos:

  • Whisky 1 (-1.62, 1.15)
  • Whisky 13 (-1.02, 1.07)
  • Whisky 5 (-0.19, 1.05)

Estos representan whiskys con buena relación calidad-precio.


¿Cuáles son las más costosas y menos apreciadas?

Se ubican en el cuadrante inferior derecho (alto precio y baja apreciación).

Ejemplos:

  • Whisky 30 (3.94, -1.05)
  • Whisky 35 (1.09, -2.49)
  • Whisky 32 (1.45, -0.86)

Indican productos costosos que no son bien valorados.


¿Cuáles son las variables mejor representadas en el plano factorial?

Todas las variables (PRE, PRO, VEJ y APR) están muy bien representadas en el plano. Aunque PRE, PRO y VEJ dominan la Dim 1, la variable APR se recupera casi totalmente en la Dim 2. En el círculo de correlación, los cuatro vectores alcanzan la periferia, lo que confirma un \(cos^2\) acumulado alto y una mínima pérdida de información en este plano.


¿Cuáles son las marcas mejor y peor representadas en el plano factorial?

Las mejor representadas son aquellas más alejadas del origen:

  • Whisky 30
  • Whisky 29
  • Whisky 26

Las peor representadas son las más cercanas al origen:

  • Whisky 17
  • Whisky 18
  • Whisky 19

Conclusión

El ACP permitió identificar una fuerte relación entre el precio, la proporción de malta y la vejez del whisky, lo que define un eje principal de calidad. Sin embargo, la apreciación no depende completamente de estas variables, ya que existen whiskys costosos con baja valoración y otros económicos con buena apreciación.

Además, el análisis permitió identificar diferentes grupos de whiskys según su comportamiento en el plano factorial, destacando aquellos con buena relación calidad-precio y aquellos donde el precio no se justifica por su apreciación.