Objetivo

El objetivo es estudiar la relación calidad precio de 35 marcas de whisky, utilizando las variables

Se dispone además de una variable categórica “categorías”, que clasifica las marcas según su contenido de malta (1=Bajo, 2=Estándar, 3=Puro malta).

Muestra de la data inicial

price malt type aging taste
70 20 low 5.0 3
60 20 low 5.0 2
65 20 low 7.5 2
74 25 low 12.0 2
70 25 low 12.0 3
73 30 low 5.0 0

Resumen de las variables de la data

price malt type aging taste
Min. : 55.00 Min. : 20.0 low :11 Min. : 5.000 Min. :0.000
1st Qu.: 73.00 1st Qu.: 30.0 med :17 1st Qu.: 8.000 1st Qu.:2.000
Median : 83.00 Median : 40.0 pure: 7 Median :10.000 Median :2.000
Mean : 85.71 Mean : 47.4 NA Mean : 9.529 Mean :2.229
3rd Qu.: 91.50 3rd Qu.: 45.0 NA 3rd Qu.:12.000 3rd Qu.:3.000
Max. :160.00 Max. :100.0 NA Max. :12.500 Max. :4.000

Data cuantitativa

price malt aging taste
70 20 5.0 3
60 20 5.0 2
65 20 7.5 2
74 25 12.0 2
70 25 12.0 3
73 30 5.0 0

Trabajo

Realice primero un ACP no normado y luego un ACP normado utilizando el software R y responda a las preguntas.

eigenvalue variance.percent cumulative.variance.percent
Dim.1 953.238889 84.4467052 84.44671
Dim.2 169.350357 15.0026188 99.44932
Dim.3 4.980882 0.4412525 99.89058
Dim.4 1.235178 0.1094234 100.00000

Pregunta 1

En el ACP no normado, analice la contribución de las variables a la inercia(varianza). ¿Realmente se puede considerar un análisis de las cuatro variables?

Dim.1 Dim.2 Dim.3 Dim.4
price 27.4806116 72.2114471 0.2990155 0.0089257
malt 72.3644119 27.6211124 0.0136137 0.0008621
aging 0.1411796 0.1553773 98.4415515 1.2618916
taste 0.0137969 0.0120632 1.2458193 98.7283206

En primera instancia, teniendo en cuenta el porcentaje de varianza acumulada que explica las dimensiones, agregando las dos primeras dimensiones, se explica el 99% de la varianza por lo que se escoge unicamente las dos primeras dimensiones. En esos terminos, las únicas variables que aportan significativamente a las dos dimensiones seleccionaas son el Price y el Malt por lo que se descartan las otras dos variables, es decir, no se puede considerar un análisis con las 4 variables.

Pregunta 2

Realice el ACP normado, justifique por qué es el que conviene para los objetivos de este taller.

eigenvalue variance.percent cumulative.variance.percent
Dim.1 2.2332690 55.831725 55.83172
Dim.2 0.8064826 20.162065 75.99379
Dim.3 0.6295103 15.737758 91.73155
Dim.4 0.3307381 8.268451 100.00000

##          Dim.1       Dim.2     Dim.3      Dim.4
## price 32.98278  6.83923015  3.085017 57.0929775
## malt  29.08912 13.53859727 17.211516 40.1607634
## aging 23.58356  0.04937816 73.749324  2.6177390
## taste 14.34454 79.57279442  5.954142  0.1285201

Si bien, la varianza explicada en el ejercicio normado no se consigue sin incluir todas las dimensiones, este ejercicio es mejor ya que incluye la variable taste la cual es objetivo de estudio con los datos. Sin embargo es importante resaltar que se debe incluir por lo menos 3 dimensiones para que se pueda explicar al menos un 90% de la varianza de los datos.

Pregunta 3

¿Cuántos ejes retiene para el análisis? ¿Por qué?

3 dimensiones, ya que, al incluir las tres primeras dimensiones, se explica al menos el 91,7% de la varianza de la muestra. Si bien, lo ideal es incluir una dimension que tenga un eingevalor mayor a 1, solo considerar la primera dimensión reduciría demasiado el porcentaje de varianza explicado.

Pregunta 4

¿Cuál es la variable que más contribuye al primer eje? ¿Cuál es la que menos? (indique los porcentajes).

x
price 32.98277
malt 29.08912
aging 23.58356
taste 14.34454

Price es la variable con mayor aporte a la Dim1 con un 32.98% mientras que taste es la que menos aporta con tan solo un 14.34%.

Pregunta 5

Según el círculo de correlaciones, ¿cuáles son las variables más correlacionadas? ¿Cuánto es la correlación? ¿Si corresponden a lo que se observa en la matriz de correlaciones?

Las variables que presentan mayor correlación son Price y Malt con una correlación positiva del 0.66

Además, gracias a los 3 asterizcos, podemos inferir que la correlación existente entre las dos variables es significativa al 99%.

Las correlaciones individuales entre pares de variables se corrobora a su vez entre las correlaciones que estas presentan con las dimensiones resultantes del ACP quedando las variables con mayor correlación en la primera dimensión (price + malt + aging) y la restante en la dimension 2 (taste).

Pregunta 6

¿Cuál es la variable mejor representada en el primer plano factorial? ¿Cuál la peor? (escriba los porcentajes).

Dim.1 Dim.2 Dim.3 Dim.4
price 0.8582506 -0.2348557 -0.1393575 -0.4345437
malt 0.8060015 -0.3304337 -0.3291630 0.3644543
aging 0.7257302 0.0199556 0.6813660 0.0930476
taste 0.5659967 0.8010872 -0.1936025 0.0206171

La mejor representada en el primer plano es el precio con un 85% de su comportamiento representado, mientras que la peor es la apreciación, con un 56% de su comportamiento representado.

Pregunta 7

¿Qué representa el primer eje? ¿Qué nombre le asignaría? ¿Qué representa el segundo eje?

El primer eje representa atributos netamente del producto como el tiempo de añejo (vejez), concentración de malta y su precio de venta, por lo que le asignaria el nombre de caracteristicas del producto. La segunda dimensión adoptaría el nombre de la única variable que contiene, en este caso Apreciación.

Pregunta 8

¿Cuál es el individuo mejor representado en el primer plano factorial? Ubique sobre el gráfico de individuos al peor representado sobre el primer plano factorial (indique los porcentajes).

Primero se realiza la grafica de las dos dimensiones elegidas y los individuos del dataframe.

##            1            2            3            4            5            6 
##  3.364301530  6.367478764  3.313206812  0.195485229  0.047039291  6.674079122 
##            7            8            9           10           11           12 
##  4.152905503  6.072775251  5.491416174  0.172835514  0.004179031  3.369804144 
##           13           14           15           16           17           18 
##  1.350541929  0.276971380  0.265007922  0.065030629  0.182025535  0.433767435 
##           19           20           21           22           23           24 
##  0.077245339  0.083499349  0.196798934  0.492817901  0.283800464  2.090328978 
##           25           26           27           28           29           30 
##  1.148357468  4.061846902  1.197390869  0.397305978  8.780181173 19.814526774 
##           31           32           33           34           35 
##  6.197597381  2.693992161  4.133469395  5.053879532  1.498110207

El individuo mejor representado en la dimensión 1 es el 30 con un 19.81% y el peor es el 11, con un 0.41.

Pregunta 9

¿Qué características tienen las marcas de Whisky según sus ubicaciones en el plano? (a la derecha, a la izquierda, arriba, abajo).

Dim.1 Dim.2 Dim.3 Dim.4
price 0.8582506 -0.2348557 -0.1393575 -0.4345437
malt 0.8060015 -0.3304337 -0.3291630 0.3644543
aging 0.7257302 0.0199556 0.6813660 0.0930476
taste 0.5659967 0.8010872 -0.1936025 0.0206171

Si el vector se posiciona arriba, quiere decir que es mejor explicado por la dimensión 2, mientras que si se posiciona abajo, será mejor explicado por la dimensión 1. A su vez, entre más tienda a alcanzar el valor 1 de la circunferencia, más participación dentro de la dimensión tendrá. Por ende, tal como se evidencia en la tabla de correlaciones, las primeras 3 variables quedan en la dim 1 y la ultima en la dim 2 porque es allí en esas dimensiones donde cada una de las variables presenta el mayor porcentaje de explicación de su comportamiento.

Pregunta 10

A partir de la posición en el plano deduzca las características de las tres categorías de whisky (bajo, estándar y pura malta).

Teniendo en cuenta la dirección del vector de cada variable, no necesariamente las marcas mas costosas, con mayor nivel de malta y más vejez, fueron las que obtuvieron mejores calificaciones. Las mejores calificaciones fueron obtenidas por aquelas marcas con niveles medios y bajos en malta.

Pregunta 11

Supongamos que usted desea comprar una botella de Whisky con buena apreciación y que no sea tan cara. Dé dos números de marcas que compraría. ¿Por qué? ?Cuáles son las características de las dos marcas?

La 16 y la 20. En primera instancia son las dos que tienen mejor calificación al estar apuntando a la dirección de la dimensión 2 y además, al estar cerca al origen de la dimensión 1, puede indicar que tiene un precio que no está entre los más altos.

Pregunta 12

Seleccione dos marcas que definitivamente no compraría. ¿Por qué? ¿Qué características tienen?

La 30 y 35. Son dos de las marcas con peores calificaciones al estar opuestas al vector de calificación y además, con un precio de los mas altos al ser paralelas al vector de precio. Es cierto que están entre las de mayor vejez y mayor concentración de malta, pero como lo mencioné anteriormente, no necesariamente esto implica que tengan mejor calificación.

```