Análisis Multivariado

Jesús Antonio Escobar Corpas

Kleider Stiven Vásquez Gómez

03/09/2021


Motivación

Para este trabajo hemos decidido trabajar una base de datos propia del R denominada “Milk”, la cual contiene valores de 85 leches distintas descritas en 6 variables, las cuales son:

  • Densidad (density).
  • Contenido de grasa (fat).
  • Proteína (protein).
  • Caseína (casein).
  • Seco (dry).
  • Rendimiento (yield).

Resumen de los datos

BASE DE DATOS MILK
density fat protein casein dry yield
1.032 37.7 35.7 28.5 127.1 15.35
1.032 37.5 35.3 28.0 128.7 14.72
1.031 37.0 32.8 25.3 124.1 14.61
1.031 39.5 33.7 26.8 127.5 14.56
1.031 36.0 32.8 25.9 121.6 13.74
1.032 36.0 33.8 26.9 124.5 14.31

Vector de medias, desviaciones estándar y varianzas

Vector de medias, desviaciones estándar y varianzas
density fat protein casein dry yield
Medias 1.03 35.72 32.84 25.91 122.56 14.36
desviaciones 0.00 1.56 1.35 1.08 3.18 0.49
varianzas 0.00 2.45 1.83 1.16 10.12 0.24

En estos resultados se logra observar que hay variables que tienen una variabilidad mucho mayor, este es el caso de la variable “dry” que tiene una varianza de 10.12, información importante que recomienda hacer una estandarización de las variables adjuntas, y que hay variables que tienen otros tipos de medidas como es la de “density”.

Para poder crear componentes principales confiables es necesario plantear un gráfico para ver el comportamiento de las variables y uno que puede ser de gran ayuda en este caso es el que contiene la dispersión, histogramas y correlación entre variables, de una manera resumida y fácil de entender:

Matriz de Dispersión

En este gráfico se observan algunas tendencias lineales como son: entre las variables “protein” y “casein”, “protein” con “yield” y “yield” con “dry”, pero para sacar mayor información de los datos se hará una mejora en el gráfico así:

Se mostrará un gráfico compuesto de la siguiente manera, por debajo de la diagonal gráficos con líneas del comportamiento de las variables, regiones de confianza junto a su epicentro. Sobre la diagonal se encuentran los histogramas comparativos entre las variables asociadas con su respectiva línea de densidad de color azul y por encima de la diagonal en la parte superior, las diferentes correlaciones entre las variables ya sean positivas o negativas.

Matriz de Dispersión, Histograma y Correlación

Verificando algunos datos importantes del gráfico, se puede ver que:

  • La mayor correlación en los datos está entre “protein” y “casein” con un 0.96, que es algo que tiene mucho sentido ya que la caseína representa cerca del 77% al 82% de las proteínas presentes en la leche.

  • La menor correlación encontrada está entre density y fat con un 0.40, esto estaría indicando que no hay una relación muy marcada entre estas dos variables, es decir la leche no es más densa por la cantidad de grasa, pero ésto no es tan seguro ya que la correlación es de 0.40 que no es del todo baja.

  • Se puede observar que casi todas las variables, excepto la variable “density” tienen el gráfico de densidad parecida a una distribucipon normal, por lo que se podría intuir una normalidad en las variables, y esto podría ser atribuido a la independencia de los datos.

  • Por otro lado, se observan unos comportamientos lineales entre las variables “protein” con “yield” y “yield” con “dry”.

Ahora, se realizará el análisis de componentes principales (ACP), la cual se utiliza para describir un conjunto de datos en términos de nuevas variables CP1, CP2, CP3 hasta \(CPn\) no correlacionadas. Las componentes principales están definidas como aquellas combinaciones lineales no correlacionadas con máxima varianza que explican la mayor parte de la variación, por lo que este método es útil para reducir la dimensionalidad del conjunto de datos.

La finalidad del ACP es buscar la proyección según la cual los datos queden mejor representados y convirtiendo un conjunto de observaciones de variables posiblemente correlacionadas en un conjunto de valores de variables sin correlación lineal.

Coordenadas

COORDENADAS
Dim.1 Dim.2 Dim.3 Dim.4 Dim.5
density 0.7496535 -0.1629700 0.6126850 -0.0738432 0.1748479
fat 0.7165994 0.6150686 -0.0468600 0.3102831 0.0983168
protein 0.8709813 -0.3684986 -0.2732386 0.1096018 0.0271358
casein 0.8793697 -0.3971039 -0.1938887 0.1094438 0.0007768
dry 0.9092831 0.1337179 0.2385188 -0.0272824 -0.3123328
yield 0.8157867 0.2819148 -0.2869833 -0.4092824 0.0712834

Para dar una interpretación a esta tabla de coordenadas es necesario entender como se posicionan las 6 variables en varias dimensiones. En el caso del plano de Dim.1 y Dim.2, éstos hacen el papel de “X” e “Y” en el plano cartesiano y el número encontrado en cada una es respectivamente el punto de localización. Si fuese necesario utilizar las 3 componentes principales la Dim.3 haría el papel de la “Z” en el espacio, dando así un factor de profundidad para interpretar. En el caso de utilizar más componentes principales se pierde su interpretación gráfica.

Contribución

CONTRIBUCION
Dim.1 Dim.2 Dim.3 Dim.4 Dim.5
density 13.70785 3.337811 59.6715795 1.8548535 21.2883506
fat 12.52567 47.543759 0.3490581 32.7495503 6.7309494
protein 18.50401 17.065461 11.8679914 4.0862465 0.5127496
casein 18.86215 19.817768 5.9758285 4.0744746 0.0004202
dry 20.16723 2.247115 9.0435364 0.2531948 67.9292009
yield 16.23310 9.988086 13.0920061 56.9816802 3.5383294

Las contribuciones ayudan a la información del análisis de componentes principales, ya que logran identificar cuáles son las variables que aportan más a cada una de las componentes, e indica la magnitud del vector o flecha. Se observa que la variable dry, casein y protein son las que tienen la mayor contribución en la CP1, en esta componente la que menor contribución tiene es la variable fat.

En el caso de la CP2, hay grandes contribuciones por parte de la variable fat, quien tiene la mayor contribución y las variables casein y protein. En este caso quien tiene la menor contribución es la variable dry.

Cosenos Cuadrados

COSENOS CUADRADOS
Dim.1 Dim.2 Dim.3 Dim.4 Dim.5
density 0.5619804 0.0265592 0.3753829 0.0054528 0.0305718
fat 0.5135146 0.3783094 0.0021959 0.0962756 0.0096662
protein 0.7586084 0.1357912 0.0746593 0.0120126 0.0007363
casein 0.7732910 0.1576915 0.0375928 0.0119779 0.0000006
dry 0.8267958 0.0178805 0.0568912 0.0007443 0.0975518
yield 0.6655080 0.0794760 0.0823594 0.1675121 0.0050813

Los cosenos cuadrados son factores importantes para el análisis de componentes principales ya que nos dan la calidad de estas contribuciones, de nada sirve una magnitud larga del vector con un ángulo pequeño a la componente principal.

Para la CP1 se observan que las variables que dan más calidad a esta componente son dry, casein y protein y la que aporta menos calidad es la variable fat. Para el caso de la CP2 las que más aportan son las variables fat, casein y protein, y la que aporta menos calidad, en este caso, es dry.

Ahora se mostrará el comportamiento individual de algunas observaciones:

Coordenadas individuales, Contribuciones individuales y Cosenos Cuadrados individuales

COORDENADAS INDIVIDUALES
Dim.1 Dim.2 Dim.3 Dim.4 Dim.5
4.5216257 -0.5430321 -0.3434657 -0.1947254 0.4941975
3.8554482 -0.6310345 0.4973071 0.5210143 -0.2198690
0.7757529 0.9100542 0.7307916 -0.1840972 0.3056627
2.6823431 1.2479442 0.4232373 1.1766537 -0.1316498
-0.2779022 -0.4615095 1.0356480 0.9389916 0.4579694
1.6555226 -0.8416560 1.0923281 0.2338511 0.3852746
CONTRIBUCIONES INDIVIDUALES
Dim.1 Dim.2 Dim.3 Dim.4 Dim.5
5.8670315 0.4359919 0.2206180 0.1517454 2.0007985
4.2655884 0.5887537 0.4625125 1.0863492 0.3960319
0.1726935 1.2245089 0.9987602 0.1356327 0.7653979
2.0647043 2.3025960 0.3349979 5.5407369 0.1419851
0.0221622 0.3149116 2.0058502 3.5285285 1.7182060
0.7865013 1.0473617 2.2314153 0.2188512 1.2160263
COSENOS CUADRADOS INDIVIDUALES
Dim.1 Dim.2 Dim.3 Dim.4 Dim.5
0.9646418 0.0139132 0.0055660 0.0017890 0.0115233
0.9389996 0.0251549 0.0156230 0.0171481 0.0030538
0.2674268 0.3680379 0.2373259 0.0150609 0.0415186
0.6952695 0.1504925 0.0173098 0.1337894 0.0016748
0.0314442 0.0867197 0.4366978 0.3589881 0.0853944
0.5650667 0.1460490 0.2460003 0.0112748 0.0306034

Nota: Tiene la misma interpretación que las anteriores, pero con los valores individuales.

Continuando, se verifica el comportamiento entre la varianza y los valores propios de la siguiente manera:

Comportamiento de Valores Propios con la Varianza

VALOR PROPIO - PORCENTAJE DE VARIANZA - VARIANZA ACUMULADA
eigenvalue percentage of variance cumulative percentage of variance
comp 1 4.0996981 68.328302 68.32830
comp 2 0.7957078 13.261797 81.59010
comp 3 0.6290815 10.484692 92.07479
comp 4 0.2939753 4.899588 96.97438
comp 5 0.1436080 2.393467 99.36785
comp 6 0.0379292 0.632153 100.00000

En la tabla anterior vemos cómo se están relacionando el valor propio con la varianza, además de apreciar que usando los tres primeros componentes principales se estaría explicando el 92.07479% de la variabilidad, aunque si se usaran los primeros dos componentes principales se estaría explicando la variabilidad en un porcentaje alto, de 81.59010%.

Verificación de Componentes Principales

COMPONENTES PRINCPALES CP
PC1 PC2 PC3 PC4 PC5 PC6
density -0.3702411 -0.1826968 0.7724738 -0.1361930 0.4613930 -0.0373574
fat -0.3539162 0.6895198 -0.0590811 0.5722722 0.2594407 0.0317827
protein -0.4301628 -0.4131036 -0.3444995 0.2021447 0.0716065 -0.6925572
casein -0.4343057 -0.4451715 -0.2444551 0.2018533 0.0020499 0.7160263
dry -0.4490794 0.1499038 0.3007247 -0.0503185 -0.8241917 -0.0599765
yield -0.4029032 0.3160393 -0.3618288 -0.7548621 0.1881045 0.0408414

Se hará un gráfico de codo para decidir cuántas componentes se deben escoger.

Según la gráfica anterior decidimos escoger los primeros tres componentes principales para así explicar el 92.07479% de la variabilidad.

Círculo de Correlaciones

De este gráfico, como se había dicho anteriormente, las variables más correlacionadas son las variables “protein” y “casein”, ya que están casi sobrepuestas en dicha gráfica.

Calidad de Representación de las Variables

En esta gráfica se observa que la que mayor contribución tiene es “dry” porque al hacer la proyección ortogonal tendría un mayor rango. Igualmente, observamos que “casein” y “protein” contribuyen de manera positiva a la Componente Principal 1. También, parece ser que ninguna variable contribuye de manera significativa para la CP2.

Gráfico de Individuos

Observamos que según la gráfica los Individuos 1, 2, 42, 12, 13, 14, 15 contribuyen de manera significativa en la CP1. Y para la Componente 2, serían significativos los individuos 17, 47 y 21, que contribuyen fuertemente para dicha Componente.

Biplot del ACP

En esta gráfica se aprecia a mejor escala lo que mencionamos anteriormente.

  • Primera Componente:

\(Y_1\) = -0.37024\(Z_1\)-0.3539\(Z_2\)-0.4301628\(Z_3\)-0.4343057\(Z_4\)-0.4490794\(Z_5\)-0.4029032\(Z_6\)

  • Segunda Componente:

\(Y_2\) = -0.1826968\(Z_1\)+0.6895198\(Z_2\)-0.4131036\(Z_3\)-0.4451715\(Z_4\)+0.1499038\(Z_5\)+0.3160393\(Z_6\)

  • Tercera Componente:

\(Y_3\) = 0.7724738\(Z_1\)-0.0590811\(Z_2\)-0.3444995\(Z_3\)-0.2444551\(Z_4\)+0.3007247\(Z_5\)-0.3618288\(Z_6\)

donde \(Z_i\) es:

\[Z_i = \dfrac{X_{ik} - \bar X_k}{S_k}\]

Y los \(X_i\) son:

  • \(X_1\) = density
  • \(X_2\) = fat
  • \(X_3\) = protein
  • \(X_4\) = casein
  • \(X_5\) = dry
  • \(X_6\) = yield.

Entonces, podemos decir que la carga más pesada es para la variable \(X_1\) en la componente 3 y la menos pesada es para \(X_2\).

Así, las tres componentes principales retienen el 92.07479% de la variabilidad total.

Conclusiones Generales

  • Consideramos que de manera eficiente realizamos un estudio estadístico de las correlaciones de variables y similitudes de individuos por medio de la metodología de APC.

  • Se logró mediante el Análisis de Componentes Principales representar los datos originales de “Milk” en un espacio de dimensión menor que el original, limitando al máximo la pérdida de información.

  • El trabajo en equipo junto con las herramientas virtuales (Google Meet, WhatsApp y R-Studio) hizo posible que se diera a cabo dicho proyecto. Por tanto valoramos el compromiso, tiempo y dedicación de un trabajo en grupo.

Bibliografía