Para este trabajo hemos decidido trabajar una base de datos propia del R denominada “Milk”, la cual contiene valores de 85 leches distintas descritas en 6 variables, las cuales son:
| density | fat | protein | casein | dry | yield |
|---|---|---|---|---|---|
| 1.032 | 37.7 | 35.7 | 28.5 | 127.1 | 15.35 |
| 1.032 | 37.5 | 35.3 | 28.0 | 128.7 | 14.72 |
| 1.031 | 37.0 | 32.8 | 25.3 | 124.1 | 14.61 |
| 1.031 | 39.5 | 33.7 | 26.8 | 127.5 | 14.56 |
| 1.031 | 36.0 | 32.8 | 25.9 | 121.6 | 13.74 |
| 1.032 | 36.0 | 33.8 | 26.9 | 124.5 | 14.31 |
| density | fat | protein | casein | dry | yield | |
|---|---|---|---|---|---|---|
| Medias | 1.03 | 35.72 | 32.84 | 25.91 | 122.56 | 14.36 |
| desviaciones | 0.00 | 1.56 | 1.35 | 1.08 | 3.18 | 0.49 |
| varianzas | 0.00 | 2.45 | 1.83 | 1.16 | 10.12 | 0.24 |
En estos resultados se logra observar que hay variables que tienen una variabilidad mucho mayor, este es el caso de la variable “dry” que tiene una varianza de 10.12, información importante que recomienda hacer una estandarización de las variables adjuntas, y que hay variables que tienen otros tipos de medidas como es la de “density”.
Para poder crear componentes principales confiables es necesario plantear un gráfico para ver el comportamiento de las variables y uno que puede ser de gran ayuda en este caso es el que contiene la dispersión, histogramas y correlación entre variables, de una manera resumida y fácil de entender:
En este gráfico se observan algunas tendencias lineales como son: entre las variables “protein” y “casein”, “protein” con “yield” y “yield” con “dry”, pero para sacar mayor información de los datos se hará una mejora en el gráfico así:
Se mostrará un gráfico compuesto de la siguiente manera, por debajo de la diagonal gráficos con líneas del comportamiento de las variables, regiones de confianza junto a su epicentro. Sobre la diagonal se encuentran los histogramas comparativos entre las variables asociadas con su respectiva línea de densidad de color azul y por encima de la diagonal en la parte superior, las diferentes correlaciones entre las variables ya sean positivas o negativas.
Verificando algunos datos importantes del gráfico, se puede ver que:
La mayor correlación en los datos está entre “protein” y “casein” con un 0.96, que es algo que tiene mucho sentido ya que la caseína representa cerca del 77% al 82% de las proteínas presentes en la leche.
La menor correlación encontrada está entre density y fat con un 0.40, esto estaría indicando que no hay una relación muy marcada entre estas dos variables, es decir la leche no es más densa por la cantidad de grasa, pero ésto no es tan seguro ya que la correlación es de 0.40 que no es del todo baja.
Se puede observar que casi todas las variables, excepto la variable “density” tienen el gráfico de densidad parecida a una distribucipon normal, por lo que se podría intuir una normalidad en las variables, y esto podría ser atribuido a la independencia de los datos.
Por otro lado, se observan unos comportamientos lineales entre las variables “protein” con “yield” y “yield” con “dry”.
Ahora, se realizará el análisis de componentes principales (ACP), la cual se utiliza para describir un conjunto de datos en términos de nuevas variables CP1, CP2, CP3 hasta \(CPn\) no correlacionadas. Las componentes principales están definidas como aquellas combinaciones lineales no correlacionadas con máxima varianza que explican la mayor parte de la variación, por lo que este método es útil para reducir la dimensionalidad del conjunto de datos.
La finalidad del ACP es buscar la proyección según la cual los datos queden mejor representados y convirtiendo un conjunto de observaciones de variables posiblemente correlacionadas en un conjunto de valores de variables sin correlación lineal.
| Dim.1 | Dim.2 | Dim.3 | Dim.4 | Dim.5 | |
|---|---|---|---|---|---|
| density | 0.7496535 | -0.1629700 | 0.6126850 | -0.0738432 | 0.1748479 |
| fat | 0.7165994 | 0.6150686 | -0.0468600 | 0.3102831 | 0.0983168 |
| protein | 0.8709813 | -0.3684986 | -0.2732386 | 0.1096018 | 0.0271358 |
| casein | 0.8793697 | -0.3971039 | -0.1938887 | 0.1094438 | 0.0007768 |
| dry | 0.9092831 | 0.1337179 | 0.2385188 | -0.0272824 | -0.3123328 |
| yield | 0.8157867 | 0.2819148 | -0.2869833 | -0.4092824 | 0.0712834 |
Para dar una interpretación a esta tabla de coordenadas es necesario entender como se posicionan las 6 variables en varias dimensiones. En el caso del plano de Dim.1 y Dim.2, éstos hacen el papel de “X” e “Y” en el plano cartesiano y el número encontrado en cada una es respectivamente el punto de localización. Si fuese necesario utilizar las 3 componentes principales la Dim.3 haría el papel de la “Z” en el espacio, dando así un factor de profundidad para interpretar. En el caso de utilizar más componentes principales se pierde su interpretación gráfica.
| Dim.1 | Dim.2 | Dim.3 | Dim.4 | Dim.5 | |
|---|---|---|---|---|---|
| density | 13.70785 | 3.337811 | 59.6715795 | 1.8548535 | 21.2883506 |
| fat | 12.52567 | 47.543759 | 0.3490581 | 32.7495503 | 6.7309494 |
| protein | 18.50401 | 17.065461 | 11.8679914 | 4.0862465 | 0.5127496 |
| casein | 18.86215 | 19.817768 | 5.9758285 | 4.0744746 | 0.0004202 |
| dry | 20.16723 | 2.247115 | 9.0435364 | 0.2531948 | 67.9292009 |
| yield | 16.23310 | 9.988086 | 13.0920061 | 56.9816802 | 3.5383294 |
Las contribuciones ayudan a la información del análisis de componentes principales, ya que logran identificar cuáles son las variables que aportan más a cada una de las componentes, e indica la magnitud del vector o flecha. Se observa que la variable dry, casein y protein son las que tienen la mayor contribución en la CP1, en esta componente la que menor contribución tiene es la variable fat.
En el caso de la CP2, hay grandes contribuciones por parte de la variable fat, quien tiene la mayor contribución y las variables casein y protein. En este caso quien tiene la menor contribución es la variable dry.
| Dim.1 | Dim.2 | Dim.3 | Dim.4 | Dim.5 | |
|---|---|---|---|---|---|
| density | 0.5619804 | 0.0265592 | 0.3753829 | 0.0054528 | 0.0305718 |
| fat | 0.5135146 | 0.3783094 | 0.0021959 | 0.0962756 | 0.0096662 |
| protein | 0.7586084 | 0.1357912 | 0.0746593 | 0.0120126 | 0.0007363 |
| casein | 0.7732910 | 0.1576915 | 0.0375928 | 0.0119779 | 0.0000006 |
| dry | 0.8267958 | 0.0178805 | 0.0568912 | 0.0007443 | 0.0975518 |
| yield | 0.6655080 | 0.0794760 | 0.0823594 | 0.1675121 | 0.0050813 |
Los cosenos cuadrados son factores importantes para el análisis de componentes principales ya que nos dan la calidad de estas contribuciones, de nada sirve una magnitud larga del vector con un ángulo pequeño a la componente principal.
Para la CP1 se observan que las variables que dan más calidad a esta componente son dry, casein y protein y la que aporta menos calidad es la variable fat. Para el caso de la CP2 las que más aportan son las variables fat, casein y protein, y la que aporta menos calidad, en este caso, es dry.
Ahora se mostrará el comportamiento individual de algunas observaciones:
| Dim.1 | Dim.2 | Dim.3 | Dim.4 | Dim.5 |
|---|---|---|---|---|
| 4.5216257 | -0.5430321 | -0.3434657 | -0.1947254 | 0.4941975 |
| 3.8554482 | -0.6310345 | 0.4973071 | 0.5210143 | -0.2198690 |
| 0.7757529 | 0.9100542 | 0.7307916 | -0.1840972 | 0.3056627 |
| 2.6823431 | 1.2479442 | 0.4232373 | 1.1766537 | -0.1316498 |
| -0.2779022 | -0.4615095 | 1.0356480 | 0.9389916 | 0.4579694 |
| 1.6555226 | -0.8416560 | 1.0923281 | 0.2338511 | 0.3852746 |
| Dim.1 | Dim.2 | Dim.3 | Dim.4 | Dim.5 |
|---|---|---|---|---|
| 5.8670315 | 0.4359919 | 0.2206180 | 0.1517454 | 2.0007985 |
| 4.2655884 | 0.5887537 | 0.4625125 | 1.0863492 | 0.3960319 |
| 0.1726935 | 1.2245089 | 0.9987602 | 0.1356327 | 0.7653979 |
| 2.0647043 | 2.3025960 | 0.3349979 | 5.5407369 | 0.1419851 |
| 0.0221622 | 0.3149116 | 2.0058502 | 3.5285285 | 1.7182060 |
| 0.7865013 | 1.0473617 | 2.2314153 | 0.2188512 | 1.2160263 |
| Dim.1 | Dim.2 | Dim.3 | Dim.4 | Dim.5 |
|---|---|---|---|---|
| 0.9646418 | 0.0139132 | 0.0055660 | 0.0017890 | 0.0115233 |
| 0.9389996 | 0.0251549 | 0.0156230 | 0.0171481 | 0.0030538 |
| 0.2674268 | 0.3680379 | 0.2373259 | 0.0150609 | 0.0415186 |
| 0.6952695 | 0.1504925 | 0.0173098 | 0.1337894 | 0.0016748 |
| 0.0314442 | 0.0867197 | 0.4366978 | 0.3589881 | 0.0853944 |
| 0.5650667 | 0.1460490 | 0.2460003 | 0.0112748 | 0.0306034 |
Nota: Tiene la misma interpretación que las anteriores, pero con los valores individuales.
Continuando, se verifica el comportamiento entre la varianza y los valores propios de la siguiente manera:
| eigenvalue | percentage of variance | cumulative percentage of variance | |
|---|---|---|---|
| comp 1 | 4.0996981 | 68.328302 | 68.32830 |
| comp 2 | 0.7957078 | 13.261797 | 81.59010 |
| comp 3 | 0.6290815 | 10.484692 | 92.07479 |
| comp 4 | 0.2939753 | 4.899588 | 96.97438 |
| comp 5 | 0.1436080 | 2.393467 | 99.36785 |
| comp 6 | 0.0379292 | 0.632153 | 100.00000 |
En la tabla anterior vemos cómo se están relacionando el valor propio con la varianza, además de apreciar que usando los tres primeros componentes principales se estaría explicando el 92.07479% de la variabilidad, aunque si se usaran los primeros dos componentes principales se estaría explicando la variabilidad en un porcentaje alto, de 81.59010%.
| PC1 | PC2 | PC3 | PC4 | PC5 | PC6 | |
|---|---|---|---|---|---|---|
| density | -0.3702411 | -0.1826968 | 0.7724738 | -0.1361930 | 0.4613930 | -0.0373574 |
| fat | -0.3539162 | 0.6895198 | -0.0590811 | 0.5722722 | 0.2594407 | 0.0317827 |
| protein | -0.4301628 | -0.4131036 | -0.3444995 | 0.2021447 | 0.0716065 | -0.6925572 |
| casein | -0.4343057 | -0.4451715 | -0.2444551 | 0.2018533 | 0.0020499 | 0.7160263 |
| dry | -0.4490794 | 0.1499038 | 0.3007247 | -0.0503185 | -0.8241917 | -0.0599765 |
| yield | -0.4029032 | 0.3160393 | -0.3618288 | -0.7548621 | 0.1881045 | 0.0408414 |
Se hará un gráfico de codo para decidir cuántas componentes se deben escoger.
Según la gráfica anterior decidimos escoger los primeros tres componentes principales para así explicar el 92.07479% de la variabilidad.
De este gráfico, como se había dicho anteriormente, las variables más correlacionadas son las variables “protein” y “casein”, ya que están casi sobrepuestas en dicha gráfica.
En esta gráfica se observa que la que mayor contribución tiene es “dry” porque al hacer la proyección ortogonal tendría un mayor rango. Igualmente, observamos que “casein” y “protein” contribuyen de manera positiva a la Componente Principal 1. También, parece ser que ninguna variable contribuye de manera significativa para la CP2.
Observamos que según la gráfica los Individuos 1, 2, 42, 12, 13, 14, 15 contribuyen de manera significativa en la CP1. Y para la Componente 2, serían significativos los individuos 17, 47 y 21, que contribuyen fuertemente para dicha Componente.
En esta gráfica se aprecia a mejor escala lo que mencionamos anteriormente.
\(Y_1\) = -0.37024\(Z_1\)-0.3539\(Z_2\)-0.4301628\(Z_3\)-0.4343057\(Z_4\)-0.4490794\(Z_5\)-0.4029032\(Z_6\)
\(Y_2\) = -0.1826968\(Z_1\)+0.6895198\(Z_2\)-0.4131036\(Z_3\)-0.4451715\(Z_4\)+0.1499038\(Z_5\)+0.3160393\(Z_6\)
\(Y_3\) = 0.7724738\(Z_1\)-0.0590811\(Z_2\)-0.3444995\(Z_3\)-0.2444551\(Z_4\)+0.3007247\(Z_5\)-0.3618288\(Z_6\)
donde \(Z_i\) es:
\[Z_i = \dfrac{X_{ik} - \bar X_k}{S_k}\]
Y los \(X_i\) son:
Entonces, podemos decir que la carga más pesada es para la variable \(X_1\) en la componente 3 y la menos pesada es para \(X_2\).
Así, las tres componentes principales retienen el 92.07479% de la variabilidad total.
Consideramos que de manera eficiente realizamos un estudio estadístico de las correlaciones de variables y similitudes de individuos por medio de la metodología de APC.
Se logró mediante el Análisis de Componentes Principales representar los datos originales de “Milk” en un espacio de dimensión menor que el original, limitando al máximo la pérdida de información.
El trabajo en equipo junto con las herramientas virtuales (Google Meet, WhatsApp y R-Studio) hizo posible que se diera a cabo dicho proyecto. Por tanto valoramos el compromiso, tiempo y dedicación de un trabajo en grupo.
Coronados, Y., Sistach, V. y Viltres, V. (29 de diciembre de 2017). Aplicación de Técnicas Estadísticas Multivariantes en el Análisis de Datos. http://www.revrehabilitacion.sld.cu/index.php/reh/article/view/244/306
Ortiz, R. (11 de julio de 2015). GGPLOT2. Gráfico de barras II - Fill y colores. Rpubs. https://rpubs.com/Rortizdu/140190
Pérez, R. (2021). Introducción al Análisis Multivariado. Material de Clase IAM virtual: Semestre 2021-I.
Salvador, M. (2000). Introducción al Análisis Multivariante. Ciberconta. http://www.ciberconta.unizar.es/leccion/anamul/inicio.html
Stedman, C. (19 de mayo de 2021). Análisis o Analítica de Datos. TechTarget. https://searchdatacenter.techtarget.com/es/definicion/Analisis-de-Datos
Valerga, A (08 de marzo del 2021). Análisis Multivariado: Aprende a Dominar Datos y Variables. Crehana. https://www.crehana.com/co/blog/desarrollo-web/analisis-multivariado/