hllinas2023

1 Librerías

1.0.1 Para PCA

El software R dispone de varias funciones de diferentes paquetes para calcular PCA:

  • prcomp y princomp, del paquete stats.

  • PCA del paquete FactoMineR.

  • dudi.pca del paquete ade4.

  • epPCA del paquete ExPosition.

Sin importar la función que elija emplear, es posible extraer y representar de manera sencilla los resultados del PCA mediante las funciones del paquete factoextra. En este documento, se hará uso de los paquetes FactoMineR y ade4 para los análisis y factoextra para la visualización basada en ggplot2.

library(FactoMineR)
library(factoextra)
library(ade4)

1.0.2 Para otros análisis

library(aplore3)       #Base de datos para los ejemplos
library(lsm)           #Base de datos para ejemplos y estimaciones del Log-verosimilitud
library(tidyverse)     #Incluye a dplyr y ggplot2
library(stringr)       #Reemplazar caracteres en un data frame
library(outliers)      #outliers::grubbs.test
library(EnvStats)      #EnvStats::rosnerTest
library(DMwR2)         #LOF (Local Outlier Factor)
library(rgl)           #rgl::plot3d
library(corrplot)      #Matriz de correlaciones
library(textshape)     #column_to_rownames

2 Introducción

2.0.1 Preliminares

Es un método de interdependencia para resumir la información contenida en las variables y facilitar su análisis. El ACP transforma el conjunto de variables originales en un subconjunto más pequeño de variables (véase la figura 2.1).

**Reducción de la dimensión**

Figure 2.1: Reducción de la dimensión

Estas variables son combinaciones lineales de las primeras, que contienen mayor parte de la variabilidad presente en el conjunto inicial. Para aplicar esta técnica se requiere que las variables sean cuantitativas (véase la figura 2.2).

**Resumen y visualización de datos multivariados**

Figure 2.2: Resumen y visualización de datos multivariados

2.0.2 Propósito

Su objetivo general es lograr una reducción de datos que facilite la interpretación . En este sentido, el método se aplica para representar óptimamente en un espacio de dimensión pequeña, observaciones de un espacio general K-dimensional. Por esta razón, la técnica se considera como el primer paso para identificar posibles variables latentes o no observadas, que están generando la variabilidad de los datos. Siempre está basada en describir la estructura de la matriz de covarianza de un conjunto de variables mediante la utilización de combinaciones lineales de estas variables .

Con esta técnica se busca transformar las variables originales (en general, correladas), en nuevas variables incorreladas, facilitando la interpretación de los datos.

Aunque se requieren las \(N\) componentes principales para reproducir toda la variabilidad del sistema, en la práctica, la mayor parte de esta variabilidad suele explicarse mediante un número reducido \(J\) de componentes principales. En tales casos, las \(J\) primeras componentes principales sustituyen a las \(N\) variables originales, generando así una simplificación del sistema original.

2.0.3 Ejemplo: Pingüino

Este ejemplo (véase la figura 2.3) ilustra la reducción de la dimensionalidad de un conjunto de datos tridimensionales a dos dimensiones.

**Pingüino**

Figure 2.3: Pingüino

Inicialmente, aparte del estiramiento de los puntos, no se percibe una estructura clara en la distribución de los puntos. Sin embargo, al elegir una rotación adecuada, podemos revelar la estructura subyacente. Esta rotación puede ser concebida como una exploración del conjunto tridimensional, buscando el ángulo óptimo para visualizar los datos. El Análisis de Componentes Principales (ACP) puede ser útil para descubrir esta estructura subyacente. Selecciona una rotación de tal manera que la mayor parte de la variabilidad del conjunto de datos esté capturada en las primeras dimensiones de los datos rotados. Aunque pueda parecer poco útil en nuestro caso tridimensional, este enfoque se vuelve muy poderoso cuando los datos tienen muchas dimensiones (decenas de dimensiones).

2.0.4 Características

  1. PCA supone que las direcciones con las mayores varianzas son las más “importantes” (es decir, las más principales).

  2. En la figura 2.1, el eje PC1 es la primera dirección principal a lo largo de la cual las muestras muestran la mayor variación. El eje PC2 es la segunda dirección más importante y es ortogonal al eje PC1.

**Dispersión y PCA**

Figure 2.4: Dispersión y PCA

  1. La dimensionalidad de nuestros datos bidimensionales puede reducirse a una sola dimensión proyectando cada muestra sobre el primer componente principal (véase la figura 2.1b)

  2. Desde el punto de vista técnico, la medida de la cantidad de varianza retenida por cada componente principal se determina a través del valor propio correspondiente.

  3. Es importante resaltar que PCA resulta, especialmente, beneficioso cuando las variables en el conjunto de datos exhiben una alta correlación. Esta correlación indica la presencia de redundancias en los datos (véase la figura 2.5). Aprovechando esta redundancia, el PCA se emplea para reducir el número de variables originales a un conjunto menor de nuevas variables, es decir, los componentes principales. Estos componentes principales explican la mayor parte de la varianza de las variables originales.

**Tipos de redundancia**

Figure 2.5: Tipos de redundancia

2.0.5 Conclusión

En resumen, el objetivo principal del análisis de componentes principales es:

  • Identificar patrones ocultos en un conjunto de datos.

  • Reducir la dimensionalidad de los datos eliminando el ruido y la redundancia en los datos.

  • Identificar variables correlacionadas.

3 Pasos para realizar un PCA

Vamos a explicar el PCA paso a paso sin utilizar demasiada terminología matemática avanzada. En general, se puede visualizar en la figura 3.1.

**Pasos generales para aplicar un PCA**

Figure 3.1: Pasos generales para aplicar un PCA

3.0.1 Paso 1: Describir los Datos y objetivo

Suponga que, en un estudio realizado sobre \(n\) individuos, se tiene un vector \(X=(X_1, X_2, \ldots, X_K)^T\) de tamaño \(K\). El objetivo es encontrar nuevas variables notadas como \(Y_j\), \(j=1, \ldots, J\), que sean combinaciones lineales de las variables originales \(X_k\).

3.0.2 Paso 2: Definir las componentes Principales

Se procede de la siguiente manera:

Observación 2.1:

Se determina la primera componente principal \(Y_1\), la cual sintetiza la mayor cantidad de variabilidad total contenida en los datos:

\[Y_1 \;= \; \alpha_{11} X_1 \, +\, \alpha_{12} X_2 \,+\, \cdots \,+\, \alpha_{1K} X_K \; = \; \alpha_1^T X\]

donde \(\alpha_1 =(\alpha_{11}, \alpha_{12}, \ldots, \alpha_{1K})^T\) es escogido de tal forma que maximize la razón entre la varianza \(V(Y_1)\) de \(Y_1\) y la variación total y sujeta a la restricción que sea un vector ortonomal. Es decir, debe cumplir la condición:

\[\alpha_1^T\, \alpha_1 \; =\; \sum\limits_{k=1}^K \alpha_{1k}^2 \; = \; 1\]

Observación 2.2:

La segunda componente principal \(Y_2\) es una combinación lineal ponderada de las variables observadas: \[Y_2 \;= \; \alpha_{21} X_1 \, +\, \alpha_{22} X_2 \,+\, \cdots \,+\, \alpha_{2K} X_K \; = \; \alpha_2^T X\]

\(Y_2\) no está correlacionada con la primera componente principal \(Y_1\). Es decir, \(Cov(Y_1, Y_2)=0\). Además, reúne la máxima variabilidad restante de la variación contenida en la primera componente principal \(Y_1\).

Observación 2.3:

Del mismo modo se eligen \(Y_1\), \(Y_2\), \(\ldots\) , \(Y_j\), incorrelados entre sí, de manera que las variables aleatorias obtenidas vayan teniendo cada vez menor varianza.

Observación 2.4:

La \(j\)-ésima componente principal es:

\[Y_j \;= \; \alpha_{j1} X_1 \, +\, \alpha_{j2} X_2 \,+\, \cdots \,+\, \alpha_{jK} X_K \; = \; \alpha_j^T X\] la cual tiene la varianza más grande entre todas las siguientes. Aquí, \(\alpha_j =(\alpha_{j1}, \alpha_{j12}, \ldots, \alpha_{j1K})^T\) y es un vector con módulo 1 (o sea, ortonomal). Es decir, debe cumplir la condición:

\[\alpha_j^T\, \alpha_j \; =\; \sum\limits_{k=1}^K \alpha_{jk}^2 \; = \; 1\]

Observación 2.5:

Se cumple que \[V(Y_j) \;=\; V(\alpha_j^T \,X) \;=\; \alpha_j^T\, \Sigma \, \alpha_j, \quad \mbox{para cada}\quad j=1,2, \ldots, J\]

Observación 2.6:

En general, queremos elegir \(a_j\) de modo que se maximice la varianza de \(Y_j\) sujeta a la restricción de que \(\alpha_j^T\, \alpha_j \; = \; 1\)

Observación 2.7:

Las \(Y_j\) sintetizan en forma decreciente la varianza de un conjunto original de datos.

Observación 2.8:

El enfoque comúnmente utilizado para optimizar una función de múltiples variables bajo restricciones es conocido como el método de los multiplicadores de Lagrange.

3.0.3 Paso 3: Matriz de varianzas y covarianza o de correlaciones

Hay dos formas habituales de generar componentes principales.

Primera forma 3.1:

Calcular la matriz de correlación. Se recomienda utilizarla cuando:

  1. Cuando las variables originales se encuentran en unidades diferentes.

  2. En caso de que exista disparidad en las varianzas de las variables originales.

Segunda forma 3.2:

Calcular la matriz de varianza y covarianza \(\Sigma\) de las variables originales. Se recomienda utilizarla cuando:

  1. Deseamos considerar la información proporcionada por las diferencias entre las varianzas de las variables.

Observación 3.3:

Si las variables comparten las mismas unidades, ambas forma son factibles. Ante la incertidumbre, es recomendable llevar a cabo ambas evaluaciones y optar por aquella que arroje conclusiones más claras.

Observación 3.4:

En los pasos siguientes, consideraremos solo la segunda forma.

3.0.4 Paso 4: Vectores y valores propios

Calculamos los vectores y valores propios de \(\Sigma\). Es decir, si \(a_k\) es un vector propio de \(\Sigma\) y \(\lambda\) es su valor propio asociado, entonces, debe cumplirse que: \[ \Sigma \cdot a_k \; = \; \lambda \, \,I_k \, a_k \] Entonces,

\[V(Y_k) \;=\; V(\alpha_k^T \,X) \;=\; \alpha_k^T\, \Sigma \, \alpha_k \;=\; \alpha_k^T\, \lambda \,I_k \, \alpha_k \;=\; \, \lambda \,\alpha_k^T \, \alpha_k \;=\; \lambda \cdot 1 \;=\; \lambda\] Luego, para maximizar la varianza de \(Y_k\) se tiene que tomar el mayor autovalor, digamos \(\lambda_k\), y el correspondiente autovector \(a_k\).

Por consiguiente, las componentes aleatorias vienen dadas por

\[Y_k \;= \; v_k^T\, X, \quad \mbox{para cada}\quad k=1, \ldots, K\]

3.0.5 Paso 5: Interpretación de los vectores y valores propios

Observación 5.1:

Los valores propios \(\lambda_1\), \(\lambda_2\), \(\ldots\), \(\lambda_k\) representan la variabilidad en cada dirección.

Observación 5.2:

Los valores propios correspondientes a los vectores propios \(a_1\), \(a_2\), \(\ldots\), \(a_k\) son las varianzas de las componentes principales \(Y_1\), \(Y_2\), \(\ldots\), \(Y_k\), respectivamente. Es decir, se cumple que

\[V(Y_k) = \lambda_k, \quad \mbox{para cada}\quad k=1,2, \ldots, K\] Observación 5.3:

Ordenamos de mayor a menor los vectores propios según sus valores propios. Las primeras componentes principales capturan la mayor parte de la variabilidad de los datos. En este sentido, se cumple que

\[\lambda_1 \; \geq \; \lambda_2\; \geq \; \cdots \; \geq\; \lambda_k\]

3.0.6 Paso 6: Proyección de datos

Proyectamos los datos originales en las nuevas direcciones definidas por las componentes principales:

\[ \text{Nuevo dato}_{ik} = a_i^T \cdot \mathbf{X}_k\]

3.0.7 Paso 7: Visualización

Finalmente, visualizamos los datos en las nuevas dimensiones para describir mejor su estructura.

4 Propiedades según la matriz de varianzas y covarianzas

4.0.1 Propiedades básicas

Propiedad 1:

La influencia de la variable \(X_k\) en la \(k\)-ésima componente principal se determina mediante la magnitud del coeficiente \(a_{jk}\).

Propiedad 2:

La covarianza entre la variable \(X_k\) y la componente principal \(Y_j\) es:

\[Cov(X_k, Y_j)\; =\; a_{jk} \, \lambda_j \]

Propiedad 3:

La varianza muestral de las observaciones con respecto a la \(k\)-ésima componente principal es

\[V(Y_k)\; =\; \alpha_k^T\, \Sigma \, \alpha_k \;=\; \lambda\]

Propiedad 4:

Para todo \(k\ne {\tilde k}\), las componentes \(Y_k\) y \(Y_{\tilde k}\) deben estar incorreladas. Es decir, \[Cov(Y_k, Y_{\tilde k}) = 0\]

Propiedad 5:

Para todo \(k\ne {\tilde k}\), los vectores propios \(a_k\) y \(a_{\tilde k}\) son ortogonales. Es decir, \[a_k^T \, a_{\tilde k} = 0\]

Esta propiedad es consecuencia de la propiedad 4 porque:

\[0 \; = \; Cov(Y_k, Y_{\tilde k}) \; = \; Cov\left(a_k^T\,x \; ,\; a_{\tilde k}^T\,x \right) \; = \;a_k^T\cdot E[(x-\mu)(x-\mu)^T] \cdot a_{\tilde k} \; = \; a_k^T\cdot \Sigma \cdot a_{\tilde k} \; = \;\alpha_k^T\, \lambda \, \alpha_{\tilde k} \;=\; \, \lambda \,\alpha_k^T \, \alpha_{\tilde k} \]

Propiedad 6:

Todos los componentes \(Y\) (en total \(K\)) se pueden expresar como el producto de una matriz formada por los autovectores, multiplicada por el vector \(x\) que contiene las variables originales \(X_1\), \(\ldots\) , \(X_K\):

\[Y \;=\; AX \] donde

\[y\;=\; \begin{pmatrix} y_1\\ \vdots\\ y_K\\ \end{pmatrix}, \qquad A\;=\;\begin{pmatrix} a_{11} & a_{12}& \cdots &a_{1K} \\ a_{21} & a_{22}& \cdots &a_{2K} \\ \vdots & \vdots & \ddots &\vdots \\ a_{K1} & a_{K2}& \cdots &a_{KK} \end{pmatrix}, \qquad x\;=\;\begin{pmatrix} x_1\\ \vdots\\ x_K\\ \end{pmatrix} \]

Teniendo en cuenta la propiedad 3, la matriz de covarianzas de \(Y\) será:

\[\Lambda\;=\;\begin{pmatrix} \lambda_1 & 0& \cdots &0 \\ 0 & \lambda_2& \cdots &0 \\ \vdots & \vdots & \ddots &\vdots \\ 0 & 0& \cdots &\lambda_3 \end{pmatrix}\]

porque las \(Y_k\) se han comnstruido de tal manera que sean incorreladas.

Propiedad 6:

Se cumple que: \[\Lambda \;=\; V(Y) \;=\; A^T\, V(X) \,A\;=\; A^T \,\Sigma \,A \]

Propiedad 7:

\(A\) es una matriz ortogonal (porque \(a_k^T \, a_k = 1\) para todas sus columnas). Por esta razón, \[A A^T \;= \; I_K\] Aquí, \(I_K\) es la matriz idéntica de tamaño \(K\) (tiene 1s en la diagonal principal y 0s en las otras celdas):

\[I_K \;=\; \begin{pmatrix} 1 & 0& \cdots &0 \\ 0 & 1& \cdots &0 \\ \vdots & \vdots & \ddots &\vdots \\ 0 & 0& \cdots &1 \end{pmatrix}\]

Propiedad 8:

Teniendo en cuenta las propiedades 6 y 7:

\[\Sigma \;=\; A^T \,\Lambda \,A\]

4.0.2 Porcentajes de variabilidad

Propiedad 9:

La varianza total de los componentes es la suma de todos los autovalores, es decir, la traza de la matriz \(\Lambda\) (ya que es diagonal):

\[\mbox{Varianza total}\;=\; \sum\limits_{k=1}^K V(Y_k) \; = \; \sum\limits_{k=1}^K \lambda_k \; = \; \mbox{traza}\,(\Lambda)\]

Propiedad 10:

Teniendo en cuenta las propiedades 6 (\(\Lambda = A^T \,\Sigma \,A\)) y 7 (\(A A^T \;= \; I_K\)) y por propiedades del operador traza:

\[\mbox{traza}\,(\Lambda) \;=\; \mbox{traza}\,\left(A^T \,\Sigma \,A\right) \; =\; \mbox{traza}\,\left(\Sigma \,A^T \,A\right) \; =\; \mbox{traza}\,(\Sigma)\]

Propiedad 11:

La suma de las varianzas de las variables originales y la suma de las varianzas de las componentes son iguales (ver propiedades 9 y 10):

\[\mbox{Varianza total}\;=\; \mbox{traza}\,(\Lambda) \; =\; \mbox{traza}\,(\Sigma)\; =\; \sum\limits_{k=1}^K Var(X_k)\]

Propiedad 12:

La proporción de varianza total que recoge el componente principal \(Y_k\) es:

\[ \mbox{Prop.}\; V(Y_k) \;=\; \frac{\lambda_k}{\mbox{Varianza total}}\]

Si multiplicamos por 100 tendremos el porcentaje correspondiente.

Propiedad 13:

El porcentaje de variabilidad recogido por los primeros \(J\) componentes:

\[ \mbox{Prop.}\; V(Y_{1\to J}) \;=\; \frac{\sum\limits_{j=1}^J \lambda_k}{\mbox{Varianza total}} \] donde \(J<K\). Si multiplicamos por 100 tendremos el porcentaje correspondiente.

En la aplicación práctica, cuando inicialmente tenemos \(K\) variables, generalmente seleccionamos un número considerablemente menor de componentes principales que capturan una gran proporción de la variabilidad total. Por lo general, se prefiere no elegir más de tres componentes principales, si es posible, para poder representarlos de manera efectiva en gráficos subsiguientes.

5 Propiedades según la matriz de correlaciones

Normalmente, se computan los componentes utilizando variables que han sido estandarizadas, lo que significa que tienen una media de 0 y una varianza de 1. Esta práctica implica calcular los componentes principales no a partir de la matriz de covarianzas \(\Sigma\), sino de la matriz de correlaciones \(R\). En el caso de las variables estandarizadas, las covarianzas y las correlaciones coinciden.

Por lo tanto, los componentes resultantes son autovectores de la matriz de correlaciones, los cuales difieren de los obtenidos a partir de la matriz de covarianzas. Al seguir este enfoque, todas las variables originales son tratadas con igual importancia.

En la matriz de correlaciones, todos los elementos diagonales tienen un valor de 1. El procedimiento es igual al que se hace a partir de la matriz de varianzas y covarianzas , sólo que se sustituye \(\Sigma\) por \(R\). Existen algunas diferencias en la interpretación. Las más importantes se enumeran enlas propiedades siguientes.

Propiedad 14:

Si las variables originales han sido tipificadas, esto implica que su matriz de covarianzas es igual a la matriz de correlaciones. En consecuencia, la variabilidad total (la traza) es igual al número total de variables en la muestra:

\[\mbox{Varianza total}\;=\; \sum\limits_{k=1}^K Var(X_k)\; =\; \sum\limits_{k=1}^K 1 \;= \; K\]

Propiedad 15:

La suma de todos los autovalores es \(K\):

\[ \sum\limits_{k=1}^K \lambda_k \; = \; K\]

Propiedad 16:

La proporción de varianza explicada por el \(k\)-ésimo autovector (componente) es:

\[ \mbox{Prop.}\; V(Y_k) \;=\; \frac{\lambda_k}{\mbox{Varianza total}} = \frac{\lambda_k}{K}\]

Propiedad 17:

El porcentaje de variabilidad recogido por los primeros \(J\) componentes:

\[ \mbox{Prop.}\; V(Y_{1\to J}) \;=\; \frac{\sum\limits_{j=1}^J \lambda_k}{\mbox{Varianza total}} \;= \; \frac{\sum\limits_{j=1}^J \lambda_k}{K}\]

Propiedad 18:

La correlación entre \(X_k\) y la componente principal \(Y_j\) es:

\[Corr(X_k, Y_j) \;= \; \frac{a_{jk}\, \sqrt{\lambda_j}}{\sqrt{s_{kk}}}\] la cual suministra la ponderación (o grado de importancia) de la \(k\)-ésima variable sobre la \(j\)-ésima componente principal. O, dicho de otra forma, indica el grado de asociación entre la variable y la respectiva componente.

Propiedad 19:

Cuando se presentan los autovectores, se les suele multiplicar previamente por \(\sqrt{\lambda_j}\) (del autovalor correspondiente), para reescalar todos los componentes del mismo modo. De esta manera, se calcula la ponderación de la variable \(k\), en la \(j\)-ésima componente como:

\[a_{jk}^*\;= \; a_{jk}\, \sqrt{\lambda_j}\]

6 Selección del número de componentes principales

La elección del número de componentes principales se basa en criterios empíricos que consideran la variabilidad que se desea mantener en una situación particular. Desafortunadamente, no existe una forma objetiva y bien aceptada de decidir cuántos componentes principales son suficientes. A continuación, describiremos algunos métodos generales.

6.0.1 Primera forma: Con el porcentaje de varianza explicada

Se escogen \(J<K\) cuando el porcentaje de variabilidad recogido por los primeros \(J\) componentes \(\mbox{Prop.}\; V(Y_{1\to J})\) es “grande”, de tal forma que la proporción de varianza explicada \(\mbox{Prop.}\; V(Y_j)\) todos los \(j<J\)-ésimos autovectores (componente) también lo sean (es decir, seleccionar el número de componentes mínimo a partir del cual el incremento deja de ser sustancial). De esta forma, se pueden reemplazar \(X_1\), \(X_2\), \(\ldots\), \(X_K\) por \(Y_1\), \(\ldots\), \(Y_J\) sin pérdida de información.

6.0.2 Segunda forma: Valores propios

Cuando utilizamos la matriz de correlaciones,los valores propios pueden utilizarse para determinar el número de componentes principales que deben conservarse después del PCA:

  • Un valor propio > 1 indica que las PC explican más varianza que la explicada por una de las variables originales en los datos estandarizados. Se suele utilizar como punto de corte para retener los CP. Esto sólo es cierto cuando los datos están estandarizados.

  • También puede limitar el número de componentes al número que represente una determinada fracción de la varianza total. Por ejemplo, si está satisfecho con el 70% de la varianza total explicada, entonces utilice el número de componentes para conseguirlo.

6.0.3 Tercera forma: Métodos gráficos

Un método alternativo para determinar el número de componentes principales es observar un Scree Plot. Es un gráfico que se representa en un sistema de coordenadas cartesianas. Las coordenadas de los puntos corresponden a las componentes principales (eje X) y los valores propios (eje Y), ordenados de mayor a menor (como se muestra en la figura 6.1). El número de componentes se determina en el punto a partir del cual los valores propios restantes son todos relativamente pequeños y de tamaño comparable.

**Scree**

Figure 6.1: Scree

7 Interpretación de las componentes principales

  1. Cuando todas las variables presentan una fuerte correlación positiva, el primer componente principal presenta todas sus coordenadas con mismo signo. Este hecho representa un promedio ponderado de todas las variables. Esta componente se interpreta como un factor global de tamaño.

  2. Por otro lado, las componentes restantes se consideran factores de forma y generalmente muestran coordenadas positivas y negativas, indicando que contrastan unos grupos de variables con otros. Estos factores de forma a menudo pueden expresarse como medias ponderadas de dos conjuntos de variables con signos opuestos, lo que contrapone las variables de un grupo con las del otro.

8 Ejemplo 1: Normal tridimensional

En este ejemplo tenermos una distribución normal con los siguientes parámetros:

\[\mu = \begin{bmatrix} 0 \\5 \\ 2 \end{bmatrix}, \qquad \Sigma = \begin{bmatrix} 25 & -1 & 7 \\-1 & 4 & -4 \\ 7 & -4 & 10\end{bmatrix}\]

Bajo estas condiciones, el digrama de dispersión correspondiente es como se muestra en la figura 8.1, se muestra la transformación correspondiente.

**Distribución normal tridimensional**

Figure 8.1: Distribución normal tridimensional

En la figura 8.2, se muestran los tres pares de proyecciones de componentes principales.

**Proyecciones de una distribución normal tridimensional**

Figure 8.2: Proyecciones de una distribución normal tridimensional

Obsérvese que:

  1. La primera proyección tiene la mayor varianza, seguida de la segunda proyección.

  2. Las proyecciones PCA hacen que los ejes no estén correlacionados.

9 Ejemplo 2: Datos survey

9.0.1 Enunciado

Los datos se recogieron aplicando una encuesta a una muestra de estudiantes universitarios. Es un data frame con 800 observaciones y 66 variables. Con estos datos llevaremos a cabo un PCA.

datosCompleto <- lsm::survey
#datosCompleto <- textshape::column_to_rownames(dat, loc=1)
#datosCompleto %>% remove_rownames %>% column_to_rownames(var="names")   #library(tidyverse)
attach(datosCompleto)
names(datosCompleto)
##  [1] "Observation"  "ID"           "Gender"       "Like"         "Age"         
##  [6] "Smoke"        "Height"       "Weight"       "BMI"          "School"      
## [11] "SES"          "Enrollment"   "Score"        "MotherHeight" "MotherAge"   
## [16] "MotherCHD"    "FatherHeight" "FatherAge"    "FatherCHD"    "Status"      
## [21] "SemAcum"      "Exam1"        "Exam2"        "Exam3"        "Exam4"       
## [26] "ExamAcum"     "Definitive"   "Expense"      "Income"       "Gas"         
## [31] "Course"       "Law"          "Economic"     "Race"         "Region"      
## [36] "EMO1"         "EMO2"         "EMO3"         "EMO4"         "EMO5"        
## [41] "GOAL1"        "GOAL2"        "GOAL3"        "Pre_STAT1"    "Pre_STAT2"   
## [46] "Pre_STAT3"    "Pre_STAT4"    "Post_STAT1"   "Post_STAT2"   "Post_STAT3"  
## [51] "Post_STAT4"   "Pre_IDARE1"   "Pre_IDARE2"   "Pre_IDARE3"   "Pre_IDARE4"  
## [56] "Pre_IDARE5"   "Post_IDARE1"  "Post_IDARE2"  "Post_IDARE3"  "Post_IDARE4" 
## [61] "Post_IDARE5"  "PSICO1"       "PSICO2"       "PSICO3"       "PSICO4"      
## [66] "PSICO5"

Se resalta que sólo algunos de estos individuos y variables se utilizarán para realizar el análisis de componentes principales.

dat <- datosCompleto[1:23, 21:30]
attach(dat)
head(dat,4) 
SemAcum Exam1 Exam2 Exam3 Exam4 ExamAcum Definitive Expense Income Gas
4.25 1.5 5.0 5.0 4.5 16.0 4.000 48.9 1.61 27.45
2.80 2.3 4.9 3.7 3.3 14.2 3.550 72.1 2.07 24.17
4.15 3.4 3.6 2.0 1.9 10.9 2.725 85.2 2.84 22.27
3.20 2.5 4.2 5.0 2.5 14.2 3.550 56.6 1.55 23.08

9.0.2 Solución.

La solución se puede revisar haciendo click aquí.

10 Tópicos sumplementarios

No hacer click aquí: Pendiente

11 Ejercicios

Pendiente

Bibliografía

Consultar el documento RPubs :: Análisis multivariado (bibliografía).

 

 
If you found any ERRORS or have SUGGESTIONS, please report them to my email. Thanks.  
