hllinas2023

1 Librerías

1.0.1 Para PCA

El software R dispone de varias funciones de diferentes paquetes para calcular PCA:

  • prcomp y princomp, del paquete stats.

  • PCA del paquete FactoMineR.

  • dudi.pca del paquete ade4.

  • epPCA del paquete ExPosition.

Sin importar la función que elija emplear, es posible extraer y representar de manera sencilla los resultados del PCA mediante las funciones del paquete factoextra. En este documento, se hará uso de los paquetes FactoMineR y ade4 para los análisis y factoextra para la visualización basada en ggplot2.

library(FactoMineR)
library(factoextra)
library(ade4)

1.0.2 Para otros análisis

library(aplore3)       #Base de datos para los ejemplos
library(lsm)           #Base de datos para ejemplos y estimaciones del Log-verosimilitud
library(tidyverse)     #Incluye a dplyr y ggplot2
library(stringr)       #Reemplazar caracteres en un data frame
library(outliers)      #outliers::grubbs.test
library(EnvStats)      #EnvStats::rosnerTest
library(DMwR2)         #LOF (Local Outlier Factor)
library(rgl)           #rgl::plot3d
library(corrplot)      #Matriz de correlaciones
library(textshape)     #column_to_rownames

2 Ejemplo: Enunciado

Los datos se recogieron aplicando una encuesta a una muestra de estudiantes universitarios. Es un data frame con 800 observaciones y 66 variables. Con estos datos llevaremos a cabo un PCA.

datosCompleto <- lsm::survey
#datosCompleto <- textshape::column_to_rownames(dat, loc=1)
#datosCompleto %>% remove_rownames %>% column_to_rownames(var="names")   #library(tidyverse)
attach(datosCompleto)
names(datosCompleto)
##  [1] "Observation"  "ID"           "Gender"       "Like"         "Age"         
##  [6] "Smoke"        "Height"       "Weight"       "BMI"          "School"      
## [11] "SES"          "Enrollment"   "Score"        "MotherHeight" "MotherAge"   
## [16] "MotherCHD"    "FatherHeight" "FatherAge"    "FatherCHD"    "Status"      
## [21] "SemAcum"      "Exam1"        "Exam2"        "Exam3"        "Exam4"       
## [26] "ExamAcum"     "Definitive"   "Expense"      "Income"       "Gas"         
## [31] "Course"       "Law"          "Economic"     "Race"         "Region"      
## [36] "EMO1"         "EMO2"         "EMO3"         "EMO4"         "EMO5"        
## [41] "GOAL1"        "GOAL2"        "GOAL3"        "Pre_STAT1"    "Pre_STAT2"   
## [46] "Pre_STAT3"    "Pre_STAT4"    "Post_STAT1"   "Post_STAT2"   "Post_STAT3"  
## [51] "Post_STAT4"   "Pre_IDARE1"   "Pre_IDARE2"   "Pre_IDARE3"   "Pre_IDARE4"  
## [56] "Pre_IDARE5"   "Post_IDARE1"  "Post_IDARE2"  "Post_IDARE3"  "Post_IDARE4" 
## [61] "Post_IDARE5"  "PSICO1"       "PSICO2"       "PSICO3"       "PSICO4"      
## [66] "PSICO5"

Se resalta que sólo algunos de estos individuos y variables se utilizarán para realizar el análisis de componentes principales.

dat <- datosCompleto[1:23, 21:30]
attach(dat)
head(dat,4) 
SemAcum Exam1 Exam2 Exam3 Exam4 ExamAcum Definitive Expense Income Gas
4.25 1.5 5.0 5.0 4.5 16.0 4.000 48.9 1.61 27.45
2.80 2.3 4.9 3.7 3.3 14.2 3.550 72.1 2.07 24.17
4.15 3.4 3.6 2.0 1.9 10.9 2.725 85.2 2.84 22.27
3.20 2.5 4.2 5.0 2.5 14.2 3.550 56.6 1.55 23.08

3 Ejemplo: Solución (factoMineR::PCA)

3.0.1 Descripción de la función factoMineR::PCA

Usaremos la función PCA del paquete FactoMineR. Un formato simple es:

PCA(X, scale.unit = TRUE, ncp = 5, graph = TRUE)

Aquí:

  • X: es un data frame. Las filas son individuos y las columnas son variables numéricas.

  • scale.unit: un valor lógico. Si es TRUE, los datos se escalan a la varianza unitaria antes del análisis. Esta estandarización a la misma escala evita que algunas variablesse vuelvan dominantes sólo por sus grandes unidades de medida. Hace variables comparables.

  • ncp: número de dimensiones conservadas en los resultados finales.

  • graph: valor lógico. Si es TRUE se muestra un gráfico.

3.0.2 Aplicación de la función factoMineR::PCA

El código R siguiente, calcula el análisis de componentes principales en los individuos activos/variables:

#library(FactoMineR)
res.pca <- PCA(dat, scale.unit = TRUE, graph = FALSE)
res.pca
## **Results for the Principal Component Analysis (PCA)**
## The analysis was performed on 23 individuals, described by 10 variables
## *The results are available in the following objects:
## 
##    name               description                          
## 1  "$eig"             "eigenvalues"                        
## 2  "$var"             "results for the variables"          
## 3  "$var$coord"       "coord. for the variables"           
## 4  "$var$cor"         "correlations variables - dimensions"
## 5  "$var$cos2"        "cos2 for the variables"             
## 6  "$var$contrib"     "contributions of the variables"     
## 7  "$ind"             "results for the individuals"        
## 8  "$ind$coord"       "coord. for the individuals"         
## 9  "$ind$cos2"        "cos2 for the individuals"           
## 10 "$ind$contrib"     "contributions of the individuals"   
## 11 "$call"            "summary statistics"                 
## 12 "$call$centre"     "mean of the variables"              
## 13 "$call$ecart.type" "standard error of the variables"    
## 14 "$call$row.w"      "weights for the individuals"        
## 15 "$call$col.w"      "weights for the variables"

El resultado obtenido al utilizar la función PCA almacena una gran cantidad de información distribuida en varias listas y matrices distintas. Estos datos se detallan más adelante.

4 Ejemplo: Solución (factoextra)

4.0.1 Visualización e interpretación

Utilizaremos el paquete factoextra para facilitar la interpretación del Análisis de Componentes Principales (ACP). Independientemente de la función que elija utilizar, ya sea stats::prcomp, FactoMiner::PCA, ade4::dudi.pca o ExPosition::epPCA, se podrá extraer y visualizar los resultados del ACP de manera sencilla utilizando las funciones incluidas en el paquete factoextra.

Estas funciones abarcan:

  • get_eigenvalue(res.pca): Permite extraer los valores propios o las varianzas de los componentes principales.

  • fviz_eig(res.pca): Facilita la visualización de los valores propios.

  • get_pca_ind(res.pca), get_pca_var(res.pca): Extraen los resultados para individuos y variables, respectivamente.

  • fviz_pca_ind(res.pca), fviz_pca_var(res.pca): Facilitan la visualización de los resultados para individuos y variables, respectivamente.

  • fviz_pca_biplot(res.pca): Genera un biplot de individuos y variables.

Más adelante, se ilustrarán cada una de estas funciones.

4.0.2 Eigenvalores / Varianzas

Como hemos explicado en secciones previas, los valores propios cuantifican la cantidad de variación preservada por cada componente principal. Los valores propios tienden a ser más altos para los primeros componentes principales y disminuyen para los siguientes. En otras palabras, los primeros componentes principales representan las direcciones con la mayor variabilidad en el conjunto de datos. Analizamos los valores propios para determinar cuántos componentes principales deben considerarse. Estos valores propios, junto con la proporción de varianza (es decir, la información) conservada por los componentes principales (PC), pueden ser obtenidos utilizando la función get_eigenvalue del paquete factoextra.

#library(factoextra)
eig.val <- get_eigenvalue(res.pca)
eig.val
eigenvalue variance.percent cumulative.variance.percent
Dim.1 3.6816251 36.8162507 36.81625
Dim.2 2.3533760 23.5337601 60.35001
Dim.3 1.4550018 14.5500185 74.90003
Dim.4 0.9056978 9.0569776 83.95701
Dim.5 0.6778436 6.7784358 90.73544
Dim.6 0.4981466 4.9814661 95.71691
Dim.7 0.3604352 3.6043517 99.32126
Dim.8 0.0678739 0.6787395 100.00000
Dim.9 0.0000000 0.0000000 100.00000
Dim.10 0.0000000 0.0000000 100.00000

Interpretaciones:

  1. La suma de todos los valores propios resulta en una varianza total de 10 (porque estamos utilizando 10 variables y las variables están estandarizadas).

  2. La contribución de cada valor propio a la variación se presenta en la segunda columna (eigenvalue).

  3. Por ejemplo, al dividir 3.68 entre 10 (y multiplicando por 100), obtenemos 36.82%, lo que equivale aproximadamente al 36.82% de la variación explicada por este primer valor propio (ver primera fila, tercera columna variance.percent).

  4. El porcentaje acumulado de variación explicada se calcula sumando las proporciones sucesivas de variación explicada para obtener el total acumulado.

  5. Por ejemplo, sumando el 36.82% y el 23.53%, obtenemos 60.3500108% (véase segunda fila y última columna cumulative.variance.percent), y así sucesivamente. Por lo tanto, aproximadamente el 60.35% de la variación se explica por los dos primeros valores propios en conjunto.

  6. En nuestro análisis, los tres primeros componentes principales explican el 74.9% de la variación. Este es un porcentaje aceptablemente alto.

4.0.3 Scree plot

El scree plot puede generarse utilizando la función fviz_eig o fviz_screeplot del paquete factoextra (se genera exactamente la misma gráfica).

# Primera opción: 
fviz_eig(res.pca, addlabels = TRUE, ylim = c(0, 50))

# Segunda opción: 
fviz_screeplot(res.pca, addlabels = TRUE, ylim = c(0, 50))

Basándonos en el diagrama anterior, quizás podríamos focalizarnos en el componente principal número 4. Este componente retiene el 83.96% de la información (varianza) presente en los datos, junto con los 3 primeros componentes principales.

5 Ejemplo: Solución (get_pca_var)

5.0.1 Argumentos de get_pca_var

Una manera simple de obtener los resultados para las variables de una salida de PCA es emplear la función get_pca_var del paquete factoextra. Esta función genera una serie de matrices que contienen toda la información relevante para las variables activas, incluyendo las coordenadas, correlaciones entre variables y ejes, el coseno al cuadrado, y las contribuciones.

var <- get_pca_var(res.pca)
var
## Principal Component Analysis Results for variables
##  ===================================================
##   Name       Description                                    
## 1 "$coord"   "Coordinates for the variables"                
## 2 "$cor"     "Correlations between variables and dimensions"
## 3 "$cos2"    "Cos2 for the variables"                       
## 4 "$contrib" "contributions of the variables"

Los argumentos de la función get_pca_var pueden ser empleados en la representación gráfica de las variables de la siguiente manera:

  • var$coord: Proporciona las coordenadas de las variables para la creación de un gráfico de dispersión.

  • var$cos2: Indica la calidad de la representación de las variables en el mapa de factores. Se obtiene calculando el cuadrado de las coordenadas: var.cos2 = var.coord * var.coord.

  • var$contrib: Contiene las contribuciones (en porcentaje) de las variables a los componentes principales. La contribución de una variable (var) a un componente principal específico se calcula como: (var.cos2 * 100) / (cos2 total del componente).

Se resalta el hecho que es factible representar variables y asignarles colores basados en:

  1. Su grado de relevancia en el mapa de factores (cos2).

  2. Su influencia en los componentes principales.

5.0.2 Valores de get_pca_var

Las diferentes componentes se pueden obtener así:

# Coordenadas de las variables (basado en correlaciones)
var$coord

# Cos2: calidad en el mapa de factores
var$cos2

# Contribuciones para los componentes principales
var$contrib

Más adelante, se explicará cómo representar gráficamente variables y deducir conclusiones sobre las relaciones entre ellas. Luego, se resaltan las variables según:

  1. Su eficacia en la representación en el mapa factorial.

  2. Su influencia en los componentes principales.

6 Ejemplo: Solución (var$coord)

6.0.1 var$coord (valores)

La relación entre una variable y un componente principal (CP) se emplea para expresar las coordenadas de la variable en el CP. La forma de representar las variables difiere del modo en que se representan las observaciones: mientras que las observaciones se muestran mediante sus proyecciones, las variables se representan a través de sus correlaciones.

# Coordenadas de las variables (basado en correlaciones)
var$coord
Dim.1 Dim.2 Dim.3 Dim.4 Dim.5
SemAcum -0.2145226 -0.2150557 0.8047447 -0.1562923 0.0355458
Exam1 0.5709592 -0.2550984 0.0462131 -0.7147055 0.2467163
Exam2 0.6901879 -0.0463324 0.4696794 0.1688567 -0.4721958
Exam3 0.0983160 0.7566005 0.3211927 0.3224122 0.2235646
Exam4 0.4369816 0.5862562 -0.4814517 0.0561226 0.1721912
ExamAcum 0.8881031 0.4242131 0.1491313 -0.0844806 0.0178113
Definitive 0.8881031 0.4242131 0.1491313 -0.0844806 0.0178113
Expense 0.5967389 -0.6454569 0.0130003 0.3889590 0.2013494
Income 0.5735832 -0.6798013 0.0064262 0.2589400 0.3300029
Gas -0.6083446 0.2917306 0.4527719 0.0473446 0.4037740

6.0.2 var$coord (círculo de correlaciones)

Con el siguiente código se grafican las variables:

fviz_pca_var(res.pca, col.var = "red", 
             repel= TRUE # Evita traslapamiento de textos
             )

El diagrama mencionado anteriormente es también referido como un diagrama de correlación de variables. Este diagrama ilustra las relaciones entre todas las variables y puede ser interpretado de la siguiente manera:

  • Las variables que tienen una correlación positiva tienden a agruparse cercanas entre sí en el gráfico.

  • Las variables que tienen una correlación negativa tienden a ubicarse en lados opuestos del origen del gráfico (en cuadrantes opuestos).

  • La distancia entre las variables y el origen del gráfico indica la calidad de las variables en el mapa factorial. Las variables que están más alejadas del origen del gráfico están más claramente representadas en el mapa factorial.

7 Ejemplo: Solución (var$cos2)

7.0.1 var$cos2 (calidad de la representación)

La medida de la calidad de la representación, es decir de cuán bien las variables están representadas en el mapa factorial se conoce como cos2 (cuadrado del coseno, coordenadas cuadradas), el cual se puede obtener de la siguiente manera:

var$cos2
Dim.1 Dim.2 Dim.3 Dim.4 Dim.5
SemAcum 0.0460200 0.0462489 0.6476140 0.0244273 0.0012635
Exam1 0.3259944 0.0650752 0.0021356 0.5108040 0.0608689
Exam2 0.4763594 0.0021467 0.2205987 0.0285126 0.2229689
Exam3 0.0096660 0.5724443 0.1031648 0.1039497 0.0499811
Exam4 0.1909530 0.3436963 0.2317957 0.0031497 0.0296498
ExamAcum 0.7887271 0.1799568 0.0222401 0.0071370 0.0003172
Definitive 0.7887271 0.1799568 0.0222401 0.0071370 0.0003172
Expense 0.3560973 0.4166146 0.0001690 0.1512891 0.0405416
Income 0.3289977 0.4621297 0.0000413 0.0670499 0.1089019
Gas 0.3700832 0.0851067 0.2050024 0.0022415 0.1630334

7.0.2 var$cos2 (matriz de correlaciones)

Se puede visualizar el coseno cuadrado de las variables en todas las dimensiones utilizando la función corrplot del paquete corrplot (el argumento is.corr=FALSE) nos permite visualizar una matrix de valores que no son correlaciones:

corrplot(var$cos2, 
         is.corr=FALSE,   
         tl.col = "black", 
         #addCoef.col = 'grey50', #Agregar valores
         #number.cex = 0.7,       #Tamaño de los valores
         bg = "lightblue",        #Color del fondo
         tl.srt = 90,
         title="Matriz de correlaciones", 
         #tl.cex=1.5,            #Tamaño de las vars y Dims
         #cex.main=2.0,          #Tamaño del título
         #type="lower",
         mar=c(0,0,4,0),        #Ubicación del título
        )

7.0.3 var$cos2 (diagrama de barras)

Con la función fviz_cos2del paquete factoextra, también, es posible crear un diagrama de barras para el cos2de las variables:

# cos2 total de las variables sobre Dim.1 y Dim.2
fviz_cos2(res.pca, choice = "var", axes = 1:2)

7.0.4 var$cos2 (interpetaciones iniciales)

  1. Un coseno cuadrado alto indica una buena representación de la variable en el componente principal. En este caso, la variable está posicionada cerca de la circunferencia del círculo de correlación.

  2. Un coseno cuadrado bajo indica que la variable no está perfectamente representada por los componentes principales. En este caso, la variable está cerca del centro del círculo.

7.0.5 var$cos2 (interpetaciones de la suma total)

  1. Para una variable dada, la suma de los cosenos al cuadrado en todas las componentes principales es igual a uno.

  2. Si una variable está perfectamente representada por solo dos componentes principales (Dim.1 y Dim.2), la suma de los cosenos al cuadrado en estas dos CPs es igual a uno. En este caso, las variables estarán posicionadas en el círculo de correlaciones.

  3. Para algunas variables, puede ser necesario más de 2 componentes para representar perfectamente los datos. En este caso, las variables estarán posicionadas dentro del círculo de correlaciones.

7.0.6 var$cos2 (interpetaciones resumidas)

En resumen:

  1. Los valores de cosenos al cuadrado se utilizan para estimar la calidad de la representación.

  2. Cuanto más cerca esté una variable del círculo de correlaciones, mejor será su representación en el mapa factorial (y más importante será interpretar estas componentes).

  3. Las variables que están cerca del centro del gráfico son menos importantes para las primeras componentes.

7.0.7 var$cos2 (argumento gradient.cols)

Es posible colorear las variables según sus valores cos2 utilizando el argumento col.var = "cos2". Esto produce colores degradados. En este caso, se puede utilizar el argumento gradient.col para proporcionar un color personalizado.

Por ejemplo, gradient.cols = c("green", "brown", "blue") significa que:

  1. Las variables con valores bajos de cos2 serán coloreadas en verde.

  2. Las variables con valores medios de cos2 serán coloreadas en marrón.

  3. Las variables con valores altos de cos2 serán coloreadas en azul.

#Color por valores cos2: calidad sobre el mapa factorial
fviz_pca_var(res.pca, col.var = "cos2",
             gradient.cols = c("green", "brown", "blue"),
             title="Gradiente de las variables por cos2",
             repel = TRUE # Evita traslapamiento de textos
             )

7.0.8 var$cos2 (transpariencias con alpha.var)

También es posible ajustar la transparencia de las variables según los valores de cos2 utilizando la opción alpha.var = "cos2":

# Cambiar la transpariencia por valores de cos2
fviz_pca_var(res.pca, alpha.var = "cos2",
             col.var = "red",
             title="Transpariencia de las variables por cos2",
             repel = TRUE # Evita traslapamiento de textos
             )

8 Ejemplo: Solución (var$contrib)

8.0.1 var$contrib (general)

Las contribuciones de las variables a la variabilidad de un componente principal determinado se expresan en porcentaje. En este sentido:

  • Las variables que están correlacionadas con PC1 (es decir, Dim.1) y PC2 (es decir, Dim.2) son las más importantes para explicar la variabilidad del conjunto de datos.

  • Las variables que no se correlacionan con ningún PC o se correlacionan con las últimas dimensiones son variables con escasa contribución y pueden eliminarse para simplificar el análisis general.

8.0.2 var$contrib (en R)

La contribución de las variables puede extraerse de la siguiente manera :

var$contrib
Dim.1 Dim.2 Dim.3 Dim.4 Dim.5
SemAcum 1.2499904 1.9652166 44.5094960 2.6970691 0.1864002
Exam1 8.8546321 2.7651851 0.1467796 56.3989472 8.9797893
Exam2 12.9388341 0.0912175 15.1614053 3.1481343 32.8938508
Exam3 0.2625478 24.3243861 7.0903539 11.4773003 7.3735463
Exam4 5.1866485 14.6043942 15.9309580 0.3477698 4.3741351
ExamAcum 21.4233418 7.6467496 1.5285300 0.7880084 0.0468019
Definitive 21.4233418 7.6467496 1.5285300 0.7880084 0.0468019
Expense 9.6722852 17.7028490 0.0116157 16.7041480 5.9809625
Income 8.9362085 19.6368851 0.0028382 7.4031247 16.0659323
Gas 10.0521700 3.6163671 14.0894932 0.2474898 24.0517798

Cuanto mayor sea el valor de la contribución, más contribuye la variable al componente.

8.0.3 var$contrib (correlaciones)

Es posible utilizar la función corrplot del paquete corrplot para resaltar las variables que más contribuyen para cada dimensión.

corrplot(var$contrib, 
         is.corr=FALSE,   
         tl.col = "black", 
         #addCoef.col = 'grey50', #Agregar valores
         #number.cex = 0.7,       #Tamaño de los valores
         tl.srt = 90, 
         bg = "lightblue",        #Color del fondo
         title="Matriz de correlaciones", 
         #tl.cex=1.5,            #Tamaño de las vars y Dims
         #cex.main=2.0,          #Tamaño del título
         #type="lower",
         mar=c(0,0,4,0)          #Ubicación del título
         )

8.0.4 var$contrib (diagramas de barra de cada variable)

La función fviz_contrib del paquete factoextra se puede emplear para dibujar un gráfico de barras de las contribuciones de las variables. Si los datos contienen muchas variables, se puede optar por mostrar solo las variables que más contribuyen. El siguiente código en R muestra las 10 variables principales que contribuyen a los componentes principales.

# Contribuciones de las variables a PC1
p1 <- fviz_contrib(res.pca, choice = "var", axes = 1, top = 10)

# Contribuciones de las variables a PC2
p2 <- fviz_contrib(res.pca, choice = "var", axes = 2, top = 10)

8.0.5 var$contrib (diagrama de barra para el total)

A continuación, se puede visualizar la contribución total a PC1 y PC2:

fviz_contrib(res.pca, choice = "var", axes = 1:2, top = 10)

8.0.6 var$contrib (Interpretaciones)

Interpretación No. 1:

La línea roja discontinua en el gráfico anterior indica la contribución promedio esperada.

Interpretación No. 2:

Si la contribución de las variables fuese uniforme, el valor esperado sería

\[\frac{1}{\mbox{longitud(variables)}} \;=\; \frac{1}{10}(100)\;=\; 10\, \%\]

(1/length(dat))*100
## [1] 10

Interpretación No. 3:

Para un componente dado, una variable con una contribución mayor que este umbral podría considerarse importante en la contribución al componente.

Interpretación No. 4:

Se debe tener en cuenta que la contribución total de una variable dada, en la explicación de las variaciones retenidas por dos componentes principales, digamos PC1 y PC2, se calcula como

\[ \mbox{Contrib} = \frac{C_1 \, \lambda_1 \; +\; C_2 \, \lambda_2}{\lambda_1 \;+\; \lambda_2}\]

donde:

  • \(C_1\) y \(C_2\) son las contribuciones de la variable en PC1 y PC2, respectivamente.

  • \(\lambda_1\) y \(\lambda_2\) son los eigenvalores de PC1 y PC2, respectivamente.

Interpretación No. 5:

Recordar que los eigenvalores miden la cantidad de variación retenida por cada PC. En este caso, la contribución promedio esperada (umbral) se calcula de la siguiente manera: Como se mencionó anteriormente, si las contribuciones de las 10 variables fueran uniformes, la contribución promedio esperada de una variable para PC1 y PC2 es:

\[ \mbox{Contrib} \; =\; \frac{10 \, \lambda_1 \; +\; 10 \, \lambda_2}{\lambda_1 \;+\; \lambda_2}\; =\; 10\]

Se puede observar que la variable ExamAcum contribuyen más a las dimensiones 1 y 2.

8.0.7 var$contrib (círculo de correlaciones)

Las variables más importantes pueden ser resaltadas en el gráfico de correlación de la siguiente manera:

fviz_pca_var(res.pca, col.var = "contrib", 
             repel= TRUE, # Evita traslapamiento de textos,
             )

8.0.8 var$contrib (argumento gradient.cols)

Como ya se explicó, gradient.cols = c("green", "brown", "blue") significa que:

  1. Las variables con valores bajos de cos2 serán coloreadas en verde.

  2. Las variables con valores medios de cos2 serán coloreadas en marrón.

  3. Las variables con valores altos de cos2 serán coloreadas en azul.

fviz_pca_var(res.pca, col.var = "contrib", 
             repel= TRUE, # Evita traslapamiento de textos,
             gradient.cols = c("green", "brown", "blue"),
             )

8.0.9 var$contrib (transpariencias con alpha.var)

Tenga en cuenta que también es posible cambiar la transparencia de las variables según sus valores de contribución utilizando la opción alpha.var = "contrib":

# Cambiar la transpariencia para las contribuciones
fviz_pca_var(res.pca, alpha.var = "contrib",
             col.var = "red",
             #title="Transpariencia de las variables por contribución", 
             repel= TRUE # Evita traslapamiento de textos,
             )

8.0.10 var$contrib (círculo por variable continua)

En las secciones anteriores, demostramos cómo colorear variables según sus contribuciones y su coseno al cuadrado. Es importante destacar que también es posible colorear variables según cualquier variable continua personalizada. La variable de coloración debe tener la misma longitud que el número de variables activas en el ACP (aquí, $n=$10. Ejemplo:

# Create a random continuous variable of length 10
set.seed(123)
my.cont.var <- rnorm(10)

# Color variables by the continuous variable
fviz_pca_var(res.pca, col.var = my.cont.var,
             gradient.cols = c("green", "brown", "blue"),
             repel=TRUE, 
             title="Correlaciones entre las variables por variable continua", 
             legend.title = "Continua"
             )

8.0.11 var$contrib (círculo de correlaciones por grupos)

También es factible alterar el color de las variables basándose en grupos definidos por una variable cualitativa o categórica (comúnmente conocida como factor en R). Dado que no disponemos de ninguna variable de agrupación en nuestros conjuntos de datos para clasificar las variables, optaremos por crear una. En el siguiente ejemplo práctico, inicialmente clasificamos las variables en tres grupos mediante el algoritmo de agrupación kmeans (en otros documentos se explica esta teoría). Posteriormente, empleamos los clústeres obtenidos mediante el algoritmo kmeans para asignar colores a las variables. Para más detalles sobre clustering, puede consultarse la bibliografía recomendada.

# Crear una variable grupal con kmeans
# Crear 3 clúster (centers = 3)
set.seed(123)
res.km <- kmeans(var$coord, centers = 3, nstart = 25)

# Extraer etiquetas de los clúster 
grp   <- as.factor(res.km$cluster)
grp
##    SemAcum      Exam1      Exam2      Exam3      Exam4   ExamAcum Definitive 
##          1          3          2          2          2          2          2 
##    Expense     Income        Gas 
##          3          3          1 
## Levels: 1 2 3

El círculo de correlaciones por grupos es el siguiente:

# Colores de las variables por grupos
fviz_pca_var(res.pca, col.var = grp, 
             palette = c("blue", "brown", "green"),
             legend.title = "Cluster",
             title="Correlaciones entre las variables por grupos", 
             repel= TRUE # Evita traslapamiento de textos
             )

Es importante tener en cuenta que:

  1. Si deseamos modificar los colores de los grupos, debemos emplear el parámetro palette.

  2. Para ajustar los colores de los gradientes, es necesario utilizar el parámetro gradient.cols. Más adelante, se presenta un ejemplo utilizando este argumento.

8.0.12 var$contrib (función dimdesc)

Anteriormente se explicó cómo destacar las variables en función de su contribución a los componentes principales.

La función dimdesc en FactoMineR puede ser empleada para identificar las variables más relevantemente vinculadas a un componente principal específico. Este enfoque resulta útil para determinar la asociación significativa entre las variables y un componente principal dado, y puede ser utilizado de la siguiente manera:

res.desc <- dimdesc(res.pca, axes = c(1,2), proba = 0.05)
# Descripción de la dimensión 1
res.desc$Dim.1
## 
## Link between the variable and the continuous variables (R-square)
## =================================================================================
##            correlation      p.value
## Definitive   0.8881031 1.560010e-08
## ExamAcum     0.8881031 1.560010e-08
## Exam2        0.6901879 2.677184e-04
## Expense      0.5967389 2.648620e-03
## Income       0.5735832 4.216409e-03
## Exam1        0.5709592 4.435181e-03
## Exam4        0.4369816 3.707266e-02
## Gas         -0.6083446 2.070330e-03
# Descripción de la dimensión 2
res.desc$Dim.2
## 
## Link between the variable and the continuous variables (R-square)
## =================================================================================
##            correlation      p.value
## Exam3        0.7566005 2.944647e-05
## Exam4        0.5862562 3.282977e-03
## Definitive   0.4242131 4.365105e-02
## ExamAcum     0.4242131 4.365105e-02
## Expense     -0.6454569 8.807127e-04
## Income      -0.6798013 3.593497e-04

En las salida anteriores, cuando sale $quanti, indica resultados para variables cuantitativas. Es importante destacar que las variables están ordenadas según el \(p\)-valor de la correlación.

9 Ejemplo: Solución (get_pca_ind)

9.0.1 ind (gráficos de resultados)

Los resultados para individuos pueden ser obtenidos utilizando la función get_pca_ind del paquete factoextra. De manera similar a get_pca_var, la función get_pca_ind proporciona una lista de matrices que contienen todos los resultados para los individuos (coordenadas, correlación entre variables y ejes, cosenos al cuadrado y contribuciones).

ind <- get_pca_ind(res.pca)
ind
## Principal Component Analysis Results for individuals
##  ===================================================
##   Name       Description                       
## 1 "$coord"   "Coordinates for the individuals" 
## 2 "$cos2"    "Cos2 for the individuals"        
## 3 "$contrib" "contributions of the individuals"

Para acceder a las diferentes componentes:

# Coordenadas de los individuos
ind$coord

# Calidad de los individuos
ind$cos2

# Contribuciones de los individuos
ind$contrib

9.0.2 ind (gráfico simple)

Se utiliza la función fviz_pca_ind para producir el gráfico de individuos:

fviz_pca_ind(res.pca,
             title="Individuos"
             )

9.0.3 ind: gráfico según cos2

Se puede colorear a los individuos según sus valores de cos2 (al igual que se hace con las variables).

fviz_pca_ind(res.pca, col.ind = "cos2",
             gradient.cols = c("blue", "brown", "green"),
             title="Individuos de acuerdo a cos2", 
             repel= TRUE # Evita traslapamiento de textos
             )

Obsérvese que en el gráfico, las personas similares se agrupan juntas.

9.0.4 ind (tamaño del punto según cos2)

Se puede ajustar también el tamaño del punto de acuerdo al cos2 de los individuos correspondientes.

fviz_pca_ind(res.pca, pointsize = "cos2",
             pointshape = 21, 
             fill = "red",
             repel = TRUE # Evita traslapamiento de textos
             )

9.0.5 ind (tamaño del punto y gradient según cos2)

Para cambiar tanto el tamaño dl punto como el color por cos2:

fviz_pca_ind(res.pca, col.ind = "cos2", pointsize = "cos2",
             gradient.cols = c("blue", "brown", "green"),
             repel = TRUE # Evita traslapamiento de textos
             )

9.0.6 ind (diagrama de contribución a un componente)

Para generar un gráfico de barras de la calidad de representación (cos2) de los individuos en el mapa factorial, se puede emplear la función fviz_cos2 como se ha descrito previamente para las variables:

fviz_cos2(res.pca, choice = "ind")

9.0.7 ind (diagrama de contribución a dos componentes)

Para visualizar la contribución de los individuos a los dos primeros componentes principales, escribe lo siguiente:

fviz_contrib(res.pca, choice = "ind", axes = 1:2)

9.0.8 ind (colorear por variable continua)

En cuanto a las variables, los individuos pueden ser coloreados según cualquier variable continua personalizada especificando el argumento col.ind.

#Genera una variable continua aleatoria de longitud 23 
#(la misma longitud que el número de individuos activos en el PCA).
set.seed(123)
my.cont.var <- rnorm(23)

# Colorear las variables según la variable continua
fviz_pca_ind(res.pca, col.ind = my.cont.var,
             gradient.cols = c("blue", "brown", "green"),
             legend.title = "Scale"
             )

9.0.9 ind (colorear por grupos)

Aquí describimos cómo colorear a individuos por grupo. Además, mostramos cómo agregar elipses de concentración y elipses de confianza por grupos. Para esto, para estas secciones, utilizaremos los datos dat2, construido de tal manera que contenga las variables de dat y cualquier variable categórica (como, por ejemplo, Gender, SES, Economic, etc, o grupos generados aleatoriamente.

dat1 <- datosCompleto[1:50, ]
dat2 <- datosCompleto[1:50, c(22:25,28:30)]
attach(dat2)
head(dat2,4) 
Exam1 Exam2 Exam3 Exam4 Expense Income Gas
1.5 5.0 5.0 4.5 48.9 1.61 27.45
2.3 4.9 3.7 3.3 72.1 2.07 24.17
3.4 3.6 2.0 1.9 85.2 2.84 22.27
2.5 4.2 5.0 2.5 56.6 1.55 23.08
# PCA
dat2.pca <- PCA(dat2, scale.unit = TRUE, graph = FALSE)

Generaremos la variable grupal con kmeans y la anexaremos a los datos originales.

# Crear 3 clúster (centers = 3)
set.seed(123)
res2.km <- kmeans(dat2, centers = 3, nstart = 25)

# Extraer etiquetas de los clúster 
cluster_labels <- res2.km$cluster

# Añadir etiquetas de los clúster a los datos originales
dat1$Cluster <- cluster_labels

gr <- as.factor(dat1$Cluster)
gr_name <- "Clusters"

9.0.10 ind (elipses de concentración)

En el código R (que se muestra abajo), los argumentos habillage o col.ind se pueden utilizar para especificar la variable de factor para colorear a los individuos por grupos. Para agregar una elipse de concentración alrededor de cada grupo, especifique el argumento addEllipses = TRUE. El argumento pallete se puede utilizar para cambiar los colores de los grupos.

fviz_pca_ind(dat2.pca,
             geom.ind = "point", # mostrar solo puntos (no "texto")
             col.ind = gr   ,    # color por grupos
             palette = c("blue", "brown", "green", "yellow", "pink"),
             addEllipses = TRUE, # concentración de elipses
             legend.title = gr_name
            )

9.0.11 ind (elipses de confianza)

Para eliminar el punto medio del grupo, especifique el argumento mean.point = FALSE. Si desea elipses de confianza en lugar de elipses de concentración, utilice ellipse.type = "confidence".

# Añadir elipses de confianza
fviz_pca_ind(dat2.pca, 
             geom.ind = "point", 
             col.ind = gr,
             palette = c("blue", "brown", "green"),
             addEllipses = TRUE, 
             ellipse.type = "confidence",
             legend.title = gr_name
             )

9.0.12 ind (elipses: más paletas de colores)

Téngase en cuenta que los valores permitidos para la paleta incluyen:

  • "grey" para paletas de colores grises;

  • Paletas brewer como "RdBu", "Blues", …; Para ver todas, escriba esto en R: RColorBrewer::display.brewer.all().

  • Paleta de colores personalizada, por ejemplo c("blue", "red");

  • Ppaletas de revistas científicas del paquete ggsci. Por ejemplo: "npg", "aaas", "lancet", "jco", "ucscgb", "uchicago", "simpsons" y "rickandmorty".

Por ejemplo, con la paleta simpsons:

fviz_pca_ind(dat2.pca,
             label = "none",       # Ocultar las etiquetas delos individuos
             col.ind = gr,         # Color por grupos
             addEllipses = TRUE,   # Elipses de concentración
             palette = "simpsons",
             legend.title = gr_name
             )

10 Ejemplo: Solución (personalizar gráficos)

10.0.1 Dimensiones (axes)

Por defecto, las variables/individuos se representan en las dimensiones 1 y 2. Si se desea visualizarlos en las dimensiones 2 y 3, por ejemplo, se debe especificar el argumento axes = c(2, 3).

# Variables sobre las dimensiones 2 y 3
fviz_pca_var(res.pca, 
             axes = c(2, 3), 
             col.var = "red",
             repel=TRUE)

# Individuos sobre las dimensiones 2 y 3
fviz_pca_ind(res.pca, 
             axes = c(2, 3),
             col.ind = "darkblue",
             repel=TRUE)

10.0.2 Graficar elementos (geom)

1. Argumento geom:

El argumento geom (por geometría) y sus derivados se utilizan para especificar los elementos geométricos o elementos gráficos a utilizar en la representación gráfica.

2. Argumento geom.var:

Es un texto que especifica la geometría a utilizar para representar las variables. Los valores permitidos son la combinación de c(“point”, “arrow”, “text”):

  • Se usa geom.var = “point” para mostrar solo puntos.

  • Se usa geom.var = “text” para mostrar solo etiquetas de texto.

  • Se usa geom.var = c(“point”, “text”) para mostrar tanto puntos como etiquetas de texto.

  • Se usa geom.var = c(“arrow”, “text”) para mostrar flechas y etiquetas (predeterminado).

# Mostrar tanto puntos como etiquetas de texto
fviz_pca_var(res.pca, 
             geom.var = c("point", "text"), 
             col.var = "red",
             repel=TRUE
             )

3. Argumento geom.ind:

Es un texto que especifica la geometría a utilizar para trazar los individuos. Los valores permitidos son la combinación de c("point", "text").

  • Se usa geom.ind = "point" para mostrar solo puntos.

  • Se usa geom.ind = "text" para mostrar solo etiquetas de texto.

  • Se usa geom.ind = c("point", "text") para mostrar tanto puntos como etiquetas de texto (por defecto).

# Mostrar sólo etiquetas de texto individuales
fviz_pca_ind(res.pca, 
             geom.ind = "text",
             col.ind= "darkblue",
             repel=TRUE)

10.0.3 Tamaño y forma (label, arrow)

  1. Tamaño de etiqueta: tamaño de la fuente para las etiquetas de texto, por ejemplo: labelsize = 4.3.

  2. Tamaño de flecha: el tamaño de las flechas. Controla el grosor de las flechas, por ejemplo: arrowsize = 1.2.

  3. Tamaño de punto: el tamaño de los puntos, por ejemplo: pointsize = 2.5.

  4. Forma de punto: la forma de los puntos, pointshape = 10. Se puede ejecutar ggpubr::show_point_shapes para ver las formas de punto disponibles.

# Cambiar el tamaño delas flechas en las etiquetas
fviz_pca_var(res.pca, 
             labelsize = 4.3,
             arrowsize = 1.2, 
             repel = TRUE
             )

# Cambiar el tamaño de los puntos, la forma y el color de relleno
# Cambiar el tamaño de las etiquetas
fviz_pca_ind(res.pca,
             pointsize = 3.5, 
             pointshape = 20, 
             fill = "darkgreen",
             labelsize = 4.3, 
             repel = TRUE
             )

10.0.4 Elipses (addEllipses)

Como describimos en secciones anteriores, al colorear individuos por grupos, se puede agregar elipses de concentración de puntos usando el argumento addEllipses = TRUE. Obsérvese que el argumento ellipse.type se puede utilizar para cambiar el tipo de elipses. Los valores posibles son:

  • "convex": traza la envolvente convexa de un conjunto de puntos.

  • "confidence": traza elipses de confianza alrededor de los puntos medios del grupo como la función coord.ellipse en el paquete FactoMineR.

  • "t": asume una distribución \(t\)-multivariada.

  • "norm": asume una distribución normal-multivariada.

  • “euclid”: dibuja un círculo con el radio igual al nivel, representando la distancia euclidiana desde el centro. Esta elipse probablemente no aparecerá circular a menos que se aplique coord_fixed.

El argumento ellipse.level también está disponible para cambiar el tamaño de la elipse de concentración en la probabilidad normal. Por ejemplo, puede especificar ellipse.level = 0.95 o ellipse.level = 0.66.

# Elipses de confianza
fviz_pca_ind(dat2.pca, 
             geom.ind = "point",
             col.ind = gr,   # Color por grupos
             palette = c("blue", "brown", "green"),
             addEllipses = TRUE, 
             ellipse.type = "confidence",
             legend.title = gr_name
             )

# Envolvente convexa
fviz_pca_ind(dat2.pca, 
             geom.ind = "point",
             col.ind = gr,   # Color por grupos
             palette = c("blue", "brown", "green"),
             addEllipses = TRUE, 
             ellipse.type = "convex",
             legend.title = gr_name
             )

10.0.5 Puntos medios por grupo (mean.point)

Cuando se colorean individuos por grupos (ver secciones anteriores), los puntos medios de los grupos (baricentros) también se muestran de forma predeterminada. Para eliminar los puntos medios, se puede utilizar el argumento mean.point = FALSE.

fviz_pca_ind(dat2.pca,
             geom.ind = "point",     # Muestra solo puntos (pero no "texto")
             col.ind = gr,           # Color por grupos
             palette = c("blue", "brown", "green", "yellow", "pink"),
             legend.title = gr_name,
             mean.point = FALSE
             )

10.0.6 Tipo de línea (axes.linetype)

El argumento axes.linetype se puede utilizar para especificar el tipo de línea de los ejes. El valor predeterminado es "dashed" (rayado). Los valores permitidos incluyen "blank" (en blanco), "solid" (sólido), "dotted" (punteado), etc. Para ver todos los valores posibles, escriba ggpubr::show_line_types. Para eliminar las líneas de los ejes, utilice axes.linetype = "blank":

fviz_pca_var(res.pca,
             axes.linetype = "blank",
             col.var="red", 
             repel=TRUE)

10.0.7 Apariencia gráfica (ggpar)

Para cambiar fácilmente la apariencia gráfica de cualquier ggplot, puede utilizar la función ggpar del paquete ggpubr. Los parámetros gráficos que se pueden cambiar usando ggpar incluyen:

  • Títulos principales, etiquetas de ejes y títulos de leyenda.

  • Posición de la leyenda. Valores posibles: "top" (arriba), "bottom" (abajo), "left" (izquierda), "right” (derecha), "none" (ninguno).

  • Paleta de colores.

  • Temas. Los valores permitidos incluyen: theme_gray, theme_bw, theme_minimal, theme_classic, theme_void.

ind.p <- fviz_pca_ind(dat2.pca, 
                      geom = "point", 
                      col.ind = gr
                      )
ggpubr::ggpar(ind.p,
              title = "Principal Component Analysis",
              subtitle = "Survey data set",
              caption = "Source: factoextra",
              xlab = "PC1", 
              ylab = "PC2",
              legend.title = gr_name, 
              legend.position = "top",
              ggtheme = theme_gray(), 
              palette = "jco"
              )

11 Ejemplo: Solución (biplot)

11.0.1 biplot (función)

Para hacer un biplot simple de individuos y variables:

fviz_pca_biplot(res.pca, 
                repel = TRUE,
                col.var = "darkblue", # Color de las variables
                col.ind = "darkgreen" # Color de los individuos
                )

11.0.2 biplot (interpretaciones)

  1. Es importante tener en cuenta que el biplot puede ser útil solo cuando hay un bajo número de variables e individuos en el conjunto de datos; de lo contrario, el gráfico final sería ilegible.

  2. Además, las coordenadas de los individuos y las variables no están construidas en el mismo espacio.

  3. Por lo tanto, en principio, en un biplot, debería centrarte principalmente en la dirección de las variables y no en sus posiciones absolutas en el gráfico.

  4. con respecto a las observaciones anteriores, existe una técnica multivariante que se llama HJ_biplot y que resuelve el tema del espacio dimensional. En R, se visualizar a través del paquete LDABiplots: Biplot Graphical Interface for LDA Models.

De manera general, un biplot se puede interpretar como se explica en los comentarios 5 y 6:

  1. Un individuo que se encuentra en el mismo lado de una variable dada tiene un valor alto para esta variable.

  2. Un individuo que se encuentra en el lado opuesto de una variable dada tiene un valor bajo para esta variable.

11.0.3 biplot (combinando opciones)

Ahora, utilizando la salida dat2.pca, vamos a:

  • Crear un biplot de individuos y variables.

  • Cambiar el color de los individuos por grupos (que sería gr): col.ind = gr.

  • Mostrar solo las etiquetas para variables: label = "var" o usar geom.ind = "point".

fviz_pca_biplot(dat2.pca,
                col.ind = gr,
                palette = "jco",
                addEllipses = TRUE, 
                label = "var",
                col.var = "black", 
                repel = TRUE,
                legend.title = "Gender"
                )

11.0.4 biplot (individuos y variables por grupo)

En el siguiente ejemplo, queremos colorear tanto a individuos como variables por grupos. El truco consiste en utilizar pointshape = 21 para los puntos individuales. Esta forma de punto en particular puede ser rellenada por un color usando el argumento fill.ind. El color de la línea de borde de los puntos individuales se establece en "black" usando col.ind. Para colorear las variables por grupos, se utilizará el argumento col.var. Para personalizar los colores de individuos y variables, utilizamos las funciones auxiliares fill_palette y color_palette en el paquete ggpubr.

#MyVars <- factor(c("SemAcum","Exam1","Exam2","Exam3","Exam4","ExamAcum","Definitive","Expense","Income","Gas"))
MyVars <- factor(c("Exam","Exam","Exam","Exam","Expense","Income","Gas"))

fviz_pca_biplot(dat2.pca,
# LLenando individuos por grupos
geom.ind = "point",
pointshape = 21,
pointsize = 2.5,
fill.ind = gr,
col.ind = "black",

# Color de las variables por grupos
col.var = MyVars,
legend.title = list(fill = gr_name, color = "Variables"),
repel = TRUE 
)+
  
ggpubr::fill_palette("jco")+ # Color de los individuos
  
ggpubr::color_palette("npg") # Color de las variables

11.0.5 biplot (opciones más complejas)

Un ejemplo más complejo consiste en asignar colores a los individuos según los grupos a los que pertenecen (colores discretos) y a las variables según sus contribuciones a los componentes principales (colores en degradado). Además, cambiaremos la transparencia de las variables según sus contribuciones utilizando el argumento alpha.var.

fviz_pca_biplot(dat2.pca,
                # Individuos
                geom.ind = "point",
                fill.ind = gr, 
                col.ind = "black",
                pointshape = 21, 
                pointsize = 2,
                palette = "jco",
                addEllipses = TRUE,
                
                # Variables
                alpha.var ="contrib", 
                col.var = "contrib",
                repel=TRUE,
                gradient.cols = "aaas",
                legend.title = list(fill = gr_name, 
                                    color = "Contrib",
                                    alpha = "Contrib")
                )

12 Tópicos sumplementarios

No hacer click aquí: Pendiente

13 Ejercicios

13.0.1 Ejercicio 1

Supongamos que se tienen 6 observaciones \(x_1, \ldots, x_6\) en dos dimensiones, cada observación corresponde a un rectángulo y las variables son longitud de la base y la altura del rectángulo (véase la figura 13.1).

**Rectángulo**

Figure 13.1: Rectángulo

La matriz de datos es:

\[X\; =\; \begin{pmatrix} 2.0 & 2.0\\ 1.5& 0.5 \\ 0.7 & 0.5\\ 0.5 & 1.5\\ 0.5& 0.7\\ 0.7 & 0.7 \end{pmatrix}\]

Con estos datos, halle:

  1. La matriz \(Y= \log (X)\) (logaritmo con base 10). Es decir, aplique el logaritmo teniendo en cuenta cada una de las componentes y defina la matriz resultante como \(Y\).

  2. La matriz \(S\) de varianzas-covarianzas de \(Y\).

  3. Los valores \(\lambda_i\) y vectores \(v_i\) propios de \(S\).

  4. Las dos componentes \(F_1\) y \(F_2\) evaluadas en los seis rectángulos. Recuerde que cada componente \(F_i\) será un vector de la misma longitud de \(Y_i\) y se calculará así: \[F_i \;= \; Y v_i\]

13.0.2 Ejercicio 2

Las cuatro notas parciales de un determinado curso en una prestigiosa universidad se muestran en la tabla de abajo, en el orden alfabético por apellidos de los estudiantes. El objetivo es saber si existe algún tipo de ordenación de los estudiantes de este grupo, distinto al de promediar las notas de estos estudiantes. Aplique PCA para determinar esto.

Sugerencia:

  1. Halle los valores de las componentes principales para las notas de los 33 estudiantes.

  2. Ordene en forma descendente estos resultados por la primera componente principal.

  3. Compare estos resultados con los obtenidos en la nota definitiva.

id = 1:33
P1 = c(2.30, 3.50, 4.10, 5.00, 2.70, 2.70, 2.90, 2.40, 3.20, 3.80, 4.90, 4.50, 2.70, 2.90, 2.70, 2.70, 2.90, 3.00, 3.10, 3.50, 3.50, 2.70, 2.90, 3.00, 2.70, 3.50, 5.00, 4.90, 3.60, 3.00, 3.10, 4.70, 3.00)
P2 = c(3.40, 3.30, 4.10, 3.00, 2.50, 3.20, 2.80, 2.80, 3.20, 2.80, 4.80, 2.80, 2.80, 2.80, 2.80, 2.60, 3.30, 2.80, 2.80, 2.90, 2.60, 2.80, 2.80, 2.90, 3.40, 3.00, 3.50, 3.20, 2.90, 2.80, 2.80, 5.00, 2.90)
P3 = c(2.90, 3.50, 4.50, 4.00, 2.70, 4.40, 2.80, 2.50, 2.00, 3.00, 5.00, 4.50, 2.50, 2.80, 2.80, 2.60, 3.00, 2.80, 2.80, 3.50, 4.30, 2.00, 2.50, 2.50,  2.00, 4.00, 4.90, 2.80, 2.00, 3.90, 2.00, 3.80, 3.30)
P4 = c(3.30, 3.00, 3.70, 3.00, 3.00, 3.30, 3.50, 3.50, 3.90, 3.50, 3.00, 3.00, 2.90, 3.50, 3.00, 2.80, 2.80, 3.40, 3.30, 3.50, 3.50, 3.60, 3.00, 2.80, 3.00, 3.00, 3.00, 3.50, 4.00, 3.50, 3.60, 3.00, 2.80)
Def = c(2.98, 3.33, 4.10, 3.75, 2.73, 3.40, 3.00, 2.80, 3.08, 3.28, 4.43, 3.70, 2.73, 3.00, 2.83, 2.68, 3.00, 3.00, 3.00, 3.35, 3.48, 2.78, 2.80, 2.80, 2.78, 3.38, 4.10, 3.60, 3.13, 3.30, 2.98, 4.13, 3.00)
datos <- data.frame(id, P1, P2, P3, P4, Def)
print(datos)
##    id  P1  P2  P3  P4  Def
## 1   1 2.3 3.4 2.9 3.3 2.98
## 2   2 3.5 3.3 3.5 3.0 3.33
## 3   3 4.1 4.1 4.5 3.7 4.10
## 4   4 5.0 3.0 4.0 3.0 3.75
## 5   5 2.7 2.5 2.7 3.0 2.73
## 6   6 2.7 3.2 4.4 3.3 3.40
## 7   7 2.9 2.8 2.8 3.5 3.00
## 8   8 2.4 2.8 2.5 3.5 2.80
## 9   9 3.2 3.2 2.0 3.9 3.08
## 10 10 3.8 2.8 3.0 3.5 3.28
## 11 11 4.9 4.8 5.0 3.0 4.43
## 12 12 4.5 2.8 4.5 3.0 3.70
## 13 13 2.7 2.8 2.5 2.9 2.73
## 14 14 2.9 2.8 2.8 3.5 3.00
## 15 15 2.7 2.8 2.8 3.0 2.83
## 16 16 2.7 2.6 2.6 2.8 2.68
## 17 17 2.9 3.3 3.0 2.8 3.00
## 18 18 3.0 2.8 2.8 3.4 3.00
## 19 19 3.1 2.8 2.8 3.3 3.00
## 20 20 3.5 2.9 3.5 3.5 3.35
## 21 21 3.5 2.6 4.3 3.5 3.48
## 22 22 2.7 2.8 2.0 3.6 2.78
## 23 23 2.9 2.8 2.5 3.0 2.80
## 24 24 3.0 2.9 2.5 2.8 2.80
## 25 25 2.7 3.4 2.0 3.0 2.78
## 26 26 3.5 3.0 4.0 3.0 3.38
## 27 27 5.0 3.5 4.9 3.0 4.10
## 28 28 4.9 3.2 2.8 3.5 3.60
## 29 29 3.6 2.9 2.0 4.0 3.13
## 30 30 3.0 2.8 3.9 3.5 3.30
## 31 31 3.1 2.8 2.0 3.6 2.98
## 32 32 4.7 5.0 3.8 3.0 4.13
## 33 33 3.0 2.9 3.3 2.8 3.00

13.0.3 Ejercicio 3

Considere la recomendación de inversión que aparecen en la tabla de la figura 13.2. Cada empresa de gestión financiera tiene un conjunto de porcentajes recomendados en cada uno de los ocho tipos de inversión diferentes. Estos suman 100%, por lo que el objetivo del ejerccio es encontrar un resumen de datos de menor dimensión que represente dicha información.

# Crear el data frame con los datos proporcionados

Manager = c("Alliance Bernstein", "Atlantic Trust", "Bank of America", "BNY Mellon", "Bessemer", "Brown Advisory", "Citi Private Bank", "Constellation", "Deutsche Bank", "Fidelity", "Fiduciary Trust", "Fifth Third Bank","GenSpring", "Glenmede", "Harris Private Bank", "Highmount Capital", "Janney Montgomery", "JPMorgan", "Legg Mason", "Northern Trust", "PNC Asset Mgmt", "Charles Schwab", "SunTrust","UBS", "US Bank", "Wells Fargo", "Wilmington Trust")
S_US = c(45, 28, 53, 26, 19, 29, 18, 20, 29, 40, 40, 28, 13, 35, 54, 25, 47, 20, 55, 24, 40, 29, 26, 32, 43, 27, 27)
S_Non_US = c(3, 6, 9, 9, 9, 13, 27, 10, 14, 14, 10, 9, 8, 12, 10, 5, 4, 9, 3, 8, 8, 20, 6, 10, 16, 13, 11)
S_Dev = c(17, 9, 3, 10, 3, 12, 3, 10, 6, 4, 13, 7, 5, 5, 4, 10, 4, 5, 7, 5, 2, 5, 5, 7, 7, 5, 4)
B_US = c(35, 30, 28, 30, 20, 19, 18, 25, 29, 35, 31, 36, 18, 18, 18, 40, 26, 22, 17, 31, 30, 29, 25, 27, 21, 21, 31)
B_Non_US = c(0, 3, 1, 0, 4, 3, 16, 5, 2, 2, 0, 0, 8, 2, 0, 5, 4, 3, 0, 0, 0, 1, 7, 6, 3, 4, 1)
B_Dev = c(0, 0, 1, 0, 5, 0, 1, 0, 4, 0, 0, 0, 0, 3, 0, 0, 5, 0, 0, 0, 0, 0, 0, 0, 0, 2, 0)
Alternative = c(0, 24, 0, 25, 34, 20, 17, 30, 17, 6, 5, 15, 45, 23, 15, 15, 10, 38, 15, 32, 20, 11, 30, 17, 10, 28, 27)
Cash = c(0, 0, 5, 0, 6, 4, 0, 0, 2, 0, 2, 5, 5, 2, 0, 0, 0, 3, 3, 0, 0, 5, 3, 2, 0, 0, 0)

# Crear el data frame
invest <- data.frame(Manager, S_US, S_Non_US, S_Dev, B_US, B_Non_US, B_Dev, Alternative, Cash)
**Asignaciones de inversión recomendadas (en %) por las empresas de gestión financieras a principios de 2011**

Figure 13.2: Asignaciones de inversión recomendadas (en %) por las empresas de gestión financieras a principios de 2011

13.0.4 Ejercicio 4

Considere nuevamente los datos del ejercicio anterior.

  1. Haga un biplot de las dos primeras componentes principales de recomendaciones de inversión. Observe que Legg Mason (LM) y Harris (HPB) aparecen en la parte superior y Highmount (HC) en la inferior abajo (por lo menos a mí me aparece así). ¿A qué se debe? ¿Qué representa el segundo componente principal el eje vertical?

  2. Halle los valores propios y los vectores propios de la matriz de correlación de los datos de recomendación de inversión.

  3. Muestre que los vectores propios representan las varianzas de los componentes componentes principales de la matriz de correlaciones y verifique que son iguales a los valores obtenidos de los componentes principales.

13.0.5 Ejercicio 5

Los siguientes datos describen el rendimiento de los atletas durante dos eventos deportivos (Desctar y OlympicG). Contiene 27 individuos (atletas) descritos mediante 13 variables. Se resalta que sólo algunos de estos individuos y variables se utilizarán para realizar el análisis de componentes principales.

datos <- factoextra::decathlon2
attach(datos)
dat <- datos[1:23, 1:10]

Con estos datos llevar a cabo un PCA.

  1. Comience examinando las desviaciones estándar de cada variable.

  2. Realice un análisis de componentes principales de estos datos y observe el biplot. Interprete las cargas de los dos primeros componentes principales. ¿Están fuertemente ponderados hacia las mayores desviaciones estándar encontradas en la parte (a)?

  3. Repita el análisis de componentes principales en la matriz de correlación escalada de los datos. ¿Cómo interpreta este biplot?

  4. ¿Qué análisis le parece más útil: el análisis de componentes principales escalado o sin escala para estos datos?

13.0.6 Ejercicio 6

Examine los datos de USJudgeRatings en la librería datasets. Este conjunto de datos contiene las valoraciones de 43 jueces de tribunales superiores de EE.UU. por parte de abogados. Cada uno de los jueces es evaluado en función de 12 atributos, como atributos como la conducta, la preparación para el juicio, la solidez de las sentencias y el número de contactos que cada abogado tuvo con el juez. Consulte el archivo de ayuda de R para más información sobre este conjunto de datos.

library(datasets)
head(USJudgeRatings)
##                CONT INTG DMNR DILG CFMG DECI PREP FAMI ORAL WRIT PHYS RTEN
## AARONSON,L.H.   5.7  7.9  7.7  7.3  7.1  7.4  7.1  7.1  7.1  7.0  8.3  7.8
## ALEXANDER,J.M.  6.8  8.9  8.8  8.5  7.8  8.1  8.0  8.0  7.8  7.9  8.5  8.7
## ARMENTANO,A.J.  7.2  8.1  7.8  7.8  7.5  7.6  7.5  7.5  7.3  7.4  7.9  7.8
## BERDON,R.I.     6.8  8.8  8.5  8.8  8.3  8.5  8.7  8.7  8.4  8.5  8.8  8.7
## BRACKEN,J.J.    7.3  6.4  4.3  6.5  6.0  6.2  5.7  5.7  5.1  5.3  5.5  4.8
## BURNS,E.B.      6.2  8.8  8.7  8.5  7.9  8.0  8.1  8.0  8.0  8.0  8.6  8.6
  1. Examine el diagrama de dispersión por pares de estos datos (con el comando pairs) para revelar que algunas variables están muy correlacionadas.
pairs(USJudgeRatings)

  1. Realice un análisis de componentes principales para estos datos. Los dos primeros componentes de explican el 94% de la variabilidad. El segundo componente es casi totalmente el número de contactos, y el primer componente es esencialmente todas las demás variables, todas con el mismo peso. Interprete este resultado.

13.0.7 Ejercicio 7

Se administraron seis pruebas diferentes de inteligencia y capacidad a 112 personas. La matriz de covarianza (pero no los datos originales) de los resultados de las pruebas se encuentra en ability.cov en la librería datasets.

library(datasets)
ability.cov
## $cov
##         general picture  blocks   maze reading   vocab
## general  24.641   5.991  33.520  6.023  20.755  29.701
## picture   5.991   6.700  18.137  1.782   4.936   7.204
## blocks   33.520  18.137 149.831 19.424  31.430  50.753
## maze      6.023   1.782  19.424 12.711   4.757   9.075
## reading  20.755   4.936  31.430  4.757  52.604  66.762
## vocab    29.701   7.204  50.753  9.075  66.762 135.292
## 
## $center
## [1] 0 0 0 0 0 0
## 
## $n.obs
## [1] 112

Las seis pruebas se denominan: general, picture, blocks, maze (laberinto), reading y vocabulary. En el archivo de ayuda de R puede encontrar más información.

  1. Realice un análisis de componentes principales utilizando la matriz de covarianza e identifique las variables que contribuyen en mayor medida a los dos primeros componentes principales. ¿Cómo interpreta estos componentes principales?

  2. Convierta las covarianzas en matrices de correlación, con ayuda de la función cov2cor.

ability.cor <- cov2cor(ability.cov$cov)
ability.cor
##           general   picture    blocks      maze   reading     vocab
## general 1.0000000 0.4662649 0.5516632 0.3403250 0.5764799 0.5144058
## picture 0.4662649 1.0000000 0.5724364 0.1930992 0.2629229 0.2392766
## blocks  0.5516632 0.5724364 1.0000000 0.4450901 0.3540252 0.3564715
## maze    0.3403250 0.1930992 0.4450901 1.0000000 0.1839645 0.2188370
## reading 0.5764799 0.2629229 0.3540252 0.1839645 1.0000000 0.7913779
## vocab   0.5144058 0.2392766 0.3564715 0.2188370 0.7913779 1.0000000
  1. Realice un análisis de componentes principales utilizando la matriz de correlaciones. Examine las cargas e interprete los dos primeros componentes principales. Compare este resumen de datos con las partes (a) y (b). ¿En qué se diferencian? difieren? ¿En qué se parecen?

  2. ¿Cree que es más apropiado examinar la covarianza o la correlación en un análisis de componentes principales de estos datos?

Bibliografía

Consultar el documento RPubs :: Análisis multivariado (bibliografía).

 

 
If you found any ERRORS or have SUGGESTIONS, please report them to my email. Thanks.  
