Ejemplo: Solución (var$contrib
)
var$contrib
(general)
Las contribuciones de las variables a la variabilidad de un componente principal determinado se expresan en porcentaje. En este sentido:
Las variables que están correlacionadas con PC1 (es decir, Dim.1) y PC2 (es decir, Dim.2) son las más importantes para explicar la variabilidad del conjunto de datos.
Las variables que no se correlacionan con ningún PC o se correlacionan con las últimas dimensiones son variables con escasa contribución y pueden eliminarse para simplificar el análisis general.
var$contrib
(en R)
La contribución de las variables puede extraerse de la siguiente manera :
var$contrib
|
Dim.1
|
Dim.2
|
Dim.3
|
Dim.4
|
Dim.5
|
SemAcum
|
1.2499904
|
1.9652166
|
44.5094960
|
2.6970691
|
0.1864002
|
Exam1
|
8.8546321
|
2.7651851
|
0.1467796
|
56.3989472
|
8.9797893
|
Exam2
|
12.9388341
|
0.0912175
|
15.1614053
|
3.1481343
|
32.8938508
|
Exam3
|
0.2625478
|
24.3243861
|
7.0903539
|
11.4773003
|
7.3735463
|
Exam4
|
5.1866485
|
14.6043942
|
15.9309580
|
0.3477698
|
4.3741351
|
ExamAcum
|
21.4233418
|
7.6467496
|
1.5285300
|
0.7880084
|
0.0468019
|
Definitive
|
21.4233418
|
7.6467496
|
1.5285300
|
0.7880084
|
0.0468019
|
Expense
|
9.6722852
|
17.7028490
|
0.0116157
|
16.7041480
|
5.9809625
|
Income
|
8.9362085
|
19.6368851
|
0.0028382
|
7.4031247
|
16.0659323
|
Gas
|
10.0521700
|
3.6163671
|
14.0894932
|
0.2474898
|
24.0517798
|
Cuanto mayor sea el valor de la contribución, más contribuye la variable al componente.
var$contrib
(correlaciones)
Es posible utilizar la función corrplot
del paquete corrplot
para resaltar las variables que más contribuyen para cada dimensión.
corrplot(var$contrib,
is.corr=FALSE,
tl.col = "black",
#addCoef.col = 'grey50', #Agregar valores
#number.cex = 0.7, #Tamaño de los valores
tl.srt = 90,
bg = "lightblue", #Color del fondo
title="Matriz de correlaciones",
#tl.cex=1.5, #Tamaño de las vars y Dims
#cex.main=2.0, #Tamaño del título
#type="lower",
mar=c(0,0,4,0) #Ubicación del título
)

var$contrib
(diagramas de barra de cada variable)
La función fviz_contrib
del paquete factoextra
se puede emplear para dibujar un gráfico de barras de las contribuciones de las variables. Si los datos contienen muchas variables, se puede optar por mostrar solo las variables que más contribuyen. El siguiente código en R muestra las 10 variables principales que contribuyen a los componentes principales.
# Contribuciones de las variables a PC1
p1 <- fviz_contrib(res.pca, choice = "var", axes = 1, top = 10)
# Contribuciones de las variables a PC2
p2 <- fviz_contrib(res.pca, choice = "var", axes = 2, top = 10)

var$contrib
(diagrama de barra para el total)
A continuación, se puede visualizar la contribución total a PC1 y PC2:
fviz_contrib(res.pca, choice = "var", axes = 1:2, top = 10)

var$contrib
(Interpretaciones)
Interpretación No. 1:
La línea roja discontinua en el gráfico anterior indica la contribución promedio esperada.
Interpretación No. 2:
Si la contribución de las variables fuese uniforme, el valor esperado sería
\[\frac{1}{\mbox{longitud(variables)}} \;=\; \frac{1}{10}(100)\;=\; 10\, \%\]
(1/length(dat))*100
## [1] 10
Interpretación No. 3:
Para un componente dado, una variable con una contribución mayor que este umbral podría considerarse importante en la contribución al componente.
Interpretación No. 4:
Se debe tener en cuenta que la contribución total de una variable dada, en la explicación de las variaciones retenidas por dos componentes principales, digamos PC1 y PC2, se calcula como
\[ \mbox{Contrib} = \frac{C_1 \, \lambda_1 \; +\; C_2 \, \lambda_2}{\lambda_1 \;+\; \lambda_2}\]
donde:
\(C_1\) y \(C_2\) son las contribuciones de la variable en PC1 y PC2, respectivamente.
\(\lambda_1\) y \(\lambda_2\) son los eigenvalores de PC1 y PC2, respectivamente.
Interpretación No. 5:
Recordar que los eigenvalores miden la cantidad de variación retenida por cada PC. En este caso, la contribución promedio esperada (umbral) se calcula de la siguiente manera: Como se mencionó anteriormente, si las contribuciones de las 10 variables fueran uniformes, la contribución promedio esperada de una variable para PC1 y PC2 es:
\[ \mbox{Contrib} \; =\; \frac{10 \, \lambda_1 \; +\; 10 \, \lambda_2}{\lambda_1 \;+\; \lambda_2}\; =\; 10\]
Se puede observar que la variable ExamAcum
contribuyen más a las dimensiones 1 y 2.
var$contrib
(círculo de correlaciones)
Las variables más importantes pueden ser resaltadas en el gráfico de correlación de la siguiente manera:
fviz_pca_var(res.pca, col.var = "contrib",
repel= TRUE, # Evita traslapamiento de textos,
)
var$contrib
(argumento gradient.cols
)
Como ya se explicó, gradient.cols = c("green", "brown", "blue")
significa que:
Las variables con valores bajos de cos2
serán coloreadas en verde.
Las variables con valores medios de cos2
serán coloreadas en marrón.
Las variables con valores altos de cos2
serán coloreadas en azul.
fviz_pca_var(res.pca, col.var = "contrib",
repel= TRUE, # Evita traslapamiento de textos,
gradient.cols = c("green", "brown", "blue"),
)

var$contrib
(transpariencias con alpha.var
)
Tenga en cuenta que también es posible cambiar la transparencia de las variables según sus valores de contribución utilizando la opción alpha.var = "contrib"
:
# Cambiar la transpariencia para las contribuciones
fviz_pca_var(res.pca, alpha.var = "contrib",
col.var = "red",
#title="Transpariencia de las variables por contribución",
repel= TRUE # Evita traslapamiento de textos,
)

var$contrib
(círculo por variable continua)
En las secciones anteriores, demostramos cómo colorear variables según sus contribuciones y su coseno al cuadrado. Es importante destacar que también es posible colorear variables según cualquier variable continua personalizada. La variable de coloración debe tener la misma longitud que el número de variables activas en el ACP (aquí, $n=$10. Ejemplo:
# Create a random continuous variable of length 10
set.seed(123)
my.cont.var <- rnorm(10)
# Color variables by the continuous variable
fviz_pca_var(res.pca, col.var = my.cont.var,
gradient.cols = c("green", "brown", "blue"),
repel=TRUE,
title="Correlaciones entre las variables por variable continua",
legend.title = "Continua"
)

var$contrib
(círculo de correlaciones por grupos)
También es factible alterar el color de las variables basándose en grupos definidos por una variable cualitativa o categórica (comúnmente conocida como factor en R). Dado que no disponemos de ninguna variable de agrupación en nuestros conjuntos de datos para clasificar las variables, optaremos por crear una. En el siguiente ejemplo práctico, inicialmente clasificamos las variables en tres grupos mediante el algoritmo de agrupación kmeans (en otros documentos se explica esta teoría). Posteriormente, empleamos los clústeres obtenidos mediante el algoritmo kmeans para asignar colores a las variables. Para más detalles sobre clustering, puede consultarse la bibliografía recomendada.
# Crear una variable grupal con kmeans
# Crear 3 clúster (centers = 3)
set.seed(123)
res.km <- kmeans(var$coord, centers = 3, nstart = 25)
# Extraer etiquetas de los clúster
grp <- as.factor(res.km$cluster)
grp
## SemAcum Exam1 Exam2 Exam3 Exam4 ExamAcum Definitive
## 1 3 2 2 2 2 2
## Expense Income Gas
## 3 3 1
## Levels: 1 2 3
El círculo de correlaciones por grupos es el siguiente:
# Colores de las variables por grupos
fviz_pca_var(res.pca, col.var = grp,
palette = c("blue", "brown", "green"),
legend.title = "Cluster",
title="Correlaciones entre las variables por grupos",
repel= TRUE # Evita traslapamiento de textos
)

Es importante tener en cuenta que:
Si deseamos modificar los colores de los grupos, debemos emplear el parámetro palette
.
Para ajustar los colores de los gradientes, es necesario utilizar el parámetro gradient.cols
. Más adelante, se presenta un ejemplo utilizando este argumento.
var$contrib
(función dimdesc
)
Anteriormente se explicó cómo destacar las variables en función de su contribución a los componentes principales.
La función dimdesc
en FactoMineR
puede ser empleada para identificar las variables más relevantemente vinculadas a un componente principal específico. Este enfoque resulta útil para determinar la asociación significativa entre las variables y un componente principal dado, y puede ser utilizado de la siguiente manera:
res.desc <- dimdesc(res.pca, axes = c(1,2), proba = 0.05)
# Descripción de la dimensión 1
res.desc$Dim.1
##
## Link between the variable and the continuous variables (R-square)
## =================================================================================
## correlation p.value
## Definitive 0.8881031 1.560010e-08
## ExamAcum 0.8881031 1.560010e-08
## Exam2 0.6901879 2.677184e-04
## Expense 0.5967389 2.648620e-03
## Income 0.5735832 4.216409e-03
## Exam1 0.5709592 4.435181e-03
## Exam4 0.4369816 3.707266e-02
## Gas -0.6083446 2.070330e-03
# Descripción de la dimensión 2
res.desc$Dim.2
##
## Link between the variable and the continuous variables (R-square)
## =================================================================================
## correlation p.value
## Exam3 0.7566005 2.944647e-05
## Exam4 0.5862562 3.282977e-03
## Definitive 0.4242131 4.365105e-02
## ExamAcum 0.4242131 4.365105e-02
## Expense -0.6454569 8.807127e-04
## Income -0.6798013 3.593497e-04
En las salida anteriores, cuando sale $quanti
, indica resultados para variables cuantitativas. Es importante destacar que las variables están ordenadas según el \(p\)-valor de la correlación.
Ejemplo: Solución (get_pca_ind
)
ind
(gráficos de resultados)
Los resultados para individuos pueden ser obtenidos utilizando la función get_pca_ind
del paquete factoextra
. De manera similar a get_pca_var
, la función get_pca_ind
proporciona una lista de matrices que contienen todos los resultados para los individuos (coordenadas, correlación entre variables y ejes, cosenos al cuadrado y contribuciones).
ind <- get_pca_ind(res.pca)
ind
## Principal Component Analysis Results for individuals
## ===================================================
## Name Description
## 1 "$coord" "Coordinates for the individuals"
## 2 "$cos2" "Cos2 for the individuals"
## 3 "$contrib" "contributions of the individuals"
Para acceder a las diferentes componentes:
# Coordenadas de los individuos
ind$coord
# Calidad de los individuos
ind$cos2
# Contribuciones de los individuos
ind$contrib
ind
(gráfico simple)
Se utiliza la función fviz_pca_ind
para producir el gráfico de individuos:
fviz_pca_ind(res.pca,
title="Individuos"
)

ind
: gráfico según cos2
Se puede colorear a los individuos según sus valores de cos2
(al igual que se hace con las variables).
fviz_pca_ind(res.pca, col.ind = "cos2",
gradient.cols = c("blue", "brown", "green"),
title="Individuos de acuerdo a cos2",
repel= TRUE # Evita traslapamiento de textos
)
Obsérvese que en el gráfico, las personas similares se agrupan juntas.
ind
(tamaño del punto según cos2
)
Se puede ajustar también el tamaño del punto de acuerdo al cos2 de los individuos correspondientes.
fviz_pca_ind(res.pca, pointsize = "cos2",
pointshape = 21,
fill = "red",
repel = TRUE # Evita traslapamiento de textos
)
ind
(tamaño del punto y gradient según cos2
)
Para cambiar tanto el tamaño dl punto como el color por cos2
:
fviz_pca_ind(res.pca, col.ind = "cos2", pointsize = "cos2",
gradient.cols = c("blue", "brown", "green"),
repel = TRUE # Evita traslapamiento de textos
)

ind
(diagrama de contribución a un componente)
Para generar un gráfico de barras de la calidad de representación (cos2
) de los individuos en el mapa factorial, se puede emplear la función fviz_cos2
como se ha descrito previamente para las variables:
fviz_cos2(res.pca, choice = "ind")
ind
(diagrama de contribución a dos componentes)
Para visualizar la contribución de los individuos a los dos primeros componentes principales, escribe lo siguiente:
fviz_contrib(res.pca, choice = "ind", axes = 1:2)

ind
(colorear por variable continua)
En cuanto a las variables, los individuos pueden ser coloreados según cualquier variable continua personalizada especificando el argumento col.ind
.
#Genera una variable continua aleatoria de longitud 23
#(la misma longitud que el número de individuos activos en el PCA).
set.seed(123)
my.cont.var <- rnorm(23)
# Colorear las variables según la variable continua
fviz_pca_ind(res.pca, col.ind = my.cont.var,
gradient.cols = c("blue", "brown", "green"),
legend.title = "Scale"
)

ind
(colorear por grupos)
Aquí describimos cómo colorear a individuos por grupo. Además, mostramos cómo agregar elipses de concentración y elipses de confianza por grupos. Para esto, para estas secciones, utilizaremos los datos dat2
, construido de tal manera que contenga las variables de dat
y cualquier variable categórica (como, por ejemplo, Gender
, SES
, Economic
, etc, o grupos generados aleatoriamente.
dat1 <- datosCompleto[1:50, ]
dat2 <- datosCompleto[1:50, c(22:25,28:30)]
attach(dat2)
head(dat2,4)
Exam1
|
Exam2
|
Exam3
|
Exam4
|
Expense
|
Income
|
Gas
|
1.5
|
5.0
|
5.0
|
4.5
|
48.9
|
1.61
|
27.45
|
2.3
|
4.9
|
3.7
|
3.3
|
72.1
|
2.07
|
24.17
|
3.4
|
3.6
|
2.0
|
1.9
|
85.2
|
2.84
|
22.27
|
2.5
|
4.2
|
5.0
|
2.5
|
56.6
|
1.55
|
23.08
|
# PCA
dat2.pca <- PCA(dat2, scale.unit = TRUE, graph = FALSE)
Generaremos la variable grupal con kmeans
y la anexaremos a los datos originales.
# Crear 3 clúster (centers = 3)
set.seed(123)
res2.km <- kmeans(dat2, centers = 3, nstart = 25)
# Extraer etiquetas de los clúster
cluster_labels <- res2.km$cluster
# Añadir etiquetas de los clúster a los datos originales
dat1$Cluster <- cluster_labels
gr <- as.factor(dat1$Cluster)
gr_name <- "Clusters"
ind
(elipses de concentración)
En el código R (que se muestra abajo), los argumentos habillage
o col.ind se puede
n utilizar para especificar la variable de factor para colorear a los individuos por grupos. Para agregar una elipse de concentración alrededor de cada grupo, especifique el argumento addEllipses = TRUE
. El argumento pallete
se puede utilizar para cambiar los colores de los grupos.
fviz_pca_ind(dat2.pca,
geom.ind = "point", # mostrar solo puntos (no "texto")
col.ind = gr , # color por grupos
palette = c("blue", "brown", "green", "yellow", "pink"),
addEllipses = TRUE, # concentración de elipses
legend.title = gr_name
)

ind
(elipses de confianza)
Para eliminar el punto medio del grupo, especifique el argumento mean.point = FALSE
. Si desea elipses de confianza en lugar de elipses de concentración, utilice ellipse.type = "confidence"
.
# Añadir elipses de confianza
fviz_pca_ind(dat2.pca,
geom.ind = "point",
col.ind = gr,
palette = c("blue", "brown", "green"),
addEllipses = TRUE,
ellipse.type = "confidence",
legend.title = gr_name
)

ind
(elipses: más paletas de colores)
Téngase en cuenta que los valores permitidos para la paleta incluyen:
"grey"
para paletas de colores grises;
Paletas brewer como "RdBu"
, "Blues"
, …; Para ver todas, escriba esto en R: RColorBrewer::display.brewer.all()
.
Paleta de colores personalizada, por ejemplo c("blue", "red")
;
Ppaletas de revistas científicas del paquete ggsci
. Por ejemplo: "npg"
, "aaas"
, "lancet"
, "jco"
, "ucscgb"
, "uchicago"
, "simpsons"
y "rickandmorty"
.
Por ejemplo, con la paleta simpsons
:
fviz_pca_ind(dat2.pca,
label = "none", # Ocultar las etiquetas delos individuos
col.ind = gr, # Color por grupos
addEllipses = TRUE, # Elipses de concentración
palette = "simpsons",
legend.title = gr_name
)

Ejemplo: Solución (personalizar gráficos)
Dimensiones (axes
)
Por defecto, las variables/individuos se representan en las dimensiones 1 y 2. Si se desea visualizarlos en las dimensiones 2 y 3, por ejemplo, se debe especificar el argumento axes = c(2, 3)
.
# Variables sobre las dimensiones 2 y 3
fviz_pca_var(res.pca,
axes = c(2, 3),
col.var = "red",
repel=TRUE)

# Individuos sobre las dimensiones 2 y 3
fviz_pca_ind(res.pca,
axes = c(2, 3),
col.ind = "darkblue",
repel=TRUE)

Graficar elementos (geom
)
1. Argumento geom
:
El argumento geom
(por geometría) y sus derivados se utilizan para especificar los elementos geométricos o elementos gráficos a utilizar en la representación gráfica.
2. Argumento geom.var
:
Es un texto que especifica la geometría a utilizar para representar las variables. Los valores permitidos son la combinación de c(“point”, “arrow”, “text”)
:
Se usa geom.var = “point”
para mostrar solo puntos.
Se usa geom.var = “text”
para mostrar solo etiquetas de texto.
Se usa geom.var = c(“point”, “text”)
para mostrar tanto puntos como etiquetas de texto.
Se usa geom.var = c(“arrow”, “text”)
para mostrar flechas y etiquetas (predeterminado).
# Mostrar tanto puntos como etiquetas de texto
fviz_pca_var(res.pca,
geom.var = c("point", "text"),
col.var = "red",
repel=TRUE
)

3. Argumento geom.ind
:
Es un texto que especifica la geometría a utilizar para trazar los individuos. Los valores permitidos son la combinación de c("point", "text").
Se usa geom.ind = "point"
para mostrar solo puntos.
Se usa geom.ind = "text"
para mostrar solo etiquetas de texto.
Se usa geom.ind = c("point", "text")
para mostrar tanto puntos como etiquetas de texto (por defecto).
# Mostrar sólo etiquetas de texto individuales
fviz_pca_ind(res.pca,
geom.ind = "text",
col.ind= "darkblue",
repel=TRUE)
Elipses (addEllipses
)
Como describimos en secciones anteriores, al colorear individuos por grupos, se puede agregar elipses de concentración de puntos usando el argumento addEllipses = TRUE
. Obsérvese que el argumento ellipse.type
se puede utilizar para cambiar el tipo de elipses. Los valores posibles son:
"convex"
: traza la envolvente convexa de un conjunto de puntos.
"confidence"
: traza elipses de confianza alrededor de los puntos medios del grupo como la función coord.ellipse
en el paquete FactoMineR
.
"t"
: asume una distribución \(t\)-multivariada.
"norm"
: asume una distribución normal-multivariada.
“euclid”
: dibuja un círculo con el radio igual al nivel, representando la distancia euclidiana desde el centro. Esta elipse probablemente no aparecerá circular a menos que se aplique coord_fixed
.
El argumento ellipse.level
también está disponible para cambiar el tamaño de la elipse de concentración en la probabilidad normal. Por ejemplo, puede especificar ellipse.level = 0.95
o ellipse.level = 0.66
.
# Elipses de confianza
fviz_pca_ind(dat2.pca,
geom.ind = "point",
col.ind = gr, # Color por grupos
palette = c("blue", "brown", "green"),
addEllipses = TRUE,
ellipse.type = "confidence",
legend.title = gr_name
)

# Envolvente convexa
fviz_pca_ind(dat2.pca,
geom.ind = "point",
col.ind = gr, # Color por grupos
palette = c("blue", "brown", "green"),
addEllipses = TRUE,
ellipse.type = "convex",
legend.title = gr_name
)

Puntos medios por grupo (mean.point
)
Cuando se colorean individuos por grupos (ver secciones anteriores), los puntos medios de los grupos (baricentros) también se muestran de forma predeterminada. Para eliminar los puntos medios, se puede utilizar el argumento mean.point = FALSE
.
fviz_pca_ind(dat2.pca,
geom.ind = "point", # Muestra solo puntos (pero no "texto")
col.ind = gr, # Color por grupos
palette = c("blue", "brown", "green", "yellow", "pink"),
legend.title = gr_name,
mean.point = FALSE
)

Tipo de línea (axes.linetype
)
El argumento axes.linetype
se puede utilizar para especificar el tipo de línea de los ejes. El valor predeterminado es "dashed"
(rayado). Los valores permitidos incluyen "blank"
(en blanco), "solid"
(sólido), "dotted" (punteado)
, etc. Para ver todos los valores posibles, escriba ggpubr::show_line_types
. Para eliminar las líneas de los ejes, utilice axes.linetype = "blank"
:
fviz_pca_var(res.pca,
axes.linetype = "blank",
col.var="red",
repel=TRUE)

Apariencia gráfica (ggpar
)
Para cambiar fácilmente la apariencia gráfica de cualquier ggplot, puede utilizar la función ggpar
del paquete ggpubr
. Los parámetros gráficos que se pueden cambiar usando ggpar
incluyen:
Títulos principales, etiquetas de ejes y títulos de leyenda.
Posición de la leyenda. Valores posibles: "top"
(arriba), "bottom"
(abajo), "left"
(izquierda), "right
” (derecha), "none"
(ninguno).
Paleta de colores.
Temas. Los valores permitidos incluyen: theme_gray
, theme_bw
, theme_minimal
, theme_classic
, theme_void
.
ind.p <- fviz_pca_ind(dat2.pca,
geom = "point",
col.ind = gr
)
ggpubr::ggpar(ind.p,
title = "Principal Component Analysis",
subtitle = "Survey data set",
caption = "Source: factoextra",
xlab = "PC1",
ylab = "PC2",
legend.title = gr_name,
legend.position = "top",
ggtheme = theme_gray(),
palette = "jco"
)

Ejercicios
Ejercicio 1
Supongamos que se tienen 6 observaciones \(x_1, \ldots, x_6\) en dos dimensiones, cada observación corresponde
a un rectángulo y las variables son longitud de la base y la altura del rectángulo (véase la figura 13.1).
La matriz de datos es:
\[X\; =\; \begin{pmatrix}
2.0 & 2.0\\
1.5& 0.5 \\
0.7 & 0.5\\
0.5 & 1.5\\
0.5& 0.7\\
0.7 & 0.7
\end{pmatrix}\]
Con estos datos, halle:
La matriz \(Y= \log (X)\) (logaritmo con base 10). Es decir, aplique el logaritmo teniendo en cuenta cada una de las componentes y defina la matriz resultante como \(Y\).
La matriz \(S\) de varianzas-covarianzas de \(Y\).
Los valores \(\lambda_i\) y vectores \(v_i\) propios de \(S\).
Las dos componentes \(F_1\) y \(F_2\) evaluadas en los seis rectángulos. Recuerde que cada componente \(F_i\) será un vector de la misma longitud de \(Y_i\) y se calculará así:
\[F_i \;= \; Y v_i\]
Ejercicio 2
Las cuatro notas parciales de un determinado curso en una prestigiosa universidad se muestran en la tabla de abajo, en el orden
alfabético por apellidos de los estudiantes. El objetivo es saber si existe algún tipo de ordenación de los estudiantes de este grupo, distinto al de promediar las notas de estos estudiantes. Aplique PCA para determinar esto.
Sugerencia:
Halle los valores de las componentes principales para las notas de los 33 estudiantes.
Ordene en forma descendente estos resultados por la primera componente principal.
Compare estos resultados con los obtenidos en la nota definitiva.
id = 1:33
P1 = c(2.30, 3.50, 4.10, 5.00, 2.70, 2.70, 2.90, 2.40, 3.20, 3.80, 4.90, 4.50, 2.70, 2.90, 2.70, 2.70, 2.90, 3.00, 3.10, 3.50, 3.50, 2.70, 2.90, 3.00, 2.70, 3.50, 5.00, 4.90, 3.60, 3.00, 3.10, 4.70, 3.00)
P2 = c(3.40, 3.30, 4.10, 3.00, 2.50, 3.20, 2.80, 2.80, 3.20, 2.80, 4.80, 2.80, 2.80, 2.80, 2.80, 2.60, 3.30, 2.80, 2.80, 2.90, 2.60, 2.80, 2.80, 2.90, 3.40, 3.00, 3.50, 3.20, 2.90, 2.80, 2.80, 5.00, 2.90)
P3 = c(2.90, 3.50, 4.50, 4.00, 2.70, 4.40, 2.80, 2.50, 2.00, 3.00, 5.00, 4.50, 2.50, 2.80, 2.80, 2.60, 3.00, 2.80, 2.80, 3.50, 4.30, 2.00, 2.50, 2.50, 2.00, 4.00, 4.90, 2.80, 2.00, 3.90, 2.00, 3.80, 3.30)
P4 = c(3.30, 3.00, 3.70, 3.00, 3.00, 3.30, 3.50, 3.50, 3.90, 3.50, 3.00, 3.00, 2.90, 3.50, 3.00, 2.80, 2.80, 3.40, 3.30, 3.50, 3.50, 3.60, 3.00, 2.80, 3.00, 3.00, 3.00, 3.50, 4.00, 3.50, 3.60, 3.00, 2.80)
Def = c(2.98, 3.33, 4.10, 3.75, 2.73, 3.40, 3.00, 2.80, 3.08, 3.28, 4.43, 3.70, 2.73, 3.00, 2.83, 2.68, 3.00, 3.00, 3.00, 3.35, 3.48, 2.78, 2.80, 2.80, 2.78, 3.38, 4.10, 3.60, 3.13, 3.30, 2.98, 4.13, 3.00)
datos <- data.frame(id, P1, P2, P3, P4, Def)
print(datos)
## id P1 P2 P3 P4 Def
## 1 1 2.3 3.4 2.9 3.3 2.98
## 2 2 3.5 3.3 3.5 3.0 3.33
## 3 3 4.1 4.1 4.5 3.7 4.10
## 4 4 5.0 3.0 4.0 3.0 3.75
## 5 5 2.7 2.5 2.7 3.0 2.73
## 6 6 2.7 3.2 4.4 3.3 3.40
## 7 7 2.9 2.8 2.8 3.5 3.00
## 8 8 2.4 2.8 2.5 3.5 2.80
## 9 9 3.2 3.2 2.0 3.9 3.08
## 10 10 3.8 2.8 3.0 3.5 3.28
## 11 11 4.9 4.8 5.0 3.0 4.43
## 12 12 4.5 2.8 4.5 3.0 3.70
## 13 13 2.7 2.8 2.5 2.9 2.73
## 14 14 2.9 2.8 2.8 3.5 3.00
## 15 15 2.7 2.8 2.8 3.0 2.83
## 16 16 2.7 2.6 2.6 2.8 2.68
## 17 17 2.9 3.3 3.0 2.8 3.00
## 18 18 3.0 2.8 2.8 3.4 3.00
## 19 19 3.1 2.8 2.8 3.3 3.00
## 20 20 3.5 2.9 3.5 3.5 3.35
## 21 21 3.5 2.6 4.3 3.5 3.48
## 22 22 2.7 2.8 2.0 3.6 2.78
## 23 23 2.9 2.8 2.5 3.0 2.80
## 24 24 3.0 2.9 2.5 2.8 2.80
## 25 25 2.7 3.4 2.0 3.0 2.78
## 26 26 3.5 3.0 4.0 3.0 3.38
## 27 27 5.0 3.5 4.9 3.0 4.10
## 28 28 4.9 3.2 2.8 3.5 3.60
## 29 29 3.6 2.9 2.0 4.0 3.13
## 30 30 3.0 2.8 3.9 3.5 3.30
## 31 31 3.1 2.8 2.0 3.6 2.98
## 32 32 4.7 5.0 3.8 3.0 4.13
## 33 33 3.0 2.9 3.3 2.8 3.00
Ejercicio 3
Considere la recomendación de inversión que aparecen en la tabla de la figura 13.2. Cada empresa de gestión financiera tiene un conjunto de porcentajes recomendados en cada uno de los ocho tipos de inversión diferentes.
Estos suman 100%, por lo que el objetivo del ejerccio es encontrar un resumen de datos de menor dimensión que represente dicha información.
# Crear el data frame con los datos proporcionados
Manager = c("Alliance Bernstein", "Atlantic Trust", "Bank of America", "BNY Mellon", "Bessemer", "Brown Advisory", "Citi Private Bank", "Constellation", "Deutsche Bank", "Fidelity", "Fiduciary Trust", "Fifth Third Bank","GenSpring", "Glenmede", "Harris Private Bank", "Highmount Capital", "Janney Montgomery", "JPMorgan", "Legg Mason", "Northern Trust", "PNC Asset Mgmt", "Charles Schwab", "SunTrust","UBS", "US Bank", "Wells Fargo", "Wilmington Trust")
S_US = c(45, 28, 53, 26, 19, 29, 18, 20, 29, 40, 40, 28, 13, 35, 54, 25, 47, 20, 55, 24, 40, 29, 26, 32, 43, 27, 27)
S_Non_US = c(3, 6, 9, 9, 9, 13, 27, 10, 14, 14, 10, 9, 8, 12, 10, 5, 4, 9, 3, 8, 8, 20, 6, 10, 16, 13, 11)
S_Dev = c(17, 9, 3, 10, 3, 12, 3, 10, 6, 4, 13, 7, 5, 5, 4, 10, 4, 5, 7, 5, 2, 5, 5, 7, 7, 5, 4)
B_US = c(35, 30, 28, 30, 20, 19, 18, 25, 29, 35, 31, 36, 18, 18, 18, 40, 26, 22, 17, 31, 30, 29, 25, 27, 21, 21, 31)
B_Non_US = c(0, 3, 1, 0, 4, 3, 16, 5, 2, 2, 0, 0, 8, 2, 0, 5, 4, 3, 0, 0, 0, 1, 7, 6, 3, 4, 1)
B_Dev = c(0, 0, 1, 0, 5, 0, 1, 0, 4, 0, 0, 0, 0, 3, 0, 0, 5, 0, 0, 0, 0, 0, 0, 0, 0, 2, 0)
Alternative = c(0, 24, 0, 25, 34, 20, 17, 30, 17, 6, 5, 15, 45, 23, 15, 15, 10, 38, 15, 32, 20, 11, 30, 17, 10, 28, 27)
Cash = c(0, 0, 5, 0, 6, 4, 0, 0, 2, 0, 2, 5, 5, 2, 0, 0, 0, 3, 3, 0, 0, 5, 3, 2, 0, 0, 0)
# Crear el data frame
invest <- data.frame(Manager, S_US, S_Non_US, S_Dev, B_US, B_Non_US, B_Dev, Alternative, Cash)
Ejercicio 4
Considere nuevamente los datos del ejercicio anterior.
Haga un biplot de las dos primeras componentes principales de recomendaciones de inversión. Observe que Legg Mason (LM) y
Harris (HPB) aparecen en la parte superior y Highmount (HC) en la inferior abajo (por lo menos a mí me aparece así). ¿A qué se debe? ¿Qué representa el segundo componente principal el eje vertical?
Halle los valores propios y los vectores propios de la matriz de correlación de los datos de recomendación de inversión.
Muestre que los vectores propios representan las varianzas de los componentes componentes principales de la matriz de correlaciones y verifique que son iguales a los valores obtenidos de los componentes principales.
Ejercicio 5
Los siguientes datos describen el rendimiento de los atletas durante dos eventos deportivos (Desctar y OlympicG). Contiene 27 individuos (atletas) descritos mediante 13 variables. Se resalta que sólo algunos de estos individuos y variables se utilizarán para realizar el análisis de componentes principales.
datos <- factoextra::decathlon2
attach(datos)
dat <- datos[1:23, 1:10]
Con estos datos llevar a cabo un PCA.
Comience examinando las desviaciones estándar de cada variable.
Realice un análisis de componentes principales de estos datos y observe el biplot. Interprete las cargas de los dos primeros componentes principales. ¿Están fuertemente ponderados hacia las mayores desviaciones estándar encontradas en la parte (a)?
Repita el análisis de componentes principales en la matriz de correlación escalada de los datos. ¿Cómo interpreta este
biplot?
¿Qué análisis le parece más útil: el análisis de componentes principales escalado o sin escala para estos datos?
Ejercicio 6
Examine los datos de USJudgeRatings
en la librería datasets
. Este conjunto de datos contiene las valoraciones de 43 jueces de tribunales superiores de EE.UU. por parte de abogados. Cada uno de los jueces es evaluado en función de 12 atributos, como
atributos como la conducta, la preparación para el juicio, la solidez de las sentencias y el número de contactos que cada abogado tuvo con el juez. Consulte el archivo de ayuda de R
para más información sobre este conjunto de datos.
library(datasets)
head(USJudgeRatings)
## CONT INTG DMNR DILG CFMG DECI PREP FAMI ORAL WRIT PHYS RTEN
## AARONSON,L.H. 5.7 7.9 7.7 7.3 7.1 7.4 7.1 7.1 7.1 7.0 8.3 7.8
## ALEXANDER,J.M. 6.8 8.9 8.8 8.5 7.8 8.1 8.0 8.0 7.8 7.9 8.5 8.7
## ARMENTANO,A.J. 7.2 8.1 7.8 7.8 7.5 7.6 7.5 7.5 7.3 7.4 7.9 7.8
## BERDON,R.I. 6.8 8.8 8.5 8.8 8.3 8.5 8.7 8.7 8.4 8.5 8.8 8.7
## BRACKEN,J.J. 7.3 6.4 4.3 6.5 6.0 6.2 5.7 5.7 5.1 5.3 5.5 4.8
## BURNS,E.B. 6.2 8.8 8.7 8.5 7.9 8.0 8.1 8.0 8.0 8.0 8.6 8.6
- Examine el diagrama de dispersión por pares de estos datos (con el comando
pairs
) para revelar que algunas variables están muy correlacionadas.
pairs(USJudgeRatings)

- Realice un análisis de componentes principales para estos datos. Los dos primeros componentes de explican el 94% de la variabilidad. El segundo componente es casi totalmente el número de contactos, y el primer componente es esencialmente todas las demás variables, todas con el mismo peso. Interprete este resultado.
Ejercicio 7
Se administraron seis pruebas diferentes de inteligencia y capacidad a 112 personas. La matriz de covarianza (pero no los datos originales) de los resultados de las pruebas se encuentra en ability.cov
en la librería datasets
.
library(datasets)
ability.cov
## $cov
## general picture blocks maze reading vocab
## general 24.641 5.991 33.520 6.023 20.755 29.701
## picture 5.991 6.700 18.137 1.782 4.936 7.204
## blocks 33.520 18.137 149.831 19.424 31.430 50.753
## maze 6.023 1.782 19.424 12.711 4.757 9.075
## reading 20.755 4.936 31.430 4.757 52.604 66.762
## vocab 29.701 7.204 50.753 9.075 66.762 135.292
##
## $center
## [1] 0 0 0 0 0 0
##
## $n.obs
## [1] 112
Las seis pruebas se denominan: general
, picture
, blocks
, maze
(laberinto), reading
y vocabulary
. En el archivo de ayuda de R puede encontrar más información.
Realice un análisis de componentes principales utilizando la matriz de covarianza e identifique las variables que contribuyen en mayor medida a los dos primeros componentes principales. ¿Cómo interpreta estos componentes principales?
Convierta las covarianzas en matrices de correlación, con ayuda de la función cov2cor
.
ability.cor <- cov2cor(ability.cov$cov)
ability.cor
## general picture blocks maze reading vocab
## general 1.0000000 0.4662649 0.5516632 0.3403250 0.5764799 0.5144058
## picture 0.4662649 1.0000000 0.5724364 0.1930992 0.2629229 0.2392766
## blocks 0.5516632 0.5724364 1.0000000 0.4450901 0.3540252 0.3564715
## maze 0.3403250 0.1930992 0.4450901 1.0000000 0.1839645 0.2188370
## reading 0.5764799 0.2629229 0.3540252 0.1839645 1.0000000 0.7913779
## vocab 0.5144058 0.2392766 0.3564715 0.2188370 0.7913779 1.0000000
Realice un análisis de componentes principales utilizando la matriz de correlaciones. Examine las cargas e interprete los dos primeros componentes principales. Compare este resumen de datos con las partes (a) y (b). ¿En qué se diferencian? difieren? ¿En qué se parecen?
¿Cree que es más apropiado examinar la covarianza o la correlación en un análisis de componentes principales de estos datos?
