Preparación del
ambiente de trabajo
Antes de iniciar con la revisión del tema y los comandos para
realizar el análisis de los datos, es importante preparar el ambiente de
trabajo. Para ello recomiendo la configuración de 3 apartados básicos:
idioma, librerías y la carga de los datos.
Idioma
R y R Studio son plataformas que trabajan con el idioma inglés de
manera nativa, sin embargo en caso de desear que el software pueda
revisar y leer algunos signos de puntuación correspondientes a otros
idiomas, se debe realizar un ajuste a la configuración del lenguaje.
Aquí se propone modificarlo para que se puedan distinguir los signos del
idioma español, para ello se presentan dos opciones para lograrlo.
Primer opción:
Sys.setlocale("LC_ALL", "en_US.UTF-8")
## [1] "en_US.UTF-8/en_US.UTF-8/en_US.UTF-8/C/en_US.UTF-8/en_US.UTF-8"
Otra alternativa consiste en:
Sys.setenv(LANG = "esp")
Librerías
También es importante cargar las librerías que se utilizarán
posteriormente. Al hacerlo al inicio del proceso de trabajo se impedirá
que ocurran “bloqueos” posteriores durante el flujo de la escritura de
los comandos en R
. Por ello, aquí se recomienda activarlas
al momento de la preparación del ambiente de trabajo.
En este documento, el análisis de los datos se apoyará en dos
librerías: tidyverse
y PerformanceAnalytics
,
así como de varios comandos del sistema base de R
.
El primer paso para utilizar dichas librerías consiste en
descargarlas e instalarlas en el sistema operativo en que se esté
trabajando, para ello se utiliza el comando
install.packages()
de la siguiente manera:
```
install.packages("tidyverse)
install.packages("PerformanceAnalytics")
install.packages("EFAtools")
```
Una vez que las librerías se instalaron correctamente, el segundo
paso consiste en su “activación”. Para ello se utiliza el comando
library()
de la siguiente manera:
library(tidyverse)
## ── Attaching packages ─────────────────────────────────────── tidyverse 1.3.1 ──
## ✓ ggplot2 3.3.5 ✓ purrr 0.3.4
## ✓ tibble 3.1.6 ✓ dplyr 1.0.8
## ✓ tidyr 1.2.0 ✓ stringr 1.4.0
## ✓ readr 2.1.2 ✓ forcats 0.5.1
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## x dplyr::filter() masks stats::filter()
## x dplyr::lag() masks stats::lag()
library(PerformanceAnalytics)
## Loading required package: xts
## Loading required package: zoo
##
## Attaching package: 'zoo'
## The following objects are masked from 'package:base':
##
## as.Date, as.Date.numeric
##
## Attaching package: 'xts'
## The following objects are masked from 'package:dplyr':
##
## first, last
##
## Attaching package: 'PerformanceAnalytics'
## The following object is masked from 'package:graphics':
##
## legend
library(EFAtools)
library(factoextra)
## Welcome! Want to learn more? See two factoextra-related books at https://goo.gl/ve3WBa
Carga de los
datos
El tercer paso recomendable al momento de preparar el ambiente de
trabajo consiste en la carga de los datos en la sección del “ambiente”
(environment).
Para ello, el primer paso consiste en contar con una copia de los
datos y que esté disponible en el disco duro del dispositivo en que se
esté realizando el trabajo analítico en R
.
En el presente documento se trabajará con la base de datos
(data.frame
) generado por el proyecto Varieties of Democracy
(V-DEM), y del que se extrae la matriz correspondiente
a los indicadores centrales para construir el índice de democracia
propuesto en dicho proyecto, para su versión 12 y disponible aquí.
Tras la descarga del paquete de datos, se debe tener presente la
extensión con la que fue guardado el archivo que contiene a la matriz de
datos (data.frame
), y que se encuentra en formato
.csv
(comma separated values).
Una vez que se cuenta con el archivo de datos guardado en el disco
duro y que se conoce la extensión con que ha sido guardado dicho
archivo, se puede proceder a “abrirlo” y “cargarlo” en el ambiente de
R Studio
. Para ello se utiliza el comando
read.csv()
, y este proceso se debe guardar como un
objeto nuevo.
datos <- read.csv("~/Dropbox/R/V-Dem-CY-Core-v12.csv", header = TRUE)
Hasta aquí se considera que se ha preparado el ambiente de trabajo de
manera básica.
Introducción al
Análisis de Componentes Principales (PCA)
El Análisis de Componentes Principales (o
Principal Component Analysis [PCA]
por sus siglas en inglés) es una técnica dentro del conjunto de métodos
agrupados en la categoría de Análisis Factorial.
Las técnicas agrupadas dentro de la categoría de análisis factoriales
son referidas como “técnicas sin variables dependiendientes” (Tacq, 1998, p. p267) , ya que no se basan en
modelos causales sino que trabajan con todas las variables contenidas en
un data.frame
de manera simultánea.
En estos modelos “se deja que sea el análisis estadístico el que
decida si existe una estructura”oculta” que se pueda reconocer en el
material (datos). A este formato básico, o tal vez se debería decir que
ante la ausencia de un formato básico (en los datos), se le denomina
estructura latente. El análisis factorial se puede considerar como una
técnica de análisis de la estructura latente.” (Tacq, 1998, p. 266)
Este tipo de análisis es muy útil si se desea examinar si un concepto
puede ser “partido” (split) en un número diverso de
características latentes (dimensiones), y de esa manera se puede
simplificar el trabajo del análisis de las variables.
En los análisis factoriales se requiere contar con el registro de
distintos casos, a la vez que se cuenta con sus valores u observaciones
para más de dos variables. Dichas observaciones (variables o
indicadores) deben ser medidos en escala intervalar. Y se asume
que cada caso en sí mismo es diferente del resto, a partir de las
variables que son de interés para el análisis.
Reducción de
dimensiones en PCA
La manera de simplificar el proceso de análisis de las variables
ocurre a través de la “reducción de dimensiones” (latentes),
esto se refiere a la creación de variables nuevas que servirán de
resúmenes de las variables originales incluidas en el análisis. Al final
se espera que estas últimas consistan en un número menor de “columnas”
en la matriz de datos respecto de las variables originales y, así,
trabajar posteriormente con las nuevas dimensiones o
“factores”.
Un factor se puede entender como “un concepto-madre
(mother-concept) que ofrece un resumen de un subgrupo de
indicadores, que miden lo mismo de manera más amplia. En otras palabras,
consideramos a los diagramas basados en el análisis factorial como
modelos de medición y no como modelos causales.” (Tacq, 1998, p 267)
Sin embargo, al integrar varias variables o ítems en otras
dimensiones (latentes), se pueden caer en alguna de las situaciones
extremas: la primera consiste en que todos los ítems estén muy
correlacionados entre sí en donde “en este caso el material de
investigación (datos) tendrá una estructura basada en una dimensión, y
para todos los indicadores (ítems o variables) mostrarán pesos
(loadings) elevados en una variable latente (factor).”
(Tacq, 1998, pp. 266–267).
El otro extremo consiste en que para cada uno de los indicadores
utilizados (ítems o variables), cada uno de ellos miden cosas
muy diferentes entre sí, y por ello se crean una nueva dimensión para
cada uno de los indicadores. “Para esta solución con un factor para cada
indicador no se aprenderá nada pues la estructura latente para los datos
será tan compleja como lo fue la estructura manifiesta original de los
datos.” (Tacq, 1998, p. 267)
En el análisis PCA no se refiere a las variables
latentes como “factores” sino como “componentes”, y en
esta técnica se generarán tantos componentes como
indicadores sean incluidos en el análisis. (Tacq,
1998, p. 267)
Combinación de las
variables en los Componentes
Si bien el método del PCA es una técnica que permite
reducir las dimensiones de una matriz de datos a partir de la
construcción de componentes \(C_i\), y
así simplificar el análisis de los datos a la par de identificar la
estructura latente de las variables incluidas en el análisis, también se
reconoce que los objetivos de investigación para los que se ha utilizado
el PCA se centran, de acuerdo con Tacq (1998, p.
270) en:
- Reducción de la multiplicidad a pocas unidades: desbrozar patrones
complejos de asociaciones entre variables para, así, encontrar su
esencia.
- Análisis de estructura latente: identificación de características
latentes las que ocultan una estructura oculta en los datos.
- Desarrollo de tipologías empíricas a partir de las variables
utilizadas.
- Reducción de dimensiones: reducción el espacio de \(n\) variables a otro espacio de \(p\) dimensiones, donde \(p\) menor a \(n\).
- Construcción de índices o escalamiento: examinación sobre la
posibilidad de reducir \(n\) variables
a una dimensión y, de ser posible, construir un índice de una sola
dimensión o escala (caso especial de reducción de dimensiones con \(p = 1\)).
- Ortogonalización de los predictores: transformación de la matriz de
variables independientes en un análisis de regresión múltiple con
multicolinealidad sustancial.
En el PCA, inicialmente, cada componente se presenta
como una combinación lineal de los indicadores incluidos, de tal manera
que esta mezcla maximice la variabilidad que se extrae de dichos
indicadores o variables. Por lo que cada componente es una combinación
lineal de los indicadores que, además, han sido estandarizados de la
manera siguiente para una situación con 3 componentes, de acuerdo con
Tacq (1998, p. 268).
\[C_i = u_{i1}z_1 + u_{i2}z_2 +
u_{i3}z_3\]
Donde:
- \(C_i\) = componente \(-i\),
- \(x_i\) = la variable \(-i\) utilizado en el análisis, y se incluye
en unidades estandarizadas, por lo que \(z_i\),
- \(u_i\) = consiste en valor para
cada coeficiente del factor o componente.
Pero para identificar estos componentes, que son mezclas de los
indicadores o variables incluidas en el análisis, primero se deben
cumplir 2 condiciones básicas, que restringen la búsqueda de
combinaciones lineales de las variables:
- Los componentes deben de ser perpendiculares entre sí (requisito de
ortogonalidad).
- El primer componente debe de extraer la mayor variabilidad posible
de las variables originales, el segundo componente debe extraer la mayor
variabilidad posible de la variabilidad restante, etc., así hasta que
toda la variabilidad sea extraída (método del eje principal
[principal axis method]). (Tacq, 1998,
p. 269)
En el proceso de construcción de los componentes, una característica
importante del PCA consiste en que se calcularán tantos
componentes como variables se hubieran incluido en el análisis, y entre
todos se abarca la totalidad de la variación contenida en todas las
variables de manera simultánea. (Tacq, 1998, p.
267)
El modelo PCA también puede ser visto de otra
manera, donde cada variable original se puede concebir como una
combinación lineal de los componentes generados en el análisis, de la
siguiente manera para una situación con 3 componentes: (269)
\[z_i = a_{i1}C_1 + a_{i2}C_2 +
a_{i3}C_3\]
Donde:
- \(a_i\) = peso de cada componente
(component loading).
Los pesos de cada componente (component loadings)
“son los pesos beta’s (beta weights) de una regresión
múltiple de la variable (estandarizada), que se presenta como una
función de los componentes calculados. Estos pesos beta’s son
iguales a las correlaciones calculadas entre cada variable y cada
componente.” (Tacq, 1998, p. 269)
Representación
geométrica de los datos en PCA
El PCA se apoya en la representación geométrica de los datos, donde
se trata de la rotación de un cubo que, originalmente, se ha
construido con las variables de la matriz de datos. (Tacq, 1998, p. 269)
De acuerdo con Tacq (1998, p. 270) cada
variable se representa en un espacio dimensional (una recta), y entre sí
todas éstas son perpendiculares, formando un cubo. Si las variables
están estandarizadas, entonces el origen del cubo se ubica en un
centroide; este es el punto dentro del cubo en donde se
concentran las medias de cada dimensión. Y sobre cada recta se
representa la posición de cada uno de los casos de los que se extrajo la
información.
En el PCA se busca delinear una recta a través del origen
(centroide), de manera que la proyección de los casos sobre la línea
permita contener a la mayor cantidad de dispersión (maximal
variance). Cada una de dichas líneas es una combinación lineal (o
componente).
Si llegase a ocurrir que todos los casos (representados por puntos
sobre la gráfica) se posicionan sobre una recta (situación de
multicolinealidad perfecta), entonces dicho componente
representaría exhaustivamente a toda la información de la matriz de
datos.
En caso de calcular más de un componente, los subsiguientes serán
siempre perpendiculares al anterior y partirán del origen o centroide, y
buscarán siempre maximizar la variación al cruzar a los casos.
A partir de dichas combinaciones lineales o componentes se forma un
nuevo cubo, distinto al que se formó a partir de las variables
originales, pero este se rota alrededor el origen del cubo hacia el
nuevo cubo (formado por los componentes), mientras que los puntos o
casos permanecen en su lugar. (Tacq, 1998, p.
270)
A partir de dicha representación geométrica, la técnica del
PCA se centra en los siguientes objetivos particulares
o procedimentales (Tacq, 1998, p.
271):
- Encontrar tantos componentes así como variables originales de tal
manera que los componentes sean mutuamente ortogonales y secuencialmente
extraigan la variación máxima de las variables. Para esto se debe
examinar la eigenestructura de la matriz de datos \(X\) o la correlación de la matriz \(R\). Los eigenvalores son
las variantes de las proyecciones de puntos sobre cada uno de los
componentes. Los eigenvectores son los cosenos de
dirección, los que indican qué tanto debe rotarse el espacio de la
variable original.
- Reducción del número de dimensiones mediante la examinación sobre
cuáles de las variables cuentan con un peso elevado (high
loading) sobre cada componente, buscando la “estructura
simple”. Esto se logra mediante la examinación de la matriz \(A\) de pesos de los componentes
(component loadings), así como mediante el cálculo de las
medidas de redundancia de cada componente.
- Rotación del espacio resultante de cada componente a un nuevo
espacio, el que puede ofrecer una estructura más simple así
como una mejor interpretación en términos del contenido.
Tomando estos supuestos y requisitos en consideración, es que se
puede avanzar en la realización del procedimiento del
PCA en R
y, posteriormente, analizar los
resultados arrojados por el software, como se verá en la sección
siguiente.
Realización y análisis
de los resultados del PCA
A continuación se muestran los comando que se utilizarán para la
realización del análisis de PCA, para ello se trabajará
con la versión 12 de la matriz de datos generada en el proyecto V-DEM
(como se refirió arriba).
Las variables seleccionadas para el análisis fueron:
- Índice de democracia deliberativa (v2x_delibdem).
- Índice de democracia igualitaria (v2x_egaldem).
- Índice de democracia electoral (v2x_polyarchy).
- Índice de democracia participativa(v2x_partipdem).
- Índice de democracia liberal (v2x_libdem).
Y se revisarán los valores registrados a partir de 1974 y hasta el último año
de registro, para lo que se filtraron los datos para, así, crear una
submuestra denominada datos_pca
de la siguiente manera:
datos_pca <- datos %>%
filter (year > 1973) %>%
select(v2x_polyarchy, v2x_libdem, v2x_partipdem, v2x_delibdem, v2x_egaldem)
Estas variables son utilizadas por el proyecto V-DEM para medir cinco
aspectos relevantes, las que -consideran- permiten estructurar al
régimen democrático. De manera que la democracia es entendida como la
combinación de estos cinco elementos.
Al retomarlos en el presente análisis, se puede considerar que el
PCA ayudará a identificar la estructura latente que
existe entre estas variables y, así, tener un acercamiento más “simple”
sobre el régimen democrático.
Exploración inicial
de la asociación entre las variables
Una primer manera para observar la asociación o variación existente
entre las variables es mediante una comparación de variables en pares,
para lo que se usa el comando chart.Correlation()
de la
librería PerformanceAnalytics
:
chart.Correlation(datos_pca)
Si bien se pueden identificar los niveles de asociación entre las
variables -que son muy altas-, ahora surge la interrogante por dilucidar
si esto ocurre porque, en el fondo, está midiendo el mismo fenómeno
aunque con indicadores diferentes.
Y, en caso de medir aspectos diferentes de un fenómeno, y que eso
valide los indicadores utilizados en el análisis, el método de las
correlaciones entre variables no permite identificar si alguna de ellas
permite “simplificar” la estructura de la matriz de datos y, así,
identificar una variable “resumen”, a la par de permita observar las
diferencias en el comportamiento de cada caso entre todas las variables
simultáneamente.
Ante esta situación, es recomendable avanzar en la realización del
análisis PCA, que permitirá construir un gráfico en el
que se podrá “reducir las dimensiones” para, así, facilitar el análisis
estadístico posterior. De esta manera, también, se podrá identificar una
“estructura más simple” para la matriz de datos.
Realización del
PCA
A continuación se revisará el comando básico para la realización del
análisis PCA en R
, con lo que se avanzará
en el proceso de reducción de dimensiones, y del que se generarán varios
componentes o dimensiones nuevas a partir de la matriz de datos
originales.
Sin embargo, previo a la realización de dicho análisis es importante
evaluar su la matriz de datos original (tanto los casos como sus
variables), son pertinentes para la realización del
PCA, para ello se utilizará la prueba estadística de
Bartlett, como se verá a continuación.
Prueba estadística de
las correlaciones en la matriz de datos
Un elemento a tener en consideración previo a la realización el
análisis PCA consiste en la evaluación de las
correlaciones existentes entre las variables originales, con el fin de
descartar que éstas son idénticas entre sí. Lo que implicaría la
imposibilidad de realizar un proceso de reducción de dimensiones.
Para ello es importante la realización de una prueba estadística que
ayuda a evaluar, inicialmente, si es pertinente avanzar en la
realización de un análisis factorial. Dicha prueba, propuesta por
Bartlett (1950) se realiza sobre la matriz
de correlaciones de las unidades de la población, que asume que se
distribuye como una \(\chi^2\), donde
la hipótesis nula plantea que las variables no están
correlacionadas entre sí.
Si dicha hipótesis nula no es rechazada, entonces no hace sentido
realizar un análisis factorial debido a que el espacio original no puede
ser reducido. Si la \(H0\) sí es
rechazada, entonces significa que sí tiene sentido realizar una
reducción del espacio definido por las variables incluidas. (Tacq, 1998, p. 280)
A continuación se realiza dicho test mediante el comando
BARTLETT()
, que es parte de la librería
EFAtools()
, de la siguiente manera:
EFAtools::BARTLETT(datos_pca, #objeto data frame con las variables de interés
N = NA, # si se requiere, se establece el tamaño de casos a retomar en el análisis
use = c("pairwise.complete.obs", #argumento para definir los tipos de casos a considerar en el análisis
"all.obs",
"complete.obs",
"everything",
"na.or.complete"),
cor_method = "pearson") # definición del método de evaluación de las correlaciones
## ℹ 'x' was not a correlation matrix. Correlations are found from entered raw data.
##
## ✓ The Bartlett's test of sphericity was significant at an alpha level of .05.
## These data are probably suitable for factor analysis.
##
## 𝜒²(10) = 102634.7, p < .001
A partir de los datos presentados por la prueba estadística de
Bartlett, se puede rechazar la \(H_0\)
y se acepta que los datos son pertinentes para avanzar en la realización
de un análisis factorial.
Implementación del
PCA en R Studio
La realización del análisis PCA se realiza a través
del comando pcomp()
, que es parte del sistema base de
R
. Los argumentos centrales a utilizar serán:
x
= consiste en la matriz numérica o
data.frame()
que contiene los datos o variables que se
incluirán en el análisis.
center
= valor lógico (TRUE / FALSE), que indica si las
variables deben centrarse en un valor “cero.”
scale
= valor lógico (TRUE / FALSE), que indica si los
valores originales de las variables de interés deberán estandarizarse
para, así, contar con una varianza igual a 1, y que esto se aplique
antes de la realización del análisis PCA.
na.action
= función que indica la manera en que se
deben procesar los casos en los que ocurren valores perdidos
(NA
).
Asimismo es importante que los resultados del análisis
PCA sean guardados como un objeto nuevo, en el ambiente
de R Studio
.
pca1 <- prcomp(~v2x_polyarchy + v2x_libdem + v2x_partipdem + v2x_delibdem + v2x_egaldem, # selección de las variables a incluir en el análisis.
data = datos_pca, #objeto fuente de los datos.
center = TRUE, # se acepta que el centro de las dimensiones tenga el valor de cero.
scale = TRUE, # se acepta que las variables originales sean estandarizadas.
na.action = na.omit) #se establece que los valores perdidos no sean incluidos en el análisis.
pca1
## Standard deviations (1, .., p=5):
## [1] 2.2058415 0.2468860 0.1849283 0.1582510 0.1186125
##
## Rotation (n x k) = (5 x 5):
## PC1 PC2 PC3 PC4 PC5
## v2x_polyarchy 0.4471347 0.45444321 -0.2654256 0.66404776 -0.286603765
## v2x_libdem 0.4505066 -0.09605931 -0.1978628 0.05596678 0.863443363
## v2x_partipdem 0.4463073 0.38787115 0.7634150 -0.25992100 0.002076133
## v2x_delibdem 0.4484520 0.04376036 -0.5105859 -0.66672971 -0.302901466
## v2x_egaldem 0.4436383 -0.79491822 0.2165618 0.20933433 -0.283848961
summary(pca1)
## Importance of components:
## PC1 PC2 PC3 PC4 PC5
## Standard deviation 2.2058 0.24689 0.18493 0.15825 0.11861
## Proportion of Variance 0.9731 0.01219 0.00684 0.00501 0.00281
## Cumulative Proportion 0.9731 0.98534 0.99218 0.99719 1.00000
Este comando da como resultado un objeto tipo “lista” que está
integrado por 7 elementos (sdev
, rotation
,
center
, scale
, x
,
call
y na.action
), entre los más relevantes
para el análisis del PCA consisten en:
- $
X
: contiene a los componentes principales que se
utilizan para definir la gráfica PCA. Contiene tantas columnas como
variables. Usualmente se usan las dos columnas primeras.
- $
sdev
: se refiere a las distancias estandarizadas de
cada caso dentro de cada uno de los componentes principales.
- $
rotation
: se refiere al peso de cada variable sobre
cada componente principal.
Por su parte, en la consola se muestra una matriz de correlaciones
entre cada una de las variables incluidas en el análisis con respecto a
cada uno de los componentes calculados. Aquí se debe recordar
que se crean tantos componentes (columnas) como variables
(filas) se incluyeron en el análisis.
Esta matriz de correlaciones es mejor denominada como la “matriz
de pesos” por componente (component loadings
matrix).
De manera complementaria, con el comando summary()
que
integra al objeto en que se guardaron los resultados del análisis
PCA, se manda a llamar una tabla complementaria en la
que se presentan tres filas con información relevante para cada
componente, estas consisten en:
Standard deviation
: desviación estándar o
eigenvalor con que se mide la varianza al interior de
cada componente.
Proportion of Variance
: proporción de la varianza, con
la cantidad de varianza del universo de los casos que es captada por
cada componente \(C_i\).
Cumulative Proportion
: proporción acumulada de la
varianza, que consiste en la suma de las proporciones de varianza
explicada por cada compontente \(C_i\)
y los componentes antecedentes \(C_{i-1}\). La suma todal de las
proporciones dará como resultado el valor de 1.
Lectura de la matriz
de pesos de componentes
Esta matriz permite identificar las proporciones de varianza
explicada por cada componente, pues contiene las correlaciones entre
componentes y variables. Estos se encuentran en las celdas en que
converge cada variable con cada uno de los componentes. (Tacq, 1998, p. 279)
Los valores de dichos coeficientes de correlación permiten
identificar el peso (loading) de cada una de las variables
sobre cada uno de los componentes (\(C_i\)). De manera que, la variable que
tiene una mayor correlación también tiene un mayor peso
(loading) sobre el componente, y esto sirve para caracterizar
al eje nuevo creado a partir de este último.
Además, el cuadrado del coeficiente de correlación se puede
interpretar como la proporción de la varianza explicada. Por ej. el peso
(loading) de \(x_1\) en \(C_1\) es de 0.4471347. Su cuadrado \((0.4471347) ^ 2 = 0.1999294\) significa que
el 19.99% de la varianza de la variable \(x_1\) es explicada por el primer componente
\(C_1\); mientras que la proporción de
\(C_2\) que explica de la varianza de
\(x_1\) es de \((0.45444321) ^ 2 = 0.2065186\), o el
20.65%, y así sucecivamente. La suma horizontal o por fila será del 100%
para todas las variables en cada uno de los componentes, pues cada
componente explica un porcentaje de la variabilidad de cada una de las
variables \(x_i\).
La suma de los pesos cuadráticos en cada fila de la matriz es
denominada “comunalidad”. La comunalidad de una variable en
todos los componentes será igual a 1 en PCA. (Tacq, 1998, p. 279)
Al revisar las columnas de la matriz, la suma de los pesos
cuadráticos de una columna, por ej. \(C_i\), es la suma de las proporciones de
varianza de cada una de las variables incluidas que son explicadas por
el componente \(C_i\). Esta suma es
igual al eigenvalor (\(\lambda\)) del componente respectivo, por
ej. \((C_1 r x_1)^2 + (C_1 r x_2)^2 + (C_1 r
x_3)^2 = (\lambda)\). (Tacq, 1998, p.
279)
Donde:
- \((C_i r x_i)^2\) = cuadrado de la
correlación del componente \(-i\) con
la variable \(x_i\).
- \(\lambda\) = eigenvalor.
Los eigenvalores se pueden interpretar geométricamente como
la extensión o distancia de las proyecciones de cada caso sobre cada uno
de los componentes en los que están dispersos. En PCA,
la suma de los eigenvalores es igual a la suma de varianzas de
las variables estandarizadas (que es un número entero correspondiente a
la cantidad de variables incluidas).
A partir de esta propiedad, cada eigenvalor se puede
expresar como una proporción de esta suma. Para el primer
eigenvalor, esta proporción es \(\lambda_1 / \sigma_{\lambda_i}= *eigenvalor* / n_x
= prc_{x1}\) explicado del total de la varianza de las variables
incluidas, y así sucesivamente. (Tacq, 1998, p.
279)
Selección de los
componentes principales
El método de PCA -como se refirió arriba- es una
técnica que permite trabajar con una matriz en la que no se cuenta con
una variable dependiente, pues la meta analítica está puesta en
identificar la “estructura latente” que existe detrás de las variables
analizadas. Esto da paso a que los resultados arrojados por el análisis
PCA no necesariamente sean concluyentes en términos de
“causas-efectos”.
En este sentido, se considera que el análisis PCA es
una técnica que se apoya, en gran medida, en la subjetividad del
analisista, especialmente, al momento de seleccionar la cantidad de
componentes necesarios para simplificar la estructura de la matriz de
datos analizada.
Esto se traduce en que no existen criterios estadísticos concluyentes
para definir la cantidad componentes a seleccionar. Pero se pueden
identificar algunas pautas existentes -y recurrentes en los análisis-
para avanzar en la selección de la cantidad de componentes a recuperar
tras la reducción de dimensiones. Estos consiste en:
Criterio basado en el
eigenvalor
El primer criterio fue propuesto por Kaiser (Kaiser, 1960) y consiste en “mantener solo los
componentes cuyo eigenvalor es mayor a 1.” (Tacq, 1998, p. 280)
Este criterio suele se el default en los programas de
computación, pero se debe observar con detenimiento la matriz de pesos
(loadings) para evaluar si las correlaciones entre variables y
el resto de los componentes que no alcanzan a cubrir dicho criterio,
también es alto.
Esto supone que vale la pena re considerar incluir los componentes
que tiene correlaciones altas con variables, aún cuando su
eigenvalor esté por debajo del valor de 1, pues pueden aportar
elementos teóricos explicativos. (Tacq, 1998, p.
280)
Criterio gráfico
Otro criterio se apoya en la gráfica de los eigenvalores en
un scree plot y su prueba en un scree
test, desarrollado por Cattel (Cattell,
1966). Esta consiste en graficar la distribución de los
componentes, ordenados por sus eigenvalores y, allí,
identificar el “codo” de la distribución. Será en esa posición donde se
defina la cantidad de componentes a incluir. (Tacq, 1998, p. 280)
La manera de generar dicha gráfica es a partir de:
var_explicada = pca1 $ sdev ^ 2 / sum(pca1 $ sdev ^ 2) #vector con la varianza explicada por cada componente
qplot(c(1:5), var_explicada) +
geom_line() +
xlab("Componente Principal") +
ylab("Varianza Explicada") +
ggtitle("Scree Plot")
En esta gráfica se observa que en el eje X (horizontal) se encuentra
distribuidos cada uno de los componentes generados, mientras que en el
eje Y (vertizal) se mide la proporción de varianza explicada (del total
del universo de casos contenidos en la matriz de datos) que explica o
abarca cada uno de los componentes \(C_i\).
El objetivo en dicho gráfico consiste en identificar la ubicación del
“codo” en la curva que une a las proporciones de varianza explicada por
cada componente. Pues el lugar o componente en que se encuentre dicho
doblez en la curva, servirá para indicar la cantidad de nuevas
dimensiones a mantener para el análisis estadístico posterior.
Como se observa en la gráfica del “scree plot”, el codo se
ubica en la posición del segundo componente, por lo que la decisión del
analista tendría que partir de, primero, aceptar la inclusión del primer
componente, mientras que deberá examinar la matriz de “pesos”
(loadings) y los valores de las correlaciones existentes entre
las variables con el componente 2 \(C_2\) para, así, decidir si su inclusión es
pertinente teóricamente.
Graficación de los
Componentes Principales
Como se mencionó arriba, el método PCA se apoya -en
gran medida- en la representación geométrica de los componentes, en los
que se grafican la proyección de cada caso (fila) de la matriz de datos
sobre cada una de las nuevas dimensiones generadas y seleccionadas en el
análisis de reducción de dimensiones.
En este gráfico nuevo se toman en consideración las correlaciones
existentes entre todos los casos para todas sus variables y se mapean en
un plano de \(p\) dimensiones. En su
interior, los casos que registren correlaciones altas entre sí se
tienden a ubicar o agrupan juntos.
La manera de elaborar dicho gráfico, una vez que se definió que se
consideraría 2 componentes para la reducción de las dimensiones de la
matriz de datos, se puede realizar con el comando biplot()
del sistema base de R
, pero a continuación se realiza con
el comando fviz_pca_biplot()
de la libería
factoextra()
de la siguiente manera:
fviz_pca_biplot(pca1, #matriz de datos que contiene los resultados del análisis PCA
geom = "point", #representación gráfica o proyección de cada uno de los casos
col.var = "red", #definición del color para la representación de las variables
col.ind = "grey") #definición del color para la proyección de los casos
A partir de dicho gráfico se observa lo siguiente:
- Ambos ejes se encuentran es escalas estandarizadas.
- El eje X se corresponde con el \(C_1\) y el porcentaje de variabilidad que
explica de los casos.
- El eje Y se corresponde con el \(C_2\) y el porcentaje de variabilidad que
explica de los casos.
- Cada uno de los puntos representados dentro del plano cartesiano se
corresponde con la proyección de cada uno de los casos (filas)
contenidos en la matriz de datos original sobre cada uno de los
componentes.
- Se representan las variables originales incluidas en el análisis (en
color rojo).
A partir de esta representación se puede observar la proyección de
cada uno de los casos sobre cada una de las dimensiones o componentes
seleccionados. Y, gráficamente, se puede observar la posición de cada
una de las variables sobre los ejes que representa cada uno de los
componentes. A partir de ubicar la variable que se alinea sobre la línea
punteada (la representación de cada dimensión), esto ayuda a identificar
cuál de éstas es la que tiene más “peso” (loading) sobre dicho
componente.
Identificar el peso de la variable sobre cada dimensión ayuda a
interpretar el sentido teórico de cada componente.
En la gráfica anterior se puede observar que las variables de
“democracia liberal” (v2x_libdem) y de “democracia deliberativa”
(v2x_delibdem”) son las que ejercen mayor influencia sobre el primer
componente \(C_1\). En cambio, sobre la
segunda dimensión \(C_2\) no
necesariamente alguna de las variables ejerce un peso (loading)
decisivo sobre su comportamiento.
Referencias
Bartlett, M. S. (1950). Test of significance of factor analysis.
British Journal of Psychology, 3, 203–220.
Cattell, R. B. (1966). Handbook of multivariate experimental
psychology. Rand McNally.
Huntington, S. P. (1994). La tercera ola. La democratizacióna
finales del siglo XX. Paidós.
Kaiser, H. F. (1960). The application of electronic computers to factor
analysis. Educational and Psychological Measurement,
20(1), 141–151.
Tacq, J. (1998). Multivariate analysis techniques in social science
research. From problem to analysis. Sage.
