1 Preparación del ambiente de trabajo

Antes de iniciar con la revisión del tema y los comandos para realizar el análisis de los datos, es importante preparar el ambiente de trabajo. Para ello recomiendo la configuración de 3 apartados básicos: idioma, librerías y la carga de los datos.

1.1 Idioma

R y R Studio son plataformas que trabajan con el idioma inglés de manera nativa, sin embargo en caso de desear que el software pueda revisar y leer algunos signos de puntuación correspondientes a otros idiomas, se debe realizar un ajuste a la configuración del lenguaje. Aquí se propone modificarlo para que se puedan distinguir los signos del idioma español, para ello se presentan dos opciones para lograrlo.

Primer opción:

Sys.setlocale("LC_ALL", "en_US.UTF-8")
## [1] "en_US.UTF-8/en_US.UTF-8/en_US.UTF-8/C/en_US.UTF-8/en_US.UTF-8"

Otra alternativa consiste en:

Sys.setenv(LANG = "esp")

1.2 Librerías

También es importante cargar las librerías que se utilizarán posteriormente. Al hacerlo al inicio del proceso de trabajo se impedirá que ocurran “bloqueos” posteriores durante el flujo de la escritura de los comandos en R. Por ello, aquí se recomienda activarlas al momento de la preparación del ambiente de trabajo.

En este documento, el análisis de los datos se apoyará en dos librerías: tidyverse y PerformanceAnalytics, así como de varios comandos del sistema base de R.

El primer paso para utilizar dichas librerías consiste en descargarlas e instalarlas en el sistema operativo en que se esté trabajando, para ello se utiliza el comando install.packages() de la siguiente manera:

```
install.packages("tidyverse)
install.packages("PerformanceAnalytics")
install.packages("EFAtools")
```

Una vez que las librerías se instalaron correctamente, el segundo paso consiste en su “activación”. Para ello se utiliza el comando library() de la siguiente manera:

library(tidyverse)
## ── Attaching packages ─────────────────────────────────────── tidyverse 1.3.1 ──
## ✓ ggplot2 3.3.5     ✓ purrr   0.3.4
## ✓ tibble  3.1.6     ✓ dplyr   1.0.8
## ✓ tidyr   1.2.0     ✓ stringr 1.4.0
## ✓ readr   2.1.2     ✓ forcats 0.5.1
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## x dplyr::filter() masks stats::filter()
## x dplyr::lag()    masks stats::lag()
library(PerformanceAnalytics)
## Loading required package: xts
## Loading required package: zoo
## 
## Attaching package: 'zoo'
## The following objects are masked from 'package:base':
## 
##     as.Date, as.Date.numeric
## 
## Attaching package: 'xts'
## The following objects are masked from 'package:dplyr':
## 
##     first, last
## 
## Attaching package: 'PerformanceAnalytics'
## The following object is masked from 'package:graphics':
## 
##     legend
library(EFAtools)
library(factoextra)
## Welcome! Want to learn more? See two factoextra-related books at https://goo.gl/ve3WBa

1.3 Carga de los datos

El tercer paso recomendable al momento de preparar el ambiente de trabajo consiste en la carga de los datos en la sección del “ambiente” (environment).

Para ello, el primer paso consiste en contar con una copia de los datos y que esté disponible en el disco duro del dispositivo en que se esté realizando el trabajo analítico en R.

En el presente documento se trabajará con la base de datos (data.frame) generado por el proyecto Varieties of Democracy (V-DEM), y del que se extrae la matriz correspondiente a los indicadores centrales para construir el índice de democracia propuesto en dicho proyecto, para su versión 12 y disponible aquí.

Tras la descarga del paquete de datos, se debe tener presente la extensión con la que fue guardado el archivo que contiene a la matriz de datos (data.frame), y que se encuentra en formato .csv(comma separated values).

Una vez que se cuenta con el archivo de datos guardado en el disco duro y que se conoce la extensión con que ha sido guardado dicho archivo, se puede proceder a “abrirlo” y “cargarlo” en el ambiente de R Studio. Para ello se utiliza el comando read.csv(), y este proceso se debe guardar como un objeto nuevo.

datos <- read.csv("~/Dropbox/R/V-Dem-CY-Core-v12.csv", header = TRUE)

Hasta aquí se considera que se ha preparado el ambiente de trabajo de manera básica.

2 Introducción al Análisis de Componentes Principales (PCA)

El Análisis de Componentes Principales (o Principal Component Analysis [PCA] por sus siglas en inglés) es una técnica dentro del conjunto de métodos agrupados en la categoría de Análisis Factorial1.

Las técnicas agrupadas dentro de la categoría de análisis factoriales son referidas como “técnicas sin variables dependiendientes” (Tacq, 1998, p. p267) , ya que no se basan en modelos causales sino que trabajan con todas las variables contenidas en un data.frame de manera simultánea.

En estos modelos “se deja que sea el análisis estadístico el que decida si existe una estructura”oculta” que se pueda reconocer en el material (datos). A este formato básico, o tal vez se debería decir que ante la ausencia de un formato básico (en los datos), se le denomina estructura latente. El análisis factorial se puede considerar como una técnica de análisis de la estructura latente.” (Tacq, 1998, p. 266)

Este tipo de análisis es muy útil si se desea examinar si un concepto puede ser “partido” (split) en un número diverso de características latentes (dimensiones), y de esa manera se puede simplificar el trabajo del análisis de las variables.

En los análisis factoriales se requiere contar con el registro de distintos casos, a la vez que se cuenta con sus valores u observaciones para más de dos variables. Dichas observaciones (variables o indicadores) deben ser medidos en escala intervalar. Y se asume que cada caso en sí mismo es diferente del resto, a partir de las variables que son de interés para el análisis.

3 Reducción de dimensiones en PCA

La manera de simplificar el proceso de análisis de las variables ocurre a través de la “reducción de dimensiones” (latentes), esto se refiere a la creación de variables nuevas que servirán de resúmenes de las variables originales incluidas en el análisis. Al final se espera que estas últimas consistan en un número menor de “columnas” en la matriz de datos respecto de las variables originales y, así, trabajar posteriormente con las nuevas dimensiones o “factores”.

Un factor se puede entender como “un concepto-madre (mother-concept) que ofrece un resumen de un subgrupo de indicadores, que miden lo mismo de manera más amplia. En otras palabras, consideramos a los diagramas basados en el análisis factorial como modelos de medición y no como modelos causales.” (Tacq, 1998, p 267)

Sin embargo, al integrar varias variables o ítems en otras dimensiones (latentes), se pueden caer en alguna de las situaciones extremas: la primera consiste en que todos los ítems estén muy correlacionados entre sí en donde “en este caso el material de investigación (datos) tendrá una estructura basada en una dimensión, y para todos los indicadores (ítems o variables) mostrarán pesos (loadings) elevados en una variable latente (factor).” (Tacq, 1998, pp. 266–267).

El otro extremo consiste en que para cada uno de los indicadores utilizados (ítems o variables), cada uno de ellos miden cosas muy diferentes entre sí, y por ello se crean una nueva dimensión para cada uno de los indicadores. “Para esta solución con un factor para cada indicador no se aprenderá nada pues la estructura latente para los datos será tan compleja como lo fue la estructura manifiesta original de los datos.” (Tacq, 1998, p. 267)

En el análisis PCA no se refiere a las variables latentes como “factores” sino como “componentes”, y en esta técnica se generarán tantos componentes como indicadores sean incluidos en el análisis. (Tacq, 1998, p. 267)

4 Combinación de las variables en los Componentes

Si bien el método del PCA es una técnica que permite reducir las dimensiones de una matriz de datos a partir de la construcción de componentes \(C_i\), y así simplificar el análisis de los datos a la par de identificar la estructura latente de las variables incluidas en el análisis, también se reconoce que los objetivos de investigación para los que se ha utilizado el PCA se centran, de acuerdo con Tacq (1998, p. 270) en:

  1. Reducción de la multiplicidad a pocas unidades: desbrozar patrones complejos de asociaciones entre variables para, así, encontrar su esencia.
  2. Análisis de estructura latente: identificación de características latentes las que ocultan una estructura oculta en los datos.
  3. Desarrollo de tipologías empíricas a partir de las variables utilizadas.
  4. Reducción de dimensiones: reducción el espacio de \(n\) variables a otro espacio de \(p\) dimensiones, donde \(p\) menor a \(n\).
  5. Construcción de índices o escalamiento: examinación sobre la posibilidad de reducir \(n\) variables a una dimensión y, de ser posible, construir un índice de una sola dimensión o escala (caso especial de reducción de dimensiones con \(p = 1\)).
  6. Ortogonalización de los predictores: transformación de la matriz de variables independientes en un análisis de regresión múltiple con multicolinealidad sustancial.

En el PCA, inicialmente, cada componente se presenta como una combinación lineal de los indicadores incluidos, de tal manera que esta mezcla maximice la variabilidad que se extrae de dichos indicadores o variables. Por lo que cada componente es una combinación lineal de los indicadores que, además, han sido estandarizados de la manera siguiente para una situación con 3 componentes, de acuerdo con Tacq (1998, p. 268).

\[C_i = u_{i1}z_1 + u_{i2}z_2 + u_{i3}z_3\]

Donde:

  • \(C_i\) = componente \(-i\),
  • \(x_i\) = la variable \(-i\) utilizado en el análisis, y se incluye en unidades estandarizadas, por lo que \(z_i\),
  • \(u_i\) = consiste en valor para cada coeficiente del factor o componente.

Pero para identificar estos componentes, que son mezclas de los indicadores o variables incluidas en el análisis, primero se deben cumplir 2 condiciones básicas, que restringen la búsqueda de combinaciones lineales de las variables:

  1. Los componentes deben de ser perpendiculares entre sí (requisito de ortogonalidad).
  2. El primer componente debe de extraer la mayor variabilidad posible de las variables originales, el segundo componente debe extraer la mayor variabilidad posible de la variabilidad restante, etc., así hasta que toda la variabilidad sea extraída (método del eje principal [principal axis method]). (Tacq, 1998, p. 269)

En el proceso de construcción de los componentes, una característica importante del PCA consiste en que se calcularán tantos componentes como variables se hubieran incluido en el análisis, y entre todos se abarca la totalidad de la variación contenida en todas las variables de manera simultánea. (Tacq, 1998, p. 267)

El modelo PCA también puede ser visto de otra manera, donde cada variable original se puede concebir como una combinación lineal de los componentes generados en el análisis, de la siguiente manera para una situación con 3 componentes: (269)

\[z_i = a_{i1}C_1 + a_{i2}C_2 + a_{i3}C_3\]

Donde:

  • \(a_i\) = peso de cada componente (component loading).

Los pesos de cada componente (component loadings) “son los pesos beta’s (beta weights) de una regresión múltiple de la variable (estandarizada), que se presenta como una función de los componentes calculados. Estos pesos beta’s son iguales a las correlaciones calculadas entre cada variable y cada componente.” (Tacq, 1998, p. 269)

5 Representación geométrica de los datos en PCA

El PCA se apoya en la representación geométrica de los datos, donde se trata de la rotación de un cubo que, originalmente, se ha construido con las variables de la matriz de datos. (Tacq, 1998, p. 269)

De acuerdo con Tacq (1998, p. 270) cada variable se representa en un espacio dimensional (una recta), y entre sí todas éstas son perpendiculares, formando un cubo. Si las variables están estandarizadas, entonces el origen del cubo se ubica en un centroide; este es el punto dentro del cubo en donde se concentran las medias de cada dimensión. Y sobre cada recta se representa la posición de cada uno de los casos de los que se extrajo la información.

En el PCA se busca delinear una recta a través del origen (centroide), de manera que la proyección de los casos sobre la línea permita contener a la mayor cantidad de dispersión (maximal variance). Cada una de dichas líneas es una combinación lineal (o componente).

Si llegase a ocurrir que todos los casos (representados por puntos sobre la gráfica) se posicionan sobre una recta (situación de multicolinealidad perfecta), entonces dicho componente representaría exhaustivamente a toda la información de la matriz de datos.

En caso de calcular más de un componente, los subsiguientes serán siempre perpendiculares al anterior y partirán del origen o centroide, y buscarán siempre maximizar la variación al cruzar a los casos.

A partir de dichas combinaciones lineales o componentes se forma un nuevo cubo, distinto al que se formó a partir de las variables originales, pero este se rota alrededor el origen del cubo hacia el nuevo cubo (formado por los componentes), mientras que los puntos o casos permanecen en su lugar. (Tacq, 1998, p. 270)

A partir de dicha representación geométrica, la técnica del PCA se centra en los siguientes objetivos particulares o procedimentales (Tacq, 1998, p. 271):

  1. Encontrar tantos componentes así como variables originales de tal manera que los componentes sean mutuamente ortogonales y secuencialmente extraigan la variación máxima de las variables. Para esto se debe examinar la eigenestructura de la matriz de datos \(X\) o la correlación de la matriz \(R\). Los eigenvalores son las variantes de las proyecciones de puntos sobre cada uno de los componentes. Los eigenvectores son los cosenos de dirección, los que indican qué tanto debe rotarse el espacio de la variable original.
  2. Reducción del número de dimensiones mediante la examinación sobre cuáles de las variables cuentan con un peso elevado (high loading) sobre cada componente, buscando la “estructura simple”. Esto se logra mediante la examinación de la matriz \(A\) de pesos de los componentes (component loadings), así como mediante el cálculo de las medidas de redundancia de cada componente.
  3. Rotación del espacio resultante de cada componente a un nuevo espacio, el que puede ofrecer una estructura más simple así como una mejor interpretación en términos del contenido.

Tomando estos supuestos y requisitos en consideración, es que se puede avanzar en la realización del procedimiento del PCA en R y, posteriormente, analizar los resultados arrojados por el software, como se verá en la sección siguiente.

6 Realización y análisis de los resultados del PCA

A continuación se muestran los comando que se utilizarán para la realización del análisis de PCA, para ello se trabajará con la versión 12 de la matriz de datos generada en el proyecto V-DEM (como se refirió arriba).

Las variables seleccionadas para el análisis fueron:

  1. Índice de democracia deliberativa (v2x_delibdem).
  2. Índice de democracia igualitaria (v2x_egaldem).
  3. Índice de democracia electoral (v2x_polyarchy).
  4. Índice de democracia participativa(v2x_partipdem).
  5. Índice de democracia liberal (v2x_libdem).

Y se revisarán los valores registrados a partir de 19742 y hasta el último año de registro, para lo que se filtraron los datos para, así, crear una submuestra denominada datos_pca de la siguiente manera:

datos_pca <- datos %>%
  filter (year > 1973) %>%
  select(v2x_polyarchy, v2x_libdem, v2x_partipdem, v2x_delibdem, v2x_egaldem)

Estas variables son utilizadas por el proyecto V-DEM para medir cinco aspectos relevantes, las que -consideran- permiten estructurar al régimen democrático. De manera que la democracia es entendida como la combinación de estos cinco elementos.

Al retomarlos en el presente análisis, se puede considerar que el PCA ayudará a identificar la estructura latente que existe entre estas variables y, así, tener un acercamiento más “simple” sobre el régimen democrático.

6.1 Exploración inicial de la asociación entre las variables

Una primer manera para observar la asociación o variación existente entre las variables es mediante una comparación de variables en pares, para lo que se usa el comando chart.Correlation() de la librería PerformanceAnalytics:

chart.Correlation(datos_pca)
Gráfica de correlaciones en pares de variables.

Gráfica de correlaciones en pares de variables.

Si bien se pueden identificar los niveles de asociación entre las variables -que son muy altas-, ahora surge la interrogante por dilucidar si esto ocurre porque, en el fondo, está midiendo el mismo fenómeno aunque con indicadores diferentes.

Y, en caso de medir aspectos diferentes de un fenómeno, y que eso valide los indicadores utilizados en el análisis, el método de las correlaciones entre variables no permite identificar si alguna de ellas permite “simplificar” la estructura de la matriz de datos y, así, identificar una variable “resumen”, a la par de permita observar las diferencias en el comportamiento de cada caso entre todas las variables simultáneamente.

Ante esta situación, es recomendable avanzar en la realización del análisis PCA, que permitirá construir un gráfico en el que se podrá “reducir las dimensiones” para, así, facilitar el análisis estadístico posterior. De esta manera, también, se podrá identificar una “estructura más simple” para la matriz de datos.

7 Realización del PCA

A continuación se revisará el comando básico para la realización del análisis PCA en R, con lo que se avanzará en el proceso de reducción de dimensiones, y del que se generarán varios componentes o dimensiones nuevas a partir de la matriz de datos originales.

Sin embargo, previo a la realización de dicho análisis es importante evaluar su la matriz de datos original (tanto los casos como sus variables), son pertinentes para la realización del PCA, para ello se utilizará la prueba estadística de Bartlett, como se verá a continuación.

7.1 Prueba estadística de las correlaciones en la matriz de datos

Un elemento a tener en consideración previo a la realización el análisis PCA consiste en la evaluación de las correlaciones existentes entre las variables originales, con el fin de descartar que éstas son idénticas entre sí. Lo que implicaría la imposibilidad de realizar un proceso de reducción de dimensiones.

Para ello es importante la realización de una prueba estadística que ayuda a evaluar, inicialmente, si es pertinente avanzar en la realización de un análisis factorial. Dicha prueba, propuesta por Bartlett (1950) se realiza sobre la matriz de correlaciones de las unidades de la población, que asume que se distribuye como una \(\chi^2\), donde la hipótesis nula plantea que las variables no están correlacionadas entre sí. 

Si dicha hipótesis nula no es rechazada, entonces no hace sentido realizar un análisis factorial debido a que el espacio original no puede ser reducido. Si la \(H0\) sí es rechazada, entonces significa que sí tiene sentido realizar una reducción del espacio definido por las variables incluidas. (Tacq, 1998, p. 280)

A continuación se realiza dicho test mediante el comando BARTLETT(), que es parte de la librería EFAtools(), de la siguiente manera:

EFAtools::BARTLETT(datos_pca, #objeto data frame con las variables de interés
  N = NA, # si se requiere, se establece el tamaño de casos a retomar en el análisis
  use = c("pairwise.complete.obs",  #argumento para definir los tipos de casos a considerar en el análisis
          "all.obs", 
          "complete.obs", 
          "everything",
          "na.or.complete"),
  cor_method = "pearson") # definición del método de evaluación de las correlaciones
## ℹ 'x' was not a correlation matrix. Correlations are found from entered raw data.
## 
## ✓ The Bartlett's test of sphericity was significant at an alpha level of .05.
##   These data are probably suitable for factor analysis.
## 
##   𝜒²(10) = 102634.7, p < .001

A partir de los datos presentados por la prueba estadística de Bartlett, se puede rechazar la \(H_0\) y se acepta que los datos son pertinentes para avanzar en la realización de un análisis factorial.

7.2 Implementación del PCA en R Studio

La realización del análisis PCA se realiza a través del comando pcomp(), que es parte del sistema base de R. Los argumentos centrales a utilizar serán:

  • x = consiste en la matriz numérica o data.frame() que contiene los datos o variables que se incluirán en el análisis.
  • center = valor lógico (TRUE / FALSE), que indica si las variables deben centrarse en un valor “cero.”
  • scale = valor lógico (TRUE / FALSE), que indica si los valores originales de las variables de interés deberán estandarizarse para, así, contar con una varianza igual a 1, y que esto se aplique antes de la realización del análisis PCA.
  • na.action = función que indica la manera en que se deben procesar los casos en los que ocurren valores perdidos (NA).

Asimismo es importante que los resultados del análisis PCA sean guardados como un objeto nuevo, en el ambiente de R Studio.

pca1 <- prcomp(~v2x_polyarchy + v2x_libdem + v2x_partipdem + v2x_delibdem + v2x_egaldem, # selección de las variables a incluir en el análisis.
       data = datos_pca, #objeto fuente de los datos.
       center = TRUE, # se acepta que el centro de las dimensiones tenga el valor de cero.
       scale = TRUE,  # se acepta que las variables originales sean estandarizadas.
       na.action = na.omit) #se establece que los valores perdidos no sean incluidos en el análisis.
pca1
## Standard deviations (1, .., p=5):
## [1] 2.2058415 0.2468860 0.1849283 0.1582510 0.1186125
## 
## Rotation (n x k) = (5 x 5):
##                     PC1         PC2        PC3         PC4          PC5
## v2x_polyarchy 0.4471347  0.45444321 -0.2654256  0.66404776 -0.286603765
## v2x_libdem    0.4505066 -0.09605931 -0.1978628  0.05596678  0.863443363
## v2x_partipdem 0.4463073  0.38787115  0.7634150 -0.25992100  0.002076133
## v2x_delibdem  0.4484520  0.04376036 -0.5105859 -0.66672971 -0.302901466
## v2x_egaldem   0.4436383 -0.79491822  0.2165618  0.20933433 -0.283848961
summary(pca1)
## Importance of components:
##                           PC1     PC2     PC3     PC4     PC5
## Standard deviation     2.2058 0.24689 0.18493 0.15825 0.11861
## Proportion of Variance 0.9731 0.01219 0.00684 0.00501 0.00281
## Cumulative Proportion  0.9731 0.98534 0.99218 0.99719 1.00000

Este comando da como resultado un objeto tipo “lista” que está integrado por 7 elementos (sdev, rotation, center, scale, x, call y na.action), entre los más relevantes para el análisis del PCA consisten en:

  1. $ X: contiene a los componentes principales que se utilizan para definir la gráfica PCA. Contiene tantas columnas como variables. Usualmente se usan las dos columnas primeras.
  2. $ sdev: se refiere a las distancias estandarizadas de cada caso dentro de cada uno de los componentes principales.
  3. $ rotation: se refiere al peso de cada variable sobre cada componente principal.

Por su parte, en la consola se muestra una matriz de correlaciones entre cada una de las variables incluidas en el análisis con respecto a cada uno de los componentes calculados. Aquí se debe recordar que se crean tantos componentes (columnas) como variables (filas) se incluyeron en el análisis.

Esta matriz de correlaciones es mejor denominada como la “matriz de pesos” por componente (component loadings matrix).

De manera complementaria, con el comando summary() que integra al objeto en que se guardaron los resultados del análisis PCA, se manda a llamar una tabla complementaria en la que se presentan tres filas con información relevante para cada componente, estas consisten en:

  1. Standard deviation: desviación estándar o eigenvalor con que se mide la varianza al interior de cada componente.
  2. Proportion of Variance: proporción de la varianza, con la cantidad de varianza del universo de los casos que es captada por cada componente \(C_i\).
  3. Cumulative Proportion: proporción acumulada de la varianza, que consiste en la suma de las proporciones de varianza explicada por cada compontente \(C_i\) y los componentes antecedentes \(C_{i-1}\). La suma todal de las proporciones dará como resultado el valor de 1.

7.3 Lectura de la matriz de pesos de componentes

Esta matriz permite identificar las proporciones de varianza explicada por cada componente, pues contiene las correlaciones entre componentes y variables. Estos se encuentran en las celdas en que converge cada variable con cada uno de los componentes. (Tacq, 1998, p. 279)

Los valores de dichos coeficientes de correlación permiten identificar el peso (loading) de cada una de las variables sobre cada uno de los componentes (\(C_i\)). De manera que, la variable que tiene una mayor correlación también tiene un mayor peso (loading) sobre el componente, y esto sirve para caracterizar al eje nuevo creado a partir de este último.

Además, el cuadrado del coeficiente de correlación se puede interpretar como la proporción de la varianza explicada. Por ej. el peso (loading) de \(x_1\) en \(C_1\) es de 0.4471347. Su cuadrado \((0.4471347) ^ 2 = 0.1999294\) significa que el 19.99% de la varianza de la variable \(x_1\) es explicada por el primer componente \(C_1\); mientras que la proporción de \(C_2\) que explica de la varianza de \(x_1\) es de \((0.45444321) ^ 2 = 0.2065186\), o el 20.65%, y así sucecivamente. La suma horizontal o por fila será del 100% para todas las variables en cada uno de los componentes, pues cada componente explica un porcentaje de la variabilidad de cada una de las variables \(x_i\).

La suma de los pesos cuadráticos en cada fila de la matriz es denominada “comunalidad”. La comunalidad de una variable en todos los componentes será igual a 1 en PCA. (Tacq, 1998, p. 279)

Al revisar las columnas de la matriz, la suma de los pesos cuadráticos de una columna, por ej. \(C_i\), es la suma de las proporciones de varianza de cada una de las variables incluidas que son explicadas por el componente \(C_i\). Esta suma es igual al eigenvalor (\(\lambda\)) del componente respectivo, por ej. \((C_1 r x_1)^2 + (C_1 r x_2)^2 + (C_1 r x_3)^2 = (\lambda)\). (Tacq, 1998, p. 279)

Donde:

  1. \((C_i r x_i)^2\) = cuadrado de la correlación del componente \(-i\) con la variable \(x_i\).
  2. \(\lambda\) = eigenvalor.

Los eigenvalores se pueden interpretar geométricamente como la extensión o distancia de las proyecciones de cada caso sobre cada uno de los componentes en los que están dispersos. En PCA, la suma de los eigenvalores es igual a la suma de varianzas de las variables estandarizadas (que es un número entero correspondiente a la cantidad de variables incluidas). 

A partir de esta propiedad, cada eigenvalor se puede expresar como una proporción de esta suma. Para el primer eigenvalor, esta proporción es \(\lambda_1 / \sigma_{\lambda_i}= *eigenvalor* / n_x = prc_{x1}\) explicado del total de la varianza de las variables incluidas, y así sucesivamente. (Tacq, 1998, p. 279)

8 Selección de los componentes principales

El método de PCA -como se refirió arriba- es una técnica que permite trabajar con una matriz en la que no se cuenta con una variable dependiente, pues la meta analítica está puesta en identificar la “estructura latente” que existe detrás de las variables analizadas. Esto da paso a que los resultados arrojados por el análisis PCA no necesariamente sean concluyentes en términos de “causas-efectos”.

En este sentido, se considera que el análisis PCA es una técnica que se apoya, en gran medida, en la subjetividad del analisista, especialmente, al momento de seleccionar la cantidad de componentes necesarios para simplificar la estructura de la matriz de datos analizada.

Esto se traduce en que no existen criterios estadísticos concluyentes para definir la cantidad componentes a seleccionar. Pero se pueden identificar algunas pautas existentes -y recurrentes en los análisis- para avanzar en la selección de la cantidad de componentes a recuperar tras la reducción de dimensiones. Estos consiste en:

8.1 Criterio basado en el eigenvalor

El primer criterio fue propuesto por Kaiser (Kaiser, 1960) y consiste en “mantener solo los componentes cuyo eigenvalor es mayor a 1.” (Tacq, 1998, p. 280)

Este criterio suele se el default en los programas de computación, pero se debe observar con detenimiento la matriz de pesos (loadings) para evaluar si las correlaciones entre variables y el resto de los componentes que no alcanzan a cubrir dicho criterio, también es alto. 

Esto supone que vale la pena re considerar incluir los componentes que tiene correlaciones altas con variables, aún cuando su eigenvalor esté por debajo del valor de 1, pues pueden aportar elementos teóricos explicativos. (Tacq, 1998, p. 280)

8.2 Criterio gráfico

Otro criterio se apoya en la gráfica de los eigenvalores en un scree plot y su prueba en un scree test, desarrollado por Cattel (Cattell, 1966). Esta consiste en graficar la distribución de los componentes, ordenados por sus eigenvalores y, allí, identificar el “codo” de la distribución. Será en esa posición donde se defina la cantidad de componentes a incluir. (Tacq, 1998, p. 280)

La manera de generar dicha gráfica es a partir de:

var_explicada = pca1 $ sdev ^ 2 / sum(pca1 $ sdev ^ 2) #vector con la varianza explicada por cada componente
qplot(c(1:5), var_explicada) + 
  geom_line() + 
  xlab("Componente Principal") + 
  ylab("Varianza Explicada") +
  ggtitle("Scree Plot")
Scree plot

Scree plot

En esta gráfica se observa que en el eje X (horizontal) se encuentra distribuidos cada uno de los componentes generados, mientras que en el eje Y (vertizal) se mide la proporción de varianza explicada (del total del universo de casos contenidos en la matriz de datos) que explica o abarca cada uno de los componentes \(C_i\).

El objetivo en dicho gráfico consiste en identificar la ubicación del “codo” en la curva que une a las proporciones de varianza explicada por cada componente. Pues el lugar o componente en que se encuentre dicho doblez en la curva, servirá para indicar la cantidad de nuevas dimensiones a mantener para el análisis estadístico posterior.

Como se observa en la gráfica del “scree plot”, el codo se ubica en la posición del segundo componente, por lo que la decisión del analista tendría que partir de, primero, aceptar la inclusión del primer componente, mientras que deberá examinar la matriz de “pesos” (loadings) y los valores de las correlaciones existentes entre las variables con el componente 2 \(C_2\) para, así, decidir si su inclusión es pertinente teóricamente.

9 Graficación de los Componentes Principales

Como se mencionó arriba, el método PCA se apoya -en gran medida- en la representación geométrica de los componentes, en los que se grafican la proyección de cada caso (fila) de la matriz de datos sobre cada una de las nuevas dimensiones generadas y seleccionadas en el análisis de reducción de dimensiones.

En este gráfico nuevo se toman en consideración las correlaciones existentes entre todos los casos para todas sus variables y se mapean en un plano de \(p\) dimensiones. En su interior, los casos que registren correlaciones altas entre sí se tienden a ubicar o agrupan juntos.

La manera de elaborar dicho gráfico, una vez que se definió que se consideraría 2 componentes para la reducción de las dimensiones de la matriz de datos, se puede realizar con el comando biplot() del sistema base de R, pero a continuación se realiza con el comando fviz_pca_biplot() de la libería factoextra() de la siguiente manera:

fviz_pca_biplot(pca1, #matriz de datos que contiene los resultados del análisis PCA
                geom = "point", #representación gráfica o proyección de cada uno de los casos 
                col.var = "red", #definición del color para la representación de las variables
                col.ind = "grey") #definición del color para la proyección de los casos
Gráfico de 2 componentes principales.

Gráfico de 2 componentes principales.

A partir de dicho gráfico se observa lo siguiente:

  1. Ambos ejes se encuentran es escalas estandarizadas.
  2. El eje X se corresponde con el \(C_1\) y el porcentaje de variabilidad que explica de los casos.
  3. El eje Y se corresponde con el \(C_2\) y el porcentaje de variabilidad que explica de los casos.
  4. Cada uno de los puntos representados dentro del plano cartesiano se corresponde con la proyección de cada uno de los casos (filas) contenidos en la matriz de datos original sobre cada uno de los componentes.
  5. Se representan las variables originales incluidas en el análisis (en color rojo).

A partir de esta representación se puede observar la proyección de cada uno de los casos sobre cada una de las dimensiones o componentes seleccionados. Y, gráficamente, se puede observar la posición de cada una de las variables sobre los ejes que representa cada uno de los componentes. A partir de ubicar la variable que se alinea sobre la línea punteada (la representación de cada dimensión), esto ayuda a identificar cuál de éstas es la que tiene más “peso” (loading) sobre dicho componente.

Identificar el peso de la variable sobre cada dimensión ayuda a interpretar el sentido teórico de cada componente.

En la gráfica anterior se puede observar que las variables de “democracia liberal” (v2x_libdem) y de “democracia deliberativa” (v2x_delibdem”) son las que ejercen mayor influencia sobre el primer componente \(C_1\). En cambio, sobre la segunda dimensión \(C_2\) no necesariamente alguna de las variables ejerce un peso (loading) decisivo sobre su comportamiento.

Referencias

Bartlett, M. S. (1950). Test of significance of factor analysis. British Journal of Psychology, 3, 203–220.
Cattell, R. B. (1966). Handbook of multivariate experimental psychology. Rand McNally.
Huntington, S. P. (1994). La tercera ola. La democratizacióna finales del siglo XX. Paidós.
Kaiser, H. F. (1960). The application of electronic computers to factor analysis. Educational and Psychological Measurement, 20(1), 141–151.
Tacq, J. (1998). Multivariate analysis techniques in social science research. From problem to analysis. Sage.

  1. Otra de las técnicas más utilizadas dentro de este conjunto corresponde al Análisis de Factores Principales (o Principal Factor Analysis [PFA]), pero ambas parten de supuestos teóricos distintos al momento de procesar los datos y en su interpretación.↩︎

  2. El año de 1974 es considerado como el inicio de la “tercera ola de la democracia” a partir del proceso de cambio político en Portugal, que fue denominado “la revolución de los claveles.” (Huntington, 1994)↩︎

