hllinas2023

1 Introducción

1.0.1 Tipo de relación

El análisis factorial establece una conexión directa entre las variables o los encuestados.

1.0.2 ¿Qué busca identificar?

El análisis factorial busca identificar los factores y determinar la contribución de cada variable a cada factor.

1.0.3 Propósito/objetivo

  1. Resumir la información contenida en una serie de variables o entre los encuestados (las observaciones).

  2. Identificar un conjunto reducido de variables latentes que pueden reemplazar un conjunto más amplio de variables observadas si están correlacionadas. Estas variables (latentes o no observadas) se utilizan en análisis multivariados posteriores, creando así un conjunto de variables nuevas, de menor número, para sustituir parcial o totalmente a las variables originales en técnicas subsiguientes.

1.0.4 ¿En qué se apoya?

Se basa en la diferenciación de la variabilidad de las variables observadas y, por ende, de la varianza, descomponiéndola en dos tipos:

  1. Una parte común, explicada por un conjunto de factores comunes que influyen en todas las variables.

  2. Una parte específica, que no está relacionada con esa variabilidad común y es única para cada variable. Esta parte específica es explicada por factores específicos o únicos que reflejan la singularidad de cada variable. Estos factores suelen ser independientes y ortogonales entre sí en su mayoría.

1.0.5 ¿Qué se necesita estimar primero?

El número apropiado de factores necesitados para modelar los datos.

2 Modelo con factores ortogonales

2.0.1 Definición del modelo

Consideremos un vector \(X = (X_1, X_2, \ldots, X_K)^T\) de variables aleatorias observables, en una población normal con vector de medias \(E(X) = \mu\) y matriz de varianza-covarianza \(V(X)=\Sigma\), dadas por \[\mu\; = \;\left( \begin{array}{c} \mu_{1} \\ \mu_{2} \\ \vdots \\ \mu_{K} \\ \end{array}\right) \; =\; \left( \begin{array}{c} E(X_1) \\ E(X_2) \\ \vdots \\ E(X_K) \\ \end{array}\right), \qquad \Sigma \;=\; \left(\begin{array}{lllll} {\sigma}^2_{11} & {\sigma}^2_{12} & \cdots & {\sigma}_{1K} \\ {\sigma}_{21} & {\sigma}^2_{22} & \cdots & {\sigma}_{2K} \\ \vdots & \vdots & \ddots & \vdots \\ {\sigma}_{K1} & {\sigma}_{K2} & \cdots & {\sigma}^2_{KK} \\ \end{array}\right) \]

Además, supongamos que cada \(X_k\), se pueden escribir como combinación lineal de las coordenadas de los vectores \(F = (F_1, F_2, \ldots, F_J)^T\) y \(\varepsilon = (\varepsilon_1, \varepsilon_2,\ldots, \varepsilon_K)^T\), de la siguiente forma:

\[\begin{eqnarray} X_1 &=& \mu_1 + \lambda_{11} F_1 + \cdots + \lambda_{1J} F_J + \varepsilon_1, \tag{2.1}\\ X_2 &=& \mu_2 + \lambda_{21} F_1 + \cdots + \lambda_{2J} F_J + \varepsilon_2,\nonumber\\ \hspace{-0.5cm}\vdots &=& \hspace{3cm} \vdots\nonumber\\ \hspace{-0.5cm}\vdots &=& \hspace{3cm} \vdots\nonumber\\ X_K &=& \mu_K + \lambda_{K1} F_1 + \cdots + \lambda_{KJ} F_J + \varepsilon_K,\nonumber \end{eqnarray}\]

donde:

  • \(\mu_k = E(X_k)\),

  • \(\lambda_{k1} F_1 + \cdots + \lambda_{km} F_J\), es el efecto de las \(J\) coordenadas \(F_1, \ldots , F_J\),

  • \(\varepsilon_k\) es la \(k\)-ésima coordenada del vector \(\varepsilon\) sobre la variable aleatoria \(X_k\), \(k=1,\ldots, K\),

  • \(\lambda_{kj}\), es la carga o contribución que la coordenada \(F_j\), tiene sobre la variable \(X_k\).

Es decir, para cada \(k=1,2, \ldots, K\), se tiene que

\[X_k \;= \; \mu_k \; +\; \sum\limits_{j=1}^J \lambda_{kj} \, F_j \;+\; \varepsilon_k\]

A manera de ejemplo, la situación se puede visualizar en la Figura 2.1 (para el caso \(K=7\) y \(J=3\)).

**Análisis factorial para el caso $K=7$ y $J=3$**

Figure 2.1: Análisis factorial para el caso \(K=7\) y \(J=3\)

Vectorialmente el sistema de ecuaciones (2.1), se puede expresar así:

\[\left( \begin{array}{c} X_{1} \\ X_{2} \\ \vdots \\ X_{K} \\ \end{array}\right) \;=\; \left( \begin{array}{c} \mu_{1} \\ \mu_{2} \\ \vdots \\ \mu_{K} \\ \end{array}\right) \;+\; \left(\begin{array}{lllll} \lambda_{11} & \lambda_{12} & \cdots & \lambda_{1J} \\ \lambda_{21} & \lambda_{22} & \cdots & \lambda_{2J} \\ \vdots & \vdots & \ddots & \vdots \\ \lambda_{K1} & \lambda_{K2} & \cdots & \lambda_{KJ} \\ \end{array}\right) \left( \begin{array}{c} F_{1} \\ F_{2} \\ \vdots \\ F_{J} \\ \end{array}\right) \;+\; \left( \begin{array}{c} \varepsilon_{1} \\ \varepsilon_{2} \\ \vdots \\ \varepsilon_{K} \\ \end{array}\right) \]

o, de la siguiente forma:

\[X \;=\; \mu \;+\; \Lambda \, F \;+\; \varepsilon,\]

donde \(\Lambda = (\Lambda_{kj})_ {K\times J}\) es la matriz de coeficiente del vector \(F\).

El análisis factorial indica que el vector \(X\) se crea a través de la ecuación vectorial previamente definida, donde \(F\) representa un vector de variables latentes de tamaño \(J \times 1\), o factores no observados, que son compartidos entre las \(K\) coordenadas del vector aleatorio \(X\).

2.0.2 Supuestos: general

Supondremos que:

  1. \(F\) se distribuye según una distribución normal multivariada de media cero y matriz de covarianza identidad \(I_J\), es decir, los factores son variables aleatorias con media cero, varianza uno e independientes entre sí.

  2. \(\Lambda\) es una matriz de dimensiones \(K \times J\), donde \(J \leq K\), y contiene constantes desconocidas llamadas cargas factoriales, que representan cómo los factores \(F\) afectan a las variables observadas en el vector \(X\).

  3. \(\varepsilon\) es un vector de dimensiones \(K\times 1\) que representa las perturbaciones no observadas, incluyendo el efecto de todas las variables distintas a los factores comunes que influyen en \(X\).

  4. Es importante destacar que las coordenadas del vector \(\varepsilon\) y las del vector \(F\) son incorreladas.

2.0.3 Supuestos: resumen

En resumen, los supuestos del modelo factorial ortogonal son los siguientes:

Supuesto 1:

Si \(I_J\) es la matriz idéntica de tamaño \(J\), entonces, \(F \sim {\cal N}_{J}(0,\; I_J)\). Es decir,

\[E(F_j) =0, \qquad V(F_j)=1, \qquad Cov(F_i, F_j) =0, \quad i\ne j\] O, escrito vectorialmente,

\[E(F) \;=\; 0, \qquad Cov(F) \;=\; E(F F^T) \;=\; I_J\]

Supuesto 2:

\(\varepsilon \sim {\cal N}_{K}(0,\; \Psi)\), donde \(\Psi\), es la matriz de varianza del vector aleatorio de las perturbaciones \(\varepsilon\). Es decir,

\[E(\varepsilon) \;=\; 0, \qquad Cov(\varepsilon) \;=\;E(\varepsilon \, \varepsilon^T) \;=\;\Psi\]

Supuesto 3:

\(Cov (F,\;\varepsilon) = 0\). Es decir,

\[Cov(F_j, \,\varepsilon_i) =0, \quad i\ne j, \quad i=1,\ldots, K, \quad j=1,\ldots, J\]

Si \(0_J\) es la matriz de ceros y es de tamaño \(J\times J\), lo anterior se puede escribir vectorialmente, de la siguiente manera:

\[Cov(F,\varepsilon) \;=\; 0_J\]

2.0.4 Propiedades de \(X\)

Con estas tres condiciones, se cumplen:

Propiedad 1:

\(X \sim {\cal N}_{K} (\mu , \Sigma)\), donde \(\mu\) es el vector de meduias y \(\Sigma\) es la matriz de varianza-covarianza. Es decir,

\[E(X) \;=\; \mu \;=\; \left( \begin{array}{c} \mu_{1} \\ \mu_{2} \\ \vdots \\ \mu_{K} \\ \end{array}\right), \qquad Cov(X) \;=\; \Sigma \;=\; \left(\begin{array}{lllll} {\sigma}^2_{11} & {\sigma}^2_{12} & \cdots & {\sigma}_{1K} \\ {\sigma}_{21} & {\sigma}^2_{22} & \cdots & {\sigma}_{2K} \\ \vdots & \vdots & \ddots & \vdots \\ {\sigma}_{K1} & {\sigma}_{K2} & \cdots & {\sigma}^2_{KK} \\ \end{array}\right) \]

Propiedad 2:

Se cumple que la covarianza entre \(X_i\) y \(X_j\), para \(i\ne k\), viene dada por:

\[\sigma_{ik} \;:=\; Cov(Xi,\; X_k) \;= \; \sum\limits_{r=1}^K \lambda_{ir} \, \lambda_{kr}, \quad i\ne k\] Por esta razón, podemos afirmar que las covarianzas no dependen en absoluto de las variables específicas, de hecho, basta con los factores comunes.

2.0.5 Comunalidad y especificidad

Propiedad 3:

Dado que los factores no son observables, se puede fijar arbitrariamente su media en 0my su varianza en 1, esto es, se consideran variables estandarizadas que están incorreladas entre sí, de modo que los pesos factoriales resultan ser las correlaciones entre las variables y los factores. Así, con las suposiciones previas, la varianza de la variable \(X_k\) es

\[V(X_k) \;= \; h_k^2 \;+\; \psi_k\]

En lo anterior, se encuentran las llamadas comunalidad y especificidad de \(X_k\).

Comunalidad:

\(h_k^2\) es la comunalidad de la variable \(X_k\) y representa la varianza compartida con las otras variables por medio de los factores comunes \(F\). Es la contribución del factor \(F_j\) a la varianza total. Está dada por:

\[h_k^2 \;=\; V\left(\sum\limits_{j=1}^J \lambda_{kj}\, F_j\right)\;=\; \sum\limits_{j=1}^J \lambda^2_{kj} \;=\; \lambda_k^T \, \lambda_k\]

donde \(\lambda_k\) es la \(k\)-ésima columna de \(\Lambda^T\):

\[\Lambda \;= \; \left(\begin{array}{cccccc} \lambda_{11} & \lambda_{12} & \cdots &{\color{DarkGreen} \lambda_{1j}} & \cdots & \lambda_{1J} \\ \lambda_{21} & \lambda_{22} & \cdots &{\color{DarkGreen} \lambda_{2j}} & \cdots & \lambda_{2J} \\ \vdots & \vdots & \cdots & {\color{DarkGreen} \vdots} &\ddots & \vdots \\ {\color{Red}\lambda_{k1} } & {\color{Red}\lambda_{k2}} & {\color{Red}\cdots} &{\color{Red} \lambda_{kj}} & {\color{Red}\cdots} & {\color{Red}\lambda_{kJ} } \\ \vdots & \vdots & \cdots & {\color{DarkGreen} \vdots} &\ddots & \vdots \\ \lambda_{K1} & \lambda_{K2} & \cdots & {\color{DarkGreen} \lambda_{Kj}} & \cdots & \lambda_{KJ} \\ \end{array}\right), \qquad \Lambda^T \;= \; \left(\begin{array}{cccccc} \lambda_{11} & \lambda_{21} & \cdots &{\color{Red} \lambda_{k1}} & \cdots & \lambda_{K1} \\ \lambda_{12} & \lambda_{22} & \cdots &{\color{Red} \lambda_{k2}} & \cdots & \lambda_{K2} \\ \vdots & \vdots & \cdots & {\color{Red} \vdots} &\ddots & \vdots \\ {\color{DarkGreen}\lambda_{1j} } & {\color{DarkGreen} \lambda_{2j}} & {\color{DarkGreen}\cdots} &{\color{Red} \lambda_{kj}} & {\color{DarkGreen}\cdots} & {\color{DarkGreen}\lambda_{KJ} } \\ \vdots & \vdots & \cdots & {\color{Red} \vdots} &\ddots & \vdots \\ \lambda_{1J} & \lambda_{2J} & \cdots & {\color{Red} \lambda_{kJ}} & \cdots & \lambda_{KJ} \\ \end{array}\right), \qquad {\color{Red} \lambda_k} \;= \; \left(\begin{array}{c} {\color{Red} \lambda_{k1}} \\ {\color{Red} \lambda_{k2}} \\ {\color{Red} \vdots} \\ {\color{Red} \lambda_{kj}} \\ {\color{Red} \vdots} \\ {\color{Red} \lambda_{kJ}} \\ \end{array}\right)\]

Especificidad:

La especificidad (o varianza única) y recoge la variabilidad no compartida con las otras variables. Es decir, es la varibailidad exclusiva de \(X_k\), o sea, la varianza que no es compartida por \(X_k\) con las otras variables. Está dada por:

\[\psi_k = V(\varepsilon_k)\]

2.0.6 Ejemplo gráfico

Consideremos la situación que se muetra en la Figura 2.2. En ella, para cada variable, la región sombreada se asocia con la comunalidad y la no sombreada con la especificidad.

**Comunalidad y especificidad**

Figure 2.2: Comunalidad y especificidad

2.0.7 Varianza retenida

La varianza retenida por todos los factores comunes o la vrianza explicada por todos los factores es:

\[H \;= \; \sum\limits_{k=1}^K h^2_k \]

2.0.8 Proporción de la participación de un factor

La proporción de la participación de un factor \(F_j\) en la comunalidad total es

\[\tilde{h}_k \; = \; \frac{h_k}{H}\]

2.0.9 Propiedades de la matriz de carga

Propiedad 4:

La matriz de carga \(\Lambda\) representa las covarianzas entre los factores y las variables observadas. Es decir, \[Cov (X, F^T) \;=\; \Lambda\]

Demostración de la propiedad 4:

Para demostrar esto, multipliquemos \(F^T\) por la derecha de la ecuación:

\[\tilde{X} \; := \; X \; - \; \mu \; = \; \Lambda F \; + \; \varepsilon ,\]

Y queda así:

\[\tilde{X} \, F^T \; = \; \Lambda F \, F^T \; + \; \varepsilon\, F^T\]

Al aplicar esperanza a ambos lados de la igualdad, se obtiene:

\[Cov (\tilde{X}, F^T) \;=\; E[\tilde{X}\, F^T] \; = \; \Lambda \, \underbrace{E(F\, F^T)}_{\;=\; 1} \; + \; \underbrace{ E(\varepsilon\, F^T)}_{\;=\; 0} \; = \; \Lambda\]

Propiedad 5:

En el resultado anterior, se tuvo en cuenta que las \(F_j\) están incorreladas entre sí y con las \(\varepsilon_k\), para todo \(j,k+1,\ldots,K\). Por otro lado, sabiendo que la varianza de \(X\) es \(\Sigma_X = \Sigma\), se puede demostrar que:

\[\begin{eqnarray} \Sigma &=& \Lambda \Lambda^T \; +\; \Psi \tag{2.2} \end{eqnarray}\]

donde \(\Psi\), es la matriz de varianza del vector aleatorio de las perturbaciones \(\varepsilon\).

Propiedad 6:

Si las variables originales se han estadarizados (media = 0, varianza=1), entonces, \(\Sigma = R\) (la matriz de correlaciones). Con ello, la ecuación (2.2) quedaría así:

\[\begin{eqnarray} R &=& \Lambda \Lambda^T \; +\; \Psi \tag{2.3} \end{eqnarray}\]

2.0.10 Soluciones factoriales

En el Análisis Factorial no existe una solución única para determinar la matriz de pesos. Es fácil ver que la ecuación (2.2) tiene infinita soluciones para \(\Lambda\), ya que, por ejemplo si \(M\) es una matriz ortogonal de orden \(J\), entonces

\[\begin{eqnarray*} X &=& \mu \;+\; \Lambda F \;+\; \varepsilon \\ &=& \mu \;+\; (\Lambda \,M)\, (M^T \, F) \; +\; \Omega \\ &=& \mu \;+\; \tilde{\Lambda} \, \big(\tilde{\Lambda} F\big) \; + \;\Omega \end{eqnarray*}\]

es también solución de (2.2). Observe que este nuevo modelo verifica las mismas propiedades que el anterior: tiene como factores \(\tilde{F} = \tilde{\Lambda} F\) y como matriz de pesos a \(\tilde{\Lambda} =\Lambda \,M\). En este caso, la matriz de covarianzas de las variables originales es

\[\Sigma \;=\; (\Lambda \,M)\, (\Lambda \, M)^T + \Psi \]

Ya que como \(MM^T = I\), la expresión anterior se reduce a \(\Sigma =; \Lambda \, \Lambda^T + \Psi\) como antes. De este modo se explica, de manera equivalente,la matriz de covarianzas de las variables originales.

Se trata entonces de seleccionar matrices ortogonales de manera que las variables originales exhiban un gran contraste en un factor y no en otros, lo que proporcionaría interpretación a los factores en términos de estas variables con carga máxima sobre ellos. En resumen, puede ser que la solución sea más interpretable mediante el uso de alguna matriz ortogonal, lo que lleva al concepto de rotación de los factores.

2.0.11 Rotación de los ejes factoriales

Una estrategia para lograr esto es elegir una matriz ortogonal \(P\) que maximice la varianza por filas de los cuadrados de los elementos de la matriz \(\Lambda\). La elección de los cuadrados se justifica por el interés en los elementos pequeños y grandes de \(\Lambda\). En términos generales, el propósito primordial al llevar a cabo una rotación es buscar una estructura más simple. Las condiciones que se deben satisfacer son:

  1. Cada fila de la matriz factorial de pesos debe incluir al menos un elemento nulo.

  2. Cada columna de la matriz factorial de pesos debe contener al menos \(j\) elementos nulos.

  3. Cada par de columnas de la matriz factorial de pesos debe contener múltiples variables con pesos nulos en una columna pero no en la otra.

  4. Si hay más de cuatro factores, cada par de columnas de la matriz factorial de pesos debe contener un número considerable de variables con pesos nulos en ambas columnas.

  5. Por el contrario, si hay más de cuatro factores, en cada par de columnas de la matriz factorial de pesos solo un número reducido de variables debe tener pesos distintos de cero.

Cuando se logra una configuración sencilla, las variables observadas están agrupadas en conjuntos mutuamente excluyentes, de manera que las ponderaciones son elevadas en algunos factores y reducidas en los demás.

2.0.12 Tipos de rotaciones

Hay dos tipos posibles de rotaciones: ortogonales y oblicuas. La principal ventaja de las rotaciones ortogonales es su simplicidad, ya que los pesos representan las correlaciones entre los factores y las variables, sin embargo esto no se cumple en el caso de las rotaciones oblicuas.

2.0.13 Rotaciones ortogonales

En este caso, los ejes de rotación forman un ángulo de 90 grados (véase la figura 2.3).

**Rotación ortogonal**

Figure 2.3: Rotación ortogonal

Entre las rotaciones ortogonales se encuentran dos tipos principales:

Rotación Varimax.

Fue propuesta por Kaiser (1958), y trata de que los factores tengan unas pocas saturaciones altas y muchas casi nulas en las variables. Esto hace que haya factores con correlaciones altas con un número pequeño de variables y correlaciones nulas en el resto, quedando así redistribuida la varianza de los factores. En este caso, se maximizan las varianzas de las columnas de \(\Lambda\), es decir la expresión (llamado criterio varimax):

\[V \;= \; \frac{1}{K^2} \sum_{j=1}^J \left[K \sum_{i=1}^K (\lambda_{ij})^4 - \left(\sum_{i=1}^K (\lambda_{ij})^2 \right)^2 \right]\]

En resumen, en el método de rotación varimax se busca maximizar las ponderaciones a nivel del factor; es decir, se espera que cada ítem o variable sea representativo en solo uno de ellos, con el fin de minimizar al máximo el número de variables dentro de cada factor.

Rotación Quartimax.

Trata que una variable dada esté muy correlacionada con un factor y muy poco correlacionada con el resto de factores. Se usa menos frecuentemente que la anterior. Para este caso, en vez de maximizar la varianza de las columnas, se maximiza la de las columnas. Es decir, la expresión (llamado criterio quartimax)::

\[Q \;= \; \frac{1}{J^2}\sum_{i=1}^K \left[J \sum_{j=1}^J (\lambda_{ij})^4 - \left(\sum_{j=1}^J (\lambda_{ij})^2 \right)^2 \right]\]

En resumen, en el caso de la rotación quartimax, la maximización de las ponderaciones se realiza a nivel de la variable, lo que busca minimizar el número de factores que ayude a explicar cada una de ellas.

Rotación orthomax

Se ha demostrado el hecho de que quartimax y varimax son en realidad una fórmula como se muestra a través del criterio ortomax: \[V \;= \; K\, Q \;-\; cW\] donde:

  • \(W\) es la suma de los cuadrados de las varianzas de los factores (después de la rotación).

  • \(c=0\) para quartimax (por lo general, \(K\) se remuesve de la fórmula).

  • \(c=1\) para varimax.

Se investigó con datos de análisis factorial en busca de un valor mayor para el coeficiente \(c\) con el fin de resaltar el lado varimaxiano y no quartimaxiano del criterio.

En general, el coeficiente \(c\) puede tomar cualquier valor. Cuando se acerca a \(+\infty\), produce factores de varianzas completamente iguales (así que se puede usar si ese es el objetivo). Cuando se acerca a \(-\infty\), se obtiene cargas iguales a las que obtendríamos si rotáramos nuestra matriz de cargas a sus componentes principales mediante PCA (sin centrar las columnas). Por lo tanto, el valor de \(c\) es el parámetro que estira la dimensión “gran factor general vs. todos los factores con igual fuerza”.

Rotación equamax.

Con la rotación equamax se hace una combinación de las dos técnicas anteriores; por consiguiente, la maximización de las ponderaciones se hace tanto a nivel del factor como a nivel de la variable. En este caso, se encontró que \(c=\frac{m}{2}\) a menudo produce factores más interpretables que después de rotaciones varimax o quartimax. El método equamax está definido por \[E \;= \; K\, Q \;-\; \frac{J}{2}\,W\]

La justificación para hacer que \(c\) dependa de \(J\) fue que, a medida que el número de factores aumenta mientras que \(K\) no, la proporción esperada a priori de variables que serán cargadas por cualquier factor disminuye; y para compensarlo, deberíamos aumentar \(c\).

Rotación parsimax.

Un enfoque adicional, similar a equamax pero aún más audaz en su búsqueda de simplicidad, se denomina parsimax (maximizando la parsimonia). En una búsqueda similar para “mejorar” aún más el criterio genérico, se llegó a proponerse el llamado criterio parsimax. Aquí, el valor del coeficiente \(c\) depende tanto de \(J\) como de \(K\) y está definido como:

\[c = \frac{K\, (J\;-\; 1)}{K\; +\; J\; -\; 2}\]

Rotación facpars (factor parsimony).

Cuando se hace \(c=K\).

2.0.14 Rotaciones oblicuas

En este caso, los ejes de rotación no forman un ángulo de 90 grados (véase la figura 2.4).

**Rotación oblicua**

Figure 2.4: Rotación oblicua

Entre las rotaciones oblicuas, la más empleada son: oblimín y promax.

Rotación Oblimín.

Con esta rotación se trata de hallar una estructura básica sin importar que las rotaciones sean ortogonales, lo cual implica que las saturaciones ya no indican las correlaciones entre los factores y las variables. La rotación oblimin permite establecer relaciones jerárquicas entre los factores. Por esta razón, se introduce un parámetro para regular el grado de correlación (es decir, el grado de inclinación) \(\delta\) entre los factores, con valores preferentemente entre \(-0.5\) y \(0.5\). Un valor de \(\delta\) de cero da las rotaciones más oblicuas. En cualquier caso, la rotación de los factores siempre es objeto de debate, ya que se pueden seleccionar los ejes que resulten más convenientes. No obstante, se puede concebir que una rotación es simplemente un medio para obtener ejes que faciliten la descripción de los puntos de la muestra de manera más sencilla.

Rotación promax.

En cuanto a la rotación promax, modifica los resultados de una rotación ortogonal hasta crear una solución con cargas factoriales lo más próximas posible a la estructura ideal. Para ello, eleva las cargas factoriales obtenidas en una rotación ortogonal a una determinada potencia (conocida como \(\kappa\)). En general, los valores de \(\kappa\) se encuentran entre 2 y 4, pero, a mayor potencia, mayor oblicuidad en la solución (el valor de \(\kappa\) más común es de 4).

2.0.15 Número máximo de factores

El máximo número de factores en esta técnica está restringido por el tamaño de la matriz de correlación derivada de las coordenadas del vector aleatorio \(X\). Si la matriz de correlación \(\Sigma_X\) tiene dimensiones \(K \times K\), entonces el número máximo de factores es \(\frac{K(K-1)}{2}\). Es importante tener en cuenta que la matriz \(\Sigma\) es simétrica.

2.0.16 Estimación del modelo

Dos objetivos importantes en el procedimiento son los siguientes:

  • Determinar el número de factores deseado.

  • Obtener una estimación de \(\Lambda\).

Para lograrlo, los métodos más utilizados son:

  1. Método de componentes principales. Es el procedimiento a través del cual se determinan las variables latentes ortogonales que capturan la mayor cantidad de variabilidad de las variables observadas, de manera similar a como se realiza en el método de componentes principales, pero aplicado a la matriz de coeficientes de correlación. La varianza explicada por el factor latente \(j\)-ésimo se define como:

\[V(F_j) = \sum_{k=1}^K \lambda_{kj}^2,\]

donde \(\lambda_{1j} , \ldots, \lambda_{Kj}\), es la j-ésima columna de la matriz de carga \(\Lambda\). La Varianza explicada por el primer factor debe ser mayor o igual a la explicada por el segundo, y así sucesivamente, hasta llegar al \(J\)-ésimo factor.

  1. Método del factor principal (Análisis factorial clásico).

  2. Método de máxima verosimilitud. Supondremos que un estimador para el modelo poblacional es:

    \[\widehat{\Sigma} \;= \;\widehat{\Lambda}\,\widehat{\Lambda}^T \; +\; \widehat{\Psi},\] con:

  • \(\widehat{\Sigma}\), como estimador de la matriz de covarianza \(\Sigma\).

  • \(\widehat{\Lambda}\) estimador de la matriz \(\Lambda\).

  • \(\widehat{\Psi}\) un estimador de la matriz \(\Psi\).

2.0.17 Prueba de independencia

Uno de los propósitos del análisis factorial consiste en obtener un conjunto reducido de factores que sean capaces de replicar y proporcionar información adecuada sobre las variables originales. Para que el empleo de este método sea justificado, es fundamental que exista una correlación significativa entre las variables originales. De lo contrario, carecería de sentido llevar a cabo el análisis factorial. Por lo tanto, antes de aplicar dicho análisis a un conjunto de variables, es imprescindible verificar la presencia de una correlación elevada entre las variables originales. A continuación se describen algunas estrategias para realizar esta verificación.

Estrategia 1.

Determinar si el número de correlaciones en la matriz que exceden 0.3 es alto. Algunos consideran correlaciones de 0.5 o más como significativas.

Estrategia 21.

La prueba de esfericidad de Bartlett asume normalidad multivariada. Verificar si la matriz de correlación es la matriz identidad o no lo es, o equivalentemente, si el determinante de esta matriz es igual a 1. Si la matriz de correlación es la matriz identidad o si su determinante es uno, no tiene sentido realizar el análisis factorial.

Estrategia 3.

El coeficiente de correlación parcial entre variables originales debe ser bajo si comparten factores comunes. Estos coeficientes son estimaciones de correlaciones entre factores únicos, por lo tanto, si las variables están correlacionadas, se esperan valores pequeños. Los coeficientes de correlación parcial miden la dependencia entre variables, controlando el efecto de otras.

Si denotamos con \(a_{i\, k}\) el coeficiente de correlación parcial entre las variables \(X_i\) y \(X_k\), entonces se puede calcular como:

\[a_{i\,k} \;=\; -\frac{D_{ik}}{\sqrt{D_{ii}\, D_{kk}}} \;=\; -\frac{\tilde{S}_{ik}}{\sqrt{\tilde{S}_{ii}\, \tilde{S}_{kk}}},\] donde \(D\) es el determinante de la matriz de correlaciones simples entre las variables originales, \(D_{ik}\) es el determinante de la submatriz obtenida al eliminar el elemento de la fila \(i\) y columna \(k\) en la matriz de correlaciones simples, y \(\tilde{S}_{ik}\) es el elemento en la posición \((i, k)\) en la inversa de la matriz de varianza-covarianza \(S=\widehat{\Sigma}\).

Estrategia 4.

El coeficiente de correlación múltiple al cuadrado entre una variable y todas las demás indica una estructura de correlación si es alto. Si esto ocurre para todas las variables (o para un alto porcentaje de ellas), es apropiado realizar el análisis factorial. Este coeficiente mide la proporción de la varianza de la variable dependiente explicada por un conjunto de variables independientes.

Si denotamos la variable dependiente como \(X_i\) y las variables independientes como \(X_k\), para \(k = 1,\ldots, K\) y \(i \ne j\), \(i = 1, \ldots, K\), entonces este coeficiente, \(R_{i\, \bullet}\), se puede calcular como:

\[R_{i\, \bullet} \;=\; 1-\frac{R}{R_{ii}} \;=\; 1 \;-\; \frac{1}{S_{ii}\, \tilde{S}_{ii}},\] donde \(S_{ii}\) y \(\tilde{S}_{ii}\) son los elementos en la posición \((i, i)\) de las matrices de varianza-covarianza y su inversa, respectivamente.

Estrategia 5.

El índice Kaiser-Meyer-Olkin (KMO) se utiliza para determinar si las variables están lo suficientemente correlacionadas como para realizar un análisis factorial.

En general, es una medida de la comparación de los coeficientes de correlación observados con los coeficientes de correlación parciales de las variables originales. Más específico, es un cociente entre las correlaciones observadas y las correlaciones parciales.La fórmula es la siguiente:

\[KMO \;=\; \frac{\sum\limits_{i=1}^K \, \sum\limits_{j=1}^K r_{ij}^2}{\sum\limits_{i=1}^K \sum\limits_{j=1}^K r_{ij}^2 \; + \; \sum\limits_{i=1}^K \sum\limits_{j=1}^K a_{ij}^2}\]

donde:

  • \(r_{ik}\) es el coeficiente de correlación observado entre las variables \(X_i\) y \(X_k\).

  • \(a_{ik}\) es el coeficiente de correlación parcial entre las variables \(X_i\) y \(X_k\), controlando el efecto de otras variables.

  • \(K\) es el número total de variables en el análisis factorial.

El índice KMO varía entre 0 y 1. La medida puede ser interpretada con las siguientes directrices:

  • Si \(KMO \geq 0.8\): perfecto para realizar un análisis factorial (AF).

  • Si \(KMO\) está entre 0.6 a 0.7: adecuado. Hay correlación y, por lo tanto, el AF es apropiado.

  • Si \(KMO\) está entre 0.4 a 0.5: aceptable. Se puede implementar un AF. Sin embargo se sugiere verificar el estado de las variables.

  • \(KMO\) menores a 0.4: no se recomienda un AF.

Es decir, un valor más cercano a 1 indica que las variables están bien correlacionadas y que el análisis factorial es apropiado. Un valor menor que 0.5 sugiere que las variables no están lo suficientemente correlacionadas y que el análisis factorial puede no ser apropiado.

Estrategia 6.

El índice MSA (Minimum Sample of Adequacy) es similar al anterior, pero el análisis se hace por variables. Se utiliza para determinar si una variable debe ser excluida del análisis factorial. El índice MSA se calcula como la proporción de la varianza explicada por las correlaciones entre las variables originales en comparación con la varianza total, teniendo en cuenta las correlaciones parciales. La fórmula es la siguiente:

\[MSA_k \;=\; \frac{\sum\limits_{i=1}^K r_{ik}^2}{\sum\limits_{i=1}^K r_{ik}^2 \;+\; \sum\limits_{i=1}^K a_{ik}^2} \]

También toma valores entre 0 y 1. Un valor alto de MSA indica que la variable i está bien relacionada con las otras variables y es adecuada para el análisis factorial. Por otro lado, un valor bajo sugiere que la variable i no está bien relacionada y podría considerarse para ser excluida del análisis factoria. En la práctica se sugiere que, si \(MSA_k < 0.5\), la variable debe ser excluida.

Observaciones.

El MSA o KMO aumenta conforme:

  • Aumenta el tamaño muestral.

  • Aumenta las correlaciones.

  • Aumenta el número de variables.

  • Desciende el número de factores.

2.0.18 Test de esfericidad

Si los datos siguen una distribución normal, esto permite formular una hipótesis sobre la estructura de la matriz \(\Sigma_X\) y determinar cuántos factores comunes deben retenerse. En este caso, las hipótesis nula y alternativa serían respectivamente:

\[H_0 :\Sigma = \Lambda \Lambda^T \;+\; \Psi\qquad \mbox{versus} \qquad H_1 : \Sigma \;\mbox{es semidefinida positiva}\]

Aquí: \(\Lambda\) es una matriz de \(K \times J\). Por lo tanto, si no se rechaza la hipótesis nula, el número de factores a retener sería \(J\). No es complicado demostrar que bajo el supuesto de normalidad multivariada, al tomar una muestra aleatoria de tamaño \(n\) de esta población, el estadístico

\[F \;= \; n\left[ln|\Sigma| \;- \; ln|S| \;+ \; tr(\Sigma^{-1} S) \;- \; K\right],\]

tiene una distribución aproximadamente chi-cuadrado con \(v = \frac{1}{2}(K-J)(K-J-1)\) grados de libertad.

3 Modelo con variables latentes oblicuas

Cuando hay correlación entre los factores comunes, el modelo factorial se denomina modelo factorial oblicuo. Por esta razón, la correlación entre dos factores \(F_i\) y \(F_j\) es distinto de cero, para algún \(i \ne j\), \(i, j = 1, \ldots, J\). Por consiguiente, el modelo factorial para el vector aleatorio \(X\) sería: \[ X \;= \; \Lambda F \;+\; \Psi, \]

Observe que el modelo tiene una escritura similar al modelo factorial ortogonal (recordemos que los factores ahora están asociados), pero hay una diferencia significativa en la estructura del modelo para la matriz de varianza del vector aleatorio \(X\). En este caso, viene dado por \[ \Sigma_X \;= \; \Lambda \Theta \Lambda^T \;+ \; \Psi, \]

donde $ $ es la matriz de coeficientes de correlación del vector aleatorio \(F\). Es importante destacar que si, en la ecuación anterior, $ = I_K $ , se obtiene la ecuación correspondiente en el modelo factorial ortogonal.

4 Ejercicios

Pendiente

Bibliografía

Consultar el documento RPubs :: Análisis multivariado (bibliografía).

 

 
If you found any ERRORS or have SUGGESTIONS, please report them to my email. Thanks.  
