hllinas2023

1 ¿Qué son los SEM?

  1. Los SEM representan una familia de modelos estadísticos multivariados que posibilitan la estimación de los efectos y relaciones entre múltiples variables.

  2. Surgieron como respuesta a la necesidad de brindar una mayor flexibilidad a los modelos de regresión.

  3. Son menos restrictivos al permitir la inclusión de errores de medición tanto en las variables dependientes como en las independientes.

  4. Estos modelos combinan elementos de la regresión con técnicas de análisis factorial.

  5. De esta manera, posibilitan la representación de efectos directos e indirectos entre las variables.

  6. Desde el punto de vista matemático, son modelos con un alto grado de complejidad para la estimación de los parámetros correspondientes.

  7. SEM no es simplemente una técnica de estimación para un modelo específico.

  8. SEM representa una manera distinta de concebir, formular y estimar un modelo.

2 ¿Para qué sirven los SEM?

  1. Elaborar modelos teóricos que faciliten una comprensión más profunda de la realidad y de los fenómenos complejos que se observan.

  2. Evaluar en qué medida los datos respaldan un modelo teórico que describe múltiples relaciones de dependencia entre las variables.

  3. Aplicar métodos estadísticos para analizar las relaciones entre un conjunto de variables, investigando los posibles efectos mediadores y espurios de ciertas variables.

  4. Examinar los constructos latentes, que son variables que no pueden ser directamente observadas o medidas, sino que se infieren a partir de diversos indicadores observables.

3 Antecedentes

  1. En 1934, el biometrista Sewall Wright introdujo el concepto de análisis de trayectoria (path model), aplicándolo al estudio de las relaciones de tamaño en mediciones óseas.

  2. Posteriormente, sociólogos como Blalock (1964, 1971), Boundon (1965) y Duncan (1966), entre otros, reconocieron su utilidad como herramienta para analizar datos no experimentales, lo que resultó en un redescubrimiento y su difusión en las ciencias sociales.

  3. En la década de 1970, estadísticos como Jöreskog (1973), Keesling (1972) y Wiley (1973) desarrollaron el primer modelo general de ecuaciones estructurales, conocido como LISREL (Linear Structural Relations) o modelo JKW, que integraba variables latentes y observadas.

  4. Posteriormente, Jöreskog refinó LISREL y desarrolló métodos para trabajar con diferentes tipos de datos, como transversales, longitudinales, multi-grupo y multinivel.

  5. Los seguidores de Jöreskog han hecho importantes aportaciones en diversos aspectos:

    • Sörbom (1974) amplía el modelo multi-grupo con medias en las variables latentes.

    • Muthén (1977) introduce técnicas para incluir variables observadas categóricas.

    • Hägglund (1985) contribuye con el enfoque de mínimos cuadrados en dos etapas (two-stages least-squares).

    • Quiroga (1992) lleva a cabo estudios de robustez utilizando correlaciones policóricas para abordar desviaciones del supuesto de normalidad.

    • Yang-Wallentin (1997) desarrolla métodos para estimar relaciones no lineales.

    • Los progresos más recientes incluyen extensiones para datos provenientes de muestras complejas, modelos lineales generalizados y análisis de series temporales.

4 ¿Softwares para SEM?

  1. LISREL (acrónimo de Linear Structural Relations), desarrollado por Jöreskog y Sörbom desde la década de 1970 hasta 2015. Fue el primer software para SEM. Originalmente basado en comandos, sus versiones más recientes incluyen una interfaz gráfica. Es distribuido por Scientific Software International (SSI).

  2. EQS (acrónimo de Equations) de Bentler, disponible desde 1985 hasta 2006. Fue creado específicamente para modelos SEM y cuenta con versiones para Windows y Linux.

  3. AMOS (Analysis of Moment Structures) de Arbuckle, desarrollado entre 1995 y 2009 para SPSS Inc. Puede usarse como una aplicación independiente o como un módulo de SPSS. También ofrece una versión gratuita para estudiantes.

  4. MPLUS de Muthén y Muthén, disponible desde 1998 hasta 2010. Incluye métodos automáticos para trabajar con variables de diferentes escalas y permite combinar Análisis Factorial Exploratorio (EFA) con SEM (ESEM). Además, dispone de una versión demo para estudiantes.

  5. MX (acrónimo de Matrix) de Neale, Boker, Xie y Maes, lanzado en 2003. Es un software libre para análisis multivariado compatible con varios sistemas operativos (Windows, Linux, Apple OSX y AIX). Una versión de código abierto ha sido desarrollada como un paquete de R llamado OpenMx.

  6. Otros: CALIS/TCALIS (módulo de SAS/STAT), RAMONA (módulo de SYSTAT), SEPATH (módulo de STATISTICA), SEM y lavaan (paquetes de R), STATA y MATLAB.

5 La causalidad en SEM

  1. Una característica destacada de estos modelos es la capacidad de representar el efecto causal entre variables.

  2. También es posible estimar los parámetros asociados a estos efectos, pero la capacidad de estimarlos no demuestra causalidad.

  3. La existencia de cualquier relación causal entre las variables debe estar respaldada por la fundamentación teórica del modelo y no solo por su estimación a partir de los datos.

  4. Estos modelos no prueban la causalidad, solo permiten seleccionar hipótesis causales relevantes, descartando aquellas que no están respaldadas por la evidencia empírica.

  5. Se especifican una serie de relaciones y luego se evalúa cuáles de estas relaciones están representadas por los datos.

6 Tipos de variables en SEM

  1. Variables manifistas (observadas, indicadoras): son variables observables, generalmente ítems o preguntas en un cuestionario.

  2. Variables latentes (no observadas): son constructos teóricos que solo pueden medirse indirectamente a través de variables observables que actúan como sus manifestaciones. Similar al análisis factorial, se pueden utilizar múltiples medidas para representar un constructo, lo que ayuda a controlar el error de medición específico de cada variable.

  3. Variables de error: representan tanto los errores asociados a la medición de una variable como aquellas variables no consideradas en el modelo que pueden influir en la medición de una variable observable. Al igual que las variables latentes, no son observables directamente.

  4. Variables exógenas: Son variables que influyen en otras variables del modelo pero no son afectadas por ninguna otra variable. Son similares a las variables independientes en un modelo de regresión.

  5. Variables endógenas: Son variables que son influenciadas por otras variables dentro del modelo. Corresponden a las variables dependientes en los modelos de regresión. Cada variable endógena debe estar acompañada de un término de error.

  6. Variables mediadoras: Son las variables endógenas que a su vez influyen en otras endógenas.

  7. Variables de agrupación o moderadoras: Son variables categóricas que indican la pertenencia de las observaciones a diferentes subpoblaciones. Se utilizan principalmente en análisis de comparaciones entre grupos.

7 Escala de las variables latentes

7.0.1 Escala: explicación

  1. Como las variables latentes (LVs) no se observan directamente, no tienen unidades de medida inherentes.

  2. Por lo tanto, un modelo de variables latentes (LVM) no está identificado a menos que se restrinjan algunas estimaciones de parámetros para definir la escala de la variable latente.

  3. Estos diferentes métodos de escalamiento producen valores distintos para los parámetros del modelo, pero no deberían afectar el ajuste del modelo a los datos.

7.0.2 Escala: métodos

Hay tres métodos comunes para establecer esta escala:

  1. Variable latente estandarizada.

  2. Variable marcador.

  3. Codificación de efectos.

A continuación, explicaremos brevemente cada uno de ellos.

7.0.3 Escala: variable latente estandarizada

  1. Este método establece la varianza de la variable latente en 1.0, convirtiéndola así en una variable estandarizada (similar a una puntuación \(Z\)).

  2. Si las variables indicadoras también están estandarizadas, las cargas pueden interpretarse igual que un coeficiente de regresión estandarizado:

  • El número de desviaciones estándar que cambia la variable manifiesta (MV) cuando la variable latente aumenta en una desviación estándar.
  1. Además, si hay más de una variable latente, la covarianza entre ellas se convierte en una correlación.

7.0.4 Escala: variable marcador

  1. Este método implica restringir una carga factorial de cada variable latente a un valor arbitrario (usualmente 1.0).

  2. La variable indicadora cuya carga está restringida se conoce como la variable marcador.

  3. Este método define la varianza de la variable latente usando la variable marcador.

7.0.5 Escala: codificación de efectos

  1. Este método estima todas las cargas, pero impone que las cargas de una variable latente determinada promedien 1.0.

  2. De manera equivalente, que su suma sea igual al número de variables indicadoras únicas.

8 Tipos de relaciones entre variables

En un SEM, se pueden definir varios tipos de relaciones entre variables. A continuación se describen estos tipos de relaciones.

8.0.1 Covariación

Se refiere a la relación entre dos variables que varían juntas, pero sin implicar causalidad. Indica que cuando una variable cambia, la otra también lo hace, pero no necesariamente porque una cause a la otra.

Ejemplo.

La relación entre la cantidad de helados vendidos y el número de personas que van a la playa. Estas dos variables covarían porque ambas aumentan durante el verano, pero una no causa directamente a la otra. Véase la figura 8.1.

**Covariación**

Figure 8.1: Covariación

8.0.2 Causalidad:

Se refiere a una relación en la que un cambio en una variable provoca un cambio en otra. En SEM, la causalidad implica una dirección de influencia.

Ejemplo.

El nivel de educación y el salario. Una mayor educación (variable independiente) puede causar un aumento en el salario (variable dependiente). Véase la figura 8.2.

**Causalidad**

Figure 8.2: Causalidad

8.0.3 Relación espuria

Se da cuando dos variables parecen estar relacionadas, pero esta relación es causada por una tercera variable que afecta a ambas. La relación entre las dos variables no es directa sino que es mediada por esta tercera variable.

Ejemplo.

El tamaño del pie y la habilidad para leer en niños. Aunque pueden parecer relacionados, ambos están influenciados por la edad del niño, que es la verdadera causa subyacente de la relación. Véase la figura 8.3.

**Relación espuria**

Figure 8.3: Relación espuria

8.0.4 Causalidad directa

Ocurre cuando una variable directamente afecta a otra sin la intervención de otras variables. En el diagrama de SEM, esto se representa con una flecha que va directamente de la variable causa a la variable efecto.

Ejemplo.

El tenre un empleo (variable independiente) incrementa los ingresos (variable dependiente). Véase la figura 8.4.

**Causalidad directa**

Figure 8.4: Causalidad directa

8.0.5 Causalidad indirecta

Se refiere a una situación en la que una variable afecta a otra a través de una o más variables intermedias (mediadoras). En un diagrama SEM, esto se muestra como una cadena de flechas que pasan por una o más variables mediadoras antes de llegar a la variable objetivo.

Ejemplo.

La educación afecta los ingresos a través del empleo. La educación (variable independiente) aumenta la probabilidad de obtener un empleo (variable mediadora), lo cual a su vez incrementa los ingresos (variable dependiente). Véase la figura 8.5.

**Causalidad indirecta**

Figure 8.5: Causalidad indirecta

8.0.6 Causalidad recíproca

Se presenta cuando dos variables se afectan mutuamente. Cada variable es a la vez causa y efecto de la otra. En un diagrama SEM, esto se representa con flechas bidireccionales entre las dos variables.

Ejemplo.

Estrés y problemas de salud. El estrés puede causar problemas de salud, y a su vez, los problemas de salud pueden aumentar el nivel de estrés. Esta relación es bidireccional. Véase la figura 8.6.

**Causalidad recíproca**

Figure 8.6: Causalidad recíproca

8.0.7 Diagramas estructurales

Como ejemplo, véase la figura 8.7.

**Ejemplo de un diagrama estructural**

Figure 8.7: Ejemplo de un diagrama estructural

Observaciones.

  1. Los efectos directos se indican con flechas rechas.

  2. El final de la flecha es la variable dependiente.

  3. Las estimaciones delos parámetros siempre aparecen sobre la flecha correspondiente.

  4. Cualquier variable que sea influenciada por otra variable del modelo debe tener un término de error.

  5. Algunos programas también suelen mostrar:

    • Junto a cada variable, su varianza.

    • En el caso de las variables dependientes, la proporción de varianza explicada correspondiente.

9 Componentes de un SEM

9.0.1 Tipos

  1. Son dos: Modelo de medida y modelo estructural. Más adelante, se explica cada uno de ellos.

  2. Al sustituir en el modelo de medida las relaciones de covarianza por las relaciones causales de la parte estructural, se obtiene el modelo estructural completo, también denominado modelo de regresión estructural.

9.0.2 Modelo de medida

  1. Compuesto por las relaciones entre las variables indicadoras del modelo y sus constructos latentes.

  2. Así como por las relaciones de covarianza entre las variables latentes.

  3. Cada constructo latente y sus indicadores forman una parte del modelo de medida.

  4. También conocido como instrumento de medida y es el modelo propuesto para “medir” las variables latentes.

  5. Este modelo corresponde a un análisis factorial confirmatorio,en el que cada variable latente se asocia con un grupo de variables observadas, y además se permite que las variables latentes estén correlacionadas entre sí.

  6. Véase la figura 9.1.

**Modelo de medida**

Figure 9.1: Modelo de medida

9.0.3 Modelo estructural

  1. Se refiere a las interrelaciones causales propuestas entre las variables latentes del modelo.

  2. Es la parte del modelo que emplea el análisis de caminos (path analysis), pero con variables alatentes.

  3. Es similar a un análisis de regresión.

  4. Véase la figura 9.2.

**Modelo estructural**

Figure 9.2: Modelo estructural

9.0.4 Modelo estructural completo

Véase la figura 9.3.

**Modelo estructural completo**

Figure 9.3: Modelo estructural completo

10 Otros tipos de modelos

10.0.1 Modelo factorial exploratorio vs confirmatorio

  1. El modelo de variables latentes (LVM) crea las variables latentes (LVs) empleadas en el modelo estructural.

  2. Cuando un LVM se examina sin un modelo estructural, se conoce ocasionalmente como análisis factorial confirmatorio (CFA).

  3. Si no se tuviera una estructura hipotética para el modelo de variables latentes, se trataría de un análisis factorial exploratorio (EFA).

  4. Véase la figura 10.1.

**Modelo factorial exploratorio vs confirmatorio**

Figure 10.1: Modelo factorial exploratorio vs confirmatorio

10.0.2 Modelo formativo vs reflectivo

  1. Existen dos tipos de variables latentes: reflectivas y formativas.

  2. Se considera que las variables latentes reflectivas causan la covariación de otras variables.

  3. Las variables latentes formativas son el resultado de la covariación de otras variables (similar a un modelo de regresión).

  4. Véase la figura 10.2.

**Modelo formativo vs reflectivo**

Figure 10.2: Modelo formativo vs reflectivo

10.0.3 Modelos de segundo orden

Véase la figura 10.3.

**Modelos de segundo orden**

Figure 10.3: Modelos de segundo orden

11 Procedimiento para ejecutar un SEM

11.0.1 Etapa 1: Validación del modelo de medida

  1. Implica realizar un Análisis factorial Confirmatorio (AFC), proponiendo los indicadores de cada variable latente y evaluando en forma conjunta la bondad de ajuste de los instrumentos de medida empleados para cada factor.

  2. Significa reemplazar los efectos directos e indirectos del componente estructural propuestos según la teoría por relaciones de covarianza entre las variables latentes.

  3. Si el ajuste es rechazado se aplican herramientas de reespecificación.

11.0.2 Etapa 2: Ajuste del modelo completo de ecuaciones estructurales

  1. Es el ajuste del SEM incorporando las modificaciones de la etapa anterior.

  2. Incluye la comparación con otros modelos alternativos que difieran en la parte estructural, si los hubiera, utilizando para esto contrastes de comparación de modelos.

12 Pasos en cada una de las etapas

Son los siguientes (cada uno se explicará más adelante):

  1. Especificación.

  2. Identificación.

  3. Evaluación de la calidad de la base de datos.

  4. Estimación de parámetros.

  5. Evaluación de la bondad de ajuste.

  6. Re-especificación del modelo.

Véase la figura 12.1.

**Pasos en cada una de las etapas**

Figure 12.1: Pasos en cada una de las etapas

13 Especificación

  1. El modelo se define con base en los conocimientos teóricos y antecedentes empíricos del tema estudiado.

  2. Se deben incluir únicamente las variables esenciales que cuenten con un fuerte respaldo teórico y empírico.

  3. Es crucial determinar las relaciones entre variables latentes e indicadoras, asumiendo que cualquier relación no especificada no existe.

  4. Es recomendable realizar un análisis factorial exploratorio (AFE) previo para validar o revalidar las escalas utilizadas en la medición de cada variable latente.

  5. Según la regla de Kenny (1979), el número de factores por factor debe ser: mínimo 2, 3 es bueno, 4 es óptimo, y 5 o más es excesivo, pero no se deben exceder los 20 factores para todo el SEM.

  6. En esta etapa se determina qué parámetros serán estimados y cuáles se mantendrán constantes.

  7. Además, se asume la forma de la distribución conjunta, usualmente una normalidad multivariada.

  8. Lo más común es diseñar el modelo utilizando un diagrama estructural.

  9. A partir de este gráfico, el software genera las ecuaciones del modelo automáticamente.

  10. La interfaz gráfica también permite añadir directamente en el diagrama las restricciones que se imponen habitualmente sobre los parámetros para los siguientes pasos del análisis.

14 Identificación

14.0.1 Identificación (definición)

Un modelo está identificado cuando todos y cada uno de sus parámetros pueden ser estimados de manera única a partir de la matriz de varianzas y covarianzas muestrales.

14.0.2 Identificación (condiciones)

Se deben cumplir las siguientes condiciones necesarias para la identificación:

Condición 1.

Si tenemos \(K\) variables observables, entonces, la cantidad de datos \(p\) (es decir, la cantidad de varianzas y covarianzas muestrales) debe ser suficiente para estimar el número de parámetros (\(q\)) del modelo. Esta es la regla clásica de conteo según la cual los grados de libertad deben ser mayores o iguales a cero: \[\text{Grados de libertad} \;=\; p - q \;=\; \frac{K(K + 1)}{2} - q \; \geq \; 0\]

Condición 2.

Debe definirse la escala de los errores (véase la figura 14.1):

  1. Los coeficientes de sus efectos directos sobre las indicadoras y las latentes endógenas se fijan en 1.

Condición 3.

También debe definierse la escala de los factores latentes. Las opciones habituales son fijar en 1 (véase la figura 14.1):

  1. La carga factorial asociada a una de las variables observadas (de referencia) de cada latente o

  2. La varianza de las variables latentes exógenas.

**Identificación (condiciones 2 y 3)**

Figure 14.1: Identificación (condiciones 2 y 3)

14.0.3 Identificación (observaciones)

  1. Que se haya identificado completamente el modelo de ecuaciones estructurales (SEM) no asegura que el modelo de medida también lo esté.

  2. Para los modelos de medida basados en análisis factorial confirmatorio (AFC) convencionales, donde cada indicador se asocia únicamente a un factor y los errores de medición no están correlacionados, es necesario cumplir con las siguientes reglas que se describen en la sección siguiente:

    • Regla de los tres indicadores.

    • Regla de los dos indicadores.

14.0.4 Identificación (Regla de los tres indicadores)

Si el modelo tiene una sola variable latente, debe incluir al menos tres indicadores (véase la figura 14.2).

**Identificación (regla de los tres indicadores)**

Figure 14.2: Identificación (regla de los tres indicadores)

14.0.5 Identificación (Regla de los dos indicadores)

Si el modelo incluye dos o más variables latentes, cada una de ellas debe tener al menos dos indicadores (véase la figura 14.3).

**Identificación (regla de los dos indicadores)**

Figure 14.3: Identificación (regla de los dos indicadores)

15 Evaluación de la calidad de la base de datos

En las siguientes secciones se van a proponer recomendaciones con respecto a los siguientes puntos:

  1. Tamaño de la muestra.

  2. Multicolinealidad.

  3. Valores extremos univariados y multivariados.

4.Normalidad multivariada.

15.0.1 Tamaño de la muestra

Se recomienda tener:

  1. Al menos 200 observaciones.

  2. Al menos 10 observaciones por cada variable observada.

15.0.2 Multicolinealidad

  1. Una colinealidad bivariada extrema (\(r > 0.85\)) y multivariada puede indicar la presencia de variables redundantes y que la matriz de correlación no sea definida positiva.

  2. Es importante examinar los coeficientes de correlación, así como el determinante y los autovalores de la matriz de correlación.

15.0.3 Valores extremos univariados y multivariados

  1. Se deben eliminar observaciones cuyos valores se desvíen más de 3 desviaciones estándar de la media.

  2. En el caso de valores extremos multivariados, se deben calcular las distancias de Mahalanobis y descartar las observaciones con distancias significativas al 1%.

15.0.4 Normalidad multivariada

  1. Se deben examinar los coeficientes de asimetría y curtosis para evaluar la normalidad univariada.

  2. Se consideran normales las variables cuyos coeficientes en valor absoluto sean menores a 3 y 10 respectivamente.

  3. Es importante aplicar pruebas de normalidad univariada (como la prueba conjunta de asimetría y curtosis) y algún test de normalidad multivariada (como el de Mardia). Lo más relevante es que se cumpla la curtosis multivariada.

15.0.5 Normalidad multivariada: comentario

  1. Si la distribución no es normal pero presenta mesocurtosis, las propiedades de los estimadores de máxima verosimilitud son equivalentes a las que se tienen bajo la hipótesis de normalidad.

  2. Sin embargo, si la curtosis difiere significativamente de la normal, estos estimadores son consistentes pero no eficientes asintóticamente.

  3. Lo anterior puede generar dificultades en las pruebas de significación individual de los parámetros y en la prueba de validez global del modelo.

16 Estimación de parámetros

16.0.1 Objetivos

  1. En los modelos de ecuaciones estructurales (SEM), el objetivo es ajustar las covarianzas entre las variables.

  2. En lugar de reducir la diferencia entre los valores pronosticados y los observados a nivel individual, se busca minimizar la discrepancia entre las covarianzas observadas en la muestra y las covarianzas previstas por el modelo estructural.

  3. Por esta razón, estos modelos también se conocen como modelos de estructura de covarianza (Covariance Structure Models).

16.0.2 Hipótesis fundamental

  1. La hipótesis principal sostiene que, si el modelo es preciso, la matriz de varianzas y covarianzas de la población puede ser representada de manera exacta mediante una combinación de los parámetros del modelo.

  2. Expresado en notación:

\[Ho:\; \Sigma \,=\, \Sigma(\theta)\]

  1. En la expresión anterior, \(\Sigma\) representa la matriz de varianzas y covarianzas de la población entre las variables observadas, y \(\Sigma(\theta)\) es la matriz de varianzas y covarianzas obtenida como una función de los parámetros contenidos en el vector \(\theta\).

17 Estimación: ejemplo

Consideremos el siguiente modelo de regresión:

\[ y \;=\; \beta x + \varepsilon\]

La matriz de varianzas y covarianzas entre \(X\) y \(Y\) es:

\[\Sigma \;= \; \begin{pmatrix} V(X)& Cov(X,Y)\\ Cov(X,Y) & V(Y) \end{pmatrix}\]

Aplicando propiedades de varianza y covarianza (y suponiendo que \(V(\varepsilon)=\sigma^2\)) se puede demostrar que:

\[Cov(X,Y) \;=\; \beta \,V(X), \qquad V(Y) \;=\; \beta^2\, V(X) \;+\; V(\varepsilon)\;=\; \beta^2\, V(X) \;+\; \sigma^2\]

Al reemplazar estas expresiones en la matriz de varianzas y covarianzas poblacional, se puede expresar en términos de los parámetros del modelo, obteniendo así la matriz implícita de varianzas y covarianzas:

\[\Sigma(\theta) \;= \; \begin{pmatrix} V(X) & \beta \,V(X)\\ \beta \,V(X) & \beta^2\, V(X) \;+\; \sigma^2 \end{pmatrix}, \qquad \theta=(\beta, \sigma^2)^T\]

La estimación de los parámetros se lleva a cabo buscando maximizar la precisión del modelo. Para lograr esto, se intenta reducir al mínimo las diferencias entre las varianzas y covarianzas observadas, \(S\), y las que el modelo reproduce, \(S\big(\widehat{\theta}\big)\)

18 Estimación: métodos

18.0.1 Algunos métodos de estimación

Algunos de los métodos que explicaremos en secciones siguientes, son:

  1. Máxima verosimilitud (ML).

  2. Mínimos cuadrados no ponderados (ULS).

  3. Mínimos cuadrados generalizados (GLS).

  4. Mínimos cuadrados ponderados (WLS) o de distribución asintóticamente libre (ADF).

18.0.2 Máxima verosimilitud (ML)

  1. Es la mejor opción (por su insesgadez y eficiencia) bajo la suposición de normalidad multivariada y es bastante robusta ante pequeñas desviaciones.

  2. Si la falta de normalidad es severa, se recomiendan errores estándar robustos (Quasi-Maximum Likelihood, Huber-White) o bootstrap.

18.0.3 Mínimos cuadrados no ponderados (ULS).

  1. Similar a OLS en regresión (Ordinary Least Squares o Mínimos Cuadrados Ordinarios), pero asume normalidad.

  2. No necesita una matriz de covarianzas definida positiva.

  3. Produce estimadores insesgados, aunque no tan eficientes como los de ML.

  4. Requiere que todas las variables estén en la misma escala.

  5. Se utiliza para obtener una estimación preliminar (valores iniciales para ML).

18.0.4 Mínimos cuadrados generalizados (GLS).

  1. Funciona también bajo la suposición de normalidad.

  2. No requiere que las variables tengan la misma escala.

  3. Consume menos tiempo de cómputo que ML y ULS.

18.0.5 Mínimos cuadrados ponderados (WLS) o de distribución asintóticamente libre (ADF).

  1. No requiere normalidad, pero sí un gran número de observaciones (mínimo entre 200 y 500).

  2. Es la mejor opción para matrices policóricas, tetracóricas o poliseriales.

19 Estimación: función de ajuste

  1. Máxima verosimilitud (ML).

\[F_{ML} \; = \; \log|\Sigma(\theta)| \;+\; tr\left(S\,\Sigma^{-1}(\theta)\right) \;-\; \log|S| -(p+q)\]

  1. Mínimos cuadrados no ponderados (ULS).

\[F_{ULS} \; = \; \frac{1}{2}\, tr\left([S\,-\,\Sigma(\theta)]^2\right)\]

  1. Mínimos cuadrados generalizados (GLS).

\[F_{GLS} \; = \; \frac{1}{2}\, tr\left(\left\{[S\,-\,\Sigma(\theta)]W^{-1}\right\}^2\right)\]

  1. Mínimos cuadrados ponderados (WLS) o de distribución asintóticamente libre (ADF).

\[F_{WLS} \; = \; \frac{1}{2}\, tr\left(\left\{[S\,-\,\Sigma(\theta)]V^{-1}\right\}^2\right)\] Véase la figura 19.1.

**Funciones de bondad de ajuste**

Figure 19.1: Funciones de bondad de ajuste

20 Estimación con variables observadas ordinales o categóricas

20.0.1 Observaciones generales

  1. Si los indicadores de cada variable latente son independientes entre sí, no se debe utilizar el método de Máxima Verosimilitud (ML).

  2. En su lugar, es recomendable emplear algún método que tenga en cuenta la falta de normalidad.

20.0.2 Indicadores en escala Likert o similar

  1. Si los indicadores son un conjunto homogéneo de variables en escala Likert u otra escala parecida, se deben agrupar los indicadores (mediante la suma o el promedio de los puntajes) para intentar lograr la normalidad y así poder utilizar ML.

  2. Este enfoque requiere unidimensionalidad, es decir, que los indicadores agrupados midan un solo constructo.

  3. Para verificar esto, primero se debe realizar un Análisis Factorial Exploratorio (AFE).

  4. La agrupación de indicadores puede hacerse de manera aleatoria o por contenido similar.

20.0.3 Metodología de Muthén (1984) para variables continuas/categóricas (CVM)

  1. En este método, las variables observadas pueden ser de cualquier tipo (dicotómicas, ordinales, continuas).

  2. Se utiliza una matriz de correlaciones policóricas y luego se estima con WLS (Weighted Least Squares) o ADF (Asymptotically Distribution Free).

  3. Este método requiere una gran cantidad de datos.

  4. Si se presentan problemas debido al tamaño pequeño de la muestra o falta de convergencia, se puede combinar con métodos de estimación robusta.

21 Evaluación del ajuste

21.0.1 Observaciones

  1. Se examina la significancia de los coeficientes, similar a un modelo de regresión, y se revisan las medidas de bondad de ajuste.

  2. Ninguna medida por sí sola proporciona toda la información necesaria para evaluar el modelo, por lo que generalmente se utiliza un conjunto de medidas que se informa simultáneamente.

21.0.2 Tipos de medidas de ajuste

Existen tres tipos de estas medidas:

  1. Medidas absolutas: Evalúan los residuos.

  2. Medidas de ajuste comparativo o incremental: Comparan el ajuste con respecto a otro modelo con un ajuste inferior.

  3. Medidas de ajuste de parsimonia: Valoran el ajuste en relación con la cantidad de parámetros utilizados.

21.0.3 Indices de ajuste

  1. Véase la figura 21.1.
**Tipos de medidas de ajuste**

Figure 21.1: Tipos de medidas de ajuste

  1. El estadístico \(\chi^2\) debe resultar no significativo.

  2. Si resulta significativo, entonces, el modelo teórico propuesto difiere de manera significativa de lo que se observa en la matriz de varianzas y covarianzas de los datos.

  3. La hipótesis nula, en este caso, es que los errores son nulos.

22 Re-especificación del modelo

  1. Cuando el ajuste no es satisfactorio, se busca redefinir el modelo.

  2. Para ello, se examinan los índices de modificación de los coeficientes que inicialmente se asumieron como cero (efectos no incluidos en el modelo).

  3. Estos índices indican la reducción en el estadístico \(\chi^2\) que se produciría si el coeficiente fuera estimado.

  4. Un valor superior a 3.84 (valor crítico de una \(\chi^2\) con 1 grado de libertad y \(\alpha=0.05\)) sugiere que la inclusión del efecto adicional correspondiente resultaría en una reducción estadísticamente significativa.

  5. Es decir, un índice de modificación mayor sugiere que la inclusión del efecto adicional correspondiente mejoraría significativamente el ajuste del modelo a los datos

23 Ejercicios

Pendiente

Bibliografía

Consultar el documento RPubs :: Análisis multivariado (bibliografía).

 

 
If you found any ERRORS or have SUGGESTIONS, please report them to my email. Thanks.  
