1 Presentación

Las tablas de contingencia constituyen una de las herramientas más importantes para el análisis de variables categóricas. En el campo del mercado laboral, permiten estudiar si existe asociación entre características como el sexo, el nivel educativo, la condición de formalidad, el acceso a capacitación, el sector de actividad, la categoría ocupacional o la situación de desempleo.

Desde una perspectiva inferencial, el interés no se limita a describir los porcentajes observados en una muestra, sino a evaluar si las diferencias identificadas pueden atribuirse al azar muestral o si constituyen evidencia estadística de asociación entre las variables analizadas en la población.

En esta guía se desarrolla la prueba de independencia en tablas de contingencia, presentando dos enfoques clásicos:

  • el estadístico chi-cuadrado de Pearson;
  • la razón de máxima verosimilitud, también conocida como estadístico \(G^2\).

El abordaje combina fundamento teórico y ejercicios aplicados con datos ficticios inspirados en problemas del mercado laboral.

2 Objetivos

Al finalizar esta clase, serás capaz de:

  1. Interpretar la lógica inferencial de la prueba de independencia en tablas de contingencia;
  2. Formular la hipótesis nula y la hipótesis alternativa;
  3. Calcular frecuencias esperadas bajo independencia;
  4. Comprender y aplicar el estadístico chi-cuadrado de Pearson;
  5. Comprender y aplicar el estadístico de razón de máxima verosimilitud \(G^2\);
  6. Interpretar resultados en términos sustantivos para problemas del mercado laboral;
  7. Ejecutar en R la prueba de independencia y comparar ambos estadísticos.

3 Recordatorio: tablas de contingencia e independencia

Sea una tabla de contingencia de dimensión \(I \times J\), donde:

  • \(I\) representa el número de categorías de la variable \(X\);
  • \(J\) representa el número de categorías de la variable \(Y\).

Denotemos por:

  • \(n_{ij}\): frecuencia observada en la celda \((i,j)\);
  • \(n_{i.}\): total de la fila \(i\);
  • \(n_{.j}\): total de la columna \(j\);
  • \(n\): total general.

La independencia entre \(X\) e \(Y\) implica que la distribución de una variable no depende de la otra. En términos probabilísticos:

\[ P(X=i, Y=j) = P(X=i)P(Y=j) \]

para toda combinación \((i,j)\).

En una muestra, esta idea se traduce en que las frecuencias observadas deberían ser cercanas a las frecuencias esperadas bajo independencia.

4 Planteamiento de la prueba de independencia

4.1 Hipótesis

La prueba de independencia contrasta:

\[ H_0: \text{las variables } X \text{ e } Y \text{ son independientes} \]

frente a:

\[ H_1: \text{las variables } X \text{ e } Y \text{ no son independientes} \]

En términos aplicados, rechazar \(H_0\) implica concluir que existe evidencia estadística de asociación entre ambas variables.

4.2 Frecuencias esperadas bajo independencia

Si \(H_0\) es verdadera, la frecuencia esperada en la celda \((i,j)\) es:

\[ E_{ij} = \frac{n_{i.}n_{.j}}{n} \]

Esta expresión surge de multiplicar la proporción marginal de la fila por la proporción marginal de la columna, y luego por el tamaño total de la muestra.

La lógica de la prueba consiste en comparar:

  • lo que se observó en la muestra: \(n_{ij}\), y
  • lo que se esperaría observar si hubiera independencia: \(E_{ij}\).

Cuanto mayores sean las discrepancias entre ambas cantidades, mayor será la evidencia contra \(H_0\).

5 Prueba chi-cuadrado de Pearson

5.1 Fundamento teórico

El estadístico chi-cuadrado de Pearson mide la discrepancia global entre frecuencias observadas y esperadas:

\[ X^2 = \sum_{i=1}^{I}\sum_{j=1}^{J} \frac{(n_{ij}-E_{ij})^2}{E_{ij}} \]

Cada celda aporta una cantidad al estadístico. Ese aporte será mayor cuando:

  • la diferencia \((n_{ij}-E_{ij})\) sea grande, y
  • la frecuencia esperada \(E_{ij}\) sea relativamente pequeña.

Por tanto, \(X^2\) resume cuánto se aparta la tabla observada de la estructura de independencia.

5.2 Distribución del estadístico

Bajo la hipótesis nula y con tamaño muestral suficientemente grande,

\[ X^2 \sim \chi^2_{(I-1)(J-1)} \]

Es decir, el estadístico sigue aproximadamente una distribución chi-cuadrado con:

\[ gl = (I-1)(J-1) \]

grados de libertad.

5.3 Regla de decisión

  • Si el valor de \(X^2\) es grande, la discrepancia entre observados y esperados es importante.
  • Si el valor-p es menor que el nivel de significancia \(\alpha\), se rechaza \(H_0\).

En términos prácticos:

  • valor-p < 0.05: existe evidencia estadística de asociación;
  • valor-p : no existe evidencia suficiente para rechazar la independencia.

5.4 Supuestos y criterios de aplicabilidad

La aproximación chi-cuadrado es adecuada cuando las frecuencias esperadas no son demasiado pequeñas. Como regla práctica, suele recomendarse que:

  • ninguna frecuencia esperada sea menor que 1;
  • como máximo un 20% de las celdas tenga frecuencias esperadas menores que 5.

Cuando estas condiciones no se cumplen, conviene considerar pruebas exactas o reagrupar categorías.

6 Razón de máxima verosimilitud \(G^2\)

6.1 Idea general

Una segunda forma de evaluar la independencia consiste en comparar:

  • la verosimilitud del modelo bajo la hipótesis nula de independencia, y
  • la verosimilitud del modelo saturado, que reproduce exactamente las frecuencias observadas.

La comparación da origen al estadístico de razón de máxima verosimilitud:

\[ G^2 = 2\sum_{i=1}^{I}\sum_{j=1}^{J} n_{ij}\log\left(\frac{n_{ij}}{E_{ij}}\right) \]

Por convención, cuando \(n_{ij}=0\), el término correspondiente se considera igual a 0.

6.2 Interpretación

  • Si las frecuencias observadas son muy parecidas a las esperadas, el cociente \(n_{ij}/E_{ij}\) será cercano a 1 y \(G^2\) tomará valores pequeños.
  • Si las diferencias son marcadas, \(G^2\) crecerá.

Por tanto, al igual que en el caso de Pearson, valores grandes del estadístico indican evidencia contra la independencia.

6.3 Distribución asintótica

Bajo \(H_0\) y con muestra grande,

\[ G^2 \sim \chi^2_{(I-1)(J-1)} \]

Así, ambos estadísticos comparten la misma distribución asintótica bajo la hipótesis nula.

6.4 Diferencia conceptual respecto a \(X^2\)

Aunque en muestras grandes suelen conducir a conclusiones muy similares, su lógica es distinta:

  • \(X^2\) se basa en discrepancias cuadráticas entre observados y esperados;
  • \(G^2\) se basa en comparar verosimilitudes, es decir, qué tan compatible es la tabla observada con el modelo de independencia.

En análisis de datos categóricos, \(G^2\) tiene una conexión más directa con el enfoque de modelos log-lineales.

7 Relación entre ambas pruebas

En muestras moderadas o grandes, los valores de \(X^2\) y \(G^2\) suelen ser cercanos y conducen a la misma decisión inferencial. No obstante:

  • pueden diferir ligeramente en muestras pequeñas;
  • ambos dependen de la calidad de la aproximación asintótica;
  • ambos evalúan la misma hipótesis nula de independencia.

Por esta razón, en la práctica es frecuente reportar el chi-cuadrado de Pearson, y en análisis más avanzados complementar con \(G^2\).

8 Ejercicio aplicado 1: sexo y formalidad laboral

8.1 Planteamiento del problema

Supóngase que, en una encuesta ficticia a personas ocupadas asalariadas del sector privado no agropecuario, se desea evaluar si la formalidad laboral está asociada al sexo.

Se observa la siguiente tabla:

Sexo Formal Informal Total
Hombres 180 120 300
Mujeres 150 150 300
Total 330 270 600

La pregunta de investigación es:

¿La condición de formalidad laboral es independiente del sexo?

8.2 Formulación de hipótesis

\[ H_0: \text{el sexo y la formalidad laboral son independientes} \]

\[ H_1: \text{el sexo y la formalidad laboral no son independientes} \]

8.3 Cálculo de frecuencias esperadas

Bajo independencia:

\[ E_{ij} = \frac{n_{i.}n_{.j}}{n} \]

Por ejemplo, para Hombres-Formal:

\[ E_{11} = \frac{300\times 330}{600} = 165 \]

Para Hombres-Informal:

\[ E_{12} = \frac{300\times 270}{600} = 135 \]

De manera análoga:

  • Mujeres-Formal: \(E_{21}=165\)
  • Mujeres-Informal: \(E_{22}=135\)

La tabla esperada es:

Sexo Formal Informal
Hombres 165 135
Mujeres 165 135

8.4 Cálculo manual del chi-cuadrado

\[ X^2 = \sum \frac{(n_{ij}-E_{ij})^2}{E_{ij}} \]

Sustituyendo:

\[ X^2 = \frac{(180-165)^2}{165} + \frac{(120-135)^2}{135} + \frac{(150-165)^2}{165} + \frac{(150-135)^2}{135} \]

\[ X^2 = \frac{225}{165} + \frac{225}{135} + \frac{225}{165} + \frac{225}{135} \]

\[ X^2 \approx 1.364 + 1.667 + 1.364 + 1.667 = 6.061 \]

Los grados de libertad son:

\[ gl=(2-1)(2-1)=1 \]

8.5 Cálculo manual de la razón de máxima verosimilitud

\[ G^2 = 2\sum n_{ij}\log\left(\frac{n_{ij}}{E_{ij}}\right) \]

Sustituyendo los valores:

\[ G^2 = 2\Bigg[180\log\left(\frac{180}{165}\right) + 120\log\left(\frac{120}{135}\right) + 150\log\left(\frac{150}{165}\right) + 150\log\left(\frac{150}{135}\right)\Bigg] \]

El resultado numérico es cercano a:

\[ G^2 \approx 6.10 \]

8.6 Resolución en R

tabla1 <- matrix(
  c(180, 120,
    150, 150),
  nrow = 2,
  byrow = TRUE
)

rownames(tabla1) <- c("Hombres", "Mujeres")
colnames(tabla1) <- c("Formal", "Informal")

tabla1
##         Formal Informal
## Hombres    180      120
## Mujeres    150      150
prueba_chi_1 <- chisq.test(tabla1, correct = FALSE)
prueba_chi_1
## 
##  Pearson's Chi-squared test
## 
## data:  tabla1
## X-squared = 6.0606, df = 1, p-value = 0.01382
prueba_chi_1$expected
##         Formal Informal
## Hombres    165      135
## Mujeres    165      135
observadas_1 <- tabla1
esperadas_1 <- prueba_chi_1$expected

G2_1 <- 2 * sum(observadas_1 * log(observadas_1 / esperadas_1))
G2_1
## [1] 6.071268
pchisq(G2_1, df = 1, lower.tail = FALSE)
## [1] 0.01373983

8.7 Interpretación

Dado que el valor del estadístico es relativamente alto y el valor-p es menor a 0.05, se rechaza la hipótesis nula de independencia.

En este ejercicio ficticio, existe evidencia estadística de que la formalidad laboral está asociada al sexo. En particular, los hombres presentan una frecuencia de empleo formal superior a la esperada bajo independencia, mientras que las mujeres presentan una frecuencia inferior a la esperada.

Desde una perspectiva de mercado laboral, este tipo de resultado podría interpretarse como una señal de segmentación en el acceso a puestos asalariados formales.

9 Ejercicio aplicado 2: nivel educativo y participación en capacitación laboral

9.1 Planteamiento del problema

Supóngase ahora una encuesta ficticia a personas ocupadas de 18 a 29 años. Se desea evaluar si la participación en cursos de capacitación laboral durante los últimos 12 meses es independiente del nivel educativo alcanzado.

La tabla observada es:

Nivel educativo Participó No participó Total
Hasta secundaria 70 130 200
Terciaria / univers. 110 90 200
Total 180 220 400

9.2 Hipótesis

\[ H_0: \text{el nivel educativo y la participación en capacitación son independientes} \]

\[ H_1: \text{existe asociación entre ambas variables} \]

9.3 Resolución en R

tabla2 <- matrix(
  c(70, 130,
    110, 90),
  nrow = 2,
  byrow = TRUE
)

rownames(tabla2) <- c("Hasta secundaria", "Terciaria/Universitaria")
colnames(tabla2) <- c("Participo", "No participo")

tabla2
##                         Participo No participo
## Hasta secundaria               70          130
## Terciaria/Universitaria       110           90
prueba_chi_2 <- chisq.test(tabla2, correct = FALSE)
prueba_chi_2
## 
##  Pearson's Chi-squared test
## 
## data:  tabla2
## X-squared = 16.162, df = 1, p-value = 5.816e-05
prueba_chi_2$expected
##                         Participo No participo
## Hasta secundaria               90          110
## Terciaria/Universitaria        90          110
observadas_2 <- tabla2
esperadas_2 <- prueba_chi_2$expected

G2_2 <- 2 * sum(observadas_2 * log(observadas_2 / esperadas_2))
G2_2
## [1] 16.27687
pchisq(G2_2, df = 1, lower.tail = FALSE)
## [1] 5.472794e-05

9.4 Interpretación

Si el valor-p es menor que 0.05, se concluye que la participación en capacitación no es independiente del nivel educativo.

En este ejemplo, la proporción de participación en cursos es mayor entre quienes tienen educación terciaria o universitaria. En términos sustantivos, esto podría reflejar desigualdades en el acceso a oportunidades de formación laboral, lo que a su vez puede profundizar brechas de inserción y movilidad ocupacional.

10 Ejercicio aplicado 3: sector económico y tipo de contrato

10.1 Planteamiento del problema

Se releva información ficticia de personas asalariadas privadas y se clasifica a cada una según el sector económico y el tipo de contrato.

Sector Permanente Temporal Sin contrato escrito Total
Industria 90 30 20 140
Comercio 70 50 40 160
Servicios 80 60 60 200
Total 240 140 120 500

La pregunta es si el tipo de contrato es independiente del sector económico.

10.2 Resolución en R

tabla3 <- matrix(
  c(90, 30, 20,
    70, 50, 40,
    80, 60, 60),
  nrow = 3,
  byrow = TRUE
)

rownames(tabla3) <- c("Industria", "Comercio", "Servicios")
colnames(tabla3) <- c("Permanente", "Temporal", "Sin escrito")

tabla3
##           Permanente Temporal Sin escrito
## Industria         90       30          20
## Comercio          70       50          40
## Servicios         80       60          60
prueba_chi_3 <- chisq.test(tabla3, correct = FALSE)
prueba_chi_3
## 
##  Pearson's Chi-squared test
## 
## data:  tabla3
## X-squared = 22.624, df = 4, p-value = 0.0001505
prueba_chi_3$expected
##           Permanente Temporal Sin escrito
## Industria       67.2     39.2        33.6
## Comercio        76.8     44.8        38.4
## Servicios       96.0     56.0        48.0
observadas_3 <- tabla3
esperadas_3 <- prueba_chi_3$expected

G2_3 <- 2 * sum(observadas_3 * log(observadas_3 / esperadas_3))
G2_3
## [1] 22.93689
gl_3 <- (nrow(tabla3) - 1) * (ncol(tabla3) - 1)
pchisq(G2_3, df = gl_3, lower.tail = FALSE)
## [1] 0.0001303554

10.3 Interpretación

En una tabla de dimensión \(3 \times 3\), los grados de libertad son:

\[ gl=(3-1)(3-1)=4 \]

Si el valor-p resulta pequeño, se concluye que el tipo de contrato difiere según el sector económico.

En términos laborales, ello podría reflejar que ciertos sectores concentran mayor estabilidad contractual, mientras que otros presentan una mayor incidencia de vínculos temporales o relaciones laborales más precarias.

11 Cómo reportar los resultados

Una redacción técnica breve puede adoptar la siguiente estructura:

Se aplicó una prueba chi-cuadrado de independencia para evaluar la asociación entre el sexo y la condición de formalidad laboral. Los resultados evidenciaron una asociación estadísticamente significativa entre ambas variables (\(X^2 = 6.06\), \(gl = 1\), \(p < 0.05\)). De manera consistente, el estadístico de razón de máxima verosimilitud también indicó asociación (\(G^2 \approx 6.10\), \(gl = 1\), \(p < 0.05\)).

12 Recomendaciones

Una prueba significativa indica asociación estadística, pero no informa por sí sola:

  • la dirección de la asociación;
  • su intensidad;
  • su relevancia sustantiva.

Por ello, luego de la prueba conviene complementar con:

  1. análisis de porcentajes por fila o por columna;
  2. comparación entre frecuencias observadas y esperadas;
  3. estudio de residuos estandarizados;
  4. medidas de asociación, como \(\phi\), V de Cramer o coeficientes específicos en tablas \(2 \times 2\).

13 Ejercicios propuestos

13.1 Ejercicio 1

En una muestra ficticia de jóvenes de 18 a 24 años se observa la siguiente tabla sobre desempleo y sexo:

Sexo Desocupado Ocupado Total
Hombres 45 255 300
Mujeres 70 230 300
Total 115 485 600

Se solicita:

  1. plantear \(H_0\) y \(H_1\);
  2. calcular las frecuencias esperadas;
  3. obtener manualmente el estadístico \(X^2\);
  4. calcular \(G^2\) en R;
  5. interpretar el resultado en términos del mercado laboral juvenil.

13.2 Ejercicio 2

En una muestra ficticia de ocupados asalariados se releva la relación entre tamaño de empresa y acceso a seguro de salud laboral:

Tamaño de empresa Tiene seguro No tiene Total
Microempresa 30 120 150
Pequeña 60 90 150
Mediana y grande 120 30 150
Total 210 240 450

Se solicita realizar la prueba de independencia con ambos estadísticos e interpretar el resultado.

14 Mensaje metodológico final

La prueba de independencia en tablas de contingencia es una herramienta fundamental para analizar relaciones entre variables categóricas. Tanto el estadístico chi-cuadrado de Pearson como la razón de máxima verosimilitud \(G^2\) permiten contrastar si las diferencias observadas en la muestra son compatibles con independencia o si, por el contrario, aportan evidencia de asociación.

En aplicaciones del mercado laboral, estas pruebas resultan especialmente útiles para estudiar desigualdades y segmentaciones vinculadas a la formalidad, la capacitación, la estabilidad contractual, la protección social o la inserción ocupacional de distintos grupos poblacionales.

Nota metodológica: La presente guía fue elaborada con apoyo de herramientas de inteligencia artificial generativa, específicamente ChatGPT de OpenAI, como asistencia en la estructuración y redacción del material. La selección de contenidos, la validación conceptual y la revisión final son responsabilidad del docente.

15 Bibliografía

  • Agresti, A. An Introduction to Categorical Data Analysis.
  • Agresti, A. Categorical Data Analysis.
  • Friendly, M. y Meyer, D. Discrete Data Analysis with R.
  • Everitt, B. The Analysis of Contingency Tables.