Las tablas de contingencia constituyen una de las herramientas más importantes para el análisis de variables categóricas. En el campo del mercado laboral, permiten estudiar si existe asociación entre características como el sexo, el nivel educativo, la condición de formalidad, el acceso a capacitación, el sector de actividad, la categoría ocupacional o la situación de desempleo.
Desde una perspectiva inferencial, el interés no se limita a describir los porcentajes observados en una muestra, sino a evaluar si las diferencias identificadas pueden atribuirse al azar muestral o si constituyen evidencia estadística de asociación entre las variables analizadas en la población.
En esta guía se desarrolla la prueba de independencia en tablas de contingencia, presentando dos enfoques clásicos:
El abordaje combina fundamento teórico y ejercicios aplicados con datos ficticios inspirados en problemas del mercado laboral.
Al finalizar esta clase, serás capaz de:
Sea una tabla de contingencia de dimensión \(I \times J\), donde:
Denotemos por:
La independencia entre \(X\) e \(Y\) implica que la distribución de una variable no depende de la otra. En términos probabilísticos:
\[ P(X=i, Y=j) = P(X=i)P(Y=j) \]
para toda combinación \((i,j)\).
En una muestra, esta idea se traduce en que las frecuencias observadas deberían ser cercanas a las frecuencias esperadas bajo independencia.
La prueba de independencia contrasta:
\[ H_0: \text{las variables } X \text{ e } Y \text{ son independientes} \]
frente a:
\[ H_1: \text{las variables } X \text{ e } Y \text{ no son independientes} \]
En términos aplicados, rechazar \(H_0\) implica concluir que existe evidencia estadística de asociación entre ambas variables.
Si \(H_0\) es verdadera, la frecuencia esperada en la celda \((i,j)\) es:
\[ E_{ij} = \frac{n_{i.}n_{.j}}{n} \]
Esta expresión surge de multiplicar la proporción marginal de la fila por la proporción marginal de la columna, y luego por el tamaño total de la muestra.
La lógica de la prueba consiste en comparar:
Cuanto mayores sean las discrepancias entre ambas cantidades, mayor será la evidencia contra \(H_0\).
El estadístico chi-cuadrado de Pearson mide la discrepancia global entre frecuencias observadas y esperadas:
\[ X^2 = \sum_{i=1}^{I}\sum_{j=1}^{J} \frac{(n_{ij}-E_{ij})^2}{E_{ij}} \]
Cada celda aporta una cantidad al estadístico. Ese aporte será mayor cuando:
Por tanto, \(X^2\) resume cuánto se aparta la tabla observada de la estructura de independencia.
Bajo la hipótesis nula y con tamaño muestral suficientemente grande,
\[ X^2 \sim \chi^2_{(I-1)(J-1)} \]
Es decir, el estadístico sigue aproximadamente una distribución chi-cuadrado con:
\[ gl = (I-1)(J-1) \]
grados de libertad.
En términos prácticos:
La aproximación chi-cuadrado es adecuada cuando las frecuencias esperadas no son demasiado pequeñas. Como regla práctica, suele recomendarse que:
Cuando estas condiciones no se cumplen, conviene considerar pruebas exactas o reagrupar categorías.
Una segunda forma de evaluar la independencia consiste en comparar:
La comparación da origen al estadístico de razón de máxima verosimilitud:
\[ G^2 = 2\sum_{i=1}^{I}\sum_{j=1}^{J} n_{ij}\log\left(\frac{n_{ij}}{E_{ij}}\right) \]
Por convención, cuando \(n_{ij}=0\), el término correspondiente se considera igual a 0.
Por tanto, al igual que en el caso de Pearson, valores grandes del estadístico indican evidencia contra la independencia.
Bajo \(H_0\) y con muestra grande,
\[ G^2 \sim \chi^2_{(I-1)(J-1)} \]
Así, ambos estadísticos comparten la misma distribución asintótica bajo la hipótesis nula.
Aunque en muestras grandes suelen conducir a conclusiones muy similares, su lógica es distinta:
En análisis de datos categóricos, \(G^2\) tiene una conexión más directa con el enfoque de modelos log-lineales.
En muestras moderadas o grandes, los valores de \(X^2\) y \(G^2\) suelen ser cercanos y conducen a la misma decisión inferencial. No obstante:
Por esta razón, en la práctica es frecuente reportar el chi-cuadrado de Pearson, y en análisis más avanzados complementar con \(G^2\).
Supóngase que, en una encuesta ficticia a personas ocupadas asalariadas del sector privado no agropecuario, se desea evaluar si la formalidad laboral está asociada al sexo.
Se observa la siguiente tabla:
| Sexo | Formal | Informal | Total |
|---|---|---|---|
| Hombres | 180 | 120 | 300 |
| Mujeres | 150 | 150 | 300 |
| Total | 330 | 270 | 600 |
La pregunta de investigación es:
¿La condición de formalidad laboral es independiente del sexo?
\[ H_0: \text{el sexo y la formalidad laboral son independientes} \]
\[ H_1: \text{el sexo y la formalidad laboral no son independientes} \]
Bajo independencia:
\[ E_{ij} = \frac{n_{i.}n_{.j}}{n} \]
Por ejemplo, para Hombres-Formal:
\[ E_{11} = \frac{300\times 330}{600} = 165 \]
Para Hombres-Informal:
\[ E_{12} = \frac{300\times 270}{600} = 135 \]
De manera análoga:
La tabla esperada es:
| Sexo | Formal | Informal |
|---|---|---|
| Hombres | 165 | 135 |
| Mujeres | 165 | 135 |
\[ X^2 = \sum \frac{(n_{ij}-E_{ij})^2}{E_{ij}} \]
Sustituyendo:
\[ X^2 = \frac{(180-165)^2}{165} + \frac{(120-135)^2}{135} + \frac{(150-165)^2}{165} + \frac{(150-135)^2}{135} \]
\[ X^2 = \frac{225}{165} + \frac{225}{135} + \frac{225}{165} + \frac{225}{135} \]
\[ X^2 \approx 1.364 + 1.667 + 1.364 + 1.667 = 6.061 \]
Los grados de libertad son:
\[ gl=(2-1)(2-1)=1 \]
\[ G^2 = 2\sum n_{ij}\log\left(\frac{n_{ij}}{E_{ij}}\right) \]
Sustituyendo los valores:
\[ G^2 = 2\Bigg[180\log\left(\frac{180}{165}\right) + 120\log\left(\frac{120}{135}\right) + 150\log\left(\frac{150}{165}\right) + 150\log\left(\frac{150}{135}\right)\Bigg] \]
El resultado numérico es cercano a:
\[ G^2 \approx 6.10 \]
tabla1 <- matrix(
c(180, 120,
150, 150),
nrow = 2,
byrow = TRUE
)
rownames(tabla1) <- c("Hombres", "Mujeres")
colnames(tabla1) <- c("Formal", "Informal")
tabla1
## Formal Informal
## Hombres 180 120
## Mujeres 150 150
prueba_chi_1 <- chisq.test(tabla1, correct = FALSE)
prueba_chi_1
##
## Pearson's Chi-squared test
##
## data: tabla1
## X-squared = 6.0606, df = 1, p-value = 0.01382
prueba_chi_1$expected
## Formal Informal
## Hombres 165 135
## Mujeres 165 135
observadas_1 <- tabla1
esperadas_1 <- prueba_chi_1$expected
G2_1 <- 2 * sum(observadas_1 * log(observadas_1 / esperadas_1))
G2_1
## [1] 6.071268
pchisq(G2_1, df = 1, lower.tail = FALSE)
## [1] 0.01373983
Dado que el valor del estadístico es relativamente alto y el valor-p es menor a 0.05, se rechaza la hipótesis nula de independencia.
En este ejercicio ficticio, existe evidencia estadística de que la formalidad laboral está asociada al sexo. En particular, los hombres presentan una frecuencia de empleo formal superior a la esperada bajo independencia, mientras que las mujeres presentan una frecuencia inferior a la esperada.
Desde una perspectiva de mercado laboral, este tipo de resultado podría interpretarse como una señal de segmentación en el acceso a puestos asalariados formales.
Supóngase ahora una encuesta ficticia a personas ocupadas de 18 a 29 años. Se desea evaluar si la participación en cursos de capacitación laboral durante los últimos 12 meses es independiente del nivel educativo alcanzado.
La tabla observada es:
| Nivel educativo | Participó | No participó | Total |
|---|---|---|---|
| Hasta secundaria | 70 | 130 | 200 |
| Terciaria / univers. | 110 | 90 | 200 |
| Total | 180 | 220 | 400 |
\[ H_0: \text{el nivel educativo y la participación en capacitación son independientes} \]
\[ H_1: \text{existe asociación entre ambas variables} \]
tabla2 <- matrix(
c(70, 130,
110, 90),
nrow = 2,
byrow = TRUE
)
rownames(tabla2) <- c("Hasta secundaria", "Terciaria/Universitaria")
colnames(tabla2) <- c("Participo", "No participo")
tabla2
## Participo No participo
## Hasta secundaria 70 130
## Terciaria/Universitaria 110 90
prueba_chi_2 <- chisq.test(tabla2, correct = FALSE)
prueba_chi_2
##
## Pearson's Chi-squared test
##
## data: tabla2
## X-squared = 16.162, df = 1, p-value = 5.816e-05
prueba_chi_2$expected
## Participo No participo
## Hasta secundaria 90 110
## Terciaria/Universitaria 90 110
observadas_2 <- tabla2
esperadas_2 <- prueba_chi_2$expected
G2_2 <- 2 * sum(observadas_2 * log(observadas_2 / esperadas_2))
G2_2
## [1] 16.27687
pchisq(G2_2, df = 1, lower.tail = FALSE)
## [1] 5.472794e-05
Si el valor-p es menor que 0.05, se concluye que la participación en capacitación no es independiente del nivel educativo.
En este ejemplo, la proporción de participación en cursos es mayor entre quienes tienen educación terciaria o universitaria. En términos sustantivos, esto podría reflejar desigualdades en el acceso a oportunidades de formación laboral, lo que a su vez puede profundizar brechas de inserción y movilidad ocupacional.
Se releva información ficticia de personas asalariadas privadas y se clasifica a cada una según el sector económico y el tipo de contrato.
| Sector | Permanente | Temporal | Sin contrato escrito | Total |
|---|---|---|---|---|
| Industria | 90 | 30 | 20 | 140 |
| Comercio | 70 | 50 | 40 | 160 |
| Servicios | 80 | 60 | 60 | 200 |
| Total | 240 | 140 | 120 | 500 |
La pregunta es si el tipo de contrato es independiente del sector económico.
tabla3 <- matrix(
c(90, 30, 20,
70, 50, 40,
80, 60, 60),
nrow = 3,
byrow = TRUE
)
rownames(tabla3) <- c("Industria", "Comercio", "Servicios")
colnames(tabla3) <- c("Permanente", "Temporal", "Sin escrito")
tabla3
## Permanente Temporal Sin escrito
## Industria 90 30 20
## Comercio 70 50 40
## Servicios 80 60 60
prueba_chi_3 <- chisq.test(tabla3, correct = FALSE)
prueba_chi_3
##
## Pearson's Chi-squared test
##
## data: tabla3
## X-squared = 22.624, df = 4, p-value = 0.0001505
prueba_chi_3$expected
## Permanente Temporal Sin escrito
## Industria 67.2 39.2 33.6
## Comercio 76.8 44.8 38.4
## Servicios 96.0 56.0 48.0
observadas_3 <- tabla3
esperadas_3 <- prueba_chi_3$expected
G2_3 <- 2 * sum(observadas_3 * log(observadas_3 / esperadas_3))
G2_3
## [1] 22.93689
gl_3 <- (nrow(tabla3) - 1) * (ncol(tabla3) - 1)
pchisq(G2_3, df = gl_3, lower.tail = FALSE)
## [1] 0.0001303554
En una tabla de dimensión \(3 \times 3\), los grados de libertad son:
\[ gl=(3-1)(3-1)=4 \]
Si el valor-p resulta pequeño, se concluye que el tipo de contrato difiere según el sector económico.
En términos laborales, ello podría reflejar que ciertos sectores concentran mayor estabilidad contractual, mientras que otros presentan una mayor incidencia de vínculos temporales o relaciones laborales más precarias.
Una redacción técnica breve puede adoptar la siguiente estructura:
Se aplicó una prueba chi-cuadrado de independencia para evaluar la asociación entre el sexo y la condición de formalidad laboral. Los resultados evidenciaron una asociación estadísticamente significativa entre ambas variables (\(X^2 = 6.06\), \(gl = 1\), \(p < 0.05\)). De manera consistente, el estadístico de razón de máxima verosimilitud también indicó asociación (\(G^2 \approx 6.10\), \(gl = 1\), \(p < 0.05\)).
Una prueba significativa indica asociación estadística, pero no informa por sí sola:
Por ello, luego de la prueba conviene complementar con:
En una muestra ficticia de jóvenes de 18 a 24 años se observa la siguiente tabla sobre desempleo y sexo:
| Sexo | Desocupado | Ocupado | Total |
|---|---|---|---|
| Hombres | 45 | 255 | 300 |
| Mujeres | 70 | 230 | 300 |
| Total | 115 | 485 | 600 |
Se solicita:
En una muestra ficticia de ocupados asalariados se releva la relación entre tamaño de empresa y acceso a seguro de salud laboral:
| Tamaño de empresa | Tiene seguro | No tiene | Total |
|---|---|---|---|
| Microempresa | 30 | 120 | 150 |
| Pequeña | 60 | 90 | 150 |
| Mediana y grande | 120 | 30 | 150 |
| Total | 210 | 240 | 450 |
Se solicita realizar la prueba de independencia con ambos estadísticos e interpretar el resultado.
La prueba de independencia en tablas de contingencia es una herramienta fundamental para analizar relaciones entre variables categóricas. Tanto el estadístico chi-cuadrado de Pearson como la razón de máxima verosimilitud \(G^2\) permiten contrastar si las diferencias observadas en la muestra son compatibles con independencia o si, por el contrario, aportan evidencia de asociación.
En aplicaciones del mercado laboral, estas pruebas resultan especialmente útiles para estudiar desigualdades y segmentaciones vinculadas a la formalidad, la capacitación, la estabilidad contractual, la protección social o la inserción ocupacional de distintos grupos poblacionales.
Nota metodológica: La presente guía fue elaborada con apoyo de herramientas de inteligencia artificial generativa, específicamente ChatGPT de OpenAI, como asistencia en la estructuración y redacción del material. La selección de contenidos, la validación conceptual y la revisión final son responsabilidad del docente.