1 Presentación

Las tablas de contingencia constituyen una de las herramientas más importantes para el análisis de variables categóricas. En el campo del mercado laboral, permiten estudiar si existe asociación entre características como el sexo, el nivel educativo, la condición de formalidad, el acceso a capacitación, el sector de actividad, la categoría ocupacional o la situación de desempleo.

Desde una perspectiva inferencial, el interés no se limita a describir los porcentajes observados en una muestra, sino a evaluar si las diferencias identificadas pueden atribuirse al azar muestral o si constituyen evidencia estadística de asociación entre las variables analizadas en la población.

En esta guía se desarrolla la prueba de independencia en tablas de contingencia, presentando dos enfoques clásicos:

el estadístico chi-cuadrado de Pearson;
la razón de máxima verosimilitud, también conocida como estadístico \(G^2\).

El abordaje combina fundamento teórico y ejercicios aplicados con datos ficticios inspirados en problemas del mercado laboral.

2 Objetivos

Al finalizar esta clase, serás capaz de:

Interpretar la lógica inferencial de la prueba de independencia en tablas de contingencia;
Formular la hipótesis nula y la hipótesis alternativa;
Calcular frecuencias esperadas bajo independencia;
Comprender y aplicar el estadístico chi-cuadrado de Pearson;
Comprender y aplicar el estadístico de razón de máxima verosimilitud \(G^2\);
Interpretar resultados en términos sustantivos para problemas del mercado laboral;
Ejecutar en R la prueba de independencia y comparar ambos estadísticos.

3 Recordatorio: tablas de contingencia e independencia

Sea una tabla de contingencia de dimensión \(I \times J\), donde:

\(I\) representa el número de categorías de la variable \(X\);
\(J\) representa el número de categorías de la variable \(Y\).

Denotemos por:

\(n_{ij}\): frecuencia observada en la celda \((i,j)\);
\(n_{i.}\): total de la fila \(i\);
\(n_{.j}\): total de la columna \(j\);
\(n\): total general.

La independencia entre \(X\) e \(Y\) implica que la distribución de una variable no depende de la otra. En términos probabilísticos:

\[ P(X=i, Y=j) = P(X=i)P(Y=j) \]

para toda combinación \((i,j)\).

En una muestra, esta idea se traduce en que las frecuencias observadas deberían ser cercanas a las frecuencias esperadas bajo independencia.

4 Planteamiento de la prueba de independencia

4.1 Hipótesis

La prueba de independencia contrasta:

\[ H_0: \text{las variables } X \text{ e } Y \text{ son independientes} \]

frente a:

\[ H_1: \text{las variables } X \text{ e } Y \text{ no son independientes} \]

En términos aplicados, rechazar \(H_0\) implica concluir que existe evidencia estadística de asociación entre ambas variables.

4.2 Frecuencias esperadas bajo independencia

Si \(H_0\) es verdadera, la frecuencia esperada en la celda \((i,j)\) es:

\[ E_{ij} = \frac{n_{i.}n_{.j}}{n} \]

Esta expresión surge de multiplicar la proporción marginal de la fila por la proporción marginal de la columna, y luego por el tamaño total de la muestra.

La lógica de la prueba consiste en comparar:

lo que se observó en la muestra: \(n_{ij}\), y
lo que se esperaría observar si hubiera independencia: \(E_{ij}\).

Cuanto mayores sean las discrepancias entre ambas cantidades, mayor será la evidencia contra \(H_0\).

5 Prueba chi-cuadrado de Pearson

5.1 Fundamento teórico

El estadístico chi-cuadrado de Pearson mide la discrepancia global entre frecuencias observadas y esperadas:

\[ X^2 = \sum_{i=1}^{I}\sum_{j=1}^{J} \frac{(n_{ij}-E_{ij})^2}{E_{ij}} \]

Cada celda aporta una cantidad al estadístico. Ese aporte será mayor cuando:

la diferencia \((n_{ij}-E_{ij})\) sea grande, y
la frecuencia esperada \(E_{ij}\) sea relativamente pequeña.

Por tanto, \(X^2\) resume cuánto se aparta la tabla observada de la estructura de independencia.

5.2 Distribución del estadístico

Bajo la hipótesis nula y con tamaño muestral suficientemente grande,

\[ X^2 \sim \chi^2_{(I-1)(J-1)} \]

Es decir, el estadístico sigue aproximadamente una distribución chi-cuadrado con:

\[ gl = (I-1)(J-1) \]

grados de libertad.

5.3 Regla de decisión

Si el valor de \(X^2\) es grande, la discrepancia entre observados y esperados es importante.
Si el valor-p es menor que el nivel de significancia \(\alpha\), se rechaza \(H_0\).

En términos prácticos:

valor-p < 0.05: existe evidencia estadística de asociación;
valor-p : no existe evidencia suficiente para rechazar la independencia.

5.4 Supuestos y criterios de aplicabilidad

La aproximación chi-cuadrado es adecuada cuando las frecuencias esperadas no son demasiado pequeñas. Como regla práctica, suele recomendarse que:

ninguna frecuencia esperada sea menor que 1;
como máximo un 20% de las celdas tenga frecuencias esperadas menores que 5.

Cuando estas condiciones no se cumplen, conviene considerar pruebas exactas o reagrupar categorías.

6 Razón de máxima verosimilitud \(G^2\)

6.1 Idea general

Una segunda forma de evaluar la independencia consiste en comparar:

la verosimilitud del modelo bajo la hipótesis nula de independencia, y
la verosimilitud del modelo saturado, que reproduce exactamente las frecuencias observadas.

La comparación da origen al estadístico de razón de máxima verosimilitud:

\[ G^2 = 2\sum_{i=1}^{I}\sum_{j=1}^{J} n_{ij}\log\left(\frac{n_{ij}}{E_{ij}}\right) \]

Por convención, cuando \(n_{ij}=0\), el término correspondiente se considera igual a 0.

6.2 Interpretación

Si las frecuencias observadas son muy parecidas a las esperadas, el cociente \(n_{ij}/E_{ij}\) será cercano a 1 y \(G^2\) tomará valores pequeños.
Si las diferencias son marcadas, \(G^2\) crecerá.

Por tanto, al igual que en el caso de Pearson, valores grandes del estadístico indican evidencia contra la independencia.

6.3 Distribución asintótica

Bajo \(H_0\) y con muestra grande,

\[ G^2 \sim \chi^2_{(I-1)(J-1)} \]

Así, ambos estadísticos comparten la misma distribución asintótica bajo la hipótesis nula.

6.4 Diferencia conceptual respecto a \(X^2\)

Aunque en muestras grandes suelen conducir a conclusiones muy similares, su lógica es distinta:

\(X^2\) se basa en discrepancias cuadráticas entre observados y esperados;
\(G^2\) se basa en comparar verosimilitudes, es decir, qué tan compatible es la tabla observada con el modelo de independencia.

En análisis de datos categóricos, \(G^2\) tiene una conexión más directa con el enfoque de modelos log-lineales.

7 Relación entre ambas pruebas

En muestras moderadas o grandes, los valores de \(X^2\) y \(G^2\) suelen ser cercanos y conducen a la misma decisión inferencial. No obstante:

pueden diferir ligeramente en muestras pequeñas;
ambos dependen de la calidad de la aproximación asintótica;
ambos evalúan la misma hipótesis nula de independencia.

Por esta razón, en la práctica es frecuente reportar el chi-cuadrado de Pearson, y en análisis más avanzados complementar con \(G^2\).

8 Ejercicio aplicado 1: sexo y formalidad laboral

8.1 Planteamiento del problema

Supóngase que, en una encuesta ficticia a personas ocupadas asalariadas del sector privado no agropecuario, se desea evaluar si la formalidad laboral está asociada al sexo.

Se observa la siguiente tabla:

Sexo	Formal	Informal	Total
Hombres	180	120	300
Mujeres	150	150	300
Total	330	270	600

La pregunta de investigación es:

¿La condición de formalidad laboral es independiente del sexo?

8.2 Formulación de hipótesis

\[ H_0: \text{el sexo y la formalidad laboral son independientes} \]

\[ H_1: \text{el sexo y la formalidad laboral no son independientes} \]

8.3 Cálculo de frecuencias esperadas

Bajo independencia:

\[ E_{ij} = \frac{n_{i.}n_{.j}}{n} \]

Por ejemplo, para Hombres-Formal:

\[ E_{11} = \frac{300\times 330}{600} = 165 \]

Para Hombres-Informal:

\[ E_{12} = \frac{300\times 270}{600} = 135 \]

De manera análoga:

Mujeres-Formal: \(E_{21}=165\)
Mujeres-Informal: \(E_{22}=135\)

La tabla esperada es:

Sexo	Formal	Informal
Hombres	165	135
Mujeres	165	135

8.4 Cálculo manual del chi-cuadrado

\[ X^2 = \sum \frac{(n_{ij}-E_{ij})^2}{E_{ij}} \]

Sustituyendo:

\[ X^2 = \frac{(180-165)^2}{165} + \frac{(120-135)^2}{135} + \frac{(150-165)^2}{165} + \frac{(150-135)^2}{135} \]

\[ X^2 = \frac{225}{165} + \frac{225}{135} + \frac{225}{165} + \frac{225}{135} \]

\[ X^2 \approx 1.364 + 1.667 + 1.364 + 1.667 = 6.061 \]

Los grados de libertad son:

\[ gl=(2-1)(2-1)=1 \]

8.5 Cálculo manual de la razón de máxima verosimilitud

\[ G^2 = 2\sum n_{ij}\log\left(\frac{n_{ij}}{E_{ij}}\right) \]

Sustituyendo los valores:

\[ G^2 = 2\Bigg[180\log\left(\frac{180}{165}\right) + 120\log\left(\frac{120}{135}\right) + 150\log\left(\frac{150}{165}\right) + 150\log\left(\frac{150}{135}\right)\Bigg] \]

El resultado numérico es cercano a:

\[ G^2 \approx 6.10 \]

8.6 Resolución en R

tabla1 <- matrix(
  c(180, 120,
    150, 150),
  nrow = 2,
  byrow = TRUE
)

rownames(tabla1) <- c("Hombres", "Mujeres")
colnames(tabla1) <- c("Formal", "Informal")

tabla1

##         Formal Informal
## Hombres    180      120
## Mujeres    150      150

prueba_chi_1 <- chisq.test(tabla1, correct = FALSE)
prueba_chi_1

## 
##  Pearson's Chi-squared test
## 
## data:  tabla1
## X-squared = 6.0606, df = 1, p-value = 0.01382

prueba_chi_1$expected

##         Formal Informal
## Hombres    165      135
## Mujeres    165      135

observadas_1 <- tabla1
esperadas_1 <- prueba_chi_1$expected

G2_1 <- 2 * sum(observadas_1 * log(observadas_1 / esperadas_1))
G2_1

## [1] 6.071268

pchisq(G2_1, df = 1, lower.tail = FALSE)

## [1] 0.01373983

8.7 Interpretación

Dado que el valor del estadístico es relativamente alto y el valor-p es menor a 0.05, se rechaza la hipótesis nula de independencia.

En este ejercicio ficticio, existe evidencia estadística de que la formalidad laboral está asociada al sexo. En particular, los hombres presentan una frecuencia de empleo formal superior a la esperada bajo independencia, mientras que las mujeres presentan una frecuencia inferior a la esperada.

Desde una perspectiva de mercado laboral, este tipo de resultado podría interpretarse como una señal de segmentación en el acceso a puestos asalariados formales.

9 Ejercicio aplicado 2: nivel educativo y participación en capacitación laboral

9.1 Planteamiento del problema

Supóngase ahora una encuesta ficticia a personas ocupadas de 18 a 29 años. Se desea evaluar si la participación en cursos de capacitación laboral durante los últimos 12 meses es independiente del nivel educativo alcanzado.

La tabla observada es:

Nivel educativo	Participó	No participó	Total
Hasta secundaria	70	130	200
Terciaria / univers.	110	90	200
Total	180	220	400

9.2 Hipótesis

\[ H_0: \text{el nivel educativo y la participación en capacitación son independientes} \]

\[ H_1: \text{existe asociación entre ambas variables} \]

9.3 Resolución en R

tabla2 <- matrix(
  c(70, 130,
    110, 90),
  nrow = 2,
  byrow = TRUE
)

rownames(tabla2) <- c("Hasta secundaria", "Terciaria/Universitaria")
colnames(tabla2) <- c("Participo", "No participo")

tabla2

##                         Participo No participo
## Hasta secundaria               70          130
## Terciaria/Universitaria       110           90

prueba_chi_2 <- chisq.test(tabla2, correct = FALSE)
prueba_chi_2

## 
##  Pearson's Chi-squared test
## 
## data:  tabla2
## X-squared = 16.162, df = 1, p-value = 5.816e-05

prueba_chi_2$expected

##                         Participo No participo
## Hasta secundaria               90          110
## Terciaria/Universitaria        90          110

observadas_2 <- tabla2
esperadas_2 <- prueba_chi_2$expected

G2_2 <- 2 * sum(observadas_2 * log(observadas_2 / esperadas_2))
G2_2

## [1] 16.27687

pchisq(G2_2, df = 1, lower.tail = FALSE)

## [1] 5.472794e-05

9.4 Interpretación

Si el valor-p es menor que 0.05, se concluye que la participación en capacitación no es independiente del nivel educativo.

En este ejemplo, la proporción de participación en cursos es mayor entre quienes tienen educación terciaria o universitaria. En términos sustantivos, esto podría reflejar desigualdades en el acceso a oportunidades de formación laboral, lo que a su vez puede profundizar brechas de inserción y movilidad ocupacional.

10 Ejercicio aplicado 3: sector económico y tipo de contrato

10.1 Planteamiento del problema

Se releva información ficticia de personas asalariadas privadas y se clasifica a cada una según el sector económico y el tipo de contrato.

Sector	Permanente	Temporal	Sin contrato escrito	Total
Industria	90	30	20	140
Comercio	70	50	40	160
Servicios	80	60	60	200
Total	240	140	120	500

La pregunta es si el tipo de contrato es independiente del sector económico.

10.2 Resolución en R

tabla3 <- matrix(
  c(90, 30, 20,
    70, 50, 40,
    80, 60, 60),
  nrow = 3,
  byrow = TRUE
)

rownames(tabla3) <- c("Industria", "Comercio", "Servicios")
colnames(tabla3) <- c("Permanente", "Temporal", "Sin escrito")

tabla3

##           Permanente Temporal Sin escrito
## Industria         90       30          20
## Comercio          70       50          40
## Servicios         80       60          60

prueba_chi_3 <- chisq.test(tabla3, correct = FALSE)
prueba_chi_3

## 
##  Pearson's Chi-squared test
## 
## data:  tabla3
## X-squared = 22.624, df = 4, p-value = 0.0001505

prueba_chi_3$expected

##           Permanente Temporal Sin escrito
## Industria       67.2     39.2        33.6
## Comercio        76.8     44.8        38.4
## Servicios       96.0     56.0        48.0

observadas_3 <- tabla3
esperadas_3 <- prueba_chi_3$expected

G2_3 <- 2 * sum(observadas_3 * log(observadas_3 / esperadas_3))
G2_3

## [1] 22.93689

gl_3 <- (nrow(tabla3) - 1) * (ncol(tabla3) - 1)
pchisq(G2_3, df = gl_3, lower.tail = FALSE)

## [1] 0.0001303554

10.3 Interpretación

En una tabla de dimensión \(3 \times 3\), los grados de libertad son:

\[ gl=(3-1)(3-1)=4 \]

Si el valor-p resulta pequeño, se concluye que el tipo de contrato difiere según el sector económico.

En términos laborales, ello podría reflejar que ciertos sectores concentran mayor estabilidad contractual, mientras que otros presentan una mayor incidencia de vínculos temporales o relaciones laborales más precarias.

11 Cómo reportar los resultados

Una redacción técnica breve puede adoptar la siguiente estructura:

Se aplicó una prueba chi-cuadrado de independencia para evaluar la asociación entre el sexo y la condición de formalidad laboral. Los resultados evidenciaron una asociación estadísticamente significativa entre ambas variables (\(X^2 = 6.06\), \(gl = 1\), \(p < 0.05\)). De manera consistente, el estadístico de razón de máxima verosimilitud también indicó asociación (\(G^2 \approx 6.10\), \(gl = 1\), \(p < 0.05\)).

12 Recomendaciones

Una prueba significativa indica asociación estadística, pero no informa por sí sola:

la dirección de la asociación;
su intensidad;
su relevancia sustantiva.

Por ello, luego de la prueba conviene complementar con:

análisis de porcentajes por fila o por columna;
comparación entre frecuencias observadas y esperadas;
estudio de residuos estandarizados;
medidas de asociación, como \(\phi\), V de Cramer o coeficientes específicos en tablas \(2 \times 2\).

13 Ejercicios propuestos

13.1 Ejercicio 1

En una muestra ficticia de jóvenes de 18 a 24 años se observa la siguiente tabla sobre desempleo y sexo:

Sexo	Desocupado	Ocupado	Total
Hombres	45	255	300
Mujeres	70	230	300
Total	115	485	600

Se solicita:

plantear \(H_0\) y \(H_1\);
calcular las frecuencias esperadas;
obtener manualmente el estadístico \(X^2\);
calcular \(G^2\) en R;
interpretar el resultado en términos del mercado laboral juvenil.

13.2 Ejercicio 2

En una muestra ficticia de ocupados asalariados se releva la relación entre tamaño de empresa y acceso a seguro de salud laboral:

Tamaño de empresa	Tiene seguro	No tiene	Total
Microempresa	30	120	150
Pequeña	60	90	150
Mediana y grande	120	30	150
Total	210	240	450

Se solicita realizar la prueba de independencia con ambos estadísticos e interpretar el resultado.

14 Mensaje metodológico final

La prueba de independencia en tablas de contingencia es una herramienta fundamental para analizar relaciones entre variables categóricas. Tanto el estadístico chi-cuadrado de Pearson como la razón de máxima verosimilitud \(G^2\) permiten contrastar si las diferencias observadas en la muestra son compatibles con independencia o si, por el contrario, aportan evidencia de asociación.

En aplicaciones del mercado laboral, estas pruebas resultan especialmente útiles para estudiar desigualdades y segmentaciones vinculadas a la formalidad, la capacitación, la estabilidad contractual, la protección social o la inserción ocupacional de distintos grupos poblacionales.

Nota metodológica: La presente guía fue elaborada con apoyo de herramientas de inteligencia artificial generativa, específicamente ChatGPT de OpenAI, como asistencia en la estructuración y redacción del material. La selección de contenidos, la validación conceptual y la revisión final son responsabilidad del docente.

15 Bibliografía

Agresti, A. An Introduction to Categorical Data Analysis.
Agresti, A. Categorical Data Analysis.
Friendly, M. y Meyer, D. Discrete Data Analysis with R.
Everitt, B. The Analysis of Contingency Tables.

Inferencia estadística para tablas de contingencia

Prueba de independencia: chi-cuadrado y razón de máxima verosimilitud

Prof. Diego Sanabria

30/03/2026