Práctica 11. Prueba de Independencia (χ²)

Introducción

Hemos explorado cómo las frecuencias observadas pueden alinearse con expectativas teóricas o compararse entre diferentes poblaciones. Ahora, la Prueba de Independencia (χ²) nos permite responder a una pregunta fundamental en el análisis de datos: “¿Existe una relación o asociación entre dos variables categóricas dentro de una misma población?”

Por ejemplo, ¿la preferencia por un cierto tipo de comida para perros está asociada con la raza del perro? ¿El sexo de un animal influye en su respuesta a un tratamiento? Esta prueba nos ayuda a determinar si las categorías de una variable están distribuidas de la misma manera en las categorías de otra variable, o si, por el contrario, hay una dependencia entre ellas.

Objetivo

Al finalizar esta práctica, serás capaz de:

Comprender el concepto de independencia estadística entre variables categóricas. Formular las hipótesis nula y alternativa para una prueba de independencia. Construir e interpretar una tabla de contingencia (o tabla de frecuencias cruzadas). Realizar e interpretar una prueba de independencia en R. Determinar si existe una asociación estadísticamente significativa entre dos variables categóricas.

Desarrollo de la Práctica

Marco Conceptual

La prueba de independencia, al igual que las otras pruebas Chi-cuadrada, se basa en la comparación de frecuencias observadas y frecuencias esperadas. La diferencia clave aquí es cómo calculamos esas frecuencias esperadas. Para la prueba de independencia, las frecuencias esperadas son los conteos que veríamos en cada celda de nuestra tabla si las dos variables fueran realmente independientes.

Hipótesis Nula (H₀): Las dos variables categócas son independientes en la población. No hay asociación entre ellas. (Ej: “La raza del perro es independiente de si desarrolla o no una alergia”).

Hipótesis Alternativa (H₁): Las dos variables categóricas no son independientes en la población. Existe una asociación o relación entre ellas. (Ej: “La raza del perro está asociada con el desarrollo de alergias”).

El estadístico Chi-cuadrada (χ²) se calculará y, a partir de él, obtendremos un p-valor.

Si el p-valor < 0.05, rechazamos H₀. Concluimos que hay una asociación estadísticamente significativa entre las dos variables.

Si el p-valor ≥ 0.05, no rechazamos H₀. No hay suficiente evidencia para concluir que existe una asociación.

Paso 1: Preparación de Datos y Ejecución de la Prueba

Pregunta de investigación: En una muestra de 150 gatos, ¿existe una asociación entre su raza (Siamés vs. Común) y si presentan o no una enfermedad respiratoria (Presente vs. Ausente)?

H₀: La raza del gato y la presencia de la enfermedad respiratoria son independientes (no hay asociación).

H₁: La raza del gato y la presencia de la enfermedad respiratoria están asociadas.

#CREAR UNA TABLA DE CONTINGENCIA
#Una tabla de contingencia organiza los conteos de dos variables categóricas.
#Las filas representan las categorías de una variable (Raza), y las columnas las de la otra (Enfermedad).
datos_gatos <- matrix(c(15, 60, 25, 50), nrow = 2, byrow = TRUE,
dimnames = list(Raza = c("Siamés", "Común"),
Enfermedad = c("Presente", "Ausente")))

#Es crucial inspeccionar la tabla para entender los datos observados
print("Tabla de Contingencia de Datos Observados:")
print(datos_gatos)

Paso 2. Realizar la prueba de CHI-CUADRADA

Usamos la función chisq.test() directamente sobre nuestra tabla de contingencia.

resultado_indep <- chisq.test(datos_gatos)

Paso 3. Mostrar los resultados completos

print(resultado_indep)
#También podemos pedir las frecuencias esperadas, que son la base de la prueba
print("Frecuencias Esperadas (si las variables fueran independientes):")
print(resultado_indep$expected)

Paso 4. Interpretación de resultados

Analicemos la salida clave de la consola:

Pearson's Chi-squared test with Yates' continuity correction

data: datos_gatos
X-squared = 4.0909, df = 1, p-value = 0.04312

Interpretación del valor p: Nuestro p-value es 0.04312.

Como 0.04312 es menor que 0.05, tenemos evidencia estadística para rechazar la hipótesis nula (H₀). Respuesta a la pregunta de investigación:

Rechazar la H₀ significa que la raza del gato y la presencia de la enfermedad respiratoria no son independientes.

Conclusión: “Existe una asociación estadísticamente significativa entre la raza del gato y la presencia de la enfermedad respiratoria en esta población. Al observar las frecuencias, parece que los gatos Comunes tienen una proporción de enfermedad presente mayor de lo que se esperaría si la raza no importara.”

Cuestionario:

Pregunta 1: Explica con tus propias palabras qué significa que dos variables categóricas sean “independientes”.

Pregunta 2: En la salida de la prueba, ¿por qué el p-value es clave para nuestra decisión? ¿Qué nos diría un p-value de 0.08 en este contexto?

Pregunta 3: Compara la celda “Raza Común, Enfermedad Presente” en la tabla de observados y en la tabla de esperados. ¿Qué observas y cómo se alinea con la conclusión de la prueba?

Pregunta 4: ¿Cuál es la principal diferencia conceptual entre la Prueba de Homogeneidad (Práctica 9A) y la Prueba de Independencia (Práctica 9C), a pesar de que ambas usan la misma función chisq.test() en R?

Pregunta 5: ¿Qué te indica el valor de df (grados de libertad) en la prueba de independencia? ¿Cómo se calcula? (Pista: (número de filas - 1) * (número de columnas - 1)).

“PROYECTO PAPIME PE215125 DESARROLLO DE MATERIAL DE PRÁCTICAS Y APOYO AUDIOVISUAL PARA LA ASIGNATURA DE MÉTODOS ESTADÍSTICOS EN MEDICINA VETERINARIA Y ZOOTECNIA”

Los autores y participantes agradecen al Programa de Apoyo a Proyectos para Innovar y Mejorar la Educación (PAPIME) de la Universidad Nacional Autónoma de México, por el apoyo brindado, el cual fue fundamental para el éxito de este proyecto. Así como a la Facultad de Medicina Veterinaria y Zootecnia y al Departamento de Genética y Bioestadística.

Héctor Alexander Camarena Ledesma, Jessica González Perea, Ángel Moisés Rentería López, Marco Antonio Alvarado Salas, Argelia Ximena Hernández Recio, Carlos Leonardo Pérez Cuenca, Fabiola Asunción Flores Figueroa, Braulio Herrera Ramírez, Areli Maldonado Fernández, Arenas Escamilla Daniel, Pineda Alatriste Saúl, Rogers Montoya Nathaniel Alec, Noé Orlando Juárez López, Daniel Alonso Domínguez Olvera.