La distribución chi-cuadrado es fundamental en estadística, especialmente para pruebas de hipótesis y análisis de varianza. Su gráfica característica, con una cola derecha, se utiliza para evaluar la bondad de ajuste de un modelo a los datos o la independencia entre variables categóricas.
Ejemplo:
Se quiere saber si existe una relación entre el género de una persona y su preferencia por un tipo de transporte (carro, moto o bicicleta). Para esto, se Realiza una encuesta, de la se obtienen los siguientes resultados:
# Datos en formato de lista
genero <- c("Hombre", "Mujer")
tipo_transporte <- c("Carro", "Moto", "Bicicleta")
frecuencias <- c(30, 20, 10, 25, 15, 5)
# Crear una tabla de contingencia (opcional, para mayor claridad)
tabla_contingencia <- matrix(unlist(frecuencias), nrow = length(genero), byrow = TRUE)
colnames(tabla_contingencia) <- tipo_transporte
rownames(tabla_contingencia) <- genero
print(tabla_contingencia)
## Carro Moto Bicicleta
## Hombre 30 20 10
## Mujer 25 15 5
# Realizar la prueba de chi-cuadrado
resultado_chi <- chisq.test(tabla_contingencia)
grados_libertad <- resultado_chi$parameter
# Crear el gráfico de la distribución chi-cuadrado
curve(dchisq(x, df = grados_libertad), from = 0, to = 20,
xlab = "Valor de chi-cuadrado", ylab = "Densidad",
main = "Distribución Chi-Cuadrado") #Dibuja la función de densidad de probabilidad de la distribución chi-cuadrado con los grados de libertad calculados.
# Agregar una línea vertical para el estadístico de prueba
abline(v = resultado_chi$statistic, col = "red") #Agrega una línea vertical en el valor del estadístico de prueba calculado.
La curva representa la distribución chi-cuadrado teórica para los grados de libertad obtenidos. El número de grados de libertad determina la forma de la distribución chi-cuadrado. A mayor número de grados de libertad, la distribución se aproxima más a una distribución normal.
Por otro lado, la línea vertical roja indica el valor del estadístico de prueba obtenido a partir de los datos. Si la línea vertical cae en una región de baja probabilidad (extremo derecho de la curva), se rechaza la hipótesis nula de independencia y se concluye que existe una asociación entre el género y la preferencia por el tipo de transporte, pero este no es el caso.