Es una prueba estadística utilizada para evaluar la independencia entre dos variables categóricas en una tabla de contingencia. Se compara la frecuencia observada de ocurrencias en cada celda de la tabla con la frecuencia que se esperaría si las dos variables fueran independientes.
Fórmula:
La estadística de prueba \(x^2\) se calcula utilizando la fórmula:
\(χ2=∑\frac{(Oij−Eij)}{2Eij}\)
Donde: \(-Oij\) es la frecuencia observada en la celda \(ij\). -E\(ij\) es la frecuencia esperada en la celda \(ij\) .
Esta fórmula se utiliza para evaluar la independencia entre dos variables categóricas en una tabla de contingencia. La prueba de chi-cuadrado compara las frecuencias observadas con las frecuencias esperadas bajo la hipótesis nula de independencia entre las variables. Puedes copiar y pegar este fragmento de código en tu documento R Markdown para incluir la fórmula.
Ejemplo
Se toma una muestra aleatoria de 100 personas de la comuna 13 de medellin en donde se les pregunta su color favorito entre 3 opciones (Rojo, Azul, Verde).
Hipotesis
H0 = La preferencia de color no depende del genero.
H1 = La preferencia de color depende del genero.
set.seed(123) # Establecer una semilla para reproducibilidad
datos <- data.frame(
Genero = rep(c("Hombre", "Mujer"), times = 50),
Preferencia = sample(c("Rojo", "Azul", "Verde"), size = 100, replace = TRUE)
)
# Crear una tabla de contingencia
tabla_contingencia <- table(datos$Genero, datos$Preferencia)
# Mostrar la tabla de contingencia
print(tabla_contingencia)
##
## Azul Rojo Verde
## Hombre 14 16 20
## Mujer 18 17 15
# Realizar la prueba de Chi-cuadrado
resultado_chi_cuadrado <- chisq.test(tabla_contingencia)
print(resultado_chi_cuadrado)
##
## Pearson's Chi-squared test
##
## data: tabla_contingencia
## X-squared = 1.2446, df = 2, p-value = 0.5367
Estadística de Prueba: El valor de la estadística de prueba chi-cuadrado es 1.2446.
Grados de Libertad (df): Hay 2 grados de libertad en este caso.
Valor p (p-value): El valor p asociado con la prueba de chi-cuadrado es 0.5367.
La hipótesis nula H0 en la prueba de chi-cuadrado es que no hay relación entre las variables (son independientes).
El valor p es 0.5367., lo cual es mucho mayor que un nivel de significancia común de 0.05. Por lo tanto, no hay evidencia suficiente para rechazar la hipótesis nula.
Análisis de resultados
if (resultado_chi_cuadrado$p.value < 0.05) {
cat("Hay una correlación significativa entre la cantidad de horas de estudio y las calificaciones.")
} else {
cat("No hay suficiente evidencia para afirmar una correlación significativa.")
}
## No hay suficiente evidencia para afirmar una correlación significativa.
La conclusión sería que no hay suficiente evidencia para afirmar que hay una relación significativa entre las variables examinadas (nivel de educación y preferencia por ciertos tipos de películas en tu muestra).
La prueba de Fisher, también conocida como la prueba exacta de Fisher, se utiliza para evaluar la asociación entre dos variables categóricas en una tabla de contingencia. Es una prueba no paramétrica que determina si la distribución marginal de una variable es independiente de la otra.
La fórmula para la prueba de Fisher es:
\(P(X≤a,Y≤b)=\frac {Combinatorio(a+b,a)⋅Combinatorio(n−a,m−b)}{Combinatorio(n,m)}\)
donde:
-n es el total de observaciones
-m es el total de observaciones en una categoría de una variable
-a es la frecuencia observada en una celda
-b es la frecuencia observada en la misma columna
Ejemplo
Se toma una muestra aleatoria de 100 personas de la comuna 13 de medellin en donde se les pregunta su color favorito entre 3 opciones (Rojo, Verde).
Hipotesis
H0 = La preferencia de color no depende del genero.
H1 = La preferencia de color depende del genero.
# Crear una tabla de contingencia
tabla_contingencia <- matrix(c(10, 15, 20, 5), nrow = 2)
colnames(tabla_contingencia) <- c("Rojo", "Verde")
rownames(tabla_contingencia) <- c("Hombres", "Mujeres")
print(tabla_contingencia)
## Rojo Verde
## Hombres 10 20
## Mujeres 15 5
resultado_fisher <- fisher.test(tabla_contingencia)
print(resultado_fisher)
##
## Fisher's Exact Test for Count Data
##
## data: tabla_contingencia
## p-value = 0.008579
## alternative hypothesis: true odds ratio is not equal to 1
## 95 percent confidence interval:
## 0.03759768 0.68195287
## sample estimates:
## odds ratio
## 0.1734609
Analisis de los resultados:
# Análisis de resultados
if (resultado_fisher$p.value < 0.05) {
cat("Hay una asociación significativa entre el género y la preferencia de color.")
} else {
cat("No hay suficiente evidencia para afirmar una asociación significativa.")
}
## Hay una asociación significativa entre el género y la preferencia de color.