CHI CUADRADO

Es una prueba estadística utilizada para evaluar la independencia entre dos variables categóricas en una tabla de contingencia. Se compara la frecuencia observada de ocurrencias en cada celda de la tabla con la frecuencia que se esperaría si las dos variables fueran independientes.

Fórmula:

La estadística de prueba \(x^2\) se calcula utilizando la fórmula:

\(χ2=∑\frac{(Oij−Eij)}{2Eij}\)

Donde: \(-Oij\) es la frecuencia observada en la celda \(ij\). -E\(ij\) es la frecuencia esperada en la celda \(ij\) .

Esta fórmula se utiliza para evaluar la independencia entre dos variables categóricas en una tabla de contingencia. La prueba de chi-cuadrado compara las frecuencias observadas con las frecuencias esperadas bajo la hipótesis nula de independencia entre las variables. Puedes copiar y pegar este fragmento de código en tu documento R Markdown para incluir la fórmula.

Ejemplo

Se toma una muestra aleatoria de 100 personas de la comuna 13 de medellin en donde se les pregunta su color favorito entre 3 opciones (Rojo, Azul, Verde).

Hipotesis

H0 = La preferencia de color no depende del genero.

H1 = La preferencia de color depende del genero.

set.seed(123)  # Establecer una semilla para reproducibilidad
datos <- data.frame(
  Genero = rep(c("Hombre", "Mujer"), times = 50),
  Preferencia = sample(c("Rojo", "Azul", "Verde"), size = 100, replace = TRUE)
)

# Crear una tabla de contingencia
tabla_contingencia <- table(datos$Genero, datos$Preferencia)

# Mostrar la tabla de contingencia
print(tabla_contingencia)
##         
##          Azul Rojo Verde
##   Hombre   14   16    20
##   Mujer    18   17    15
# Realizar la prueba de Chi-cuadrado
resultado_chi_cuadrado <- chisq.test(tabla_contingencia)
print(resultado_chi_cuadrado)
## 
##  Pearson's Chi-squared test
## 
## data:  tabla_contingencia
## X-squared = 1.2446, df = 2, p-value = 0.5367

Estadística de Prueba: El valor de la estadística de prueba chi-cuadrado es 1.2446.

Grados de Libertad (df): Hay 2 grados de libertad en este caso.

Valor p (p-value): El valor p asociado con la prueba de chi-cuadrado es 0.5367.

La hipótesis nula H0 en la prueba de chi-cuadrado es que no hay relación entre las variables (son independientes).

El valor p es 0.5367., lo cual es mucho mayor que un nivel de significancia común de 0.05. Por lo tanto, no hay evidencia suficiente para rechazar la hipótesis nula.

Análisis de resultados

if (resultado_chi_cuadrado$p.value < 0.05) {
  cat("Hay una correlación significativa entre la cantidad de horas de estudio y las calificaciones.")
} else {
  cat("No hay suficiente evidencia para afirmar una correlación significativa.")
}
## No hay suficiente evidencia para afirmar una correlación significativa.

La conclusión sería que no hay suficiente evidencia para afirmar que hay una relación significativa entre las variables examinadas (nivel de educación y preferencia por ciertos tipos de películas en tu muestra).

Fisher

La prueba de Fisher, también conocida como la prueba exacta de Fisher, se utiliza para evaluar la asociación entre dos variables categóricas en una tabla de contingencia. Es una prueba no paramétrica que determina si la distribución marginal de una variable es independiente de la otra.

La fórmula para la prueba de Fisher es:

\(P(X≤a,Y≤b)=\frac {Combinatorio(a+b,a)⋅Combinatorio(n−a,m−b)}{Combinatorio(n,m)}\)

donde:

-n es el total de observaciones

-m es el total de observaciones en una categoría de una variable

-a es la frecuencia observada en una celda

-b es la frecuencia observada en la misma columna

Ejemplo

Se toma una muestra aleatoria de 100 personas de la comuna 13 de medellin en donde se les pregunta su color favorito entre 3 opciones (Rojo, Verde).

Hipotesis

H0 = La preferencia de color no depende del genero.

H1 = La preferencia de color depende del genero.

# Crear una tabla de contingencia
tabla_contingencia <- matrix(c(10, 15, 20, 5), nrow = 2)
colnames(tabla_contingencia) <- c("Rojo", "Verde")
rownames(tabla_contingencia) <- c("Hombres", "Mujeres")
print(tabla_contingencia)
##         Rojo Verde
## Hombres   10    20
## Mujeres   15     5
resultado_fisher <- fisher.test(tabla_contingencia)
print(resultado_fisher)
## 
##  Fisher's Exact Test for Count Data
## 
## data:  tabla_contingencia
## p-value = 0.008579
## alternative hypothesis: true odds ratio is not equal to 1
## 95 percent confidence interval:
##  0.03759768 0.68195287
## sample estimates:
## odds ratio 
##  0.1734609

Analisis de los resultados:

# Análisis de resultados
if (resultado_fisher$p.value < 0.05) {
  cat("Hay una asociación significativa entre el género y la preferencia de color.")
} else {
  cat("No hay suficiente evidencia para afirmar una asociación significativa.")
}
## Hay una asociación significativa entre el género y la preferencia de color.