Código
library(tidyverse)
library(ggsci)
library(ggmosaic)De la teoría a la práctica
La prueba exacta de Fisher es una prueba estadística utilizada frecuentemente para evaluar la asociación entre dos variables categóricas en una tabla de contingencia de \(2 \times 2\), especialmente cuando las frecuencias esperadas son bajas y no se pueden aplicar las aproximaciones de la prueba chi-cuadrada. A diferencia de la chi-cuadrada, que se basa en aproximaciones, la prueba exacta de Fisher calcula exactamente la probabilidad de observar una tabla de contingencia dada, bajo la hipótesis nula de independencia entre las variables.
La prueba se basa en la distribución hipergeométrica y calcula un \(valor\ p\) que se utiliza para determinar si se puede rechazar la hipótesis nula. A diferencia de otros tests, la prueba exacta de Fisher no depende de grandes muestras ni de la aproximación de la distribución, lo que la hace ideal para datos con pequeñas frecuencias1 2.
El desarrollo de la teoría se basa en la sección 4.1 del texto Practical Nonparametric Statistics1
Se tienen \(N\) observaciones resumidas en una tabla de contingencia de \(2 \times 2\). Los totales de fila, \(r\) y \(N - r\), y de columna, \(c\) y \(N - c\), están determinados de antemano; por lo tanto, se consideran fijos.
\[ \begin{array}{c|cc|c} & \text{Columna 1} & \text{Columna 2} & \\ \hline \text{Fila 1} & x & r - x & r \\ \text{Fila 2} & c - x & N - r - c + x & N - r \\ \hline & c & N - c & N \\ \end{array} \]
Se define el estadístico de prueba \(T\) como el número de observaciones en la celda de la Fila 1 y Columna 1. En consecuencia, la distribución exacta de \(T\) bajo la hipótesis nula \(H_0\) está dada por la distribución hipergeométrica:
\[ P(T = x) = \left\{ \begin{array}{ll} \dfrac{\dbinom{r}{x} \dbinom{N - r}{c - x}}{\dbinom{N}{c}}, & \text{si } x = 0, 1, \ldots, \min(r,\ c) \\[8pt] 0, & \text{en otro caso} \end{array} \right. \tag{1} \]
Se definen las siguientes probabilidades y valor observado:
\[ \begin{aligned} H_0\!: &\quad p_1 = p_2 \\ H_1\!: &\quad p_1 \neq p_2 \end{aligned} \]
Se calcula el \(\text{valor }p\) usando la Ecuación (1). El \(\text{valor }p\) es el doble del menor entre \(P(T \leq t)\) y \(P(T \geq t)\). Se rechaza \(H_0\) al nivel de significancia \(\alpha\) si el \(\text{valor }p\) es menor o igual que \(\alpha\).
\[ \begin{aligned} H_0\!: &\quad p_1 \geq p_2 \\ H_1\!: &\quad p_1 < p_2 \end{aligned} \]
El \(\text{valor }p\) se calcula como \(P(T \leq t)\) usando la Ecuación (1). Se rechaza \(H_0\) a un nivel de significancia \(\alpha\) si \(P(T \leq t) \leq \alpha\).
\[ \begin{aligned} H_0\!: &\quad p_1 \leq p_2 \\ H_1\!: &\quad p_1 > p_2 \end{aligned} \]
El \(\text{valor }p\) se calcula como \(P(T \geq t)\) usando la Ecuación (1). Se rechaza \(H_0\) a un nivel de significancia \(\alpha\) si \(P(T \geq t) \leq \alpha\).
Como se comentó, en la reseña, la prueba exacta de Fisher se puede usar para corroborar la asociación de dos variables aleatorias discretas; para este caso se hace la siguiente reformulación respecto a Filas y Columnas. Sean \(F\) y \(C\) variables aleatorias discretas que solo pueden tomar dos valores, es decir,
\[ \begin{aligned} F(\Omega_F) = \{f_1,\, f_2\}, &\quad \text{con}\; f_1 \neq f_2 \quad \text{y}\\ C(\Omega_C) = \{c_1,\, c_2\}, &\quad \text{con}\; c_1 \neq c_2 \end{aligned} \tag{2} \]
donde \(\Omega_F\) y \(\Omega_C\) son los espacios muestrales respectivos. Entonces, \(F\) modela los valores que se pueden tomar respecto a Fila y análogamente \(C\) respecto a Columna.
Como observación, si se toma la expresión (2) se obtiene:
\[ \begin{aligned} P(F = f_1)\; +\; & P(F = f_2) = 1 \quad \text{y}\\ P(C = c_1)\; +\; & P(C = c_2) = 1. \end{aligned} \tag{3} \]
Nota: no confundir los valores de tabla de contingencia \(x\), \(c-x\), \(r-x\) y \(N-r-c+x\) con aquellos que pueden tomar las variables aleatorias \(F\) y \(C\).
Bajo el supuesto de la hipótesis nula y las expresiones (2), (3) se demuestra que las variables aleatorias que definen los valores a tomar en Columna y Fila, son independientes. En consecuencia, la definición de probabilidades \(p_1\), \(p_2\) y el supuesto de \(H_0\) es una condición suficiente que prueba la independencia de las variables aleatorias \(F\) y \(C\).
Bajo la observación del párrafo anterior se puede reescribir el juego de hipótesis de la siguiente manera:
\[ \begin{aligned} H_0\!: &\quad F \; \text{y} \; C \; \text {son independientes} \\ H_1\!: &\quad F \; \text{y} \; C \; \text {no son independientes} \end{aligned} \]
Se aborda la práctica mediante la resolución de un ejercicio con el software estadístico R; para una mejor experiencia se sugiere el uso del IDE RStudio.
Se deben cargar las bibliotecas necesarias. En caso de no tener instalados los paquetes, consultar aquí.
library(tidyverse)
library(ggsci)
library(ggmosaic)De la sección 8.5 de Nonparametric Statistics: A Step‑by‑Step Approach3 se toma el siguiente problema.
Un pequeño centro médico aplicó una encuesta para determinar la actitud de disposición de su personal de enfermería para atender a pacientes. La encuesta consistió en una escala de Likert de 15 ítems, con dos opciones positivas, dos negativas y una opción neutral. El estudio se realizó con el propósito de comparar las percepciones entre hombres y mujeres.
Cada persona fue clasificada de acuerdo con una actitud total, determinada por la suma de los valores asignados a cada ítem de la encuesta. La actitud máxima positiva era de +33, y la actitud máxima negativa de −33.
Las Tablas Tabla 1 y Tabla 2 muestran el número de hombres y mujeres que presentaron actitudes positivas o negativas respecto a su preparación. Participaron cinco hombres y seis mujeres. Cuatro de los hombres obtuvieron resultados positivos en la encuesta, mientras que solo una de las mujeres tuvo un resultado positivo.
Determinar si existe una diferencia en la actitud entre hombres y mujeres respecto a su preparación para atender a los pacientes.
Los datos objeto de análisis se presentan en el siguiente tribble:
data_source_exercise_1 <- tribble(
~Participante, ~Género, ~Puntaje, ~Actitud,
1, "Hombre", "+30", "+",
2, "Hombre", "+14", "+",
3, "Hombre", "-21", "−",
4, "Hombre", "+22", "+",
5, "Hombre", "+9" , "+",
6, "Mujer", "-22", "−",
7, "Mujer", "-13", "−",
8, "Mujer", "-20", "−",
9, "Mujer", "-7" , "−",
10, "Mujer", "+19", "+",
11, "Mujer", "-31", "−"
)
data_main_exercise_1 <- data_source_exercise_1 %>%
select(Actitud, Género) %>%
mutate(Actitud = str_replace_all(
Actitud,
c("−" = "Negativa", "\\+" = "Positiva")
))El gráfico de mosaicos Figura 1 proporciona un primer análisis exploratorio y una interpretación visual de la información.
data_main_exercise_1 %>%
ggplot() +
geom_mosaic(
aes(x = product(Actitud, Género), fill = Actitud),
show.legend = FALSE
) +
scale_fill_npg() +
labs(x = 'Género', y = 'Actitud') +
theme_minimal() +
theme(
plot.title = element_text(vjust = 3),
axis.title.x = element_text(vjust = -5),
axis.title.y = element_text(vjust = 7),
plot.margin = margin(t = 10, r = 10, b = 30, l = 30)
)La hipótesis nula establece que no hay diferencias entre hombres y mujeres en la encuesta de actitud que mide las percepciones sobre el programa de enseñanza para el cuidado de pacientes.
La hipótesis alternativa plantea que la proporción de hombres con actitudes positivas, \(p_{_H}\), distinta a la proporción de mujeres con actitudes positivas, \(p_{_M}\).
Las hipótesis se expresan de la siguiente manera:
\[ \begin{aligned} H_0\!: &\quad p_{_H} = p_{_M} \\ H_A\!: &\quad p_{_H} \neq p_{_M} \end{aligned} \]
En este ejemplo se usará \(\alpha = 0.05\), en otras palabras, existe un 95% de probabilidad de que cualquier diferencia estadística observada sea real y no producto del azar.
data_main_exercise_1 %>%
table() %>%
fisher.test(alternative = "two.side")Con un \(\text{valor }p = 0.08\), no se rechaza la hipótesis nula, lo que sugiere que no existe una diferencia real entre las actitudes de hombres y mujeres respecto a su preparación para cuidar a los pacientes.
Sin embargo, se obtienen dos conclusiones importantes:
Este tipo de estudio justificaría una investigación adicional con otras muestras para determinar si esta tendencia se manifiesta con mayor claridad.
El análisis proporciona cierta evidencia de que existe alguna diferencia, y si se hubiera analizado con un valor crítico más liberal, como \(\alpha = 0.10\), esta prueba estadística habría mostrado significancia.