hsb2
La inferencia estadística es un componente clave de la estadística que se refiere al proceso de usar datos provenientes de una muestra para sacar conclusiones (inferencias) sobre la población de la cual fue extraída dicha muestra. Básicamente, se trata de hacer declaraciones o predicciones sobre una población basándose en una muestra de dicha población.
La inferencia estadística se puede dividir en dos áreas principales:
Estimación puntual: Aquí se utiliza una estadística de muestra (por ejemplo, la media o la mediana de una muestra) como una estimación de un parámetro desconocido de la población (por ejemplo, la media de la población).
Prueba de hipótesis: En este enfoque, se plantean hipótesis sobre un parámetro poblacional y luego se utiliza la información de la muestra para determinar si hay suficiente evidencia para rechazar una hipótesis nula en favor de una hipótesis alternativa.
La inferencia estadística se apoya en la teoría de probabilidad, especialmente en el concepto de distribuciones de probabilidad. La idea es que, aunque una muestra particular puede no representar exactamente a la población (debido al error de muestreo), al comprender cómo varían las muestras aleatorias, podemos hacer declaraciones probabilísticas sobre la población.
Hay varias técnicas y métodos en inferencia estadística, como:
Intervalos de confianza: Estos proporcionan un rango estimado para un parámetro poblacional. Por ejemplo, en vez de estimar que la media de una población es igual a la media de una muestra, podríamos decir que hay un 95% de confianza de que la media real de la población está entre X1 y X2.
Test de significancia: Ayuda a determinar si un resultado observado en los datos es estadísticamente significativo o si podría haber ocurrido por casualidad.
Regresión y análisis de varianza (ANOVA): Estos métodos permiten explorar y modelar relaciones entre variables.
Es importante recordar que la inferencia estadística tiene limitaciones. Por ejemplo, puede estar sujeta a errores tipo I (falsos positivos) y errores tipo II (falsos negativos). Además, si la muestra no es representativa de la población, la inferencia puede ser incorrecta. Por esta razón, es esencial tener en cuenta tanto el diseño del estudio como la interpretación de los resultados al hacer inferencias estadísticas.
Un intervalo de confianza (IC) es un rango de valores utilizado para estimar un parámetro poblacional, basado en datos de una muestra. El intervalo tiene un nivel de confianza asociado que describe la certeza con la que el intervalo contiene el verdadero parámetro de la población.
Formalmente, un intervalo de confianza del \((1-\alpha) \times 100\%\) para un parámetro poblacional se define de tal manera que, si se repitiera el estudio o experimento muchas veces y se calculara un intervalo de confianza de la misma manera cada vez, el verdadero parámetro poblacional estaría contenido en aproximadamente \((1-\alpha) \times 100\%\) de esos intervalos.
Por ejemplo, un intervalo de confianza del 95% para la media poblacional significa que estamos 95% seguros de que la verdadera media de la población se encuentra dentro de ese intervalo. Esto requiere una serie de supuestos para poder asumir que en el 95 % de las veces si repetimos las muestras este va contener el parámetro poblacional
Nota importante: En la práctica real, especialmente en encuestas complejas, los datos a menudo no cumplen con los supuestos ideales de ser independientes e idénticamente distribuidos (i.i.d.). Las encuestas complejas, como las encuestas a nivel nacional o aquellas que involucran estratificación, conglomerados o ponderaciones, presentan desafíos particulares para la inferencia estadística.
¿Para qué se utiliza en la inferencia estadística?
Estimación: A diferencia de una estimación puntual que da un solo valor como estimado para un parámetro poblacional, el intervalo de confianza proporciona un rango de valores. Esto da una mejor idea de la incertidumbre asociada con la estimación.
Pruebas de hipótesis: Si un valor específico (por ejemplo, un valor bajo la hipótesis nula) no está dentro del intervalo de confianza, se puede rechazar la hipótesis nula al nivel de confianza \((1-\alpha) \times 100\%\).
Comparación de grupos: En estudios clínicos o experimentales, los intervalos de confianza se pueden usar para comparar dos o más grupos. Por ejemplo, si los intervalos de confianza para las medias de dos grupos no se superponen, esto podría indicar una diferencia estadísticamente significativa entre los grupos.
Comunicación de resultados: En la práctica, los investigadores a menudo presentan sus estimaciones junto con los intervalos de confianza porque proporcionan una forma intuitiva y fácil de entender de comunicar tanto la estimación como la incertidumbre asociada con ella.
Decisiones prácticas: En contextos comerciales, de políticas públicas o clínicos, los intervalos de confianza pueden ser utilizados para tomar decisiones informadas. Si un intervalo de confianza para una estimación no incluye valores que serían considerados aceptables o seguros, entonces acciones o cambios podrían ser necesarios.
Es importante recordar que un intervalo de confianza del 95% no significa que haya un 95% de probabilidad de que el parámetro poblacional esté dentro del intervalo. El parámetro es un valor fijo y, o bien está o no está dentro del intervalo. Lo que significa es que, si repitieras el estudio muchas veces, aproximadamente el 95% de los intervalos de confianza calculados contendrían el parámetro real.
Un intervalo de confianza del \((1-\alpha) \times 100\%\) (donde \(\alpha\) es el nivel de significancia) para un parámetro poblacional indica que si tomamos muchas muestras y construimos un IC para cada una de ellas usando el mismo método, esperaríamos que aproximadamente el \((1-\alpha) \times 100\%\) de esos intervalos contenga el verdadero valor del parámetro. La interpretación común (pero incorrecta) más común es decir algo como: “hay un 95% de probabilidad de que el parámetro poblacional se encuentre dentro de este intervalo”. Esta interpretación sería incorrecta porque el parámetro poblacional es un valor fijo; o bien está dentro del intervalo o no lo está. El “95%” se refiere a la proporción de intervalos que capturarían ese parámetro si repetimos el proceso muchas veces. La interpretación correcta sería si obtenemos un IC del 95% para una media poblacional que va de 50 a 60, podríamos decir: “Estamos 95% confiados de que la verdadera media poblacional se encuentra entre 50 y 60”.
El nivel de confianza (como 95% o 99%) es una elección. Un IC del 99% será más amplio que un IC del 95% porque para tener más confianza de que estamos capturando el parámetro real, necesitamos un rango más amplio.
El ancho del intervalo de confianza (IC) es una indicación de la precisión de la estimación del parámetro. Un IC más estrecho sugiere una estimación más precisa, mientras que un IC más amplio indica una mayor incertidumbre. Varios factores pueden afectar el ancho de un IC:
Es importante considerar estos factores al interpretar o establecer intervalos de confianza, ya que proporcionan contexto sobre la precisión y confiabilidad de las estimaciones estadísticas.
La amplitud de un intervalo de confianza se ve influida por factores como la variabilidad de la población, el tamaño de la muestra y el nivel de confianza seleccionado. Dado que no tenemos acceso directo a la variabilidad total de la población, usamos la desviación estándar de la muestra como una estimación cercana. Esta desviación estándar, denotada como \(s\), nos da una idea de cuán alejados están los datos del promedio de la muestra.
Para ajustar este valor según el tamaño de la muestra \(n\), introducimos el concepto de error estándar, que es la desviación estándar dividida por la raíz cuadrada de \(n\). Este error nos muestra la dispersión de los datos en múltiples muestras del mismo tamaño. Es esencial entender que un tamaño de muestra más grande generalmente disminuye el ancho del intervalo de confianza, aunque este efecto se vuelve menos pronunciado a medida que \(n\) crece.
El nivel de confianza, que a menudo se establece en 95%, pero también puede ser 90% o 99%, nos dice cuántas veces, de 100 repeticiones del estudio, esperaríamos que el intervalo capturara el verdadero valor del parámetro de la población. Piensa en este proceso de “captura” como una red: cuanto más confiable sea el resultado que deseamos, más amplia será nuestra red o intervalo de confianza.
De acuerdo con estos factores, determinamos un valor estadístico, generalmente denotado como \(t\), que se relaciona con cómo se distribuyen las medias muestrales. En muchos casos, usamos la distribución t de Student, especialmente cuando estamos tratando con parámetros desconocidos y tamaños de muestra no muy grandes. Como ilustración, con 30 puntos de datos y un 95% de nivel de confianza, \(t\) sería 2.05. Esto significa que suponemos que el 95% de las medias están a no más de 2.05 desviaciones estándar de la media general.
Finalmente, para hallar la precisión del intervalo de confianza, multiplicamos el error estándar por \(t\). Al sumar y restar este producto a la media de la muestra, obtenemos el rango del intervalo de confianza. La fórmula final sería:
\[ \bar{X}\pm t\frac{s}{\sqrt{n}} \]
data("ToothGrowth")
mean<-mean(ToothGrowth$len)
stddev<-sd(ToothGrowth$len)
n<-length(ToothGrowth$len)
qt(0.975, df=n-1)
## [1] 2.000995
## [1] 1.976028
## [1] 16.83731
## [1] 20.78936
Una prueba de hipótesis estadística es un procedimiento que permite tomar decisiones sobre una población basándose en los resultados de una muestra. En términos generales, se plantea una hipótesis inicial (conocida como hipótesis nula, \(H_0\)) y una hipótesis alternativa ( \(H_1\) o \(H_a\)). Luego, se recolectan y analizan datos de una muestra para determinar si hay suficiente evidencia para rechazar la hipótesis nula en favor de la hipótesis alternativa.
El proceso generalmente involucra los siguientes pasos:
Este ejemplo descrito normalmente es conocido como el modelo Fisher, Neyman-Pearson o enfoque frecuentista. Otro enfoque igualmente conocido es el bayesiano el cual no necesariamente requiere de un efecto correctamente identificado en un análisis de potencia estadística a priori(Schönbrodt et al., 2017). En este apartado no vamos a profundizar en el análisis bayesiano, pero a pesar de las diferencias ambos poseen muchas similitudes (Perezgonzalez, 2015)
El p-valor es una medida en estadística que indica la probabilidad de obtener un resultado al menos tan extremo como el observado, suponiendo que la hipótesis nula es verdadera. Es una herramienta utilizada para decidir si rechazar o no la hipótesis nula en una prueba de hipótesis. Un p-valor pequeño (por lo general, menor que un umbral preestablecido como 0.05) sugiere que la hipótesis nula puede ser rechazada en favor de la hipótesis alternativa.
La significación estadística se refiere a la decisión de si un resultado es estadísticamente significativo o no, basado en el p-valor y un nivel de significancia preestablecido (como 0.05). Si el p-valor es menor que el nivel de significancia, se dice que el resultado es estadísticamente significativo. Ahora, cabe destacar que la significancia estadística no es lo mismo que la significancia teórica o práctica de la disciplina. Es necesario hacer uso de medidas de significación material (o del tamaño del efecto y su dirección) (Sullivan y Feinn, 2012). El conocimiento específico de la disciplina en el que se hace el testeo de hipótesis nos dice qué tan grande o pequeño es el efecto, así como el significado de su dirección. Algunos autores han hecho críticas al uso del p-valor porque puede inducirse a fenómenos como el p-hacking (McShane et al., 2019) (y otros fenómenos relacionados a la reproducibilidad de los mismos, ver (Boos y Stefanski, 2011)) pero esto no se desprende en sí del uso de la metodología de contraste de hipótesis bajo el marco de Fisher-Neyman-Pearson, sino del mal uso. Autores como Daniel Lakens recomiendan que el diseño del experimento o de la invesigación requiere justificar el valor \(\alpha\) sobre qué tanta probabilidad de error de tipo I deseamos tolerar. Estas decisiones sobre siempre tomar un nivel de significancia de un 5 % es más un fenómeno debido a que se incorporó como una tradición tras ciertos comentarios del biólogo y padre del diseño experimental en estadística, Roland Fisher, de que el p-valor de 0.05 podría ser utilizado como un punto de referencia práctico, pero enfatizó que los investigadores deberían usar su juicio y considerar el contexto de la investigación al interpretar los p-valores (Ioannidis, 2019). Pero lo recomendable es reportar no solamente la significancia estadística, sino también la significancia material de manera que informe adecuadamente sobre los resultados de la investigación (Hanel y Mehler, 2019).
En el testeo de hipótesis, se pueden cometer dos tipos principales de errores. El primero es el Error Tipo I, que ocurre cuando se rechaza la hipótesis nula cuando en realidad es verdadera, sugiriendo erróneamente que hay un efecto o diferencia cuando no lo hay (Green et al., 2014). La probabilidad de cometer este error se denota como α, y a menudo se establece en un nivel de 0.05. El segundo error es el Error Tipo II, que sucede cuando no se rechaza la hipótesis nula cuando en realidad es falsa, lo que significa que no se detecta un efecto o diferencia cuando en realidad sí existe (Kelter, 2020). La probabilidad de cometer un error Tipo II se denota como \(\beta\) . El poder estadístico, que es la probabilidad de rechazar correctamente la hipótesis nula cuando es falsa, se define como \((1 - β)\). Es esencial entender estos errores y sus implicaciones al interpretar los resultados de las pruebas de hipótesis, especialmente en contextos donde las decisiones basadas en estos resultados pueden tener consecuencias significativas (Farine y Carter, 2021).
Si no estás satisfecho con la potencia de tu estudio, considera esta lista de enfoques para aumentar la potencia (resumido de Bausell y Li (2002)):
La mejor manera de obtener más potencia es recolectar más datos o datos de mayor calidad mediante:
Aumentar el tamaño de la muestra. Si recolectas más datos, tendrás más potencia.
Aumentar el tamaño de la muestra para el grupo que es más económico (o menos riesgoso). Si no puedes agregar más sujetos a un grupo porque es demasiado caro, arriesgado o raro, añade sujetos al otro grupo.
Reducir la desviación estándar de los valores (al comparar medias) utilizando un grupo de sujetos más homogéneo o mejorando las técnicas de laboratorio.
También puedes aumentar la potencia haciendo algunos compromisos:
Aumentar tu elección para \(\alpha\). \(\alpha\) es el valor P umbral por debajo del cual consideras los resultados como “estadísticamente significativos”. Aunque tradicionalmente se establece en 0.05, puedes elegir otro valor. Si aumentas \(\alpha\), digamos a 0.10, aumentarás la potencia del estudio para encontrar una diferencia real, mientras que también aumentas la probabilidad de encontrar falsamente una diferencia “significativa”.
Decidir que solo te importa una diferencia o tamaño del efecto más grande. Todos los estudios tienen una mayor potencia para detectar una gran diferencia que una pequeña.
La potencia de un test de hipótesis, también conocida como potencia estadística, se refiere a la probabilidad de que el test rechace correctamente la hipótesis nula cuando la hipótesis alternativa es verdadera. Es decir, es la probabilidad de detectar un efecto real o una diferencia real cuando esta existe.
La potencia requerida para un test de hipótesis depende del contexto y de los objetivos del estudio. Sin embargo, hay algunas convenciones generales:
0.80 o 80%: Tradicionalmente, una potencia de 0.80 es considerada aceptable para la mayoría de los estudios. Esto significa que hay un 80% de probabilidad de detectar un efecto real si este existe.
0.90 o 90%: En algunos contextos, especialmente cuando las consecuencias de no detectar un efecto real son graves, se puede requerir una potencia más alta, como 0.90.
Es importante tener en cuenta que la potencia está inversamente relacionada con el error de Tipo II (\(\beta\)). Si la potencia es de 0.80, entonces \(\beta\) es de 0.20, lo que significa que hay un 20% de probabilidad de no detectar un efecto real cuando este existe.
Al diseñar un estudio, es esencial realizar un análisis de potencia para determinar el tamaño de muestra necesario para alcanzar la potencia deseada. Esto se hace para asegurarse de que el estudio esté adecuadamente “potenciado” para detectar diferencias o efectos de interés.
Finalmente, la potencia requerida también puede depender de factores como: - La magnitud del efecto que se espera detectar. - La variabilidad de los datos. - El nivel de significancia (\(\alpha\)) que se está utilizando. - El diseño del estudio y el tipo de análisis estadístico que se planea realizar.
En resumen, aunque hay convenciones generales sobre la potencia deseada, la potencia requerida debe ser determinada en función del contexto específico y los objetivos del estudio.
El p-valor y la potencia observada están inversamente relacionados en el contexto de las pruebas de hipótesis. El p-valor es una medida de la evidencia contra una hipótesis nula específica. Un p-valor pequeño indica una fuerte evidencia contra la hipótesis nula, lo que sugiere que deberíamos rechazarla. Por otro lado, la potencia observada (o potencia estadística) es la probabilidad de que una prueba rechace correctamente la hipótesis nula cuando la hipótesis alternativa es verdadera. En otras palabras, es la probabilidad de detectar un efecto real si existe.
Cuando el p-valor es pequeño (indicando una fuerte evidencia contra la hipótesis nula), la potencia observada es alta, lo que indica una alta probabilidad de detectar un efecto real. A medida que aumenta el tamaño de la muestra en un estudio, la potencia observada también aumenta, lo que a su vez puede llevar a p-valores más pequeños. Por lo tanto, hay una relación inversa entre el p-valor y la potencia observada: a medida que uno disminuye, el otro aumenta.
Ahora, ¿por qué esta aclaración? El p-hacking puede hacerse, de manera inconsciente, mediante hacerse preguntas inadecuadas respecto del diseño estadístico del experimento. Esto claramente denotaría del científico que mal maneja los conceptos básicos. La pregunta más adecuada para hacer un buen uso de este tipo de técnicas es, ante todo ¿Cuál sería la potencia observable de este diseño [del experimento] para detectar el efecto que deseo observar?, preguntarse por cuál es el poder de este diseño de experimento no tiene nada de sentido. Si deseo observar un efecto pequeño (y como sabemos el significado de pequeño no necesariamente viene dado por las recomendaciones de Cohen, sino que tienen un significado científico, de la propia disciplina) y el efecto no fue observado dado que no se rechazó \(H_0\) por definición es que no existe una muestra lo suficientemente grande para medir el efecto. Los análisis de potencia tienen sentido previamente para la construcción del diseño del experimento o del estudio, usarlos posteriormente a la recolección y procesamiento de los datos carece de sentido (Goodman, 1994). Lo recomendable, como menciona Goodman y Berlin es que después de la recolección de los datos es más aconsejable hablar del efecto mirando los intervalos de confianza estimados.
En 2001 Honeig y Heasley lanzan un paper sobre el mal uso del análisis de la potencia(Hoenig y Heisey, 2001). En ello realizan un análisis similar al que se observa en la siguiente simulación en R. Se hizo una simulación de pruebas t-student para muestras independientes y capturar la potencia observable y el p-valor. Llegaron a la conclusión de que esta relación debe de llevarnos a reflexionar mas sobre los conceptos y no tanto en el análisis de potencia como una salvaguarda ante la crítica mal fundada de la potencia en estudios. Como herramienta nos sirve para generar diseños de experimentos y pruebas más adecuadas según lo que deseamos probar en base a el dinero o presupuesto que tenemos como investigadores. En sus palabras:
Los cálculos de potencia nos indican cuán bien podríamos caracterizar la naturaleza en el futuro dada una determinada condición y diseño de estudio estadístico, pero no pueden usar la información en los datos para decirnos sobre los probables estados de la naturaleza. Con las estadísticas frecuentistas tradicionales, esto se logra mejor con intervalos de confianza, elecciones apropiadas de hipótesis nulas y pruebas de equivalencia. La confusión sobre estos temas podría reducirse si las clases introductorias de estadísticas para investigadores pusieran más énfasis en estos conceptos y menos énfasis en las pruebas de hipótesis. (Hoenig y Heisey, 2001, p. 5)
library(pwr)
library(ggplot2)
# Parámetros iniciales
sd <- 15
effect_size <- 0.5 # Diferencia entre las medias en unidades de desviación estándar
sample_sizes <- seq(10, 20000, by = 10) # Aquí la secuencia de aumentos de la muestra de cada grupo.
#Le añadiremos 10 observaciones de manera secuencial hasta llegar a 20,000 obs.
alpha <- 0.05 # Nivel de significancia crítica de la prueba
p_values <- numeric(length(sample_sizes)) #Este vector incluye los p-valores
powers <- numeric(length(sample_sizes))
# Simulación
set.seed(123)
for (i in 1:length(sample_sizes)) {
n_per_group <- sample_sizes[i]
group1 <- rnorm(n_per_group, mean = 50, sd = sd) #Grupo control
group2 <- rnorm(n_per_group, mean = 50 + effect_size * sd, sd = sd) #Grupo tratado
p_values[i] <- t.test(group1, group2)$p.value #Aquí extraemos
#los p-valores de las pruebas t-student oara muestras independientes.
powers[i] <- pwr.t.test(n = n_per_group, d = effect_size,
sig.level = alpha, type = "two.sample",
alternative = "two.sided")$power #Aquí calculamos
#la potencia estadística y la extraemos en la lista "powers".
}
# Gráfico
df <- data.frame(SampleSize = sample_sizes, PValue = p_values, Power = powers)
ggplot(df, aes(x = PValue, y = Power)) +
geom_point() +
geom_smooth(method = "lm", formula = y ~ poly(x, 2)) +
labs(title = "Relación entre p-valor y potencia observada al aumentar el tamaño de muestra",
x = "P-Valor",
y = expression("Potencia Observada"~(beta)))+theme_light()
¿Qué potencia estadística tuvo un estudio para identificar una discrepancia (en caso de existir)? Basándose en el número de muestras y el nivel alfa seleccionado, la solución se relaciona con la magnitud real de la discrepancia (o tamaño del efecto) y con el valor práctico de los hallazgos (su contexto, relevancia, etc.).
Cada investigación posee una alta capacidad para identificar variaciones “amplias” y una capacidad reducida para hallar variaciones “reducidas”, por lo que todos los diagramas de potencia se asemejan en su estructura.
library(pwr)
library(ggplot2)
# Parámetros iniciales
sd <- 15
effect_sizes <- seq(0.01, 1, by=0.01)
n_per_group <- 100 # Tamaño de muestra fijo para esta simulación
alpha <- 0.05
powers <- numeric(length(effect_sizes))
# Simulación
set.seed(123)
for (i in 1:length(effect_sizes)) {
group1 <- rnorm(n_per_group, mean = 50, sd = sd)
group2 <- rnorm(n_per_group, mean = 50 + effect_sizes[i] * sd, sd = sd)
powers[i] <- pwr.t.test(n = n_per_group, d = effect_sizes[i], sig.level = alpha, type = "two.sample", alternative = "two.sided")$power
}
# Gráfico
df2 <- data.frame(EffectSize = effect_sizes, Power = powers)
ggplot(df2, aes(x = EffectSize, y = Power)) +
geom_point() +
labs(title = "Relación entre tamaño del efecto y potencia observada",
x = expression("Tamaño del efecto"~(Delta)),
y = expression("Potencia Observada"~(beta))) + theme_light()
La inferencia estadística es toda una disciplina que busca hacer generalizaciones acerca de una población en base a datos muestrales. Ahora bien, lograr realizar buenas inferencias no es solo un trabajo mecánico, sino también teórico-conceptual y metodológico. Esta triada entre teoría-metodología-prueba empírica es clave para la conducción de análisis estadísticos rigurosos independientemente del compromiso que el diseño de investigación posea con la lógica experimental. Ahora bien, comprender ello va a implicar no solo elegir la prueba de hipótesis adecuada a lo que queremos investigar (cosa que detallaremos a profundidad más adelante) sino a aplicar estos conceptos vertidos correctamente para hacer buenos experimentos. Los dejo con una reflexión con uno de los padres de la estadística moderna y del testeo de hipótesis:
To consult the statistician after an experiment is finished is often merely to ask him to conduct a post mortem examination. He can perhaps say what the experiment died of.
Consultar al estadístico después de que un experimento ha terminado es a menudo simplemente pedirle que realice una autopsia. Tal vez pueda decir de qué murió el experimento.
-Ronald Fisher
La primera pregunta que debemos de hacernos es la siguiente:
¿Cuál es el nivel de medida utilizado en los datos que analizamos?
¿Cuál es el objetivo del análisis?
¿Cuál y qué tipo de muestra tenemos?
La elección de una prueba de hipótesis depende de varios factores relacionados con tus datos y las preguntas de investigación que estés tratando de responder. Aquí hay algunas consideraciones generales:
Datos Categóricos: Si tienes datos categóricos, podrías usar una prueba de chi-cuadrado para la independencia o una prueba exacta de Fisher si tienes una tabla 2x2 con frecuencias bajas.
Datos Continuos: Para datos continuos, las pruebas t como la t de Student o la t de Welch son comunes para comparar medias entre dos grupos. Para más de dos grupos, podrías usar ANOVA.
Datos de Escala Ordinal: Las pruebas no paramétricas como la prueba de Mann-Whitney U o la prueba de Kruskal-Wallis pueden ser apropiadas.
Diseño Apareado: Si tienes medidas repetidas en los mismos sujetos, podrías usar pruebas para diseños apareados, como la t de Student para muestras relacionadas o la prueba de Wilcoxon para muestras relacionadas.
Diseño Independiente: Si las muestras son independientes, las pruebas para muestras independientes serían más apropiadas (e.g., t de Student para muestras independientes, Mann-Whitney U).
Normalidad: Algunas pruebas asumen que los datos siguen una distribución normal. Si tus datos no cumplen con este supuesto, podrías usar pruebas no paramétricas.
Varianza Homogénea: Algunas pruebas asumen que las varianzas de los grupos son iguales. Si este no es el caso, hay versiones de las pruebas que no requieren este supuesto (e.g., t de Welch).
Independencia: La mayoría de las pruebas asumen que las observaciones son independientes entre sí.
Dos Grupos: Las pruebas t son comunes para comparar dos grupos.
Más de Dos Grupos: ANOVA o Kruskal-Wallis son más apropiados para comparar más de dos grupos.
Dos o Más Variables: Si estás interesado en entender la relación entre dos o más variables, podrías usar correlación, regresión múltiple, o modelos más complejos como ANCOVA, MANOVA, etc.
Comparaciones Planeadas: Si tienes hipótesis específicas sobre qué grupos serán diferentes, podrías usar pruebas t o ANOVA seguidas de pruebas post hoc.
Comparaciones Exploratorias: Si estás explorando los datos sin una hipótesis específica, las pruebas de corrección múltiple como Bonferroni o FDR podrían ser apropiadas.
Tipo de dato/Objetivo | Numérica (Gaussiana) | Ordinal o Numérica (No Gaussiana) | Numéricos (outliers) | Nominal Binaria (2 resultados posibles) |
---|---|---|---|---|
Comparar una muestra con un valor hipotético | Prueba \(t\) para una muestra | Prueba de Wilcoxon para una muestra | Prueba de percentil para una mestra | Prueba de proporción binomial |
Comparar dos grupos independientes | Prueba \(t\) para dos muestras independientes | Prueba de Mann-Whitney | Prueba de Yuen para muestras independientes | Prueba de \(\chi^2\) o de Fisher |
Comparar dos grupos relacionados | Prueba \(t\) para muestras relacionadas | Prueba de Wilxocon para muestras relacionadas | Prueba de Yuen para muestras relacionadas | Prueba de McNemar |
Comparar tres o más grupos independientes | ANOVA de una vía para muestras independientes | Prueba de Kruskall-Wallis | ANOVA robusto de una vía para muestras inedependientes | Prueba de Chi-Cuadrado |
Comparar tres o más grupos relacionados | ANOVA de una vía para muestras relacionadas | Prueba de Friedman | ANOVA robusto de una vía para muestras relacionadas | Prueba \(Q\) de Cochrane |
Asociar dos variables | Correlación de Pearson | Correlación de Spearman o Kendall | Correlacion robusta | Coeficiente V de Cramer |
En este cuadro dos se observa cuál es el código o comando a utilizar para realizar cada una de las pruebas según lo mencionado en el cuadro anterior. Dependiendo del objetivo y de la estructura de los datos recolectados algunas pruebas serían más idóneas que otras. Ahora bien, acerca de los supuestos y el desarrollo matemático de dichas pruebas se desarrollan en secciones posteriores.
Tipo de dato/Objetivo | Numérica (Gaussiana) | Ordinal o Numérica (No Gaussiana) | Numéricos (outliers) | Nominal Binaria (2 resultados posibles) |
---|---|---|---|---|
Comparar una muestra con un valor hipotético | t.test(x,mu) |
wilcox.test(x, mu) |
onesamplepb(x, nv) |
|
Comparar dos grupos independientes | t.test(y~g) |
wilcox.test(y~g) |
yuen(y~g) |
|
Comparar dos grupos relacionados | t.test(y~g, paired=TRUE) |
wilcox.test(y~g, paired=TRUE) |
yuen(y1, y2) |
mcnemar.test(M) |
Comparar tres o más grupos independientes |
|
|
|
|
Comparar tres o más grupos relacionados |
|
|
|
|
Asociar dos variables | cor.test(x,y) |
cor.test(x,y, method="spearman") |
pbcor(x,y) |
assocstat(M) |
En el ámbito de la estadística y la investigación científica, las pruebas de hipótesis son herramientas fundamentales para tomar decisiones informadas basadas en datos. Estas pruebas pueden clasificarse en tres categorías principales: pruebas paramétricas, pruebas no paramétricas y pruebas robustas. Cada una de estas categorías tiene sus propios supuestos y aplicaciones, y entender estos aspectos es crucial para la interpretación precisa y confiable de los resultados. En este libro, exploraremos en profundidad los supuestos detrás de estos tres tipos de pruebas, proporcionando una guía completa para investigadores, estudiantes y profesionales.
Las pruebas paramétricas, como la prueba t de Student y el análisis de varianza (ANOVA), son quizás las más conocidas y ampliamente utilizadas. Estas pruebas se basan en supuestos específicos sobre la distribución de los datos, como la normalidad y la homogeneidad de varianzas. Cuando estos supuestos se cumplen, las pruebas paramétricas son extremadamente poderosas, ofreciendo resultados precisos y confiables. Sin embargo, cuando los supuestos no se cumplen, los resultados pueden ser engañosos. Por lo tanto, es crucial realizar pruebas de diagnóstico para validar estos supuestos antes de proceder con el análisis.
Por otro lado, las pruebas no paramétricas, como la prueba de Mann-Whitney U y la prueba de Kruskal-Wallis, no hacen suposiciones estrictas sobre la distribución de los datos. Esto las hace más flexibles y aplicables a una amplia gama de situaciones, especialmente cuando se trata de muestras pequeñas o datos que claramente no siguen una distribución normal. Sin embargo, esta flexibilidad viene con un costo: las pruebas no paramétricas suelen tener menos poder para detectar diferencias reales en comparación con sus contrapartes paramétricas.
Finalmente, las pruebas robustas son un término medio entre los enfoques paramétricos y no paramétricos. Estas pruebas, como la t de Welch para muestras independientes con varianzas desiguales, están diseñadas para ser “robustas” ante violaciones de los supuestos. Esto significa que pueden proporcionar resultados confiables incluso cuando los datos no cumplen estrictamente con los supuestos de normalidad o igualdad de varianzas. Las pruebas robustas son particularmente útiles en la investigación aplicada, donde los datos raramente son “perfectos” y a menudo violan uno o más supuestos estadísticos.
En resumen, esta sección tiene como objetivo desmitificar los supuestos detrás de las pruebas paramétricas, no paramétricas y robustas, ofreciendo una comprensión clara y aplicada de cuándo y cómo usar cada tipo de prueba. A través de ejemplos prácticos, ejercicios y discusiones detalladas, aspiramos a equipar a los lectores con las herramientas necesarias para tomar decisiones informadas en su investigación, asegurando al mismo tiempo la integridad y la confiabilidad de sus hallazgos.
Las pruebas paramétricas son un pilar en el campo de la estadística inferencial y son ampliamente utilizadas en diversas disciplinas. Sin embargo, como cualquier método, tienen sus ventajas y desventajas.
Mayor Poder Estadístico: Cuando se cumplen los supuestos, las pruebas paramétricas son generalmente más “poderosas” en términos de detectar un efecto si realmente existe uno. Esto significa que son más propensas a rechazar una hipótesis nula falsa.
Estimaciones de Parámetros: Las pruebas paramétricas no solo prueban hipótesis sino que también proporcionan estimaciones de parámetros (como la media o la varianza), lo que puede ser muy informativo.
Intervalos de Confianza: Es fácil calcular intervalos de confianza para las estimaciones de parámetros, lo que proporciona un rango de valores probable para el parámetro desconocido.
Flexibilidad para Modelos Complejos: Las pruebas paramétricas se pueden extender a modelos más complejos más fácilmente que las pruebas no paramétricas. Por ejemplo, el análisis de varianza (ANOVA) se puede extender a ANCOVA, MANOVA, etc.
Eficiencia Computacional: Las pruebas paramétricas suelen ser computacionalmente menos intensivas que las pruebas no paramétricas, lo cual es una ventaja en conjuntos de datos grandes.
Supuestos Estrictos: Las pruebas paramétricas requieren que se cumplan ciertos supuestos (como la normalidad y la homogeneidad de varianzas). Si estos supuestos no se cumplen, la prueba puede dar resultados engañosos.
Sensibilidad a Valores Atípicos: Debido a sus supuestos sobre la distribución de los datos, las pruebas paramétricas son generalmente más sensibles a los valores atípicos.
No Adecuado para Todos los Tipos de Datos: Las pruebas paramétricas son menos flexibles cuando se trata de tipos de datos que no se ajustan a sus supuestos. Por ejemplo, no son adecuadas para datos ordinales o nominales.
Riesgo de Interpretación Errónea: Si los supuestos no se verifican y se aplican pruebas paramétricas, existe el riesgo de interpretaciones erróneas y conclusiones inválidas.
Puede Requerir Tamaños de Muestra Más Grandes: Aunque esto es un poco discutible, algunas pruebas paramétricas pueden requerir tamaños de muestra más grandes para que los supuestos como la normalidad se cumplan de manera aproximada.
En este segmento, abordaremos ciertas condiciones o criterios que los datos deben alcanzar para que el uso de tests de hipótesis sea legítimo y los resultados sean dignos de confianza. Estas condiciones esenciales suelen abarcar factores como la distribución normal de los datos y la igualdad de varianzas, también conocida como homocedasticidad, así como la independencia de las mediciones y el tamaño adecuado de la muestra.
Específicamente, en este apartado evaluaremos lo siguiente:
Se asume que los datos provienen de una población que tiene una distribución normal es decir \(\sim \mathcal{N}(0,1)\). Podemos examinar la normalidad con dos pruebas: Kolgomorov-Smirnov y Prueba de Shapiro-Wilk.
La prueba de Kolmogorov-Smirnov (K-S) es una prueba no paramétrica que se utiliza para evaluar si una muestra sigue una distribución específica, generalmente la distribución normal. La prueba compara la función de distribución acumulativa (FDA) empírica de la muestra con la FDA teórica de la distribución en cuestión.
La estadística de prueba \(D\) se calcula como: \[ D = \max_{x} | F_n(x) - F(x) | \] Donde \(F_n(x)\) es la FDA empírica y \(F(x)\) es la FDA teórica.
La prueba de Shapiro-Wilk se utiliza para evaluar la normalidad de una muestra. Es una prueba más potente que la de Kolmogorov-Smirnov para detectar desviaciones de la normalidad y es especialmente útil para muestras pequeñas.
La estadística de prueba \(W\) se calcula como: \[ W = \frac{ (\sum_{i=1}^{n} a_i x_{(i)})^2 }{ \sum_{i=1}^{n} (x_i - \bar{x})^2 } \] Donde \(x_{(i)}\) son los datos ordenados, \(a_i\) son constantes calculadas a partir de los datos y \(\bar{x}\) es la media de la muestra.
Ambas pruebas son sensibles al tamaño de la muestra y a la presencia de valores atípicos, por lo que es crucial examinar los datos cuidadosamente antes de aplicar estas pruebas.
Imagina que queremos evaluar la normalidad de la distribución de las
millas por galón de los carros de la muestra recopilada de la industria
automotriz en Estados Unidos que se encuentra en la base de datos
mtcars
## mpg cyl disp hp drat wt qsec vs am gear carb
## Mazda RX4 21 6 160 110 3.9 2.620 16.46 0 1 4 4
## Mazda RX4 Wag 21 6 160 110 3.9 2.875 17.02 0 1 4 4
library(papaja)
test<-shapiro.test(mtcars$mpg) #Test
tabla_normalidad<- data.frame(test= test$statistic,
pvalor= test$p.value) #Convertimos los resultados
## En un dataframe para convertirlo en una tabla.
En el cuadro siguiente se observa el código para presentar el resultado del test de Shapiro-Wilk, el cual el estadisto \(W\) es de \(0.94756\) con un p-valor por encima del valor crítico (que para este caso usaremos un p-valor crítico de 0.05. Esto significa que fallamos en rechazar \(H_0\) de que las millas por galón de los autos tienen un comportamiento de una distribución normal.
test | pvalor | |
---|---|---|
W | 0.95 | 0.12 |
El uso de histogramas y gráficos cuantil por cuantil (QQ por sus siglas en ingles) permiten observar si existe sesgos o si la misma tiene una distribución normal. Esto tiene la ventaja de que podemos observar gráficamente cuestiones sobre la forma de la distribución de los datos que debido a pruebas de potencia observable o el hecho de que existan valores atípicos en los test que mencionamos anteriormente, puede que la prueba incurra en errores de tipo I y II.
Si los gráficos QQ poseen un ajuste sobre la línea teórica, indica que los datos empíricos se ajustan a una distribución normal. En cambio si el gráfico QQ muestra una desviación en los valores del final de la línea indica que la misma tiene una distribución asimétrica hacia la derecha. Lo contrario a su vez si los valores o puntos se desvían desde el principio de la línea, indicando que es asimétrica hacia la izquierda.
En el primer gráfico (ver código) se observa que hay un comportamiento algo atípico en la cola derecha. Más concretamente el diagrama de la derecha (el QQ plot) muestra que la observación 18 y 20 presentan ser datos atípicos) pero no hay una razón para asumir que los datos se desvían de la normal ya que queda dentro del intervalo de confianza del 95%.
par(mfrow=c(1,2)) # Esto es para unir 2 gráficos: densidad/histograma y qq.
hist(mtcars$mpg, freq = F) #Histograma de los datos.
lines(density(mtcars$mpg)) #Línea de la función de densidad
library(car) #Subimos la librería para hacer qqplots.
## Loading required package: carData
## [1] 20 18
Transformación de Datos
Una de las primeras cosas que podrías intentar es transformar tus datos para ver si la transformación induce normalidad. Algunas transformaciones comunes incluyen logaritmos, raíces cuadradas y potencias. Sin embargo, ten en cuenta que transformar los datos cambia la interpretación de las variables.
Pruebas No Paramétricas
Si la normalidad es un supuesto clave para la prueba que deseas usar, podrías optar por una prueba no paramétrica equivalente. Por ejemplo, la prueba de Mann-Whitney U es una alternativa no paramétrica a la prueba t para dos muestras independientes. La prueba de Kruskal-Wallis es una alternativa al ANOVA de una vía.
Métodos de Remuestreo
Técnicas como el remuestreo, incluido el método de permutación o el método de bootstrap, pueden ser útiles. Estos métodos no hacen supuestos estrictos sobre la distribución de los datos.
Pruebas Robustas
Algunas pruebas son “robustas” a las violaciones de los supuestos de normalidad, lo que significa que pueden proporcionar resultados válidos incluso cuando los datos no son perfectamente normales. Un ejemplo es la prueba t de Welch para muestras independientes con varianzas desiguales.
Diseño del Estudio y Tamaño de Muestra
Si tienes un tamaño de muestra grande, el teorema del límite central a menudo entra en juego, lo que significa que la distribución de la media muestral será aproximadamente normal incluso si la variable en sí no lo es. Sin embargo, esto no resuelve problemas con la homocedasticidad o la independencia de las observaciones.
Análisis de Datos Categóricos o de Rango
Si tus datos son categóricos o de rango, considera usar métodos que estén diseñados específicamente para esos tipos de datos, como pruebas de chi-cuadrado para datos categóricos.
Otro aspecto importante es que dependiendo del tipo de prueba, esta no requiere como condición necesaria que los datos sean normales para que sus resultados sean confiables. También es válido preguntarte si la distribución de datos necesariamente debe ser normal. Distribuciones de datos como los salarios, la riqueza o el número de parejas sexuales a lo largo de la vida adulta no tienen porqué ser distribuciones normales.
La homogeneidad de varianzas, también conocida como homocedasticidad, es un supuesto en pruebas estadísticas como el ANOVA y la prueba t de Student para muestras independientes. Este supuesto establece que las varianzas de los diferentes grupos que se están comparando deben ser iguales o, al menos, aproximadamente iguales. La homogeneidad de varianzas es importante porque si no se cumple, las pruebas pueden dar resultados engañosos.
Una de las pruebas más comunes para evaluar la homogeneidad de varianzas es la prueba de Levene. La prueba de Levene evalúa la igualdad de varianzas en diferentes grupos comparando las desviaciones absolutas de cada observación respecto a la media de su grupo.
La estadística de prueba \(W\) se calcula como:
\[ W = \frac{(N-k)}{k-1} \times \frac{\sum_{i=1}^{k} n_i (Z_{i.} - Z_{..})^2}{\sum_{i=1}^{k} \sum_{j=1}^{n_i} (Z_{ij} - Z_{i.})^2} \]
Donde \(N\) es el número total de observaciones, \(k\) es el número de grupos, \(n_i\) es el número de observaciones en el grupo \(i\), \(Z_{ij}\) es la desviación absoluta de cada observación respecto a la media de su grupo, \(Z_{i.}\) es la media de las desviaciones absolutas para el grupo \(i\), y \(Z_{..}\) es la media de todas las desviaciones absolutas.
La prueba de Bartlett es otra prueba común para evaluar la homogeneidad de varianzas, pero es más sensible a las violaciones de la normalidad que la prueba de Levene.
La estadística de prueba \(K^2\) se calcula como:
\[ K^2 = (N-k) \ln(S_p^2) - \sum_{i=1}^{k} (n_i - 1) \ln(s_i^2) \]
Donde \(S_p^2\) es la varianza agrupada, calculada como:
\[ S_p^2 = \frac{\sum_{i=1}^{k} (n_i - 1) s_i^2}{N - k} \]
y \(s_i^2\) es la varianza de la muestra para el grupo \(i\).
La prueba de Brown-Forsythe es una variante de la prueba de Levene que es menos sensible a las desviaciones de la normalidad. En lugar de utilizar la media del grupo, esta prueba utiliza la mediana.
La estadística de prueba se calcula de manera similar a la de Levene, pero utilizando las desviaciones respecto a la mediana en lugar de la media.
La prueba de Fligner-Killeen es una prueba no paramétrica para evaluar la homogeneidad de varianzas (o homocedasticidad) entre diferentes grupos. Es una alternativa a la prueba de Levene y se utiliza especialmente cuando los datos no se distribuyen normalmente. La prueba de Fligner-Killeen es menos sensible a desviaciones de la normalidad y es más robusta contra valores atípicos.
La prueba de Fligner-Killeen se basa en el cálculo de los rangos de las desviaciones absolutas de cada observación respecto a la mediana de su grupo. A diferencia de la prueba de Levene, que utiliza la media, la prueba de Fligner-Killeen utiliza la mediana, lo que la hace más robusta contra desviaciones de la normalidad.
La estadística de prueba se calcula utilizando una versión modificada de la prueba de chi-cuadrado, que toma en cuenta los rangos de las desviaciones absolutas. La fórmula exacta puede ser compleja, pero en esencia, se trata de una prueba de chi-cuadrado en los rangos de las desviaciones absolutas de la mediana. Los supuestos de la prueba son:
Si la estadística de prueba es significativa, se rechaza la hipótesis nula de igualdad de varianzas entre los grupos.
Si no se cumple la homogeneidad de varianzas, hay varias estrategias que se pueden seguir:
Es crucial evaluar la homogeneidad de varianzas antes de realizar pruebas que tengan este supuesto para asegurarse de que los resultados sean válidos.
#Prueba de Barlett:
Bartlett<- bartlett.test(mpg ~ factor(cyl),
data= mtcars)
#Prueba de levene:
library(car)
Levene<-leveneTest(mpg ~factor(cyl),
data=mtcars)
#Flinger-Killen
Fligner_Killen<-fligner.test(mpg ~ factor(cyl),
data=mtcars)
Podemos resumir los resultados del cuadro que resume las pruebas de homogeneidad de varianzas de la siguiente manera.
Test de Bartlett: El estadístico de la prueba es 8.39 y el p-valor asociado es 0.02. Dado que el p-valor es menor que 0.05, se rechaza la hipótesis nula de igualdad de varianzas entre los grupos. Esto sugiere que las varianzas no son iguales entre los grupos.
Test de Levene: El estadístico de la prueba es 5.51 y el p-valor es 0.01. Al igual que en el caso anterior, el p-valor es menor que 0.05, lo que lleva a rechazar la hipótesis nula de igualdad de varianzas.
Test de Fligner-Killeen: El estadístico de la prueba es 6.81 y el p-valor es 0.03. De nuevo, el p-valor es menor que 0.05, lo que indica que las varianzas no son iguales entre los grupos.
Todas las pruebas sugieren que las varianzas entre los grupos no son iguales, lo que es una violación del supuesto de homocedasticidad. Esto implica tener precaución al momento de conducir pruebas como la \(t\) de Student o el ANOVA (más útil para este caso) ya que su violación implica que la estimación de la media de la muestra en cada grupo no es la adecuada debido a la variabilidad considerable entre grupos.
tabla_hvar <- data.frame(
Prueba = c("Bartlett", "Levene", "Fligner_Killen"),
Estadístico = c(Bartlett$statistic, Levene[1, "F value"], Fligner_Killen$statistic),
pvalor = c(Bartlett$p.value, Levene[1, "Pr(>F)"], Fligner_Killen$p.value)
)
#Sustituir nombres de las filas de la primera columna (pruebas).
test1<- c("Bartlett"= "Test de Barlett", "Levene"= "Test de Levene", "Fligner_Killen"= "Test de Fligner-Killeen")
tabla_hvar$Prueba<-test1[tabla_hvar$Prueba]
#Cambiando nombres de las columnas de la tabla:
colnames(tabla_hvar)<-c("Prueba de hipótesis", "Estadístico.", "p-valor")
library(papaja)
rownames(tabla_hvar) <- NULL
apa_table(tabla_hvar, caption = "Pruebas de homogeneidad de varianza")
Prueba de hipótesis | Estadístico. | p-valor |
---|---|---|
Test de Barlett | 8.39 | 0.02 |
Test de Levene | 5.51 | 0.01 |
Test de Fligner-Killeen | 6.81 | 0.03 |
El uso de diagramas de caja o diagramas de violín nos permite no solo ver la forma de la distribución en el caso del segundo, sino ver si existen diferencias en la variabilidad de los grupos.
Es crucial entender y poder interpretar los supuestos subyacentes a cualquier análisis estadístico que realices; de lo contrario, las conclusiones que saques podrían ser erróneas.
Las pruebas que se usan para verificar estos supuestos también tienen sus propias premisas. Por ejemplo, las pruebas que evalúan la normalidad de los datos a menudo presuponen que las varianzas son iguales entre los grupos, mientras que las pruebas para evaluar la igualdad de varianzas a menudo presuponen que los datos son normalmente distribuidos. Además, ambas categorías de pruebas generalmente requieren un tamaño de muestra “adecuado”.
El tamaño de la muestra no solo es importante para dar suficiente potencia al análisis, sino también para garantizar la validez de los supuestos en los que se basa la prueba. Si tus datos están cerca de no cumplir con los criterios necesarios para una prueba específica, es fundamental que ponderes cuidadosamente la idoneidad de la prueba y las implicaciones de usarla. En tales casos, podrías optar por utilizar pruebas no paramétricas o pruebas estadísticas robustas como alternativas.
El tamaño del efecto es una medida cuantitativa que indica la magnitud de una diferencia o relación entre variables en un contexto estadístico. En otras palabras, el tamaño del efecto trata de responder a la pregunta “¿cuán grande es la diferencia?” en lugar de simplemente “¿hay una diferencia?”. Este concepto es especialmente útil para interpretar los resultados de investigaciones y experimentos, ya que permite evaluar la relevancia práctica de los hallazgos, más allá de la significación estadística.
Por ejemplo, en un estudio médico que compara dos tratamientos, no es suficiente saber que un tratamiento es “mejor” que otro (significación estadística); también es crucial saber cuánto mejor es (tamaño del efecto).
Si hicieramos una tipología de los indicadores estadísticos para estimar el tamaño del efecto podemos clasificarlos en dos:
La primera familia podemos clasificarla como la familia d, por ejemplo y se pueden subclasificar en dos grupos. El primero en el cual comparamos grupos según cierta variable numérica o continua y la segunda según cierta variable dicotómica. Dentro del grupo o familia d tenemos:
d de Cohen: Utilizado principalmente para comparar las medias de dos grupos. Un valor de 0 indica que no hay diferencia entre los grupos, mientras que valores más grandes indican diferencias más grandes. Podemos re-escribir la fórmula como:
\[ d= \frac{\mu_1-\mu_2}{\sqrt{\sigma^2}} \]
En donde \(\mu_1\) y \(\mu_2\) son las medias de los dos grupos a comparar y \(\sqrt{\sigma^2}\) es la desviación estándar de la muestra.
Otras variaciones dependen de si se cumplen los supuestos de homogeneidad de varianzas en el caso de las pruebas \(t\) Student. Si existe heterocedasticidad (varianza no homogénea entre grupos) es recomendable estimar la \(\Delta\) de Glass, la cual se estima con la siguiente ecuación:
\[ \Delta ~Glass= \frac{\mu_1-\mu_2}{\sqrt{\sigma^2_{control}}} \]
En donde \(\sqrt{\sigma^2_{control}}\) es la desviación estándar del grupo control.
Cuando los grupos son de distinto tamaño muestral se necesita corregir la desviación estándar ponderándola por la cantidad de información que se posee de cada grupo. La \(g\) de Hedges permite esta estimación. La fórmula es:
\[ g~Hedges= \frac{\mu_1-\mu_2}{\sqrt{\sigma^2*_{ponderado}}} \]
En donde \(\sqrt{\sigma^2}*_{ponderado}\)
Es útil cuando vamos a hacer diseños de investigación similares a investigaciones clínicas o de intervención (ejemplo: éxito o fracaso de un tratamiento, o casos en donde hay solo dos posibles alternativas (Si vs. No, éxito vs. fracaso), entre otras). Lo que se realiza son las comparaciones de probabilidad del grupo \(p\) y el grupo \(q\) (muchas veces representado como probabilidad del grupo control). Dentro de los indicadores tenemos:
Odds Ratio: Utilizado en estudios de casos y controles, mide la fuerza de la asociación entre una exposición y un resultado. La cual se representa mediante la siguiente ecuación:
\[ ORR= \frac{p\times (1-p)}{q\times(1-q)} \]
Razón de riesgo: Utilizado en estudios longitudinales para comparar la tasa de un evento entre dos grupos. Se expresa de la manera siguiente:
\[ RR= \frac{p}{q} \]
Diferencia en riesgo: Se utiliza para expresar las diferencias en puntos porcentuales y se expresa en la siguiente ecuación:
\[ Dif_r= (p-q) \]
Dentro de la familia r tenemos a
\[ \rho= \frac{\sum^n_{i=1} (x_i-\bar{x})(y_i-\bar{y})}{\sqrt{\sum^n_{i=1}(x_i-\bar{x})^2}} \]
Lo cual es lo mismo que:
\[ \rho = \frac{Cov(x,y)}{\sqrt{Var(x) \times Var(x)}} \]
Recuerda: Existen otras medidas de asociación que pueden sustituir al coeficiente de correlación lineal de Pearson, especialmente cuando se violan su supuestos de normalidad y de linealidad. Estos son el Coeficiente de correlación de Sperman y el Tau de Kendall.
R-cuadrado (R²): Utilizado en el contexto de la regresión lineal, representa la proporción de la variabilidad en la variable dependiente que es explicada por las variables independientes en el modelo.
\[ R^2= 1-\frac{SS_{error}}{SS_{total}} \]
Eta cuadrado (η²): Utilizado en el análisis de varianza (ANOVA), representa la proporción de la variabilidad total atribuida al factor que se está estudiando.
\[ \eta^2= \frac{SS_{efecto}}{SS_{total}} \]
Dentro de las medidas de asociación o de tamaño del efecto para datos categóricos, específicamente dicotómicos, se utiliza la V de Cramer. Este es un estadístico que se utiliza para medir la fuerza de asociación entre dos variables nominales. Este toma valores de 0 a 1 en donde 1 es perfecta asociación y 0 es asociación nula. La fórmula para calcularle es la siguiente:
\[ V= \sqrt{\frac{\chi^2/n}{min(c-1,r-1)}} \]
En donde \(r\) corresponde al número de filas y \(c\) al número de columnas. También existen otros para diferentes tipos de variables cualitativas (nominales u ordinales) como el Coeficiente Phi, el Coeficiente de Lamba, o el Coeficiente Gamma.
Recuerda: Es importante tener en cuenta que el tamaño del efecto debe interpretarse en el contexto del campo de estudio y las preguntas de investigación específicas. Además, un tamaño del efecto grande no garantiza que el efecto sea prácticamente significativo o clínicamente relevante, en términos económicos que sea relevante según la teoría económica o social empleada. Por eso, es común utilizar el tamaño del efecto en combinación con pruebas de significación estadística y intervalos de confianza para obtener una imagen completa de los resultados.
#Una lista de paquetes que necesitarás para
# El análisis de pruebas de hipótesis:
#list.of.packages<- c("tidyverse",
# "ggpur",
### "rstatix",
# "DescTools",
# "WRS2")
#new.packages<-list.of.packages[!(list.of.packages %in%
# installed.packages()[,"Package"])]
# if(length(new.packages)) install.packages(new.packages)
library(ggpubr)
library(ggstatsplot)
library(openintro)
library(rstatix)
library(DescTools)
library(WRS2)
Esta base de 200 estudiantes con información demográfica está en el
paquete openintro
es útil para hacer distintas pruebas de
hipótesis tanto de comparación de medias, proporciones y datos
cualitativos. Las variables read
,write
,
math
, science
y socst
son las
calificaciones estandarizadas en lectura, escrituta, matemáticas
ciencias naturales y ciencias sociales.
Las otras variables sociodemográficas son:
id: identificador de cada observación.
gender: Género
race: Raza del individuo
ses: Estatus Socio Económico (Socio Economic Status)
schytp: Tipo de escuela (pública, privada, etc.)
prog: Tipo de programa (general, vocacional, académico).
Nota: Recordar que hay un procedimiento importante a seguir al momento de abrir una base de datos y conducir pruebas de hipótesis. Es importante explorar la base de datos de manera adecuada, tener una idea de las distribuciones empíricas de los datos. Luego de ahí proceder a evaluar los supuestos de la prueba que intentas realizar. Este paso asume que tienes ya claro los objetivos de tu investigación, ya que esto orienta cuáles son las pruebas de hipótesis.
## # A tibble: 6 × 11
## id gender race ses schtyp prog read write math science socst
## <int> <chr> <chr> <fct> <fct> <fct> <int> <int> <int> <int> <int>
## 1 70 male white low public general 57 52 41 47 57
## 2 121 female white middle public vocational 68 59 53 63 61
## 3 86 male white high public general 44 33 54 58 31
## 4 141 male white high public vocational 63 44 47 53 56
## 5 172 male white middle public academic 47 52 57 53 61
## 6 113 male white middle public academic 44 52 51 63 61
##
##
## Cell Contents
## |-------------------------|
## | N |
## | N / Table Total |
## |-------------------------|
##
##
## Total Observations in Table: 200
##
##
## | general | academic | vocational |
## |------------|------------|------------|
## | 45 | 105 | 50 |
## | 0.225 | 0.525 | 0.250 |
## |------------|------------|------------|
##
##
##
##
## ── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
## ✔ dplyr 1.1.2 ✔ readr 2.1.4
## ✔ forcats 1.0.0 ✔ stringr 1.5.0
## ✔ lubridate 1.9.2 ✔ tibble 3.2.1
## ✔ purrr 1.0.2 ✔ tidyr 1.3.0
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks rstatix::filter(), stats::filter()
## ✖ dplyr::lag() masks stats::lag()
## ✖ dplyr::recode() masks car::recode()
## ✖ purrr::some() masks car::some()
## ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors
## # A tibble: 3 × 2
## prog n
## <fct> <int>
## 1 general 45
## 2 academic 105
## 3 vocational 50
## `summarise()` has grouped output by 'prog'. You can override using the
## `.groups` argument.
## # A tibble: 6 × 3
## # Groups: prog [3]
## prog gender n
## <fct> <chr> <int>
## 1 general female 24
## 2 general male 21
## 3 academic female 58
## 4 academic male 47
## 5 vocational female 27
## 6 vocational male 23
Imagina que estamos haciendo una investigación para evaluar si existe la misma cantidad de hombres que de mujeres (p=0.50).
- ¿La proporción poblacional \((p)\) es distinta a la proporción teórica \((p_0)\).
Una forma de representar, como vimos arriba, lo que sería hacer la prueba de bondad de ajuste de \(\chi^2\) , la cual podemos efectuar por medio del siguiente código:
##
## Chi-squared test for given probabilities
##
## data: table(hsb2$gender)
## X-squared = 1.62, df = 1, p-value = 0.2031
Si quiero evaluar que la proporción de institutos públicos fue igual que la de institutos privados el código sería:
Imagínense que estamos intentando observar si la distribución poblacional entre públicos y privados por género existe una desigualdad género en relación al último dato del censo y a las proyecciones poblacionales hechas por demógrafos. Se construyó una muestra aleatoria y representativa a nivel nacional en donde testeamos la hipótesis nula de que el tipo de escuela (público vs privada) y el género no están relacionados.
En los resultados del gráfico vemos el estadístico \(\chi2\) que es de 0.05 con un grado de libertad. El p-valor asociado es de 0.083 el cual es mayor a 0.05 (asumiendo este como valor crítico). Esto significa que las diferencias de género por tipo de recinto escolar no son estadísticamente significativas. De hecho el estadístico V de Cramer (medida de asociación) muestra no asociación entre las variables.
Si tuvieses que calcular este mismo test pero en una tabla cruzada
con la función CrossTable del paquete gmodels
puedes
hacerlo:
CrossTable(hsb2$gender, hsb2$schtyp, chisq = T,
expected=T, #estimar valores esperados
sresid = T #Mostrar residuos (std.)
)
##
##
## Cell Contents
## |-------------------------|
## | N |
## | Expected N |
## | Chi-square contribution |
## | N / Row Total |
## | N / Col Total |
## | N / Table Total |
## |-------------------------|
##
##
## Total Observations in Table: 200
##
##
## | hsb2$schtyp
## hsb2$gender | public | private | Row Total |
## -------------|-----------|-----------|-----------|
## female | 91 | 18 | 109 |
## | 91.560 | 17.440 | |
## | 0.003 | 0.018 | |
## | 0.835 | 0.165 | 0.545 |
## | 0.542 | 0.562 | |
## | 0.455 | 0.090 | |
## -------------|-----------|-----------|-----------|
## male | 77 | 14 | 91 |
## | 76.440 | 14.560 | |
## | 0.004 | 0.022 | |
## | 0.846 | 0.154 | 0.455 |
## | 0.458 | 0.438 | |
## | 0.385 | 0.070 | |
## -------------|-----------|-----------|-----------|
## Column Total | 168 | 32 | 200 |
## | 0.840 | 0.160 | |
## -------------|-----------|-----------|-----------|
##
##
## Statistics for All Table Factors
##
##
## Pearson's Chi-squared test
## ------------------------------------------------------------
## Chi^2 = 0.04704775 d.f. = 1 p = 0.8282824
##
## Pearson's Chi-squared test with Yates' continuity correction
## ------------------------------------------------------------
## Chi^2 = 0.000540089 d.f. = 1 p = 0.981459
##
##
Si solo queremos el test de Chi2 sin las proporciones de cada celda, sino el chi2 global (el de asociación entre las dos variables) y sin valores esperados por fila y total p sería:
##
##
## Cell Contents
## |-------------------------|
## | N |
## | N / Col Total |
## |-------------------------|
##
##
## Total Observations in Table: 200
##
##
## | hsb2$schtyp
## hsb2$gender | public | private | Row Total |
## -------------|-----------|-----------|-----------|
## female | 91 | 18 | 109 |
## | 0.542 | 0.562 | |
## -------------|-----------|-----------|-----------|
## male | 77 | 14 | 91 |
## | 0.458 | 0.438 | |
## -------------|-----------|-----------|-----------|
## Column Total | 168 | 32 | 200 |
## | 0.840 | 0.160 | |
## -------------|-----------|-----------|-----------|
##
##
## Statistics for All Table Factors
##
##
## Pearson's Chi-squared test
## ------------------------------------------------------------
## Chi^2 = 0.04704775 d.f. = 1 p = 0.8282824
##
## Pearson's Chi-squared test with Yates' continuity correction
## ------------------------------------------------------------
## Chi^2 = 0.000540089 d.f. = 1 p = 0.981459
##
##
Según (Cerda et al., 2013) en el análisis de tablas 2x2 mediante la prueba de Fisher, una métrica frecuentemente utilizada para evaluar el impacto en datos de categorías es la razón de posibilidades (Odds Ratio, OR) junto con su margen de confiabilidad. OR es básicamente una relación entre dos probabilidades alternativas, donde cada probabilidad alternativa representa la chance de que ocurra un evento específico o una exposición.
Normalmente, usamos probabilidades para describir la chance de que suceda un evento particular (Ludbrook, 2008). Por ejemplo, si hay un 40% de probabilidad de lluvia en junio, eso significa que podría llover 12 de los 30 días del mes. Las “odds” son otra manera de representar esta chance, y se calculan como la relación entre el número de eventos y el número de “no eventos”. En este caso, las odds de lluvia en junio serían 12/18. Es posible convertir probabilidades en odds y viceversa mediante fórmulas matemáticas.
Imagina que estás planeando un evento al aire libre y estás decidiendo entre junio y noviembre. Si la probabilidad de lluvia en noviembre es del 10%, las odds serían 3/27. Para comparar las chances de lluvia en ambos meses, puedes usar el Riesgo Relativo (RR) o el Odds Ratio (OR). El RR sería 4.0 en este ejemplo, lo que significa que es cuatro veces más probable que llueva en junio que en noviembre. De manera similar, el OR sería 6.0, lo que indica que la relación entre días de lluvia y días sin lluvia es seis veces mayor en junio que en noviembre. Ambos indicadores te llevarían a elegir noviembre para tu evento al aire libre.
Un OR de 1 indica que no hay efecto, y si el intervalo de confianza del 95% no incluye el número 1, sugiere que las odds en la población general también son diferentes de 1. El RR se usa principalmente en estudios aleatorizados y de cohorte, mientras que el OR es útil en estudios retrospectivos y transversales.
Criterio | Prueba \(\chi2\) | Prueba exacta de Fisher |
---|---|---|
Tamaño de muestra | Grande | Pequeña |
Exactitud | Aproximada distribución \(\chi2\) | Distribución exacta |
Tabla de contigencia (forma) | Dimensión arbitaria | Generalmente 2x2 |
Interpretación | Residuos de Pearson o V de Cramer | Razón de probabilidades (odds ratios) |
Los Odds ratios o razón de ventajas eso una medida del efecto que se utiliza de manera habitual en la epidemiología, bioestadística y en análisis clínicos y en menor medida en el análisis de datos cualitativos en ciencias sociales. Matemáticamente hablando un odds ratio son el cociente entre dos odds:
\[ Odds~Ratio=\frac{Odds_{evento~1}}{Odds_{evento~2}} \]
El cociente de probabilidades indica la variación en las chances. En este contexto a modo de ejemplo en R, podríamos determinar la variación en las chances de ir a una escuela privada según las diferentes etnias. Para lograrlo, estimaríamos la probabilidad de ir a una institución privada cuando se es de etnia “white” y posteriormente, haríamos una estimación similar para la etnia “other”. El cociente de probabilidades obtenido sería la división de una probabilidad sobre la otra.
## ------------------------------------------------------------------------------
## You have loaded plyr after dplyr - this is likely to cause problems.
## If you need functions from both plyr and dplyr, please load plyr first, then dplyr:
## library(plyr); library(dplyr)
## ------------------------------------------------------------------------------
##
## Attaching package: 'plyr'
## The following objects are masked from 'package:dplyr':
##
## arrange, count, desc, failwith, id, mutate, rename, summarise,
## summarize
## The following object is masked from 'package:purrr':
##
## compact
## The following objects are masked from 'package:rstatix':
##
## desc, mutate
## The following object is masked from 'package:ggpubr':
##
## mutate
hsb2$race2<-mapvalues(hsb2$race, from= c("african american",
"asian", "hispanic", "white"),
to = c(rep("others",3), "white"))
table(hsb2$race2)
##
## others white
## 55 145
Ahora construimos la tabla cruzada:
##
##
## Cell Contents
## |-------------------------|
## | N |
## |-------------------------|
##
##
## Total Observations in Table: 200
##
##
## | hsb2$race2
## hsb2$schtyp | others | white | Row Total |
## -------------|-----------|-----------|-----------|
## public | 50 | 118 | 168 |
## -------------|-----------|-----------|-----------|
## private | 5 | 27 | 32 |
## -------------|-----------|-----------|-----------|
## Column Total | 55 | 145 | 200 |
## -------------|-----------|-----------|-----------|
##
##
¿Cuál es la probabilidad de que alguien que no sea blanco asista a un instituto público? ¿Y cuál es la probabilidad de que alguien que no sea blanco vaya a un instituto privado? Además, ¿cuál es el cociente de probabilidades para un alumno no blanco entre asistir a un instituto público y uno privado? Indica la respuesta adecuada a continuación.
En este caso los odds de ir a un instituto público no siendo blanco es de \(0.4237288\) mientras que el odds de ir a un instituto privado no siendo blanco es de \(0.1851852\).
## [1] 0.4237288
## [1] 0.1851852
## [1] 2.288136
Esto significa que un estudiante no blanco tiene 2.29 veces mayor probabilidad de estudiar en un instituto público en relación a un instituto privado.
La prueba de \(\chi2\) puede usarse para comparar, como vimos anteriormente, comparar proporciones de más de dos grupos distintos. El procedimiento es muy similar al uso de tablas cruzadas 2x2, la diferencia es que se requiere de hacer pruebas post-hoc para detectar diferencias notables entre categorías.
La prueba \(\chi2\) de independencia es un método no paramétrico (que no asume una distribución específica) usado para evaluar las diferencias entre grupos en variables categóricas. Esta prueba es una técnica de contraste de hipótesis y debe complementarse con una métrica que indique la magnitud del efecto observado. La V de Cramer es la métrica más frecuentemente empleada para evaluar la magnitud del efecto tras obtener un resultado significativo en la prueba \(\chi2\). Esta métrica puede variar desde 0 (que indica independencia total) hasta 1 (que denota una correlación perfecta).
Para visualizar los resultados, podemos usar la función
ggbarstats()
del paquete ggstatsplot, que nos permite
representar gráficamente los datos e incluir los resultados del test. Si
queremos una tabla que muestre proporciones, podemos recurrir a la
función CrossTable()
del paquete gmodels, que nos
proporciona porcentajes desglosados por filas, columnas y totales,
además de los resultados del test.
Si la prueba \(\chi2\) arroja un
resultado significativo (lo que nos lleva a rechazar la hipótesis de
independencia entre las variables analizadas) y contamos con más de dos
grupos, es necesario realizar pruebas post hoc para identificar en qué
grupos específicos se hallan las diferencias significativas. Para este
propósito, podemos usar la función pairwise_prop_test()
del
paquete rstatix
.
Los puntos a favor de la prueba Chi-cuadrado son su resistencia frente a la distribución de los datos (ya que es un test no paramétrico), su sencillez en el cálculo, la profundidad de información que proporciona y su versatilidad (ya que puede evaluar tanto variables binarias como grupos múltiples).
Por otro lado, los inconvenientes son las exigencias en cuanto al tamaño de la muestra y la complejidad en la interpretación cuando se manejan muchas categorías (20 o más) en las variables.
En una matriz de contingencia 2 × 2, la naturaleza de una relación significativa puede ser evidente solo observando los porcentajes o los conteos de las celdas. Sin embargo, en matrices más extensas, es útil observar los residuos estandarizados, que señalan las celdas que tienen un impacto significativo en la estadística global del Chi-cuadrado: la relación se atribuye principalmente a estas celdas.
El residuo estandarizado actúa como una puntuación z:
si el valor está más allá de +- 1.96, es significativo a un nivel de p <0.05,
si supera +- 2.58, es significativo a un nivel de p <0.01,
y si excede +-3.29, es significativo a un nivel de p <0.001.
hsb2
Imagina que nos contratan para evaluar la elección de los programas formativos en escuelas del sector privado y público y conducimos un diseño para evaluar si existe asociación en la elección. Por lo que la hipótesis a probar sería:
\(H1\): Existen una relación en la elección de programas educativos entre escuelas privadas y públicas.
\(H2\): Los alumnos de las escuelas privadas tienden a elegir programas vocacionales que las públicas.
\(H3\): Los alumnos de las escuelas privadas tienden a elegir programas académicos en mayor proporción que los de las escuelas públicas.
Al parecer aunque hay una asociación débil, dicha asociación indica que las hipótesis 2 y 3 no se corroboran, ya que si bien existe una asociación entre la elección de programas educativos entre escuelas públicas y privadas, la dirección va orientada a una mayor proporción de alumnos de escuelas privadas eligen estos programas.
library(gmodels)
tablacon<-CrossTable(hsb2$schtyp,
hsb2$prog, prop.r = F,
prop.t = F,
prop.chisq = F,
chisq = T,
expected = F,
sresid=F,
fisher=F)
##
##
## Cell Contents
## |-------------------------|
## | N |
## | N / Col Total |
## |-------------------------|
##
##
## Total Observations in Table: 200
##
##
## | hsb2$prog
## hsb2$schtyp | general | academic | vocational | Row Total |
## -------------|------------|------------|------------|------------|
## public | 39 | 81 | 48 | 168 |
## | 0.867 | 0.771 | 0.960 | |
## -------------|------------|------------|------------|------------|
## private | 6 | 24 | 2 | 32 |
## | 0.133 | 0.229 | 0.040 | |
## -------------|------------|------------|------------|------------|
## Column Total | 45 | 105 | 50 | 200 |
## | 0.225 | 0.525 | 0.250 | |
## -------------|------------|------------|------------|------------|
##
##
## Statistics for All Table Factors
##
##
## Pearson's Chi-squared test
## ------------------------------------------------------------
## Chi^2 = 9.268707 d.f. = 2 p = 0.009712382
##
##
##
Este paso implica que debemos de hacer comparaciones múltiples (pairwise comparisons) pero las comparaciones múltiples de las proporciones requiere de hacer ciertos ajustes. Algunas de las más conocidas son las de Holm, Box-Cox y Bonferroni.
Realizar comparaciones múltiples o comparaciones por pares es necesario cuando se están analizando tres o más grupos o condiciones en un experimento o estudio. Aquí te dejo algunas razones por las que son necesarias:
Cuando se trabaja con datos en forma de proporción, se pueden usar varios métodos de corrección. Algunos de los métodos más comunes son:
Transformación de Arcoseno:\[ y = 2 \cdot \arcsin(\sqrt{x}) \]Donde \(y\) es el valor transformado y \(x\) es la proporción original.
Transformación Logit:
\[ y = \ln\left(\frac{x}{1-x}\right) \]
Donde \(y\) es el valor transformado y \(x\) es la proporción original.
Transformación de Box-Cox:
\[ y = \frac{x^{\lambda} - 1}{\lambda} \]Donde \(y\) es el valor transformado, \(x\) es la proporción original, y \(\lambda\) es un parámetro a estimar.
Método de Bonferroni:
Este método ajusta el nivel de significancia al dividir el nivel de significancia original entre el número de pruebas realizadas.
\[ \alpha_{\text{ajustado}} = \frac{\alpha}{k} \]
Método de Holm:
Es una modificación del método de Bonferroni que es menos conservadora.
Los p-valores se ordenan de menor a mayor y se comparan con un nivel de significancia ajustado que varía según el rango del p-valor.
Método de Benjamini-Hochberg:
Controla la tasa de descubrimientos falsos y es menos conservador que el método de Bonferroni.
Los p-valores se ordenan y se comparan con un nivel de significancia ajustado que depende del número de pruebas y del rango del p-valor.
Estos métodos ayudan a realizar inferencias más precisas y confiables cuando se analizan datos en forma de proporción y se realizan múltiples comparaciones.
Debido a que las comparaciones no eran homogéneas las pruebas de comparaciones múltiples arrojaron que no existen diferencias significativas salvo entre los programas académicos y vocacionales entre las dos escuelas.
library(rstatix)
tablacomp<-pairwise_prop_test(table(hsb2$schtyp, hsb2$prog), p.adjust.method = "holm")
library(papaja)
apa_table(tablacomp)
group1 | group2 | p | p.adj | p.adj.signif |
---|---|---|---|---|
general | academic | 0.26 | 0.41 | ns |
general | vocational | 0.21 | 0.41 | ns |
academic | vocational | 0.01 | 0.02 | * |
La prueba de McNemar se utiliza para analizar datos de estudios de diseño pareado, especialmente en estudios de casos y controles. Es útil cuando se tienen dos mediciones relacionadas o emparejadas de una variable binaria (por ejemplo, presencia o ausencia de una enfermedad antes y después de un tratamiento).
Diseño Pareado: La prueba se aplica a datos pareados, donde cada sujeto ha sido medido en dos ocasiones o condiciones diferentes.
Datos Binarios: La variable de interés debe ser binaria, es decir, solo debe tener dos posibles resultados (por ejemplo, positivo/negativo, éxito/fracaso).
Independencia de los Pares: Cada par de observaciones debe ser independiente de los demás pares.
La prueba de McNemar utiliza una tabla de contingencia \(2 \times 2\):
Condición 2
+ -
Condición 1 + a b
- c d
La estadística de prueba de McNemar se calcula como:
\[ \text{McNemar} = \frac{(b - c)^2}{b + c} \]
Si se tiene una tabla de contingencia como la siguiente:
Imagina que queremos comparar la aprobación de desempeño del presidente en dos encuestas con un mes de diferencia después de la parobación del presupuesto, por lo que las hipótesis nulas y alternativas serían:
\[ H_o:p_1=p_2~~H_1: p_1 \ne p_2 \]
Este ejemplo es de Agresti, 1990.
#Paso 1, imputamos los datos de la tabla de la ág. 350
# de Agresti, 1990.
perf<-
matrix(c(794, 86, 150, 570),
nrow = 2,
dimnames = list("1raEncuesta"= c("Aprueba", "Desaprueba"),
"2daEncuesta"= c("Aprueba", "Desaprueba")))
perf
## 2daEncuesta
## 1raEncuesta Aprueba Desaprueba
## Aprueba 794 150
## Desaprueba 86 570
## X1raEncuesta X2daEncuesta Freq
## 1 Aprueba Aprueba 794
## 2 Desaprueba Aprueba 86
## 3 Aprueba Desaprueba 150
## 4 Desaprueba Desaprueba 570
La estadística de McNemar se calcularía como:
\[ \text{McNemar} = \frac{(150 - 86)^2}{150 + 86} \]
Este valor se compararía con una distribución chi-cuadrado con 1 grado de libertad para determinar el valor p. El cual es de \(17.36\), el cual se rechaza la \(H_0\) de que las proporciones son similares estadísticamente hablando. Indicando que tras aprobar el presupuesto la aprobación paso de un 90 a a un 21 %.
library(ggstatsplot)
ggbarstats(data= Perf,
x=X1raEncuesta, y=X2daEncuesta,
counts = Freq, paired = T, bf.message = F)
Si no deseas presentar el dato con el paquete
ggstatsplot
puedes usar el comando CrossTable
del paquete ggmodels
##
##
## Cell Contents
## |-------------------------|
## | N |
## | N / Col Total |
## |-------------------------|
##
##
## Total Observations in Table: 1600
##
##
## | 2daEncuesta
## 1raEncuesta | Aprueba | Desaprueba | Row Total |
## -------------|------------|------------|------------|
## Aprueba | 794 | 150 | 944 |
## | 0.902 | 0.208 | |
## -------------|------------|------------|------------|
## Desaprueba | 86 | 570 | 656 |
## | 0.098 | 0.792 | |
## -------------|------------|------------|------------|
## Column Total | 880 | 720 | 1600 |
## | 0.550 | 0.450 | |
## -------------|------------|------------|------------|
##
##
## McNemar's Chi-squared test
## ------------------------------------------------------------
## Chi^2 = 17.35593 d.f. = 1 p = 3.099293e-05
##
## McNemar's Chi-squared test with continuity correction
## ------------------------------------------------------------
## Chi^2 = 16.8178 d.f. = 1 p = 4.114562e-05
##
##
La prueba Q de Cochran es una prueba no paramétrica que se utiliza para comparar tres o más proporciones de muestras relacionadas. Es especialmente útil cuando los datos son binarios y se quieren comparar más de dos condiciones o tratamientos relacionados.
La estadística de prueba Q de Cochran se calcula como sigue:
\[ Q = \frac{(r - 1) \sum_{j=1}^{k} (T_j - \bar{T})^2}{\sum_{j=1}^{k} T_j (1 - T_j / n_j)} \]
Donde: \(r\) es el número de niveles o condiciones (más de dos). \(k\) es el número total de sujetos. \(T_j\) es el total de éxitos en el nivel \(j\). \(\bar{T}\) es el promedio de los totales de éxitos. \(n_j\) es el número total de observaciones en el nivel \(j\).
La prueba Q de Cochran es útil para analizar la homogeneidad de proporciones en estudios con diseño de medidas repetidas o bloques emparejados, especialmente cuando los datos son binarios. Si se rechaza la hipótesis nula, se pueden realizar comparaciones por pares post hoc para identificar dónde se encuentran las diferencias específicas entre los niveles.
#Generando la base de datos
Respuesta <- c(1,0,1,0,0,1,0,1,0,0,1,1,0,0,1,1,1,1,0,0,1,0,1,1,0,1,1,0,1,1)
Sujeto <- factor(c(1,1,1,2,2,2,3,3,3,4,4,4,5,5,5,6,6,6,7,7,7,8,8,8,9,9,9,10,
10,10))
Canal <- factor(rep(c("inicial","anuncio","internet"), 10))
datos <- data.frame(Sujeto,Canal,Respuesta)
head(datos)
## Sujeto Canal Respuesta
## 1 1 inicial 1
## 2 1 anuncio 0
## 3 1 internet 1
## 4 2 inicial 0
## 5 2 anuncio 0
## 6 2 internet 1
Ahora grafiquemos y testemos la hipótesis de que el grupo de personas sometidos a diferentes anuncios de una marca que desconocen y ver si responden de manera distinta:
levels(datos$Canal) <-c("Incial", "Anuncios", "Facebook/Instagram")
library(ggstatsplot)
ggbarstats(data = datos, x= Respuesta, y= Canal,
paried= T, bf.message = F)
Como vemos se rechaza la hipótesis de que no existen diferencias significativas intra-sujetos en términos proporcionales.
Ahora si queremos hacer comparaciones múltiples o si solo queremos
hacer el test sin gráficos tenemos que usar el paquete
rstatix
:
library(rstatix)
qtest<-cochran_qtest(datos, Respuesta~ Canal|Sujeto)
library(papaja)
apa_table(qtest)
.y. | n | statistic | df | p | method |
---|---|---|---|---|---|
Respuesta | 10 | 8.22 | 2.00 | 0.02 | Cochran’s Q test |
Para las pruebas de comparación múltiple se usa el comando
pairwise_mcnemar_test
con la prueba exacta de Fisher y con
un ajuste del p valor de Bonferroni.
PruebaC<-pairwise_mcnemar_test(datos, Respuesta ~ Canal|Sujeto,
type = c("mcnemar", "exact"),
correct = T, p.adjust.method = "bonferroni")
apa_table(PruebaC)
group1 | group2 | p | p.adj | p.adj.signif | method |
---|---|---|---|---|---|
Incial | Anuncios | 0.22 | 0.66 | ns | McNemar test |
Incial | Facebook/Instagram | 0.37 | 1.00 | ns | McNemar test |
Anuncios | Facebook/Instagram | 0.02 | 0.07 | ns | McNemar test |
El reporte en APA de los resultados es importante, lo cual es el
reporte de los estadísticos como se observa en los gráficos del paquete
ggstatsplot
con su respectivo tamaño del efecto. Una forma
de obtener el tamaño del efecto sin recurrir al paquete
ggstatsplot
es por medio de la función
effectsize::cramers_v
para las \(\chi2\) de para muestras independientes y
para la prueba de McNemar effectsize::cohens_g
.
k | Pequeño | Medio | Grande | Rango |
---|---|---|---|---|
\(k=2\) | \(0.10~-<0.30\) | \(0.30 ~-< 0.50\) | \(\geq 0.50\) | \([0, 1]\) |
\(k=3\) | \(0.07~-<0.20\) | \(0.20~-<0.35\) | \(\ge 0.35\) | \([0,1]\) |
\(k=4\) | \(0.06~-<0.17\) | \(0.17~-<0.29\) | \(≥0.29\) | \([0,1]\) |
Para la g de Cohen:
Tamaño del efecto | Pequeño | Medio | Grande | Rango |
---|---|---|---|---|
\(G~de~ Cohen\) | \(0.05~-<0.15\) | \(0.15 ~-< 0.25\) | \(\geq 0.25\) | \([0, 1]\) |
En el ámbito de la estadística inferencial, las pruebas de hipótesis son herramientas cruciales que permiten tomar decisiones informadas basadas en datos. Estas pruebas son esenciales cuando se desea inferir o generalizar propiedades de la población a partir de una muestra. En este contexto, las puntuaciones, que son variables numéricas, juegan un papel fundamental, y su análisis requiere una selección cuidadosa de pruebas de hipótesis que se ajusten a las características y naturaleza de los datos.
Como vimos anteriormente las pruebas de hipótesis se clasifican en paramétricas, no paramétricas y robustas, y la elección entre ellas depende de si los datos cumplen o no con los supuestos estadísticos clásicos. Estos supuestos incluyen la normalidad de los datos, la homogeneidad de varianza, la independencia de las observaciones y la ausencia de valores atípicos o outliers. Cada uno de estos supuestos tiene implicaciones significativas en la validez y precisión de los resultados obtenidos a través de las pruebas de hipótesis.
Las pruebas paramétricas son apropiadas cuando los datos cumplen con los supuestos de normalidad y homogeneidad de varianza. Estas pruebas son poderosas y precisas, pero son sensibles a las violaciones de los supuestos. Por otro lado, las pruebas no paramétricas son más flexibles y se utilizan cuando los datos no cumplen con los supuestos de normalidad o cuando se trabaja con datos ordinales o nominales. Aunque son menos sensibles a las violaciones de los supuestos, pueden carecer del poder estadístico de las pruebas paramétricas.
Las pruebas robustas, por su parte, ofrecen un equilibrio entre las pruebas paramétricas y no paramétricas. Son útiles cuando los datos presentan ciertas violaciones de los supuestos, pero no son tan extremas como para requerir pruebas no paramétricas. Proporcionan resultados fiables y son menos sensibles a la presencia de outliers, lo que las hace ideales para datos que presentan cierto grado de contaminación.
En el subcapítulo que se introduce, se explorará en detalle las pruebas de hipótesis para la media, un parámetro central en la estadística descriptiva. Se abordarán los diferentes tipos de pruebas de hipótesis, sus aplicaciones, supuestos y limitaciones, proporcionando un entendimiento profundo de cómo y cuándo utilizar cada prueba, dependiendo de las características de los datos. Este conocimiento es vital para realizar inferencias precisas y confiables sobre la población a partir de los datos de muestra, y para contribuir al desarrollo de investigaciones sólidas y rigurosas en diversos campos del conocimiento.
Una prueba de hipótesis paramétrica para una muestra es un procedimiento estadístico que se utiliza para determinar si una muestra de datos proviene de una población con un parámetro específico, generalmente la media (\(\mu\)). Este tipo de prueba se basa en supuestos específicos sobre la distribución de la población de la cual proviene la muestra, típicamente asumiendo que los datos siguen una distribución normal, y que se conoce la varianza de la población o que la muestra es suficientemente grande. La prueba contrasta la hipótesis nula, que sostiene que la muestra proviene de una población con un parámetro específico, contra una hipótesis alternativa, que sostiene que el parámetro de la población es diferente del especificado en la hipótesis nula. Si la evidencia en los datos es suficientemente fuerte contra la hipótesis nula, se rechaza en favor de la hipótesis alternativa.
Los datos deben satisfacer los supuestos siguientes:
Imagina que intentamos comparar si la calificación media de escritura
de la muestra es de 50 puntos, el cual es el último dato a nivel
nacional obtenidas de registros administrativos de las pruebas del año
escolar pasado. Con los datos de la base hsb2
:
## # A tibble: 6 × 11
## id gender race ses schtyp prog read write math science socst
## <int> <chr> <chr> <fct> <fct> <fct> <int> <int> <int> <int> <int>
## 1 70 male white low public general 57 52 41 47 57
## 2 121 female white middle public vocational 68 59 53 63 61
## 3 86 male white high public general 44 33 54 58 31
## 4 141 male white high public vocational 63 44 47 53 56
## 5 172 male white middle public academic 47 52 57 53 61
## 6 113 male white middle public academic 44 52 51 63 61
## # A tibble: 1 × 4
## variable n mean sd
## <fct> <dbl> <dbl> <dbl>
## 1 write 200 52.8 9.48
## Warning: The `fun.y` argument of `stat_summary()` is deprecated as of ggplot2 3.3.0.
## ℹ Please use the `fun` argument instead.
## ℹ The deprecated feature was likely used in the ggpubr package.
## Please report the issue at <https://github.com/kassambara/ggpubr/issues>.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.
## Warning: The `fun.ymin` argument of `stat_summary()` is deprecated as of ggplot2 3.3.0.
## ℹ Please use the `fun.min` argument instead.
## ℹ The deprecated feature was likely used in the ggpubr package.
## Please report the issue at <https://github.com/kassambara/ggpubr/issues>.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.
## Warning: The `fun.ymax` argument of `stat_summary()` is deprecated as of ggplot2 3.3.0.
## ℹ Please use the `fun.max` argument instead.
## ℹ The deprecated feature was likely used in the ggpubr package.
## Please report the issue at <https://github.com/kassambara/ggpubr/issues>.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.
Ahora evaluaremos los supuestos del modelo.
No existen valores atípicos o outliers en la distribución.
## [1] id gender race ses schtyp prog
## [7] read write math science socst is.outlier
## [13] is.extreme
## <0 rows> (or 0-length row.names)
Existe presencia de no normalidad, especialmente por valores en las colas que se salen del intervalo de confianza del gráfico cuantil por cuantil.
## # A tibble: 1 × 3
## variable statistic p
## <chr> <dbl> <dbl>
## 1 write 0.947 0.000000987
Ahora procedemos a aplicar la prueba t_test del paquete rstatix.
## # A tibble: 1 × 7
## .y. group1 group2 n statistic df p
## * <chr> <chr> <chr> <int> <dbl> <dbl> <dbl>
## 1 write 1 null model 200 4.14 199 0.0000512
Según Cohen esto es un efecto pequeño pero recuerden que según Sullivan y Feinn (2012) la significancia teórica sobre lo que es un efecto pequeño o grande depende de cuestiones teóricas de la disciplina, por lo que el baremos hecho por Cohen no es exhaustivo.
## # A tibble: 1 × 6
## .y. group1 group2 effsize n magnitude
## * <chr> <chr> <chr> <dbl> <int> <ord>
## 1 write 1 null model 0.293 200 small
El uso de gráficos es sumamente útil para papers, reportes internos e
informes en el contexto de investigaciones privadas en una compañía que
tiene un departamento de inteligencia de datos. Recordamos que no
existen valores atípicos pero la distribución que sigue no es normal,
por lo que hay que recalibrar el efecto usando la g de Hedge. La función
gghistostats()
del paquete ggplotstats
es útil
para esta tarea:
Antes de proceder debemos de calcular el intervalo de confianza para presentar los datos:
media<-mean(hsb2$write)
de<-sd(hsb2$write)
n<-length(hsb2$write)
# Error
(error<-qt(.975, df=n-1)*de/sqrt(n))
## [1] 1.321679
## [1] 54.09668
## [1] 51.45332
La clasificación media en escritura \((M=52.77, ~IC~ [51.45, ~54.10])\) es estadísticamente distinta de 50 puntos \((t(199)=~4.14, ~p<0.05, ~\hat{g}_{Hedges}=0.29)\).
gghistostats(x= write,
data=hsb2,
test.value = 50,
type="p",
test.value.size=T,
test.value.line=T,
normal.curve = T,
bf.message = F)
Ahora, estos datos no son robustos ya que no se cumple el supuesto de
normalidad, otra opción es calcular el test robusto a normalidad con la
opción "robust"
o "nonparametric"
. Igual el
efecto sigue siendo estadísticamente significativo y distinto de 50.
gghistostats(x= write,
data=hsb2,
test.value = 50,
type="nonparametric",
test.value.size=T,
test.value.line=T,
normal.curve = T,
bf.message = F)
La prueba robusta de Yuen, también conocida como la prueba t de Yuen para muestras independientes, es un método estadístico no paramétrico utilizado para comparar la diferencia entre las medias recortadas de dos grupos. Es especialmente útil cuando se sospecha que los datos pueden no cumplir con los supuestos de la prueba t de Student, como la normalidad y la homocedasticidad. La prueba de Yuen es “robusta” porque es resistente a la presencia de valores atípicos y no normalidad en los datos.
La prueba de Yuen compara las medias recortadas de dos grupos. Una media recortada se calcula eliminando un porcentaje específico de los valores más bajos y más altos del conjunto de datos y luego calculando la media de los valores restantes. Esto ayuda a minimizar el impacto de los valores atípicos.
Para una muestra, la prueba t de Yuen se puede realizar utilizando la fórmula del t-estadístico de Yuen, que se calcula de la siguiente manera:
\[ t = \frac{{\bar{Y}_{\text{{trim}}} - \mu_0}}{{SE(\bar{Y}_{\text{{trim}}})}} \]
Donde: \(\bar{Y}_{\text{{trim}}}\) es la media recortada de la muestra, \(\mu_0\) es el valor de la media poblacional bajo la hipótesis nula. \(SE(\bar{Y}_{\text{{trim}}})\) es el error estándar de la media recortada.
El error estándar de la media recortada se calcula como:
\[ SE(\bar{Y}_{\text{{trim}}}) = \frac{{s_{\text{{trim}}}}}{{\sqrt{n}}} \]
Donde: \(s_{\text{{trim}}}\) es la desviación estándar recortada de la muestra, \(n\) es el tamaño de la muestra después de recortar.
Recortar los Datos: Eliminar un porcentaje de los valores más bajos y más altos del conjunto de datos.
Calcular la Media Recortada: Calcular la media de los valores restantes después del recorte.
Calcular el Error Estándar de la Media Recortada: Calcular el error estándar de la media recortada utilizando la desviación estándar recortada y el tamaño de la muestra recortada.
Calcular el t-estadístico de Yuen: Utilizar la fórmula del t-estadístico de Yuen para calcular el valor de t.
Comparar con la Distribución t: Comparar el t-estadístico calculado con la distribución t para determinar si la diferencia entre la media recortada y el valor de la media poblacional bajo la hipótesis nula es estadísticamente significativa.
Imagina que tenemos valores extremos en el primer decil y en el noveno, entonces ahora calculemos la media recortada.
#library(dplyr)
hsb2 %>%
filter(between(write, quantile(write,0.1),
quantile(write, 0.9))) %>%
get_summary_stats(write, type = "mean_sd")
## # A tibble: 1 × 4
## variable n mean sd
## <fct> <dbl> <dbl> <dbl>
## 1 write 177 53.9 7.77
Ahora para generar un gráfico de cajas con la media recortada hacemos la misma operación de calcular los datos filtrando por los cuantiles 0.1 y 0.9
La media y la mediana ahora son similares observando el resultado.
hsb2 %>%
filter(between(write,
quantile(write, 0.1),
quantile(write, 0.9))) %>%
ggboxplot(y ="write",
add= c("mean"),
add.params= list(color="green"))
Aunque si estamos haciendo una prueba robusta no necesitariamos
evaluar los supuestos, he aquí cómo se haría el procedimiento en R. La
prueba de Shapiro Wilk del comando rstatix
arroja que se
rechaza \(H_0\) de que la distribución
es normal.
## # A tibble: 1 × 3
## variable statistic p
## <chr> <dbl> <dbl>
## 1 write 0.935 0.000000361
El resultado de la prueba gráfica cuantil por cuantil arroja valores atípicos en relación a la distribución normal esperada en las colas.
Para ajustar el modelo hacemos lo siguiente:
##
## Yuen One Sample t-test
##
## data: hsb2$write
## t = 4.5755, df = 119.0, trim = 0.2, p-value = 1.174e-05
## alternative hypothesis: true trimmed mean is not equal to 50
## 95 percent confidence interval:
## 52.16025 55.45642
## sample estimates:
## trimmed mean of x
## 53.80833
gghistostats(x= write,
data=hsb2,
test.value = 50,
type="r",
test.value.size=T,
test.value.line=T,
normal.curve = T,
bf.message = F,
tr=0.2)
La prueba de Wilcoxon de una muestra, también conocida como la prueba de signos de Wilcoxon, es una prueba no paramétrica utilizada para determinar si la mediana de una muestra difiere significativamente de un valor hipotético o de referencia. Es una alternativa a la prueba t de una muestra cuando los datos no cumplen con los supuestos de normalidad.
La estadística de prueba \(W\) se calcula como la suma de los rangos de las diferencias positivas. Si se tiene un número pequeño de observaciones, se compara el valor de \(W\) con valores críticos de tablas de Wilcoxon. Para tamaños de muestra grandes, se puede aproximar a una distribución normal.
\[ W = \sum_{i=1}^{n} R_i \cdot \text{sign}(x_i - \mu_0) \]
Donde: \(W\) es la estadística de prueba de Wilcoxon, \(R_i\) es el rango de la diferencia absoluta \(i\), \(x_i\) es el valor de la observación \(i\) y \(\mu_0\) es el valor hipotético o de referencia de la mediana.
La prueba de Wilcoxon de una muestra es útil cuando se desea comparar la mediana de una muestra con un valor específico, especialmente cuando los datos no son normalmente distribuidos o son ordinales. Si el valor calculado de \(W\) es menor que el valor crítico de Wilcoxon para el nivel de significancia elegido, se rechaza la hipótesis nula de que la mediana de la muestra es igual al valor hipotético o de referencia.
En esta tabla estimamos la mediana y el rango intercuartílico de la muestra de las calfiicaciones en escritura. La mediana es 54 puntos y el rango es de 14.25 puntos.
## # A tibble: 1 × 4
## variable n median iqr
## <fct> <dbl> <dbl> <dbl>
## 1 write 200 54 14.2
Ya evaluamos en los ejemplos anteriores que no existen valores
atípicos, pero necesitamos probar el supuesto de que la distribución es
simétrica con respecto de la mediana. Para ello hacemos uso de
un histograma para observar la función de densidad acumulada. Esto es
posible con el comando gghistogram()
del paquete
ggpur
. En el gráfico se ilustra que los datos no son
simétricos, por lo que esta prueba puede tener problemas aunque hay
maneras de solucionarlo.
## Warning: Using `bins = 30` by default. Pick better value with the argument
## `bins`.
wilcox_text()
El paquete rstatix
ofrece un comando para ejecutar dicha
prueba el cual tiene la siguiente estructura:
## # A tibble: 1 × 6
## .y. group1 group2 n statistic p
## * <chr> <chr> <chr> <int> <dbl> <dbl>
## 1 write 1 null model 200 13177 0.000037
wilcox_test(write~1, #La ecuación
data= hsb2, #los datos utilizados
exact= TRUE, #Si se quiere calcular con rangos
#Se coloca exact= NULL
mu=50) #El valor teorético.
## # A tibble: 1 × 6
## .y. group1 group2 n statistic p
## * <chr> <chr> <chr> <int> <dbl> <dbl>
## 1 write 1 null model 200 13177 0.000037
Para calcular el tamaño del efecto hacemos uso de la librería
rstatix
y usamos la función
wilcox_effsize()
Al igual que en los ejercicios anteriores el efecto estimado es ‘pequeño’ según el baremos propuesto por Cohen.
#Nota: a veces aunque tengan el paquete rstatix
# Es posible que necesiten instalar otros paquetes auxiliares
# Como lo es el pauqete "coin".
#install.packages("coin")
#library(coin)
wilcox_effsize(write ~1, data=hsb2, mu=50)
## # A tibble: 1 × 6
## .y. group1 group2 effsize n magnitude
## * <chr> <chr> <chr> <dbl> <int> <ord>
## 1 write 1 null model 0.292 200 small
La prueba t de Student para muestras independientes, también conocida como prueba t de dos muestras, es un procedimiento estadístico paramétrico utilizado para determinar si existen diferencias significativas entre las medias de dos grupos independientes. Es apropiada cuando se tienen dos grupos que no están relacionados y se desea comparar si las medias de una variable cuantitativa son diferentes entre los grupos.
La estadística de prueba t se calcula utilizando la siguiente fórmula:
\[ t = \frac{\bar{x}_1 - \bar{x}_2}{\sqrt{\left(\frac{s_1^2}{n_1}\right) + \left(\frac{s_2^2}{n_2}\right)}} \]
Donde: \(\bar{x}_1\) y \(\bar{x}_2\) son las medias de las dos muestras, \(s_1^2\) y \(s_2^2\) son las varianzas de las dos muestras. Por último \(n_1\) y \(n_2\) son los tamaños de las dos muestras.
En la práctica, se realiza la prueba t de Student para muestras independientes comparando la estadística de prueba t calculada con un valor crítico de la distribución t de Student, o calculando un valor p. Si el valor p es menor que el nivel de significancia preestablecido (usualmente \(\alpha = 0.05\)), o si el valor absoluto de la estadística de prueba t es mayor que el valor crítico, se rechaza la hipótesis nula de igualdad de medias, sugiriendo que existe una diferencia significativa entre las medias de los dos grupos.
Imagina que planteamos un estudio para estudiar diferencias en la calificación de escritura entre hombres y mujeres en plan de un proyecto de identificación de fallas para eliminar la deserción escolar. Se entiende que en estos últimos años hay una falta de interés generalizada en los varones que hace que estos tengan deserción escolar en mayor medida que las hembras. Uno de las causas es las expectativas de éxito en la escuela y factores psicológicos asociados a la frustración. Por lo que se construye un experimento y se recolecta una muestra aleatoria de los estudiantes de todo el país.
## # A tibble: 6 × 11
## id gender race ses schtyp prog read write math science socst
## <int> <chr> <chr> <fct> <fct> <fct> <int> <int> <int> <int> <int>
## 1 70 male white low public general 57 52 41 47 57
## 2 121 female white middle public vocational 68 59 53 63 61
## 3 86 male white high public general 44 33 54 58 31
## 4 141 male white high public vocational 63 44 47 53 56
## 5 172 male white middle public academic 47 52 57 53 61
## 6 113 male white middle public academic 44 52 51 63 61
Ahora exploremos los datos por sexo: En promedio las niñas tienen no solo menor dispersión en las calificaciones de escritura sino que el estimado puntual es mayor que el de los varones en promedio.
## # A tibble: 2 × 5
## gender variable n mean sd
## <chr> <fct> <dbl> <dbl> <dbl>
## 1 female write 109 55.0 8.13
## 2 male write 91 50.1 10.3
Inclusive podemos verlo gráficamente con el diagrama de caja
ggboxplot(x="gender",
y='write',
data= hsb2,
add=c("mean"),
fill= "lightblue",
add.params = list(color="red"))
## [1] gender id race ses schtyp prog
## [7] read write math science socst is.outlier
## [13] is.extreme
## <0 rows> (or 0-length row.names)
Se rechaza \(H_0\) de que la variación en clasificación de escritura entre hombres y mujeres.
## Warning in leveneTest.default(y = y, group = group, ...): group coerced to
## factor.
## # A tibble: 1 × 4
## df1 df2 statistic p
## <int> <int> <dbl> <dbl>
## 1 1 198 9.62 0.00221
Se rechaza \(H_0\) de que la distribución condicional de los resultados en nivel de escritura por sexo sea normal.
## # A tibble: 2 × 4
## gender variable statistic p
## <chr> <chr> <dbl> <dbl>
## 1 female write 0.946 0.000234
## 2 male write 0.950 0.00154
Valores atípicos en relación a los valores teoréticos de una
distribución normal en las colas de la derecha de las mujeres y en ambas
colas de los hombres explican el por qué la distribución no se ajusta a
una normal.
Asumiendo que se cumplen los supuestos (sabemos que dos de ellos no
se cumplen pero para fines didácticos asumiéremos que si) para ajustar
una prueba t con los comando de la librería rstatix
1. Los
resultados muestran que se rechaza \(H_0\) de que no existen diferencias
significativas en las calificaciones de escritura entre hombres y
mujeres.
t_test(hsb2, # datos
write ~gender, #formula
paired= F, #TRUE si las muestras son relacionadas
var.equal = F, #TRUE si hay homogeneidad varianzas
alternative ="two.sided", #(otras opciones:
#"greater", "less")
#mu=0, #Parámetro de Ho, no es necesario ponerlo
#conf.level= 0.95 # nivel confianza
)
## # A tibble: 1 × 8
## .y. group1 group2 n1 n2 statistic df p
## * <chr> <chr> <chr> <int> <int> <dbl> <dbl> <dbl>
## 1 write female male 109 91 3.66 170. 0.000341
Dado que el valor p es 0.00034, mucho menor que el umbral típico de 0.05, rechazarías la hipótesis nula. Esto sugiere que hay una diferencia estadísticamente significativa en la variable “write” entre los grupos “female” y “male”. Además, dado que el valor del estadístico t es positivo, esto sugiere que el grupo “female” tiene una media más alta en la variable “write” en comparación con el grupo “male”. A su vez, el efecto medido por la \(\hat{g}_{Hedge}\) es de 0.52, por lo que indica un efecto grande.
En resumen, los resultados sugieren que hay una diferencia significativa en la escritura entre mujeres y hombres en tu muestra, con las mujeres mostrando un rendimiento superior en promedio.
ggbetweenstats(x= gender, y= write,
data= hsb2, bf.message = F)+
theme(text= element_text(size=8), plot.subtitle = element_text(size=8))
La prueba de Yuen para dos muestras independientes compara las medias recortadas de dos grupos independientes para determinar si hay una diferencia significativa entre ellas. Es útil cuando los datos pueden tener valores atípicos o no cumplir con los supuestos de la prueba t de Student.
La fórmula del t-estadístico de Yuen para dos muestras independientes es:
\[ t = \frac{{\bar{Y}_{1,~trim} - \bar{Y}_{2, ~trim}}}{{SE_{pooled}}} \]
Donde: \(\bar{Y}_{2, ~trim}\) y \(\bar{Y}_{2,~{trim}}\) son las medias recortadas de los dos grupos y \(SE_{{pooled}}\) es el error estándar agrupado de las medias recortadas.
El error estándar agrupado se calcula como:
\[ SE_{{pooled}} = s_{{pooled}} \cdot \sqrt{\frac{1}{n_1} + \frac{1}{n_2}} \]
Donde: - \(s_{pooled}\) es la desviación estándar agrupada de los dos grupos y \(n_1\) y \(n_2\) son los tamaños de las muestras de los dos grupos.
Recortar los Datos: Eliminar un porcentaje de los valores más bajos y más altos de cada conjunto de datos.
Calcular las Medias Recortadas: Calcular la media de los valores restantes después del recorte para cada grupo.
Calcular el Error Estándar Agrupado: Calcular el error estándar agrupado utilizando la desviación estándar agrupada y los tamaños de las muestras.
Calcular el t-estadístico de Yuen: Utilizar la fórmula del t-estadístico de Yuen para calcular el valor de t.
Comparar con la Distribución t: Comparar el t-estadístico calculado con la distribución t para determinar si la diferencia entre las medias recortadas de los dos grupos es estadísticamente significativa.
Es posible hacerlo con los comando default de Rstudio pero rstatix permite mejor flexibilidad en mi opinión aunque tienen muchas similitudes en cuanto al código.↩︎