1.0 Recuento de lo que es el testeo de hipótesis

El testeo de hipótesis (también conocido como prueba de hipótesis o inferencia estadística) es un procedimiento que se utiliza para tomar decisiones sobre una población basándose en una muestra de datos. En esencia, nos permite tomar una decisión basada en la evidencia de los datos que hemos recogido.

El procedimiento generalmente comienza con la formulación de dos hipótesis: la hipótesis nula (H0) y la hipótesis alternativa (H1 o Ha).

El testeo de hipótesis utiliza los datos de la muestra para calcular un valor de prueba (como un t-valor, un z-valor, un chi cuadrado, etc.), que luego se utiliza para decidir si rechazar o no la hipótesis nula.

Es importante notar que no poder rechazar la hipótesis nula no es lo mismo que demostrar que la hipótesis nula es verdadera. Del mismo modo, rechazar la hipótesis nula no es lo mismo que probar que la hipótesis alternativa es verdadera. En vez de eso, estamos tomando una decisión basados en la evidencia de los datos y siempre existe la posibilidad de que cometamos un error en esa decisión.

1.1 Testeo de hipótesis y la potencia estadística

La potencia estadística, también conocida como potencia de una prueba de hipótesis, es la probabilidad de que una prueba de hipótesis rechace correctamente la hipótesis nula cuando la hipótesis nula es falsa. En otras palabras, es la probabilidad de no cometer un error de Tipo II, que es la situación en la que la hipótesis nula es falsa, pero fallamos en rechazarla.

Es común expresar la potencia estadística como 1 menos la probabilidad de un error de Tipo II (comúnmente denotada como beta), así que la potencia estadística es usualmente denotada como \((1 - \beta)\).

La potencia estadística depende de varios factores, incluyendo:

1. El tamaño de la muestra: con una muestra más grande, tienes más información sobre la población y, por lo tanto, tienes más probabilidades de rechazar la hipótesis nula cuando es falsa.

2. El nivel de significancia: este es el umbral para rechazar la hipótesis nula. Un nivel de significancia más alto (es decir, una mayor probabilidad de cometer un error de Tipo I) a menudo se traduce en una mayor potencia estadística, ya que estás más dispuesto a rechazar la hipótesis nula.

3. El efecto verdadero: si el efecto verdadero (la diferencia entre la hipótesis nula y la realidad) es grande, entonces será más fácil detectarlo y, por lo tanto, la potencia estadística será mayor.

La potencia estadística es un concepto importante en el diseño de experimentos y estudios, ya que te permite determinar el tamaño de la muestra necesario para detectar un efecto dado con un cierto grado de confianza.

1.2 El valor aceptable de la potencia estadística

Según (Cohen, 2016) la potencia estadística toma un valor entre 0 y 1. Un valor normalmente usado (aunque dependerá del diseño del experimento y del efecto a buscar en el diseño) es de .80. Esto significa que si repetimos el experimento en varias ocaciones el experimento podrá detectar el efecto y rechazar la hipótesis nula corrrectamente en un 80 % de las veces.

Esto a su vez significa que se tiene un 20 % de probabilidad \(1-\beta = 1-0.80= 0.20\) de cometer un error de tipo II, es decir, de una vez realizado el experimento la hipótesis nula sea falsa, pero que fallamos en rechazarla (Cohen, 2013). Ahora bien, hay que cuidarse al momento de establecer cuál es el tamaño del efecto y su magnitud porque la forma en la que Cohen establecer que es un efecto pequeño, mediano o grande son arbitrarios (Correll et al., 2020). Lo que es o no un tamaño del efecto pequeño, mediano o grande depende del contexto de la teoría y de la disciplina. Lo que llamamos significancia material (en contraste con la significancia estadística, la cual solo establece si rechazamos o no una hipótesis nula \(H_0\). Ejemplo, detectar cambios minúsculos en un estudio que intenta ver desigualdades de ingresos mediante el Gini (siendo un índice que va de 0 a 1, es decir es una función concava) hace que al momento de pensar un diseño “experimental” (ej: en el contexto de un “experimento natural”). Observar cambios minúsculos en el Gini requieren comprender que dicha métrica es cuasiconvexa1, por lo que aumentos pequeños del Gini se traducen en cambios grandes en materia de la distribución del ingreso de un país o de un grupo (individuos, hogares, comunidades, etc.). Esto significa que la métrica utilizada en la(s) variable(s) a observar, la teoría y la disciplina son las que dan sentido a lo que entendemos por un efecto de X magnitud y este conocimiento es necesario para evitar que se sobre o subestime la muestra necesaria para detectar la magnitud que se desea observar. Dicha magnitud puede obedecer a la literatura empírica observada o a un valor teórico.

2.0 Calcular la potencia estadística en R: función pwr.r.test()

La libería pwr es útil para hacer cálculos y estimaciones de la muestra necesaria dada un nivel de significancia, potencia y el efecto deseado a observar.

2.1 Ejemplo práctico

Para ello debemos de instalar el paquete con el comando install.packages("pwr")

library(pwr)

Y el comando para la el caso de estudios correlacionales (para ver qué muestra necesitaríamos si esperamos observar una correlación de X magnitud es:

pwr.r.test(n, r, sig.level, power)

En donde n es el tamaño de la muestra, r es la correlación, sig.level es el nivel de significación estadística \(\alpha\) que utilizaremos en la prueba y power es la potencia estadística.

Dependiendo de los tres primeros argumentos que introduces, la función estima el cuarto. Es decir, si deseo estimar el tamaño de la muestra (n) debo de introducir r, sig.level y power.

Basándonos en un ejemplo en Cohen (2013) se analizó la potencia estadística de un estudio psicométrico que evalua la extroversión y medida neurofisiológica vinculada. El tamaño del efecto es de \(r=.30\), un nivel de significancia \(\alpha= 0.05\) y una muestra de 50 sujetos:

La potencia es baja \(\beta= 0.57\), por lo que existe una probabilidad de un error de tipo II de 0.43 o 43% \((1-\beta = 0.43)\).

pwr.r.test(r=0.3,
           n=50,
           sig.level = 0.05)
## 
##      approximate correlation power calculation (arctangh transformation) 
## 
##               n = 50
##               r = 0.3
##       sig.level = 0.05
##           power = 0.5715558
##     alternative = two.sided

Ahora, cuál sería el número de sujetos adecuado para observar dicho efecto \(r=.30\), necesitariamos una muestra de 85 sujetos2.

pwr.r.test(r=.3, 
           power=.80,
           sig.level = .05)
## 
##      approximate correlation power calculation (arctangh transformation) 
## 
##               n = 84.07364
##               r = 0.3
##       sig.level = 0.05
##           power = 0.8
##     alternative = two.sided

3.0 Dicotomía entre potencia y muestra

En estadística, existe una relación importante entre el tamaño de la muestra y la potencia estadística. En general, a medida que el tamaño de la muestra aumenta, la potencia estadística también aumenta. Esto se debe a que con más datos, tienes más información sobre la población y, por lo tanto, eres más capaz de detectar un efecto si realmente existe.

Aquí es donde se presenta una dicotomía o una especie de “balance” que los investigadores deben considerar. Por un lado, aumentar el tamaño de la muestra puede mejorar la potencia estadística y permitirte detectar diferencias más pequeñas. Sin embargo, recolectar más datos a menudo implica un costo adicional en términos de tiempo, dinero y recursos. Por lo tanto, los investigadores a menudo deben hacer un balance entre estos factores al planificar su estudio.

Además, también es importante recordar que aunque un tamaño de muestra más grande puede mejorar la potencia estadística, no soluciona todos los problemas. Por ejemplo, si los datos están sesgados o si el diseño del estudio es deficiente, simplemente tener más datos no necesariamente te llevará a conclusiones más precisas o válidas. Por lo tanto, aunque el tamaño de la muestra es un factor importante a considerar, también es importante tener en cuenta otros aspectos del diseño del estudio y la calidad de los datos.

Referencias

Cohen, J. (2013). Statistical power analysis for the behavioral sciences. Academic press.
Cohen, J. (2016). A power primer. (pp. 279–284). American Psychological Association. https://doi.org/10.1037/14805-018
Correll, J., Mellinger, C., McClelland, G. H., and Judd, C. M. (2020). Avoid Cohens Small, Medium, and Large for Power Analysis. Trends in Cognitive Sciences, 24(3), 200–207. https://doi.org/10.1016/j.tics.2019.12.009

  1. Ver la prueba matemática en: Stack Exchange: Show the Gini Coefficient is quasiconvex.↩︎

  2. Siempre que haya números decimales en el resultado de la muestra se requiere redondear hacia el número siguiente. El ejemplo anterior es de 84.07, por lo que se redondea a 85.↩︎