Problema 5: Relaciones entre la potencia, el tamaño de los efectos y el tamaño de la muestra

El “efecto del tamaño” (o “tamaño del efecto”, en inglés “effect size”) en el contexto de la prueba de hipótesis se refiere a la magnitud de la diferencia o la fuerza de la relación que se está investigando entre las variables. En otras palabras, mide la cantidad de cambio o la importancia práctica de los resultados, más allá de simplemente determinar si una diferencia es estadísticamente significativa. El tamaño del efecto es crucial porque, incluso si una prueba estadística muestra que un resultado es significativo (es decir, rechazas la hipótesis nula), el tamaño del efecto te dice si esa diferencia es realmente importante en un sentido práctico o clínico. Por ejemplo, un estudio podría encontrar que un nuevo medicamento reduce la presión arterial de manera estadísticamente significativa, pero el tamaño del efecto te indicaría si la reducción es lo suficientemente grande como para tener relevancia clínica. En resumen, el tamaño del efecto proporciona una medida complementaria a la significancia estadística, ayudando a interpretar el verdadero impacto o importancia de los resultados encontrados.

En este problema, nos centraremos en una aplicación que requiere la aplicación de la prueba t de Student para comparar las medias entre dos grupos. En este contexto evaluaremos cómo el efecto de los tamaños o las diferencias en los tamaños muestrales de los grupos influyen en la potencia de la prueba. De manera formal, la potencia se define como la probabilidad de rechazar la hipótesis nula cuando la hipótesis alternativa es verdadera. De forma más coloquial, la potencia es la capacidad de una prueba estadística para identificar un efecto si este realmente existe. En general, desequilibrios muy marcados en los tamaños de muestra tienden a reducir la potencia estadística, incluso cuando se asocian con tamaños de efecto considerables, lo que aumenta la probabilidad de cometer un error de tipo II. Para fundamentar esta afirmación, debes analizar diferentes resultados computacionales que se presentan a continuación.

Caso 1: Variando los tamaños de los efectos (d)

En los códigos del archivo llamado caso1.R, para cada tamaño fijo de los efectos \(d\), se modela la relación entre el tamaño muestral y la potencia (manteniendo constante el nivel de significancia \(\alpha = 0.05\)). En las figuras se visualizan los resultados para tamaño de efecto muy pequeño \((d = 0.1)\), pequeño \((d = 0.2)\), mediano \((d = 0.5)\) y grande \((d = 0.8)\).Repite el análisis usando 5 valores distintos del nivel de significancia. ¿Cambian los resultados? ¿Qué ocurre cuando el tamaño de muestra de los grupos que se comparan es de \(20\), \(60\), \(100\) y \(140\)? Analiza y compara los resultados.

Referencia:

• Teoría de Probabilidad y Estadística Matemática, Dr. rer. nat. Humberto Llinás Solano, Departamento de Matemáticas y Estadística, Universidad del Norte (Barranquilla, Colombia).


Al final de la sección se encuentran las conclusiones según los resultados obtenidos en cada ítem.

Solución caso #1: Variando los tamaños de los efectos (d)

A continuación se presenta un gráfico inicial en el cual el tamaño de la muestra va de 1-150, con un (\(\alpha = 0.05\)), variando el tamaño del efecto \(d\) en 20 valores.

Variación del \(\alpha\):

• Gráfico con (\(\alpha = 0.005\)):

En este gráfico, con un nivel de significancia muy bajo (\(\alpha = 0.005\)), se observa cómo la potencia varía según el tamaño muestral para distintos tamaños del efecto (\(d = 0.1\), \(d = 0.2\), \(d = 0.5\), y \(d = 0.8\)). Para un tamaño del efecto grande (\(d = 0.8\)), la potencia alcanza rápidamente 1 con un tamaño muestral pequeño (\(n \approx 50\)), lo que significa que los efectos grandes son detectados con facilidad, incluso con un nivel de significancia más estricto. Para efectos medianos (\(d = 0.5\)), la potencia también aumenta de manera constante, alcanzando niveles cercanos a 1 con \(n \approx 100\).

Sin embargo, para efectos pequeños (\(d = 0.2\)) y muy pequeños (\(d = 0.1\)), la potencia sigue siendo baja, aunque crece más lentamente que en los gráficos con valores de \(\alpha\) más altos. Incluso con \(n = 150\), la potencia no supera el 0.3 para \(d = 0.1\), lo que sugiere que, con un nivel de significancia tan estricto, se necesitan muestras aún más grandes para detectar efectos pequeños con alta potencia. Este gráfico refuerza la idea de que, cuanto más bajo sea el nivel de significancia, mayor es la dificultad para detectar efectos pequeños, ya que la potencia crece de manera más limitada.

• Gráfico con (\(\alpha = 0.01\)):

La gráfica muestra que para tamaños del efecto grandes (\(d = 0.8\)), se alcanza una potencia cercana a 1 con tamaños muestrales pequeños (\(n \approx 50\)), lo que facilita la detección de diferencias significativas. Para efectos medianos (\(d = 0.5\)), se necesita un tamaño muestral intermedio (\(n \approx 100\)) para lograr una alta potencia. En contraste, los efectos pequeños (\(d = 0.2\)) requieren muestras mucho mayores (\(n > 150\)) para alcanzar una potencia aceptable, y los efectos muy pequeños (\(d = 0.1\)) son difíciles de detectar incluso con muestras grandes, con potencias inferiores a 0.25. En general, a mayor tamaño del efecto, menor es el tamaño muestral necesario para obtener una potencia alta, mientras que efectos pequeños necesitan más datos para ser detectados, especialmente con un nivel de significancia conservador (\(\alpha = 0.01\)).

• Gráfico con (\(\alpha = 0.03\)):

Este gráfico muestra la relación entre la potencia y el tamaño muestral para diferentes tamaños del efecto (\(d\)) con un nivel de significancia de \(\alpha = 0.03\). Observamos que, para un tamaño del efecto grande (\(d = 0.8\)), la potencia alcanza rápidamente un valor cercano a 1 con un tamaño muestral relativamente pequeño (\(n \approx 50\)), lo que indica que es fácil detectar efectos grandes con menos datos. Para tamaños del efecto medianos (\(d = 0.5\)), la potencia también aumenta de manera constante, alcanzando valores altos alrededor de \(n = 100\). En cambio, para efectos pequeños (\(d = 0.2\)) y muy pequeños (\(d = 0.1\)), la potencia sigue siendo baja, incluso con un tamaño muestral de 150, lo que refleja la dificultad de detectar estos efectos sin una muestra mucho más grande.

• Gráfico con (\(\alpha = 0.07\)):

Este gráfico, con un nivel de significancia de \(\alpha = 0.07\), muestra cómo la potencia varía en función del tamaño muestral para diferentes tamaños del efecto (\(d\)). Se observa que, para un tamaño del efecto grande (\(d = 0.8\)), la potencia alcanza rápidamente un valor cercano a 1 con un tamaño muestral pequeño (\(n \approx 50\)), lo que indica una alta capacidad de detección de efectos grandes con pocos datos. Para efectos medianos (\(d = 0.5\)), la potencia sigue un crecimiento constante, alcanzando niveles cercanos a 1 alrededor de \(n = 100\). Los efectos pequeños (\(d = 0.2\)) y muy pequeños (\(d = 0.1\)) presentan un crecimiento más lento, con la potencia permaneciendo baja incluso para tamaños muestrales grandes, lo que resalta la dificultad de detectar estos efectos sin una muestra mucho mayor, aunque con \(\alpha = 0.07\), la potencia es ligeramente mayor en comparación con niveles de significancia más bajos.

• Gráfico con (\(\alpha = 0.1\)):

En este gráfico, con un nivel de significancia de \(\alpha = 0.1\), observamos cómo la potencia varía en función del tamaño muestral para diferentes tamaños del efecto (\(d\)). Para un efecto grande (\(d = 0.8\)), la potencia alcanza rápidamente un valor cercano a 1 con un tamaño muestral muy pequeño (\(n \approx 40\)), lo que demuestra que es fácil detectar efectos grandes con pocos datos. Para un tamaño del efecto mediano (\(d = 0.5\)), la potencia también crece de manera constante, alcanzando niveles cercanos a 1 con \(n \approx 90\). Los efectos pequeños (\(d = 0.2\)) y muy pequeños (\(d = 0.1\)) siguen presentando un crecimiento lento en la potencia, permaneciendo por debajo de 0.5 incluso con \(n = 150\), lo que indica la dificultad de detectar efectos pequeños con una alta potencia, aunque con \(\alpha = 0.1\), la potencia general es mayor comparada con niveles de significancia más bajos.


Conclusiones:

En general, los gráficos demuestran que el tamaño del efecto y el nivel de significancia (\(\alpha\)) son factores clave que influyen en la potencia de una prueba estadística. Los efectos grandes (\(d = 0.8\)) son fáciles de detectar con muestras relativamente pequeñas, independientemente del nivel de significancia, alcanzando una potencia alta incluso con tamaños muestrales modestos. A medida que el tamaño del efecto disminuye, se necesitan muestras más grandes para lograr una potencia aceptable, especialmente con efectos pequeños (\(d = 0.2\) o \(d = 0.1\)), donde la potencia crece lentamente y sigue siendo baja incluso con muestras considerables.

Además, aumentar el nivel de significancia (\(\alpha\)) facilita la detección de efectos pequeños, pero incluso con \(\alpha = 0.1\) los efectos muy pequeños siguen siendo difíciles de detectar sin tamaños muestrales grandes. Esto subraya la importancia de planificar el tamaño muestral en función del efecto esperado y el nivel de significancia adecuado para el estudio, ya que efectos pequeños requieren muestras más grandes y niveles de significancia menos estrictos para obtener una potencia estadística suficiente.


Variando el tamaño de la muestra:

• Gráfico con \(\alpha = 0.05\) y \(n = 20\):

En la gráfica con un tamaño de muestra de \(n = 20\) y \(\alpha = 0.05\), se observa que la potencia es muy baja para efectos pequeños (\(d = 0.1\) y \(d = 0.2\)), incluso con 20 observaciones. Para efectos medianos (\(d = 0.5\)), la potencia aumenta ligeramente, pero sigue siendo insuficiente para detectar una diferencia significativa. Solo para efectos grandes (\(d = 0.8\)) la potencia comienza a ser más aceptable, alcanzando alrededor de 0.65. Esto indica que un tamaño de muestra de 20 es adecuado solo para detectar efectos grandes, mientras que para efectos pequeños y medianos sería necesario un tamaño de muestra mayor para lograr una potencia adecuada.

• Gráfico con \(\alpha = 0.05\) y \(n = 60\):

En la gráfica con un tamaño de muestra de \(n = 60\) y \(\alpha = 0.05\), se aprecia una mejora significativa en la potencia respecto a \(n = 20\). Para tamaños de efecto grandes (\(d = 0.8\)), la potencia alcanza rápidamente valores cercanos a 1, lo que sugiere que con 60 observaciones es muy probable detectar efectos grandes. Para efectos medianos (\(d = 0.5\)), la potencia también mejora, alcanzando valores cercanos a 0.7, lo cual es mucho más aceptable en comparación con el tamaño de muestra anterior. Sin embargo, para efectos pequeños (\(d = 0.2\)) y muy pequeños (\(d = 0.1\)), la potencia sigue siendo baja, aunque muestra una tendencia creciente. Esto indica que, aunque aumentar el tamaño de la muestra mejora la potencia, sigue siendo insuficiente para detectar efectos pequeños sin un tamaño de muestra considerablemente mayor.

• Gráfico con \(\alpha = 0.05\) y \(n = 100\):

En la gráfica con \(n = 100\) y \(\alpha = 0.05\), se observa una mejora notable en la potencia, especialmente para efectos medianos y grandes. Para un tamaño de efecto grande (\(d = 0.8\)), la potencia alcanza rápidamente 1, lo que indica que con 100 observaciones es casi seguro detectar efectos grandes. Para efectos medianos (\(d = 0.5\)), la potencia también se acerca a valores cercanos a 0.9, lo cual es un nivel adecuado para identificar diferencias significativas. Sin embargo, para efectos pequeños (\(d = 0.2\)) y muy pequeños (\(d = 0.1\)), aunque la potencia ha aumentado en comparación con muestras más pequeñas, sigue siendo limitada, lo que indica que es difícil detectar estos efectos con este tamaño de muestra. En resumen, con \(n = 100\), la muestra es suficientemente grande para detectar efectos medianos y grandes, pero aún insuficiente para efectos pequeños.

• Gráfico con \(\alpha = 0.05\) y \(n = 140\):

En la gráfica con \(n = 140\) y \(\alpha = 0.05\), se puede observar que la potencia ha mejorado notablemente para todos los tamaños de efecto en comparación con tamaños de muestra más pequeños. Para efectos grandes (\(d = 0.8\)), la potencia rápidamente alcanza un valor de 1, lo que confirma que con 140 observaciones es prácticamente seguro detectar estos efectos. Los efectos medianos (\(d = 0.5\)) también muestran una alta potencia, que se acerca a 1, lo que garantiza una alta probabilidad de detectar diferencias significativas. Sin embargo, aunque los efectos pequeños (\(d = 0.2\)) y muy pequeños (\(d = 0.1\)) también mejoran, la potencia sigue siendo limitada, especialmente para \(d = 0.1\), que apenas alcanza 0.2. Esto resalta que, si bien aumentar el tamaño de la muestra incrementa la potencia para todos los tamaños de efecto, detectar efectos muy pequeños sigue siendo un reto incluso con una muestra relativamente grande.


Conclusiones:

Al ampliar el tamaño de la muestra, se observa que la potencia de la prueba aumenta significativamente para todos los tamaños del efecto. En particular, los efectos grandes (d = 0.8) alcanzan una potencia cercana a 1 con muestras relativamente pequeñas (aproximadamente n = 50). A medida que el tamaño de la muestra se incrementa, incluso los efectos medianos (d = 0.5) logran alcanzar niveles altos de potencia con un tamaño de muestra alrededor de n = 100. Sin embargo, para los efectos pequeños (d = 0.2 y d = 0.1), se requiere un aumento considerable en el tamaño de la muestra para lograr una mejora visible en la potencia. Esto indica que ampliar el tamaño muestral mejora la capacidad de detectar efectos pequeños y medianos, reduciendo la probabilidad de cometer errores de tipo II, pero es especialmente crítico para detectar efectos pequeños, que requieren muestras mucho más grandes para ser identificados con una potencia razonable.


Caso 2: Variando los tamaños muestrales

En los códigos del archivo llamado caso2.R, se modela la relación entre el tamaño del efecto \(d\) y la potencia (manteniendo constante el nivel de significancia \(\alpha = 0.05\)). Para ello, se considera los siguientes tamaños de muestra, donde \(n_1\) es el número de sujetos en el grupo 1 y \(n_2\) es el número de sujetos en el grupo 2:

  • \(n_1 = 28\), \(n_2 = 1406\): \(n_1\) representa el 2 % del tamaño total de la muestra de 1434.
  • \(n_1 = 144\), \(n_2 = 1290\): \(n_1\) representa el 10 % del tamaño total de la muestra de 1434.
  • \(n_1 = 287\), \(n_2 = 1147\): \(n_1\) representa el 20 % del tamaño total de la muestra de 1434.
  • \(n_1 = 430\), \(n_2 = 1004\): \(n_1\) representa el 30 % del tamaño total de la muestra de 1434.
  • \(n_1 = 574\), \(n_2 = 860\): \(n_1\) representa el 40 % del tamaño total de la muestra de 1434.
  • \(n_1 = 717\), \(n_2 = 717\): grupos de igual tamaño (esto es óptimo porque conduce a la potencia más alta para un tamaño de efecto dado).

En la figura resultante, se trazaron las curvas de potencia para la prueba t de Student, en función del tamaño del efecto, asumiendo una tasa de error Tipo I del \(5%\). La comparación de diferentes curvas de potencia (basadas en el tamaño de la muestra de cada grupo) en el mismo gráfico es una representación visual útil de este análisis. En la figura también se trazó una línea discontinua horizontal en un nivel de potencia aceptable del 80% y una línea vertical en el tamaño del efecto que tendría que estar presente en nuestros datos para alcanzar el 80 % de potencia. Se observa que el tamaño del efecto debe ser superior a 0.54 para alcanzar un nivel de potencia aceptable dados tamaños de grupo altamente desequilibrados de \(n_1 = 28\) y \(n_2 = 1406\), en comparación con todos los demás escenarios que conducen al 100% de potencia. Repite el análisis usando \(5\) valores distintos del nivel de significancia. ¿Cambian los resultados? ¿Qué ocurre cuando \(n_1 = 28\) y \(n_2 = 1406\)? Analiza y compara los resultados.

Referencia:

• Teoría de Probabilidad y Estadística Matemática, Dr. rer. nat. Humberto Llinás Solano, Departamento de Matemáticas y Estadística, Universidad del Norte (Barranquilla, Colombia).



Solución caso 2: Variando los tamaños muestrales

• Gráfico con variación \(\alpha\) y tamaño muestral fijo:

En la siguiente gráfica, se analiza la relación entre el tamaño del efecto (\(d\)) y la potencia, manteniendo el tamaño muestral fijo en \(n_1 = 28\) y \(n_2 = 1406\). Para ello, se varía el nivel de significancia (\(\alpha\)) en seis valores: \(\alpha_1 = 0.005\), \(\alpha_2 = 0.01\), \(\alpha_3 = 0.03\), \(\alpha_4 = 0.05\), \(\alpha_5 = 0.07\), y \(\alpha_6 = 0.1\). El objetivo es observar cómo la potencia cambia con diferentes tamaños de efecto, bajo distintos niveles de \(\alpha\).


Conclusiones:

Al variar el nivel de significancia (\(\alpha\)) en la gráfica, observamos que a medida que \(\alpha\) aumenta (por ejemplo, \(\alpha = 0.1\)), las curvas de potencia se desplazan hacia la izquierda, lo que significa que es más fácil alcanzar una alta potencia con tamaños de efecto más pequeños. En contraste, con niveles de \(\alpha\) más bajos (como \(\alpha = 0.005\)), la curva se desplaza hacia la derecha, lo que implica que se necesita un tamaño de efecto mayor para alcanzar la misma potencia. Esto refleja que con valores bajos de \(\alpha\), la prueba estadística es más conservadora, lo que dificulta la detección de efectos pequeños.

Un nivel de \(\alpha\) más alto facilita la detección de efectos pequeños, aumentando la potencia de la prueba, pero también incrementa el riesgo de cometer un error Tipo I (falsos positivos). Por otro lado, con un \(\alpha\) más bajo, aunque se reduce este riesgo, la potencia disminuye, especialmente cuando se trata de detectar tamaños de efecto pequeños, lo que puede resultar en un aumento de errores Tipo II (falsos negativos). En resumen, hay un claro compromiso entre el nivel de \(\alpha\), la potencia de la prueba, y los riesgos de errores estadísticos.


• Gráfico con \(\alpha=0.1\) y tamaño muestral aletorio:


Conclusiones:

En la gráfica, se observa que los tamaños de muestra más balanceados, como \(n_1 = 717\) y \(n_2 = 717\) (curva rosa), permiten detectar efectos más pequeños con una mayor potencia, alcanzando niveles cercanos al 100% de potencia incluso con tamaños de efecto reducidos. Por otro lado, cuando los tamaños de muestra están muy desbalanceados, como en el caso de \(n_1 = 28\) y \(n_2 = 1406\) (curva roja), se necesita un tamaño de efecto mucho mayor para alcanzar una potencia comparable, lo que sugiere que pruebas con tamaños muestrales desiguales son menos eficientes para detectar efectos pequeños.

A medida que el tamaño del efecto aumenta, todas las curvas tienden a una potencia máxima cercana al 100%. Esto significa que, cuando el tamaño del efecto es suficientemente grande, la probabilidad de detectar ese efecto es alta en todos los escenarios, independientemente del balance en el tamaño de las muestras. Sin embargo, para efectos pequeños, el balance entre los tamaños de muestra juega un papel crucial en la capacidad de la prueba para detectar esas diferencias.