Código
# Ejemplo: generación de datos para una prueba de hipótesis
<- rnorm(100, mean = 50, sd = 10)
data summary(data)
Min. 1st Qu. Median Mean 3rd Qu. Max.
21.46 41.73 50.02 50.12 57.51 76.30
El análisis estadístico permite tomar decisiones fundamentadas sobre datos mediante la formulación y prueba de hipótesis. Una hipótesis estadística es una afirmación sobre una población que se somete a prueba utilizando datos muestrales. La metodología de ensayos de hipótesis es fundamental en la investigación científica, ya que permite evaluar la validez de afirmaciones con base en evidencia empírica. En este documento, exploraremos las decisiones estadísticas y los ensayos de hipótesis utilizando RStudio
y Quarto
.
En estadística, una decisión estadística se basa en la formulación y prueba de una hipótesis. La hipótesis nula (\(H_0\)) es una afirmación sobre la población que se asume verdadera hasta que la evidencia indique lo contrario.
# Ejemplo: generación de datos para una prueba de hipótesis
<- rnorm(100, mean = 50, sd = 10)
data summary(data)
Min. 1st Qu. Median Mean 3rd Qu. Max.
21.46 41.73 50.02 50.12 57.51 76.30
Interpretación: Aquí generamos un conjunto de 100 datos con media 50 y desviación estándar 10. La función summary(data)
nos proporciona un resumen estadístico de estos datos, incluyendo media, mediana y cuartiles.
El ensayo de hipótesis evalúa la plausibilidad de una hipótesis con base en datos muestrales. La significación estadística se mide mediante un p-valor
.
Hipótesis:
# Prueba t para una muestra
t.test(data, mu = 50)
One Sample t-test
data: data
t = 0.12007, df = 99, p-value = 0.9047
alternative hypothesis: true mean is not equal to 50
95 percent confidence interval:
48.11290 52.13019
sample estimates:
mean of x
50.12154
Interpretación: Esta prueba t
evalúa si la media de la muestra es significativamente diferente de 50. Si el p-valor
es menor que 0.05, rechazamos la hipótesis nula y concluimos que la media de la muestra difiere significativamente de 50.
# Potencia estadística con pwr
library(pwr)
pwr.t.test(d = 0.5, n = 30, sig.level = 0.05, power = NULL, type = "one.sample")
One-sample t test power calculation
n = 30
d = 0.5
sig.level = 0.05
power = 0.7539647
alternative = two.sided
Interpretación: Aquí utilizamos la librería pwr
para calcular la potencia de una prueba t con un tamaño de muestra de 30 y una diferencia de medias esperada de 0.5. La potencia indica la probabilidad de detectar un efecto cuando realmente existe.
Cuando los datos no siguen una distribución normal, se emplean pruebas no paramétricas.
Hipótesis:
# Prueba de normalidad de Shapiro-Wilk
shapiro.test(data)
Shapiro-Wilk normality test
data: data
W = 0.99106, p-value = 0.7498
Interpretación: Si el p-valor
es menor que 0.05, rechazamos la hipótesis nula de normalidad y concluimos que los datos no siguen una distribución normal.
Hipótesis:
# Prueba de Wilcoxon para datos no normales
wilcox.test(data, mu = 50)
Wilcoxon signed rank test with continuity correction
data: data
V = 2549, p-value = 0.9356
alternative hypothesis: true location is not equal to 50
Interpretación: La prueba de Wilcoxon es una alternativa no paramétrica a la prueba t
cuando los datos no son normales. Si el p-valor
es menor que 0.05, rechazamos \(H₀\) y concluimos que la mediana de los datos es significativamente diferente de 50.
Las curvas características de operación muestran la probabilidad de aceptar H₀ bajo distintas condiciones.
# Generación de una curva OC
<- seq(0, 1, length=100)
p <- 1 - pbinom(5, size=10, prob=p)
oc_curve plot(p, oc_curve, type="l", main="Curva Característica de Operación", xlab="p", ylab="P(Aceptar Ho)")
Interpretación: La curva OC muestra la probabilidad de aceptar la hipótesis nula en función de la proporción real en la población. Nos ayuda a evaluar la calidad de un procedimiento de prueba.
Hipótesis:
# Prueba t para muestras independientes
<- rnorm(50, mean=55, sd=10)
group1 <- rnorm(50, mean=50, sd=10)
group2 t.test(group1, group2)
Welch Two Sample t-test
data: group1 and group2
t = 1.6885, df = 93.379, p-value = 0.09466
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-0.5890455 7.2816673
sample estimates:
mean of x mean of y
53.33397 49.98766
Interpretación: Esta prueba t
compara las medias de dos grupos independientes. Si el p-valor
es menor que 0.05, concluimos que hay una diferencia significativa entre las medias de los dos grupos.
Planteamiento: Un investigador quiere determinar si el nivel de colesterol medio de una muestra de 40 pacientes es significativamente diferente de \(200 mg/dL\). Para ello, se toman mediciones de colesterol en los pacientes y se registran los valores.
Instrucciones:
t
para una muestra en R
, considerando un nivel de significación del \(5\%\).# Completa el código
<- rnorm(n, mean=, sd=)
colesterol # Realizar la prueba t
t.test(colesterol, mu = )
Pregunta: ¿El nivel medio de colesterol de los pacientes es significativamente diferente de \(200 mg/dL\)? Explica tu conclusión basada en el p-valor
obtenido.