Pasos para Realizar una Prueba Estadística
1. Formulación de Hipótesis:
Hipótesis Nula (H0): Es la afirmación que se quiere contrastar. Generalmente, establece que no hay efecto o diferencia.
Hipótesis Alterna (H1): Es la afirmación que se quiere probar. Generalmente, establece que sí hay un efecto o diferencia.
** 2. Recolección y Preprocesamiento de Datos:**
Recolección de datos: Asegúrate de tener una muestra representativa y suficiente. Limpieza de datos: Trata los datos faltantes y elimina los valores atípicos si es necesario.
Verificación de supuestos: Dependiendo de la prueba, asegúrate de que los datos cumplen ciertos supuestos (normalidad, homogeneidad de varianzas, independencia, etc.).
3. Elección de la Prueba Estadística:
Pruebas paramétricas: Suponen que los datos siguen una distribución específica (normalmente, distribución normal). Ejemplos: t-test, ANOVA, regresión lineal.
Pruebas no paramétricas: No suponen una distribución específica. Se usan cuando los datos no cumplen los supuestos de las pruebas paramétricas. Ejemplos: prueba de Wilcoxon, prueba de Kruskal-Wallis, correlación de Spearman. Ejecutar la Prueba Estadística:
4. Interpreta los resultados obtenidos.
Interpretación de Resultados:
Valor p: Compara el valor p con el nivel de significancia (α, usualmente 0.05). Si el valor p es menor que α, rechaza la hipótesis nula.
Conclusión: Basado en los resultados, concluye si hay suficiente evidencia para rechazar la hipótesis nula a favor de la hipótesis alterna.
Verificación de Supuestos Antes de realizar una prueba estadística, verifica los siguientes supuestos dependiendo de la prueba seleccionada:
Normalidad:
Verifica si los datos siguen una distribución normal. Métodos: Q-Q plot, prueba de Shapiro-Wilk, prueba de Kolmogorov-Smirnov.
Homogeneidad de Varianzas: Verifica si las varianzas entre los grupos son iguales.
Métodos: Prueba de Levene, prueba de Bartlett.
Independencia:
Asegúrate de que las observaciones sean independientes entre sí. Esto generalmente depende del diseño del experimento.
Escala de Medición:
Verifica si las variables son medidas en una escala adecuada (nominal, ordinal, intervalar, racional).
Hipótesis nula y alterna
Hipótesis nula (H0): Es la afirmación que se asume verdadera hasta que se demuestre lo contrario. Generalmente, indica que no hay efecto o diferencia.
Hipótesis alterna (H1): Es la afirmación que se quiere probar, generalmente indica que sí hay un efecto o diferencia.
Generar datos
set.seed(123)
data <- rnorm(100)
Visualización
hist(data, main = "Histograma de los Datos", xlab = "Valores", ylab = "Frecuencia")
qqnorm(data)
qqline(data)
shapiro.test(data)
##
## Shapiro-Wilk normality test
##
## data: data
## W = 0.99388, p-value = 0.9349
\(H_0\): La distribución es normal
\(H_1\): La distribución no es normal,
El histograma y el Q-Q plot permiten visualizar si los datos se distribuyen normalmente. La prueba de Shapiro-Wilk ofrece un valor p. Si el valor p es mayor que 0.05, no se rechaza la hipótesis nula de que los datos siguen una distribución normal.
Plantear muy bien el problema
Hipótesis:
\(H_0\): Las medias de dos grupos son iguales.
\(H_1\): Las medias de dos grupos son diferentes.
*Generar datos
set.seed(123)
group1 <- rnorm(50, mean = 5)
group2 <- rnorm(50, mean = 6)
t.test(group1, group2)
##
## Welch Two Sample t-test
##
## data: group1 and group2
## t = -6.0718, df = 97.951, p-value = 2.406e-08
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## -1.4754485 -0.7485609
## sample estimates:
## mean of x mean of y
## 5.034404 6.146408
problema ¿por qué hay deserción estudiantil?
\(H_0\): contrastar \(H_1\): probar
Hipótesis:
\(H_0\): Todas las medias de los grupos son iguales.
\(H_1\): Al menos una media de grupo es diferente.
Generar datos
set.seed(123)
group1 <- rnorm(50, mean = 5)
group2 <- rnorm(50, mean = 6)
group3 <- rnorm(50, mean = 7)
data2 <- data.frame(value = c(group1, group2, group3),
group = factor(rep(1:3, each = 50)))
data2
## value group
## 1 4.439524 1
## 2 4.769823 1
## 3 6.558708 1
## 4 5.070508 1
## 5 5.129288 1
## 6 6.715065 1
## 7 5.460916 1
## 8 3.734939 1
## 9 4.313147 1
## 10 4.554338 1
## 11 6.224082 1
## 12 5.359814 1
## 13 5.400771 1
## 14 5.110683 1
## 15 4.444159 1
## 16 6.786913 1
## 17 5.497850 1
## 18 3.033383 1
## 19 5.701356 1
## 20 4.527209 1
## 21 3.932176 1
## 22 4.782025 1
## 23 3.973996 1
## 24 4.271109 1
## 25 4.374961 1
## 26 3.313307 1
## 27 5.837787 1
## 28 5.153373 1
## 29 3.861863 1
## 30 6.253815 1
## 31 5.426464 1
## 32 4.704929 1
## 33 5.895126 1
## 34 5.878133 1
## 35 5.821581 1
## 36 5.688640 1
## 37 5.553918 1
## 38 4.938088 1
## 39 4.694037 1
## 40 4.619529 1
## 41 4.305293 1
## 42 4.792083 1
## 43 3.734604 1
## 44 7.168956 1
## 45 6.207962 1
## 46 3.876891 1
## 47 4.597115 1
## 48 4.533345 1
## 49 5.779965 1
## 50 4.916631 1
## 51 6.253319 2
## 52 5.971453 2
## 53 5.957130 2
## 54 7.368602 2
## 55 5.774229 2
## 56 7.516471 2
## 57 4.451247 2
## 58 6.584614 2
## 59 6.123854 2
## 60 6.215942 2
## 61 6.379639 2
## 62 5.497677 2
## 63 5.666793 2
## 64 4.981425 2
## 65 4.928209 2
## 66 6.303529 2
## 67 6.448210 2
## 68 6.053004 2
## 69 6.922267 2
## 70 8.050085 2
## 71 5.508969 2
## 72 3.690831 2
## 73 7.005739 2
## 74 5.290799 2
## 75 5.311991 2
## 76 7.025571 2
## 77 5.715227 2
## 78 4.779282 2
## 79 6.181303 2
## 80 5.861109 2
## 81 6.005764 2
## 82 6.385280 2
## 83 5.629340 2
## 84 6.644377 2
## 85 5.779513 2
## 86 6.331782 2
## 87 7.096839 2
## 88 6.435181 2
## 89 5.674068 2
## 90 7.148808 2
## 91 6.993504 2
## 92 6.548397 2
## 93 6.238732 2
## 94 5.372094 2
## 95 7.360652 2
## 96 5.399740 2
## 97 8.187333 2
## 98 7.532611 2
## 99 5.764300 2
## 100 4.973579 2
## 101 6.289593 3
## 102 7.256884 3
## 103 6.753308 3
## 104 6.652457 3
## 105 6.048381 3
## 106 6.954972 3
## 107 6.215096 3
## 108 5.332058 3
## 109 6.619773 3
## 110 7.918997 3
## 111 6.424653 3
## 112 7.607964 3
## 113 5.382117 3
## 114 6.944438 3
## 115 7.519407 3
## 116 7.301153 3
## 117 7.105676 3
## 118 6.359294 3
## 119 6.150296 3
## 120 5.975871 3
## 121 7.117647 3
## 122 6.052525 3
## 123 6.509443 3
## 124 6.743908 3
## 125 8.843862 3
## 126 6.348050 3
## 127 7.235387 3
## 128 7.077961 3
## 129 6.038143 3
## 130 6.928692 3
## 131 8.444551 3
## 132 7.451504 3
## 133 7.041233 3
## 134 6.577503 3
## 135 4.946753 3
## 136 8.131337 3
## 137 5.539360 3
## 138 7.739948 3
## 139 8.909104 3
## 140 5.556107 3
## 141 7.701784 3
## 142 6.737803 3
## 143 5.427856 3
## 144 5.485332 3
## 145 5.398464 3
## 146 6.469093 3
## 147 5.538244 3
## 148 7.687917 3
## 149 9.100109 3
## 150 5.712970 3
Prueba anova:
anova_result <- aov(value ~ group, data = data2)
summary(anova_result)
## Df Sum Sq Mean Sq F value Pr(>F)
## group 2 75.43 37.72 42.6 2.54e-15 ***
## Residuals 147 130.14 0.89
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Hipótesis:
H0: No hay correlación entre las variables. H1: Hay correlación entre las variables.
# Generar datos
set.seed(123)
x <- rnorm(100)
y <- 2*x + rnorm(100)
# Correlación de Pearson
cor.test(x, y, method = "pearson")
##
## Pearson's product-moment correlation
##
## data: x and y
## t = 18.222, df = 98, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## 0.8246011 0.9168722
## sample estimates:
## cor
## 0.8786993
Hipótesis:
H0: Las variables son independientes. H1: Las variables no son independientes.
# Generar datos
set.seed(123)
data <- matrix(c(20, 30, 30, 20), nrow = 2)
# Prueba chi-cuadrado
chisq.test(data)
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: data
## X-squared = 3.24, df = 1, p-value = 0.07186
Hipótesis:
H0: La pendiente es cero (no hay relación lineal). H1: La pendiente no es cero (hay relación lineal).
# Generar datos
set.seed(123)
x <- rnorm(100)
y <- 2*x + rnorm(100)
# Regresión lineal
model <- lm(y ~ x)
summary(model)
##
## Call:
## lm(formula = y ~ x)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1.9073 -0.6835 -0.0875 0.5806 3.2904
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -0.10280 0.09755 -1.054 0.295
## x 1.94753 0.10688 18.222 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.9707 on 98 degrees of freedom
## Multiple R-squared: 0.7721, Adjusted R-squared: 0.7698
## F-statistic: 332 on 1 and 98 DF, p-value: < 2.2e-16
No presentan una distribución normal de los datos.
Hipótesis:
H0: Las distribuciones medianas de dos grupos son iguales. H1: Las distribuciones de dos grupos son diferentes.
# Generar datos
set.seed(123)
group1 <- rnorm(50, mean = 5)
group2 <- rnorm(50, mean = 6)
# Prueba de Wilcoxon (Mann-Whitney)
wilcox.test(group1, group2)
##
## Wilcoxon rank sum test with continuity correction
##
## data: group1 and group2
## W = 491, p-value = 1.705e-07
## alternative hypothesis: true location shift is not equal to 0
Hipótesis:
H0: Las distribuciones de todos los grupos son iguales. H1: Al menos una distribución de grupo es diferente.
# Generar datos
set.seed(123)
group1 <- rnorm(50, mean = 5)
group2 <- rnorm(50, mean = 6)
group3 <- rnorm(50, mean = 7)
data <- data.frame(
value = c(group1, group2, group3),
group = factor(rep(1:3, each = 50))
)
# Prueba de Kruskal-Wallis
kruskal.test(value ~ group, data = data)
##
## Kruskal-Wallis rank sum test
##
## data: value by group
## Kruskal-Wallis chi-squared = 54.673, df = 2, p-value = 1.343e-12
Hipótesis:
H0: No hay correlación entre las variables. H1: Hay correlación entre las variables.
# Generar datos
set.seed(123)
x <- rnorm(100)
y <- 2*x + rnorm(100)
# Correlación de Spearman
cor.test(x, y, method = "spearman")
##
## Spearman's rank correlation rho
##
## data: x and y
## S = 24136, p-value < 2.2e-16
## alternative hypothesis: true rho is not equal to 0
## sample estimates:
## rho
## 0.8551695
Hipótesis:
H0: Las variables son independientes. H1: Las variables no son independientes.
# Generar datos
set.seed(123)
data <- matrix(c(1, 2, 3, 4), nrow = 2)
# Prueba de Fisher
fisher.test(data)
##
## Fisher's Exact Test for Count Data
##
## data: data
## p-value = 1
## alternative hypothesis: true odds ratio is not equal to 1
## 95 percent confidence interval:
## 0.008512238 20.296715040
## sample estimates:
## odds ratio
## 0.693793
Homegeneidad de los datos
leveneTest(value ~ group, data = data)
La salida de la prueba de Levene te dirá si las varianzas entre los grupos son iguales. Si el valor p es mayor que 0.05, no se rechaza la hipótesis nula de homogeneidad de varianzas.
bartlett.test(value ~ group, data = data) La salida de la prueba de Bartlett te dirá si las varianzas entre los grupos son iguales. Si el valor p es mayor que 0.05, no se rechaza la hipótesis nula de homogeneidad de varianzas.