El tomar una muestra nos permite inferir cómo es una población sin necesidad de estudiarla por completo.
El muestreo genera cierta incertidumbre sobre las caracterÃsticas poblacionales
La distribución de t sirve para determinar si 2 muestras pertenecen a la misma población.
La prueba de t es robusta, se mantiene veraz cuando sus supuestos no se cumplan fielmente, particularmente si el tamaño de muestra es grande
\(t = \frac{\bar x_1 - \bar x_2}{\sqrt{s^2/n_1) + (s^2/n_2)}}\)
\(s^2 = \frac{(n_1-1)s_1^2 + (n_2-1)s_2^2}{n_1+n_2-2}\)
Método paramétrico: se estiman parámetros poblacionales —media y desviación estándar— a partir de los cuales se define la distribución de la variable
t.test(estudio$cintura ~ estudio$diabetes)
##
## Welch Two Sample t-test
##
## data: estudio$cintura by estudio$diabetes
## t = 0.71491, df = 38.439, p-value = 0.479
## alternative hypothesis: true difference in means between group Sin DT2 and group DT2 is not equal to 0
## 95 percent confidence interval:
## -2.795490 5.849622
## sample estimates:
## mean in group Sin DT2 mean in group DT2
## 96.11818 94.59112
t.test(estudio$valor.TRIG ~ estudio$diabetes)
##
## Welch Two Sample t-test
##
## data: estudio$valor.TRIG by estudio$diabetes
## t = 1.4297, df = 34.744, p-value = 0.1617
## alternative hypothesis: true difference in means between group Sin DT2 and group DT2 is not equal to 0
## 95 percent confidence interval:
## -33.59446 193.42945
## sample estimates:
## mean in group Sin DT2 mean in group DT2
## 272.4571 192.5396
t.test(log(estudio$valor.TRIG) ~ estudio$diabetes)
##
## Welch Two Sample t-test
##
## data: log(estudio$valor.TRIG) by estudio$diabetes
## t = 2.1113, df = 37.928, p-value = 0.0414
## alternative hypothesis: true difference in means between group Sin DT2 and group DT2 is not equal to 0
## 95 percent confidence interval:
## 0.009783562 0.466465374
## sample estimates:
## mean in group Sin DT2 mean in group DT2
## 5.337845 5.099721
Por lo general los supuestos de la prueba de t se cumplen de manera suficiente para hacer que esta prueba sea adecuada
También es frecuente que los datos obtenidos de los estudios no cumplan estos supuestos de forma extrema
Las pruebas no paramétricas son menos susceptibles a variación por valores extremos
Prueba no paramétrica: Se obtiene la probabilidad del resultado sin inferir la distribución poblacional
La prueba se basa en comparar el orden de cada sujeto dentro del grupo contra el promedio esperado de los órdenes y determinar la probabilidad por acercamiento a la distribución normal
Se determinó el orden de cada sujeto en la muestra conjunta (no fumadores + fumadores), después se redividieron los grupos.
> Ojo, empates
Hipótesis nula: Las poblaciones subyacentes tienen medianas idénticas.
Bajo la hipótesis nula esperamos que los órdenes sean aproximadamente iguales.
Definamos \(n_1\) y \(n_2\) como los tamaños de muestra y R la suma de los rangos de la población con \(n_1\)
\(z=\frac{R-\mu_R}{\sigma_R}\)
Donde \(\mu_R=\frac{n_1(n_1+n_2+1)}{2}\) es la media y
\(\sigma_R=\sqrt{\frac{n_1n_2(n_1+n_2+1)}{12}}\)
En el ejemplo:
\(R = 143\)
\(\mu_R=\frac{10(10+10+1)}{2} = 105\)
\(\sigma_R=\sqrt{\frac{(10)(10)(10+10+1)}{12}}= 13.23\)
\(z=\frac{143-105}{13.23}= 2.87\)
Debido a que z>1.96 rechazamos la hipótesis nula con un nivel de confianza del 95%.
Tras la aleatorización 29 personas recibieron placebo y 24 el tratamiento experimental
pla <- c(13, 8, 46, 61, 28, 7, 93, 10, 7, 100, 4, 16, 23, 33, 18, 51, 26, 19, 20, 54, 19, 37, 13, 8, 28, 25, 4, 12, 12)
int <- c(90, 10, 45, 70, 13, 27, 11, 70, 14, 15, 13, 75, 50, 30, 80, 40, 29, 13, 9, 7, 20, 85, 55, 94)
grupo <- c(rep("placebo", length(pla)), rep("medica", length(int)))
estudio <- data.frame(dolor=c(pla, int), grupo)
estudio
## dolor grupo
## 1 13 placebo
## 2 8 placebo
## 3 46 placebo
## 4 61 placebo
## 5 28 placebo
## 6 7 placebo
## 7 93 placebo
## 8 10 placebo
## 9 7 placebo
## 10 100 placebo
## 11 4 placebo
## 12 16 placebo
## 13 23 placebo
## 14 33 placebo
## 15 18 placebo
## 16 51 placebo
## 17 26 placebo
## 18 19 placebo
## 19 20 placebo
## 20 54 placebo
## 21 19 placebo
## 22 37 placebo
## 23 13 placebo
## 24 8 placebo
## 25 28 placebo
## 26 25 placebo
## 27 4 placebo
## 28 12 placebo
## 29 12 placebo
## 30 90 medica
## 31 10 medica
## 32 45 medica
## 33 70 medica
## 34 13 medica
## 35 27 medica
## 36 11 medica
## 37 70 medica
## 38 14 medica
## 39 15 medica
## 40 13 medica
## 41 75 medica
## 42 50 medica
## 43 30 medica
## 44 80 medica
## 45 40 medica
## 46 29 medica
## 47 13 medica
## 48 9 medica
## 49 7 medica
## 50 20 medica
## 51 85 medica
## 52 55 medica
## 53 94 medica
rank(estudio$dolor)
## [1] 16.0 6.5 39.0 44.0 31.5 4.0 51.0 9.5 4.0 53.0 1.5 21.0 27.0 35.0 22.0
## [16] 41.0 29.0 23.5 25.5 42.0 23.5 36.0 16.0 6.5 31.5 28.0 1.5 12.5 12.5 50.0
## [31] 9.5 38.0 45.5 16.0 30.0 11.0 45.5 19.0 20.0 16.0 47.0 40.0 34.0 48.0 37.0
## [46] 33.0 16.0 8.0 4.0 25.5 49.0 43.0 52.0
estudio$grupo=="medica"
## [1] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
## [13] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
## [25] FALSE FALSE FALSE FALSE FALSE TRUE TRUE TRUE TRUE TRUE TRUE TRUE
## [37] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE
## [49] TRUE TRUE TRUE TRUE TRUE
rank(estudio$dolor)[estudio$grupo=="medica"]
## [1] 50.0 9.5 38.0 45.5 16.0 30.0 11.0 45.5 19.0 20.0 16.0 47.0 40.0 34.0 48.0
## [16] 37.0 33.0 16.0 8.0 4.0 25.5 49.0 43.0 52.0
sum(rank(estudio$dolor)[estudio$grupo=="medica"])
## [1] 737
wilcox.test(dolor ~ grupo, data=estudio)
## Warning in wilcox.test.default(x = c(90, 10, 45, 70, 13, 27, 11, 70, 14, :
## cannot compute exact p-value with ties
##
## Wilcoxon rank sum test with continuity correction
##
## data: dolor by grupo
## W = 437, p-value = 0.1136
## alternative hypothesis: true location shift is not equal to 0
wilcox.test(dolor ~ grupo, data=estudio, correct=FALSE)
## Warning in wilcox.test.default(x = c(90, 10, 45, 70, 13, 27, 11, 70, 14, :
## cannot compute exact p-value with ties
##
## Wilcoxon rank sum test
##
## data: dolor by grupo
## W = 437, p-value = 0.1115
## alternative hypothesis: true location shift is not equal to 0