Prueba de Wilcoxon

Efecto del muestreo sobre la estimación de características poblacionales

El tomar una muestra nos permite inferir cómo es una población sin necesidad de estudiarla por completo.

El muestreo genera cierta incertidumbre sobre las características poblacionales

Estimación de características poblacionales con la distribución de t

La distribución de t sirve para determinar si 2 muestras pertenecen a la misma población.

Variable dependiente contínua
Observaciones independientes
Variable dependiente con distribución aproximadamente normal
Variable dependiente sin observaciones extremas

La prueba de t es robusta, se mantiene veraz cuando sus supuestos no se cumplan fielmente, particularmente si el tamaño de muestra es grande

Prueba de t para muestras independientes con varianzas iguales

\(t = \frac{\bar x_1 - \bar x_2}{\sqrt{s^2/n_1) + (s^2/n_2)}}\)

Varianza conjunta (s²)

\(s^2 = \frac{(n_1-1)s_1^2 + (n_2-1)s_2^2}{n_1+n_2-2}\)

Método paramétrico: se estiman parámetros poblacionales —media y desviación estándar— a partir de los cuales se define la distribución de la variable

t.test(estudio$cintura ~ estudio$diabetes)

## 
##  Welch Two Sample t-test
## 
## data:  estudio$cintura by estudio$diabetes
## t = 0.71491, df = 38.439, p-value = 0.479
## alternative hypothesis: true difference in means between group Sin DT2 and group DT2 is not equal to 0
## 95 percent confidence interval:
##  -2.795490  5.849622
## sample estimates:
## mean in group Sin DT2     mean in group DT2 
##              96.11818              94.59112

t.test(estudio$valor.TRIG ~ estudio$diabetes)

## 
##  Welch Two Sample t-test
## 
## data:  estudio$valor.TRIG by estudio$diabetes
## t = 1.4297, df = 34.744, p-value = 0.1617
## alternative hypothesis: true difference in means between group Sin DT2 and group DT2 is not equal to 0
## 95 percent confidence interval:
##  -33.59446 193.42945
## sample estimates:
## mean in group Sin DT2     mean in group DT2 
##              272.4571              192.5396

t.test(log(estudio$valor.TRIG) ~ estudio$diabetes)

## 
##  Welch Two Sample t-test
## 
## data:  log(estudio$valor.TRIG) by estudio$diabetes
## t = 2.1113, df = 37.928, p-value = 0.0414
## alternative hypothesis: true difference in means between group Sin DT2 and group DT2 is not equal to 0
## 95 percent confidence interval:
##  0.009783562 0.466465374
## sample estimates:
## mean in group Sin DT2     mean in group DT2 
##              5.337845              5.099721

Prueba de la suma de ordenes de Wilcoxon — Alternativa a la prueba de t

Por lo general los supuestos de la prueba de t se cumplen de manera suficiente para hacer que esta prueba sea adecuada

Variable dependiente contínua
Observaciones independientes
Variable dependiente con distribución aproximadamente normal
Variable dependiente sin observaciones extremas

También es frecuente que los datos obtenidos de los estudios no cumplan estos supuestos de forma extrema

Las pruebas no paramétricas son menos susceptibles a variación por valores extremos

Chap T. Le -Introductory Biostatistics

Prueba no paramétrica: Se obtiene la probabilidad del resultado sin inferir la distribución poblacional

La prueba se basa en comparar el orden de cada sujeto dentro del grupo contra el promedio esperado de los órdenes y determinar la probabilidad por acercamiento a la distribución normal

Comparación de valores de testosterona entre varones nunca fumadores y varones que fuman más de 30 cigarros al día

Se determinó el orden de cada sujeto en la muestra conjunta (no fumadores + fumadores), después se redividieron los grupos.

> Ojo, empates

Hipótesis nula: Las poblaciones subyacentes tienen medianas idénticas.

Bajo la hipótesis nula esperamos que los órdenes sean aproximadamente iguales.

Definamos \(n_1\) y \(n_2\) como los tamaños de muestra y R la suma de los rangos de la población con \(n_1\)

\(z=\frac{R-\mu_R}{\sigma_R}\)

Donde \(\mu_R=\frac{n_1(n_1+n_2+1)}{2}\) es la media y

\(\sigma_R=\sqrt{\frac{n_1n_2(n_1+n_2+1)}{12}}\)

En el ejemplo:

\(R = 143\)

\(\mu_R=\frac{10(10+10+1)}{2} = 105\)

\(\sigma_R=\sqrt{\frac{(10)(10)(10+10+1)}{12}}= 13.23\)

\(z=\frac{143-105}{13.23}= 2.87\)

Debido a que z>1.96 rechazamos la hipótesis nula con un nivel de confianza del 95%.

Otro ejemplo

Estudio aleatorizado doble ciego de medicamento basado en canabis para la neuropatía diabética

Tras la aleatorización 29 personas recibieron placebo y 24 el tratamiento experimental

pla <- c(13, 8, 46, 61, 28, 7, 93, 10, 7, 100, 4, 16, 23, 33, 18, 51, 26, 19, 20, 54, 19, 37, 13, 8, 28, 25, 4, 12, 12)
int <- c(90, 10, 45, 70, 13, 27, 11, 70, 14, 15, 13, 75, 50, 30, 80, 40, 29, 13, 9, 7, 20, 85, 55, 94)
grupo <- c(rep("placebo", length(pla)), rep("medica", length(int)))
estudio <- data.frame(dolor=c(pla, int), grupo)
estudio

##    dolor   grupo
## 1     13 placebo
## 2      8 placebo
## 3     46 placebo
## 4     61 placebo
## 5     28 placebo
## 6      7 placebo
## 7     93 placebo
## 8     10 placebo
## 9      7 placebo
## 10   100 placebo
## 11     4 placebo
## 12    16 placebo
## 13    23 placebo
## 14    33 placebo
## 15    18 placebo
## 16    51 placebo
## 17    26 placebo
## 18    19 placebo
## 19    20 placebo
## 20    54 placebo
## 21    19 placebo
## 22    37 placebo
## 23    13 placebo
## 24     8 placebo
## 25    28 placebo
## 26    25 placebo
## 27     4 placebo
## 28    12 placebo
## 29    12 placebo
## 30    90  medica
## 31    10  medica
## 32    45  medica
## 33    70  medica
## 34    13  medica
## 35    27  medica
## 36    11  medica
## 37    70  medica
## 38    14  medica
## 39    15  medica
## 40    13  medica
## 41    75  medica
## 42    50  medica
## 43    30  medica
## 44    80  medica
## 45    40  medica
## 46    29  medica
## 47    13  medica
## 48     9  medica
## 49     7  medica
## 50    20  medica
## 51    85  medica
## 52    55  medica
## 53    94  medica

rank(estudio$dolor)

##  [1] 16.0  6.5 39.0 44.0 31.5  4.0 51.0  9.5  4.0 53.0  1.5 21.0 27.0 35.0 22.0
## [16] 41.0 29.0 23.5 25.5 42.0 23.5 36.0 16.0  6.5 31.5 28.0  1.5 12.5 12.5 50.0
## [31]  9.5 38.0 45.5 16.0 30.0 11.0 45.5 19.0 20.0 16.0 47.0 40.0 34.0 48.0 37.0
## [46] 33.0 16.0  8.0  4.0 25.5 49.0 43.0 52.0

estudio$grupo=="medica"

##  [1] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
## [13] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
## [25] FALSE FALSE FALSE FALSE FALSE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE
## [37]  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE
## [49]  TRUE  TRUE  TRUE  TRUE  TRUE

rank(estudio$dolor)[estudio$grupo=="medica"]

##  [1] 50.0  9.5 38.0 45.5 16.0 30.0 11.0 45.5 19.0 20.0 16.0 47.0 40.0 34.0 48.0
## [16] 37.0 33.0 16.0  8.0  4.0 25.5 49.0 43.0 52.0

sum(rank(estudio$dolor)[estudio$grupo=="medica"])

## [1] 737

wilcox.test(dolor ~ grupo, data=estudio)

## Warning in wilcox.test.default(x = c(90, 10, 45, 70, 13, 27, 11, 70, 14, :
## cannot compute exact p-value with ties

## 
##  Wilcoxon rank sum test with continuity correction
## 
## data:  dolor by grupo
## W = 437, p-value = 0.1136
## alternative hypothesis: true location shift is not equal to 0

wilcox.test(dolor ~ grupo, data=estudio, correct=FALSE)

## Warning in wilcox.test.default(x = c(90, 10, 45, 70, 13, 27, 11, 70, 14, :
## cannot compute exact p-value with ties

## 
##  Wilcoxon rank sum test
## 
## data:  dolor by grupo
## W = 437, p-value = 0.1115
## alternative hypothesis: true location shift is not equal to 0