Práctica 7: Test basados en rangos (2 muestras).

Ejercicio 1. Test de Wilcoxon (Mann Whitney) t-test

El t-test es un test estadístico paramétrico que permite contrastar la hipótesis nula de que las medias de dos poblaciones son iguales, frente a la hipótesis alternativa de que no lo son. Para que sus resultados sean válidos es necesario que se cumplan los supuestos de independencia, normalidad e igualdad de varianzas (aunque no tendría por qué ser así).

Evaluación t-test con distribuciones no normales para distintos tamagnos muestrales.

Distribución lognormal :

x <- seq(0, 10, length = 1000)
y <- dlnorm(x = x, meanlog =  0.5, sdlog = 1)
plot(x, y, type = "l", lty = 1, xlab = "x", col = "blue", ylab = "Densidad",
     main = "Distribuciones lognormal y normal con misma media",
     xlim = c(-2, 10))
x_2 <- seq(-2, 10, length = 1000)
y_2 <- dnorm(x = x_2, mean = 2.718282, sd = 1)
lines(x_2, y_2, col = "red")
legend("topright",
       legend = c("media lognormal = 2.72", "media normal = 2.72"),
       col = c("blue", "red"), lty = 1, cex = 0.7)

Para los tamagnos muestrales 5, 10, 20, 30, 50, 100, 200, 300, 500 se extraen 1000 observaciones de cada distribución y se identifica el porcentaje tests significativos (donde se rechaza \(H_0\)) para un nivel \(\alpha=0.05.\)

testSignificativos<-c()
tamMuestral<-c(5,10,25,30,50,100,200,300,500)
for(i in tamMuestral){
  pValues<-c()
  for(j in 1:1000){
    muestraA<-rlnorm(n=i,meanlog=0.5,sdlog=1)
    muestraB<-rnorm(n=i,mean=2.718282,sd=1)
    pValues[j]<-t.test(muestraA,muestraB,var.equal=TRUE)$p.value
  }
  testSignificativos<-c(testSignificativos,mean(pValues<0.05)*100)
}
names(testSignificativos)<-c(5,10,23,30,50,100,200,300,500)
testSignificativos

##    5   10   23   30   50  100  200  300  500 
## 14.8 13.7  9.7 11.2  9.2  7.3  6.3  5.9  6.7

La falta de normalidad que presenta una de las poblaciones, hace que para tamaños muestrales por debajo de 100 el procertanje de tests significativos está por encima de lo esperado (\(5\%\)).

plot(x = tamMuestral, y = testSignificativos, type = "b", ylim = c(0,20),
     ylab = "% de test significativos", xlab = "tamagno muestral")
abline(h = 5, col = "blue")

Estos inconvenientes juistifican la necesidad de métodos no paramétricos. El test no paramétrico homólogo al t-test es el test de Wilcoxon-Mann-Whytney que hemos estudiado. Las condiciones de aplicabilidad de este test son que los datos tienen que ser independientes, ordinales (o poderse ordenar), el tamagno muestral no es necesario que sea grande, y tampoco que las muestras procedan de poblaciones normales, y que la variabilidad de los grupos sea similar (homocedasticidad).

Ante esta situación, ¿por qué no usamos siempre tests no paramétricos? En general los tests no paramétricos son menos potentes. En concreto, el test de Mann–Whitney–Wilcoxon es menos potente que el t-test (tienen menos probabilidad de rechazar la \(H_0\) cuando realmente es falsa) ya que se centra en los rangos e ignora valores extremos. En el caso de los t-test, al trabajar con medias, si los tienen en cuenta. Sin embargo, esto hace a su vez que el test de Mann–Whitney–Wilcoxon sea una prueba más robusta que los t-test.

Por ejemplo (extremo), a continuación se tiene una muestra de datos correspondiente a una medida en dos grupos, cada uno con tres sujetos, entre paréntesis se escriben los rangos):

| Control     | Tratamiento  |  
| 3.4 (1)     | 1233  (4)    | 
| 3.7 (3)     | 1235  (6)    | 
| 3.5 (2)     | 1234  (5)    |

A la vista de la tabla, parece evidente que el tratamiento aumenta drásticamente el valor que se está midiendo. Sin embargo, la prueba de Mann-Whitney pregunta si los rangos se distribuyeron al azar entre los grupos de control y tratados, cuál es la probabilidad de obtener los tres rangos más bajos en un grupo y los tres rangos más altos en el otro grupo. La prueba no paramétrica solo observa el rango, ignorando el hecho de que los valores tratados no son solo más altos, sino mucho más altos.

wilcox.test(c(3.4,3.7,3.5),c(1233,1235,1234))

## 
##  Wilcoxon rank sum exact test
## 
## data:  c(3.4, 3.7, 3.5) and c(1233, 1235, 1234)
## W = 0, p-value = 0.1
## alternative hypothesis: true location shift is not equal to 0

Estos resultados no son significativamente diferentes (\(\alpha=0.05\)). Este ejemplo muestra que con n=m=3, la prueba de Mann-Whitney nunca puede obtener un p-valor inferior a 0.05. En otras palabras, que para este ejemplo la prueba de Mann-Whitney tiene una potencia estadística nula.

Pero esto no es siempre así, con muestras grandes, la prueba de Mann-Whitney tiene casi tanta potencia estadística como la prueba t, en concreto, se ha demostrado que la pérdida de potencia es del 5%.

La figura de abajo está tomada de Zimmerman (1987) (https://www.jstor.org/stable/20151691?seq=3), donde se comparó por simulación los errores de tipo I y la potencia del t-test y del test de Wilcoxon-Mann-Whitney. Cuando las varianzas son iguales y los tamaños de las muestras son iguales (panel superior izquierda de la Figura 1), la función de potencia de la prueba t supera ligeramente a la de la prueba de Mann-Whitney, como era de esperar. En este caso, cuando se cumplen las suposiciones paramétricas, se sabe que la eficiencia relativa asintótica de la prueba de Mann-Whitney es de 0.955. Cuando los tamaños de las muestras son distintos y la muestra más pequeña tiene la menor varianza (panel intermedio inferior de la Figura 1), la prueba de Mann-Whitney es más potente que la prueba t en todo el rango de diferencias entre las medias.

P-valor y petencia t-test y Mann-Whitney

Una de las aplicaciones más frecuentes del test de Mann–Whitney–Wilcoxon es su uso como alternativa al t-test cuando las muestras no proceden de poblaciones con distribución normal (asimetría o colas) o porque tienen un tamaño demasiado reducido para poder afirmarlo. Si las distribuciones de las poblaciones subyacentes se diferencian únicamente en localización, entonces el test de Mann–Whitney–Wilcoxon compara medianas.

En la práctica, el escenario en el que la única diferencia entre poblaciones es la localización es poco realista. Si las distribuciones tienen colas (asimetra) y las medias o medianas son distintas, es muy probable que las varianzas también lo sean. De hecho, la distribución normal es la única distribución estándar en la que la media y la varianza son independientes.

Es necesario evaluar estas características para poder determinar si el test de Mann–Whitney–Wilcoxon es suficientemente robusto para el estudio en cuestión.

Supóngase que se dispone de las siguientes muestras y de que se desea conocer si existe diferencia significativa entre las poblaciones de origen.

grupo_a <- c(5, 5, 5, 5, 5, 5, 7, 8, 9, 10)
grupo_b <- c(1, 2, 3 ,4, 5, 5, 5, 5, 5, 5)
par(mfrow = c(1,2))
hist(grupo_a, col = "blue", main = "")
hist(grupo_b, col = "red", main = "")

Aquí el tamaño muestral es pequeño y ambos grupos muestran asimetría, por lo que el t-test queda descartado. Una posible alternativa es emplear el test de Mann–Whitney–Wilcoxon:

wilcox.test(grupo_a, grupo_b, paired = FALSE)

## Warning in wilcox.test.default(grupo_a, grupo_b, paired = FALSE): cannot
## compute exact p-value with ties

## 
##  Wilcoxon rank sum test with continuity correction
## 
## data:  grupo_a and grupo_b
## W = 82, p-value = 0.007196
## alternative hypothesis: true location shift is not equal to 0

El p-valor obtenido indica que existen diferencias en la distribución de ambas poblaciones (como lo usaremos siempre nosotros). Pese a que si se calculan las medianas éstas coincide:

median(grupo_a)

## [1] 5

median(grupo_b)

## [1] 5

¿Es esto contradictorio? No, lo que está ocurriendo es que como las dos poblaciones tienen asimetrías en direcciones opuestas, es decir, sus diferencias van más allá de la localización (mediana), el test de Mann–Whitney–Wilcoxon no puede emplearse para comparar medianas.

Ejercicio 2. Simulación para \(W_S\) y \(W_{XY}\)

Obtener por simulación los pvalores de la tabla dada para la distribución de \(W_{XY}.\)

# Simulacion basada en 100 repeticiones
rep<-100  # Podeis probar con 1000, problema tiempo!
# Definimos el array que almacena los pvalores de la tabla
tablaWXY<-array(0,dim=c(10,10,51),dimnames = list(paste0("k1_",1:10),
                            paste0("k2_",1:10),
                            paste0("a_",0:50)))

for(k1 in 1:10){
    for(k2 in k1:10){
        pval<-c()
        for(a in 0:50){
            logPval<-c()
            for(veces in 1:rep){
                all<-1:(k1+k2)
                control<-sample(all,k1,replace=FALSE)
                trat<-setdiff(all,control)
                Ws<-sum(trat)
                Wxy<-Ws-k2*(k2+1)/2
                logPval<-c(logPval,ifelse(Wxy<=a,1,0))
            }
            # Obtenemos el pvalor por simulacion
            pval<-c(pval,sum(logPval)/rep)
        }
        tablaWXY[k1,k2,]<-pval
    }
    
}

# Veamos algunos ejemplos y comparemos los resultados son las tablas dadas
tablaWXY[3,3,]

##  a_0  a_1  a_2  a_3  a_4  a_5  a_6  a_7  a_8  a_9 a_10 a_11 a_12 a_13 a_14 a_15 
## 0.04 0.07 0.22 0.33 0.47 0.56 0.77 0.91 0.94 1.00 1.00 1.00 1.00 1.00 1.00 1.00 
## a_16 a_17 a_18 a_19 a_20 a_21 a_22 a_23 a_24 a_25 a_26 a_27 a_28 a_29 a_30 a_31 
## 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 
## a_32 a_33 a_34 a_35 a_36 a_37 a_38 a_39 a_40 a_41 a_42 a_43 a_44 a_45 a_46 a_47 
## 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 
## a_48 a_49 a_50 
## 1.00 1.00 1.00

tablaWXY[4,4,]

##  a_0  a_1  a_2  a_3  a_4  a_5  a_6  a_7  a_8  a_9 a_10 a_11 a_12 a_13 a_14 a_15 
## 0.01 0.04 0.06 0.10 0.15 0.22 0.33 0.44 0.57 0.68 0.82 0.79 0.92 0.94 0.98 1.00 
## a_16 a_17 a_18 a_19 a_20 a_21 a_22 a_23 a_24 a_25 a_26 a_27 a_28 a_29 a_30 a_31 
## 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 
## a_32 a_33 a_34 a_35 a_36 a_37 a_38 a_39 a_40 a_41 a_42 a_43 a_44 a_45 a_46 a_47 
## 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 
## a_48 a_49 a_50 
## 1.00 1.00 1.00

tablaWXY[5,5,]

##  a_0  a_1  a_2  a_3  a_4  a_5  a_6  a_7  a_8  a_9 a_10 a_11 a_12 a_13 a_14 a_15 
## 0.00 0.00 0.01 0.03 0.07 0.10 0.08 0.15 0.14 0.27 0.43 0.32 0.53 0.56 0.62 0.72 
## a_16 a_17 a_18 a_19 a_20 a_21 a_22 a_23 a_24 a_25 a_26 a_27 a_28 a_29 a_30 a_31 
## 0.70 0.84 0.92 0.93 0.96 0.97 0.99 0.99 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 
## a_32 a_33 a_34 a_35 a_36 a_37 a_38 a_39 a_40 a_41 a_42 a_43 a_44 a_45 a_46 a_47 
## 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 
## a_48 a_49 a_50 
## 1.00 1.00 1.00

tablaWXY[10,10,] # 0.059 con 1000 repeticiones

##  a_0  a_1  a_2  a_3  a_4  a_5  a_6  a_7  a_8  a_9 a_10 a_11 a_12 a_13 a_14 a_15 
## 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.01 0.00 0.00 
## a_16 a_17 a_18 a_19 a_20 a_21 a_22 a_23 a_24 a_25 a_26 a_27 a_28 a_29 a_30 a_31 
## 0.00 0.01 0.00 0.00 0.00 0.01 0.00 0.02 0.03 0.04 0.09 0.05 0.06 0.02 0.07 0.07 
## a_32 a_33 a_34 a_35 a_36 a_37 a_38 a_39 a_40 a_41 a_42 a_43 a_44 a_45 a_46 a_47 
## 0.10 0.10 0.15 0.17 0.13 0.21 0.18 0.26 0.22 0.27 0.33 0.32 0.35 0.40 0.37 0.44 
## a_48 a_49 a_50 
## 0.47 0.47 0.52

pwilcox(28,10,10,"l") # En la tabla es 0.0526

## Warning in pwilcox(28, 10, 10, "l"): NAs introducidos por coerción

## [1] 0.05256122

Para el caso paricular de un experimento con 5 individuos, de los cuales 3 fueron asignados a tratamiento. Obtener por simulación la distribución de \(W_s\) y \(W_{XY}\) bajo \(H_0.\) ¿Están igualmente distribuidas baho \(H_0\)? ¿En torno a qué valor se localiza cada una de estas distribuciones? ¿Cuál es mínimo valor que toman los estadísticos bajo \(H_0\)?

k1<-2
k2<-3

rep<-1000

Ws_dist<-c()
Wxy_dist<-c()
for(veces in 1:rep){
    all<-1:(k1+k2)
    control<-sample(all,k1,replace=FALSE)
    trat<-setdiff(all,control)
    Ws_dist<-c(Ws_dist,sum(trat))
    Wxy_dist<-c(Wxy_dist,sum(trat)-k2*(k2+1)/2)
}

# Con la notacion que hemos visto en clase 
m<-k1
n<-k2
N<-m+n

# Comprobamos algunos aspectos respecto la distribucion de Ws bajo H0
par(mfrow=c(1,2))
barplot(table(Ws_dist),main="W_s")
summary(Ws_dist)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   6.000   8.000   9.000   8.956  10.000  12.000

# La distribucion de Ws bajo H0 es simetrica respecto de n*(N+1)/2
n*(N+1)/2

## [1] 9

# El minimo valor de Ws es n*(n+1)/2
n*(n+1)/2

## [1] 6

# Comprobamos algunos aspectos respecto la distribucion de WXY bajo H0
barplot(table(Wxy_dist),main="W_XY")

summary(Wxy_dist)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   0.000   2.000   3.000   2.956   4.000   6.000

# La distribucion de WXY bajo H0 es simetrica respecto de m*n/2
m*n/2

## [1] 3

# El minimo valor de WXY 0

Para este mismo experimento, y en el caso de que hubiera coincidencias las distrdistribuciones de \(W_s\) y \(W_{XY}\) están igualmente distribuidas bajo \(H_0\)?

k1<-2
k2<-3

rep<-1000

Ws_dist1<-c() # Distribucion Ws para configuracion de coincidencias 1
Wxy_dist1<-c() # Distribucion WXY para configuracion de coincidencias 1
Ws_dist2<-c() # Distribucion Ws para configuracion de coincidencias 2
Wxy_dist2<-c() # Distribucion WXY para configuracion de coincidencias 2

for(veces in 1:rep){
    all<-1:(k1+k2)
    control<-sample(all,k1,replace=FALSE)
    # Configuracion de coincidencias 1 (el minimo de los que queden)
    conf1<-min(setdiff(all,control))
    trat1<-rep(conf1,k2)
    # Configuracion de coincidencias 2 (el maximo de los que queden)
    conf2<-max(setdiff(all,control))
    trat2<-rep(conf2,k2)
    Ws_dist1<-c(Ws_dist1,sum(trat1))
    Wxy_dist1<-c(Wxy_dist1,sum(trat1)-k2*(k2+1)/2)
    Ws_dist2<-c(Ws_dist2,sum(trat2))
    Wxy_dist2<-c(Wxy_dist2,sum(trat2)-k2*(k2+1)/2)
}

par(mfrow=c(2,2))
barplot(table(Ws_dist1),main="Ws conf 1")
barplot(table(Wxy_dist1),main="WXY conf 1")
barplot(table(Ws_dist2),main="Ws conf 2")
barplot(table(Wxy_dist2),main="WXY conf 2")

Ejercicio 3 (Adaptación del ejercicio 4)

Se quiere comparar el crecimiento de la población en zonas rurales y en zonas urbanas. Para ello se utiliza el porcentaje de cambio en la población entre 2010 y 2020. Se eligen al azar 7 zonas urbanas y 9 zonas rurales y se calculan los porcentajes de crecimiento en cada zona:

Zonas rurales: 1.1, -21.7, -16.3, -11.3, -10.4, -7.0, -2.0, 1.9, 6.2 Zonas urbanas: -2.4, 9.9, 14.2, 18.4, 20.1, 23.1, 70.4

Contrastar si es mayor la tasa de crecimiento en las zonas urbanas.

# Datos
x<-c(1.1,-21.7,-16.3,-11.3,-10.4,-7.0,-2.0,1.9,6.2) # Rural
y<-c(-2.4,9.9,14.2,18.4,20.1,23.1,70.4) # Urbano
m<-length(x)
n<-length(y)
N<-n+m

# Manera 1. Utilizando pwilcox

# Calculamos los rangos
z<-c(x,y)
r<-rank(z)
r

##  [1]  8  1  2  3  4  5  7  9 10  6 11 12 13 14 15 16

# Calculo de Ws
WSu=sum(r[(m+1):N])
WSu

## [1] 87

# Calculo de WXY
WXYu<-WSu-n*(n+1)/2
WXYu

## [1] 59

# Calculo del pvalor 
1-pwilcox(WXYu-1,n,m)

## [1] 0.001048951

# Manera 2. Utilizando wilcox.test (cuando hay datos)
wilcox.test(y,x,"g") # Help: the one-sided alternative "greater" is that x is shifted to the right of y

## 
##  Wilcoxon rank sum exact test
## 
## data:  y and x
## W = 59, p-value = 0.001049
## alternative hypothesis: true location shift is greater than 0

wilcox.test(x,y,"l") # Se obtiene lo mismo

## 
##  Wilcoxon rank sum exact test
## 
## data:  x and y
## W = 4, p-value = 0.001049
## alternative hypothesis: true location shift is less than 0

Estimar el efecto del tratamiento (crecimiento zona urbana).

# Manera 1. Calcular a mano las mn diferencias y estimar el efecto con la mediana

d<-c()
for(i in 1:m){
    for(j in 1:n){
        d<-c(d,y[j]-x[i])
    }
}
median(d)

## [1] 22.1

# Manera 2. Utilizando los argumentos de wilcox.test

wilcox.test(y,x,"g",conf.int=TRUE,conf.level=0.95)

## 
##  Wilcoxon rank sum exact test
## 
## data:  y and x
## W = 59, p-value = 0.001049
## alternative hypothesis: true location shift is greater than 0
## 95 percent confidence interval:
##  13.9  Inf
## sample estimates:
## difference in location 
##                   22.1

Aproximar la potencia en \(\Delta=2\) para la alternativa \(F\sim N(\mu,\sigma^2)\) con \(\sigma^2=4\) y \(\alpha=0.05\).

muAlpha<-qnorm(0.95)

# La diferencia de v.a. normales es N(0,2*sqrt(2)) cl normales
fStar<-function(sigma){
  return(1/(sigma*sqrt(2*pi)))
}

Delta<-2

# Potencia aproximada asint

pnorm(sqrt((12*n*m)/(N+1))*fStar(2*sqrt(2))*Delta-muAlpha)

## [1] 0.5934122

Suponiendo n=m calcular el tamagno muestral necesario para que la potencia en \(\Delta=2\) sea 0.9.

# Manera 1. Calcular a mano las mn diferencias y estimar el efecto con la mediana

n2<-(qnorm(0.95)-qnorm(0.1))^2/(6*Delta^2*fStar(2*sqrt(2))^2)
n2

## [1] 17.93608

ceiling(n2) # para tratamiento y control

## [1] 18

Ejercicio 4 (Ejercicio 1 de la lista de ejercicios)

La duración en horas de una serie de bombillas fue: 518, 174, 613, 2010, 2139, 156, 450, 536. Tras un nuevo proceso de fabricación, la duración de 25 bombillas fue:

899, 326, 2118, 839, 820, 1423, 1687, 1010, 3011, 1739, 1185, 1320, 646, 505, 4236,
4481, 1433, 1806, 400, 421, 335, 1164, 1713, 1356, 390.

Contrastar si la duración de la nueva serie supera significativamente a la de la primera.

# Datos
x<-c(518,174,614,2010,2139,156,450,536)
y<-c(899,326,2118,839,820,1423,1687,1010,3011,1739,1185,1320,646,505,4236,4481,1433,1806,400,421,335,1164,1713,1356,390)

m<-length(x)
n<-length(y)
N<-n+m

# Manera 1. Utilizando pwilcox

# Calculamos los rangos
z<-c(x,y)
r<-rank(z)
r

##  [1] 10  2 12 28 30  1  8 11 16  3 29 15 14 22 24 17 31 26 19 20 13  9 32 33 23
## [26] 27  6  7  4 18 25 21  5

# Calculo de Ws
WS=sum(r[(m+1):N])
WS

## [1] 459

# Calculo de WXY
WXY<-WS-n*(n+1)/2
WXY

## [1] 134

# Calculo del pvalor 
1-pwilcox(WXY-1,n,m)

## [1] 0.08121473

# Manera 2. Utilizando wilcox.test (cuando hay datos)

wilcox.test(y,x,alternative="g")

## 
##  Wilcoxon rank sum exact test
## 
## data:  y and x
## W = 134, p-value = 0.08121
## alternative hypothesis: true location shift is greater than 0

# O analogamente
wilcox.test(x,y,alternative="l")

## 
##  Wilcoxon rank sum exact test
## 
## data:  x and y
## W = 66, p-value = 0.08121
## alternative hypothesis: true location shift is less than 0

Estimar la diferencia en la duración de las bombillas.

# Manera 1. Calcular a mano las mn diferencias y estimar el efecto con la mediana

d<-c()
for(i in 1:m){
    for(j in 1:n){
        d<-c(d,y[j]-x[i])
    }
}
median(d)

## [1] 491

# Manera 2. Utilizando los argumentos de wilcox.test

wilcox.test(y,x,"g",conf.int=T,conf.level=0.95)

## 
##  Wilcoxon rank sum exact test
## 
## data:  y and x
## W = 134, p-value = 0.08121
## alternative hypothesis: true location shift is greater than 0
## 95 percent confidence interval:
##  -60 Inf
## sample estimates:
## difference in location 
##                    491

Obtener IC al menos 95% para la diferencia de la duración (\(\Delta\)). ¿Cuál es la confianza exacta de dicho intervalo?

# Calculo de i,j
wilcox.test(y,x,conf.int=T,conf.level=0.95) # Se quiere confianza exacta

## 
##  Wilcoxon rank sum exact test
## 
## data:  y and x
## W = 134, p-value = 0.1624
## alternative hypothesis: true location shift is not equal to 0
## 95 percent confidence interval:
##  -128 1169
## sample estimates:
## difference in location 
##                    491

i<-qwilcox(0.025,m,n)
i

## [1] 54

# Conocido i, tengo j
j<-m*n-i+1
j

## [1] 147

# Comprobaciones
pwilcox(i,n,m) # No vale

## [1] 0.02738272

pwilcox(i-1,n,m)

## [1] 0.02468382

# IC al menos 1-alpha
sort(d)[i]

## [1] -128

sort(d)[j]

## [1] 1169

# Confianza exacta
1-2*pwilcox(i-1,n,m)

## [1] 0.9506324

Ejercicio 5 (Ejercicio 8 de la lista de ejercicios)

Se tienen 6 enfermos que padecen cierta enfermedad. El grado de dolor que padecen se codifica en: A=no tiene dolor, B=dolor soportable, C=dolor muy intenso. Para estudiar si cierto tratamiento mitiga el dolor de estos enfermos se eligen 3 de ellos al azar que se dejan como control, y se aplica el tratamiento a los otros 3, siendo los resultados:

Control: A, C, C Tratamiento: B, B, C.

Estudiar si el tratamiento produce efecto.

| Muestra ordenada | C | C | C | B   | B   | A |
| Semi-rangos      | 2 | 2 | 2 | 4.5 | 4.5 | 6 |

El valor del estadístico observado es \(W_S^*\) = 11

Distribución exacta:

| $(S^*_1, S^*_2, S^*_3)$    | (2,2,2) | (2,2,4.5) | (2,2,6) | (2,4.5,4.5) | (2,4.5,6) | (4.5,4.5,6)|
| Probabilidades           |  1/20   |   6/20    |  3/20   |    3/20     |    6/20   |    1/20    |
| $W_S^*$                  |   6     |   8.5     |   10    |    11       |    12.5   |     15     |

Con la tabla anterior podemos calcular el p-valor \(P(W_S^* >=11)= 0.5\)

NO SE RECHAZA LA HIPÓTESIS

# No tenemos datos, no podemos usar wilcox.test

# ¿Es correcto?
1-pwilcox(10,3,3)

## [1] 0

Ejercicio Propuesto (Ejercicio 5 de la lista de ejercicios)

En un examen se utilizan dos tipos de pruebas A y B, que se asignan al azar a los alumnos. A medida que los alumnos entregan el examen, el profesor anota el tipo de prueba y se obtiene:

    B B B A A B A B B B B A B A A B A A A

¿Es razonable pensar que se requiere más tiempo para realizar una prueba que la otra? (Bilateral)