1. Se obtuvieron durante 132 días las concentraciones máximas de ozono (en partes por \(10^9\)) en una determinada zona de Nueva York. Estados Unidos fija como requirimiento un nivel máximo de 120 de ozono. De los 132 días, 2 días presentaron niveles de ozono por encima de 120. Contrasta si la proporción de días con nivel de ozono mayor que el permitido es menor o igual que 0.05 y calcula un intervalo de confianza al 95\(\%\).
binom.test(2, 132, p = 0.05, alternative = "less", conf.level = 0.95)
## 
##  Exact binomial test
## 
## data:  2 and 132
## number of successes = 2, number of trials = 132, p-value = 0.03658
## alternative hypothesis: true probability of success is less than 0.05
## 95 percent confidence interval:
##  0.00000000 0.04692521
## sample estimates:
## probability of success 
##             0.01515152

Rechazo la hipótesis nula: la proporción de días con ozono mayor que el permitido es significativamente menor que 0.05. El p-valor es menor que 0.05 y el intervalo de confianza va de 0 a 0.047.

  1. Los datos del fichero trcData.csv recogen los tiempos observados en la tasa de recuperación cardíaca (TRC) después de realizar una carrera de 2 km por un grupo de hombres. Se dividieron los hombres en dos grupos: el primero con edades entre los 40 y los 49 años, y el segundo, con edades entre los 50 y los 59. Los datos de la columna TRCAntes corresponden a los valores de la TRC de los hombres cuando no practicaban ningún tipo de deporte. A estos hombres se les sometió durante un mes a distintos tipos de entrenamiento físico y, al cabo de ese tiempo, se les volvió a medir la TRC, cuyos datos se recogen en la columna TRCDespues.
trcData <- read.csv("trcData.csv", sep = ";", header = T)
str(trcData)
## 'data.frame':    22 obs. of  3 variables:
##  $ Edad    : Factor w/ 2 levels "40-49","50-59": 1 1 1 1 1 1 1 1 1 1 ...
##  $ TRCAntes: num  12.2 12.4 11 11.2 11.6 ...
##  $ TRCDesp : num  11.8 11.5 10.6 10.3 10.6 ...

2.1. ¿Hay diferencia en la TRC (media) antes de realizar el entrenamiento (TRCAntes) según la edad?

Primero extraigo los dos grupos de valores de la tabla:

forties <- trcData$TRCAntes[trcData$Edad == '40-49']
fifties <- trcData$TRCAntes[trcData$Edad == '50-59']

Compruebo la normalidad con el test de Shapiro-Wilk puesto que ambos conjuntos incluyen menos de 50 valores.

shapiro.test(forties)
## 
##  Shapiro-Wilk normality test
## 
## data:  forties
## W = 0.76, p-value = 0.002372
shapiro.test(fifties)
## 
##  Shapiro-Wilk normality test
## 
## data:  fifties
## W = 0.86474, p-value = 0.1079

En el caso de el conjunto de datos correspondiente a hombres de entre 40 y 49 años, el p-value del test de normalidad es inferior a 0.05, por lo que se rechaza la hipótesis nula y se concluye que no sigue una distribución normal.

Ahora testo con el test de Fligner la homocedasticidad.

fligner.test(trcData$TRCAntes, trcData$Edad)
## 
##  Fligner-Killeen test of homogeneity of variances
## 
## data:  trcData$TRCAntes and trcData$Edad
## Fligner-Killeen:med chi-squared = 4.8035, df = 1, p-value = 0.0284

El p-valor es inferior a 0.05, por lo que se rechaza la hipótesis nula: no hay homocedasticidad.

Lo correcto sería llevar a cabo un test no paramétrico:

wilcox.test (forties, fifties, alternative = "two.sided")
## Warning in wilcox.test.default(forties, fifties, alternative =
## "two.sided"): cannot compute exact p-value with ties
## 
##  Wilcoxon rank sum test with continuity correction
## 
## data:  forties and fifties
## W = 36, p-value = 0.1417
## alternative hypothesis: true location shift is not equal to 0

El p-valor es mayor que 0.05: la diferencia entre los grupos de edad es significativa.

También llevo a cabo una prueba con el t-student (aunque no sería correcto, dado que al ser un test paramétrico requiere que haya normalidad y homocedasticidad):

t.test (forties, fifties, alternative = "two.sided")
## 
##  Welch Two Sample t-test
## 
## data:  forties and fifties
## t = -2.1545, df = 10.048, p-value = 0.0565
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  -4.78044604  0.07873664
## sample estimates:
## mean of x mean of y 
##  11.10692  13.45778

El p-value es superior a 0.05 (¡por poco!), así que según t-Student la diferencia entre ambos grupos es significativa.

2.2. ¿Nos equivocamos si decimos que la media de la TRCDesp es 10.2?

Estamos ahora ante un caso en el que sólo hay una muestra, la TRCDesp.

Primero comprobamos que se cumpla la hipótesis de normalidad:

shapiro.test(trcData$TRCDesp)
## 
##  Shapiro-Wilk normality test
## 
## data:  trcData$TRCDesp
## W = 0.80948, p-value = 0.0007068

Los datos no siguen una distribución normal.

wilcox.test(trcData$TRCDesp, mu = 10.2, alternative = "two.sided")
## 
##  Wilcoxon signed rank test
## 
## data:  trcData$TRCDesp
## V = 199, p-value = 0.0172
## alternative hypothesis: true location is not equal to 10.2
t.test(trcData$TRCDesp, mu = 10.2, alternative = "two.sided")
## 
##  One Sample t-test
## 
## data:  trcData$TRCDesp
## t = 2.2943, df = 21, p-value = 0.03218
## alternative hypothesis: true mean is not equal to 10.2
## 95 percent confidence interval:
##  10.31124 12.46604
## sample estimates:
## mean of x 
##  11.38864

Tanto el test no paramétrico como el paramétrico nos muestran un p-value inferior a 0.05, por lo que se puede concluir que sí nos equivocamos si decimos que la media de TRCDesp es 10.2

2.3. Plantea un contraste para ver si mejora la tasa de recuperación cardíaca (media) después de realizar entrenamiento físico.

Tendríamos que contrastar dos variables dependientes: TRCAntes vs TRCDesp.

Primero ponemos a prueba la hipótesis de normalidad en la muestra TRCAntes (TRCDesp ya vimos que no seguía una distribución normal).

shapiro.test(trcData$TRCAntes)
## 
##  Shapiro-Wilk normality test
## 
## data:  trcData$TRCAntes
## W = 0.83358, p-value = 0.001764

El p-valor del test es menor que 0.05, por lo que ninguna de las dos muestras sigue una distribución normal.

Llevo a cabo el contraste de hipótesis con un método paramétrico y con uno no paramétrico:

t.test(trcData$TRCAntes, trcData$TRCDesp, alternative = "greater", paired = T)
## 
##  Paired t-test
## 
## data:  trcData$TRCAntes and trcData$TRCDesp
## t = 6.287, df = 21, p-value = 1.551e-06
## alternative hypothesis: true difference in means is greater than 0
## 95 percent confidence interval:
##  0.4938835       Inf
## sample estimates:
## mean of the differences 
##                    0.68
wilcox.test(trcData$TRCAntes, trcData$TRCDesp, alternative = "greater", paired = T)
## Warning in wilcox.test.default(trcData$TRCAntes, trcData$TRCDesp,
## alternative = "greater", : cannot compute exact p-value with ties
## 
##  Wilcoxon signed rank test with continuity correction
## 
## data:  trcData$TRCAntes and trcData$TRCDesp
## V = 247, p-value = 4.882e-05
## alternative hypothesis: true location shift is greater than 0

El p-valor es en ambos casos muy próximo a 0, con lo que se puede concluir que sí ha mejorado la TRC tras el entrenamiento físico.