1 Contraste hipótesis

1.1 Contraste paramétrico

Un reciente estudio sobre los hábitos de los españoles nos dice que, de media, nuestras siestas suelen durar 40 minutos. Para complobarlo, hemos cogido a 30 personas de una muestra aleatoria y se ha obtenido que la media de duración es de 30 minutos y una desviación tipica de 2. Se sabe que alpha es 0.05.

a) ¿Cuál es la hipotesis nula y la alternativa?

La hipotesis nula en este caso sera que la media de las siestas es de 40 minutos o más , mientras que la hipotesis alternativa sera que la media de las siestas es menor a 40 minutos.

b) ¿Cuál es el valor del estadistico de contraste y el p-valor?

z=qnorm(1-(0.05/2))

contraste=(30-40)/(2/sqrt(30))
pvalor=contraste

contraste
## [1] -27.38613
pvalor
## [1] -27.38613

c) ¿Cuales son las conclusiones que sacamos con estos datos?

rechazaNula=contraste<(-z)

rechazaNula
## [1] TRUE

Como el valor estadistico es menor que z podemos rechazar la hipotesis nula. Esto nos dice que nuestras siestas NO duran mas de 40 minutos.

1.2 Contraste no parametrico

Una vez terminado el estudio, hemos decidido pagar a 5 personas del mismo grupo para que se echen una siesta y poder controlar de forma veridica. Para ello

d) Compara las duraciones de las siestas de antes y despues (antes: 41.68667 39.90822 40.61646 40.22035 39.71728) (despues: 38.99748 39.57872 40.13503 40.18390 39.08502)

siesta_antes = c(41.68667, 39.90822, 40.61646, 40.22035, 39.71728)
siesta_despues = c(38.99748, 39.57872, 40.13503, 40.18390, 39.08502)
wilcox.test(siesta_antes, siesta_despues, paired=TRUE)
## 
##  Wilcoxon signed rank exact test
## 
## data:  siesta_antes and siesta_despues
## V = 15, p-value = 0.0625
## alternative hypothesis: true location shift is not equal to 0

2 Anova

Los alumnos de 2º de ingeniería infórmatica, deben crear un algoritmo en grupos de 3 personas para la asignatura de Metodología de la Programación. Cada uno de los alumnos del grupo de trabajo nº8 han diseñado y programado cada uno por su cuenta un algoritmo, con el afán de compararlos y determinar cuál es el mejor, para mandarlo al profesor para que lo evalue. Cada uno a medido el tiempo (en segundos) que tarda en ejecutarse su algoritmo 10 veces, para tener diferentes muestras. Los resultado han sido: Algoritmo 1:{29.70, 32.35, 41.29, 31.85, 33.15, 41.08, 36.80, 26.17, 29.07, 32.27} Algoritmo 2:{38.62, 36.30, 31.50, 33.05, 29.72, 40.43, 34.99, 23.67, 36.01, 30.14} Algoritmo 3:{27.16, 33.41, 27.37, 28.86, 27.37, 29.07, 36.69, 36.27, 34.81, 40.77}

Los estudiantes han pensado que una buena forma de coparar esas tres muestras es mediante el Anova, para ello realizarán lo siguiente:

a) La primera condición para poder aplicar el método Anova, es que todas las muestras deben provenir de poblaciones normales. ¿Lo cumplén sus muestras?

    Algoritmo_1=c(29.70, 32.35, 41.29, 31.85, 33.15, 41.08, 36.80, 26.17, 29.07, 32.27)
    Algoritmo_2=c(38.62, 36.30, 31.50, 33.05, 29.72, 40.43, 34.99, 23.67, 36.01, 30.14)
    Algoritmo_3=c(27.16, 33.41, 27.37, 28.86, 27.37, 29.07, 36.69, 36.27, 34.81, 40.77)
    
    shapiro.test(Algoritmo_1)
## 
##  Shapiro-Wilk normality test
## 
## data:  Algoritmo_1
## W = 0.92102, p-value = 0.3655
    shapiro.test(Algoritmo_2)
## 
##  Shapiro-Wilk normality test
## 
## data:  Algoritmo_2
## W = 0.96836, p-value = 0.8753
    shapiro.test(Algoritmo_3)
## 
##  Shapiro-Wilk normality test
## 
## data:  Algoritmo_3
## W = 0.88588, p-value = 0.1523

Tras realizar las puebas de normalidad en las muestras obtenidas por la ejecución de los algoritmos, obtenemos en todas ellas que el p-valor es superior a 0.05, por lo que no existe evidencia estadístca para rechazar que todas las muestras provienen de poblaciones normales.

b) La otra condición que deben de cumplir las muestras para poder aplicar el metodo Anova, es que todas las muestras deben de tener la misma varianza. ¿Cumplen las muestras está condición?

    bartlett.test(list(Algoritmo_1,Algoritmo_2,Algoritmo_3))
## 
##  Bartlett test of homogeneity of variances
## 
## data:  list(Algoritmo_1, Algoritmo_2, Algoritmo_3)
## Bartlett's K-squared = 0.0054073, df = 2, p-value = 0.9973

Tras realizar la prueba de la varianza, podemos comprobar que las varianzas son igulaes, ya que el p-valor tiene un valor muy por encima de 0.05, por lo que no existen evidencias estadísticas para rechazar la hipótesis nula.

Ahora conocemos que las muestras cumplen con los requisitos para poder aplicar el método Anova, por lo que podemos plantear las hipótesis: H0(hipótesis nula)= Todas las muestras tienen una media real identica, y las diferencias en las muestras son debidas al azar. H1(hipótesis alternativa)= No todas las muestras tienen una la misma media real, por lo que hay alguna muestra cuyas diferencias en los valores con el resto de muestras no son debidas al azar.

c) Ahora quieren calcular el valor del estadístico test y del p-valor de las muestras tomadas

  grupos=factor(rep(1:3, each=10))
  datos=c(Algoritmo_1,Algoritmo_2,Algoritmo_3)
  x<-aov(datos~grupos)
  
  summary(x)
##             Df Sum Sq Mean Sq F value Pr(>F)
## grupos       2   10.1   5.055    0.21  0.812
## Residuals   27  650.8  24.103

El valor del estadistico test, es el que está en la columna ‘F value’, que es 0.21; y el p-valor es el que está en la columna ‘Pr(>F)’, que es 0.812.

d) Con los datos anteriormente obtenidos, ¿que conclusiones han sobre las muestras?

Como se ha calculado en el apartado anterior, el p-valor vale 0.812, que es muy superior a 0.05, por lo que no hay evidencias estadisticas para rechazar la hipótesis nula previamente planteada, por lo que:

La media real de las 3 muestras es igual, por lo que todos las diferencias en los datos recogidos son debidos al azar; por lo que los 3 algoritmos son iguales en cuanto a eficiencia de tiempo, y da igual cual le manden al profesor

3 Regresion Lineal

La facultad de ingenieria quiere investigar si su nueva maquina de café tiene efectos negativos en los estudiantes durante la epoca de exámenes, por lo que le han vuelto a pedir al departamento de matemáticas que compruebe algunas estadísticas. Lo que se busca es determinar cómo el consumo de café (variable independiente) puede aumentar los niveles de ciertas hormonas durante los exámenes de estadística en concreto(variable dependiente).

Consumo de café: 1.4, 1.4, 1.3, 1.5, 1.4, 1.7, 1.4, 1.5, 1.4, 1.5, 1.5, 1.6, 1.4, 1.1, 1.2, 1.5, 1.3, 1.4, 1.7, 1.5, 1.7, 1.5, 1, 1.7, 1.9, 1.6, 1.6, 1.5, 1.4, 1.6, 1.6, 1.5, 1.5, 1.4, 1.5, 1.2, 1.3, 1.4, 1.3, 1.5, 1.3, 1.3, 1.3, 1.6, 1.9, 1.4, 1.6, 1.4, 1.5, 1.4, 4.7, 4.5, 4.9, 4, 4.6, 4.5, 4.7, 3.3, 4.6, 3.9, 3.5, 4.2, 4, 4.7, 3.6, 4.4, 4.5, 4.1, 4.5, 3.9, 4.8, 4, 4.9, 4.7, 4.3, 4.4, 4.8, 5, 4.5, 3.5, 3.8, 3.7, 3.9, 5.1, 4.5, 4.5, 4.7, 4.4, 4.1, 4, 4.4, 4.6, 4, 3.3, 4.2, 4.2, 4.2, 4.3, 3, 4.1, 6, 5.1, 5.9, 5.6, 5.8, 6.6, 4.5, 6.3, 5.8, 6.1, 5.1, 5.3, 5.5, 5, 5.1, 5.3, 5.5, 6.7, 6.9, 5, 5.7, 4.9, 6.7, 4.9, 5.7, 6, 4.8, 4.9, 5.6, 5.8, 6.1, 6.4, 5.6, 5.1, 5.6, 6.1, 5.6, 5.5, 4.8, 5.4, 5.6, 5.1, 5.1, 5.9, 5.7, 5.2, 5, 5.2, 5.4, 5.1

Niveles de hormonas: 0.2, 0.2, 0.2, 0.2, 0.2, 0.4, 0.3, 0.2, 0.2, 0.1, 0.2, 0.2, 0.1, 0.1, 0.2, 0.4, 0.4, 0.3, 0.3, 0.3, 0.2, 0.4, 0.2, 0.5, 0.2, 0.2, 0.4, 0.2, 0.2, 0.2, 0.2, 0.4, 0.1, 0.2, 0.2, 0.2, 0.2, 0.1, 0.2, 0.2, 0.3, 0.3, 0.2, 0.6, 0.4, 0.3, 0.2, 0.2, 0.2, 0.2, 1.4, 1.5, 1.5, 1.3, 1.5, 1.3, 1.6, 1, 1.3, 1.4, 1, 1.5, 1, 1.4, 1.3, 1.4, 1.5, 1, 1.5, 1.1, 1.8, 1.3, 1.5, 1.2, 1.3, 1.4, 1.4, 1.7, 1.5, 1, 1.1, 1, 1.2, 1.6, 1.5, 1.6, 1.5, 1.3, 1.3, 1.3, 1.2, 1.4, 1.2, 1, 1.3, 1.2, 1.3, 1.3, 1.1, 1.3, 2.5, 1.9, 2.1, 1.8, 2.2, 2.1, 1.7, 1.8, 1.8, 2.5, 2, 1.9, 2.1, 2, 2.4, 2.3, 1.8, 2.2, 2.3, 1.5, 2.3, 2, 2, 1.8, 2.1, 1.8, 1.8, 1.8, 2.1, 1.6, 1.9, 2, 2.2, 1.5, 1.4, 2.3, 2.4, 1.8, 1.8, 2.1, 2.4, 2.3, 1.9, 2.3, 2.5, 2.3, 1.9, 2, 2.3, 1.8

a) Se quiere hacer inferencia sobre los datos, ¿se puede?

Si se cumplen las hipotesis del modelo lineal entonces podremos hacer inferencia sobre los parámetros.

    x<-c(1.4, 1.4, 1.3, 1.5, 1.4, 1.7, 1.4, 1.5, 1.4, 1.5, 1.5, 1.6, 1.4, 1.1, 1.2, 1.5, 1.3, 1.4, 1.7, 1.5, 1.7, 1.5, 1, 1.7, 1.9, 1.6, 1.6, 1.5, 1.4, 1.6, 1.6, 1.5, 1.5, 1.4, 1.5, 1.2, 1.3, 1.4, 1.3, 1.5, 1.3, 1.3, 1.3, 1.6, 1.9, 1.4, 1.6, 1.4, 1.5, 1.4, 4.7, 4.5, 4.9, 4, 4.6, 4.5, 4.7, 3.3, 4.6, 3.9, 3.5, 4.2, 4, 4.7, 3.6, 4.4, 4.5, 4.1, 4.5, 3.9, 4.8, 4, 4.9, 4.7, 4.3, 4.4, 4.8, 5, 4.5, 3.5, 3.8, 3.7, 3.9, 5.1, 4.5, 4.5, 4.7, 4.4, 4.1, 4, 4.4, 4.6, 4, 3.3, 4.2, 4.2, 4.2, 4.3, 3, 4.1, 6, 5.1, 5.9, 5.6, 5.8, 6.6, 4.5, 6.3, 5.8, 6.1, 5.1, 5.3, 5.5, 5, 5.1, 5.3, 5.5, 6.7, 6.9, 5, 5.7, 4.9, 6.7, 4.9, 5.7, 6, 4.8, 4.9, 5.6, 5.8, 6.1, 6.4, 5.6, 5.1, 5.6, 6.1, 5.6, 5.5, 4.8, 5.4, 5.6, 5.1, 5.1, 5.9, 5.7, 5.2, 5, 5.2, 5.4, 5.1)

    y<-c(0.2, 0.2, 0.2, 0.2, 0.2, 0.4, 0.3, 0.2, 0.2, 0.1, 0.2, 0.2, 0.1, 0.1, 0.2, 0.4, 0.4, 0.3, 0.3, 0.3, 0.2, 0.4, 0.2, 0.5, 0.2, 0.2, 0.4, 0.2, 0.2, 0.2, 0.2, 0.4, 0.1, 0.2, 0.2, 0.2, 0.2, 0.1, 0.2, 0.2, 0.3, 0.3, 0.2, 0.6, 0.4, 0.3, 0.2, 0.2, 0.2, 0.2, 1.4, 1.5, 1.5, 1.3, 1.5, 1.3, 1.6, 1, 1.3, 1.4, 1, 1.5, 1, 1.4, 1.3, 1.4, 1.5, 1, 1.5, 1.1, 1.8, 1.3, 1.5, 1.2, 1.3, 1.4, 1.4, 1.7, 1.5, 1, 1.1, 1, 1.2, 1.6, 1.5, 1.6, 1.5, 1.3, 1.3, 1.3, 1.2, 1.4, 1.2, 1, 1.3, 1.2, 1.3, 1.3, 1.1, 1.3, 2.5, 1.9, 2.1, 1.8, 2.2, 2.1, 1.7, 1.8, 1.8, 2.5, 2, 1.9, 2.1, 2, 2.4, 2.3, 1.8, 2.2, 2.3, 1.5, 2.3, 2, 2, 1.8, 2.1, 1.8, 1.8, 1.8, 2.1, 1.6, 1.9, 2, 2.2, 1.5, 1.4, 2.3, 2.4, 1.8, 1.8, 2.1, 2.4, 2.3, 1.9, 2.3, 2.5, 2.3, 1.9, 2, 2.3, 1.8)
    plot(x,y)
    abline(lm(y~x))

Se puede observar que se cumple la linealidad (los residuos siguen una linea) y la homocedasticidad (los residuos no estan muy esparcidos en un sitio y poco en otro).

    residuos=summary(lm(y~x))$residual
    shapiro.test(residuos)
## 
##  Shapiro-Wilk normality test
## 
## data:  residuos
## W = 0.98378, p-value = 0.07504

Se puede observar que se cumple la normalidad (los residuos siguen una distribucion normal).

b) Ahora se supone que se cumplen las hipotesis del modelo lineal.¿Intervalo de confianza para la constante?¿Y para la pendiente?

  confint(lm(y~x))
##                  2.5 %     97.5 %
## (Intercept) -0.4416501 -0.2845010
## x            0.3968193  0.4346915

El Intervalo de confianza al 95% para la constante es de -0.4416501 a -0.2845010. Para la pendiente es de 0.3968193 a 0.4346915.

c) Valor de la pendiente de la recta.¿Hay evidencia estadística de que el modelo necesita pendiente?

  summary(lm(y~x))
## 
## Call:
## lm(formula = y ~ x)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.56515 -0.12358 -0.01898  0.13288  0.64272 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -0.363076   0.039762  -9.131  4.7e-16 ***
## x            0.415755   0.009582  43.387  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.2065 on 148 degrees of freedom
## Multiple R-squared:  0.9271, Adjusted R-squared:  0.9266 
## F-statistic:  1882 on 1 and 148 DF,  p-value: < 2.2e-16

Es 0.415755. Sí, como p-valor es < 2e-16 que es menor a 0.05, hay evidencia estadistica de que el modelo necesita pendiente.

d) Queremos obtener los valores de y correspondientes a x=4 y x=5

  predict(lm(y~x),data.frame(x=c(4,5)))
##        1        2 
## 1.299946 1.715702

Para 4 es 1.299946 y para 5 es 1.715702;