Contraste de hipotesis parametrico

Queremos saber si la media de notas de los alumnos de la UCLM en estadística es de aprobados, por lo que deberá ser mayor de 5, se toma una muestra aleatoria de 50 alumnos de segundo, los cuales tienen una nota media de 3.76 con una desviación típica poblacional de 2.

a)Plantear un contraste para saber si la media es menor de 5 y calcular el estadistico test. Como tenemos que comprobar si la media es menor, tenemos que es unilateral, por lo que el contraste sería: H0:μ ≤ 5 H1:μ > 5

Para calcular el estadístico test, como es un test unilateral, tendremos que usar la fórmula de zs

x=3.76
μ0=5
σ=2
n=50
zs=(x-μ0)/(σ/sqrt(n))
zs
## [1] -4.384062

b)Calcular el pvalor y decir la conclusión de la hipótesis con una confianza del 90% Para calcular el pvalor, tendremos que tener en cuenta que es un análisis unilateral, por lo que se calcula de la siguiente forma: p_valor=p(x>zs)

1-pnorm(zs)
## [1] 0.9999942

Como tenemos que el pvalor>alpha no rechazamos H0 y podemos decir que existe evidencia estadística a favor de H0

c)Como hemos obtenido notas muy bajas, vamos a elegir a 50 alumnos al azar de otra universidad para comparar. Primero comprueba si la nota media es mayor de 5, teniendo la otra universidad media de 3.42 y una desviación típica poblacional de 3 con una seguridad del 90%.

Como tenemos que comprobar si la media es menor que 5, necesitaremos un análisis unilateral de la siguiente manera: H0:μ ≥ 5 H1:μ < 5 Y usaremos otra vez la fórmula del zs:

x=3.42
μ0=5
σ=3
n=50
zs=(x-μ0)/(σ/sqrt(n))
zs
## [1] -3.724096

p_valor=p(x<zs)

pnorm(zs)
## [1] 9.800828e-05

Como el pvalor es muy pequeño, mucho más pequeño que alpha=0.1, podemos rechazar H0, ya que hay evidencia estadística en su contra, por lo que la media será menor que 5.

d)Comprobar si las medias son iguales al 85% de seguridad. Ahora necesitaremos un análisis bilateral para comprobar si ambas medias son iguales, por lo que el contraste será: H0:μ1 = μ2 H1:μ1 ≠ μ2

μ1=3.76
σ1=2
n=50
μ2=3.42
σ2=3
alpha=0.15
zs=(μ1-μ2)/sqrt((σ1^2/n)+(σ2^2/n))
zs
## [1] 0.6667949
pvalor=2*(1-pnorm(abs(zs)))
pvalor
## [1] 0.5049032

Como pvalor>alpha no tenemos motivos para rechazar H0, por lo que podemos decir que las medias son iguales con un 85% de seguridad

Contraste de hipotesis no parametrico

Mi vecino Facundo lleva siendo pastor de ovejas toda su vida, pero ahora le ha ocurrido un problema. Resulta que cree que sus ovejas, que son merinas, le han estado proporcionando menos lana de la que deberían. Calcula, usando el test de los signos, si la mediana de lana que dan es menor que 3.4 kilos con un nivel de significación de 0.05. Tomando como medida los kilos por mes, estos son el conjunto de datos: Merinas: (2.9, 3.6, 2.4, 2.89, 4.01, 3.5, 3.34, 3.75, 2.97, 3.4, 3.5)

a)Explica por qué es mejor utilizar en este caso un test no paramétrico y calcula el estadístico test.

En este caso es mejor usar un test no paramétrico, ya que el tamaño de la muestra es pequeño, es decir, n =11 < 30 y no conocemos el tipo de distribución que tienen los datos, podría no seguir una normal. Además, se pide probar hipótesis sobre la mediana, por lo que el test de signos sería la mejor opción.

n = 11 α = 0.05 H0: M1 – M2 ≥ 0 Siendo M1 = 3.4 y M2 la mediana de los datos H1: M1 – M2 < 0

El primer paso es colocar un signo dependiendo de si la comparación entre ambas es positiva o negativa

tab1<-c (3.4,3.4,3.4,3.4,3.4,3.4,3.4,3.4,3.4,3.4,3.4) 
tab2<-c(2.9,3.6,2.4,2.89,4.01,3.5,3.34,3.75,2.97,3.4,3.5)
res<-c('+','-','+','+','-','-','+','-','+','=','-')
matriz <-rbind(tab1,tab2,res)
matriz
##      [,1]  [,2]  [,3]  [,4]   [,5]   [,6]  [,7]   [,8]   [,9]   [,10] [,11]
## tab1 "3.4" "3.4" "3.4" "3.4"  "3.4"  "3.4" "3.4"  "3.4"  "3.4"  "3.4" "3.4"
## tab2 "2.9" "3.6" "2.4" "2.89" "4.01" "3.5" "3.34" "3.75" "2.97" "3.4" "3.5"
## res  "+"   "-"   "+"   "+"    "-"    "-"   "+"    "-"    "+"    "="   "-"

Ahora cogemos y sumamos los positivos y negativos

N+ = 5 N- = 5

El valor del estadístico test Bs = max{ N+, N- } = 5

  1. Calcula el p-valor, prueba la hipótesis nula y comprueba la direccionalidad

Mirando en la tabla de valores críticos del estadístico de los signos, Bα con n=10 (porque uno es igual) y α = 0.05 es 9. Por lo tanto, no se rechaza la hipótesis nula H0 porque Bs NO ES ≥ Bα

Yéndonos a R un momento, calculamos la mediana de mis datos, usando median(x), obteniendo 3.4, por lo tanto, sí, se cumple la direccionalidad.

El p-valor se calcula formando una binomial con el número de datos y Bs, quedando así X~Bi(10, 0.5)

El p-valor será P(X≥5) = 1 – P(X≤5) = 1 – pbinom(5,10,0.5)

1 - pbinom(5,10,0.5)
## [1] 0.3769531

c)Facundo tiene más ovejas, esta vez churras, y ha decidido compararlas con las otras para ver si ellas dan más lana. Suponiendo los siguientes datos, calcular el valor del estadístico test utilizando el test de wilcoxon. Churras: (4.4, 3.8, 3.2, 2.97, 3.7, 4.21, 3.9, 2.7, 3.71, 3.89, 4.12, 3.4)

H0: M1 – M2 ≥ 0 H1: M1 – M2 < 0 Siendo M1 la mediana de las churras y M2 la mediana de las merinas

El primer paso del test de wilcoxon es ordenar los datos: En este caso hemos ordenado primero las churras y luego las merinas

churras<-c('',2.7,'','',2.97,3.2,'',3.4,'','',3.7,3.71,'',3.8,3.89,3.9,'',4.12,4.21,4.4)
merinas<-c(2.4,'',2.89,2.9,2.97,'',3.34,3.4,'3.5 3.5',3.6,'','',3.75,'','','',4.01,'','','')
matriz2<-rbind(churras,merinas)
matriz2
##         [,1]  [,2]  [,3]   [,4]  [,5]   [,6]  [,7]   [,8]  [,9]      [,10]
## churras ""    "2.7" ""     ""    "2.97" "3.2" ""     "3.4" ""        ""   
## merinas "2.4" ""    "2.89" "2.9" "2.97" ""    "3.34" "3.4" "3.5 3.5" "3.6"
##         [,11] [,12]  [,13]  [,14] [,15]  [,16] [,17]  [,18]  [,19]  [,20]
## churras "3.7" "3.71" ""     "3.8" "3.89" "3.9" ""     "4.12" "4.21" "4.4"
## merinas ""    ""     "3.75" ""    ""     ""    "4.01" ""     ""     ""

Ahora, el segundo paso es calcular los rangos:

rango_churras<-c('',1,'','',3.5,4,'',5.5,'','',9,9,'',10,10,10,'',11,11,11)
rango_merinas<-c(0,'',1,1,1.5,'',3,3.5,'4 4',4,'','',6,'','','',9,'','','')
matriz3<-rbind(rango_churras,rango_merinas)
matriz3
##               [,1] [,2] [,3] [,4] [,5]  [,6] [,7] [,8]  [,9]  [,10] [,11] [,12]
## rango_churras ""   "1"  ""   ""   "3.5" "4"  ""   "5.5" ""    ""    "9"   "9"  
## rango_merinas "0"  ""   "1"  "1"  "1.5" ""   "3"  "3.5" "4 4" "4"   ""    ""   
##               [,13] [,14] [,15] [,16] [,17] [,18] [,19] [,20]
## rango_churras ""    "10"  "10"  "10"  ""    "11"  "11"  "11" 
## rango_merinas "6"   ""    ""    ""    "9"   ""    ""    ""

El tercer paso es calcular k1 y k2: Siendo k1 la suma de los rangos del primer conjunto de datos y k2 la suma de los rangos del segundo. K1 = 95 y k2 = 37

El cuarto paso es calcular Us, que es el estadístico test y se define como Us = max {k1 , k2}

k1=95;k2=37
max(k1,k2)
## [1] 95
  1. Calcula el valor del umbral, discute la hipótesis y comenta la direccionalidad. Razona por qué era mejor el test de wilcoxon para este problema.

Para calcular Uα/2 debemos poner el R el siguiente comando: Qwilcox (1 – 0.05/2, 12, 11) siendo 12 el número de muestras del primer conjunto y 11 el segundo.

qwilcox (1 - 0.05/2, 12, 11)
## [1] 98

El resultado de dicho comando es 98, por lo tanto, Uα/2 = 98

Hay dos formas de discutir la hipótesis, una es comparando el p-valor con α y otra es comparando el valor del estadístico test y el umbral. Usaremos la segunda, y debido a esto podemos decir que: Como Us < Uα/2 , NO RECHAZAMOS la hipótesis nula, por lo tanto, es cierto, las ovejas churras dan más lana que las merinas.

Mirar la direccionalidad es tan simple como mirar k1 y ver que es mayor que k2, y por lo tanto, el primer conjunto de datos es mayor que el segundo y así se cumpliría la direccionalidad.

En este caso, el test de wilcoxon es mejor porque estamos comparando las medianas de dos poblaciones independientes, y es que son independientes porque no hay que mezclar churras con merinas.

Podemos comprobar el resultado metiendo los datos a R y utilizando la línea de comando Wilcox.test (A,B), siendo A el conjunto de datos 1 y B el conjunto de datos 2, y así nos dará el valor de Us así como del p-valor.

merinas=c(2.9,3.6,2.4,2.89,4.01,3.5,3.34,3.75,2.97,3.4,3.5)
churras=c(4.4,3.8,3.2,2.97,3.7,4.21,3.9,2.7,3.71,3.89,4.12,3.4)
wilcox.test(churras,merinas)
## Warning in wilcox.test.default(churras, merinas): cannot compute exact p-value
## with ties
## 
##  Wilcoxon rank sum test with continuity correction
## 
## data:  churras and merinas
## W = 95, p-value = 0.0792
## alternative hypothesis: true location shift is not equal to 0

ANOVA

Metacritic es un sitio web donde entre otras cosas recopila reseñas de videojuegos, obteniendo así una nota para cada uno. Se eligen dos desarrolladoras de videojuegos influentes en la industria, Nintendo y Sony. Se han recopilado las notas de 10 juegos de cada empresa.

notas_nintendo <- c(91, 53, 81, 85, 79, 94, 70, 80, 83, 86)
notas_sony <- c(87 ,97, 94, 72, 55, 97, 95 ,72, 55, 90)
notas<-rbind(notas_nintendo,notas_sony)
notas
##                [,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [,9] [,10]
## notas_nintendo   91   53   81   85   79   94   70   80   83    86
## notas_sony       87   97   94   72   55   97   95   72   55    90
  1. Estudiar la normalidad de las muestras
shapiro.test(notas_nintendo)
## 
##  Shapiro-Wilk normality test
## 
## data:  notas_nintendo
## W = 0.87418, p-value = 0.1118
shapiro.test(notas_sony)
## 
##  Shapiro-Wilk normality test
## 
## data:  notas_sony
## W = 0.83197, p-value = 0.03534

Encontramos que las notas de Sony son menores a 0.05. Como p-valor es menor que el nivel de significancia, se rechaza la hipótesis nula y se concluye que los datos no siguen una distribución normal.

En cambio, la de Nintendo sí sigue la normalidad.

  1. Hacer un diagrama de cajas para ver como son las varianzas
boxplot(notas_nintendo,notas_sony)

A simple vista se puede apreciar que las varianzas son diferentes.

3¿Existe diferencias significativas entre las notas de las dos compañías? Con alpha=0.05

datos = c(91, 53, 81, 85, 79, 94, 70, 80, 83, 86, 87 ,97, 94, 72, 55, 97, 95 ,72, 55, 90)
grupos=factor(rep(1:2, rep(10,2)))
summary(aov(datos ~ grupos))
##             Df Sum Sq Mean Sq F value Pr(>F)
## grupos       1      7     7.2   0.035  0.854
## Residuals   18   3724   206.9

El p-valor es mayor que 0.05 por lo que no se rechaza H0 y no existe evidencia estadística de que las medias sean distintas

  1. Comprueba si la empresa influye en la nota de los juegos
datos = c(91, 53, 81, 85, 79, 94, 70, 80, 83, 86, 87 ,97, 94, 72, 55, 97, 95 ,72, 55, 90)
empresa=factor(rep(c('nintendo','sony'),10))
summary(aov(datos~empresa))
##             Df Sum Sq Mean Sq F value Pr(>F)
## empresa      1     65    64.8   0.318   0.58
## Residuals   18   3666   203.7

Por lo que hay evidencia estadistica a favor de que la empresa influye en la nota de los videojuegos.