Queremos saber si la media de notas de los alumnos de la UCLM en estadística es de aprobados, por lo que deberá ser mayor de 5, se toma una muestra aleatoria de 50 alumnos de segundo, los cuales tienen una nota media de 3.76 con una desviación típica poblacional de 2.
a)Plantear un contraste para saber si la media es menor de 5 y calcular el estadistico test. Como tenemos que comprobar si la media es menor, tenemos que es unilateral, por lo que el contraste sería: H0:μ ≤ 5 H1:μ > 5
Para calcular el estadístico test, como es un test unilateral, tendremos que usar la fórmula de zs
x=3.76
μ0=5
σ=2
n=50
zs=(x-μ0)/(σ/sqrt(n))
zs
## [1] -4.384062
b)Calcular el pvalor y decir la conclusión de la hipótesis con una confianza del 90% Para calcular el pvalor, tendremos que tener en cuenta que es un análisis unilateral, por lo que se calcula de la siguiente forma: p_valor=p(x>zs)
1-pnorm(zs)
## [1] 0.9999942
Como tenemos que el pvalor>alpha no rechazamos H0 y podemos decir que existe evidencia estadística a favor de H0
c)Como hemos obtenido notas muy bajas, vamos a elegir a 50 alumnos al azar de otra universidad para comparar. Primero comprueba si la nota media es mayor de 5, teniendo la otra universidad media de 3.42 y una desviación típica poblacional de 3 con una seguridad del 90%.
Como tenemos que comprobar si la media es menor que 5, necesitaremos un análisis unilateral de la siguiente manera: H0:μ ≥ 5 H1:μ < 5 Y usaremos otra vez la fórmula del zs:
x=3.42
μ0=5
σ=3
n=50
zs=(x-μ0)/(σ/sqrt(n))
zs
## [1] -3.724096
p_valor=p(x<zs)
pnorm(zs)
## [1] 9.800828e-05
Como el pvalor es muy pequeño, mucho más pequeño que alpha=0.1, podemos rechazar H0, ya que hay evidencia estadística en su contra, por lo que la media será menor que 5.
d)Comprobar si las medias son iguales al 85% de seguridad. Ahora necesitaremos un análisis bilateral para comprobar si ambas medias son iguales, por lo que el contraste será: H0:μ1 = μ2 H1:μ1 ≠ μ2
μ1=3.76
σ1=2
n=50
μ2=3.42
σ2=3
alpha=0.15
zs=(μ1-μ2)/sqrt((σ1^2/n)+(σ2^2/n))
zs
## [1] 0.6667949
pvalor=2*(1-pnorm(abs(zs)))
pvalor
## [1] 0.5049032
Como pvalor>alpha no tenemos motivos para rechazar H0, por lo que podemos decir que las medias son iguales con un 85% de seguridad
Mi vecino Facundo lleva siendo pastor de ovejas toda su vida, pero ahora le ha ocurrido un problema. Resulta que cree que sus ovejas, que son merinas, le han estado proporcionando menos lana de la que deberían. Calcula, usando el test de los signos, si la mediana de lana que dan es menor que 3.4 kilos con un nivel de significación de 0.05. Tomando como medida los kilos por mes, estos son el conjunto de datos: Merinas: (2.9, 3.6, 2.4, 2.89, 4.01, 3.5, 3.34, 3.75, 2.97, 3.4, 3.5)
a)Explica por qué es mejor utilizar en este caso un test no paramétrico y calcula el estadístico test.
En este caso es mejor usar un test no paramétrico, ya que el tamaño de la muestra es pequeño, es decir, n =11 < 30 y no conocemos el tipo de distribución que tienen los datos, podría no seguir una normal. Además, se pide probar hipótesis sobre la mediana, por lo que el test de signos sería la mejor opción.
n = 11 α = 0.05 H0: M1 – M2 ≥ 0 Siendo M1 = 3.4 y M2 la mediana de los datos H1: M1 – M2 < 0
El primer paso es colocar un signo dependiendo de si la comparación entre ambas es positiva o negativa
tab1<-c (3.4,3.4,3.4,3.4,3.4,3.4,3.4,3.4,3.4,3.4,3.4)
tab2<-c(2.9,3.6,2.4,2.89,4.01,3.5,3.34,3.75,2.97,3.4,3.5)
res<-c('+','-','+','+','-','-','+','-','+','=','-')
matriz <-rbind(tab1,tab2,res)
matriz
## [,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [,9] [,10] [,11]
## tab1 "3.4" "3.4" "3.4" "3.4" "3.4" "3.4" "3.4" "3.4" "3.4" "3.4" "3.4"
## tab2 "2.9" "3.6" "2.4" "2.89" "4.01" "3.5" "3.34" "3.75" "2.97" "3.4" "3.5"
## res "+" "-" "+" "+" "-" "-" "+" "-" "+" "=" "-"
Ahora cogemos y sumamos los positivos y negativos
N+ = 5 N- = 5
El valor del estadístico test Bs = max{ N+, N- } = 5
Mirando en la tabla de valores críticos del estadístico de los signos, Bα con n=10 (porque uno es igual) y α = 0.05 es 9. Por lo tanto, no se rechaza la hipótesis nula H0 porque Bs NO ES ≥ Bα
Yéndonos a R un momento, calculamos la mediana de mis datos, usando median(x), obteniendo 3.4, por lo tanto, sí, se cumple la direccionalidad.
El p-valor se calcula formando una binomial con el número de datos y Bs, quedando así X~Bi(10, 0.5)
El p-valor será P(X≥5) = 1 – P(X≤5) = 1 – pbinom(5,10,0.5)
1 - pbinom(5,10,0.5)
## [1] 0.3769531
c)Facundo tiene más ovejas, esta vez churras, y ha decidido compararlas con las otras para ver si ellas dan más lana. Suponiendo los siguientes datos, calcular el valor del estadístico test utilizando el test de wilcoxon. Churras: (4.4, 3.8, 3.2, 2.97, 3.7, 4.21, 3.9, 2.7, 3.71, 3.89, 4.12, 3.4)
H0: M1 – M2 ≥ 0 H1: M1 – M2 < 0 Siendo M1 la mediana de las churras y M2 la mediana de las merinas
El primer paso del test de wilcoxon es ordenar los datos: En este caso hemos ordenado primero las churras y luego las merinas
churras<-c('',2.7,'','',2.97,3.2,'',3.4,'','',3.7,3.71,'',3.8,3.89,3.9,'',4.12,4.21,4.4)
merinas<-c(2.4,'',2.89,2.9,2.97,'',3.34,3.4,'3.5 3.5',3.6,'','',3.75,'','','',4.01,'','','')
matriz2<-rbind(churras,merinas)
matriz2
## [,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [,9] [,10]
## churras "" "2.7" "" "" "2.97" "3.2" "" "3.4" "" ""
## merinas "2.4" "" "2.89" "2.9" "2.97" "" "3.34" "3.4" "3.5 3.5" "3.6"
## [,11] [,12] [,13] [,14] [,15] [,16] [,17] [,18] [,19] [,20]
## churras "3.7" "3.71" "" "3.8" "3.89" "3.9" "" "4.12" "4.21" "4.4"
## merinas "" "" "3.75" "" "" "" "4.01" "" "" ""
Ahora, el segundo paso es calcular los rangos:
rango_churras<-c('',1,'','',3.5,4,'',5.5,'','',9,9,'',10,10,10,'',11,11,11)
rango_merinas<-c(0,'',1,1,1.5,'',3,3.5,'4 4',4,'','',6,'','','',9,'','','')
matriz3<-rbind(rango_churras,rango_merinas)
matriz3
## [,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [,9] [,10] [,11] [,12]
## rango_churras "" "1" "" "" "3.5" "4" "" "5.5" "" "" "9" "9"
## rango_merinas "0" "" "1" "1" "1.5" "" "3" "3.5" "4 4" "4" "" ""
## [,13] [,14] [,15] [,16] [,17] [,18] [,19] [,20]
## rango_churras "" "10" "10" "10" "" "11" "11" "11"
## rango_merinas "6" "" "" "" "9" "" "" ""
El tercer paso es calcular k1 y k2: Siendo k1 la suma de los rangos del primer conjunto de datos y k2 la suma de los rangos del segundo. K1 = 95 y k2 = 37
El cuarto paso es calcular Us, que es el estadístico test y se define como Us = max {k1 , k2}
k1=95;k2=37
max(k1,k2)
## [1] 95
Para calcular Uα/2 debemos poner el R el siguiente comando: Qwilcox (1 – 0.05/2, 12, 11) siendo 12 el número de muestras del primer conjunto y 11 el segundo.
qwilcox (1 - 0.05/2, 12, 11)
## [1] 98
El resultado de dicho comando es 98, por lo tanto, Uα/2 = 98
Hay dos formas de discutir la hipótesis, una es comparando el p-valor con α y otra es comparando el valor del estadístico test y el umbral. Usaremos la segunda, y debido a esto podemos decir que: Como Us < Uα/2 , NO RECHAZAMOS la hipótesis nula, por lo tanto, es cierto, las ovejas churras dan más lana que las merinas.
Mirar la direccionalidad es tan simple como mirar k1 y ver que es mayor que k2, y por lo tanto, el primer conjunto de datos es mayor que el segundo y así se cumpliría la direccionalidad.
En este caso, el test de wilcoxon es mejor porque estamos comparando las medianas de dos poblaciones independientes, y es que son independientes porque no hay que mezclar churras con merinas.
Podemos comprobar el resultado metiendo los datos a R y utilizando la línea de comando Wilcox.test (A,B), siendo A el conjunto de datos 1 y B el conjunto de datos 2, y así nos dará el valor de Us así como del p-valor.
merinas=c(2.9,3.6,2.4,2.89,4.01,3.5,3.34,3.75,2.97,3.4,3.5)
churras=c(4.4,3.8,3.2,2.97,3.7,4.21,3.9,2.7,3.71,3.89,4.12,3.4)
wilcox.test(churras,merinas)
## Warning in wilcox.test.default(churras, merinas): cannot compute exact p-value
## with ties
##
## Wilcoxon rank sum test with continuity correction
##
## data: churras and merinas
## W = 95, p-value = 0.0792
## alternative hypothesis: true location shift is not equal to 0
Metacritic es un sitio web donde entre otras cosas recopila reseñas de videojuegos, obteniendo así una nota para cada uno. Se eligen dos desarrolladoras de videojuegos influentes en la industria, Nintendo y Sony. Se han recopilado las notas de 10 juegos de cada empresa.
notas_nintendo <- c(91, 53, 81, 85, 79, 94, 70, 80, 83, 86)
notas_sony <- c(87 ,97, 94, 72, 55, 97, 95 ,72, 55, 90)
notas<-rbind(notas_nintendo,notas_sony)
notas
## [,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [,9] [,10]
## notas_nintendo 91 53 81 85 79 94 70 80 83 86
## notas_sony 87 97 94 72 55 97 95 72 55 90
shapiro.test(notas_nintendo)
##
## Shapiro-Wilk normality test
##
## data: notas_nintendo
## W = 0.87418, p-value = 0.1118
shapiro.test(notas_sony)
##
## Shapiro-Wilk normality test
##
## data: notas_sony
## W = 0.83197, p-value = 0.03534
Encontramos que las notas de Sony son menores a 0.05. Como p-valor es menor que el nivel de significancia, se rechaza la hipótesis nula y se concluye que los datos no siguen una distribución normal.
En cambio, la de Nintendo sí sigue la normalidad.
boxplot(notas_nintendo,notas_sony)
A simple vista se puede apreciar que las varianzas son diferentes.
3¿Existe diferencias significativas entre las notas de las dos compañías? Con alpha=0.05
datos = c(91, 53, 81, 85, 79, 94, 70, 80, 83, 86, 87 ,97, 94, 72, 55, 97, 95 ,72, 55, 90)
grupos=factor(rep(1:2, rep(10,2)))
summary(aov(datos ~ grupos))
## Df Sum Sq Mean Sq F value Pr(>F)
## grupos 1 7 7.2 0.035 0.854
## Residuals 18 3724 206.9
El p-valor es mayor que 0.05 por lo que no se rechaza H0 y no existe evidencia estadística de que las medias sean distintas
datos = c(91, 53, 81, 85, 79, 94, 70, 80, 83, 86, 87 ,97, 94, 72, 55, 97, 95 ,72, 55, 90)
empresa=factor(rep(c('nintendo','sony'),10))
summary(aov(datos~empresa))
## Df Sum Sq Mean Sq F value Pr(>F)
## empresa 1 65 64.8 0.318 0.58
## Residuals 18 3666 203.7
Por lo que hay evidencia estadistica a favor de que la empresa influye en la nota de los videojuegos.