Para estudiar la diferencia de estaturas medias, medidas en centimetros, de estudiantes varones en las facultades de Cadiz y Malaga, se toma una muestra aleatoria de 15 estudiantes en cada facultad, obteniendose los datos que se muestran en la figura. Obtenga el intervalo de confianza al 95% para la diferencia de estaturas medias entre ambos colectivos de estudiantes. Se supone que las estaturas siguen una distribucion normal. Coloque su codigo en R o el codigo de R - Comander
Cadiz : 182, 170, 175, 167, 171, 174, 181, 169, 174, 174, 170, 176, 168, 178, 180.
Malaga : 181, 173, 177, 170, 170, 175, 169, 169, 171, 173, 177, 182, 179, 165, 174.
Solucion
Importacion de datos
BD <- read.delim("C:/Users/Ness/Desktop/PUCP/Bussines Analytics 2021/SPBA-Statistics Programming for Business Analytics/Examen/Estaturas.txt")
BD
## Cadiz Malaga
## 1 182 181
## 2 170 173
## 3 175 177
## 4 167 170
## 5 171 170
## 6 174 175
## 7 181 169
## 8 169 169
## 9 174 171
## 10 174 173
## 11 170 177
## 12 176 182
## 13 168 179
## 14 178 165
## 15 180 174
Calculamos el resumen de estadisticas de las muestras (Cadiz y Malaga), para conocer los valores de medias y desviacion estandar.
numSummary(BD[,c("Cadiz", "Malaga"), drop=FALSE], statistics=c("mean", "sd", "IQR", "quantiles"), quantiles=c(0,.25,.5,.75,1))
## mean sd IQR 0% 25% 50% 75% 100% n
## Cadiz 173.9333 4.787882 7 167 170 174 177 182 15
## Malaga 173.6667 4.850135 7 165 170 173 177 182 15
Al revisar los datos, no existiria diferencia entre las estaturas medias (de las muestras), medidas en centimetros, de los estudiantes varones en las facultades de ciencias de Cadiz y Malaga.
Luego, apilaremos los datos para realizar la grafica de cajas ("boxplot") de las dos muestras.
StackedDataTotal <- stack(BD[, c("Cadiz","Malaga")])
names(StackedDataTotal) <- c("Estaturas", "Facultad")
boxplot(Estaturas~Facultad, data=StackedDataTotal, id=list(method="y"), col = 'gray')
Al visualizar la grafica notamos que, aparentemente no existiria diferencia entre las dos facultades.
Procedimiento general para las pruebas de hipotesis
1. Identificar el parametro de interes.
Para este caso, queremos comparar si existe diferencia entre la media, medida en centimetros, entre las facultades de ciencias de Cadiz y Malaga
Cadiz : media poblacional 1 (u1)
Malaga : media poblacional 2 (u2)
2. Establecer la hipotesis nula H0.
En el caso de comparar dos medias independientes la hipotesis nula (H0) considera que:
H0: u1 - u2 = 0
3. Especificar la hipotesis alternativa H1.
Se considera que el valor real de la media poblacional es mayor, menor o distinto del valor que establece la hipotesis nula. En el caso de comparar medias independientes la hipotesis alternativa (H1) considera que:
H1: u1 - u2 != 0 (dos colas)
H1: u1 - u2 > 0 (una cola, izquierda)
H1: u1 - u2 < 0 (una cola, derecha)
4. Elegir el nivel de significancia (alfa)
Para este caso, tenemos que: alfa = 0.05
5. Establecer un estadistico de la prueba apropiado.
Se desconoce las varianzas de las dos muestras, ademas las muestras son independientes. Para lo cual utilizaremos el test t para muestras independientes para comprobar si existe diferencia entre las medias.
6. Establecer la region de rechazo del estadistico.
La region de aceptacion sera 1 - alfa, para una distribucion de dos colas, inicialmente.
7. Calcular las cantidades muestrales necesarias, sustituirlas en la ecuacion del estadistico de prueba y calcular ese valor
S_Data1 <- stack(BD[, c("Cadiz","Malaga")])
names(S_Data1) <- c("variable", "factor")
t.test(variable~factor, alternative='two.sided', conf.level=.95, var.equal=FALSE, data=S_Data1)
##
## Welch Two Sample t-test
##
## data: variable by factor
## t = 0.15154, df = 27.995, p-value = 0.8806
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## -3.337921 3.871255
## sample estimates:
## mean in group Cadiz mean in group Malaga
## 173.9333 173.6667
8. Decidir si debera rechazarse o no H0 y contextualizar la decision en el problema.
Debido a que el p-value es mayor que el alfa (p-value > alfa), entonces decimos que: no tenemos evidencia suficiente para rechazar a la hipotesis nula.
Por lo tanto:
H0: u1 - u2 = 0
Por lo que no se encuentra diferencia significativa entre las medias poblacionales, medidas en centimetros, de las facultades de ciencias de Cadiz y Malaga.
Ademas, el valor estimado de la diferencia entre u1 - u2, se encuentra entre:
-3.337921 < u1 - u2 < 3.871255
Por lo que el valor de esa diferencia podria ser cero. Por lo que decimos que no se encuentra diferencia significativa.