Capitulo 5 - Pregunta 1

Para estudiar la diferencia de estaturas medias, medidas en centimetros, de estudiantes varones en las facultades de Cadiz y Malaga, se toma una muestra aleatoria de 15 estudiantes en cada facultad, obteniendose los datos que se muestran en la figura. Obtenga el intervalo de confianza al 95% para la diferencia de estaturas medias entre ambos colectivos de estudiantes. Se supone que las estaturas siguen una distribucion normal. Coloque su codigo en R o el codigo de R - Comander

Cadiz : 182, 170, 175, 167, 171, 174, 181, 169, 174, 174, 170, 176, 168, 178, 180.

Malaga : 181, 173, 177, 170, 170, 175, 169, 169, 171, 173, 177, 182, 179, 165, 174.

Solucion

Importacion de datos

BD <- read.delim("C:/Users/Ness/Desktop/PUCP/Bussines Analytics 2021/SPBA-Statistics Programming for Business Analytics/Examen/Estaturas.txt")

BD
##    Cadiz Malaga
## 1    182    181
## 2    170    173
## 3    175    177
## 4    167    170
## 5    171    170
## 6    174    175
## 7    181    169
## 8    169    169
## 9    174    171
## 10   174    173
## 11   170    177
## 12   176    182
## 13   168    179
## 14   178    165
## 15   180    174

Calculamos el resumen de estadisticas de las muestras (Cadiz y Malaga), para conocer los valores de medias y desviacion estandar.

numSummary(BD[,c("Cadiz", "Malaga"), drop=FALSE], statistics=c("mean", "sd", "IQR", "quantiles"), quantiles=c(0,.25,.5,.75,1))
##            mean       sd IQR  0% 25% 50% 75% 100%  n
## Cadiz  173.9333 4.787882   7 167 170 174 177  182 15
## Malaga 173.6667 4.850135   7 165 170 173 177  182 15

Al revisar los datos, no existiria diferencia entre las estaturas medias (de las muestras), medidas en centimetros, de los estudiantes varones en las facultades de ciencias de Cadiz y Malaga.

Luego, apilaremos los datos para realizar la grafica de cajas ("boxplot") de las dos muestras.

StackedDataTotal <- stack(BD[, c("Cadiz","Malaga")])
names(StackedDataTotal) <- c("Estaturas", "Facultad")
boxplot(Estaturas~Facultad, data=StackedDataTotal, id=list(method="y"), col = 'gray')

Al visualizar la grafica notamos que, aparentemente no existiria diferencia entre las dos facultades.

Procedimiento general para las pruebas de hipotesis

1. Identificar el parametro de interes.

Para este caso, queremos comparar si existe diferencia entre la media, medida en centimetros, entre las facultades de ciencias de Cadiz y Malaga

Cadiz : media poblacional 1 (u1)

Malaga : media poblacional 2 (u2)

2. Establecer la hipotesis nula H0.

En el caso de comparar dos medias independientes la hipotesis nula (H0) considera que:

H0: u1 - u2 = 0

3. Especificar la hipotesis alternativa H1.

Se considera que el valor real de la media poblacional es mayor, menor o distinto del valor que establece la hipotesis nula. En el caso de comparar medias independientes la hipotesis alternativa (H1) considera que:

H1: u1 - u2 != 0 (dos colas)

H1: u1 - u2 > 0 (una cola, izquierda)

H1: u1 - u2 < 0 (una cola, derecha)

4. Elegir el nivel de significancia (alfa)

Para este caso, tenemos que: alfa = 0.05

5. Establecer un estadistico de la prueba apropiado.

Se desconoce las varianzas de las dos muestras, ademas las muestras son independientes. Para lo cual utilizaremos el test t para muestras independientes para comprobar si existe diferencia entre las medias.

6. Establecer la region de rechazo del estadistico.

La region de aceptacion sera 1 - alfa, para una distribucion de dos colas, inicialmente.

7. Calcular las cantidades muestrales necesarias, sustituirlas en la ecuacion del estadistico de prueba y calcular ese valor

S_Data1 <- stack(BD[, c("Cadiz","Malaga")])
names(S_Data1) <- c("variable", "factor")
t.test(variable~factor, alternative='two.sided', conf.level=.95, var.equal=FALSE, data=S_Data1)
## 
##  Welch Two Sample t-test
## 
## data:  variable by factor
## t = 0.15154, df = 27.995, p-value = 0.8806
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  -3.337921  3.871255
## sample estimates:
##  mean in group Cadiz mean in group Malaga 
##             173.9333             173.6667

8. Decidir si debera rechazarse o no H0 y contextualizar la decision en el problema.

Debido a que el p-value es mayor que el alfa (p-value > alfa), entonces decimos que: no tenemos evidencia suficiente para rechazar a la hipotesis nula.

Por lo tanto:

H0: u1 - u2 = 0

Por lo que no se encuentra diferencia significativa entre las medias poblacionales, medidas en centimetros, de las facultades de ciencias de Cadiz y Malaga.

Ademas, el valor estimado de la diferencia entre u1 - u2, se encuentra entre:

-3.337921 < u1 - u2 < 3.871255

Por lo que el valor de esa diferencia podria ser cero. Por lo que decimos que no se encuentra diferencia significativa.