Ejercicio 1

Dos fabricantes de relojes de cuarzo (Romex y Tiddot) fueron sometidos a pruebas de durabilidad. A continuación, se indica el número de días de durabilidad (hasta que deje de funcionar) de una muestra de tamaño 5 de ambas marcas:

data_ejercicio1 = tibble(Romex = c(101.4, 91.3, 108.0, 104.8, 102.2), 
                         Tiddot = c(118.7, 102.5, 99.4, 129.1, 110.1))
data_ejercicio1
  1. Calcular la media y la varianza de la muestra de los relojes Romex y Tiddot a partir de las muestras dadas.
medias = colMeans(data_ejercicio1)
varianzas = col_var(data_ejercicio1)
desviaciones = sqrt(varianzas)

Las medias calculadas corresponden a 101.54 días para los fabricantes de Romex y 111.96 días para los relojes de Tiddot, por lo que pareciera ser que los relojes de Tiddot tienen una mayor durabilidad que los relojes de Romex.

Mientras que al analizar la varianza vemos que la medida de dispersión para los relojes Romex nos da 39.418 para los relojes de Romex y 147.478 para Tiddot, indicando que las observaciones de Romex se acercan más a su promedio que los relojes Tiddot. Esto pudiera apoyar un argumento de confiar más en el promedio de durabilidad de relojes Romex que en el promedio de la opción Tiddot.

  1. Sea \(\mu_x\) la durabilidad media de la población de los relojes Romex y que \(\mu_y\) la durabilidad media de la población de los relojes Tiddot. Pruebe la hipótesis de que \(\mu_x = \mu_y\) contra la alternativa de que \(\mu_x \neq \mu_y\) con un nivel de significación del 5%. Se puede suponer que ambas muestras provienen de poblaciones que tienen varianzas iguales. Indique cualquier suposición realizada y dé el valor p aproximado de la prueba.

En este ejercicio queremos estudiar si el promedio de durabilidad en relojes Romex es igual al promedio de Tiddot. En caso de encontrar una diferencia entre los promedios, se pudiera estudiar para reconocer cual tiene los relojes con mayor durabilidad.

var = var_comun(varianzas["Romex"], 5, varianzas["Tiddot"], 5) 
t_stat = t_var_iguales(medias["Romex"], 5, medias["Tiddot"], 5, var) 
gl = gl_2mean_igualvar(var, 5, 5)
pvalue = 2*pt(1.7043, 8, lower.tail = F)

\[H_0:\mu_1 = \mu_2\] \[H_1:\mu_1 \neq \mu_2\]

test = t.test(data_ejercicio1["Romex"], data_ejercicio1["Tiddot"], var.equal = TRUE)
print(test)
## 
##  Two Sample t-test
## 
## data:  data_ejercicio1["Romex"] and data_ejercicio1["Tiddot"]
## t = -1.7043, df = 8, p-value = 0.1267
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  -24.518571   3.678571
## sample estimates:
## mean of x mean of y 
##    101.54    111.96

Una prueba de diferencia de medias nos arroja un p-value de 0.13 , valor superior al nivel de significancia de 0.05, por lo que no tenemos evidencia para rechazar la hipótesis nula, ninguno de los relojeros presenta productos con mayor durabilidad que el otro.

Ejercicio 2

Se encontró que las notas de una muestra aleatoria de estudiantes de economía eran las siguientes: 20, 34, 79, 94, 41, 42, 50. El departamento de economía desea saber si la media de todos los resultados de los exámentes fue significativamente más alta que la nota de aprobación de 40. Realice una prueba de hipótesis adecuada a un nivel de significación del 5%. Tras la introducción de un servicio de apoyo a los estudiantes, se tomó una segunda muestra aleatoria de siete estudiantes diferentes, se tomó una segunda muestra aleatoria de siete estudiantes diferentes, con los siguientes resultados: 19, 20, 34, 94, 99, 81, 41. A un nivel de significación del 5% se prueba la hipótesis:

\[H_0:\mu_X = \mu_Y\]

\[H_1:\mu_X \neq \mu_Y\]

Donde \(\mu_X\) y \(\mu_Y\) son los resultados promedios de los estudiantes sin y con el servicio de apoyo a los estudiantes, respectivamente, suponiendo que las dos poblaciones de estudiantes tienen variaciones iguales. Indique cualquier otra suposición que haya hecho.

data_ejercicio2 = tibble(clase1 = c(20, 34, 79, 94, 41, 42, 50), 
                         clase2 = c(19, 20, 34, 94, 99, 81, 41))
data_ejercicio2

Primero queremos saber si el promedio de las notas de los estudiantes es mayor que 40.

test = t.test(data_ejercicio2["clase1"], mu = 40, alternative = "greater")
print(test)
## 
##  One Sample t-test
## 
## data:  data_ejercicio2["clase1"]
## t = 1.1619, df = 6, p-value = 0.1447
## alternative hypothesis: true mean is greater than 40
## 95 percent confidence interval:
##  32.31464      Inf
## sample estimates:
## mean of x 
##  51.42857

Al realizar una prueba de hipótesis para comprobar si el promedio de notas era superior a 40 puntos, la prueba presenta un P-value de 0.14, valor mayor que el nivel de significancia de 0.05. Por lo que no tenemos evidencia suficiente para rechazar la hipótesis nula, no podemos asumir que el promedio de los estudiantes es superior a 40 puntos.

test = t.test(data_ejercicio2["clase1"], data_ejercicio2["clase2"], var.equal = TRUE)
print(test)
## 
##  Two Sample t-test
## 
## data:  data_ejercicio2["clase1"] and data_ejercicio2["clase2"]
## t = -0.24329, df = 12, p-value = 0.8119
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  -39.82274  31.82274
## sample estimates:
## mean of x mean of y 
##  51.42857  55.42857

Al realizar una prueba de hipótesis de diferencia de medias, la prueba presenta un P-value de 0.81, valor mayor que el nivel de significancia de 0.05. Por lo que no tenemos evidencia suficiente para rechazar la hipótesis nula, no existe una diferencia significativa en los promedios de los estudiantes al introducir el servicio de apoyo a los estudiantes.

Ejercicio 3

El servicio de apoyo al estudiante afirma en un periódico estudiantil que el 60% de los estudiantes que utilizan el servicio lo encuentran beneficioso para sus estudios. Una encuesta independiente de 200 estudiantes que han usado el servicio de apoyo al estudiante encontró que 132 de los 200 declararon que el uso del servicio sí mejoró sus estudios. Usando los resultados de esta encuesta independiente, prueba la validez de la afirmación de que el 60% de los estudiantes que usan el servicio de apoyo piensan que benefician sus estudios en un nivel de significancia de 5%.

\[H_0:P \ge 60\%\]

\[H_1:P < 60\%\]

p_est = 132/200
n = 200
p = 0.6
alpha = 0.05
ee = sqrt((p_est*(1-p_est))/n)
z_est = (p_est - p) / ee
pvalue = pnorm(z_est, lower.tail = FALSE)

Al realizar una prueba de hipótesis para la proporción tenemos un P-value de 0.04, valor inferior al nivel de significancia de 0.05. Por lo que tenemos suficiente evidencia para rechazar la hipótesis nula, la proporción de estudiantes que usan el servicio y piensan que benefician sus estudion puede que sea menor que 60%.

Ejercicio 4

Los números de un cierto tipo de crustáceo fueron contados en 20 sitios de un metro cuadrado a lo largo de la línea costera, 10 orientados al Sur y 10 orientados al Norte. Los resultados fueron los siguientes;

data_ejercicio3 = tibble(sur = c(28,27,31,45,21,10,30,32,25,38), 
                         norte = c(27,15,38,16,21,18,20,26,30,21))
data_ejercicio3

Usando un nivel de significancia de 5%.

  1. Comprobar si las varianzas de la población en cada sitio son iguales.

\[H_0: \sigma_1^2 = \sigma_2^2\]

\[H_1: \sigma_1^2 \ne \sigma_2^2\]

test = var.test(data_ejercicio3$sur, data_ejercicio3$norte)
print(test)
## 
##  F test to compare two variances
## 
## data:  data_ejercicio3$sur and data_ejercicio3$norte
## F = 1.7551, num df = 9, denom df = 9, p-value = 0.4148
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
##  0.4359347 7.0659038
## sample estimates:
## ratio of variances 
##           1.755071

Luego de realizar una prueba de hipótesis de varianzas, tenemos un p-value de 0.41, valor superior al nivel de significancia de 0.05. Por lo que tenemos suficiente evidencia para no rechazar la hipótesis nula. No hay una diferencia significativa entre la varianza de la cantidad de crustáceos encontrados al sur o el norte de la línea costera.

  1. Comprobar si las medias de la población en cada sitio son iguales, usando el resultado de la pregunta anterior para guiar tu respuesta.

\[H_0: \mu_1 = \mu_2\]

\[H_1: \mu_1 \ne \mu_2\]

test = t.test(data_ejercicio3$sur, data_ejercicio3$norte, var.equal = TRUE)
print(test)
## 
##  Two Sample t-test
## 
## data:  data_ejercicio3$sur and data_ejercicio3$norte
## t = 1.476, df = 18, p-value = 0.1572
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  -2.328735 13.328735
## sample estimates:
## mean of x mean of y 
##      28.7      23.2

Del ejercicio anterior descubrimos que no hay diferencia significativa entre las varianzas de ambas muestras de crustáceos, por lo que ahora recurrimos a una prueba de medias asumiendo igualdad en varianzas.

El resultado de nuestra prueba de hipótesis nos da un p-value de 0.16, valor superior al nivel de significancia de 0.05, por lo que no tenemos suficiente información para rechazar la hipótesis nula. Los promedios entre la cantidad de crustáceos que encontramos de cada lado de la línea costera no parecen tener una diferencia significativa.

Ejercicio 5

Un investigador de una comisión de control portuario desea decidir si el número de barcos que llegan al puerto sigue una distribución de Poisson con una media \(\mu = 1.0\). El investigador contó el número de barcos que llegan a cada hora para una muestra aleatoria de 70 h y obtuvo las frecuencias de muestras como se indican en la tabla siguiente:

Número de buques que llegan Frecuencia
0 42
1 21
2 7
3 o más 0

Comprobar la hipótesis de que el número de buques que llegan al puerto sigue una distribución de Poisson con una media \(\mu = 1.0\) a un nivel de significación del 5%.

Puede ser útil recordar la función de densidad de probabilidad de una distribución de Poisson con media \(\mu\)

\[H_0: \text{El número de buques que pasa por hora sigue una distribución poisson.} \] \[H_1: \text{El número de buques que pasa por hora no sigue una distribución poisson.} \]

data_ejercicio5 = tibble(buques_1h = c("0","1","2","3 o  más"), frecuencia_observada = c(42,21,7,0))

data_ejercicio5 = data_ejercicio5 %>% 
  mutate(probabilidad_poisson = round(c(dpois(c(0,1,2), lambda = 1), 
                    ppois(2, lambda = 1, lower.tail = FALSE)),2),
         frecuencia_esperada = round(probabilidad_poisson*sum(frecuencia_observada),2))

data_ejercicio5

Para comprobar si la cantidad de buques que pasan por hora presenta una distribución poisson, debemos comparar la frecuencia observada por hora contra lo que sería la frecuencia esperada de una distribución poisson.

test = chisq.test(data_ejercicio5$frecuencia_observada, p = data_ejercicio5$probabilidad_poisson)
test
## 
##  Chi-squared test for given probabilities
## 
## data:  data_ejercicio5$frecuencia_observada
## X-squared = 19.024, df = 3, p-value = 0.0002703

Luego de realizar una prueba chi-cuadrada para analizar que tanto se ajustan nuestros valores observados a una distribución poisson obtenemos un p-value de 2.703^{-4}, número inferior al nivel de significancia de 0.05. Por lo que tenemos suficiente evidencia para rechazar la hipótesis nula, la cantidad de buques que pasa por hora no presenta una distribución poisson.