1 Desarrollo ejercicios

1.1 Ejercicio 10.61

En un invierno con epidemia de influenza los investigadores de una conocida empresa farmacéutica encuestaron a los padres de 2000 bebés para determinar si el nuevo medicamento de la empresa era eficaz después de dos días. De 120 bebés que tenían influenza y que recibieron el medicamento, 29 se curaron en dos días o menos. De 280 bebés que tenían influenza pero no recibieron el fármaco, 56 se cura ron en dos días o menos. ¿Hay alguna indicación significativa que apoye la afirmación de la empresa sobre la eficacia del medicamento?

bebes.medicamento <- 120 #bebes que recibieron el medicamento
bebes.curados <- 29 #bebes curados con el medicamento
bebes.no.medicamento <- 280 #bebes que no recibieron el medicamento
bebes.curados.no.medicamento <- 56 #bebes curados sin el medicamento

p.medicamento <- bebes.curados/bebes.medicamento #bebes con medicamento
p.sin.medicamento <- bebes.curados.no.medicamento/bebes.no.medicamento #bebes sin medicamento

n.total <- bebes.medicamento+bebes.no.medicamento
curados.total <- bebes.curados+bebes.curados.no.medicamento
p.combinada <- curados.total/n.total

#Estadistico
z <- (p.medicamento-p.sin.medicamento)/sqrt(p.combinada*(1-p.combinada)*(1/bebes.medicamento+1/bebes.no.medicamento))

#Prueba unilateral
p.valor <- 1 - pnorm(0.93)

#Resultados
cat("Proporción con medicamento:", p.medicamento)
## Proporción con medicamento: 0.2416667
cat("Proporción sin medicamento:", p.sin.medicamento)
## Proporción sin medicamento: 0.2
cat("Estadístico z:", z)
## Estadístico z: 0.9335201
cat("p.valor:", p.valor)
## p.valor: 0.1761855
#Conclusion
if (p.valor<0.05){cat("Hay evidencia significativa de que el medicamento es eficaz.")
}else {cat("No hay evidencia significativa de que el medicamento sea eficaz.")}
## No hay evidencia significativa de que el medicamento sea eficaz.

1.2 Ejercicio 10.101

En un estudio realizado por el Centro de Consulta Estadística de Virginia Tech se solicitó a un grupo de sujetos realizar cierta tarea en la computadora. La respuesta que se midió fue el tiempo requerido para realizar la tarea. El propósito del experimento fue probar un grupo de herramientas de ayuda desarrolladas por el Departamento de Ciencias Computacionales de la universidad. En el estudio participaron 10 sujetos. Con una asignación al azar, a 5 se les dio un procedimiento estándar usando lenguaje Fortran para realizar la tarea. A los otros 5 se les pidió realizar la tarea usando las herramientas de ayuda. A continuación se presentan los datos del tiempo requerido para completar la tarea.

Grupo 1 (procedimiento estándar) Grupo 2 (herramienta de ayuda)
161 132
169 162
174 134
158 138
163 133

Suponga que las distribuciones de la población son normales y las varianzas son las mismas para los dos grupos y apoye o refute la conjetura de que las herramientas de ayuda aumentan la velocidad con la que se realiza la tarea.

#Datos
grupo.1 <- c(161, 169, 174, 158, 163) #procedimiento estandar
grupo.2 <- c(132, 126, 134, 138, 133) #herramienta de ayuda

#Prueba t para comparar los dos grupos
prueba.t <- t.test(grupo.1,grupo.2,var.equal=TRUE)

#Resultados de la prueba t
print(prueba.t)
## 
##  Two Sample t-test
## 
## data:  grupo.1 and grupo.2
## t = 9.3298, df = 8, p-value = 1.421e-05
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  24.39182 40.40818
## sample estimates:
## mean of x mean of y 
##     165.0     132.6

1.3 Ejercicio 10.106

El Departamento de Salud y Educación Física de Virginia Tech realizó un estudio para determinar si 8 semanas de entrenamiento realmente reducen los niveles de colesterol de los participantes. A un grupo de tratamiento que consta de 15 personas se les dieron conferencias dos veces a la semana acerca de cómo reducir sus niveles de colesterol. Otro grupo de 18 personas, de edad similar, fue seleccionado al azar como grupo de control. Se registraron los siguientes niveles de colesterol de todos los participantes al final del programa de 8 semanas: Grupo con tratamiento: Tratamiento: 129 131 154 172 115 126 175 191 122 238 159 156 176 175 126 Control: 151 132 196 195 188 198 187 168 115 165 137 208 133 217 191 193 140 146 ¿Podemos concluir, a un nivel de significancia del 5%, que el nivel de colesterol promedio se redujo gracias al programa? Haga la prueba adecuada en las medias.

tratamiento <- c(129, 131, 154, 172, 115, 126, 175, 191, 122, 238, 159, 156, 176, 175, 126)
control <- c(151, 132, 196, 195, 188, 198, 187, 168, 115, 165, 137, 208, 133, 217, 191, 193, 140, 146)

# Estadísticas descriptivas
media_tratamiento <- mean(tratamiento)
media_control <- mean(control)
sd_tratamiento <- sd(tratamiento)
sd_control <- sd(control)
n_tratamiento <- length(tratamiento)
n_control <- length(control)

# Prueba de igualdad de varianzas (F-test)
var_test <- var.test(tratamiento, control)

# Prueba t para muestras independientes
# Usar var.equal según el resultado de la prueba F
t_test <- t.test(tratamiento, control, var.equal = FALSE)  # Varianzas desiguales

# Resultados
list(
  media_tratamiento = media_tratamiento,
  media_control = media_control,
  sd_tratamiento = sd_tratamiento,
  sd_control = sd_control,
  var_test = var_test,
  t_test = t_test
)
## $media_tratamiento
## [1] 156.3333
## 
## $media_control
## [1] 170
## 
## $sd_tratamiento
## [1] 33.09006
## 
## $sd_control
## [1] 30.7877
## 
## $var_test
## 
##  F test to compare two variances
## 
## data:  tratamiento and control
## F = 1.1552, num df = 14, denom df = 17, p-value = 0.7678
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
##  0.4196539 3.3502522
## sample estimates:
## ratio of variances 
##           1.155156 
## 
## 
## $t_test
## 
##  Welch Two Sample t-test
## 
## data:  tratamiento and control
## t = -1.2192, df = 29.039, p-value = 0.2326
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  -36.591688   9.258355
## sample estimates:
## mean of x mean of y 
##  156.3333  170.0000

1.4 Ejercicio 10.107

En un estudio que llevó a cabo el Departamento de Ingeniería Mecánica, el cual fue analizado por el Centro de Consulta Estadística del Virginia Tech, se compararon las varillas de acero distribuidas por dos empresas diferentes. Se fabricaron diez resortes de muestra con las varillas proporcionadas por cada empresa y se estudió la “capacidad de rebote”. Los datos son los siguientes: Empresa A: 9.3 8.8 6.8 8.7 8.5 6.7 8.0 6.5 9.2 7.0 Empresa B: 11.0 9.8 9.9 10.2 10.1 9.7 11.0 11.1 10.2 9.6 ¿Puede concluir que casi no hay diferencia en las medias entre las varillas de acero proporcionadas por las dos empresas? Utilice un valor P para llegar a su conclusión. ¿Deberían agruparse las varianzas en este caso?

empresa_A <- c(9.3, 8.8, 6.8, 8.7, 8.5, 6.7, 8.0, 6.5, 9.2, 7.0)
empresa_B <- c(11.0, 9.8, 9.9, 10.2, 10.1, 9.7, 11.0, 11.1, 10.2, 9.6)

# Estadísticas descriptivas
media_A <- mean(empresa_A)
media_B <- mean(empresa_B)
sd_A <- sd(empresa_A)
sd_B <- sd(empresa_B)
n_A <- length(empresa_A)
n_B <- length(empresa_B)

# Prueba de igualdad de varianzas (F-test)
var_test <- var.test(empresa_A, empresa_B)

# Prueba t para muestras independientes
t_test <- t.test(empresa_A, empresa_B, var.equal = var_test$p.value > 0.05)

# Resultados
list(
  media_A = media_A,
  media_B = media_B,
  sd_A = sd_A,
  sd_B = sd_B,
  var_test = var_test,
  t_test = t_test
)
## $media_A
## [1] 7.95
## 
## $media_B
## [1] 10.26
## 
## $sd_A
## [1] 1.098737
## 
## $sd_B
## [1] 0.5699903
## 
## $var_test
## 
##  F test to compare two variances
## 
## data:  empresa_A and empresa_B
## F = 3.7158, num df = 9, denom df = 9, p-value = 0.06373
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
##   0.9229522 14.9597902
## sample estimates:
## ratio of variances 
##             3.7158 
## 
## 
## $t_test
## 
##  Two Sample t-test
## 
## data:  empresa_A and empresa_B
## t = -5.9016, df = 18, p-value = 1.38e-05
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  -3.132347 -1.487653
## sample estimates:
## mean of x mean of y 
##      7.95     10.26

1.5 Ejercicio 10.108

En un estudio realizado por el Centro de Recursos Acuáticos, el cual fue analizado por el Centro de Consulta Estadística del Virginia Tech, se compararon dos diferentes plantas de tratamiento para aguas residuales. La planta A se ubica en una zona donde el ingreso medio de los hogares está por abajo de $22,000 al año, y la planta B se ubica en un lugar donde el ingreso medio de los hogares está por arriba de $60,000 anuales. La cantidad de agua residual tratada en cada planta (miles de galones/día) se muestreó de forma aleatoria durante 10 días. Los datos son los siguientes:

Planta A: 21 19 20 23 22 28 32 19 13 18

Planta B: 20 39 24 33 30 28 30 22 33 24

A un nivel de significancia de 5%, ¿podemos concluir que la cantidad promedio de agua residual tratada en la planta del vecindario de altos ingresos es mayor que la tratada en la planta del área de bajos ingresos? Suponga normalidad.

planta_A <- c(21, 19, 20, 23, 22, 28, 32, 19, 13, 18)
planta_B <- c(20, 39, 24, 33, 30, 28, 30, 22, 33, 24)

promedio_A <- mean(planta_A)
desv_std_A <- sd(planta_A)
promedio_B <- mean(planta_B)
desv_std_B <- sd(planta_B)

# Estadisticas Descriptivas:
cat("Planta A - Promedio:", promedio_A, "Desviación estándar:", desv_std_A, "\n")
## Planta A - Promedio: 21.5 Desviación estándar: 5.317685
cat("Planta B - Promedio:", promedio_B, "Desviación estándar:", desv_std_B, "\n\n")
## Planta B - Promedio: 28.3 Desviación estándar: 5.869885
t_test <- t.test(planta_B, planta_A, alternative = "greater", var.equal = FALSE)

# Resultados:
cat("Estadístico t:", t_test$statistic, "\n")
## Estadístico t: 2.714937
cat("Grados de libertad:", t_test$parameter, "\n")
## Grados de libertad: 17.82712
cat("Valor p:", t_test$p.value, "\n")
## Valor p: 0.007139144
cat("Intervalo de confianza al 95% para la diferencia de medias:", t_test$conf.int, "\n\n")
## Intervalo de confianza al 95% para la diferencia de medias: 2.454473 Inf
alpha <- 0.05
if (t_test$p.value < alpha) {
  cat("Conclusión: Rechazamos la hipótesis nula. La planta B trata más agua residual que la planta A.\n")
} else {
  cat("Conclusión: No hay evidencia suficiente para concluir que la planta B trata más agua residual que la planta A.\n")
}
## Conclusión: Rechazamos la hipótesis nula. La planta B trata más agua residual que la planta A.

1.6 Ejercicio 10.109

Los siguientes datos muestran el número de defectos en 100,000 líneas de código en un tipo particular de software hecho en Estados Unidos y en Japón. ¿Hay suficiente evidencia para afirmar que existe una diferencia significativa entre los programas creados en los dos países? Pruebe las medias. ¿Se deberían agrupar las varianzas?

Estados Unidos 48 39 42 52 40 48 52 52 54 48 52 55 43 46 48 52
Japón 50 48 42 40 43 48 50 46 38 38 36 40 40 48 48 45
us <- c(48, 39, 42, 52, 40, 48, 52, 52, 54, 48, 52, 55, 43, 46, 48, 52)
japan <- c(50, 48, 42, 40, 43, 48, 50, 46, 38, 38, 36, 40, 40, 48, 48, 45)

promedio_us <- mean(us)
desv_std_us <- sd(us)
promedio_japan <- mean(japan)
desv_std_japan <- sd(japan)

# Estadisticas descriptivas
cat("Estados Unidos - Promedio:", promedio_us, "Desviación estándar:", desv_std_us, "\n")
## Estados Unidos - Promedio: 48.1875 Desviación estándar: 4.996249
cat("Japón - Promedio:", promedio_japan, "Desviación estándar:", desv_std_japan, "\n\n")
## Japón - Promedio: 43.75 Desviación estándar: 4.683304
varianza_test <- var.test(us, japan)

# Resultados de la prueba de varianzas
cat("Estadístico F:", varianza_test$statistic, "\n")
## Estadístico F: 1.138108
cat("Valor p:", varianza_test$p.value, "\n")
## Valor p: 0.8054528
if (varianza_test$p.value < 0.05) {
  cat("Conclusión: Las varianzas son significativamente diferentes.\n\n")
  usar_var_igual <- FALSE
} else {
  cat("Conclusión: Las varianzas no son significativamente diferentes.\n\n")
  usar_var_igual <- TRUE
}
## Conclusión: Las varianzas no son significativamente diferentes.
# Prueba t para medias
t_test <- t.test(us, japan, alternative = "two.sided", var.equal = usar_var_igual)

# Resultados de la prueba t
cat("Estadístico t:", t_test$statistic, "\n")
## Estadístico t: 2.591978
cat("Grados de libertad:", t_test$parameter, "\n")
## Grados de libertad: 30
cat("Valor p:", t_test$p.value, "\n")
## Valor p: 0.01460178
cat("Intervalo de confianza al 95% para la diferencia de medias:", t_test$conf.int, "\n\n")
## Intervalo de confianza al 95% para la diferencia de medias: 0.9411024 7.933898
# Decisión
alpha <- 0.05
if (t_test$p.value < alpha) {
  cat("Conclusión: Rechazamos la hipótesis nula. Existe una diferencia significativa entre los programas de Estados Unidos y Japón.\n")
} else {
  cat("Conclusión: No hay evidencia suficiente para concluir que existe una diferencia significativa entre los programas de Estados Unidos y Japón.\n")
}
## Conclusión: Rechazamos la hipótesis nula. Existe una diferencia significativa entre los programas de Estados Unidos y Japón.