Problema 1:

Un ingeniero está analizando la resistencia a la compresión de piezas que son utilizadas en la fabricación de motores para vehículos. La resistencia a la compresión se distribuye normalmente con \(\sigma^2=1000(psi)^2\). Una muestra aleatoria de 12 piezas presenta una media en la resistencia de compresión \(\bar{x} =3250 psi\)

  1. Construir un intervalo de confianza del 95% de la media de la resistencia a la compresión.
n = 12
xm = 3250
sigma = sqrt(1000)
z = qnorm(c(0.025, 0.975))
cat("IdeC mu (95%): ", xm + z*sigma/sqrt(12))
## IdeC mu (95%):  3232.108 3267.892
  1. Construir intervalos de confianza del 90% y del 99% para la media resistencia a la compresión. Comparar los anchos de estos intervalos.
n = 12
xm = 3250
sigma = sqrt(1000)
z_2 = qnorm(c(0.05, 0.95))
cat("IdeC mu (90%): ", xm + z_2*sigma/sqrt(12))
## IdeC mu (90%):  3234.985 3265.015
z_3 = qnorm(c(0.005, 0.995))
cat("IdeC mu (99%): ", xm + z_3*sigma/sqrt(12))
## IdeC mu (99%):  3226.486 3273.514

A medida que aumenta la confianza, aumenta el rango del tamaño de la poblacion.

  1. Si se desea estimar la resistencia a la compresión con un error de muestreo menor a 15 psi y una confianza del 99%, ¿qué tamaño de muestra se requiere?
e = 15
z = qnorm(0.995)
sigma = sqrt(1000)

nreq = ((z*sigma)/e)^2
cat("El tamaño de muestra requerido seria aproximadamente: ", nreq)
## El tamaño de muestra requerido seria aproximadamente:  29.48843

Problema 2:

Una marca de margarina dietética fue analizada para determinar el nivel de ácido graso poliinsaturado en porcentaje. En una muestra de seis paquetes se obtuvieron los siguientes datos: 16.8, 17.2, 17.4, 16.9, 16.5, 17.1.

  1. ¿Existe evidencia que apoye la hipótesis de que el nivel de ácido graso poliinsaturado se distribuye normalmente?
x <- c(16.8, 17.2, 17.4, 16.9, 16.5, 17.1)
shapiro.test(x)
## 
##  Shapiro-Wilk normality test
## 
## data:  x
## W = 0.98779, p-value = 0.9831

Como en el test de Shapiro, el valor p es mayor 0.05, no se rechaza la normalidad.

  1. Calcular un intervalo de confianza del 99% sobre la media \(\mu\) e interpretar el resultado.
x_2 <- c(16.8, 17.2, 17.4, 16.9, 16.5, 17.1)
n = length(x_2)
xm_2 = mean(x_2)
sx = sd(x_2)
t = qt(c(0.005, 0.995),n-1)
cat("IdeC mu (99%): ", xm_2 + t*sx/sqrt(n))
## IdeC mu (99%):  16.45847 17.5082

Problema 3:

El porcentaje de titanio contenido en una aleación utilizada en artículos para escalar fue medido en 51 partes seleccionadas aleatoriamente. La desviación estándar muestral es \(s=0.37\).

  1. Construir un intervalo de confianza del 95% para \(\sigma^2\).
n = 51
s = 0.37

x = qchisq(c(0.975,0.025),50)

IC_varianza = c((n-1)*s^2/x[1], (n-1)*s^2/x[2])
cat("IC para sigma^2 (95%): ", IC_varianza)
## IC para sigma^2 (95%):  0.09584124 0.2115438
  1. Analizar qué ocurre con el intervalo si se aumenta el tamaño de la muestra manteniendo el resto de la información constante.
n_1 = 100
s = 0.37
x = qchisq(c(0.975,0.025),n_1-1)
IC_varianza1 = c((n_1-1)*s^2/x[1], (n_1-1)*s^2/x[2])

n_2 = 1000
s = 0.37
x = qchisq(c(0.975,0.025),n_2-1)
IC_varianza2 = c((n_2-1)*s^2/x[1], (n_2-1)*s^2/x[2])
cat(IC_varianza1)
## 0.1055357 0.1847451
cat(IC_varianza2)
## 0.1256451 0.1497459

Problema 4:

De 1000 casos de cáncer de pulmón seleccionados al azar, 823 resultaron en muerte dentro de los 10 años posteriores a su detección.

  1. Construir un intervalo de confianza del 95% para la tasa de mortalidad.
n = 1000
x = 823
p = x/n
cat("IdeC mu (95%): ", p+ qnorm(c(0.025,0.975))*sqrt(p*(1-p)/n))
## IdeC mu (95%):  0.7993444 0.8466556
  1. Interpretar los resultados obtenidos. De el 95% de los casos de cancer, tienen una taza de mortalidad de entre el 79% y el 84%.

Problema 5:

Se tomaron 30 unidades de tabaco habano para medir su contenido de alquitrán. Los datos son los siguientes:

  1. ¿Existe evidencia que apoye la hipótesis de que el contenido de alquitrán se distribuye normalmente?
x <- c(1.542, 1.622, 1.440, 1.459, 1.598, 1.585, 1.466, 1.608, 1.533, 1.498, 1.532, 1.546, 1.520, 1.532, 1.600, 1.466, 1.494, 78, 1.523, 1.504, 1.499, 1.548, 1.542, 1.397, 1.545, 1.611, 1.626, 1.511, 1.487, 1.558)
shapiro.test(x)
## 
##  Shapiro-Wilk normality test
## 
## data:  x
## W = 0.18266, p-value = 8.189e-12

Por p tener un valor menor a 0.05, se puede decir que no es normal.

  1. Calcular un intervalo de confianza del 99% para la media del contenido de alquitrán.
n = length(x)
xm = mean(x)
sx = sd(x)
t = qt(c(0.005,0.995), n-1)
cat("IdeC mu (99%): ", xm + t*sx/sqrt(n))
## IdeC mu (99%):  -2.946281 11.10575

Problema 6:

Los siguientes datos corresponden al tiempo de secado (en horas) de una nueva pintura:

  1. Calcular un intervalo de confianza del 95% para la media del tiempo de secado.
x <- c(3,4, 2,5, 4,8, 2,9, 3,6, 2,8, 3,3, 5,6, 3,7, 2,8, 4,4, 4,0, 5,2, 3,0, 4,8)
n = length(x)
xm = mean(x)
sx = sd(x)

t = qt(c(0.025,0.975), n-1)
cat("IdeC mu (99%): ", xm + t*sx/sqrt(n))
## IdeC mu (99%):  3.341659 5.125008
  1. Calcular un intervalo de confianza del 98% para su varianza. Interpretar los resultados.
x_1 = qchisq(c(0.99,0.01),n-1)

IC_varianza = c((n-1)*sx^2/x_1[1], (n-1)*sx^2/x_1[2])
cat("IC para sigma^2 (98%): ", IC_varianza)
## IC para sigma^2 (98%):  3.33482 11.59942

En un intervalo del 95%, la pintura seca entre 3 y 11 horas.

Problema 7:

El director de una fábrica desea estimar el tiempo promedio que toma perforar tres agujeros en una placa metálica utilizada para mesas. ¿Cuál debe ser el tamaño de la muestra para que el intervalo de confianza del 95% esté dentro de 15 segundos de la media real, sabiendo que \(\sigma=40\)?

e = 15
z = qnorm(0.975)
sigma = 40

nreq = ((z*sigma)/e)^2
cat("El tamaño de muestra requerido seria aproximadamente: ", nreq)
## El tamaño de muestra requerido seria aproximadamente:  27.31704

Problema 8:

En un proceso de fabricación se compara la tensión de ruptura de dos métodos: estándar y con aleación. Las tensiones son las siguientes:

  1. Obtener un intervalo de confianza del 95% para la diferencia de medias.
proc_est <- c(428, 419, 458, 439, 441, 456, 463, 429, 438, 445, 441, 463)
proc_nue <- c(462, 448, 435, 465, 429, 472, 453, 459, 427, 468, 452, 447)  

n_1 = length(proc_est)
n_2 = length(proc_nue)

s_1 = sd(proc_est)
s_2 = sd(proc_nue)

t = qt(c(0.025,0.975), n_1-1)

dif= mean(proc_est)- mean(proc_nue)

cat("IC (95%)", dif + t*sqrt(s_1^2/n_1 + s_2^2/n_2))
## IC (95%) -21.21341 5.046747
  1. Determinar si existe una diferencia real entre los dos procesos. ¿Cuál es más conveniente?
cat(mean(proc_est))
## 443.3333
cat(mean(proc_nue))
## 451.4167

Esto quiere decir que el proceso nuevo es mejor, debido a que soporta una mayor tension.

Problema 9:

De una muestra aleatoria de 87 estaciones de gasolina, 13 tenían al menos un tanque subterráneo con fuga.

  1. Determinar un intervalo de confianza del 95% para la proporción de estaciones con fugas.
n = 87
x = 13
p = x/n

cat("IdeC mu (95%): ", p+ qnorm(c(0.025,0.975))*sqrt(p*(1-p)/n))
## IdeC mu (95%):  0.07451236 0.2243382
  1. Calcular el tamaño de muestra necesario para que un intervalo del 95% especifique la proporción dentro de mas o menos 0.03.En caso de no tener información previa, discutir cómo calcular el tamaño muestral y si es necesario hacer ajustes por población finita.
e = 0.03
z = qnorm(0.975)
sigma = 0.25

nreq = ((0.25)*z^2/e^2)
cat("El tamaño de muestra requerido seria aproximadamente: ", nreq)
## El tamaño de muestra requerido seria aproximadamente:  1067.072

Problema 10:

x <- c(7.69, 4.97, 4.56, 6.49, 4.34, 6.24, 4.45)

n <- length(x)

mean_x <- mean(x)
mean_x
## [1] 5.534286
k <- 1000

bootstrap_means <- replicate(k, mean(sample(x, size = n, replace = TRUE)))

summary(bootstrap_means)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   4.419   5.225   5.514   5.529   5.811   6.959
percentil_2.5 <- quantile(bootstrap_means, 0.025)
percentil_97.5 <- quantile(bootstrap_means, 0.975)

# Intervalo de confianza método 1
IC_metodo1 <- c(percentil_2.5, percentil_97.5)
IC_metodo1
##     2.5%    97.5% 
## 4.748393 6.508643
# Intervalo de confianza método 2
IC_metodo2 <- c(2*mean_x - percentil_97.5, 2*mean_x - percentil_2.5)
IC_metodo2
##    97.5%     2.5% 
## 4.559929 6.320179
data.frame(
  Metodo = c("Percentiles", "Corregido"),
  Limite_Inferior = c(IC_metodo1[1], IC_metodo2[1]),
  Limite_Superior = c(IC_metodo1[2], IC_metodo2[2])
)
##            Metodo Limite_Inferior Limite_Superior
## 2.5%  Percentiles        4.748393        6.508643
## 97.5%   Corregido        4.559929        6.320179
library(ggplot2)

ggplot(data.frame(bootstrap_means), aes(x = bootstrap_means)) +
  geom_histogram(binwidth = 0.05, color = "black", fill = "skyblue", alpha = 0.7) +
  geom_vline(xintercept = percentil_2.5, color = "red", linetype = "dashed", linewidth = 1) +
  geom_vline(xintercept = percentil_97.5, color = "red", linetype = "dashed", linewidth = 1) +
  geom_vline(xintercept = mean_x, color = "blue", linetype = "solid", linewidth = 1) +
  labs(title = "Distribución de medias bootstrap",
       x = "Media bootstrap",
       y = "Frecuencia") +
  theme_minimal()

De los resultados obtenidos del método 1, son más útiles en caso de que se trabaje una distribución asimétrica puesto que utiliza solo las medias bootstrap. Encambio el método 2 es más útil en caso de tener una distribución simétrica puesto que corrige el sesgo del bootstrap y es centrado en la media original.