Un ingeniero está analizando la resistencia a la compresión de piezas que son utilizadas en la fabricación de motores para vehículos. La resistencia a la compresión se distribuye normalmente con \(\sigma^2=1000(psi)^2\). Una muestra aleatoria de 12 piezas presenta una media en la resistencia de compresión \(\bar{x} =3250 psi\)
n = 12
xm = 3250
sigma = sqrt(1000)
z = qnorm(c(0.025, 0.975))
cat("IdeC mu (95%): ", xm + z*sigma/sqrt(12))
## IdeC mu (95%): 3232.108 3267.892
n = 12
xm = 3250
sigma = sqrt(1000)
z_2 = qnorm(c(0.05, 0.95))
cat("IdeC mu (90%): ", xm + z_2*sigma/sqrt(12))
## IdeC mu (90%): 3234.985 3265.015
z_3 = qnorm(c(0.005, 0.995))
cat("IdeC mu (99%): ", xm + z_3*sigma/sqrt(12))
## IdeC mu (99%): 3226.486 3273.514
A medida que aumenta la confianza, aumenta el rango del tamaño de la poblacion.
e = 15
z = qnorm(0.995)
sigma = sqrt(1000)
nreq = ((z*sigma)/e)^2
cat("El tamaño de muestra requerido seria aproximadamente: ", nreq)
## El tamaño de muestra requerido seria aproximadamente: 29.48843
Una marca de margarina dietética fue analizada para determinar el nivel de ácido graso poliinsaturado en porcentaje. En una muestra de seis paquetes se obtuvieron los siguientes datos: 16.8, 17.2, 17.4, 16.9, 16.5, 17.1.
x <- c(16.8, 17.2, 17.4, 16.9, 16.5, 17.1)
shapiro.test(x)
##
## Shapiro-Wilk normality test
##
## data: x
## W = 0.98779, p-value = 0.9831
Como en el test de Shapiro, el valor p es mayor 0.05, no se rechaza la normalidad.
x_2 <- c(16.8, 17.2, 17.4, 16.9, 16.5, 17.1)
n = length(x_2)
xm_2 = mean(x_2)
sx = sd(x_2)
t = qt(c(0.005, 0.995),n-1)
cat("IdeC mu (99%): ", xm_2 + t*sx/sqrt(n))
## IdeC mu (99%): 16.45847 17.5082
El porcentaje de titanio contenido en una aleación utilizada en artículos para escalar fue medido en 51 partes seleccionadas aleatoriamente. La desviación estándar muestral es \(s=0.37\).
n = 51
s = 0.37
x = qchisq(c(0.975,0.025),50)
IC_varianza = c((n-1)*s^2/x[1], (n-1)*s^2/x[2])
cat("IC para sigma^2 (95%): ", IC_varianza)
## IC para sigma^2 (95%): 0.09584124 0.2115438
n_1 = 100
s = 0.37
x = qchisq(c(0.975,0.025),n_1-1)
IC_varianza1 = c((n_1-1)*s^2/x[1], (n_1-1)*s^2/x[2])
n_2 = 1000
s = 0.37
x = qchisq(c(0.975,0.025),n_2-1)
IC_varianza2 = c((n_2-1)*s^2/x[1], (n_2-1)*s^2/x[2])
cat(IC_varianza1)
## 0.1055357 0.1847451
cat(IC_varianza2)
## 0.1256451 0.1497459
De 1000 casos de cáncer de pulmón seleccionados al azar, 823 resultaron en muerte dentro de los 10 años posteriores a su detección.
n = 1000
x = 823
p = x/n
cat("IdeC mu (95%): ", p+ qnorm(c(0.025,0.975))*sqrt(p*(1-p)/n))
## IdeC mu (95%): 0.7993444 0.8466556
Se tomaron 30 unidades de tabaco habano para medir su contenido de alquitrán. Los datos son los siguientes:
x <- c(1.542, 1.622, 1.440, 1.459, 1.598, 1.585, 1.466, 1.608, 1.533, 1.498, 1.532, 1.546, 1.520, 1.532, 1.600, 1.466, 1.494, 78, 1.523, 1.504, 1.499, 1.548, 1.542, 1.397, 1.545, 1.611, 1.626, 1.511, 1.487, 1.558)
shapiro.test(x)
##
## Shapiro-Wilk normality test
##
## data: x
## W = 0.18266, p-value = 8.189e-12
Por p tener un valor menor a 0.05, se puede decir que no es normal.
n = length(x)
xm = mean(x)
sx = sd(x)
t = qt(c(0.005,0.995), n-1)
cat("IdeC mu (99%): ", xm + t*sx/sqrt(n))
## IdeC mu (99%): -2.946281 11.10575
Los siguientes datos corresponden al tiempo de secado (en horas) de una nueva pintura:
x <- c(3,4, 2,5, 4,8, 2,9, 3,6, 2,8, 3,3, 5,6, 3,7, 2,8, 4,4, 4,0, 5,2, 3,0, 4,8)
n = length(x)
xm = mean(x)
sx = sd(x)
t = qt(c(0.025,0.975), n-1)
cat("IdeC mu (99%): ", xm + t*sx/sqrt(n))
## IdeC mu (99%): 3.341659 5.125008
x_1 = qchisq(c(0.99,0.01),n-1)
IC_varianza = c((n-1)*sx^2/x_1[1], (n-1)*sx^2/x_1[2])
cat("IC para sigma^2 (98%): ", IC_varianza)
## IC para sigma^2 (98%): 3.33482 11.59942
En un intervalo del 95%, la pintura seca entre 3 y 11 horas.
El director de una fábrica desea estimar el tiempo promedio que toma perforar tres agujeros en una placa metálica utilizada para mesas. ¿Cuál debe ser el tamaño de la muestra para que el intervalo de confianza del 95% esté dentro de 15 segundos de la media real, sabiendo que \(\sigma=40\)?
e = 15
z = qnorm(0.975)
sigma = 40
nreq = ((z*sigma)/e)^2
cat("El tamaño de muestra requerido seria aproximadamente: ", nreq)
## El tamaño de muestra requerido seria aproximadamente: 27.31704
En un proceso de fabricación se compara la tensión de ruptura de dos métodos: estándar y con aleación. Las tensiones son las siguientes:
proc_est <- c(428, 419, 458, 439, 441, 456, 463, 429, 438, 445, 441, 463)
proc_nue <- c(462, 448, 435, 465, 429, 472, 453, 459, 427, 468, 452, 447)
n_1 = length(proc_est)
n_2 = length(proc_nue)
s_1 = sd(proc_est)
s_2 = sd(proc_nue)
t = qt(c(0.025,0.975), n_1-1)
dif= mean(proc_est)- mean(proc_nue)
cat("IC (95%)", dif + t*sqrt(s_1^2/n_1 + s_2^2/n_2))
## IC (95%) -21.21341 5.046747
cat(mean(proc_est))
## 443.3333
cat(mean(proc_nue))
## 451.4167
Esto quiere decir que el proceso nuevo es mejor, debido a que soporta una mayor tension.
De una muestra aleatoria de 87 estaciones de gasolina, 13 tenían al menos un tanque subterráneo con fuga.
n = 87
x = 13
p = x/n
cat("IdeC mu (95%): ", p+ qnorm(c(0.025,0.975))*sqrt(p*(1-p)/n))
## IdeC mu (95%): 0.07451236 0.2243382
e = 0.03
z = qnorm(0.975)
sigma = 0.25
nreq = ((0.25)*z^2/e^2)
cat("El tamaño de muestra requerido seria aproximadamente: ", nreq)
## El tamaño de muestra requerido seria aproximadamente: 1067.072
x <- c(7.69, 4.97, 4.56, 6.49, 4.34, 6.24, 4.45)
n <- length(x)
mean_x <- mean(x)
mean_x
## [1] 5.534286
k <- 1000
bootstrap_means <- replicate(k, mean(sample(x, size = n, replace = TRUE)))
summary(bootstrap_means)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 4.419 5.225 5.514 5.529 5.811 6.959
percentil_2.5 <- quantile(bootstrap_means, 0.025)
percentil_97.5 <- quantile(bootstrap_means, 0.975)
# Intervalo de confianza método 1
IC_metodo1 <- c(percentil_2.5, percentil_97.5)
IC_metodo1
## 2.5% 97.5%
## 4.748393 6.508643
# Intervalo de confianza método 2
IC_metodo2 <- c(2*mean_x - percentil_97.5, 2*mean_x - percentil_2.5)
IC_metodo2
## 97.5% 2.5%
## 4.559929 6.320179
data.frame(
Metodo = c("Percentiles", "Corregido"),
Limite_Inferior = c(IC_metodo1[1], IC_metodo2[1]),
Limite_Superior = c(IC_metodo1[2], IC_metodo2[2])
)
## Metodo Limite_Inferior Limite_Superior
## 2.5% Percentiles 4.748393 6.508643
## 97.5% Corregido 4.559929 6.320179
library(ggplot2)
ggplot(data.frame(bootstrap_means), aes(x = bootstrap_means)) +
geom_histogram(binwidth = 0.05, color = "black", fill = "skyblue", alpha = 0.7) +
geom_vline(xintercept = percentil_2.5, color = "red", linetype = "dashed", linewidth = 1) +
geom_vline(xintercept = percentil_97.5, color = "red", linetype = "dashed", linewidth = 1) +
geom_vline(xintercept = mean_x, color = "blue", linetype = "solid", linewidth = 1) +
labs(title = "Distribución de medias bootstrap",
x = "Media bootstrap",
y = "Frecuencia") +
theme_minimal()
De los resultados obtenidos del método 1, son más útiles en caso de que se trabaje una distribución asimétrica puesto que utiliza solo las medias bootstrap. Encambio el método 2 es más útil en caso de tener una distribución simétrica puesto que corrige el sesgo del bootstrap y es centrado en la media original.