TALLER 421

Problema 1

Un ingeniero está analizando la resistencia a la compresión de piezas que son utilizadas en la fabricación de motores para vehículos. La resistencia a la compresión se distribuye normalmente con \[σ^2=1000(psi)^2\]. Una muestra aleatoria de 12 piezas presenta una media en la resistencia de compresión \[\bar{x}=3250 psi\].

Construir un intervalo de confianza del 95% de la media de la resistencia a la compresión.

sigma2 = 1000 # Varianza es conocida
xm = 3250 # Media muestral
n = 12 # Tamaño de la muestra
# Supongamos que se cumple el supuesto de normalidad de x
IC1= xm + c(qnorm(0.025),qnorm(0.975))*sqrt(sigma2)/sqrt(n)
IC1

[1] 3232.108 3267.892

Con una confianza del 95%, la media de la resistencia a la compresion esta entre 3232.1 y 3267.9 psi.

Construir intervalos de confianza del 90% y del 99% para la media resistencia a la compresión. Comparar los anchos de estos intervalos.

sigma2 = 1000 # Varianza es conocida
xm = 3250 # Media muestral
n = 12 # Tamaño de la muestra
# Supongamos que se cumple el supuesto de normalidad de x
IC2= xm + c(qnorm(0.05),qnorm(0.95))*sqrt(sigma2)/sqrt(n)
IC2

[1] 3234.985 3265.015

IC3= xm + c(qnorm(0.005),qnorm(0.995))*sqrt(sigma2)/sqrt(n)
IC3

[1] 3226.486 3273.514

Si se desea estimar la resistencia a la compresión con un error de muestreo menor a 15 psi y una confianza del 99%, ¿qué tamaño de muestra se requiere?

e=15
confianza=0.99
sigma2=1000
z= qnorm(0.995)
n=z^2*sigma2/e^2
ceiling(n) # Aproximar n a un numero entero

[1] 30

Problema 2

Una marca de margarina dietética fue analizada para determinar el nivel de ácido graso poliinsaturado en porcentaje. En una muestra de seis paquetes se obtuvieron los siguientes datos: 16.8, 17.2, 17.4, 16.9, 16.5, 17.1.

¿Existe evidencia que apoye la hipótesis de que el nivel de ácido graso poliinsaturado se distribuye normalmente?

# Supuestos: X es normal.
# Como la varianza es desconocida, se hace uso de la T de student.
x <- c(16.8, 17.2, 17.4, 16.9, 16.5, 17.1)
t.test(x)$conf.int

[1] 16.64872 17.31795
attr(,"conf.level")
[1] 0.95

Calcular un intervalo de confianza del 99% sobre la media μ e interpretar el resultado.

# Supuestos: X es normal.
# Como la varianza es desconocida, se hace uso de la T de student.
x <- c(16.8, 17.2, 17.4, 16.9, 16.5, 17.1)
t.test(x, conf.level=0.99)$conf.int

[1] 16.45847 17.50820
attr(,"conf.level")
[1] 0.99

Con una confianza del 99%, el contenido medio de acido graso en la margarina se encuentra entre el 16.5% y 17.5%.

Problema 3

Problema 4

Problema 5

Se tomaron 30 unidades de tabaco habano para medir su contenido de alquitrán. Los datos son los siguientes: (1.542, 1.622, 1.440, 1.459, 1.598, 1.585, 1.466, 1.608, 1.533, 1.498, 1.532, 1.546, 1.520, 1.532, 1.600, 1.466, 1.494, 1.523, 1.504, 1.499, 1.548, 1.542, 1.397, 1.545, 1.611, 1.626, 1.511, 1.487, 1.558, 1.489) media = 1.529367 desviación estantar = 0.05625526 n = 30 a. ¿Existe evidencia que apoye la hipótesis de que el contenido de alquitrán se distribuye normalmente?

# Supuestos: X es normal.
# Como la varianza es desconocida, se hace uso de la T de student.
x <- c(1.542, 1.622, 1.440, 1.459, 1.598, 1.585, 1.466, 1.608, 1.533, 1.498, 
1.532, 1.546, 1.520, 1.532, 1.600, 1.466, 1.494, 1.523, 1.504, 1.499, 
1.548, 1.542, 1.397, 1.545, 1.611, 1.626, 1.511, 1.487, 1.558, 1.489)
t.test(x)$conf.int

[1] 1.508361 1.550373
attr(,"conf.level")
[1] 0.95

Calcular un intervalo de confianza del 99% para la media del contenido de alquitrán.

# Supuestos: X es normal.
# Como la varianza es desconocida, se hace uso de la T de student.
x <- c(1.542, 1.622, 1.440, 1.459, 1.598, 1.585, 1.466, 1.608, 1.533, 1.498, 
1.532, 1.546, 1.520, 1.532, 1.600, 1.466, 1.494, 1.523, 1.504, 1.499, 
1.548, 1.542, 1.397, 1.545, 1.611, 1.626, 1.511, 1.487, 1.558, 1.4891)
t.test(x, conf.level=0.99)$conf.int

[1] 1.501061 1.557679
attr(,"conf.level")
[1] 0.99

Problema 6

Los siguientes datos corresponden al tiempo de secado (en horas) de una nueva pintura:

x : 3.4, 2.5, 4.8, 2.9, 3.6, 2.8, 3.3, 5.6, 3.7, 2.8, 4.4, 4.0, 5.2, 3.0, 4.8 media = 3.786667 desviación estandar = 0.9709102 n = 15 a.Calcular un intervalo de confianza del 95% para la media del tiempo de secado.

x <- c(3.4, 2.5, 4.8, 2.9, 3.6, 2.8, 3.3, 5.6, 3.7, 2.8, 4.4, 4.0, 5.2, 3.0, 4.8)

n <- length(x)
media <- mean(x)
s <- sd(x)
alpha <- 0.05

t_crit <- qt(1 - alpha/2, df = n - 1)

IC_media <- media + c(-1, 1) * t_crit * (s / sqrt(n))
IC_media

[1] 3.248995 4.324339

Podemos afirmar con un 95% de confianza que el tiempo medio de secado de la pintura está entre 3.249 h y 4.324 h.

b.Calcular un intervalo de confianza del 98% para su varianza. Interpretar los resultados.

# Datos
x <- c(3.4, 2.5, 4.8, 2.9, 3.6, 2.8, 3.3, 5.6, 3.7, 2.8, 4.4, 4.0, 5.2, 3.0, 4.8)

n <- length(x)
s <- sd(x)                    # desviación estándar muestral
var_muestral <- s^2           # varianza muestral
df <- n - 1                   # grados de libertad
alpha <- 0.02                 # 98% de confianza

# Valores críticos de chi-cuadrado
chi_low  <- qchisq(1 - alpha/2, df)
chi_high <- qchisq(alpha/2, df)

# Intervalo para la varianza
IC_varianza <- (df * var_muestral) / c(chi_low, chi_high)
IC_varianza

[1] 0.4528748 2.8317875

Con un 98% de confianza la varianza verdadera del tiempo de secado está entre 0.4529 y 2.8318 (horas²). Esto indica que existe variabilidad apreciable en los tiempos de secado (la desviación estándar poblacional estaría entre 0.673 h y 1.682 h).

Problema 7

Problema 8

En un proceso de fabricación se compara la tensión de ruptura de dos métodos: estándar y con aleación. Las tensiones son las siguientes:

# proceso estandar
proc_est <- c(428, 419, 458, 439, 441, 456, 463, 429, 438, 445, 441, 463)

# Proceso nuevo: 
proc_nue <- c(462, 448, 435, 465, 429, 472, 453, 459, 427, 468, 452, 447)  

# Supuestos: x1 y x2 son normales y los grupos son independientes.
# ¿Las varianzas son iguales o diferentes?
# Se realiza la comparacion de varianzas
var.test(proc_est, proc_nue)$conf.int

[1] 0.2629879 3.1733660
attr(,"conf.level")
[1] 0.95

# Como el IC contiene a 1, las varianzas son iguales

t.test(proc_est, proc_nue)$conf.int

[1] -20.456585   4.289919
attr(,"conf.level")
[1] 0.95

Dado que el intervalo para la diferencia de medias es (-,+) los resultados obtenidos por los dos metodos se pueden suponer iguales (no hay una preferencia por alguno de los dos metodos). a. Obtener un intervalo de confianza del 95% para la diferencia de medias. b. Determinar si existe una diferencia real entre los dos procesos. ¿Cuál es más conveniente?

Problema 9

De una muestra aleatoria de 87 estaciones de gasolina, 13 tenían al menos un tanque subterráneo con fuga.

Determinar un intervalo de confianza del 95% para la proporción de estaciones con fugas.

prop.test(13, 87)$conf.int

[1] 0.08505843 0.24562438
attr(,"conf.level")
[1] 0.95

Con una confianza del 95%,la proporcion de tanques con fuga estan entre el 8.5% y el 24.5%.

Calcular el tamaño de muestra necesario para que un intervalo del 95% especifique la proporción dentro de mas o menos 0.03.
En caso de no tener información previa, discutir cómo calcular el tamaño muestral y si es necesario hacer ajustes por población finita.

Problema 10

El artículo de In-use Emissions from Heavy Duty Dissel Vehicles (J.Yanowitz, 2001) presenta las mediciones de eficiencia de combustible en millas/galón de una muestra de siete camiones. Los datos obtenidos son los siguientes: 7.69, 4.97, 4.56, 6.49, 4.34, 6.24 y 4.45. Se supone que es una muestra aleatoria de camiones y que se desea construir un intervalo de confianza del 95 % para la media de la eficiencia de combustible de esta población. No se tiene información de la distribución de los datos. El método bootstrap permite construir intervalos de confianza del 95 % - Para ilustrar el método suponga que coloca los valores de la muestra en una caja y extrae uno al azar. Este correspondería al primer valor de la muestra bootstrap X∗1. Después de anotado el valor se regresa X∗1 a la caja y se extrae el valor X2, regresandolo nuevamente. Este procedimiento se repite hasta completar una muestra de tamaño n, X1,X2,X2,Xn, conformando la muestra bootstrap.

Es necesario extraer un gran número de muestras (suponga k = 1000). Para cada una de las muestra bootstrap obtenidas se calcula la media X∗i¯ , obteniéndose un valor para cada muestra. El intervalo de confianza queda conformado por los percentiles P2.5 y P97.5. Existen dos métodos para estimarlo:

# Datos
x <- c(7.69, 4.97, 4.56, 6.49, 4.34, 6.24, 4.45)
n <- length(x)
k <- 1000    # número de muestras bootstrap

set.seed(123)  # para reproducibilidad

# Guardaremos las medias bootstrap
bootstrap_means <- numeric(k)

# Generar las k muestras bootstrap
for(i in 1:k){
  muestra_boot <- sample(x, size = n, replace = TRUE)
  bootstrap_means[i] <- mean(muestra_boot)
}

# Calcular percentiles 2.5 y 97.5
P2.5  <- quantile(bootstrap_means, 0.025)
P97.5 <- quantile(bootstrap_means, 0.975)

# -------------------------------
# MÉTODO 1: Intervalo percentil
IC1 <- c(P2.5, P97.5)

# -------------------------------
# MÉTODO 2: Intervalo corregido por sesgo
media_original <- mean(x)
IC2 <- c(2*media_original - P97.5, 2*media_original - P2.5)

# Mostrar resultados
IC1

    2.5%    97.5% 
4.748393 6.508643

IC2

   97.5%     2.5% 
4.559929 6.320179

Usando el método bootstrap con 1000 réplicas se obtuvieron dos intervalos de confianza al 95% para la media de la eficiencia de combustible. El método percentil** produjo el intervalo ([4.748,;6.509]), mientras que el método corregido por sesgo dio un intervalo ligeramente más estrecho, ([4.560,;6.320]). Ambos intervalos sugieren que la verdadera media poblacional de la eficiencia de combustible de estos camiones se encuentra aproximadamente entre 4.6 y 6.5 millas/galón, y las pequeñas diferencias entre métodos se deben a la forma en que cada uno ajusta la distribución bootstrap de las medias.