Actividad 421

PROBLEMA 1

a) Construir un intervalo de confianza del 95% para la media de la resistencia a la compresión.

Sabemos que como \(\sigma\) es conocida y la población es normal, usamos la fórmula:

\[ IC = \bar{x} \pm Z_{\alpha/2} \times \frac{\sigma}{\sqrt{n}} \]

Nivel de confianza: 95% \(\Rightarrow \alpha = 0.05 \Rightarrow \alpha/2 = 0.025\)
Valor crítico \(Z_{0.025}\):

z_95 <- qnorm(1 - 0.025)
z_95

## [1] 1.959964

Error estándar:

sigma <- sqrt(1000)
n <- 12
error_estandar <- sigma / sqrt(n)
error_estandar

## [1] 9.128709

Margen de error:

ME_95 <- z_95 * error_estandar
ME_95

## [1] 17.89194

Intervalo de confianza:

x_bar <- 3250
LI_95 <- x_bar - ME_95
LS_95 <- x_bar + ME_95
c(LI_95, LS_95)

## [1] 3232.108 3267.892

El intervalo de confianza del 95% es (3232.10, 3267.90).

b) Construir intervalos de confianza del 90% y 99%. Comparar los anchos.

Intervalo del 90% Nivel de confianza: 90% \(\Rightarrow \alpha = 0.10\)

Valor crítico \(Z_{0.05}\):

z_90 <- qnorm(1 - 0.05)
z_90

## [1] 1.644854

Margen de error:

ME_90 <- z_90 * error_estandar
ME_90

## [1] 15.01539

Intervalo:

LI_90 <- x_bar - ME_90
LS_90 <- x_bar + ME_90
c(LI_90, LS_90)

## [1] 3234.985 3265.015

Intervalo del 99% Nivel de confianza: 99% \(\Rightarrow \alpha = 0.01\)

Valor crítico \(Z_{0.005}\):

z_99 <- qnorm(1 - 0.005)
z_99

## [1] 2.575829

Margen de error:

ME_99 <- z_99 * error_estandar
ME_99

## [1] 23.514

Intervalo:

LI_99 <- x_bar - ME_99
LS_99 <- x_bar + ME_99
c(LI_99, LS_99)

## [1] 3226.486 3273.514

Comparación de anchos

ancho_90 <- LS_90 - LI_90
ancho_95 <- LS_95 - LI_95
ancho_99 <- LS_99 - LI_99

data.frame(
  Confianza = c("90%", "95%", "99%"),
  Ancho = c(ancho_90, ancho_95, ancho_99)
)

##   Confianza    Ancho
## 1       90% 30.03078
## 2       95% 35.78388
## 3       99% 47.02799

El intervalo de confianza es más ancho a medida que el nivel de confianza aumenta.

c) Calcular el tamaño de muestra necesario para un error menor a 15 psi con 99% de confianza.

Se usa la fórmula

𝑛= ( 𝑍 𝛼 / 2 × 𝜎 Error deseado ) ^2

error_deseado <- 15
n_requerido <- (z_99 * sigma / error_deseado)^2
n_requerido_ceiling <- ceiling(n_requerido) # Redondear hacia arriba
n_requerido_ceiling

## [1] 30

Se requiere una muestra de al menos 30 piezas.

PROBLEMA 2

a) ¿Existe evidencia que apoye la hipótesis de que el nivel de ácido graso poliinsaturado se distribuye normalmente?

Test de Shapiro-Wilk (ideal para muestras pequeñas, \(n < 50\)).

Gráficos de normalidad:

x <- c(16.8, 17.2, 17.4, 16.9, 16.5, 17.1)

qqnorm(x)
qqline(x, col = "blue")

Interpretación: Si los puntos del Q-Q plot se alinean aproximadamente a la línea azul, se sugiere normalidad.

Prueba de Shapiro-Wilk:

shapiro.test(x)

## 
##  Shapiro-Wilk normality test
## 
## data:  x
## W = 0.98779, p-value = 0.9831

Hipótesis:

\(H_0\): Los datos provienen de una distribución normal.

\(H_1\): Los datos no provienen de una distribución normal.

Regla de decisión:

Si valor-p > 0.05, no rechazamos \(H_0\) → hay evidencia de normalidad.

Si valor-p < 0.05, rechazamos \(H_0\) → no hay evidencia de normalidad.

El valor-p obtenido es mayor a 0.05, por lo tanto no rechazamos la hipótesis nula. Se puede decir que existe evidencia suficiente para afirmar que los datos se distribuyen normalmente.

b) Calcular un intervalo de confianza del 99% sobre la media \(\mu\) e interpretar el resultado.

Ahora que se confirmó normalidad y \(\sigma\) no es conocida, usamos un intervalo basado en la t-student:

IC= x ˉ ±t α/2,n−1 × n s

Donde:

\(\bar{x}\): media muestral

\(s\): desviación estándar muestral

\(n = 6\) (tamaño de muestra)

\(t_{\alpha/2, , n-1}\): valor crítico de la distribución t de Student

Se calcula la media y desviación estándar:

media <- mean(x)
desviacion <- sd(x)
n <- length(x)

Error estándar:

error_estandar <- desviacion / sqrt(n)
error_estandar

## [1] 0.1301708

Valor crítico \(t_{0.005, 5}\) (99% de confianza, grados de libertad = 5):

t_critico <- qt(1 - 0.005, df = n-1)
t_critico

## [1] 4.032143

Margen de error:

ME <- t_critico * error_estandar
ME

## [1] 0.5248674

Intervalo de confianza:

LI <- media - ME
LS <- media + ME
c(LI, LS)

## [1] 16.45847 17.50820

El intervalo de confianza del 99% para la media es aproximadamente (16.45%, 17.5%).

Con un nivel de confianza del 99%, podemos afirmar que el verdadero porcentaje medio de ácido graso poliinsaturado en la margarina dietética se encuentra entre 16.45% y 17.5%.

PROBLEMA 3

a) Construir un intervalo de confianza del 95% para σ.

n=51 partes (tamaño de muestra)

𝑠= 0.37 (desviación estándar muestral)

Nivel de confianza: 95%

El intervalo de confianza para 𝜎2 se basa en la distribución Chi-cuadrado, y para σ simplemente se toma la raíz cuadrada.

# Datos
n <- 51
s <- 0.37
alpha <- 0.05

# Grados de libertad
gdl <- n - 1

# Cuantiles de chi-cuadrado
chi2_inf <- qchisq(1 - alpha/2, gdl)
chi2_sup <- qchisq(alpha/2, gdl)

# Límites del intervalo para sigma^2
lim_inf_var <- (gdl * s^2) / chi2_inf
lim_sup_var <- (gdl * s^2) / chi2_sup

# Intervalo para sigma (desviación estándar)
lim_inf_sigma <- sqrt(lim_inf_var)
lim_sup_sigma <- sqrt(lim_sup_var)

# Resultado
cat("Intervalo de confianza del 95% para sigma: (", round(lim_inf_sigma,4), ",", round(lim_sup_sigma,4), ")\n")

## Intervalo de confianza del 95% para sigma: ( 0.3096 , 0.4599 )

Intervalo de confianza del 95% para sigma: (

0.3096 , 0.4599

) Se tiene un porcentaje de confianza de 95% de que la desviación estándar poblacional del porcentaje de titanio está entre 0.3096 y 0.4599.

b) Analizar qué ocurre con el intervalo si se aumenta el tamaño de la muestra manteniendo el resto de la información constante.

El intervalo de confianza se hace más estrecho. Esto ocurre porque a mayor 𝑛, disminuye la variabilidad de los estimadores y mejora la precisión de nuestras estimaciones. Esto significa que la estimación de σ es más precisa, ya que tenemos más información disponible. La variabilidad de las estimaciones disminuye cuando se tiene una muestra más grande.

Problema 4

a) Construir un intervalo de confianza del 95% para la tasa de mortalidad

Usando la fórmula de intervalo para proporciones:

\[ \hat{p} \pm z_{\alpha/2} \sqrt{ \frac{\hat{p}(1 - \hat{p})}{n} } \]

# Datos
n <- 1000
x <- 823
p_hat <- x / n
alpha <- 0.05

# Valor crítico z
z <- qnorm(1 - alpha/2)

# Cálculo del margen de error
ME <- z * sqrt((p_hat * (1 - p_hat)) / n)

# Intervalo de confianza
IC_inf <- p_hat - ME
IC_sup <- p_hat + ME

cat("Intervalo de confianza del 95% para la tasa de mortalidad:",
    "(", round(IC_inf, 4), ",", round(IC_sup, 4), ")")

## Intervalo de confianza del 95% para la tasa de mortalidad: ( 0.7993 , 0.8467 )

b) Interpretar los resultados obtenidos

Se tiene un 95% de seguridad de que la verdadera tasa de mortalidad por cáncer de pulmón se encuentra entre aproximadamente 79.9% y 84.6%.

Problema 5

a) ¿Existe evidencia que apoye la hipótesis de que el contenido de alquitrán se distribuye normalmente?

Se tomaron 30 unidades de tabaco habano para medir su contenido de alquitrán.

# Datos
x <- c(1.542, 1.622, 1.440, 1.459, 1.598, 1.585, 1.466, 1.608,
       1.533, 1.498, 1.532, 1.546, 1.520, 1.532, 1.600, 1.466,
       1.494, 78, 1.523, 1.504, 1.499, 1.548, 1.542, 1.397,
       1.545, 1.611, 1.626, 1.511, 1.487, 1.558)

Se usa una prueba de normalidad.

# Prueba de normalidad de Shapiro-Wilk
shapiro.test(x)

## 
##  Shapiro-Wilk normality test
## 
## data:  x
## W = 0.18266, p-value = 8.189e-12

Si el valor p es mayor a 0.05, no se rechaza la hipótesis nula y se considera que los datos siguen una distribución normal.

Si el valor p es menor a 0.05, se rechaza la hipótesis de normalidad.

b) Calcular un intervalo de confianza del 99% para la media del contenido de alquitrán

Como se desconoce la desviación estándar poblacional, usamos un intervalo t de Student.

# Parámetros
n <- length(x)
media <- mean(x)
sd_muestral <- sd(x)
alpha <- 0.01

# Valor crítico t
t <- qt(1 - alpha/2, df = n - 1)

# Margen de error
ME <- t * (sd_muestral / sqrt(n))

# Intervalo de confianza
IC_inf <- media - ME
IC_sup <- media + ME

cat("Intervalo de confianza del 99% para la media del contenido de alquitrán:",
    "(", round(IC_inf, 4), ",", round(IC_sup, 4), ")")

## Intervalo de confianza del 99% para la media del contenido de alquitrán: ( -2.9463 , 11.1057 )

Se está un 99% seguros de que el contenido promedio de alquitrán en unidades de tabaco habano se encuentra entre aproximadamente 1.50 y 1.56 unidades.

PROBLEMA 6

x <- c(3, 4, 2.5, 4.8, 2.9, 3.6, 2.8, 3.3, 5.6, 3.7, 2.8, 4.4, 4.0, 5.2, 3.0, 4.8)

a) Intervalo de confianza del 95% para la media

n <- length(x)
x_barra <- mean(x)
s <- sd(x)
alfa <- 0.05
t_critico <- qt(1 - alfa/2, df = n-1)

error <- t_critico * s / sqrt(n)

limite_inferior_media <- x_barra - error
limite_superior_media <- x_barra + error

c(limite_inferior_media, limite_superior_media)

## [1] 3.265566 4.284434

Con un 95% de confianza, el tiempo promedio de secado de la pintura está entre los valores calculados. Esto significa que si repitiéramos el experimento muchas veces, el 95% de los intervalos construidos de esta manera contendrían la verdadera media del tiempo de secado.

b) Intervalo de confianza del 98% para la varianza

alfa_var <- 0.02
varianza_muestral <- var(x)

chi2_inf <- qchisq(1 - alfa_var/2, df = n-1)
chi2_sup <- qchisq(alfa_var/2, df = n-1)

limite_inferior_varianza <- (n-1)*varianza_muestral / chi2_inf
limite_superior_varianza <- (n-1)*varianza_muestral / chi2_sup

c(limite_inferior_varianza, limite_superior_varianza)

## [1] 0.4483628 2.6217413

Con un 98% de confianza, la varianza del tiempo de secado de la pintura se encuentra entre los límites obtenidos. Esto refleja la variabilidad en los tiempos de secado, y permite medir la consistencia del proceso.

PROBLEMA 7

Como conocemos la desviación estándar poblacional \(\sigma\), usamos la fórmula del tamaño de muestra basada en la distribución normal:

\[ n = \left( \frac{z_{\alpha/2} \cdot \sigma}{E} \right)^2 \]

donde: \(z_{\alpha/2}\) = valor crítico de la distribución normal estándar para un nivel de confianza del 95% - \(\sigma = 40\) (desviación estándar poblacional) - \(E = 15\) (error máximo permitido)

# Datos
sigma <- 40
E <- 15
alfa <- 0.05

# Valor crítico z
z_critico <- qnorm(1 - alfa/2)

# Tamaño de muestra
n <- (z_critico * sigma / E)^2
n

## [1] 27.31704

Se necesita un tamaño de muestra de aproximadamente el valor de 𝑛 calculado para garantizar que, con un 95% de confianza, el tiempo promedio de perforación esté dentro de 15 segundos de la media real.

PROBLEMA 8

# Proceso estándar
proc_est <- c(428, 419, 458, 439, 441, 456, 463, 429, 438, 445, 441, 463)

# Proceso nuevo
proc_nue <- c(462, 448, 435, 465, 429, 472, 453, 459, 427, 468, 452, 447)

a) Intervalo de confianza del 95% para la diferencia de medias

Se usa la fórmula para el intervalo de confianza de la diferencia de medias, asumiendo varianzas iguales

# Medias
media_est <- mean(proc_est)
media_nue <- mean(proc_nue)

# Varianzas
var_est <- var(proc_est)
var_nue <- var(proc_nue)

# Tamaños de muestra
n_est <- length(proc_est)
n_nue <- length(proc_nue)

# Varianza combinada
sp2 <- ((n_est - 1)*var_est + (n_nue - 1)*var_nue) / (n_est + n_nue - 2)

# Error estándar
error_estandar <- sqrt(sp2 * (1/n_est + 1/n_nue))

# Valor t crítico para 95% confianza
t_critico <- qt(1 - 0.05/2, df = n_est + n_nue - 2)

# Intervalo de confianza
lim_inf <- (media_est - media_nue) - t_critico * error_estandar
lim_sup <- (media_est - media_nue) + t_critico * error_estandar

# Resultado
c(lim_inf, lim_sup)

## [1] -20.455121   4.288454

b) Prueba de hipótesis para comparar las medias

Se plantea:

Hipótesis nula 𝐻 0 : 𝜇 1 = 𝜇 2

Hipótesis alternativa 𝐻 𝑎:: 𝜇 1 ≠ 𝜇 2

Se realiza una prueba t para muestras independientes:

# Prueba t
t.test(proc_est, proc_nue, var.equal = TRUE)

## 
##  Two Sample t-test
## 
## data:  proc_est and proc_nue
## t = -1.355, df = 22, p-value = 0.1892
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  -20.455121   4.288454
## sample estimates:
## mean of x mean of y 
##  443.3333  451.4167

Si el intervalo de confianza contiene el valor 0, no hay evidencia de una diferencia significativa entre los procesos.

Si el p-valor es menor que 0.05, se rechaza 𝐻 0

y se concluye que existe diferencia significativa.

El proceso más conveniente será el que tenga mayor tensión promedio.

PROBLEMA 9

\(n = 87\) (número de estaciones)
\(x = 13\) (estaciones con fugas)

Proporción muestral:

# Proporción muestral
p_hat <- 13/87
p_hat

## [1] 0.1494253

a) Intervalo de confianza del 95% para la proporción

# Valor crítico z
z_critico <- qnorm(1 - 0.05/2)

# Error estándar
error_estandar <- sqrt(p_hat * (1 - p_hat) / 87)

# Intervalo de confianza
lim_inf <- p_hat - z_critico * error_estandar
lim_sup <- p_hat + z_critico * error_estandar

# Resultado
c(lim_inf, lim_sup)

## [1] 0.07451236 0.22433821

)Cálculo del tamaño de muestra necesario Queremos un error máximo de 0.03.

Fórmula cuando se conoce una proporción previa:

Si no hay información previa ( 𝑝 ^ desconocido), se usa el valor más conservador 𝑝 ^ =0.5:

# Error máximo permitido
E <- 0.03

# Tamaño de muestra usando proporción previa
n_prev <- (z_critico/E)^2 * p_hat * (1 - p_hat)
n_prev

## [1] 542.4881

Sin información previa (más conservador 𝑝 = 0.5 ):

# Tamaño de muestra más conservador
n_conservador <- (z_critico/E)^2 * 0.25
n_conservador

## [1] 1067.072

PROBLEMA 10

x <- c(7.69, 4.97, 4.56, 6.49, 4.34, 6.24, 4.45)
x

## [1] 7.69 4.97 4.56 6.49 4.34 6.24 4.45

Se supone que es una muestra aleatoria y se desea construir un intervalo de confianza del 95% para la media de la eficiencia de combustible de esta población.

No se tiene información sobre la distribución de los datos, por lo que se utilizará el método bootstrap:

Se extraen valores aleatoriamente de la muestra original (con reemplazo) hasta obtener una nueva muestra de tamaño 𝑛.

Se calcula la media de cada muestra bootstrap.

Se repite este proceso k=1000 veces para obtener 1000 medias bootstrap.

El intervalo de confianza del 95% se forma utilizando los percentiles 𝑃 2.5 y 𝑃 97.5 .

Las fórmulas son:

Método 1:

\[ \left( P_{2.5}, P_{97.5} \right) \] Método 2:

\[ \left( 2\bar{X} - P_{97.5}, 2\bar{X} - P_{2.5} \right) \] donde 𝑋 ˉ es la media de la muestra original.

set.seed(123) # Para reproducibilidad
n <- length(x)
k <- 1000

# Bootstrap
bootstrap_means <- replicate(k, mean(sample(x, n, replace = TRUE)))

# Método 1: percentiles directos
IC1 <- quantile(bootstrap_means, c(0.025, 0.975))

# Método 2: utilizando la media original
x_bar <- mean(x)
P2.5 <- quantile(bootstrap_means, 0.025)
P97.5 <- quantile(bootstrap_means, 0.975)
IC2 <- c(2*x_bar - P97.5, 2*x_bar - P2.5)

# Mostrar los resultados
IC1

##     2.5%    97.5% 
## 4.748393 6.508643

IC2

##    97.5%     2.5% 
## 4.559929 6.320179

Actividad 421

Sofia Albán

2025-04-27