Una empresa fabricante de laptops afirma que la duración de las baterías de su modelo más reciente sigue una distribución normal con una desviación estándar poblacional de 1.2 horas. Para verificar esta afirmación, se toma una muestra aleatoria de 50 baterías y se obtiene una duración promedio muestral de 8.5 horas.
Datos
Desviación estándar poblacional (σ) = 1.2 horas.
Tamaño de la muestra (n) = 50 baterías.
Media muestral (x̄) = 8.5 horas.
Nivel de confianza = 95% → Z_{α/2} = 1.96 (valor crítico de la distribución normal estándar).
Fórmula del intervalo de confianza para la media (varianza conocida):
IC = \bar{x} \pm Z_{\alpha/2} \cdot \left( \frac{\sigma}{\sqrt{n}} \right)
IC = 8.5 \pm 0.3326 \Rightarrow (8.1674,\; 8.8326) \text{ horas.}
Ver código
# Configuración iniciallibrary(ggplot2)# Datos del problemamedia_muestral <-8.5sigma <-1.2n <-50error_estandar <- sigma /sqrt(n)grados_libertad <- n -1# Para t-Studentnivel_confianza <-0.95alpha <-1- nivel_confianza# Valores críticosz_critico <-qnorm(1- alpha/2) # Normal (1.96)t_critico <-qt(1- alpha/2, df = grados_libertad) # t-Student (~1.96 para n grande)# Límites del intervalo de confianzalim_inf <- media_muestral - t_critico * error_estandarlim_sup <- media_muestral + t_critico * error_estandar# Crear datos para las gráficasx <-seq(media_muestral -4* error_estandar, media_muestral +4* error_estandar, length.out =1000)# Datos para la distribución normal (varianza conocida)y_normal <-dnorm(x, mean = media_muestral, sd = error_estandar)# Datos para la distribución t-Student (varianza desconocida, por comparación)y_t <-dt((x - media_muestral) / error_estandar, df = grados_libertad) / error_estandar# Dataframe para ggplotdf <-data.frame(x = x, y_normal = y_normal, y_t = y_t)# Gráfica comparativa (t-Student vs Normal)ggplot(df, aes(x = x)) +# Línea de la distribución normalgeom_line(aes(y = y_normal, color ="Normal (σ conocida)"), linewidth =1.2) +# Línea de la distribución t-Studentgeom_line(aes(y = y_t, color ="t-Student (σ desconocida)"), linewidth =1.2, linetype ="dashed") +# Área sombreada para el IC (usando t-Student)geom_area(data =subset(df, x >= lim_inf & x <= lim_sup),aes(y = y_t, fill ="Intervalo de Confianza (95%)"), alpha =0.5) +# Líneas verticales para los límites del ICgeom_vline(xintercept =c(lim_inf, lim_sup), linetype ="dotted", color ="red") +# Etiquetas y títulolabs(title ="Intervalo de Confianza del 95% para la Media",subtitle =paste("Media muestral =", media_muestral, "horas; n =", n),x ="Duración de baterías (horas)",y ="Densidad",color ="Distribución",fill ="" ) +scale_color_manual(values =c("blue", "darkgreen")) +scale_fill_manual(values ="skyblue") +theme_minimal() +theme(legend.position ="bottom")
Interpretación:
Con un 95% de confianza, se estima que la verdadera duración media (μ) de las baterías del modelo está entre 8.17 horas y 8.83 horas. Como el intervalo no incluye valores inferiores a 8.17 horas ni superiores a 8.83 horas, la empresa podría usar este resultado para validar o ajustar su afirmación sobre la duración promedio de las baterías.
2.2 . Media Varianza Desconocida
Una empresa desea estimar la duración promedio de las baterías de su nuevo modelo de laptop. No se conoce la desviación estándar poblacional. Se toma una muestra aleatoria de 30 baterías, obteniendo los siguientes resultados:
Duración promedio muestral (\bar{x}): 7.8 horas.
Desviación estándar muestral (s): 1.5 horas.
Se pide:
Calcular un intervalo de confianza del 95% para la verdadera duración media (μ) de las baterías.
Interpretar el resultado.
Datos:
Tamaño de muestra (n) = 30 (grados de libertad = n−1=29).
Media muestral (\bar{x}) = 7.8 horas.
Desviación estándar muestral (s) = 1.5 horas.
Nivel de confianza = 95% → α=0.05.
Intervalo de confianza para la media poblacional varianza desconocida
IC = \bar{x} \pm t_{\alpha/2,\,n-1} \cdot \left(\frac{s}{\sqrt{n}}\right)
IC = 7.8 \pm 0.56 \Rightarrow (7.24,\; 8.36) \text{ horas}
Ver código
library(ggplot2)# Datos del problemamedia_muestral <-7.8s <-1.5n <-30grados_libertad <- n -1error_estandar <- s /sqrt(n)t_critico <-qt(0.975, df = grados_libertad) # 2.045# Límites del IClim_inf <- media_muestral - t_critico * error_estandarlim_sup <- media_muestral + t_critico * error_estandar# Crear datos para la curva t-Studentx <-seq(media_muestral -4* error_estandar, media_muestral +4* error_estandar, length.out =1000)y_t <-dt((x - media_muestral) / error_estandar, df = grados_libertad) / error_estandar# Dataframe para ggplotdf <-data.frame(x = x, y_t = y_t)# Gráficaggplot(df, aes(x = x)) +geom_line(aes(y = y_t, color ="t-Student (σ desconocida)"), linewidth =1.2) +geom_area(data =subset(df, x >= lim_inf & x <= lim_sup),aes(y = y_t, fill ="IC 95%"), alpha =0.5) +geom_vline(xintercept =c(lim_inf, lim_sup), linetype ="dashed", color ="red") +geom_vline(xintercept = media_muestral, color ="blue") +labs(title ="Intervalo de Confianza del 95% (t-Student)",subtitle =paste("Media =", media_muestral, "horas; n =", n, "; s =", s),x ="Duración de baterías (horas)",y ="Densidad",color ="",fill ="" ) +scale_color_manual(values ="darkgreen") +scale_fill_manual(values ="skyblue") +theme_minimal() +theme(legend.position ="bottom")
Interpretación:
Con un 95% de confianza, la duración media real (μ) de las baterías está entre 7.24 y 8.36 horas. Como la empresa no conocía σ, usamos la distribución t-Student para mayor precisión.
2.3 . Proporción Poblacional
Una empresa de telecomunicaciones desea estimar la proporción de clientes satisfechos con su nuevo servicio. En una muestra aleatoria de 200 clientes, 140 reportaron estar satisfechos.
Se pide:
Calcular un intervalo de confianza del 95% para la verdadera proporción poblacional (p) de clientes satisfechos.
Interpretar los resultado
Intervalo de confianza para la proporción poblacional
Una fábrica necesita verificar la uniformidad del diámetro de sus tornillos. Se toma una muestra aleatoria de 25 tornillos, obteniendo una varianza muestral ( s^{2}) de 0.04 mm². Construya un intervalo de confianza del 90% para la varianza poblacional (\sigma ^{2})
Un entrenador quiere evaluar si su nuevo programa de ejercicios mejora el rendimiento. Se miden los tiempos (en segundos) de 10 atletas en una carrera de 100m antes y después del programa:
Ver código
# Cargar librerías necesariaslibrary(knitr)library(kableExtra)# Crear los datos exactos del problemadatos <-data.frame(Atleta =1:10,Antes =c(12.5, 11.8, 13.2, 14.0, 12.9, 11.5, 13.1, 12.7, 14.5, 12.3), Después =c(12.1, 11.5, 12.9, 13.7, 12.6, 11.2, 12.8, 12.4, 14.0, 12.0),Diferencia =c(-0.4, -0.3, -0.3, -0.3, -0.3, -0.3, -0.3, -0.3, -0.5, -0.3))# Generar la tabla idéntica al formato originalkable(datos, format ="html", align ='c', col.names =c("Atleta", "Antes", "Después", "Diferencia"),caption ="Datos de tiempos de carrera (en segundos)") %>%kable_styling(bootstrap_options =c("striped", "condensed"), full_width =FALSE) %>%add_header_above(c(" ", "Tiempos"=2, " "=1)) %>%footnote(general ="Datos de ejemplo para análisis de diferencias pareadas")
Datos de tiempos de carrera (en segundos)
Tiempos
Atleta
Antes
Después
Diferencia
1
12.5
12.1
-0.4
2
11.8
11.5
-0.3
3
13.2
12.9
-0.3
4
14.0
13.7
-0.3
5
12.9
12.6
-0.3
6
11.5
11.2
-0.3
7
13.1
12.8
-0.3
8
12.7
12.4
-0.3
9
14.5
14.0
-0.5
10
12.3
12.0
-0.3
Note:
Datos de ejemplo para análisis de diferencias pareadas
Calcular diferencias (s−Antes (columna derecha en la tabla).
Un estudiante universitario quiere determinar cuál de dos restaurantes de comida rápida cercanos a su campus tiene un tiempo de entrega más rápido en promedio. Para ello, realiza un estudio registrando los tiempos de entrega (en minutos) de una muestra aleatoria de pedidos de cada restaurante.
Datos muestrales:
Restaurante A:
Tamaño de muestra n_{A}: 30 pedidos Tiempo promedio de entrega \bar{X}_{A}: 25 minutos Desviación estándar muestral s_{A}
Restaurante B:
Tamaño de muestra n_{B}: 35 pedidos Tiempo promedio de entrega \bar{X}_{B}: 28 minutos Desviación estándar muestral s_{B}
Supuestos:
Las muestras son independientes y provienen de poblaciones aproximadamente normales.
Las varianzas poblacionales son desconocidas pero se asumen distintas (caso no pareado).
Pregunta: Construye un intervalo de confianza del 95% para la diferencia de medias poblacionales (\mu A -\mu B) e interpreta el resultado. ¿Hay evidencia de que uno de los restaurantes tenga un tiempo de entrega significativamente más rápido?
if(IC_inf <0& IC_sup <0) {cat("→ Evidencia estadística (p < 0.05) de que:\n")cat(sprintf(" El Restaurante A es entre %.1f y %.1f minutos más rápido que el B\n", abs(IC_sup), abs(IC_inf)))} elseif(IC_inf >0& IC_sup >0) {cat("→ Evidencia estadística (p < 0.05) de que:\n")cat(sprintf(" El Restaurante B es entre %.1f y %.1f minutos más rápido que el A\n", IC_inf, IC_sup))} else {cat("→ No hay evidencia significativa (p > 0.05) de diferencia\n")}
→ Evidencia estadística (p < 0.05) de que:
El Restaurante A es entre 1.6 y 5.6 minutos más rápido que el B
Con un 95% de confianza, la diferencia (\mu A -\mu ) −5.256 −0.744 minutos.
Como el intervalo no incluye el cero, hay evidencia de que el Restaurante A es más rápido en promedio que el Restaurante B.
2.6.1 . Intervalo de confianza para diferencia de medias con varianzas desconocidas e iguales
Un entrenador de atletismo quiere determinar si un nuevo método de entrenamiento (Método A) es más efectivo que el tradicional (Método B) para mejorar el tiempo en 100 metros planos. Se realizó un estudio con dos grupos aleatorios de atletas:
if(IC_inf >0) {cat("→ El Método A es significativamente mejor (p < 0.05)\n")cat(sprintf("→ La mejora está entre %.3f y %.3f segundos\n", IC_inf, IC_sup))} else {cat("→ No hay evidencia de diferencia significativa (p > 0.05)\n")}
→ El Método A es significativamente mejor (p < 0.05)
→ La mejora está entre 0.037 y 0.223 segundos
Hay evidencia estadísticamente significativa ( p<0.05) de que el Método A produce una mejora promedio entre 0.037 y 0.223 segundos mayor que el Método B.
2.6.2 . Intervalo de confianza para diferencia de medias con varianzas desconocidas y distintas
Un equipo de ingenieros industriales quiere comparar la eficiencia de dos métodos de ensamblaje (A y B) en una fábrica de automóviles. Se registra el tiempo (en minutos) que tardan los trabajadores en ensamblar una pieza clave utilizando cada método.
Para el Método A, se tomó una muestra de 15 trabajadores, obteniendo un tiempo promedio de 12.8 minutos con una desviación estándar muestral de 2.5 minutos.
Para el Método B, se evaluaron 12 trabajadores, con un tiempo promedio de 10.5 minutos y una desviación estándar muestral de 1.8 minutos.
Suponiendo que los tiempos siguen distribuciones normales con varianzas desconocidas y distintas, construye un intervalo de confianza del 95% para la diferencia entre los tiempos medios de ensamblaje (μ_A – μ_B)
¿Cuál es el intervalo de confianza para la diferencia de medias? ¿Existe evidencia significativa de que un método es más rápido que el otro?
Datos
Método A: $ {X}_A = 12.8, s_A = 2.5, n_A = 15 $
Método B: $ {X}_B = 10.5, s_B = 1.8, n_B = 12 $
Diferencia de medias:
$ {X}_A - {X}_B = 12.8 - 10.5 = 2.3 , $
Error estándar (varianzas distintas):
SE = \sqrt{\frac{s_A^2}{n_A} + \frac{s_B^2}{n_B}} = \sqrt{\frac{2.5^2}{15} + \frac{1.8^2}{12}} \approx \sqrt{0.4167 + 0.27} \approx 0.829
Grados de libertad (Welch-Satterthwaite):
IC = (\bar{X}_A - \bar{X}_B) \pm t_{\alpha/2, \nu} \cdot SE = 2.3 \pm 2.064 \times 0.829 \approx 2.3 \pm 1.71
Ver código
# Cargar libreríaslibrary(ggplot2)# Parámetros del problemadf <-24# Grados de libertad (aproximación de Welch)t_critico <-2.064# Valor crítico para 95% de confianzadiferencia_media <-2.3# Diferencia observadaerror_estandar <-0.829# Error estándar# Límites del intervalo de confianzalim_inf <- diferencia_media - t_critico * error_estandarlim_sup <- diferencia_media + t_critico * error_estandar# Crear datos para la curva tx <-seq(-4, 4, length.out =200)y <-dt(x, df = df)# Datos para el área sombreada (cola izquierda)x_shade_left <-seq(-4, -t_critico, length.out =50)y_shade_left <-dt(x_shade_left, df = df)left_shade <-data.frame(x =c(-4, x_shade_left, -t_critico), y =c(0, y_shade_left, 0))# Datos para el área sombreada (cola derecha)x_shade_right <-seq(t_critico, 4, length.out =50)y_shade_right <-dt(x_shade_right, df = df)right_shade <-data.frame(x =c(t_critico, x_shade_right, 4), y =c(0, y_shade_right, 0))# Gráficoggplot(data.frame(x, y), aes(x, y)) +# Curva t-Studentgeom_line(color ="#1f77b4", linewidth =1.2) +# Áreas de rechazo (sombreadas)geom_polygon(data = left_shade, aes(x, y), fill ="#ff7f0e", alpha =0.5) +geom_polygon(data = right_shade, aes(x, y), fill ="#ff7f0e", alpha =0.5) +# Líneas críticasgeom_vline(xintercept =c(-t_critico, t_critico), linetype ="dashed", color ="#d62728") +# Etiquetasannotate("text", x =-2.8, y =0.1, label ="2.5%", color ="black", size =5) +annotate("text", x =2.8, y =0.1, label ="2.5%", color ="black", size =5) +annotate("text", x =0, y =0.2, label ="95% de confianza", color ="black", size =5) +# Línea centralgeom_vline(xintercept =0, linetype ="solid", color ="gray50") +# Escala y temasscale_x_continuous(breaks =c(-t_critico, 0, t_critico),labels =c("-2.064", "0", "2.064")) +labs(title ="Distribución t-Student (ν = 24) con Intervalo de Confianza del 95%",subtitle ="Áreas sombreadas representan las regiones de rechazo (α = 0.05)",x ="Valores t", y ="Densidad de probabilidad") +theme_minimal() +theme(plot.title =element_text(hjust =0.5, face ="bold"),plot.subtitle =element_text(hjust =0.5))
Conclusión: Con un 95% de confianza, la diferencia en tiempos medios de ensamblaje (A – B) está entre 0.59 y 4.01 minutos. Como el intervalo no incluye el cero, hay evidencia de que el Método B es significativamente más rápido que el Método A.
2.7 . Diferencia de dos proporciones poblacionales
Un hospital quiere comparar la efectividad de dos tratamientos para una misma enfermedad. Se realizó un estudio donde:
Tratamiento A (nuevo) fue aplicado a 150 pacientes, con 105 casos exitosos
Tratamiento B (tradicional) fue aplicado a 130 pacientes, con 78 casos exitosos
El equipo médico necesita determinar si existe diferencia significativa en la efectividad entre ambos tratamientos y, de existir, estimar su magnitud.
# LIBRERÍASlibrary(ggplot2)# DATOS DEL PROBLEMAn1 <-150exitos1 <-105p1_hat <- exitos1/n1n2 <-130exitos2 <-78p2_hat <- exitos2/n2diferencia_obs <- p1_hat - p2_haterror_std <-sqrt(p1_hat*(1-p1_hat)/n1 + p2_hat*(1-p2_hat)/n2)# APROXIMACIÓN NORMAL (para proporciones grandes)z_critico <-qnorm(0.975)IC_inf <- diferencia_obs - z_critico*error_stdIC_sup <- diferencia_obs + z_critico*error_std# GRÁFICO CON DISTRIBUCIÓN NORMAL (APROXIMACIÓN)ggplot(data.frame(x =seq(-0.2, 0.4, length.out =1000)), aes(x)) +# Curva normalstat_function(fun =function(x) dnorm(x, mean = diferencia_obs, sd = error_std),geom ="area", fill ="#4E79A7", alpha =0.2 ) +# Área sombreada del ICstat_function(fun =function(x) dnorm(x, mean = diferencia_obs, sd = error_std),geom ="area", xlim =c(IC_inf, IC_sup),fill ="#F28E2B", alpha =0.5 ) +# Línea de la distribuciónstat_function(fun =function(x) dnorm(x, mean = diferencia_obs, sd = error_std),geom ="line", color ="#4E79A7", linewidth =1 ) +# Líneas críticasgeom_vline(xintercept =c(IC_inf, IC_sup), color ="#E15759", linetype ="dashed", linewidth =0.8) +geom_vline(xintercept = diferencia_obs, color ="#4E79A7", linewidth =1.2) +geom_vline(xintercept =0, color ="gray40", linetype ="longdash") +# Anotacionesannotate("text", x = diferencia_obs, y =1.5, label =paste0("Diferencia = ", round(diferencia_obs, 2)), color ="#4E79A7", size =4.5) +annotate("text", x =mean(c(IC_inf, IC_sup)), y =2.5,label =paste0("IC 95%: [", round(IC_inf, 3), ", ", round(IC_sup, 3), "]"), color ="#E15759", size =4.5) +annotate("text", x =0, y =1.5, label ="No diferencia (0)", color ="gray40", angle =90, vjust =-0.5) +# Formatolabs(title ="Intervalo de Confianza para Diferencia de Proporciones",subtitle ="Tratamiento A (70% éxito) vs. Tratamiento B (60% éxito)",x ="Diferencia en proporción de éxitos (A - B)",y ="Densidad de probabilidad",caption =paste0("n(A) = ", n1, ", n(B) = ", n2, " | Aproximación normal") ) +theme_minimal(base_size =14) +theme(plot.title =element_text(face ="bold", hjust =0.5),plot.subtitle =element_text(hjust =0.5),panel.grid.minor =element_blank() ) +scale_x_continuous(breaks =seq(-0.2, 0.4, by =0.1))
Interpretación:
Con 95% de confianza, la verdadera diferencia en efectividad está entre -0.4% y +20.4%
Como el intervalo incluye el cero (punto de no diferencia), no hay evidencia estadísticamente significativa al 95% (p > 0.05)
La diferencia observada del 10% podría deberse al azar muestral
Conclución
Con un 95% de confianza, la verdadera diferencia en efectividad entre los tratamientos A y B se encuentra en el intervalo [−0.4%,20.4%]. Como este intervalo , no existe evidencia estadísticamente significativa (p=0.059>0.05) para afirmar que los tratamientos difieren en efectividad.
3 . Conclusión final del trabajo
A lo largo de este estudio, exploramos diversos casos de intervalos de confianza, aplicando técnicas estadísticas mediante el lenguaje R. Este proceso permitió afianzar tanto los conceptos teóricos como las habilidades prácticas necesarias para su implementación en contextos reales.
Se abordaron situaciones que incluyeron:
Estimación de medias poblacionales (con varianzas conocidas y desconocidas)
Comparación de medias entre grupos independientes
Análisis de proporciones y diferencias entre ellas
En cada escenario, se realizó no solo el cálculo numérico de los intervalos, sino también su representación gráfica, lo que facilitó la interpretación de los resultados. Se integraron herramientas complementarias como pruebas de normalidad y visualizaciones de distribuciones, lo que enriqueció el rigor del análisis.
Un aspecto clave fue comprender cómo los supuestos subyacentes (como la igualdad de varianzas o el tamaño muestral) influyen en la construcción de los intervalos. Esta comprensión es fundamental para seleccionar el método adecuado y validar las conclusiones.
Aportes principales:
Precisión en la estimación: Los intervalos de confianza proporcionaron rangos plausibles para parámetros desconocidos, destacando la importancia de cuantificar la incertidumbre en inferencia estadística.
Toma de decisiones informada: En casos como la comparación de tratamientos médicos, los resultados subrayaron que diferencias aparentes pueden no ser estadísticamente significativas, lo que tiene implicaciones prácticas.
Integración teoría-práctica: El uso de R permitió traducir fórmulas abstractas en resultados tangibles, reforzando el aprendizaje mediante la experimentación.
Perspectivas futuras: Este trabajo sienta las bases para abordar problemas más complejos, como diseños experimentales con múltiples grupos o análisis de regresión. Además, resalta la necesidad de comunicar resultados estadísticos de manera clara, especialmente en ámbitos donde las decisiones dependen de su correcta interpretación.
En conclusión, el dominio de los intervalos de confianza —desde su fundamento matemático hasta su aplicación computacional— es una competencia esencial para cualquier profesional que trabaje con datos. Este ejercicio no solo consolidó conocimientos estadísticos, sino que también desarrolló la capacidad para evaluar críticamente supuestos y resultados, preparando el terreno para análisis más avanzados.
Nota metodológica: Todos los cálculos y gráficos se realizaron verificando los supuestos requeridos, asegurando la validez de las conclusiones. Los ejemplos prácticos elegidos reflejan situaciones comunes en investigación aplicada.