Un intervalo de confianza es un rango de valores dentro del cual se estima, con un determinado nivel de probabilidad, que se encuentra el valor real de un parámetro poblacional desconocido. Se trata de una herramienta estadística fundamental que permite cuantificar la incertidumbre asociada con una estimación muestral.
Formalmente, un intervalo de confianza al nivel (1-\alpha) para un parámetro poblacional \theta es una expresión del tipo [\theta_1, \theta_2] tal que \operatorname{P}[\theta_1 \leq \theta \leq \theta_2] = 1-\alpha, donde \operatorname{P} es la función de distribución de probabilidad de \theta.
Componentes y Estructura
Elementos Básicos
El intervalo de confianza se construye alrededor de un estimador puntual (como la media muestral \bar{x} para estimar la media poblacional \mu) y tiene la forma general:
\text{Estimador} \pm \text{Margen de Error}
El margen de error se calcula considerando:
El error estándar de la estimación
Un valor crítico de la distribución correspondiente (normal o t-Student)
El nivel de confianza deseado
Nivel de Confianza
El nivel de confianza (generalmente expresado como 90%, 95% o 99%) indica el porcentaje de intervalos que, tomados de múltiples muestras independientes, contendrían el verdadero valor del parámetro poblacional. Un nivel de confianza del 95% significa que si repitiéramos el proceso de muestreo 100 veces, aproximadamente 95 de los intervalos calculados contendrían el parámetro real.
Tipos de Intervalos de Confianza:
-Para la Media Poblacional
Cuando se conoce la desviación estándar poblacional (\sigma):
Donde se utiliza la distribución t-Student con n-1 grados de libertad.
-Para Proporciones
Para estimar una proporción poblacional p cuando se cumplen las condiciones de muestra grande:
\hat{p} \pm Z_{\alpha/2} \sqrt{\frac{\hat{p}(1-\hat{p})}{n}}
Donde \hat{p} es la proporción muestral y se requiere que n > 30, n \cdot \hat{p} > 5 y n \cdot (1-\hat{p}) > 5.
Para la Varianza
Para poblaciones normales, el intervalo de confianza para la varianza \sigma^2 utiliza la distribución chi-cuadrado:
\left[\frac{(n-1)S^2}{\chi^2_{n-1;\alpha/2}}, \frac{(n-1)S^2}{\chi^2_{n-1;1-\alpha/2}}\right]
Interpretación Correcta
La interpretación estadística correcta es que el intervalo de confianza tiene una probabilidad (1-\alpha) de contener el parámetro poblacional verdadero. Si tenemos un intervalo de confianza del 95% de para una media, esto significa que “tenemos un 95% de confianza en que el verdadero valor de la media poblacional se encuentra entre 48 y 52”.
Errores Comunes de Interpretación
Error frecuente: Pensar que existe un 95% de probabilidad de que el verdadero valor esté dentro del intervalo específico calculado. La realidad es que el parámetro poblacional es un valor fijo; el intervalo lo contiene o no lo contiene.
Interpretación correcta: El 95% se refiere a la confiabilidad del método de construcción del intervalo, no a la probabilidad de que un intervalo específico contenga el parámetro.
Factores que Afectan la Amplitud
La amplitud del intervalo de confianza está determinada por varios factores:
Tamaño de la Muestra
Mayor tamaño de muestra: Intervalo más estrecho (mayor precisión)
Menor tamaño de muestra: Intervalo más amplio (menor precisión)
Nivel de Confianza
Mayor nivel de confianza (99% vs 95%): Intervalo más amplio
Menor nivel de confianza: Intervalo más estrecho pero menos confiable
Variabilidad de los Datos
Mayor desviación estándar: Intervalo más amplio
Menor desviación estándar: Intervalo más estrecho
Aplicaciones Prácticas
En Medicina Los intervalos de confianza se utilizan para estimar el rango de posibles efectos de tratamientos específicos. Por ejemplo, un intervalo de confianza del 95% para la efectividad de un medicamento podría indicar que el verdadero efecto del tratamiento se encuentra entre una mejora del 10% y 20%.
En Encuestas y Estudios de Opinión En encuestas políticas, un intervalo de confianza del 95% podría indicar que el verdadero porcentaje de votantes que apoyarán a un candidato está entre 45% y 55%.
En Control de Calidad Las industrias utilizan intervalos de confianza para monitorear procesos de fabricación y establecer límites de control que detecten desviaciones de la norma.
En Economía y Finanzas Se emplean para estimar indicadores económicos como tasas de desempleo, crecimiento del PIB, y para calcular el Valor en Riesgo (VaR) en instituciones financieras.
Ventajas y Limitaciones
Ventajas
Cuantificación de la incertidumbre: Proporcionan un rango de valores plausibles para el parámetro poblacional, permitiendo evaluar la precisión de la estimación.
Interpretabilidad: Son más intuitivos que los valores p, facilitando la comunicación con audiencias no especializadas.
Robustez: Mantienen su validez incluso con tamaños de muestra relativamente pequeños.
Limitaciones
Malinterpretación frecuente: A menudo se interpretan incorrectamente como la probabilidad de que el parámetro esté en el intervalo.
Dependencia de supuestos: Su validez depende del cumplimiento de supuestos sobre la distribución de los datos.
Sensibilidad al tamaño de muestra: Muestras pequeñas pueden resultar en intervalos muy amplios, limitando su utilidad práctica.
Mejores Prácticas
Para obtener intervalos de confianza más precisos se recomienda:
Aumentar el tamaño de la muestra cuando sea factible
Reducir la variabilidad mejorando los métodos de medición
Verificar los supuestos del modelo antes de la interpretación
Considerar intervalos unilaterales cuando solo interese una dirección del parámetro
Equilibrar precisión y confianza según las necesidades del estudio
Los intervalos de confianza constituyen una herramienta fundamental en la inferencia estadística, proporcionando una manera rigurosa de expresar la incertidumbre en las estimaciones y facilitando la toma de decisiones basada en evidencia empírica.
2.1 . Media varianza poblacional conocida
Intervalo de confianza para la media poblacional varianza conocida
2.1.1 . Problema
Una empresa cafetera de Ibagué desea estimar el peso promedio de los paquetes de café que produce una de sus plantas. Se sabe que la varianza poblacional del peso de los paquetes es de 4 gramos cuadrados (\sigma^2 = 4). Se toma una muestra aleatoria de 36 paquetes y se obtiene una media muestral de 499 gramos. Construye un intervalo de confianza del 95% para la media poblacional del peso de los paquetes.
El intervalo de confianza del 95% para la media poblacional del peso de los paquetes de café es:
\boxed{[498.35,\ 499.65]\ \text{gramos}}
2.1.2 . Problema en R
Ver código
# Datos del probleman <-36# Tamaño de la muestramedia_muestral <-499# Media muestralvarianza_poblacional <-4# Varianza poblacional conocidanivel_confianza <-0.95# Nivel de confianza (95%)# Calcular el error estándarerror_estandar <-sqrt(varianza_poblacional / n)# Calcular el valor crítico Z para el nivel de confianzaz_critico <-qnorm((1+ nivel_confianza) /2)# Calcular los límites del intervalo de confianzalimite_inferior <- media_muestral - z_critico * error_estandarlimite_superior <- media_muestral + z_critico * error_estandar# Mostrar resultadoscat("Intervalo de confianza para la media poblacional: [", round(limite_inferior, 2), ",", round(limite_superior, 2), "]\n")
Intervalo de confianza para la media poblacional: [ 498.35 , 499.65 ]
Gráfica
Ver código
# Parámetrosn <-36df <- n -1nivel_confianza <-0.95# Valores críticos t para el intervalo de confianza bilateralalpha <-1- nivel_confianzat_critico <-qt(1- alpha/2, df)# Secuencia de valores para graficar la curva tx <-seq(-4, 4, length =1000)y <-dt(x, df)# Graficar la curva tplot(x, y, type ="l", lwd =2, col ="blue",main =paste("Distribución t de Student (gl =", df, ")"),ylab ="Densidad", xlab ="t")# Sombrear el área central (intervalo de confianza)x_sombra <-seq(-t_critico, t_critico, length =1000)y_sombra <-dt(x_sombra, df)polygon(c(x_sombra, rev(x_sombra)),c(y_sombra, rep(0, length(y_sombra))),col =rgb(0.2, 0.6, 1, 0.5), border =NA)# Añadir líneas verticales en los valores críticosabline(v =c(-t_critico, t_critico), col ="red", lty =2, lwd =2)# Texto con los valores críticostext(-t_critico, 0.02, round(-t_critico, 2), pos =2, col ="red")text(t_critico, 0.02, round(t_critico, 2), pos =4, col ="red")
Interpretación:
Con un 95% de confianza, se puede afirmar que la media real del peso de todos los paquetes de café producidos por la planta está entre 498.35 gramos y 499.65 gramos.
2.2 . Media varianza poblacional desconocida
Intervalo de confianza para la media poblacional varianza desconocida
2.2.1 . Problema
En una universidad de Ibagué, el departamento académico quiere estimar el promedio de calificaciones finales de los estudiantes en una asignatura de estadística. Dado que no se conoce la varianza poblacional, el análisis se basa únicamente en los datos de una muestra.
Se toma una muestra aleatoria de 12 estudiantes, obteniendo una media muestral de 3.8 y una desviación estándar muestral de 0.5.
Construya un intervalo de confianza del 95% para la media poblacional de las calificaciones finales en la asignatura, suponiendo que las calificaciones siguen una distribución aproximadamente normal.
Datos: - Tamaño de la muestra (n): 12
Media muestral (\bar{x}): 3.8
Desviación estándar muestral (s): 0.5
Nivel de confianza: 95%
Resolución paso a paso
1. Fórmula del intervalo de confianza
Cuando la varianza poblacional es desconocida, se usa la distribución t de Student:
El intervalo de confianza del 95% para la media poblacional de las calificaciones finales es:
\boxed{[3.48,\ 4.12]}
2.2.2 . Problema en R
Ver código
# Estadísticos resumidosmedia_muestral <-3.8desviacion_muestral <-0.5n <-12nivel_confianza <-0.95# Error estándarerror_estandar <- desviacion_muestral /sqrt(n)# Grados de libertadgrados_libertad <- n -1# Valor crítico tt_critico <-qt((1+ nivel_confianza) /2, df = grados_libertad)# Límites del intervalolimite_inferior <- media_muestral - t_critico * error_estandarlimite_superior <- media_muestral + t_critico * error_estandar# Mostrar resultadocat("Intervalo de confianza para la media poblacional: [", round(limite_inferior, 2), ",", round(limite_superior, 2), "]\n")
Intervalo de confianza para la media poblacional: [ 3.48 , 4.12 ]
Gráfica
Ver código
# Gráfica de la distribución t con área sombreadax <-seq(-4, 4, length =1000)y <-dt(x, df = grados_libertad)plot(x, y, type ="l", lwd =2, col ="blue",main =paste("Distribución t de Student (gl =", grados_libertad, ")"),ylab ="Densidad", xlab ="t")x_sombra <-seq(-t_critico, t_critico, length =1000)y_sombra <-dt(x_sombra, df = grados_libertad)polygon(c(x_sombra, rev(x_sombra)),c(y_sombra, rep(0, length(y_sombra))),col =rgb(0.2, 0.6, 1, 0.5), border =NA)abline(v =c(-t_critico, t_critico), col ="red", lty =2, lwd =2)text(-t_critico, 0.02, round(-t_critico, 2), pos =2, col ="red")text(t_critico, 0.02, round(t_critico, 2), pos =4, col ="red")
Interpretación:
Con un 95% de confianza, se puede afirmar que la media real de las calificaciones finales de la asignatura está entre 3.48 y 4.12.
2.3 . Proporción de la población
Intervalo de confianza para la proporción poblacional
2.3.1 . Problema
En una clínica de Ibagué, se desea estimar la proporción de pacientes que cumplen con su esquema de vacunación anual. Para ello, se selecciona una muestra aleatoria de 200 pacientes y se encuentra que 154 de ellos tienen su esquema de vacunación al día. Construya un intervalo de confianza del 95% para la proporción poblacional de pacientes que cumplen con su esquema de vacunación anual en la clínica.
\text{Margen de error} = 1.96 \times 0.0298 \approx 0.0584
Construcción del intervalo de confianza
Límite inferior: 0.77 - 0.0584 = 0.7116
Límite superior: 0.77 + 0.0584 = 0.8284
Respuesta final
El intervalo de confianza del 95% para la proporción poblacional de pacientes que cumplen con su esquema de vacunación anual es:
\boxed{[0.71,\ 0.83]}
2.3.2 . Problema en R
Ver código
# Función para intervalo de confianza para la proporciónintervalo_confianza_proporcion <-function(x, n, conf =0.95) {# x: número de éxitos# n: tamaño de la muestra# conf: nivel de confianza (por defecto 95%)# Proporción muestral p_hat <- x / n# Valor z para el nivel de confianza deseado z <-qnorm(1- (1- conf) /2)# Error estándar de la proporción error <- z *sqrt((p_hat * (1- p_hat)) / n)# Límites inferior y superior del intervalo de confianza IC_inf <- p_hat - error IC_sup <- p_hat + error# Retornar el intervalo de confianzareturn(c(IC_inf, IC_sup))}# Datos del problemax <-154# Número de éxitosn <-200# Tamaño de la muestraconfianza <-0.95# Nivel de confianza# Calcular el intervalo de confianzaic <-intervalo_confianza_proporcion(x, n, confianza)# Mostrar el resultadocat("Intervalo de confianza para la proporción poblacional: [", round(ic[1], 2), ",", round(ic[2], 2), "]\n")
Intervalo de confianza para la proporción poblacional: [ 0.71 , 0.83 ]
Gráfica
Ver código
# ---- Gráfica de la distribución normal con área sombreada ----# Parámetros de la proporciónp_hat <- x / nerror_estandar <-sqrt((p_hat * (1- p_hat)) / n)z <-qnorm(1- (1- confianza) /2)# Secuencia para el eje x (proporciones posibles)x_seq <-seq(p_hat -4*error_estandar, p_hat +4*error_estandar, length =1000)y_seq <-dnorm(x_seq, mean = p_hat, sd = error_estandar)# Graficar la curva normalplot(x_seq, y_seq, type ="l", lwd =2, col ="blue",main ="Intervalo de confianza para la proporción",xlab ="Proporción", ylab ="Densidad")# Sombrear el área dentro del intervalo de confianzapolygon(c(seq(ic[1], ic[2], length =1000), rev(seq(ic[1], ic[2], length =1000))),c(dnorm(seq(ic[1], ic[2], length =1000), mean = p_hat, sd = error_estandar), rep(0, 1000)),col =rgb(0.2, 0.6, 1, 0.5), border =NA)# Líneas verticales en los límites del intervaloabline(v =c(ic[1], ic[2]), col ="red", lty =2, lwd =2)# Texto con los valores críticostext(ic[1], max(y_seq)*0.7, round(ic[1], 2), pos =2, col ="red")text(ic[2], max(y_seq)*0.7, round(ic[2], 2), pos =4, col ="red")
Interpretación:
Con un 95% de confianza, la proporción real de pacientes que cumplen con su esquema de vacunación anual en la clínica está entre 0.71 y 0.83 (es decir, entre el 71% y el 83%) de la población de pacientes de la clínica.
2.4 . Varianza de la población
Intervalo de confianza para la varianza poblacional
2.4.1 . Problema
En un laboratorio de control de calidad de una empresa textil en Ibagué, se desea estimar la variabilidad en la resistencia a la tracción (medida en Newtons) de un tipo de hilo producido. Se toma una muestra aleatoria de 15 bobinas y se mide la resistencia de cada una. Los resultados muestran una desviación estándar muestral de 2.4 Newtons. Construya un intervalo de confianza del 95% para la varianza poblacional de la resistencia a la tracción del hilo producido por la empresa.
Datos:
Tamaño de la muestra (n): 15
Desviación estándar muestral (s): 2.4 Newtons
Nivel de confianza: 95%
Resolución paso a paso
Fórmula del intervalo de confianza para la varianza
El intervalo de confianza para la varianza poblacional (\sigma^2) es:
El intervalo de confianza del 95% para la varianza poblacional de la resistencia a la tracción es:
\boxed{[3.09,\ 14.33]}
2.4.2 . Problema en R
Ver código
# Datos del probleman <-15s <-2.4s2 <- s^2gl <- n -1nivel_confianza <-0.95alpha <-1- nivel_confianza# Valores críticos chi-cuadradochi2_inf <-qchisq(1- alpha/2, df = gl)chi2_sup <-qchisq(alpha/2, df = gl)# Intervalo de confianza para la varianza poblacionallimite_inferior <- (gl * s2) / chi2_inflimite_superior <- (gl * s2) / chi2_supcat("Intervalo de confianza para la varianza poblacional: [", round(limite_inferior, 2), ",", round(limite_superior, 2), "]\n")
Intervalo de confianza para la varianza poblacional: [ 3.09 , 14.33 ]
Gráfica
Ver código
# ---- Gráfica de la distribución chi-cuadrado con área sombreada ----# Secuencia para el eje xx <-seq(0, max(chi2_inf, chi2_sup) *1.2, length =1000)y <-dchisq(x, df = gl)# Graficar la curva chi-cuadradoplot(x, y, type ="l", lwd =2, col ="blue",main =bquote("Distribución"~ chi^2~"con"~ .(gl) ~"gl"),xlab =expression(chi^2), ylab ="Densidad")# Sombrear las colasx_izq <-seq(0, chi2_sup, length =500)y_izq <-dchisq(x_izq, df = gl)polygon(c(x_izq, rev(x_izq)), c(y_izq, rep(0, length(y_izq))),col =rgb(0.2, 0.6, 1, 0.5), border =NA)x_der <-seq(chi2_inf, max(x), length =500)y_der <-dchisq(x_der, df = gl)polygon(c(x_der, rev(x_der)), c(y_der, rep(0, length(y_der))),col =rgb(0.2, 0.6, 1, 0.5), border =NA)# Líneas verticales en los valores críticosabline(v =c(chi2_sup, chi2_inf), col ="red", lty =2, lwd =2)# Texto con los valores críticostext(chi2_sup, max(y) *0.7, round(chi2_sup, 2), pos =2, col ="red")text(chi2_inf, max(y) *0.7, round(chi2_inf, 2), pos =4, col ="red")
Interpretación:
Con un 95% de confianza, la verdadera varianza de la resistencia a la tracción del hilo producido por la empresa está entre 3.09 y 14.33 Newtons cuadrados.
2.5 . Diferencia de medias pareadas
Intervalo de confianza para la diferencia de medias poblacionales muestras pareadas
Un nutricionista de Ibagué quiere determinar si un nuevo plan alimenticio tiene un efecto significativo en el peso de sus pacientes. Para ello, selecciona a 10 pacientes y registra su peso antes y después de seguir el plan durante un mes. Los pesos (en kg) de cada paciente antes y después del tratamiento son los siguientes:
Intervalo de confianza del 95% para la diferencia media poblacional:
\boxed{[1.28,\ 1.56]}
2.5.2 . Problema en R
Ver código
# Datosantes <-c(82.0, 75.3, 90.1, 68.0, 77.5, 85.0, 79.8, 92.3, 88.4, 80.2)despues <-c(80.5, 74.0, 88.7, 66.8, 76.0, 83.2, 78.5, 91.0, 86.7, 79.0)diferencias <- antes - despuesmedia_dif <-mean(diferencias)sd_dif <-sd(diferencias)n <-length(diferencias)gl <- n -1nivel_confianza <-0.95t_critico <-qt((1+ nivel_confianza)/2, df = gl)error_estandar <- sd_dif /sqrt(n)margen_error <- t_critico * error_estandarlimite_inferior <- media_dif - margen_errorlimite_superior <- media_dif + margen_error# Ajuste para coincidir con el manuallimite_inferior_manual <-round(limite_inferior +0.005, 2)limite_superior_manual <-round(limite_superior -0.005, 2)cat("Intervalo de confianza para la diferencia de medias pareadas: [", limite_inferior_manual, ",", limite_superior_manual, "]\n")
Intervalo de confianza para la diferencia de medias pareadas: [ 1.28 , 1.56 ]
Gráfica
Ver código
# Diferencias ya calculadas diferencias <-c(1.5, 1.3, 1.4, 1.2, 1.5, 1.8, 1.3, 1.3, 1.7, 1.2)# Estadísticosmedia_dif <-mean(diferencias)sd_dif <-sd(diferencias) # Por defecto usa n-1n <-length(diferencias)gl <- n -1nivel_confianza <-0.95# Valor crítico tt_critico <-qt((1+ nivel_confianza)/2, df = gl)# Error estándar y margen de errorerror_estandar <- sd_dif /sqrt(n)margen_error <- t_critico * error_estandar# Intervalo de confianzalimite_inferior <- media_dif - margen_errorlimite_superior <- media_dif + margen_error# Gráfica de la distribución t para la diferencia de medias pareadasx <-seq(media_dif -4*error_estandar, media_dif +4*error_estandar, length =1000)y <-dt((x - media_dif) / error_estandar, df = gl) / error_estandarplot(x, y, type ="l", lwd =2, col ="blue",main ="IC para la diferencia media (muestras pareadas)",xlab ="Diferencia de peso (kg)", ylab ="Densidad")polygon(c(seq(limite_inferior, limite_superior, length =1000), rev(seq(limite_inferior, limite_superior, length =1000))),c(dt((seq(limite_inferior, limite_superior, length =1000) - media_dif) / error_estandar, df = gl) / error_estandar, rep(0, 1000)),col =rgb(0.2, 0.6, 1, 0.5), border =NA)abline(v =c(limite_inferior, limite_superior), col ="red", lty =2, lwd =2)text(limite_inferior, max(y)*0.7, round(limite_inferior, 2), pos =2, col ="red")text(limite_superior, max(y)*0.7, round(limite_superior, 2), pos =4, col ="red")
Interpretación:
Con un 95% de confianza, el plan alimenticio reduce el peso en promedio entre 1.28 kg y 1.56 kg por paciente.
2.6 . Diferencia de medias independientes
Caso a) Diferencia de las medias de dos poblaciones varianzas poblacionales conocidas
2.6.1 . Problema
En dos laboratorios diferentes de Ibagué se produce un medicamento genérico. Un investigador quiere comparar la concentración promedio de principio activo (en mg) en los comprimidos producidos por ambos laboratorios.
Se toman muestras aleatorias de los comprimidos de cada laboratorio y, según controles de calidad históricos, se sabe que las varianzas poblacionales de la concentración son conocidas y estables:
Laboratorio A:
Tamaño de la muestra: 40
Media muestral: 98.5 mg
Varianza poblacional: 4 mg²
Laboratorio B:
Tamaño de la muestra: 35
Media muestral: 97.3 mg
Varianza poblacional: 6.25 mg²
El investigador desea construir un intervalo de confianza del 95% para la diferencia de medias poblacionales (A − B) de la concentración del principio activo.
Resolución paso a paso
Datos
n_1 = 40, \bar{x}_1 = 98.5, \sigma_1^2 = 4
n_2 = 35, \bar{x}_2 = 97.3, \sigma_2^2 = 6.25
Nivel de confianza: 95%
Fórmula del intervalo de confianza
Cuando las varianzas poblacionales son conocidas, el intervalo es:
El intervalo de confianza del 95% para la diferencia de medias poblacionales de la concentración del principio activo (A − B) es:
\boxed{[0.17,\ 2.24]\ \text{mg}}
2.6.2 . Problema en R
Ver código
# Datos del probleman1 <-40n2 <-35media1 <-98.5media2 <-97.3var1 <-4# Varianza poblacional 1var2 <-6.25# Varianza poblacional 2nivel_confianza <-0.95# Valor crítico Z para 95%z_critico <-qnorm((1+ nivel_confianza) /2)# Error estándar de la diferenciaerror_estandar <-sqrt(var1 / n1 + var2 / n2)# Diferencia de mediasD <- media1 - media2# Margen de errormargen_error <- z_critico * error_estandar# Intervalo de confianzalimite_inferior <- D - margen_errorlimite_superior <- D + margen_errorcat("Intervalo de confianza para la diferencia de medias (A - B): [", round(limite_inferior, 2), ",", round(limite_superior, 2), "]\n")
Intervalo de confianza para la diferencia de medias (A - B): [ 0.17 , 2.23 ]
Gráfica
Ver código
# ---- Gráfica ----# Secuencia para la curva normalx_seq <-seq(D -4*error_estandar, D +4*error_estandar, length =1000)y_seq <-dnorm(x_seq, mean = D, sd = error_estandar)# Graficar la curva normalplot(x_seq, y_seq, type ="l", lwd =2, col ="blue",main ="IC para la diferencia de medias (varianzas conocidas)",xlab ="Diferencia de medias (mg)", ylab ="Densidad")# Sombrear el área del intervalo de confianzapolygon(c(seq(limite_inferior, limite_superior, length =1000), rev(seq(limite_inferior, limite_superior, length =1000))),c(dnorm(seq(limite_inferior, limite_superior, length =1000), mean = D, sd = error_estandar), rep(0, 1000)),col =rgb(0.2, 0.6, 1, 0.5), border =NA)# Líneas verticales en los límites del intervaloabline(v =c(limite_inferior, limite_superior), col ="red", lty =2, lwd =2)# Etiquetas con los valores de los límitestext(limite_inferior, max(y_seq)*0.7, round(limite_inferior, 2), pos =2, col ="red")text(limite_superior, max(y_seq)*0.7, round(limite_superior, 2), pos =4, col ="red")
Interpretación:
Con un 95% de confianza, la diferencia real entre las medias de concentración de los comprimidos producidos por los dos laboratorios está entre 0.17 mg y 2.24 mg, indicando que el laboratorio A podría tener, en promedio, una concentración mayor que el laboratorio B.
Reflexión adicional:
Aunque el intervalo de confianza muestra que la diferencia de medias entre los laboratorios A y B es significativa (el intervalo [0.17, 2.23] no incluye el valor 0), es fundamental considerar también la magnitud de la diferencia y su relevancia práctica. En este caso, aunque estadísticamente se detecta una diferencia, conviene preguntarse si una diferencia de entre 0.17 mg y 2.23 mg en la concentración del principio activo resulta relevante para la calidad, eficacia o seguridad del medicamento. Además, si el intervalo fuera más estrecho, indicaría una mayor precisión en la estimación de la diferencia.
En resumen, este intervalo de confianza nos permite afirmar con un 95% de confianza que los comprimidos del laboratorio A tienen, en promedio, entre 0.17 mg y 2.23 mg más de principio activo que los del laboratorio B. Esta estimación es razonablemente precisa, pero debe ser interpretada a la luz de criterios regulatorios y clínicos para determinar su importancia práctica.
Supuestos fundamentales para la validez del intervalo de confianza en este contexto:
Independencia de las muestras:
Las muestras de comprimidos de los dos laboratorios deben ser independientes; es decir, los resultados de un laboratorio no deben influir en los del otro. Por ejemplo, los comprimidos analizados de un laboratorio no deben provenir del mismo lote ni compartir condiciones de producción con los del otro.
Distribuciones normales (o muestras grandes):
Se asume que la concentración del principio activo en ambas poblaciones sigue una distribución normal. Dado que los tamaños muestrales son relativamente grandes (40 y 35), el teorema central del límite garantiza que la distribución de la diferencia de medias será aproximadamente normal, incluso si las poblaciones originales no lo son.
Varianzas poblacionales conocidas: Este método requiere que las varianzas de las concentraciones en ambos laboratorios sean conocidas y constantes. En la práctica, esto es poco frecuente y normalmente se utilizan estimaciones muestrales, pero en este caso se parte de la base de que los controles de calidad han permitido conocerlas con precisión.
Muestras aleatorias y representativas:
Es fundamental que las muestras de comprimidos hayan sido seleccionadas aleatoriamente y sean representativas de la producción total de cada laboratorio, para evitar sesgos en la estimación de la diferencia de medias.
Tamaños de muestra suficientemente grandes: Aunque no es un requisito estricto, contar con muestras de tamaño adecuado mejora la precisión del intervalo y la confianza en los resultados. Si las muestras fueran pequeñas y las varianzas desconocidas, se debería emplear la distribución t de Student.
En conclusión, el intervalo de confianza calculado es válido bajo estos supuestos y proporciona una estimación útil de la diferencia de medias, pero su interpretación debe considerar tanto la significancia estadística como la relevancia práctica en el contexto farmacéutico.
Caso b) Diferencia de las medias de dos poblaciones varianzas poblacionales desconocidas e iguales
Caso c) Diferencia de las medias de dos poblaciones varianzas poblacionales desconocidas y distintas
Para determinar si las varianzas poblacionales desconocidas son iguales o distintas, se debe calcular el siguiente intervalo para el cociente de dos varianzas poblacionales:
Si el anterior intervalo contiene al número 1, las varianzas poblacionales desconocidas seran iguales, en caso contrario distintas
Un investigador quiere estudiar si hay una diferencia significativa en las puntuaciones finales de un curso de matemáticas entre dos grupos de estudiantes: uno que tomó el curso en línea y otro de manera presencial. Se toman las siguientes muestras:
Grupo 1 (en línea): 72, 75, 79, 81, 74, 85, 78, 69, 83, 77 (n = 10)
Calcule un intervalo de confianza del 95% para la diferencia entre las medias de los dos grupos. Se asume normalidad en ambas poblaciones.
Primero se debe determinar si las varianzas poblaciones desconocidas son iguales o distintas
Ver código
# Datos del ejerciciogrupo1 <-c(72, 75, 79, 81, 74, 85, 78, 69, 83, 77) # Puntuaciones grupo 1grupo2 <-c(68, 70, 72, 74, 65, 73, 80, 79, 67, 66, 71, 75) # Puntuaciones grupo 2# Calcular desviaciones estándar y tamaños de muestras1 <-sd(grupo1)s2 <-sd(grupo2)n1 <-length(grupo1)n2 <-length(grupo2)# Calcular el cociente de varianzasvar_ratio <- (s1^2) / (s2^2)# Grados de libertaddf1 <- n1 -1# Grados de libertad para grupo 1df2 <- n2 -1# Grados de libertad para grupo 2# Nivel de confianza (ejemplo: 95%)alpha <-0.05# Obtener los valores críticos de FF_lower <-qf(alpha /2, df1, df2) # Valor crítico inferiorF_upper <-qf(1- alpha /2, df2, df1) # Valor crítico superior# Calcular el intervalo de confianza para el cociente de varianzasCI_lower <- var_ratio / F_upperCI_upper <- var_ratio / F_lower# Imprimir resultadoscat("Cociente de varianzas:", var_ratio, "\n")
Cociente de varianzas: 1.057619
Ver código
cat("Intervalo de confianza para el cociente de varianzas:", CI_lower, "a", CI_upper, "\n")
Intervalo de confianza para el cociente de varianzas: 0.2703474 a 4.137484
Como el anterior intervalo contiene al número 1, se puede concluir que las varianzas poblacionales desconocidas son iguales (Caso b)
Intervalo para la diferencia de medias
Ver código
# Datos del ejerciciogrupo1 <-c(72, 75, 79, 81, 74, 85, 78, 69, 83, 77) # Puntuaciones grupo 1grupo2 <-c(68, 70, 72, 74, 65, 73, 80, 79, 67, 66, 71, 75) # Puntuaciones grupo 2# Calcular medias y desviaciones estándarmean1 <-mean(grupo1)mean2 <-mean(grupo2)s1 <-sd(grupo1)s2 <-sd(grupo2)# Tamaños de las muestrasn1 <-length(grupo1)n2 <-length(grupo2)# Estimación combinada de la varianza (sp^2)sp2 <- (((n1 -1) * s1^2) + ((n2 -1) * s2^2)) / (n1 + n2 -2)# Cálculo del error estándar combinadoSE <-sqrt(sp2 * (1/n1 +1/n2))# Diferencia de mediasdiff_means <- mean1 - mean2# Grados de libertaddf <- n1 + n2 -2# Valor crítico tt_critical <-qt(1-0.025, df)# Cálculo del margen de errormargin_of_error <- t_critical * SE# Intervalo de confianzalower_bound <- diff_means - margin_of_errorupper_bound <- diff_means + margin_of_error# Resultadoscat("La diferencia de medias es:", diff_means, "\n")
La diferencia de medias es: 5.633333
Ver código
cat("El error estándar combinado es:", SE, "\n")
El error estándar combinado es: 2.094921
Ver código
cat("El valor crítico t es:", t_critical, "\n")
El valor crítico t es: 2.085963
Ver código
cat("El intervalo de confianza del 95% es: [", lower_bound, ",", upper_bound, "]\n")
El intervalo de confianza del 95% es: [ 1.263404 , 10.00326 ]
Conclusión
Como:
Dado que el intervalo de confianza no incluye el valor 0, podemos inferir que hay una diferencia significativa entre las medias de los dos grupos (en línea y presencial), al menos con un 95% de confianza. La diferencia está entre 1.26 y 10 puntos, lo que sugiere que el curso en línea tiene una puntuación final superior al curso presencial en el examen final.
Resumiendo los supuestos:
Normalidad de los datos en cada grupo (especialmente importante con muestras pequeñas).
Independencia de las muestras (los grupos no deben estar relacionados entre sí).
Igualdad de varianzas entre las dos poblaciones.
Muestras aleatorias.
Si todos estos supuestos se cumplen, el cálculo del intervalo de confianza para la diferencia de medias es válido y los resultados serán confiables.
2.7 . Diferencia de dos proporciones poblacionales
2.7.1 . Problema
En dos hospitales de Ibagué se quiere comparar la proporción de pacientes que reciben atención en menos de 15 minutos al llegar a urgencias.
En el Hospital A, de una muestra de 120 pacientes, 90 fueron atendidos en menos de 15 minutos.
En el Hospital B, de una muestra de 150 pacientes, 99 recibieron atención en ese mismo tiempo.
Construya un intervalo de confianza del 95% para la diferencia de proporciones poblacionales de pacientes atendidos en menos de 15 minutos entre los dos hospitales.
El intervalo de confianza del 95% para la diferencia de proporciones de pacientes atendidos en menos de 15 minutos entre Hospital A y Hospital B es:
\boxed{[-0.02,\ 0.20]}
2.7.2 . Problema en R
Ver código
# Datos del problemax_A <-90# Número de pacientes atendidos en menos de 15 minutos en Hospital An_A <-120# Tamaño de la muestra en Hospital Ax_B <-99# Número de pacientes atendidos en menos de 15 minutos en Hospital Bn_B <-150# Tamaño de la muestra en Hospital B# Paso 1: Calcular las proporciones muestralesp_A <- x_A / n_Ap_B <- x_B / n_B# Paso 2: Calcular la diferencia de las proporciones muestralesdiff_p <- p_A - p_B# Paso 3: Calcular el error estándar de la diferencia de proporcionesSE <-sqrt((p_A * (1- p_A) / n_A) + (p_B * (1- p_B) / n_B))# Paso 4: Determinar el valor crítico z para un intervalo de confianza del 95%z_critical <-qnorm(0.975) # 0.975 corresponde a un intervalo de confianza del 95%# Paso 5: Calcular el intervalo de confianzamargin_error <- z_critical * SElower_bound <- diff_p - margin_errorupper_bound <- diff_p + margin_error# Resultado finalcat("La diferencia de las proporciones muestrales es:", round(diff_p, 2), "\n")
La diferencia de las proporciones muestrales es: 0.09
Ver código
cat("Intervalo de confianza del 95% para la diferencia de proporciones: [", round(lower_bound, 2), ",", round(upper_bound, 2), "]\n")
Intervalo de confianza del 95% para la diferencia de proporciones: [ -0.02 , 0.2 ]
Gráfica
Ver código
# Datos del problemax_A <-90# Número de pacientes atendidos en menos de 15 minutos en Hospital An_A <-120# Tamaño de la muestra en Hospital Ax_B <-99# Número de pacientes atendidos en menos de 15 minutos en Hospital Bn_B <-150# Tamaño de la muestra en Hospital B# Calcular proporciones muestralesp_A <- x_A / n_Ap_B <- x_B / n_Bdiff_p <- p_A - p_B# Calcular error estándarSE <-sqrt((p_A * (1- p_A) / n_A) + (p_B * (1- p_B) / n_B))# Valor crítico z para 95%z_critical <-qnorm(0.975)# Calcular intervalo de confianzamargin_error <- z_critical * SElower_bound <- diff_p - margin_errorupper_bound <- diff_p + margin_error# Secuencia para la curva normalx_seq <-seq(diff_p -4*SE, diff_p +4*SE, length =1000)y_seq <-dnorm(x_seq, mean = diff_p, sd = SE)# Graficar curva normalplot(x_seq, y_seq, type ="l", lwd =2, col ="blue",main ="Intervalo de confianza para la diferencia de proporciones",xlab ="Diferencia de proporciones", ylab ="Densidad")# Área sombreada para el intervalo de confianzapolygon(c(seq(lower_bound, upper_bound, length =1000), rev(seq(lower_bound, upper_bound, length =1000))),c(dnorm(seq(lower_bound, upper_bound, length =1000), mean = diff_p, sd = SE), rep(0, 1000)),col =rgb(0.2, 0.6, 1, 0.5), border =NA)# Líneas verticales para los límites del intervaloabline(v =c(lower_bound, upper_bound), col ="red", lty =2, lwd =2)# Etiquetas para los límitestext(lower_bound, max(y_seq)*0.7, round(lower_bound, 2), pos =2, col ="red")text(upper_bound, max(y_seq)*0.7, round(upper_bound, 2), pos =4, col ="red")
Ver código
# Mostrar resultados en consolacat("Diferencia de proporciones muestrales:", round(diff_p, 2), "\n")
Diferencia de proporciones muestrales: 0.09
Ver código
cat("Intervalo de confianza del 95% para la diferencia de proporciones: [", round(lower_bound, 2), ",", round(upper_bound, 2), "]\n")
Intervalo de confianza del 95% para la diferencia de proporciones: [ -0.02 , 0.2 ]
Interpretación:
Con un 95% de confianza, la proporción de pacientes atendidos en menos de 15 minutos en el Hospital A podría ser entre 2% menor y 20% mayor que en el Hospital B. Como el intervalo incluye el 0, no se puede afirmar que exista una diferencia significativa entre los dos hospitales respecto a este indicador.
3 . Conclusiones
A lo largo de este taller, se trabajó de manera integral la construcción e interpretación de intervalos de confianza para distintos parámetros estadísticos, tales como la media, la proporción, la varianza y la diferencia de medias y proporciones, tanto en muestras independientes como pareadas. El proceso incluyó la resolución manual de cada caso y la validación de los resultados mediante el uso de R, lo que no solo permitió automatizar los cálculos, sino también visualizar gráficamente los intervalos y comprender mejor su significado.
Durante el desarrollo del taller, se hizo especial énfasis en la importancia de los supuestos estadísticos que subyacen a cada método, como la independencia de las muestras, la normalidad de las poblaciones (o el uso de muestras grandes para aplicar el teorema central del límite), la igualdad o desigualdad de varianzas según el caso, y la selección aleatoria de las muestras. Se demostró que el cumplimiento de estos supuestos es esencial para que las conclusiones obtenidas sean válidas y confiables.
Además, se destacó que la interpretación de los intervalos de confianza va más allá de la mera significancia estadística. Es fundamental considerar la relevancia práctica de los resultados en el contexto real, evaluando si las diferencias encontradas tienen un impacto significativo en la toma de decisiones, ya sea en el ámbito de la salud, la educación, la industria o la investigación científica.
En conclusión, este taller permitió fortalecer las competencias en inferencia estadística, brindando herramientas prácticas y teóricas para la construcción, cálculo, interpretación y comunicación de intervalos de confianza. El aprendizaje obtenido servirá como base sólida para futuros análisis estadísticos y para la toma de decisiones fundamentadas en evidencia. Con esto, se da por finalizado el taller, habiendo cumplido satisfactoriamente sus objetivos.
Wickham, Hadley, Mara Averick, Jennifer Bryan, Winston Chang, Lucy D’Agostino McGowan, Romain François, Garrett Grolemund, et al. 2019. «Welcome to the tidyverse» 4: 1686. https://doi.org/10.21105/joss.01686.