Determinar intervalos de confianza de media poblacional con desviación estándar de la población conocida y desconocida.
Se calculan intervalos de confianza de medias poblacionales con varios ejercicios extraídos de la literatura
La inferencia estadística, específicamente la toma y predicción de decisiones desempeña un papel muy importante en la vida de casi todas las personas.
Hay muchas formas de tomar estas decisiones o predicciones, algunas son subjetivas y otras son objetivas por naturaleza. L a pregunta es que tan buena son las decisiones y en que´argumentos se basan estas decisiones?
Aun cuando se pueda pensar que su propia capacidad de tomar decisiones es muy buena, la experiencia sugiere que éste puede no ser el caso.
Es la función del estadístico matemático dar métodos de toma de inferencia estadística son mejores y más confiables que únicamente cálculos subjetivos.(Mendenhall, Beaver, and Beaver 2010).
La inferencia estadística se encarga de apoyar el proceso de toma decisiones o predicciones acerca de parámetros. Tal vez estos parámetros de interés sean la media poblacional \(\mu\), la desviación estándar poblacional \(\sigma\) o la proporción de una población \(p\).
Para este caso en los ejercicios mostrados mas adelante, se describen estimación de las medias poblacionales.
Cabe recordar que si se trata de mediciones poblacionales estos se llaman parámetros y si se trata de mediciones muestrales estos se llaman estadísticos.
\[ población = parámetros \\ muestra = estadísticos \]
De acuerdo a (Mendenhall, Beaver, and Beaver 2010) estimación implica predecir el valor del parámetro.
Para estimar el valor de un parámetro poblacional, se puede usar datos de la muestra en la forma de un estimador. Los estimadores se determinan usando información de las observaciones muestrales y, en consecuencia, por definición son también estadísticas.
Por definición, un estimador es una regla, generalmente expresada como fórmula, que establece cómo calcular una estimación basada en información de la muestra.
Se pueden encontrar dos tipos de estimaciones
Estimaciones puntuales que significa que con base en datos muestrales, se calcula un solo número o un estimador puntual.
Estimaciones por intervalos que implica encontrar dos valores numéricos que se calculan para formar un intervalo dentro del cual se espera esté el parámetro poblacional. Los intervalos son el interés de este caso.
Ahora bien, es posible intuir que la distribución muestral de un estimador está centrada alrededor del parámetro que se trate de estimar, pero todo lo que se tiene es la estimación calculada de las \(n\) mediciones contenidas en la muestra.
¿A qué distancia del verdadero valor del parámetro estará esta estimación? ¿Qué tan diferente es el valor del estadísticos con respecto al parámetro? La distancia entre la estimación y el verdadero valor del parámetro se denomina error de estimación. (Mendenhall, Beaver, and Beaver 2010).
Se puede suponer que los tamaños muestrales son siempre grandes y que los estimadores provienen de distribuciones muestrales que pueden ser aproximadas por una distribución normal por el teorema del límite central.
La variabilidad del estimador se mide usando este error estándar y está determinado por:
\[ \frac{\sigma}{\sqrt{n}} \]
Este error estándar se incorpora y se utiliza para estimar intervalos de confianza como la media poblacional.
Ahora bien, el objetivo de la estimación por intervalo es aportar información de qué tan cerca se encuentra la estimación puntual, obtenida de la muestra, del valor del parámetro poblacional (Anderson, Sweeney, and Williams 2008).
Se identifican las fórmulas para estimar intervalos de confianza con desviación poblacional conocida y no conocida respectivamente.
\[ IC = \bar{x} \pm z \cdot \frac{\sigma}{\sqrt{n}} \]
(Lind, Marchal, and Wathen 2015)
\[ IC = \bar{x} \pm t \cdot \frac{S}{\sqrt{n}} \]
Se presentan ejercicios para estimar intervalos de confianza del parámetro media poblacional a partir de datos muestrales.
library(visualize) # Gráficos de distribuciones
library(cowplot) # Gráficos
library(ggplot2) # Gráficos
source("https://raw.githubusercontent.com/rpizarrog/probabilidad-y-estad-stica/master/Enero%20Junio%202022/funciones/funciones.para.distribuciones.r")
Un científico interesado en vigilar contaminantes químicos en alimentos y, por lo tanto, la acumulación de contaminantes en la dieta humana, seleccionó una muestra aleatoria de \(n=50\) adultos hombres.
Se encontró que el promedio de ingesta diaria de productos lácteos fue de \(\bar{x} = 756\) gramos por día, con una desviación estándar de s \(s = 35\) gramos por día.
Se debe construir un intervalo de confianza de 95% para la ingesta diaria media de productos lácteos para hombres.
¿Cuál será el intervalo de confianza al 95%?
media.m <- 756
desv.m <- desv.p <- 35
confianza <- 0.95
n <- 50
Se calcula el error estándar SE y margen de error ME.
SE <- desv.p / sqrt(n)
SE
## [1] 4.949747
ME <- f.z.int.conf(confianza = confianza) * SE
ME
## [1] 9.701327
\[ 756 \pm 9.701327 \]
Se puede tener confianza al 95% en que la estimación muestral de 756 gramos está a no más de \(SE \approx 9\) gramos de la media poblacional.
Se calcula el intervalo de confianza
intervalo <- f.intervalo.confianza.z(media = media.m, desv = desv.m, confianza = confianza, n = n)
intervalo
## [1] 746.2987 765.7013
El intervalo tiene valores entre: 746.2987 y 765.7013.
Identificando el valor de z crítico.
z.critico <- f.z.int.conf(confianza = confianza)
z.critico
## [1] 1.959964
visualize.norm(stat = c(-z.critico, z.critico), section = "tails") +
text(0, 0.2, paste(confianza * 100, "%", "\n",
"alfa=", (1 - confianza), "\n", "alfa / 2 = ",
(1 - confianza) / 2, sep = ""), col = "black")
## integer(0)
Se quiere estimar la velocidad media en una calle con un límite teórico de 50km por hora.
Con un radar oculto, se observó que la velocidad media de una muestra de 25 coches fue de 58km/hora. Si la desviación típica de la velocidad en esta calle es de 6km/hora,
Calcular un intervalo de 95 % de confianza para la verdadera velocidad media.
media.m <- 58
desv.m <- desv.p <- 6
confianza <- 0.95
n <-25
Se calcula el error estándar SE y margen de error ME.
SE <- desv.p / sqrt(n)
SE
## [1] 1.2
ME <- f.z.int.conf(confianza = confianza) * SE
ME
## [1] 2.351957
\[ 58 \pm 2.351957 \]
Se puede tener confianza al 95% en que la estimación muestral de 58 km/h está a no más de \(SE \approx 2.3\) gramos de la media poblacional.
Se calcula el intervalo de confianza
intervalo <- f.intervalo.confianza.z(media = media.m, desv = desv.m, confianza = confianza, n = n)
intervalo
## [1] 55.648 60.352
El intervalo tiene valores entre: 55.648 y 60.352.
Identificando el valor de z crítico.
z.critico <- f.z.int.conf(confianza = confianza)
z.critico
## [1] 1.959964
visualize.norm(stat = c(-z.critico, z.critico), section = "tails") +
text(0, 0.2, paste(confianza * 100, "%", "\n",
"alfa=", (1 - confianza), "\n", "alfa / 2 = ",
(1 - confianza) / 2, sep = ""), col = "black")
## integer(0)
Un ambientalista está realizando un estudio del oso polar, especie que se encuentra en el océano Ártico y sus alrededores. Su zona de distribución está limitada por la existencia de hielo en el mar, que usan como plataforma para cazar focas, principal sostén de los osos.
La destrucción de su hábitat en el hielo del Ártico, que se ha atribuido al calentamiento global, amenaza la supervivencia de los osos como especie; puede extinguirse antes de un siglo.
Una muestra aleatoria de \(n=50\) osos polares produjo un peso promedio de \(\bar{x}= 980\) libras con una desviación estándar de \(\sigma = 105\) libras.
¿Cuál será el intervalo de confianza al 95%?
media.m <- 980
desv.m <- 105
confianza <- 0.95
n <- 50
Se calcula el error estándar SE y margen de error ME.
SE <- desv.m / sqrt(n)
SE
## [1] 14.84924
ME <- f.t.int.conf(confianza = confianza, n = n) * SE
ME
## [1] 29.84067
\[ 980 \pm 29.84067 \]
Se puede tener confianza al 95% en que la estimación muestral de 980 libras está a no más de \(SE \approx 29\) libras de la media poblacional.
Se calcula el intervalo de confianza
intervalo <- f.intervalo.confianza.t(media = media.m, desv = desv.m, confianza = confianza, n = n)
intervalo
## [1] 950.1593 1009.8407
El intervalo tiene valores entre: 950.1593 y 1009.8407.
Identificando el valor de t crítico.
t.critico <- f.t.int.conf(confianza = confianza, n = n)
t.critico
## [1] 2.009575
visualize.t(stat = c(-t.critico, t.critico), df = n-1, section = "tails") +
text(0, 0.2, paste(confianza * 100, "%", "\n",
"alfa=", (1 - confianza), "\n", "alfa / 2 = ",
(1 - confianza) / 2, sep = ""), col = "black")
## integer(0)
En 100 pruebas de alcoholemia de conductores que han saltado (se han pasado) un semáforo en una ciudad el nivel medio de alcohol en aire era de 0.65 mg/litro con una desviación estándar típica de 0.1 mg/litro.
Hallar un intervalo de 95 % de confianza para la verdadera nivel media de alcohol en el aire para conductores que saltan el semáforo.
media.m <- 0.65
desv.m <- 0.1
confianza <- 0.95
n <- 100
Se calcula el error estándar SE y margen de error ME.
SE <- desv.m / sqrt(n)
SE
## [1] 0.01
ME <- f.t.int.conf(confianza = confianza, n = n) * SE
ME
## [1] 0.01984217
\[ 0.65 \pm 0.01984217 \]
Se puede tener confianza al 95% en que la estimación muestral de 0.65 está a no más de \(SE \approx 0.01\) libras de la media poblacional.
Se calcula el intervalo de confianza
intervalo <- f.intervalo.confianza.t(media = media.m, desv = desv.m, confianza = confianza, n = n)
intervalo
## [1] 0.6302 0.6698
El intervalo tiene valores entre: 0.6302 y 0.6698.
Identificando el valor de t crítico.
t.critico <- f.t.int.conf(confianza = confianza, n = n)
t.critico
## [1] 1.984217
visualize.t(stat = c(-t.critico, t.critico), df = n-1, section = "tails") +
text(0, 0.2, paste(confianza * 100, "%", "\n",
"alfa=", (1 - confianza), "\n", "alfa / 2 = ",
(1 - confianza) / 2, sep = ""), col = "black")
## integer(0)
R dispone de la función z.test() para determinar entre muchas otras cosas intervalos de confianza a partir de datos de una muestra con desviación estándar de población SI conocida. Es decir, usando distribución normal de z.
Para usar la función z.test() de manera especial se debe instalar el paquete “BSDA”. Ejecutar install.packages(“BSDA”) , luego cargar la librería, antes de utilizar dicha función.
library(BSDA)
Se utiliza un ejemplo del ejercicio del científico para investigar contaminantes en la comida y estimar intervalos de confianza a partir de una muestra de \(n=50\) y de media aproximada de \(756\) con desviación aproximada de \(35\).
Se espera tener los niveles de confianza al 90%, 95% y 99% respectivamente.
Se inicializan variables.
confianza <- c(0.90, 0.95, 0.99)
n <- 50
media <- 756
desv <- 35
Se simula una muestra de \(n=50\) de tipo normal a dos posiciones decimales alrededor de la media y la desviación establecida.
muestra <- round(rnorm(n = n, mean = media, sd = desv),2)
muestra
## [1] 744.98 717.46 755.28 748.01 750.61 720.69 848.64 776.23 795.40 765.27
## [11] 745.38 736.47 755.09 851.92 805.27 771.37 753.09 755.56 745.02 760.69
## [21] 786.95 820.35 712.11 733.90 803.49 739.24 691.09 741.83 777.65 736.02
## [31] 778.95 704.09 732.97 713.70 704.42 727.99 737.84 770.17 747.91 744.05
## [41] 723.19 768.25 813.58 734.94 813.41 767.58 826.07 731.93 736.87 773.16
Se determina la media y desviación estándar de los simulados a partir de la muestra.
media.m <- mean(muestra)
desv.m <- desv.p <- sd(muestra)
media.m; desv.m
## [1] 757.9226
## [1] 36.56818
Se determinan los intervalos de confianza a 90%, 95% y 99% repectivamente, primero usando z.test() y luego la función f.intervalo.confianza.z() para comparar los resultados.
IC <- z.test(x = muestra, sigma.x = desv.p, conf.level = confianza[1])
IC$conf.int
## [1] 749.4162 766.4290
## attr(,"conf.level")
## [1] 0.9
intervalo <- f.intervalo.confianza.z(media = media.m, desv = desv.p, confianza = confianza[1], n = n)
intervalo
## [1] 749.4162 766.4290
IC <- z.test(x = muestra, sigma.x = desv.p, conf.level = confianza[1])
IC$conf.int
## [1] 749.4162 766.4290
## attr(,"conf.level")
## [1] 0.9
intervalo <- f.intervalo.confianza.z(media = media.m, desv = desv.p, confianza = confianza[2], n = n)
intervalo
## [1] 747.7866 768.0586
IC <- z.test(x = muestra, sigma.x = desv.p, conf.level = confianza[3])
IC$conf.int
## [1] 744.6016 771.2436
## attr(,"conf.level")
## [1] 0.99
intervalo <- f.intervalo.confianza.z(media = media.m, desv = desv.p, confianza = confianza[3], n = n)
intervalo
## [1] 744.6016 771.2436
R dispone de la función t.test() para determinar entre muchas otras cosas intervalos de confianza a partir de datos de una muestra con desviación estándar de población desconocida. Es decir, usando distribución t student .
Para usar la función t.test(), no se requiere cargar ninguna librería, ya que forma parte de los paquetes base de R.
Se utiliza un ejemplo del ejercicio del ambientalista para estimar intervalos de confianza a partir de muestra de \(n=50\) y de media aproximada de \(980\) con desviación aproximada de \(105\)
Se espera tener los niveles de confianza al 90%, 95% y 99% respectivamente.
Se inicializan variables.
confianza <- c(0.90, 0.95, 0.99)
n <- 50
media <- 980
desv <- 105
Se simula una muestra de \(n=50\) de tipo normal a dos posiciones decimales alrededor de la media y la desviación establecida.
muestra <- round(rnorm(n = n, mean = media, sd = desv),2)
muestra
## [1] 965.70 776.55 1050.52 959.71 1006.23 899.67 1001.52 973.14 803.69
## [10] 1067.66 1130.22 836.20 858.86 1087.39 1050.25 1062.86 1137.93 970.74
## [19] 1033.12 875.31 951.56 897.13 886.07 1076.31 1039.49 1077.04 1035.83
## [28] 997.52 743.38 856.42 1045.43 934.27 1041.00 1077.04 872.05 850.21
## [37] 1060.33 1103.04 1179.63 788.80 1034.35 1063.20 926.09 959.73 1054.56
## [46] 1070.61 1014.04 1127.74 891.51 1144.38
Se determina la media y desviación estándar de los simulados a partir de la muestra.
media.m <- mean(muestra)
desv.m <- sd(muestra)
media.m; desv.m
## [1] 986.9206
## [1] 106.4544
Se determinan los intervalos de confianza a 90%, 95% y 99% repectivamente, primero usando t.test() y luego la función f.intervalo.confianza.t() para comparar los resultados.
IC <- t.test(x = muestra, conf.level = confianza[1])
IC$conf.int
## [1] 961.6802 1012.1610
## attr(,"conf.level")
## [1] 0.9
intervalo <- f.intervalo.confianza.t(media = media.m, desv = desv.m, confianza = confianza[1], n = n)
intervalo
## [1] 961.6802 1012.1610
IC <- t.test(x = muestra, conf.level = confianza[2])
IC$conf.int
## [1] 956.6666 1017.1746
## attr(,"conf.level")
## [1] 0.95
intervalo <- f.intervalo.confianza.t(media = media.m, desv = desv.m, confianza = confianza[2], n = n)
intervalo
## [1] 956.6666 1017.1746
IC <- t.test(x = muestra, conf.level = confianza[3])
IC$conf.int
## [1] 946.5741 1027.2671
## attr(,"conf.level")
## [1] 0.99
intervalo <- f.intervalo.confianza.t(media = media.m, desv = desv.m, confianza = confianza[3], n = n)
intervalo
## [1] 946.5741 1027.2671
Como lo menciona Mendenhall, William, Robert J. Beaver, and Barbara M. Beaver (2010), siempre se debe buscar una explicación en el texto del informe que diga si se está utilizando la desviación estándar o el error estándar en las estimaciones.
Para estos ejercicios se utilizó el error estándar \(SE\) para estimar los intervalos de
confianza tanto para si se conoce la desviación estándar de la población
como si no es conocida.
Para determinar y calcular los intervalos de confianza se utilizaron
funciones previamente programadas que se encuentran en el enlace
provisto para ello usando la función source().
Se puede utilizar cualquier valor de nivel de confianza.