Determinar intervalos de confianza de media poblacional con desviación estándar de la población conocida y desconocida.
Se calculan intervalos de confianza de medias poblacionales con varios ejercicios extraídos de la literatura
La inferencia estadística, específicamente la toma y predicción de decisiones desempeña un papel muy importante en la vida de casi todas las personas.
Hay muchas formas de tomar estas decisiones o predicciones, algunas son subjetivas y otras son objetivas por naturaleza. L a pregunta es que tan buena son las decisiones y en que´argumentos se basan estas decisiones?
Aun cuando se pueda pensar que su propia capacidad de tomar decisiones es muy buena, la experiencia sugiere que éste puede no ser el caso.
Es la función del estadístico matemático dar métodos de toma de inferencia estadística son mejores y más confiables que únicamente cálculos subjetivos.(Mendenhall, Beaver, and Beaver 2010).
La inferencia estadística se encarga de apoyar el proceso de toma decisiones o predicciones acerca de parámetros. Tal vez estos parámetros de interés sean la media poblacional μ, la desviación estándar poblacional σ o la proporción de una población p.
Para este caso en los ejercicios mostrados mas adelante, se describen estimación de las medias poblacionales.
Cabe recordar que si se trata de mediciones poblacionales estos se llaman parámetros y si se trata de mediciones muestrales estos se llaman estadísticos.
población = parámetros \\ muestra = estadísticos
De acuerdo a (Mendenhall, Beaver, and Beaver 2010) estimación implica predecir el valor del parámetro.
Para estimar el valor de un parámetro poblacional, se puede usar datos de la muestra en la forma de un estimador. Los estimadores se determinan usando información de las observaciones muestrales y, en consecuencia, por definición son también estadísticas.
Por definición, un estimador es una regla, generalmente expresada como fórmula, que establece cómo calcular una estimación basada en información de la muestra.
Se pueden encontrar dos tipos de estimaciones
Estimaciones puntuales que significa que con base en datos muestrales, se calcula un solo número o un estimador puntual.
Estimaciones por intervalos que implica encontrar dos valores numéricos que se calculan para formar un intervalo dentro del cual se espera esté el parámetro poblacional. Los intervalos son el interés de este caso.
Ahora bien, es posible intuir que la distribución muestral de un estimador está centrada alrededor del parámetro que se trate de estimar, pero todo lo que se tiene es la estimación calculada de las n mediciones contenidas en la muestra.
¿A qué distancia del verdadero valor del parámetro estará esta estimación? ¿Qué tan diferente es el valor del estadísticos con respecto al parámetro? La distancia entre la estimación y el verdadero valor del parámetro se denomina error de estimación. (Mendenhall, Beaver, and Beaver 2010).
Se puede suponer que los tamaños muestrales son siempre grandes y que los estimadores provienen de distribuciones muestrales que pueden ser aproximadas por una distribución normal por el teorema del límite central.
La variabilidad del estimador se mide usando este error estándar y está determinado por:
\frac{\sigma}{\sqrt{n}}
Este error estándar se incorpora y se utiliza para estimar intervalos de confianza como la media poblacional.
Ahora bien, el objetivo de la estimación por intervalo es aportar información de qué tan cerca se encuentra la estimación puntual, obtenida de la muestra, del valor del parámetro poblacional (Anderson, Sweeney, and Williams 2008).
Se identifican las fórmulas para estimar intervalos de confianza con desviación estándar de la población conocida y no conocida respectivamente.
¿entonces cuándo usar z y cuándo usar t?
En esta fórmula la desviación estándar de la población SI se conoce. Se utiliza la distribución z.
IC = \bar{x} \pm z \cdot \frac{\sigma}{\sqrt{n}}
(Lind, Marchal, and Wathen 2015)
En esta otra fórmula la desviación estándar de la población NO SE CONOCE, por lo que se utiliza la distribución t
IC = \bar{x} \pm t \cdot \frac{S}{\sqrt{n}}
Se presentan ejercicios para estimar intervalos de confianza del parámetro media poblacional a partir de datos muestrales.
Como determinar z o t, fórmulas ya conocidas en casos anteriores:
z = \frac{x_i-\bar{x}}{\sigma}
t = \frac{\bar{x} - \mu}{\delta / \sqrt{n}}
library(visualize) # Gráficos de distribuciones
library(cowplot) # Gráficos
library(ggplot2) # Gráficos
source("https://raw.githubusercontent.com/rpizarrog/probabilidad-y-estad-stica/master/Agosto-Diciembre%202022/funciones/funciones%20para%20distribuciones.R")
Un científico interesado en vigilar contaminantes químicos en alimentos y, por lo tanto, la acumulación de contaminantes en la dieta humana, seleccionó una muestra aleatoria de n=50 adultos hombres.
Se encontró que el promedio de ingesta diaria de productos lácteos fue de \bar{x} = 756 gramos por día, con una desviación estándar de s s = 35 gramos por día.
Se debe construir un intervalo de confianza de 95% para la ingesta diaria media de productos lácteos para hombres.
¿Cuál será el intervalo de confianza al 95%?
Se deduce que SI SE CONOCE LA DESVIACIÓN ESTÁNDAR DE LA POBLACIÓN. y a partir de ahí se calcula el Error Estándar; se utiliza distribución z.
media.m <- 756
desv.m <- desv.p <- 35
confianza <- 0.95
n <- 50
Se calcula el error estándar SE y margen de error ME.
SE <- desv.p / sqrt(n)
SE
## [1] 4.949747
ME <- f.z.int.conf(confianza = confianza) * SE
ME
## [1] 9.701327
756 \pm 9.701327
Se puede tener confianza al 95% en que la estimación muestral de 756 gramos está a no más de SE \approx 9 gramos de la media poblacional.
Se calcula el intervalo de confianza
intervalo <- f.intervalo.confianza.z(media = media.m, desv = desv.p, confianza = confianza, n = n)
intervalo
## [1] 746.2987 765.7013
El intervalo tiene valores entre: 746.2987 y 765.7013.
Identificando el valor de z crítico.
z.critico <- f.z.int.conf(confianza = confianza)
z.critico
## [1] 1.959964
visualize.norm(stat = c(-z.critico, z.critico), section = "tails") +
text(0, 0.2, paste(confianza * 100, "%", "\n",
"alfa=", (1 - confianza), "\n", "alfa / 2 = ",
(1 - confianza) / 2, sep = ""), col = "black")
## integer(0)
Se quiere estimar la velocidad media en una calle con un límite teórico de 50km por hora.
Con un radar oculto, se observó que la velocidad media de una muestra de 25 coches fue de 58km/hora. Si la desviación típica de la velocidad en esta calle es de 6km/hora,
Calcular un intervalo de 95 % de confianza para la verdadera velocidad media.
Para este ejercicio también se presupone que SI SE CONOCE la desviación estándar de la población, por lo que se utiliza la distribución z.
media.m <- 58
desv.m <- desv.p <- 6
confianza <- 0.95
n <-25
Se calcula el error estándar SE y margen de error ME.
SE <- desv.p / sqrt(n)
SE
## [1] 1.2
ME <- f.z.int.conf(confianza = confianza) * SE
ME
## [1] 2.351957
58 \pm 2.351957
Se puede tener confianza al 95% en que la estimación muestral de 58 km/h está a no más de SE \approx 2.3 gramos de la media poblacional.
Se calcula el intervalo de confianza
intervalo <- f.intervalo.confianza.z(media = media.m, desv = desv.m, confianza = confianza, n = n)
intervalo
## [1] 55.648 60.352
El intervalo tiene valores entre: 55.648 y 60.352.
Identificando el valor de z crítico.
z.critico <- f.z.int.conf(confianza = confianza)
z.critico
## [1] 1.959964
visualize.norm(stat = c(-z.critico, z.critico), section = "tails") +
text(0, 0.2, paste(confianza * 100, "%", "\n",
"alfa=", (1 - confianza), "\n", "alfa / 2 = ",
(1 - confianza) / 2, sep = ""), col = "black")
## integer(0)
Un ambientalista está realizando un estudio del oso polar, especie que se encuentra en el océano Ártico y sus alrededores. Su zona de distribución está limitada por la existencia de hielo en el mar, que usan como plataforma para cazar focas, principal sostén de los osos.
La destrucción de su hábitat en el hielo del Ártico, que se ha atribuido al calentamiento global, amenaza la supervivencia de los osos como especie; puede extinguirse antes de un siglo.
Una muestra aleatoria de n=50 osos polares produjo un peso promedio de \bar{x}= 980 libras con una desviación estándar de \sigma = 105 libras.
¿Cuál será el intervalo de confianza al 95%?
Para estos datos vamos a pretender que NO SE CONOCE la desviación estándar por lo que se utiliza distribución t.
media.m <- 980
desv.m <- 105
confianza <- 0.95
n <- 50
Se calcula el error estándar SE y margen de error ME.
SE <- desv.m / sqrt(n)
SE
## [1] 14.84924
ME <- f.t.int.conf(confianza = confianza, n = n) * SE
ME
## [1] 29.84067
980 \pm 29.84067
Se puede tener confianza al 95% en que la estimación muestral de 980 libras está a no más de SE \approx 29 libras de la media poblacional.
Se calcula el intervalo de confianza
intervalo <- f.intervalo.confianza.t(media = media.m, desv = desv.m, confianza = confianza, n = n)
intervalo
## [1] 950.1593 1009.8407
El intervalo tiene valores entre: 950.1593 y 1009.8407.
Identificando el valor de t crítico.
t.critico <- f.t.int.conf(confianza = confianza, n = n)
t.critico
## [1] 2.009575
visualize.t(stat = c(-t.critico, t.critico), df = n-1, section = "tails") +
text(0, 0.2, paste(confianza * 100, "%", "\n",
"alfa=", (1 - confianza), "\n", "alfa / 2 = ",
(1 - confianza) / 2, sep = ""), col = "black")
## integer(0)
En 100 pruebas de alcoholemia de conductores que han saltado (se han pasado) un semáforo en una ciudad el nivel medio de alcohol en aire era de 0.65 mg/litro con una desviación estándar típica de 0.1 mg/litro.
Hallar un intervalo de 95 % de confianza para la verdadera nivel media de alcohol en el aire para conductores que saltan el semáforo.
Son los datos iniciales y se presupone que NO SE CONOCE la desviación estándar de la población por que se utiliza la distribuci´pon t.
media.m <- 0.65
desv.m <- 0.1
confianza <- 0.95
n <- 100
Se calcula el error estándar SE y margen de error ME.
SE <- desv.m / sqrt(n)
SE
## [1] 0.01
ME <- f.t.int.conf(confianza = confianza, n = n) * SE
ME
## [1] 0.01984217
0.65 \pm 0.01984217
Se puede tener confianza al 95% en que la estimación muestral de 0.65 está a no más de SE \approx 0.01 mg/litro de la media poblacional.
Se calcula el intervalo de confianza
intervalo <- f.intervalo.confianza.t(media = media.m, desv = desv.m, confianza = confianza, n = n)
intervalo
## [1] 0.6302 0.6698
El intervalo tiene valores entre: 0.6302 y 0.6698.
Identificando el valor de t crítico.
t.critico <- f.t.int.conf(confianza = confianza, n = n)
t.critico
## [1] 1.984217
visualize.t(stat = c(-t.critico, t.critico), df = n-1, section = "tails") +
text(0, 0.2, paste(confianza * 100, "%", "\n",
"alfa=", (1 - confianza), "\n", "alfa / 2 = ",
(1 - confianza) / 2, sep = ""), col = "black")
## integer(0)
R dispone de la función z.test() para determinar entre muchas otras cosas intervalos de confianza a partir de datos de una muestra con desviación estándar de población SI conocida. Es decir, usando distribución normal de z.
Para usar la función z.test() de manera especial se debe instalar el paquete “BSDA”. Ejecutar install.packages(“BSDA”) , luego cargar la librería, antes de utilizar dicha función.
library(BSDA)
Se utiliza un ejemplo del ejercicio del científico para investigar contaminantes en la comida y estimar intervalos de confianza a partir de una muestra de n=50 y de media aproximada de 756 con desviación aproximada de 35.
Se espera tener los niveles de confianza al 90%, 95% y 99% respectivamente.
Se inicializan variables.
confianza <- c(0.90, 0.95, 0.99)
n <- 50
media <- 756
desv <- 35
Se simula una muestra de n=50 de tipo normal a dos posiciones decimales alrededor de la media y la desviación establecida.
muestra <- round(rnorm(n = n, mean = media, sd = desv),2)
muestra
## [1] 780.96 790.51 702.62 756.62 744.95 690.80 721.61 704.38 765.03 790.88
## [11] 719.09 759.95 771.78 786.13 795.28 764.25 737.91 788.87 696.87 750.73
## [21] 758.47 740.29 764.64 785.13 770.18 718.27 713.57 719.97 736.34 812.61
## [31] 767.91 718.34 761.46 733.39 727.77 737.12 785.14 750.55 785.74 703.58
## [41] 795.65 816.37 790.37 704.32 785.80 746.84 692.59 756.28 823.00 830.68
Se determina la media y desviación estándar de los simulados a partir de la muestra.
media.m <- mean(muestra)
desv.m <- desv.p <- sd(muestra)
media.m; desv.m
## [1] 755.0318
## [1] 36.30845
Se determinan los intervalos de confianza a 90%, 95% y 99% repectivamente, primero usando z.test() y luego la función f.intervalo.confianza.z() para comparar los resultados y verificar que son iguales.
Se utiliza z.test() porque se presupone que si se conoce o se tiene un estimado de la desviación estándar de la población.
IC <- z.test(x = muestra, sigma.x = desv.p, conf.level = confianza[1])
IC$conf.int
## [1] 746.5858 763.4778
## attr(,"conf.level")
## [1] 0.9
intervalo <- f.intervalo.confianza.z(media = media.m, desv = desv.p, confianza = confianza[1], n = n)
intervalo
## [1] 746.5858 763.4778
IC <- z.test(x = muestra, sigma.x = desv.p, conf.level = confianza[1])
IC$conf.int
## [1] 746.5858 763.4778
## attr(,"conf.level")
## [1] 0.9
intervalo <- f.intervalo.confianza.z(media = media.m, desv = desv.p, confianza = confianza[2], n = n)
intervalo
## [1] 744.9678 765.0958
IC <- z.test(x = muestra, sigma.x = desv.p, conf.level = confianza[3])
IC$conf.int
## [1] 741.8055 768.2581
## attr(,"conf.level")
## [1] 0.99
intervalo <- f.intervalo.confianza.z(media = media.m, desv = desv.p, confianza = confianza[3], n = n)
intervalo
## [1] 741.8055 768.2581
R dispone de la función t.test() para determinar entre muchas otras cosas intervalos de confianza a partir de datos de una muestra con desviación estándar de población desconocida. Es decir, usando distribución t student .
Para usar la función t.test(), no se requiere cargar ninguna librería, ya que forma parte de los paquetes base de R.
Se utiliza un ejemplo del ejercicio del ambientalista para estimar intervalos de confianza a partir de muestra de n=50 y de media aproximada de 980 con desviación aproximada de 105
Se espera tener los niveles de confianza al 90%, 95% y 99% respectivamente.
Se inicializan variables.
confianza <- c(0.90, 0.95, 0.99)
n <- 50
media <- 980
desv <- 105
Se simula una muestra de n=50 de tipo normal a dos posiciones decimales alrededor de la media y la desviación establecida.
muestra <- round(rnorm(n = n, mean = media, sd = desv),2)
muestra
## [1] 1063.52 1176.44 934.50 886.47 1245.11 897.92 860.43 1027.74 991.42
## [10] 1025.81 946.86 950.37 912.71 763.29 852.51 1185.76 1100.09 1062.16
## [19] 1033.73 899.95 943.97 1107.92 970.06 1019.21 1107.33 989.64 968.36
## [28] 832.34 1032.36 1109.71 1055.35 1096.93 1084.76 1031.56 979.76 955.49
## [37] 1102.25 1058.05 1005.91 1128.32 990.48 1173.18 1096.28 1006.63 1059.95
## [46] 1092.21 804.32 1022.37 970.78 935.99
Se determina la media y desviación estándar de los simulados a partir de la muestra.
media.m <- mean(muestra)
desv.m <- sd(muestra)
media.m; desv.m
## [1] 1010.965
## [1] 101.671
Se determinan los intervalos de confianza a 90%, 95% y 99% repectivamente, primero usando t.test() y luego la función f.intervalo.confianza.t() para comparar los resultados.
Se utilizará la función t.test() porque se presupone que no conoce la desviación estándar de la población.
IC <- t.test(x = muestra, conf.level = confianza[1])
IC$conf.int
## [1] 986.859 1035.071
## attr(,"conf.level")
## [1] 0.9
intervalo <- f.intervalo.confianza.t(media = media.m, desv = desv.m, confianza = confianza[1], n = n)
intervalo
## [1] 986.859 1035.071
IC <- t.test(x = muestra, conf.level = confianza[2])
IC$conf.int
## [1] 982.0706 1039.8598
## attr(,"conf.level")
## [1] 0.95
intervalo <- f.intervalo.confianza.t(media = media.m, desv = desv.m, confianza = confianza[2], n = n)
intervalo
## [1] 982.0706 1039.8598
IC <- t.test(x = muestra, conf.level = confianza[3])
IC$conf.int
## [1] 972.4316 1049.4988
## attr(,"conf.level")
## [1] 0.99
intervalo <- f.intervalo.confianza.t(media = media.m, desv = desv.m, confianza = confianza[3], n = n)
intervalo
## [1] 972.4316 1049.4988
Como lo menciona Mendenhall, William, Robert J. Beaver, and Barbara M. Beaver (2010), siempre se debe buscar una explicación en el texto del informe que diga si se está utilizando la desviación estándar o el error estándar en las estimaciones.
Para estos ejercicios se utilizó el error estándar SE para estimar los intervalos de
confianza tanto para si se conoce la desviación estándar de la población
(entonces de utiliza distribución z
) como si no es conocida (entonces de utiliza distribucón t).
Para determinar y calcular los intervalos de confianza se utilizaron
funciones previamente programadas que se encuentran en el enlace
provisto para ello usando la función source().
Se puede utilizar cualquier valor de nivel de confianza.
Existe la función z.test() del paquete DSDA para estimar intervalos de confianza para cuando si se conoce la desviación estándar.
Existe la función t.test() de los paquete base de R, es decir, no se necesita instalar algún ningún paquete extra, ya que viene de manera natural cuando se instala R por primera vez. Esta función es para estimar el intervalo de confianza para cuando se supone que no se conoce la desviación estándar de la población.