Processing math: 6%
  • 1 Objetivo
  • 2 Descripción
  • 3 Fundamento teórico
    • 3.1 Fórmula para Intervalo de Confianza IC
    • 3.2 Fórmula para Intervalo de Confiaza IC
  • 4 Desarrollo
    • 4.1 Cargar librerías
    • 4.2 Cargar funciones
    • 4.3 Intervalo de confianza para media con desviación estándar de población conocida
      • 4.3.1 Científico y contaminantes químicos
        • 4.3.1.1 Los datos
        • 4.3.1.2 Intervalo de confianza
        • 4.3.1.3 Visualización de la distribución
      • 4.3.2 Velocidad en una calle
        • 4.3.2.1 Los datos
        • 4.3.2.2 Intervalo de confianza
        • 4.3.2.3 Visualización de la distribución
        • 4.3.2.4
    • 4.4 Intervalo de confianza para media con desviación estándar de la población desconocida
      • 4.4.1 Ambientalista y habitat de oso polar
        • 4.4.1.1 Los datos
        • 4.4.1.2 Intervalo de confianza
        • 4.4.1.3 Visualización de la distribución
      • 4.4.2 Pruebas de alcoholemia
        • 4.4.2.1 Los datos
        • 4.4.2.2 Intervalo de confianza
        • 4.4.2.3 Visualización de la distribución
    • 4.5 Función z.test()
      • 4.5.1 Datos
      • 4.5.2 Generando la muestra
      • 4.5.3 Media de muestra y desviación
      • 4.5.4 Niveles de confianza
        • 4.5.4.1 Niveles al 90%
        • 4.5.4.2 Niveles al 95%
        • 4.5.4.3 Niveles al 99%
    • 4.6 Función t.test()
      • 4.6.1 Datos
      • 4.6.2 Generando la muestra
      • 4.6.3 Media de muestra y desviación
      • 4.6.4 Niveles de confianza
        • 4.6.4.1 Niveles al 90%
        • 4.6.4.2 Niveles al 95%
        • 4.6.4.3 Niveles al 99%
  • 5 Interpretación
  • Bibliografía

1 Objetivo

Determinar intervalos de confianza de media poblacional con desviación estándar de la población conocida y desconocida.

2 Descripción

Se calculan intervalos de confianza de medias poblacionales con varios ejercicios extraídos de la literatura

3 Fundamento teórico

La inferencia estadística, específicamente la toma y predicción de decisiones desempeña un papel muy importante en la vida de casi todas las personas.

Hay muchas formas de tomar estas decisiones o predicciones, algunas son subjetivas y otras son objetivas por naturaleza. L a pregunta es que tan buena son las decisiones y en que´argumentos se basan estas decisiones?

Aun cuando se pueda pensar que su propia capacidad de tomar decisiones es muy buena, la experiencia sugiere que éste puede no ser el caso.

Es la función del estadístico matemático dar métodos de toma de inferencia estadística son mejores y más confiables que únicamente cálculos subjetivos.(Mendenhall, Beaver, and Beaver 2010).

La inferencia estadística se encarga de apoyar el proceso de toma decisiones o predicciones acerca de parámetros. Tal vez estos parámetros de interés sean la media poblacional μ, la desviación estándar poblacional σ o la proporción de una población p.

Para este caso en los ejercicios mostrados mas adelante, se describen estimación de las medias poblacionales.

Cabe recordar que si se trata de mediciones poblacionales estos se llaman parámetros y si se trata de mediciones muestrales estos se llaman estadísticos.

población = parámetros \\ muestra = estadísticos

De acuerdo a (Mendenhall, Beaver, and Beaver 2010) estimación implica predecir el valor del parámetro.

Para estimar el valor de un parámetro poblacional, se puede usar datos de la muestra en la forma de un estimador. Los estimadores se determinan usando información de las observaciones muestrales y, en consecuencia, por definición son también estadísticas.

Por definición, un estimador es una regla, generalmente expresada como fórmula, que establece cómo calcular una estimación basada en información de la muestra.

Se pueden encontrar dos tipos de estimaciones

Estimaciones puntuales que significa que con base en datos muestrales, se calcula un solo número o un estimador puntual.

Estimaciones por intervalos que implica encontrar dos valores numéricos que se calculan para formar un intervalo dentro del cual se espera esté el parámetro poblacional. Los intervalos son el interés de este caso.

Ahora bien, es posible intuir que la distribución muestral de un estimador está centrada alrededor del parámetro que se trate de estimar, pero todo lo que se tiene es la estimación calculada de las n mediciones contenidas en la muestra.

¿A qué distancia del verdadero valor del parámetro estará esta estimación? ¿Qué tan diferente es el valor del estadísticos con respecto al parámetro? La distancia entre la estimación y el verdadero valor del parámetro se denomina error de estimación. (Mendenhall, Beaver, and Beaver 2010).

Se puede suponer que los tamaños muestrales son siempre grandes y que los estimadores provienen de distribuciones muestrales que pueden ser aproximadas por una distribución normal por el teorema del límite central.

La variabilidad del estimador se mide usando este error estándar y está determinado por:

\frac{\sigma}{\sqrt{n}}

Este error estándar se incorpora y se utiliza para estimar intervalos de confianza como la media poblacional.

Ahora bien, el objetivo de la estimación por intervalo es aportar información de qué tan cerca se encuentra la estimación puntual, obtenida de la muestra, del valor del parámetro poblacional (Anderson, Sweeney, and Williams 2008).

Se identifican las fórmulas para estimar intervalos de confianza con desviación estándar de la población conocida y no conocida respectivamente.

¿entonces cuándo usar z y cuándo usar t?

3.1 Fórmula para Intervalo de Confianza IC

En esta fórmula la desviación estándar de la población SI se conoce. Se utiliza la distribución z.

IC = \bar{x} \pm z \cdot \frac{\sigma}{\sqrt{n}}

(Lind, Marchal, and Wathen 2015)

3.2 Fórmula para Intervalo de Confiaza IC

En esta otra fórmula la desviación estándar de la población NO SE CONOCE, por lo que se utiliza la distribución t

IC = \bar{x} \pm t \cdot \frac{S}{\sqrt{n}}

Se presentan ejercicios para estimar intervalos de confianza del parámetro media poblacional a partir de datos muestrales.

Como determinar z o t, fórmulas ya conocidas en casos anteriores:

z = \frac{x_i-\bar{x}}{\sigma}

t = \frac{\bar{x} - \mu}{\delta / \sqrt{n}}

4 Desarrollo

4.1 Cargar librerías

library(visualize) # Gráficos de distribuciones
library(cowplot) # Gráficos
library(ggplot2) # Gráficos

4.2 Cargar funciones

source("https://raw.githubusercontent.com/rpizarrog/probabilidad-y-estad-stica/master/Agosto-Diciembre%202022/funciones/funciones%20para%20distribuciones.R")

4.3 Intervalo de confianza para media con desviación estándar de población conocida

4.3.1 Científico y contaminantes químicos

Un científico interesado en vigilar contaminantes químicos en alimentos y, por lo tanto, la acumulación de contaminantes en la dieta humana, seleccionó una muestra aleatoria de n=50 adultos hombres.

Se encontró que el promedio de ingesta diaria de productos lácteos fue de \bar{x} = 756 gramos por día, con una desviación estándar de s s = 35 gramos por día.

Se debe construir un intervalo de confianza de 95% para la ingesta diaria media de productos lácteos para hombres.

¿Cuál será el intervalo de confianza al 95%?

4.3.1.1 Los datos

Se deduce que SI SE CONOCE LA DESVIACIÓN ESTÁNDAR DE LA POBLACIÓN. y a partir de ahí se calcula el Error Estándar; se utiliza distribución z.

media.m <- 756
desv.m <- desv.p <- 35
confianza <- 0.95
n <- 50

4.3.1.2 Intervalo de confianza

Se calcula el error estándar SE y margen de error ME.

SE <- desv.p / sqrt(n)
SE
## [1] 4.949747
ME <- f.z.int.conf(confianza = confianza) * SE
ME
## [1] 9.701327

756 \pm 9.701327

Se puede tener confianza al 95% en que la estimación muestral de 756 gramos está a no más de SE \approx 9 gramos de la media poblacional.

Se calcula el intervalo de confianza

intervalo <- f.intervalo.confianza.z(media = media.m, desv = desv.p, confianza = confianza, n = n)
intervalo
## [1] 746.2987 765.7013

El intervalo tiene valores entre: 746.2987 y 765.7013.

4.3.1.3 Visualización de la distribución

Identificando el valor de z crítico.

z.critico <- f.z.int.conf(confianza = confianza)
z.critico
## [1] 1.959964
visualize.norm(stat = c(-z.critico, z.critico), section = "tails") +
  text(0, 0.2, paste(confianza * 100, "%", "\n", 
                     "alfa=", (1 - confianza), "\n",  "alfa / 2 = ", 
                     (1 - confianza) /  2, sep = ""),  col = "black")

## integer(0)

4.3.2 Velocidad en una calle

Se quiere estimar la velocidad media en una calle con un límite teórico de 50km por hora.

Con un radar oculto, se observó que la velocidad media de una muestra de 25 coches fue de 58km/hora. Si la desviación típica de la velocidad en esta calle es de 6km/hora,

Calcular un intervalo de 95 % de confianza para la verdadera velocidad media.

4.3.2.1 Los datos

Para este ejercicio también se presupone que SI SE CONOCE la desviación estándar de la población, por lo que se utiliza la distribución z.

media.m <- 58
desv.m <- desv.p <- 6
confianza <- 0.95
n <-25

4.3.2.2 Intervalo de confianza

Se calcula el error estándar SE y margen de error ME.

SE <- desv.p / sqrt(n)
SE
## [1] 1.2
ME <- f.z.int.conf(confianza = confianza) * SE
ME
## [1] 2.351957

58 \pm 2.351957

Se puede tener confianza al 95% en que la estimación muestral de 58 km/h está a no más de SE \approx 2.3 gramos de la media poblacional.

Se calcula el intervalo de confianza

intervalo <- f.intervalo.confianza.z(media = media.m, desv = desv.m, confianza = confianza, n = n)
intervalo
## [1] 55.648 60.352

El intervalo tiene valores entre: 55.648 y 60.352.

4.3.2.3 Visualización de la distribución

Identificando el valor de z crítico.

z.critico <- f.z.int.conf(confianza = confianza)
z.critico
## [1] 1.959964
visualize.norm(stat = c(-z.critico, z.critico), section = "tails") +
  text(0, 0.2, paste(confianza * 100, "%", "\n", 
                     "alfa=", (1 - confianza), "\n",  "alfa / 2 = ", 
                     (1 - confianza) /  2, sep = ""),  col = "black")

## integer(0)

4.3.2.4

4.4 Intervalo de confianza para media con desviación estándar de la población desconocida

4.4.1 Ambientalista y habitat de oso polar

Un ambientalista está realizando un estudio del oso polar, especie que se encuentra en el océano Ártico y sus alrededores. Su zona de distribución está limitada por la existencia de hielo en el mar, que usan como plataforma para cazar focas, principal sostén de los osos.

La destrucción de su hábitat en el hielo del Ártico, que se ha atribuido al calentamiento global, amenaza la supervivencia de los osos como especie; puede extinguirse antes de un siglo.

Una muestra aleatoria de n=50 osos polares produjo un peso promedio de \bar{x}= 980 libras con una desviación estándar de \sigma = 105 libras.

¿Cuál será el intervalo de confianza al 95%?

4.4.1.1 Los datos

Para estos datos vamos a pretender que NO SE CONOCE la desviación estándar por lo que se utiliza distribución t.

media.m <- 980
desv.m <- 105
confianza <- 0.95
n <- 50

4.4.1.2 Intervalo de confianza

Se calcula el error estándar SE y margen de error ME.

SE <- desv.m / sqrt(n)
SE 
## [1] 14.84924
ME <- f.t.int.conf(confianza = confianza, n = n) * SE 
ME
## [1] 29.84067

980 \pm 29.84067

Se puede tener confianza al 95% en que la estimación muestral de 980 libras está a no más de SE \approx 29 libras de la media poblacional.

Se calcula el intervalo de confianza

intervalo <- f.intervalo.confianza.t(media = media.m, desv = desv.m, confianza = confianza, n = n)
intervalo
## [1]  950.1593 1009.8407

El intervalo tiene valores entre: 950.1593 y 1009.8407.

4.4.1.3 Visualización de la distribución

Identificando el valor de t crítico.

t.critico <- f.t.int.conf(confianza = confianza, n = n)
t.critico
## [1] 2.009575
visualize.t(stat = c(-t.critico, t.critico),  df = n-1, section = "tails") +
  text(0, 0.2, paste(confianza * 100, "%", "\n", 
                     "alfa=", (1 - confianza), "\n",  "alfa / 2 = ", 
                     (1 - confianza) /  2, sep = ""),  col = "black")

## integer(0)

4.4.2 Pruebas de alcoholemia

En 100 pruebas de alcoholemia de conductores que han saltado (se han pasado) un semáforo en una ciudad el nivel medio de alcohol en aire era de 0.65 mg/litro con una desviación estándar típica de 0.1 mg/litro.

Hallar un intervalo de 95 % de confianza para la verdadera nivel media de alcohol en el aire para conductores que saltan el semáforo.

4.4.2.1 Los datos

Son los datos iniciales y se presupone que NO SE CONOCE la desviación estándar de la población por que se utiliza la distribuci´pon t.

media.m <- 0.65
desv.m <- 0.1
confianza <- 0.95
n <- 100

4.4.2.2 Intervalo de confianza

Se calcula el error estándar SE y margen de error ME.

SE <- desv.m / sqrt(n)
SE 
## [1] 0.01
ME <- f.t.int.conf(confianza = confianza, n = n) * SE 
ME
## [1] 0.01984217

0.65 \pm 0.01984217

Se puede tener confianza al 95% en que la estimación muestral de 0.65 está a no más de SE \approx 0.01 mg/litro de la media poblacional.

Se calcula el intervalo de confianza

intervalo <- f.intervalo.confianza.t(media = media.m, desv = desv.m, confianza = confianza, n = n)
intervalo
## [1] 0.6302 0.6698

El intervalo tiene valores entre: 0.6302 y 0.6698.

4.4.2.3 Visualización de la distribución

Identificando el valor de t crítico.

t.critico <- f.t.int.conf(confianza = confianza, n = n)
t.critico
## [1] 1.984217
visualize.t(stat = c(-t.critico, t.critico),  df = n-1, section = "tails") +
  text(0, 0.2, paste(confianza * 100, "%", "\n", 
                     "alfa=", (1 - confianza), "\n",  "alfa / 2 = ", 
                     (1 - confianza) /  2, sep = ""),  col = "black")

## integer(0)

4.5 Función z.test()

R dispone de la función z.test() para determinar entre muchas otras cosas intervalos de confianza a partir de datos de una muestra con desviación estándar de población SI conocida. Es decir, usando distribución normal de z.

Para usar la función z.test() de manera especial se debe instalar el paquete “BSDA”. Ejecutar install.packages(“BSDA”) , luego cargar la librería, antes de utilizar dicha función.

library(BSDA)

Se utiliza un ejemplo del ejercicio del científico para investigar contaminantes en la comida y estimar intervalos de confianza a partir de una muestra de n=50 y de media aproximada de 756 con desviación aproximada de 35.

4.5.1 Datos

Se espera tener los niveles de confianza al 90%, 95% y 99% respectivamente.

Se inicializan variables.

confianza <- c(0.90, 0.95, 0.99)
n <- 50
media <- 756
desv <- 35

4.5.2 Generando la muestra

Se simula una muestra de n=50 de tipo normal a dos posiciones decimales alrededor de la media y la desviación establecida.

muestra <- round(rnorm(n = n, mean = media, sd = desv),2)
muestra
##  [1] 780.96 790.51 702.62 756.62 744.95 690.80 721.61 704.38 765.03 790.88
## [11] 719.09 759.95 771.78 786.13 795.28 764.25 737.91 788.87 696.87 750.73
## [21] 758.47 740.29 764.64 785.13 770.18 718.27 713.57 719.97 736.34 812.61
## [31] 767.91 718.34 761.46 733.39 727.77 737.12 785.14 750.55 785.74 703.58
## [41] 795.65 816.37 790.37 704.32 785.80 746.84 692.59 756.28 823.00 830.68

4.5.3 Media de muestra y desviación

Se determina la media y desviación estándar de los simulados a partir de la muestra.

media.m <- mean(muestra)
desv.m <- desv.p <- sd(muestra)
media.m; desv.m
## [1] 755.0318
## [1] 36.30845

4.5.4 Niveles de confianza

Se determinan los intervalos de confianza a 90%, 95% y 99% repectivamente, primero usando z.test() y luego la función f.intervalo.confianza.z() para comparar los resultados y verificar que son iguales.

4.5.4.1 Niveles al 90%

Se utiliza z.test() porque se presupone que si se conoce o se tiene un estimado de la desviación estándar de la población.

IC <- z.test(x = muestra, sigma.x = desv.p, conf.level = confianza[1])
IC$conf.int
## [1] 746.5858 763.4778
## attr(,"conf.level")
## [1] 0.9
intervalo <- f.intervalo.confianza.z(media = media.m, desv = desv.p, confianza = confianza[1], n = n)
intervalo
## [1] 746.5858 763.4778

4.5.4.2 Niveles al 95%

IC <- z.test(x = muestra, sigma.x = desv.p, conf.level = confianza[1])
IC$conf.int
## [1] 746.5858 763.4778
## attr(,"conf.level")
## [1] 0.9
intervalo <- f.intervalo.confianza.z(media = media.m, desv = desv.p, confianza = confianza[2], n = n)
intervalo
## [1] 744.9678 765.0958

4.5.4.3 Niveles al 99%

IC <- z.test(x = muestra, sigma.x = desv.p, conf.level = confianza[3])
IC$conf.int
## [1] 741.8055 768.2581
## attr(,"conf.level")
## [1] 0.99
intervalo <- f.intervalo.confianza.z(media = media.m, desv = desv.p, confianza = confianza[3], n = n)
intervalo
## [1] 741.8055 768.2581

4.6 Función t.test()

R dispone de la función t.test() para determinar entre muchas otras cosas intervalos de confianza a partir de datos de una muestra con desviación estándar de población desconocida. Es decir, usando distribución t student .

Para usar la función t.test(), no se requiere cargar ninguna librería, ya que forma parte de los paquetes base de R.

Se utiliza un ejemplo del ejercicio del ambientalista para estimar intervalos de confianza a partir de muestra de n=50 y de media aproximada de 980 con desviación aproximada de 105

4.6.1 Datos

Se espera tener los niveles de confianza al 90%, 95% y 99% respectivamente.

Se inicializan variables.

confianza <- c(0.90, 0.95, 0.99)
n <- 50
media <- 980
desv <- 105

4.6.2 Generando la muestra

Se simula una muestra de n=50 de tipo normal a dos posiciones decimales alrededor de la media y la desviación establecida.

muestra <- round(rnorm(n = n, mean = media, sd = desv),2)
muestra
##  [1] 1063.52 1176.44  934.50  886.47 1245.11  897.92  860.43 1027.74  991.42
## [10] 1025.81  946.86  950.37  912.71  763.29  852.51 1185.76 1100.09 1062.16
## [19] 1033.73  899.95  943.97 1107.92  970.06 1019.21 1107.33  989.64  968.36
## [28]  832.34 1032.36 1109.71 1055.35 1096.93 1084.76 1031.56  979.76  955.49
## [37] 1102.25 1058.05 1005.91 1128.32  990.48 1173.18 1096.28 1006.63 1059.95
## [46] 1092.21  804.32 1022.37  970.78  935.99

4.6.3 Media de muestra y desviación

Se determina la media y desviación estándar de los simulados a partir de la muestra.

media.m <- mean(muestra)
desv.m <- sd(muestra)
media.m; desv.m
## [1] 1010.965
## [1] 101.671

4.6.4 Niveles de confianza

Se determinan los intervalos de confianza a 90%, 95% y 99% repectivamente, primero usando t.test() y luego la función f.intervalo.confianza.t() para comparar los resultados.

Se utilizará la función t.test() porque se presupone que no conoce la desviación estándar de la población.

4.6.4.1 Niveles al 90%

IC <- t.test(x = muestra, conf.level = confianza[1])
IC$conf.int
## [1]  986.859 1035.071
## attr(,"conf.level")
## [1] 0.9
intervalo <- f.intervalo.confianza.t(media = media.m, desv = desv.m, confianza = confianza[1], n = n)
intervalo
## [1]  986.859 1035.071

4.6.4.2 Niveles al 95%

IC <- t.test(x = muestra, conf.level = confianza[2])
IC$conf.int
## [1]  982.0706 1039.8598
## attr(,"conf.level")
## [1] 0.95
intervalo <- f.intervalo.confianza.t(media = media.m, desv = desv.m, confianza = confianza[2], n = n)
intervalo
## [1]  982.0706 1039.8598

4.6.4.3 Niveles al 99%

IC <- t.test(x = muestra, conf.level = confianza[3])
IC$conf.int
## [1]  972.4316 1049.4988
## attr(,"conf.level")
## [1] 0.99
intervalo <- f.intervalo.confianza.t(media = media.m, desv = desv.m, confianza = confianza[3], n = n)
intervalo
## [1]  972.4316 1049.4988

5 Interpretación

Como lo menciona Mendenhall, William, Robert J. Beaver, and Barbara M. Beaver (2010), siempre se debe buscar una explicación en el texto del informe que diga si se está utilizando la desviación estándar o el error estándar en las estimaciones.

Para estos ejercicios se utilizó el error estándar SE para estimar los intervalos de confianza tanto para si se conoce la desviación estándar de la población (entonces de utiliza distribución z ) como si no es conocida (entonces de utiliza distribucón t).
Para determinar y calcular los intervalos de confianza se utilizaron funciones previamente programadas que se encuentran en el enlace provisto para ello usando la función source().

Se puede utilizar cualquier valor de nivel de confianza.

Existe la función z.test() del paquete DSDA para estimar intervalos de confianza para cuando si se conoce la desviación estándar.

Existe la función t.test() de los paquete base de R, es decir, no se necesita instalar algún ningún paquete extra, ya que viene de manera natural cuando se instala R por primera vez. Esta función es para estimar el intervalo de confianza para cuando se supone que no se conoce la desviación estándar de la población.

Bibliografía

Anderson, David R., Dennis J. Sweeney, and Thomas A. Williams. 2008. Estadística Para Administración y Economía. 10th ed. Australia Brasil Corea España Estados Unidos Japón México Reino Unido Singapur: Cengage Learning,.
Lind, Douglas, William Marchal, and Samuel Wathen. 2015. Estadística Aplicada a Los Negocios y La Economía. Decimo Sexta. México, D.F.: McGraw-Hill.
Mendenhall, William, Robert J. Beaver, and Barbara M. Beaver. 2010. Introducción a La Probabilidad y Estadística. 13th ed. Cengage Learning Editores, S.A. de C.V.,.