Cálculo de intervalos de confianza para la media de una población con desviación típica conocida

Supongamos que queremos calcular un intervalo de confianza para una media poblacional sabiendo que la media muestral es de 32 y la desviación típica poblacional de 6. La muestra es de 50 individuos.

Los pasos para calcular los intervalos de confianza son:

1 Lo primero es fijar un nivel de confianza 1-\(\alpha\) (siendo \(\alpha\) la máxima probabilidad aceptada de cometer un error). La probabilidad de que nuestra estimación esté dentro de ciertos valores es fijada de antemano. Normalmente los valores de confianza son del 90%, 95% o 99%. Hay que tener en cuenta que mientrás más alto el nivel de confianza más estrecho será el intervalo.

Para este ejercicio fijamos un nivel de confianza del 90%

2 Cálculo del margen de error

Cuando estimo la media poblacional a través de la media muestral y cuando la desviación estándar de la población es conocida, el máximo error de estimación dado para un nivel de confianza 1-\(\alpha\) está dado por la siguiente ecuación.

\(\begin{align} E= z_{\alpha/2} \frac{\sigma}{\sqrt{n}}. \end{align}\)

siendo \(z_{\alpha/2}\) , el cuantil de la distribución normal estándar que arrastra una probabilidad de \(\alpha/2\), con \(\alpha\) nivel de significancia establecido

si yo deseo tener un nivel de confianza del 90$, entonces \(\alpha\) va a ser del 0.1 y \(\alpha/2\) va a ser 0.05 calculo los valores para que z tengo una probabilidad del 10%

qnorm(0.05,0,1)
## [1] -1.644854

3 Cálculo de los límites del intervalo. Está dado por la siguiente fórmula:

\(\begin{align} \overline{x}- z_{\alpha/2} \frac{\sigma}{\sqrt{n}}< \mu < \overline{x}+ z_{\alpha/2} \frac{\sigma}{\sqrt{n}} \end{align}\)

n <- 50    # El tamaño válido de la muestra
media <- 32 # la media 
desv <- 6  # La desviación estándar. Datos históricos
nivelconfianza = 0.90

utilizo la formula

error.est <- desv/sqrt(n) # Calculamos el error estándar
margen.error <- 1.644854 * error.est # nivel de confianza de 90% 
lim.inf <- media - margen.error # Límite inferior del intervalo
lim.inf
## [1] 30.6043
lim.sup <- media + margen.error # Límite superior del intervalo
lim.sup
## [1] 33.3957
#Con una confianza del 90% podemos decir que la media poblacional estará entre los valores 30.6 y 33.4

Ahora lo vamos a calcular directamente con una función de R. Para ello vamos a debemos previamente instalar el paquete BSDA

library(BSDA)
## Loading required package: lattice
## 
## Attaching package: 'BSDA'
## The following object is masked from 'package:datasets':
## 
##     Orange
zsum.test(mean.x=32,sigma.x=6, n.x=50,conf.level=0.90)
## 
##  One-sample z-Test
## 
## data:  Summarized x
## z = 37.712, p-value < 2.2e-16
## alternative hypothesis: true mean is not equal to 0
## 90 percent confidence interval:
##  30.6043 33.3957
## sample estimates:
## mean of x 
##        32

Intervalo de confianza para la diferencia de dos medias de una población con desviación típica conocida

Una muestra aleatoria de tamaño n1 = 25 que se toma de una población normal con una desviación típica σ1 = 5,2; tiene una media muestral de 81. Una segunda muestra aleatoria de tamaño n2 =36, que se toma de una población normal diferente con una desviación σ2 = 3,4, tiene una media de 76. Calcule un intervalo de confianza del 99% para diferencia de medias.

library(BSDA)
zsum.test(mean.x=81,sigma.x=5.2,n.x=25,mean.y=76,sigma.y=3.4,n.y=36, conf.level=0.99)
## 
##  Two-sample z-Test
## 
## data:  Summarized x and y
## z = 4.2217, p-value = 2.425e-05
## alternative hypothesis: true difference in means is not equal to 0
## 99 percent confidence interval:
##  1.949288 8.050712
## sample estimates:
## mean of x mean of y 
##        81        76

El intervalo [1,95;8,0] de diferencia de medias poblacionales tiene una confianza del 99% de que contener la verdadera diferencia de medias. Podemos inferir con un 99% de confianza que, en promedio, la media de la población 1 es mayor a la media de la población 2.

Ejercicio 1

Se ha obtenido una muestra de 35 alumnos de una Facultad para estimar la calificación media de los expedientes de los alumnos en la Facultad. Se sabe por otros cursos que la desviaciónn típica de las puntuaciones en dicha Facultad es de 2.01 puntos.
La media de la muestra fue de 4.9.
1.1 Intervalo de confianza al 90 %.
1.2 Intervalo de confianza al 99 %.

Cálculo de intervalos de confianza para la media de una población para muestras pequeñas y desviación típica desconocida

Cuando no conocemos la desviación típica de la población o la muestra es pequeña (n<30), no podemos estimar el error estándar con el desvío típico debido a que no se cumple el teorema central del límite. En estas ocasiones usaremos una nueva distribución de probabilidad llamada t de student.
Algunas características de la distribución t de student son:

En el siguiente gráfico se muestran la función densidad de la distribución t de student para diferentes grados de libertad.

Al igual que para el resto de las distribuciones, podemos calcular la función densidad, acumulada y quantil de la distribución t de student a través de R con las siguientes fórmulas:

dt(x, df) para la funciṕn densidad
pt(q, df) para la función acumulada
qt(p, df) para calcular los cuantiles

Cálculo del margen del error para para muestras pequeñas o desviación típica desconocida
Utilizamos la siguiente fórmula

\(\begin{align} E= t_{\alpha/2} \frac{s}{\sqrt{n}}. \end{align}\)

\(t_{\alpha/2}\) lo calculamos con la función qt(probabilidad, grados de libertad)

Por ejemplo para un nivel de confianza de 0.9, \(\alpha/2\) va a ser 0.05 y una muestra de tamaño 10

qt(0.05,9)
## [1] -1.833113

\(t_{\alpha/2}\)=1.833

Para armar el intervalo de confianza usamos la siguiente fórmula:

\[\begin{align} \overline{x}- t_{\alpha/2} \frac{s}{\sqrt{n}}< \mu < \overline{x}+ t_{\alpha/2} \frac{s}{\sqrt{n}} \end{align}\]

Ejercicio 2

Se ha obtenido una muestra de 15 vendedores de una Editorial para estimar el valor medio de las ventas por trabajador en la Empresa. La media y varianza de la muestra ( en miles de euros ) son 5 y 2, respectivamente.
Determine el intervalo de confianza para la venta media por trabajador en la Editorial al 99 %.

n <- 15   # El tamaño válido de la muestra
media <- 5 # la media 
nivelconfianza = 0.99
desv <- sqrt(2)  # utilizo la raíz cuadrada porque me dan como dato la varianza y la fórmula del error estándar utiliza la desvío típico. 

Recuerde que:
\(\sigma\)=\(\sqrt{\sigma^2}\)
\(\sigma\)=\(\sqrt{2}\)
\(\sigma\)=1.414214

Luego calculo \(t_{\alpha/2}\)

qt(0.005,14) # donde 14 son los grados de libertad. GL = n – 1  = 15 - 1 = 14
## [1] -2.976843

Luego calculo \(t_{\alpha/2}\)=2.97

error.est <- desv/sqrt(n) # Calculamos el error estándar
margen.error <- 2.97 * error.est # nivel de confianza de 99% 
lim.inf <- media - margen.error # Límite inferior del intervalo
lim.inf
## [1] 3.915509
lim.sup <- media + margen.error # Límite superior del intervalo
lim.sup
## [1] 6.084491
# La media poblacional va a estar entre los valores  3,91 y 6,08 con un 99% de confianza

Ahora lo calculamos con una función de R, también del paquete BSDA

library(BSDA)
tsum.test(mean.x=5,s.x=sqrt(2),n.x=15,conf.level=0.99)
## Warning in tsum.test(mean.x = 5, s.x = sqrt(2), n.x = 15, conf.level =
## 0.99): argument 'var.equal' ignored for one-sample test.
## 
##  One-sample t-Test
## 
## data:  Summarized x
## t = 13.693, df = 14, p-value = 1.689e-09
## alternative hypothesis: true mean is not equal to 0
## 99 percent confidence interval:
##  3.913011 6.086989
## sample estimates:
## mean of x 
##         5

Cálculo de intervalo de confianza de la diferencia de dos medias poblacionales con muestra pequeña y desviación típica poblacional desconocida

Para estimar la diferencia en la cantidad de fósforo químico en mg/l, medido en dos estaciones diferentes de un río, la estación 4 y la 19 se sacaron respectivamente 15 y 12 muestras de agua de un litro cada una. Las 15 primeras tuvieron un contenido promedio de 3,84 mg/ l de fósforo y una desviación típica de 3,07 mg/l, mientras que, en las 12 segundas, estos datos fueron de 1,49 mg / l y 0,80 mg / l, respectivamente.

library(BSDA)
tsum.test(mean.x=3.84, s.x = 3.07, n.x = 15, mean.y = 1.49, s.y = 0.8,
  n.y = 12, var.equal = TRUE,
  conf.level = 0.95)
## 
##  Standard Two-Sample t-Test
## 
## data:  Summarized x and y
## t = 2.5734, df = 25, p-value = 0.01639
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  0.4692324 4.2307676
## sample estimates:
## mean of x mean of y 
##      3.84      1.49

Con una confianza del 95%, el intervalo [0,475mg/l;4,225mg/l] ontiene la diferencia entre los contenidos medios poblacionales de fósforo químico en agua en las estaciones 4 y 19. Podemos inferir con un 95% de confianza que, en promedio, la media de fósforo químico en la estación 4 es mayor que en la estación 19.

Cálculo de intervalos de confianza para proporciones

Ejercicio 3

Se ha obtenido una muestra al azar de 150 vendedores de una Editorial para estimar la proporción de vendedores en la Editorial que no alcanza un lı́mite de ventas mı́nimo establecido por la dirección. De entre los seleccionados, 50 no han conseguido llegar al lı́mite de ventas mı́nimo establecido.
Calcule el intervalo de confianza para la proporción de trabajadores en la Editorial que no alcanza el lı́mite al 80 %.

Recuerde que:

\(\hat{\pi}=\frac{X}{C}\)

\(\mu_{\boldsymbol{\hat{\pi}}}\)=\(\pi\)
\(\sigma_{\boldsymbol{\hat{\pi}}}\)=\(\sqrt{\frac{\pi(1-\pi)}{c}}\)

\(\hat{\pi}\)=\(50/150\)

\(\mu_{\boldsymbol{\hat{\pi}}}\)=\(50/150\)

\(\sigma_{\boldsymbol{\hat{\pi}}}\)=\(\sqrt{\frac{0.33(1-0.33)}{150}}\)

pi<-50/150
c<-150
nivelconfianza = 0.8
z<-qnorm(0.1)

Claculo el error estándar y margen de error

error.est <- sqrt((pi*(1-pi))/c) # Calculamos el error estándar

error.est
## [1] 0.03849002
margen.error <- z* error.est # nivel de confianza de 99% 
lim.inf <- pi - margen.error # Límite inferior del intervalo
lim.inf
## [1] 0.3826603
lim.sup <- pi + margen.error # Límite superior del intervalo
lim.sup
## [1] 0.2840064

En esta ocación lo vamos a calcular directamente con una función de R. La función es prop.test

prop.test(50, 150,conf.level=0.8,correct=F)
## 
##  1-sample proportions test without continuity correction
## 
## data:  50 out of 150, null probability 0.5
## X-squared = 16.667, df = 1, p-value = 4.456e-05
## alternative hypothesis: true p is not equal to 0.5
## 80 percent confidence interval:
##  0.2860461 0.3842307
## sample estimates:
##         p 
## 0.3333333

Cálculo del intervalo de confianza para la diferencia de dos proporciones

Se están estudiando tres variedades diferentes de vid para determinar si hay alguna diferencia en porcentaje de enraizamiento de estacas. Se toma muestras aleatorias de 100 estacas de cada variedad (chardonnay, Malbec y Syrah) y se someten a las mismas condiciones con los siguientes resultados:

Numero de estacas que prendieron Chardonnay Malbec Syrah
enraizaron 82 70 58
No enraizaron 18 30 42

Calcule la estimación por intervalo, con una confianza de 99%, para la diferencia de proporciones de estacas enraizadas entre las variedades Chardonnay y Syrah. ¿Tiene información suficiente para decir que hay diferencia entre las estacas enraizadas de la variedad Chardonnay y las estacas enraizadas de la variedad Syrah?

prop.test(x=c(82,58), n=c(100, 100),conf.level=0.99,correct=F)
## 
##  2-sample test for equality of proportions without continuity
##  correction
## 
## data:  c(82, 58) out of c(100, 100)
## X-squared = 13.714, df = 1, p-value = 0.0002128
## alternative hypothesis: two.sided
## 99 percent confidence interval:
##  0.07889222 0.40110778
## sample estimates:
## prop 1 prop 2 
##   0.82   0.58

Podemos inferir con un 99% de confianza que, en promedio, la proporción de estacas germinadas de la variedad chardonnay es mayor a la proporción de estacas germinadas de la variedad syrah.

Ejercicio adicional realizado en clase

Supongamos que tenemos los siguientes datos. Se desea saber si hay diferencia de rendimiento e IPT entre la variedad Malbec y la variedad Bonarda.

Variedad Rendimiento IPT
Malbec 90 60
Malbec 110 58
Malbec 85 62
Malbec 76 67
Malbec 120 55
Malbec 150 54
Malbec 76 61
Malbec 85 64
Bonarda 150 62
Bonarda 210 62
Bonarda 176 57
Bonarda 189 58
Bonarda 89 59.6
Bonarda 200 60
Bonarda 189 63
Bonarda 176 60

Para resolverlo se debe calcular la diferencia de medias entre Malbec y Bonarda para IPT y rendimiento. Procedemos a calcular la diferencia de medias para el IPT

malbec<-c(60,
          58,
          62,
          67,
          55,
          54,
          61,
          64)
          
Bonarda<-c(62,
           62,
           57,
           58,
           59.6,
           60,
           63,
           60)
tsum.test(mean.x=mean(malbec), s.x = sd(malbec), n.x = 8, 
          mean.y = mean(Bonarda) , s.y = sd(Bonarda),
          n.y = 8, var.equal = TRUE,
          conf.level = 0.95)
## 
##  Standard Two-Sample t-Test
## 
## data:  Summarized x and y
## t = -0.043731, df = 14, p-value = 0.9657
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  -3.753381  3.603381
## sample estimates:
## mean of x mean of y 
##    60.125    60.200

El intervalo de confianza de diferencias de medias va de -0.0437 a 0.9657. Como el intervalo incluye el cero podemos que no hay diferencias significativas de IPT entre las dos variedades.

Luego calculamos el intervalo de confianza para la diferencia de medias del rendimiento

malbec<-c(90,
110,
85,
76,
120,
150,
76,
85)

          
Bonarda<-c(150,
210,
176,
189,
89,
200,
189,
176
)
tsum.test(mean.x=mean(malbec), s.x = sd(malbec), n.x = 8, 
          mean.y = mean(Bonarda) , s.y = sd(Bonarda),
          n.y = 8, var.equal = TRUE,
          conf.level = 0.95)
## 
##  Standard Two-Sample t-Test
## 
## data:  Summarized x and y
## t = -4.4977, df = 14, p-value = 0.0005014
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  -108.36466  -38.38534
## sample estimates:
## mean of x mean of y 
##    99.000   172.375

En este caso el intervalo no incluye el cero por lo tanto podemos decir que ambas variedades tienen un rendimiento significativamente distinto