Supongamos que queremos calcular un intervalo de confianza para una media poblacional sabiendo que la media muestral es de 32 y la desviación típica poblacional de 6. La muestra es de 50 individuos.
Los pasos para calcular los intervalos de confianza son:
1 Lo primero es fijar un nivel de confianza 1-\(\alpha\) (siendo \(\alpha\) la máxima probabilidad aceptada de cometer un error). La probabilidad de que nuestra estimación esté dentro de ciertos valores es fijada de antemano. Normalmente los valores de confianza son del 90%, 95% o 99%. Hay que tener en cuenta que mientrás más alto el nivel de confianza más estrecho será el intervalo.
Para este ejercicio fijamos un nivel de confianza del 90%
2 Cálculo del margen de error
Cuando estimo la media poblacional a través de la media muestral y cuando la desviación estándar de la población es conocida, el máximo error de estimación dado para un nivel de confianza 1-\(\alpha\) está dado por la siguiente ecuación.
\(\begin{align} E= z_{\alpha/2} \frac{\sigma}{\sqrt{n}}. \end{align}\)
siendo \(z_{\alpha/2}\) , el cuantil de la distribución normal estándar que arrastra una probabilidad de \(\alpha/2\), con \(\alpha\) nivel de significancia establecido
si yo deseo tener un nivel de confianza del 90$, entonces \(\alpha\) va a ser del 0.1 y \(\alpha/2\) va a ser 0.05 calculo los valores para que z tengo una probabilidad del 10%
qnorm(0.05,0,1)
## [1] -1.644854
3 Cálculo de los límites del intervalo. Está dado por la siguiente fórmula:
\(\begin{align} \overline{x}- z_{\alpha/2} \frac{\sigma}{\sqrt{n}}< \mu < \overline{x}+ z_{\alpha/2} \frac{\sigma}{\sqrt{n}} \end{align}\)
n <- 50 # El tamaño válido de la muestra
media <- 32 # la media
desv <- 6 # La desviación estándar. Datos históricos
nivelconfianza = 0.90
utilizo la formula
error.est <- desv/sqrt(n) # Calculamos el error estándar
margen.error <- 1.644854 * error.est # nivel de confianza de 90%
lim.inf <- media - margen.error # Límite inferior del intervalo
lim.inf
## [1] 30.6043
lim.sup <- media + margen.error # Límite superior del intervalo
lim.sup
## [1] 33.3957
#Con una confianza del 90% podemos decir que la media poblacional estará entre los valores 30.6 y 33.4
Ahora lo vamos a calcular directamente con una función de R. Para ello vamos a debemos previamente instalar el paquete BSDA
library(BSDA)
## Loading required package: lattice
##
## Attaching package: 'BSDA'
## The following object is masked from 'package:datasets':
##
## Orange
zsum.test(mean.x=32,sigma.x=6, n.x=50,conf.level=0.90)
##
## One-sample z-Test
##
## data: Summarized x
## z = 37.712, p-value < 2.2e-16
## alternative hypothesis: true mean is not equal to 0
## 90 percent confidence interval:
## 30.6043 33.3957
## sample estimates:
## mean of x
## 32
Una muestra aleatoria de tamaño n1 = 25 que se toma de una población normal con una desviación típica σ1 = 5,2; tiene una media muestral de 81. Una segunda muestra aleatoria de tamaño n2 =36, que se toma de una población normal diferente con una desviación σ2 = 3,4, tiene una media de 76. Calcule un intervalo de confianza del 99% para diferencia de medias.
library(BSDA)
zsum.test(mean.x=81,sigma.x=5.2,n.x=25,mean.y=76,sigma.y=3.4,n.y=36, conf.level=0.99)
##
## Two-sample z-Test
##
## data: Summarized x and y
## z = 4.2217, p-value = 2.425e-05
## alternative hypothesis: true difference in means is not equal to 0
## 99 percent confidence interval:
## 1.949288 8.050712
## sample estimates:
## mean of x mean of y
## 81 76
El intervalo [1,95;8,0] de diferencia de medias poblacionales tiene una confianza del 99% de que contener la verdadera diferencia de medias. Podemos inferir con un 99% de confianza que, en promedio, la media de la población 1 es mayor a la media de la población 2.
Ejercicio 1
Se ha obtenido una muestra de 35 alumnos de una Facultad para estimar la calificación media de los expedientes de los alumnos en la Facultad. Se sabe por otros cursos que la desviaciónn típica de las puntuaciones en dicha Facultad es de 2.01 puntos.
La media de la muestra fue de 4.9.
1.1 Intervalo de confianza al 90 %.
1.2 Intervalo de confianza al 99 %.
Cuando no conocemos la desviación típica de la población o la muestra es pequeña (n<30), no podemos estimar el error estándar con el desvío típico debido a que no se cumple el teorema central del límite. En estas ocasiones usaremos una nueva distribución de probabilidad llamada t de student.
Algunas características de la distribución t de student son:
En el siguiente gráfico se muestran la función densidad de la distribución t de student para diferentes grados de libertad.
Al igual que para el resto de las distribuciones, podemos calcular la función densidad, acumulada y quantil de la distribución t de student a través de R con las siguientes fórmulas:
dt(x, df) para la funciṕn densidad
pt(q, df) para la función acumulada
qt(p, df) para calcular los cuantiles
Cálculo del margen del error para para muestras pequeñas o desviación típica desconocida
Utilizamos la siguiente fórmula
\(\begin{align} E= t_{\alpha/2} \frac{s}{\sqrt{n}}. \end{align}\)
\(t_{\alpha/2}\) lo calculamos con la función qt(probabilidad, grados de libertad)
Por ejemplo para un nivel de confianza de 0.9, \(\alpha/2\) va a ser 0.05 y una muestra de tamaño 10
qt(0.05,9)
## [1] -1.833113
\(t_{\alpha/2}\)=1.833
Para armar el intervalo de confianza usamos la siguiente fórmula:
\[\begin{align} \overline{x}- t_{\alpha/2} \frac{s}{\sqrt{n}}< \mu < \overline{x}+ t_{\alpha/2} \frac{s}{\sqrt{n}} \end{align}\]Ejercicio 2
Se ha obtenido una muestra de 15 vendedores de una Editorial para estimar el valor medio de las ventas por trabajador en la Empresa. La media y varianza de la muestra ( en miles de euros ) son 5 y 2, respectivamente.
Determine el intervalo de confianza para la venta media por trabajador en la Editorial al 99 %.
n <- 15 # El tamaño válido de la muestra
media <- 5 # la media
nivelconfianza = 0.99
desv <- sqrt(2) # utilizo la raíz cuadrada porque me dan como dato la varianza y la fórmula del error estándar utiliza la desvío típico.
Recuerde que:
\(\sigma\)=\(\sqrt{\sigma^2}\)
\(\sigma\)=\(\sqrt{2}\)
\(\sigma\)=1.414214
Luego calculo \(t_{\alpha/2}\)
qt(0.005,14) # donde 14 son los grados de libertad. GL = n – 1 = 15 - 1 = 14
## [1] -2.976843
Luego calculo \(t_{\alpha/2}\)=2.97
error.est <- desv/sqrt(n) # Calculamos el error estándar
margen.error <- 2.97 * error.est # nivel de confianza de 99%
lim.inf <- media - margen.error # Límite inferior del intervalo
lim.inf
## [1] 3.915509
lim.sup <- media + margen.error # Límite superior del intervalo
lim.sup
## [1] 6.084491
# La media poblacional va a estar entre los valores 3,91 y 6,08 con un 99% de confianza
Ahora lo calculamos con una función de R, también del paquete BSDA
library(BSDA)
tsum.test(mean.x=5,s.x=sqrt(2),n.x=15,conf.level=0.99)
## Warning in tsum.test(mean.x = 5, s.x = sqrt(2), n.x = 15, conf.level =
## 0.99): argument 'var.equal' ignored for one-sample test.
##
## One-sample t-Test
##
## data: Summarized x
## t = 13.693, df = 14, p-value = 1.689e-09
## alternative hypothesis: true mean is not equal to 0
## 99 percent confidence interval:
## 3.913011 6.086989
## sample estimates:
## mean of x
## 5
Para estimar la diferencia en la cantidad de fósforo químico en mg/l, medido en dos estaciones diferentes de un río, la estación 4 y la 19 se sacaron respectivamente 15 y 12 muestras de agua de un litro cada una. Las 15 primeras tuvieron un contenido promedio de 3,84 mg/ l de fósforo y una desviación típica de 3,07 mg/l, mientras que, en las 12 segundas, estos datos fueron de 1,49 mg / l y 0,80 mg / l, respectivamente.
library(BSDA)
tsum.test(mean.x=3.84, s.x = 3.07, n.x = 15, mean.y = 1.49, s.y = 0.8,
n.y = 12, var.equal = TRUE,
conf.level = 0.95)
##
## Standard Two-Sample t-Test
##
## data: Summarized x and y
## t = 2.5734, df = 25, p-value = 0.01639
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## 0.4692324 4.2307676
## sample estimates:
## mean of x mean of y
## 3.84 1.49
Con una confianza del 95%, el intervalo [0,475mg/l;4,225mg/l] ontiene la diferencia entre los contenidos medios poblacionales de fósforo químico en agua en las estaciones 4 y 19. Podemos inferir con un 95% de confianza que, en promedio, la media de fósforo químico en la estación 4 es mayor que en la estación 19.
Ejercicio 3
Se ha obtenido una muestra al azar de 150 vendedores de una Editorial para estimar la proporción de vendedores en la Editorial que no alcanza un lı́mite de ventas mı́nimo establecido por la dirección. De entre los seleccionados, 50 no han conseguido llegar al lı́mite de ventas mı́nimo establecido.
Calcule el intervalo de confianza para la proporción de trabajadores en la Editorial que no alcanza el lı́mite al 80 %.
Recuerde que:
\(\hat{\pi}=\frac{X}{C}\)
\(\mu_{\boldsymbol{\hat{\pi}}}\)=\(\pi\)
\(\sigma_{\boldsymbol{\hat{\pi}}}\)=\(\sqrt{\frac{\pi(1-\pi)}{c}}\)
\(\hat{\pi}\)=\(50/150\)
\(\mu_{\boldsymbol{\hat{\pi}}}\)=\(50/150\)
\(\sigma_{\boldsymbol{\hat{\pi}}}\)=\(\sqrt{\frac{0.33(1-0.33)}{150}}\)
pi<-50/150
c<-150
nivelconfianza = 0.8
z<-qnorm(0.1)
Claculo el error estándar y margen de error
error.est <- sqrt((pi*(1-pi))/c) # Calculamos el error estándar
error.est
## [1] 0.03849002
margen.error <- z* error.est # nivel de confianza de 99%
lim.inf <- pi - margen.error # Límite inferior del intervalo
lim.inf
## [1] 0.3826603
lim.sup <- pi + margen.error # Límite superior del intervalo
lim.sup
## [1] 0.2840064
En esta ocación lo vamos a calcular directamente con una función de R. La función es prop.test
prop.test(50, 150,conf.level=0.8,correct=F)
##
## 1-sample proportions test without continuity correction
##
## data: 50 out of 150, null probability 0.5
## X-squared = 16.667, df = 1, p-value = 4.456e-05
## alternative hypothesis: true p is not equal to 0.5
## 80 percent confidence interval:
## 0.2860461 0.3842307
## sample estimates:
## p
## 0.3333333
Se están estudiando tres variedades diferentes de vid para determinar si hay alguna diferencia en porcentaje de enraizamiento de estacas. Se toma muestras aleatorias de 100 estacas de cada variedad (chardonnay, Malbec y Syrah) y se someten a las mismas condiciones con los siguientes resultados:
| Numero de estacas que prendieron | Chardonnay | Malbec | Syrah |
|---|---|---|---|
| enraizaron | 82 | 70 | 58 |
| No enraizaron | 18 | 30 | 42 |
Calcule la estimación por intervalo, con una confianza de 99%, para la diferencia de proporciones de estacas enraizadas entre las variedades Chardonnay y Syrah. ¿Tiene información suficiente para decir que hay diferencia entre las estacas enraizadas de la variedad Chardonnay y las estacas enraizadas de la variedad Syrah?
prop.test(x=c(82,58), n=c(100, 100),conf.level=0.99,correct=F)
##
## 2-sample test for equality of proportions without continuity
## correction
##
## data: c(82, 58) out of c(100, 100)
## X-squared = 13.714, df = 1, p-value = 0.0002128
## alternative hypothesis: two.sided
## 99 percent confidence interval:
## 0.07889222 0.40110778
## sample estimates:
## prop 1 prop 2
## 0.82 0.58
Podemos inferir con un 99% de confianza que, en promedio, la proporción de estacas germinadas de la variedad chardonnay es mayor a la proporción de estacas germinadas de la variedad syrah.
Supongamos que tenemos los siguientes datos. Se desea saber si hay diferencia de rendimiento e IPT entre la variedad Malbec y la variedad Bonarda.
| Variedad | Rendimiento | IPT |
|---|---|---|
| Malbec | 90 | 60 |
| Malbec | 110 | 58 |
| Malbec | 85 | 62 |
| Malbec | 76 | 67 |
| Malbec | 120 | 55 |
| Malbec | 150 | 54 |
| Malbec | 76 | 61 |
| Malbec | 85 | 64 |
| Bonarda | 150 | 62 |
| Bonarda | 210 | 62 |
| Bonarda | 176 | 57 |
| Bonarda | 189 | 58 |
| Bonarda | 89 | 59.6 |
| Bonarda | 200 | 60 |
| Bonarda | 189 | 63 |
| Bonarda | 176 | 60 |
Para resolverlo se debe calcular la diferencia de medias entre Malbec y Bonarda para IPT y rendimiento. Procedemos a calcular la diferencia de medias para el IPT
malbec<-c(60,
58,
62,
67,
55,
54,
61,
64)
Bonarda<-c(62,
62,
57,
58,
59.6,
60,
63,
60)
tsum.test(mean.x=mean(malbec), s.x = sd(malbec), n.x = 8,
mean.y = mean(Bonarda) , s.y = sd(Bonarda),
n.y = 8, var.equal = TRUE,
conf.level = 0.95)
##
## Standard Two-Sample t-Test
##
## data: Summarized x and y
## t = -0.043731, df = 14, p-value = 0.9657
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## -3.753381 3.603381
## sample estimates:
## mean of x mean of y
## 60.125 60.200
El intervalo de confianza de diferencias de medias va de -0.0437 a 0.9657. Como el intervalo incluye el cero podemos que no hay diferencias significativas de IPT entre las dos variedades.
Luego calculamos el intervalo de confianza para la diferencia de medias del rendimiento
malbec<-c(90,
110,
85,
76,
120,
150,
76,
85)
Bonarda<-c(150,
210,
176,
189,
89,
200,
189,
176
)
tsum.test(mean.x=mean(malbec), s.x = sd(malbec), n.x = 8,
mean.y = mean(Bonarda) , s.y = sd(Bonarda),
n.y = 8, var.equal = TRUE,
conf.level = 0.95)
##
## Standard Two-Sample t-Test
##
## data: Summarized x and y
## t = -4.4977, df = 14, p-value = 0.0005014
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## -108.36466 -38.38534
## sample estimates:
## mean of x mean of y
## 99.000 172.375
En este caso el intervalo no incluye el cero por lo tanto podemos decir que ambas variedades tienen un rendimiento significativamente distinto