Intervalos de confianza
- Conceptos básicos
Población:
Conjunto de individuos u objetos que es de interés del investigador.
Muestra:
Cualquier subconjunto de una población
Parámetro
Es un valor numérico que caracteriza la distribución de probabilidad de una población y generalmente se desconoce. Los parámetros se simbilizan, generalmente, con letras griegas \(\small \mu, \sigma, \mu_1 -\mu_2, \frac{\sigma_1^2}{\sigma_2^2}\)
Estadístico
Es una función que se puede definir a traves de una muestra. El estadístico es una variable aleatoria y por lo tanto tiene una distribución de probabilidad conocida. Los estadísticos se simbolizan con letras mayúsculas de nuestra alfabeto y los que se estudiarán son: \(\scriptsize \bar{X}, S^2,\bar{X1}-\bar{X2}, \frac{S_1^2}{S_2^2}\)
DISTRIBUCIONE MUESTRALES
Definición:
La distribución de probabilidad de un estadístico se denomina distribución muestral.
La distribución muestral de un estadístico depende de la distribución de la población, del tamaño de las muestras y del método de selección de las muestras. En esta parte se estudiarán alguns de las distribuciones muestrales más importantes de los estadísticos que se utilizan con frecuencia. Las aplicaciones de tales distribuciones muestrales a problemas de inferencia estadística se consideran en la mayoría de los capítulos posteriores. La distribución de probabilidad de \(\small bar{X}\) se llama distribución muestral de la media.
TEOREMA CENTRAL DEL LÍMITE
# Se simulan 100 muestras de una normal N(mu, sigma)
mu <- 167 # Media problacional
sigma <- 9 # desviacion estandar poblacional
# Por el teorema central del limite
#(Xbarra-mu)/(sqrt(sigma/raiz(n))
set.seed(1234)
n <- 25 # Tamaaño de muestra
media_muestral <- NULL # Vector donde se guardaran las medias muestrales
tsim <- 1000 # Numero de muestra de tamaño n a simular
for (i in 1:tsim){
x = rnorm(n, mu, sigma)
media_muestral[i] = mean(x)
}
media_muestral[75]## [1] 168.6067
## [1] 164.824
#### Histograma de Xbarra
hist(media_muestral, xlab="Media muestral, Xbarra",
main= "Histograma de la media muestral",
ylab="Frecuencia", freq=FALSE, col=4, ylim = c(0,0.25))
# Por el teorema central del limite,la media muestral se distribuye normal
x2 <- seq(from = mu-3*sigma/(sqrt(n)), to = mu + 3*sigma/(sqrt(n)), length=1000)
167-(3*9/sqrt(15))## [1] 160.0286
### Si X es binomial
n <- 100 # Tamanio de muestra
media_muestral <- NULL # Vector donde se guardaran las medias
tsim <- 1000 # Numero de muestra de tamanio n a simular
for (i in 1:tsim)
{
x = rbinom(n, size = 20, prob = 0.3)
media_muestral[i] = mean(x)
}
hist(media_muestral, xlab="Media muestral",
main= "Histograma de la media muestral",
ylab="Frecuencia", freq=FALSE, col=4,ylim = c(0,2.0))
# Por el teorema central del limite la media muestral se distribuye normal
# el valor esperado de una binomial es n*p
# la desv est de una binomial es raiz(n*p*q)
mu <- 20*0.3 ### Media de la binimial
sigma <- sqrt(20*0.3*0.7) ### La desviación estándar de la binomial
x2 <- seq(from = mu - 3*sigma/(sqrt(n)), to = mu + 3*sigma/(sqrt(n)), length=1000)
6 + 3*sigma/(sqrt(n))## [1] 6.614817
############### Si X es exponencial #######
set.seed(1234)
n <- 100 # Tamanio de muestra
media_muestral <- NULL # Vector donde se guardaran las medias
tsim <- 1000 # Numero de muestra de tamanio n a simular
for (i in 1:tsim)
{
x = rexp(n, rate = 1/4)
media_muestral[i] = mean(x)
}
hist(media_muestral, xlab="X barra",
main= "Histograma de la media muestral",
ylab="Frecuencia", ylim=c(0,1.5),freq=FALSE, col=4)
# Por el teorema central del limite
# la media muestral se distribuye normal
# el valor esperado de una exponencial es 1/lambda
# la desv est de una exponencial es 1/lambda
mu <- 4 # 1/(1/4)
sigma <- 4 # raiz(1/(1/4^2)
x2 <- seq(from = mu-3*sigma/(sqrt(n)),to = mu+3*sigma/(sqrt(n)), length=1000)
lines(x2, dnorm(x2, mu, sigma/sqrt(n)), type="l", col=2, lwd=2) # Curva te?rica bajo el TLC################### Si X es Poisson ####################
# Se simulan 1000 muestras de una Poisson P(lambda, Raízc(lambda))
mu <- 5 # Media problacional
sigma <- sqrt(5) # desviacion estandar poblacional
# Por el teorema del limete central
#(Xbarra-mu)/(sqrt(sigma/raiz(n))
set.seed(12345)
n <- 15 # Tamaaño de muestra
media_muestral <- NULL # Vector donde se guardaran las medias
tsim <- 1000 # Numero de muestra de tamaño n a simular
for (i in 1:tsim)
{
x = rpois(n, mu)
media_muestral[i] = mean(x)
}
media_muestral[750]## [1] 4.4
## [1] 5.066667
hist(media_muestral, xlab="Media muestral, Xbarra",
main= "Histograma de la media muestral",
ylab="Frecuencia", freq=FALSE, col=4)
# Por el teorema central del limite
# la media muestral se distribuye normal
x2 <- seq(from = mu-3*sigma/(sqrt(n)), to = mu+3*sigma/(sqrt(n)), length=1000)
lines(x2, dnorm(x2, mu, sigma/sqrt(n)), type="l", col=2, lwd=2) # Curva te?rica bajo el TLC###############################################################
# Ejemplo 8. 4
# X se distribuye N(800,40)
mu <- 800
sigma <- 40
n <- 16
## P(Xbarra < 775)
preg <- pnorm(775,mean=mu,sd=sigma/sqrt(n),lower.tail = TRUE)
preg## [1] 0.006209665
#################
mu.1 <- 6.5
mu.2 <- 6.0
sigma.1 <- 0.9
sigma.2 <- 0.8
n1 <- 36
n2 <- 49
mu.xbarra <- mu.1-mu.2
sigma.xbarra <- sqrt((sigma.1^2/n1)+(sigma.2^2/n2))
############################################################
set.seed(1234)
### Distribución muestral de Xbarra - Ybarra
mu1 <- 800 # Media problacional1
sigma1 <- 40 # desviacion estandar poblacional1
mu2 <- 900 # Media problacional2
sigma2 <- 45 # # desviacion estandar poblacional2
n1 <- 16 # Tamaaño de muestra1
n2 <- 25 # Tamaaño de muestra2
# Por el teorema central del limite
media_muestral1 <- NULL # Vector donde se guardaran las medias muestrales
tsim1 <- 100 # Numero de muestra de tamaño n a simular
for (i in 1:tsim1)
{
x = rnorm(n1, mu1, sigma1)
media_muestral1[i] = mean(x)
}
media_muestral1[75]## [1] 783.61
## [1] 787.0757
media_muestral2 <- NULL # Vector donde se guardaran las medias muestrales
tsim2 <- 100 # Numero de muestra de tamaño n a simular
for (i in 1:tsim2)
{
x = rnorm(n2, mu2, sigma2)
media_muestral2[i] = mean(x)
}
media_muestral2[75]-media_muestral1[75]## [1] 113.1289
#### Histograma de Xbarra
hist(media_muestral2 - media_muestral1, xlab="Media muestral2 -Media muestral1, Ybarra-Xbarra",
main= "Histograma de la diferncia de promedios",
ylab="Frecuencia", freq=FALSE, col=4, ylim = c(0,0.05))
x2 <- seq(from = (mu2-mu1)-3*sqrt(sigma1^2/n1+sigma2^2/n2),to = (mu2-mu1)+3*sqrt(sigma1^2/n1+sigma2^2/n2), length=1000)
lines(x2, dnorm(x2, mean= mu2-mu1, sd=sqrt(sigma1^2/n1+sigma2^2/n2)), type="l", col=2, lwd=2) # Curva te?rica bajo el TLC#P(S^2 > 1250) = P(χ2 > (16-1)*1250/40^2)
n <- 16
s <- sqrt(1250)
sigma <- 40
chi_c <- (n-1)*s^2/sigma^2
sol1 <- round(pchisq(q=11.71,df = 16-1,lower.tail = FALSE),3)
cat("La prob de que la varianza muestral sea mayor que 1250 es:", sol1)## La prob de que la varianza muestral sea mayor que 1250 es: 0.701
## [1] 0.02534109
## [1] 1.614757