Distribuciones muestrales

Jose G, Nicolas MOra, David Rodriguez

2025-10-29

Intervalos de confianza

  1. Conceptos básicos

Población:

Conjunto de individuos u objetos que es de interés del investigador.

Muestra:

Cualquier subconjunto de una población

Parámetro

Es un valor numérico que caracteriza la distribución de probabilidad de una población y generalmente se desconoce. Los parámetros se simbilizan, generalmente, con letras griegas \(\small \mu, \sigma, \mu_1 -\mu_2, \frac{\sigma_1^2}{\sigma_2^2}\)

Estadístico

Es una función que se puede definir a traves de una muestra. El estadístico es una variable aleatoria y por lo tanto tiene una distribución de probabilidad conocida. Los estadísticos se simbolizan con letras mayúsculas de nuestra alfabeto y los que se estudiarán son: \(\scriptsize \bar{X}, S^2,\bar{X1}-\bar{X2}, \frac{S_1^2}{S_2^2}\)

DISTRIBUCIONE MUESTRALES

Definición:

La distribución de probabilidad de un estadístico se denomina distribución muestral.

La distribución muestral de un estadístico depende de la distribución de la población, del tamaño de las muestras y del método de selección de las muestras. En esta parte se estudiarán alguns de las distribuciones muestrales más importantes de los estadísticos que se utilizan con frecuencia. Las aplicaciones de tales distribuciones muestrales a problemas de inferencia estadística se consideran en la mayoría de los capítulos posteriores. La distribución de probabilidad de \(\small bar{X}\) se llama distribución muestral de la media.

TEOREMA CENTRAL DEL LÍMITE

# Se simulan 100 muestras de una normal N(mu, sigma)

mu <- 167 # Media problacional

sigma <- 9  # desviacion estandar poblacional  

# Por el teorema central del limite 

#(Xbarra-mu)/(sqrt(sigma/raiz(n))

set.seed(1234)

n <- 25     # Tamaaño de muestra

media_muestral <- NULL  # Vector donde se guardaran las medias muestrales

tsim <- 1000            # Numero de muestra de tamaño n a simular

for (i in 1:tsim){
     x = rnorm(n, mu, sigma)
     media_muestral[i] = mean(x)
     }

media_muestral[75]
## [1] 168.6067
media_muestral[1]
## [1] 164.824
#### Histograma de Xbarra

hist(media_muestral, xlab="Media muestral, Xbarra", 
     main= "Histograma de la media muestral", 
     ylab="Frecuencia", freq=FALSE, col=4, ylim = c(0,0.25))

# Por el teorema central del limite,la media muestral se distribuye normal

x2 <- seq(from = mu-3*sigma/(sqrt(n)), to = mu + 3*sigma/(sqrt(n)), length=1000)

167-(3*9/sqrt(15))
## [1] 160.0286
lines(x2, dnorm(x2, mu, sigma/sqrt(n)), type="l", col=2, lwd=2)   # Curva te?rica bajo el TLC

### Si X es binomial

n <- 100                # Tamanio de muestra

media_muestral <- NULL  # Vector donde se guardaran las medias

tsim <- 1000            # Numero de muestra de tamanio n a simular

for (i in 1:tsim)
{
  x = rbinom(n, size = 20, prob = 0.3)
  media_muestral[i] = mean(x)
}
hist(media_muestral, xlab="Media muestral", 
     main= "Histograma de la media muestral", 
     ylab="Frecuencia", freq=FALSE, col=4,ylim = c(0,2.0))

# Por el teorema central del limite la media muestral se distribuye normal

# el valor esperado de una binomial es n*p

# la desv est de una binomial es raiz(n*p*q)

mu <- 20*0.3  ### Media de la binimial

sigma <- sqrt(20*0.3*0.7) ### La desviación estándar de la binomial

x2 <- seq(from = mu - 3*sigma/(sqrt(n)), to = mu + 3*sigma/(sqrt(n)), length=1000)

6 + 3*sigma/(sqrt(n))
## [1] 6.614817
lines(x2, dnorm(x2, mu, sigma/sqrt(n)), type="l", col=2, lwd=2)   # Curva te?rica bajo el TLC

############### Si X es exponencial #######

set.seed(1234)

n <- 100                # Tamanio de muestra

media_muestral <- NULL  # Vector donde se guardaran las medias

tsim <- 1000            # Numero de muestra de tamanio n a simular

for (i in 1:tsim)
{
  x = rexp(n, rate = 1/4)
  media_muestral[i] = mean(x)
}
hist(media_muestral, xlab="X barra", 
     main= "Histograma de la media muestral", 
     ylab="Frecuencia", ylim=c(0,1.5),freq=FALSE, col=4)

# Por el teorema central del limite
# la media muestral se distribuye normal

# el valor esperado de una exponencial es 1/lambda

# la desv est de una exponencial es 1/lambda

mu <- 4 # 1/(1/4)

sigma <- 4 # raiz(1/(1/4^2)

x2 <- seq(from = mu-3*sigma/(sqrt(n)),to = mu+3*sigma/(sqrt(n)), length=1000)

lines(x2, dnorm(x2, mu, sigma/sqrt(n)), type="l", col=2, lwd=2)   # Curva te?rica bajo el TLC

################### Si X es Poisson ####################

# Se simulan 1000 muestras de una Poisson P(lambda, Raízc(lambda))

mu <- 5 # Media problacional

sigma <- sqrt(5)  # desviacion estandar poblacional  

# Por el teorema del limete central

#(Xbarra-mu)/(sqrt(sigma/raiz(n))

set.seed(12345)

n <- 15              # Tamaaño de muestra

media_muestral <- NULL  # Vector donde se guardaran las medias

tsim <- 1000            # Numero de muestra de tamaño n a simular

for (i in 1:tsim)
{
  x = rpois(n, mu)
  media_muestral[i] = mean(x)
}

media_muestral[750]
## [1] 4.4
media_muestral[1]
## [1] 5.066667
hist(media_muestral, xlab="Media muestral, Xbarra", 
     main= "Histograma de la media muestral", 
     ylab="Frecuencia", freq=FALSE, col=4)

# Por el teorema central del limite
# la media muestral se distribuye normal

x2 <- seq(from = mu-3*sigma/(sqrt(n)), to = mu+3*sigma/(sqrt(n)), length=1000)

lines(x2, dnorm(x2, mu, sigma/sqrt(n)), type="l", col=2, lwd=2)   # Curva te?rica bajo el TLC

###############################################################

# Ejemplo 8. 4

# X se distribuye N(800,40)

mu <- 800

sigma <- 40

n <- 16

## P(Xbarra < 775)

preg <- pnorm(775,mean=mu,sd=sigma/sqrt(n),lower.tail = TRUE)

preg
## [1] 0.006209665
#################
mu.1 <- 6.5

mu.2 <- 6.0

sigma.1 <- 0.9

sigma.2 <- 0.8

n1 <- 36

n2 <- 49

mu.xbarra <- mu.1-mu.2

sigma.xbarra <- sqrt((sigma.1^2/n1)+(sigma.2^2/n2))

############################################################


set.seed(1234)
### Distribución muestral de Xbarra - Ybarra

mu1 <- 800 # Media problacional1

sigma1 <- 40  # desviacion estandar poblacional1  

mu2 <- 900  # Media problacional2

sigma2 <- 45 # # desviacion estandar poblacional2 

n1 <- 16     # Tamaaño de muestra1

n2 <- 25    # Tamaaño de muestra2


# Por el teorema central del limite 


media_muestral1 <- NULL  # Vector donde se guardaran las medias muestrales

tsim1 <- 100            # Numero de muestra de tamaño n a simular

for (i in 1:tsim1)
{
  x = rnorm(n1, mu1, sigma1)
  media_muestral1[i] = mean(x)
}

media_muestral1[75]
## [1] 783.61
media_muestral1[1]
## [1] 787.0757
media_muestral2 <- NULL  # Vector donde se guardaran las medias muestrales

tsim2 <- 100            # Numero de muestra de tamaño n a simular

for (i in 1:tsim2)
{
  x = rnorm(n2, mu2, sigma2)
  media_muestral2[i] = mean(x)
}

media_muestral2[75]-media_muestral1[75]
## [1] 113.1289
#### Histograma de Xbarra

hist(media_muestral2 - media_muestral1, xlab="Media muestral2 -Media muestral1, Ybarra-Xbarra", 
     main= "Histograma de la diferncia de promedios", 
     ylab="Frecuencia", freq=FALSE, col=4, ylim = c(0,0.05))

x2 <- seq(from = (mu2-mu1)-3*sqrt(sigma1^2/n1+sigma2^2/n2),to = (mu2-mu1)+3*sqrt(sigma1^2/n1+sigma2^2/n2), length=1000)

lines(x2, dnorm(x2, mean= mu2-mu1, sd=sqrt(sigma1^2/n1+sigma2^2/n2)), type="l", col=2, lwd=2)   # Curva te?rica bajo el TLC

#P(S^2 > 1250) = P(χ2 > (16-1)*1250/40^2)

n <- 16

s <- sqrt(1250)

sigma <- 40

chi_c <- (n-1)*s^2/sigma^2

sol1 <- round(pchisq(q=11.71,df = 16-1,lower.tail = FALSE),3)

cat("La prob de que la varianza muestral sea mayor que 1250 es:", sol1)
## La prob de que la varianza muestral sea mayor que 1250 es: 0.701
### Distribuón t

x <- seq(from=-3, to=3, by =0.01)

y <- dt(x,df=1200)

plot(x,y,type= "l")

# a) P(-2.069 < T < k) = 0.965

res1 <- pt(q=-2.062,df=23)

res1
## [1] 0.02534109
res2 <- qt(p =0.94,df=23)

res2
## [1] 1.614757