Intervalos de confianza

MARIAJULIANAM

2025-10-29

Intervalos de confianza

  1. Conceptos básicos:

Población: Conjunto de individuos u objeetos que son del interés del investigador.

Muestra: Cualquier subconjunto de una población

Parámetro: Un valor numérico que caracteriza una distribución de probabilidad de una población y nunca se conoce. Los parámetros se simbolizan generalmente con letras griegas.\(\small \mu, \sigma, \mu_1 - \mu_2, \frac{\sigma_1^2}{\sigma_2^2}\)

Estadístico: Una función que se puede hallar a través de una muestra. El estadístico es una variable aleatoria y por lo tanto tiene una distribución de probabilidad conocida. Los estadísticos se siimbolizan con letras mayúsculas de nuestro alfabeto y llos que se estudiarán son: \(\bar{X}, S^2, \bar{X}_1 -\bar{X}_2, \frac{S_1^2}{\S_2^2}\)

DISTRIBUCIONEs MUESTRALES

Definición:

La distribución de probabilidad de un estadístico se denomina distribución muestral.

La distribución muestral de un estadístico depende de la distribución de la población, del tamaño de las muestras y del método de selección de las muestras. En esta parte se estudiarán alguns de las distribuciones muestrales más importantes de los estadísticos que se utilizan con frecuencia. Las aplicaciones de tales distribuciones muestrales a problemas de inferencia estadística se considerarán más adelante. La distribución de probabilidad de \(\small bar{X}\) se llama distribución muestral de la media.

Distribución muestral de medias y el teorema central del límite

TEOREMA CENTRAL DEL LÍMITE

Si \(\small bar{X}\) es la media de una muestra aleatoria de tamaño \(\small n\), tomada de una población normal con media \(\small μ\) y varianza finita \(\small \sigma^2\), entonces la distribución muestral de \(\small bar{X}\) normal con la misma media de \(\small X\) y varianza \(\small \sigma^2/n\).

Si \(\small bar{X}\) no se distribuye normal, \(\small bar{X}\) se distribuye normal como en la antewrior solo si \(n> 30\)

Ejemplo:

Una empresa de material eléctrico fabrica bombillas que tienen una duración que se distribuye aproximadamente en forma normal, con media de 800 horas y desviación estándar de 40 horas. Calcule la probabilidad de que una muestra aleatoria de 16 bombillas tenga una vida promedio de menos de 775 horas.

Solución

#Si la distribución (en este caso del tiempo de duración de las bombillas) es normal no importa el tamaño de la muestra  y si se puede usar 

#P(Xbarra < 775)

sol.a <- pnorm(q=775, mean=800, sd=40/sqrt(16))

cat("P(Xbarra<775)=", sol.a)
## P(Xbarra<775)= 0.006209665

Simulaciones para mostrar el Teorema Central del límite

# Se simulan 100 muestras de una normal N(mu, sigma)

mu <- 167 #Media poblacional de las estaturas de los hombres

sigma <- 9 #desviación estandar poblacional

# Por el teorema central del limite


set.seed(1234)

n <- 30  #Tamaño de la muestra

media_muestral <- NULL  # Vector donde se guardaran las medias muestrales

tsim <- 100            # Numero de muestra de tamaño n a simular

for (i in 1:tsim){
     x = rnorm(n, mu, sigma)
     media_muestral[i] = mean(x)
     }

media_muestral[75]
## [1] 165.8192
media_muestral[1]
## [1] 164.3322
#### Histograma de Xbarra

hist(media_muestral, xlab="Media muestral, Xbarra", 
     main= "Histograma de la media muestral", 
     ylab="Frecuencia", freq=FALSE, col=4, ylim = c(0,0.25))

# Por el teorema central del limite,la media muestral se distribuye normal

x2 <- seq(from = mu-3*sigma/(sqrt(n)), to = mu + 3*sigma/(sqrt(n)), length=1000)

167-(3*9/sqrt(15))
## [1] 160.0286
lines(x2, dnorm(x2, mu, sigma/sqrt(n)), type="l", col=2, lwd=2)   # Curva te?rica bajo el TLC

### Si X es binomial

n <- 100                # Tamanio de muestra

media_muestral <- NULL  # Vector donde se guardaran las medias

tsim <- 1000            # Numero de muestra de tamanio n a simular

for (i in 1:tsim)
{
  x = rbinom(n, size = 20, prob = 0.3)
  media_muestral[i] = mean(x)
}
hist(media_muestral, xlab="Media muestral", 
     main= "Histograma de la media muestral", 
     ylab="Frecuencia", freq=FALSE, col=4,ylim = c(0,2.0))

# Por el teorema central del limite la media muestral se distribuye normal

# el valor esperado de una binomial es n*p

# la desv est de una binomial es raiz(n*p*q)

mu <- 20*0.3  ### Media de la binimial

sigma <- sqrt(20*0.3*0.7) ### La desviación estándar de la binomial

x2 <- seq(from = mu - 3*sigma/(sqrt(n)), to = mu + 3*sigma/(sqrt(n)), length=1000)

6 + 3*sigma/(sqrt(n))
## [1] 6.614817
lines(x2, dnorm(x2, mu, sigma/sqrt(n)), type="l", col=2, lwd=2)   # Curva te?rica bajo el TLC

############### Si X es exponencial #######

set.seed(1234)

n <- 100                # Tamanio de muestra

media_muestral <- NULL  # Vector donde se guardaran las medias

tsim <- 1000            # Numero de muestra de tamanio n a simular

for (i in 1:tsim)
{
  x = rexp(n, rate = 1/4)
  media_muestral[i] = mean(x)
}
hist(media_muestral, xlab="X barra", 
     main= "Histograma de la media muestral", 
     ylab="Frecuencia", ylim=c(0,1.5),freq=FALSE, col=4)

# Por el teorema central del limite
# la media muestral se distribuye normal

# el valor esperado de una exponencial es 1/lambda

# la desv est de una exponencial es 1/lambda

mu <- 4 # 1/(1/4)

sigma <- 4 # raiz(1/(1/4^2)

x2 <- seq(from = mu-3*sigma/(sqrt(n)),to = mu+3*sigma/(sqrt(n)), length=1000)

lines(x2, dnorm(x2, mu, sigma/sqrt(n)), type="l", col=2, lwd=2)   # Curva te?rica bajo el TLC

################### Si X es Poisson ####################

# Se simulan 1000 muestras de una Poisson P(lambda, Raízc(lambda))

mu <- 5 # Media problacional

sigma <- sqrt(5)  # desviacion estandar poblacional  

# Por el teorema del limete central

#(Xbarra-mu)/(sqrt(sigma/raiz(n))

set.seed(12345)

n <- 15              # Tamaaño de muestra

media_muestral <- NULL  # Vector donde se guardaran las medias

tsim <- 1000            # Numero de muestra de tamaño n a simular

for (i in 1:tsim)
{
  x = rpois(n, mu)
  media_muestral[i] = mean(x)
}

media_muestral[750]
## [1] 4.4
media_muestral[1]
## [1] 5.066667
hist(media_muestral, xlab="Media muestral, Xbarra", 
     main= "Histograma de la media muestral", 
     ylab="Frecuencia", freq=FALSE, col=4)

# Por el teorema central del limite
# la media muestral se distribuye normal

x2 <- seq(from = mu-3*sigma/(sqrt(n)), to = mu+3*sigma/(sqrt(n)), length=1000)

lines(x2, dnorm(x2, mu, sigma/sqrt(n)), type="l", col=2, lwd=2)   # Curva te?rica bajo el TLC

###############################################################

# Ejemplo 8. 4

# X se distribuye N(800,40)

mu <- 800

sigma <- 40

n <- 16

## P(Xbarra < 775)

preg <- pnorm(775,mean=mu,sd=sigma/sqrt(n),lower.tail = TRUE)

preg
## [1] 0.006209665
#################
mu.1 <- 6.5

mu.2 <- 6.0

sigma.1 <- 0.9

sigma.2 <- 0.8

n1 <- 36

n2 <- 49

mu.xbarra <- mu.1-mu.2

sigma.xbarra <- sqrt((sigma.1^2/n1)+(sigma.2^2/n2))

############################################################


set.seed(1234)
### Distribución muestral de Xbarra - Ybarra

mu1 <- 800 # Media problacional1

sigma1 <- 40  # desviacion estandar poblacional1  

mu2 <- 900  # Media problacional2

sigma2 <- 45 # # desviacion estandar poblacional2 

n1 <- 16     # Tamaaño de muestra1

n2 <- 25    # Tamaaño de muestra2


# Por el teorema central del limite 


media_muestral1 <- NULL  # Vector donde se guardaran las medias muestrales

tsim1 <- 100            # Numero de muestra de tamaño n a simular

for (i in 1:tsim1)
{
  x = rnorm(n1, mu1, sigma1)
  media_muestral1[i] = mean(x)
}

media_muestral1[75]
## [1] 783.61
media_muestral1[1]
## [1] 787.0757
media_muestral2 <- NULL  # Vector donde se guardaran las medias muestrales

tsim2 <- 100            # Numero de muestra de tamaño n a simular

for (i in 1:tsim2)
{
  x = rnorm(n2, mu2, sigma2)
  media_muestral2[i] = mean(x)
}

media_muestral2[75]-media_muestral1[75]
## [1] 113.1289
#### Histograma de Xbarra

hist(media_muestral2 - media_muestral1, xlab="Media muestral2 -Media muestral1, Ybarra-Xbarra", 
     main= "Histograma de la diferncia de promedios", 
     ylab="Frecuencia", freq=FALSE, col=4, ylim = c(0,0.05))

x2 <- seq(from = (mu2-mu1)-3*sqrt(sigma1^2/n1+sigma2^2/n2),to = (mu2-mu1)+3*sqrt(sigma1^2/n1+sigma2^2/n2), length=1000)

lines(x2, dnorm(x2, mean= mu2-mu1, sd=sqrt(sigma1^2/n1+sigma2^2/n2)), type="l", col=2, lwd=2)   # Curva te?rica bajo el TLC

#P(S^2 > 1250) = P(χ2 > (16-1)*1250/40^2)

n <- 16

s <- sqrt(1250)

sigma <- 40

chi_c <- (n-1)*s^2/sigma^2

sol1 <- round(pchisq(q=11.71,df = 16-1,lower.tail = FALSE),3)

cat("La prob de que la varianza muestral sea mayor que 1250 es:", sol1)
## La prob de que la varianza muestral sea mayor que 1250 es: 0.701
### Distribuón t

x <- seq(from=-3, to=3, by =0.01)

y <- dt(x,df=1200)

plot(x,y,type= "l")

# a) P(-2.069 < T < k) = 0.965

res1 <- pt(q=-2.062,df=23)

res1
## [1] 0.02534109
res2 <- qt(p =0.94,df=23)

res2
## [1] 1.614757

DISTRIBUCIÓN UNIFORME CONTINUA (pág 193 pdf)

Definición: Esta distribución se caracteriza por una función de densidad que es “plana”, por lo cual la probabilidad es uniforme en un intervalo cerrado, digamos \([A, B]\).

La función de densidad de la variable aleatoria uniforme continua X en el intervalo \([A, B]\) es:

\[ f(x; A, B) = \begin{cases} \dfrac{1}{B - A}, & \text{si } A \leq x \leq B, \\ 0, & \text{en otro caso.} \end{cases} \]

Ejemplo 6.1 Suponga que el tiempo máximo que se puede reservar una sala de conferencias grande de cierta empresa son cuatro horas. Con mucha frecuencia tienen conferencias extensas y breves. De hecho, se puede suponer que la duración \(X\) de una conferencia tiene una distribución uniforme en el intervalo \([0, 4]\).

  1. ¿Cuál es la función de densidad de probabilidad? Solución \[ f(x) = \begin{cases} \dfrac{1}{4}, & 0 \leq x \leq 4, \\ 0, & \text{en otro caso.} \end{cases} \]

  2. ¿Cuál es la probabilidad de que cualquier conferencia determinada dure al menos 3 horas? Solución

\[ P[X \ge 3] = \int_{3}^{4} \dfrac{1}{4}\, dx = \dfrac{1}{4}. \]

# Parámetros
A <- 0
B <- 4

# Probabilidad de que X >= 3
prob <- punif(4, min = A, max = B) - punif(3, min = A, max = B)
prob
## [1] 0.25

DISTRIBUCIÓN EXPONENCIAL (pág 219 pdf)

Definición La distribución exponencial desempeña un papel importante en la teoría de colas y en problemas de confiabilidad. Los tiempos entre llegadas en instalaciones de servicio y los tiempos de operación antes de que partes componentes y sistemas eléctricos empiecen a fallar a menudo se representan bien mediante la distribución exponencial.

La variable aleatoria continua X tiene una distribución exponencial, con parámetro \(β\), si su función de densidad es dada por

\[ f(x; \beta) = \begin{cases} \dfrac{1}{\beta} e^{-x / \beta}, & x > 0, \\ 0, & \text{en otro caso.} \end{cases} \] donde \(β>0\)

La media y la varianza de la distribución exponencial son \(μ = β\) y \(σ^2 = β^2\).

Ejemplo Suponga que el tiempo (en horas) que tarda en resolverse una solicitud técnica en una empresa sigue una distribución exponencial con parámetro \(𝛽= 2\) ¿Cuál es la probabilidad de que una solicitud tarde más de 3 horas en resolverse?

La probabilidad de que \(X\) sea mayor que 3 es:

\[ P[X > 3] = \int_{3}^{\infty} \dfrac{1}{2} e^{-x/2} \, dx = e^{-3/2}. \]

Por lo tanto:

\[ P[X > 3] \approx 0.2231 \]

En r:

# Parámetro beta
beta <- 2

# Probabilidad de que X > 3
prob <- pexp(3, rate = 1/beta, lower.tail = FALSE)
prob
## [1] 0.2231302