hllinas2023

1 Paquetes utilizados

library(ggplot2)
library(dplyr)
library(tidyr)
library(tidyverse)
library(reshape)
library(asbio)
library(dabestr)
library(ggrepel)

#Para generar videos interctivos: 
library(transformr)
library(av)
library(gifski)
library(gganimate)

2 Preliminares

A continuación, se enumeran algunos resultados que se aplicarán en este capítulo.Sus correspondientes demostraciones se pueden revisar en los siguientes documentos: Teoría de probabilidad y Distribución muestral.

2.0.1 Teoría de probabilidad

Theorem 2.1 (Chi-cuadrada) Supongamos que \(\chi^2 (n)\) representa la distribución chi-cuadrada con \(n\) grados de libertad.

  1. \(\chi^2(n)=\gamma\left(\frac{n}{2}, \frac{1}{2}\right)\).

  2. Si \(X\stackrel{\atop d}{=} \mathcal{N}(0,1)\), entonces, \(X^2\stackrel{\atop d}{=} \chi^2(1)\).

A continuación, vemos algunas distribuciones chi-cuadradas.

#https://dk81.github.io/dkmathstats_site/rvisual-cont-prob-dists.html
# Multiple Gamma Distributions:
library(ggplot2)

grosor = 1 # Grosor de las líneas de la  gráfica

ggplot(data.frame(x =  0:1000 / 100), aes(x = x)) + 
  xlim(0 , 10) + 
  stat_function(fun = dgamma, args = list(rate = 1, shape = 2), aes(colour = "1"), size=grosor) + 
  stat_function(fun = dgamma, args = list(rate = 2, shape = 2), aes(colour = "2 "), size=grosor) + 
  stat_function(fun = dgamma, args = list(rate = 3, shape = 2), aes(colour = "3"), size=grosor) + 
  stat_function(fun = dgamma, args = list(rate = 4, shape = 2), aes(colour = "4"), size=grosor) + 
  scale_color_manual("Parameter \n (n)", values = c("black", "blue", "red", "green")) +
  labs(x = "\n x", y = "f(x) \n", 
       title = "Chi-square distribution") + 
  theme(plot.title = element_text(hjust = 0.5), 
        axis.title.x = element_text(face="bold", colour="blue", size = 12),
        axis.title.y = element_text(face="bold", colour="blue", size = 12),
        legend.title = element_text(face="bold", size = 10),
        legend.position = "right")

Theorem 2.2 (Convoluciones especiales) Sean \(X_1, \ldots, X_n\) variables aleatorias independientes.

  1. Si \(X_i \stackrel{\atop d}{=} \mathcal{N}(\mu_i,\sigma^2_i)\) para cada \(i=1,\ldots, n\), entonces, \[X_1+\cdots+ X_n \stackrel{\atop d}{=} \mathcal{N}(\mu_1+\cdots + \mu_n,\sigma^2_1 + \cdots + \sigma^2_n)\]

  2. Si \(X_i \stackrel{\atop d}{=} \gamma(\alpha_i,\beta)\) para cada \(i=1,\ldots, n\), entonces, \[X_1+\cdots+ X_n \stackrel{\atop d}{=} \gamma(\alpha_1+\cdots+ \alpha_n, \beta)\]

  3. Si \(X_i \stackrel{\atop d}{=} \mathcal{N}(0,1)\) para cada \(i=1,\ldots, n\), entonces, \[X_1^2+\cdots+ X_n^2 \stackrel{\atop d}{=} \chi^2(n)\]

Definition 2.1 (Media y varianza empírica) Sean \(X_1, \ldots, X_n\) variables aleatorias. Entonces, la variable aleatoria

\[\overline{X}_{(n)}:=\frac{1}{n}(X_1 + \cdots + X_n)\]

se llama la media aritmética o media empírica de \(X_1, \ldots, X_n\) y a

\[S^2_{(n)}:= \frac{1}{n-1} \sum\limits_{k=1}^n (X_k-\overline{X}_{(n)})^2\]

se le llama varianza empírica.

Theorem 2.3 (Varianza muestral y chi-cuadrada) Sean \(X_1, \ldots, X_n\) variables aleatorias independientes con \(E(X_k)=\mu\) y \(Var(X_k)=\sigma^2\), para cada \(k=1,\ldots, n\). Además, sean \(S_{(n)}^2\) y \(\overline{X}_{(n)}\) la varianza y media empírica de \(X_1, \ldots, X_n\), respectivamente.

  1. Se cumple que \(E(S_{(n)}^2)=\sigma^2\).

  2. Para \(k=2, \ldots, n\), \(Y_k\) y \(Y_k^2\) son independientes, siendo:

\[Y_k:= \big(X_k- \overline{X}_{(k-1)}\big) \sqrt{\frac{k-1}{k}}\]

  1. Se cumple que:

\[\sum\limits_{k=2}^n Y_k^2 = \sum\limits_{k=1}^n \big(X_k- \overline{X}_{(k-1)}\big)^2 = (n-1)S_{(n)}^2\]

  1. Si \(X_k \stackrel{\atop d}{=} \mathcal{N}(\mu, \sigma^2)\) para todo \(k=1, \ldots, n\), entonces,

\[\frac{n-1}{\sigma^2} S_{(n)}^2 \stackrel{\atop d}{=} \chi^2(n-1)\]

Theorem 2.4 (Distribución t de Student) Sean \(X\), \(Y\), \(X_1, \ldots, X_n\) y \(Y_1, \ldots, Y_m\) variables aleatorias. Además, sean \(S_{(n)}^2\) y \(\overline{X}_{(n)}\) resp. \(S_{(m)}^2\) y \(\overline{Y}_{(m)}\) la varianza y media empírica de \(X_1, \ldots, X_n\) y de \(Y_1, \ldots, Y_m\), respectivamente. Supongamos que se tiene la independencia, por un lado, entre todas las \(X_i\); por otro lado, entre todas las \(Y_j\); y también entre \(X\) y \(Y\). Si \(\mathcal{T}(n)\) representa la distribución \(t\) de Student con \(n\) grados de libertad, entonces:

  1. Si \(X \stackrel{\atop d}{=} \mathcal{N}(0,1)\) y \(Y\stackrel{\atop d}{=} \chi^2(n)\), entonces, \[t:= \frac{X}{\sqrt{Y/n}} \stackrel{\atop d}{=} \mathcal{T}(n)\]

  2. Si \(X_i \stackrel{\atop d}{=} \mathcal{N}(\mu, \sigma^2)\) para cada \(i=1,\ldots, n\), entonces, se cumple que \[t:=\frac{\overline{X}_{(n)}- \mu}{S_{(n)} /\sqrt{n}} \stackrel{\atop d}{=} \mathcal{T}(n-1)\]

  3. Sea \(X_i \stackrel{\atop d}{=} \mathcal{N}(\mu_1, \sigma^2)\) para cada \(i=1,\ldots, n\) y \(Y_j \stackrel{\atop d}{=} \mathcal{N}(\mu_2, \sigma^2)\) para cada \(j=1,\ldots, m\). Si \(S_{(n,m)}^2\) es la llamada varianza muestral combinada, entonces,

\[t:= \frac{\left(\overline{X}_{(n)} - \overline{Y}_{(m)}\right)\, - \, (\mu_1-\mu_2)}{\sqrt{\frac{S_{(n,m)}^2}{n} \,+\, \frac{S_{(n,m)}^2}{m}}} \stackrel{\atop d}{=} \mathcal{T}(m+n-2), \qquad \mbox{con}\qquad S_{(n,m)}^2:= \frac{(n-1)S_{(n)}^2 + (m-1)S_{(m)}^2}{m+n-2}\]

A continuación, vemos algunas distribuciones \(t\) de Student.

library(ggplot2)
library(dplyr)

#https://community.rstudio.com/t/how-to-plot-overlapped-normal-distribution-curves-in-r-preferably-in-ggplot/35172
a<- 100
mean_sim <- 0
varianza <- a/(a-2)
std_sim <- sqrt(varianza)

grosor = 1 # Grosor de las líneas de la  gráfica

ggplot(data = data.frame(u = 0:1000 / 100),
       mapping = aes(x = u)) +
  xlim(c(-20, 20))+
  stat_function(mapping = aes(colour = "Distbn. 1"),
                fun = dt,
                args = list(df = (1/100)*std_sim), size=grosor) +
  
  stat_function(mapping = aes(colour = "Distbn. 2"),
                fun = dt,
                args = list(df = (1/20)*std_sim), size=grosor) +
  
  stat_function(mapping = aes(colour = "Distbn. 3"),
                fun = dt,
                args = list(df = (1/5)*std_sim), size=grosor) +
  
  stat_function(mapping = aes(colour = "Distbn. 4"),
                fun = dt,
                args = list(df = (1/1)*std_sim), size=grosor)+
  
  scale_colour_manual(values = c("red", "blue", "black", "green")) +
  labs(x = "Valores x",
       y = "Densidades f(x)",
       fill="",
       title = "Diferentes densidades t de Student")+
scale_color_discrete(name = expression(paste("t", " ", "con", ":")), 
            labels = c(expression(paste(nu==1)),     
                      expression(paste(nu==5)),   
                      expression(paste(nu==20)),        
                      expression(paste(nu==100)) 
                      )) # Edit legend title and labels

Theorem 2.5 (Distribución F de Fisher) Sean \(X\), \(Y\), \(X_1, \ldots, X_n\) y \(Y_1\), \(\ldots\), \(Y_m\) variables aleatorias. Además, sean \(S_{(n)}^2\) y \(\overline{X}_{(n)}\) resp. \(S_{(m)}^2\) y \(\overline{Y}_{(m)}\) la varianza y media empírica de \(X_1, \ldots, X_n\) resp. \(Y_1, \ldots, Y_m\). Supongamos que se tiene la independencia, por un lado, entre todas las \(X_i\); por otro lado, entre todas las \(Y_j\); y también entre \(X\) y \(Y\). Si \(\mathcal{F}(m,n)\) representa la la distribución \(F\) de Fisher con \(m\) y \(n\) grados de libertad, entonces:

  1. Si \(X \stackrel{\atop d}{=} \chi^2(m)\) y \(Y \stackrel{\atop d}{=} \chi^2(n)\), entonces,

\[F:= \frac{X/m}{Y/n} = \frac{nX}{mY} \stackrel{\atop d}{=} \mathcal{F}(m,n)\]

  1. Si \(X_i \stackrel{\atop d}{=} \mathcal{N}(\mu_1, \sigma^2_1)\) para cada \(i=1,\ldots, n\) y \(Y_j \stackrel{\atop d}{=} \mathcal{N}(\mu_2, \sigma^2_2)\) para cada \(j=1,\ldots, m\), entonces,

\[F:= \frac{S_{(n)}^2 / \sigma_1^2}{S_{(m)}^2/\sigma^2_2} \stackrel{\atop d}{=} \mathcal{F}(n-1,m-1)\]

A continuación, vemos algunas distribuciones \(F\) de Fisher.

library(dplyr)
library(ggplot2)
library(tidyr)

grosor = 1 # Grosor de las líneas de la  gráfica

data.frame(f = 0:1000 / 100) %>% 
           mutate(df_01_01 = df(x = f, df1 = 1, df2 = 1),
                  df_02_01 = df(x = f, df1 = 2, df2 = 1),
                  df_05_02 = df(x = f, df1 = 5, df2 = 2),
                  df_10_01 = df(x = f, df1 = 10, df2 = 1),
                  df_100_100 = df(x = f, df1 = 100, df2 = 100)
                  ) %>%
  gather(key = "df", value = "density", -f) %>%
ggplot() +
  geom_line(aes(x = f, y = density, color = df), size=grosor) +
  
  scale_colour_manual(values = c("red", "blue", "black", "green", "grey")) +
  
  ylim(c(0, 2.2))+
  xlim(c(0, 5))+
  labs(x = "Valores x",
       y = "Densidades f(x)",
       fill="",
       title = "Diferentes densidades F de Fisher")+
 scale_color_discrete(name = expression(paste("F", " ", "con", " ", "parámetros", ":")), 
             labels = c(expression(paste(m==1, ", ", " ", n==1)),     
                        expression(paste(m==2, ", ", " ", n==1)),   
                        expression(paste(m==5, ", ", " ", n==2)), 
                        expression(paste(m==10, ", ", " ", n==1)),
                        expression(paste(m==100, ", ", " ", n==100)) 
                        )
                      ) # Edit legend title and labels

2.0.2 Distribución muestral

2.0.2.1 Definición

Definition 2.2 (Distribucion-muestral) La distribución de un estadístico muestral recibe el nombre de distribución muestral o distribución en el muestreo.

En la imagen de abajo se ilustra gráficamente este concepto.

2.0.3 Distribución de la media muestral

Theorem 2.6 (Media muestral) Sea \(X_1, \ldots, X_n\) una muestra aleatoria de una población que tiene distribución normal con media \(\mu\) y varianza \(\sigma^2\). Además, sean \(S_{(n)}^2\) y \(\overline{X}_{(n)}\) la varianza y media empírica de \(X_1, \ldots, X_n\), respectivamente. Si \(\mathcal{T}(n)\) representa la distribución \(t\) de Student con \(n\) grados de libertad, entonces:

  1. \(\overline{X}_{(n)} \stackrel{\atop d}{=}\mathcal{N}\left(\mu,\frac{\sigma^2}{n}\right)\).

  2. Si \(\sigma^2\) es desconocida, entonces \(\frac{\overline{X}_{(n)}-\mu}{S_{(n)} /\sqrt{n}} \stackrel{\atop d}{=} \mathcal{T}(n-1)\).

Para el caso en que la muestra aleatoria provenga de poblaciones no normales o desconocidas, se puede aplicar el teorema central del límite. Para la solución de problemas prácticos se puede tener en cuenta la tabla A.1 que se encuentra en el apéndice A.7 para diagramas y tablas (véase la sección correspondiente a la Bibliografía).

En los videos de abajo, se ilustran dos ejemplos relacionados con este teorema.

Simulando muestras:

# Generar la media de una muestra de tamaño N: 

xbarra <- function(FUN, N) {   # N es el tamaño de la muestra
            Valores <- FUN(N)  # Valores k de las variables
            mean(Valores)      # Media de los valores
          }

# Seleccionar R muestras de tamaño N y, de cada una, obtener sus medias (vector de tamaño R). Entrega un data frame con las medias (llamada "muestra_N"): 

Media_Muestral <- function(FUN, N, R) {
                  name <- glue::glue("muestra_{N}")
                  
                  rerun(R, xbarra(FUN, N)) %>% 
                  map(data.frame) %>% 
                  bind_rows() %>% 
                  dplyr::rename(!!quo_name(name) := ".x..i..")
                  }

# Seleccionar R muestras de K diferentes tamaños n=(N1, N2,...NK) y, de cada una, obtener sus medias. Entrega un data frame de RxK filas  y 3 columnas ("simulaciones", "n" y "value=Medias")

montecarlo <- function(FUN, n, R) {
              map_dfc(n, ~ Media_Muestral(FUN, .x, R)) %>% 
              cbind(simulaciones = 1:R) %>% 
              pivot_longer(-simulaciones, names_to = "n", values_to = "value") %>% 
              mutate(n = str_extract(n, "\\d+"), n = as.numeric(n))
              }

# Al data frame anterior, se le agrega otra columna que contine los valores Z. Es decir, es un data frame de RxK filas y 4 columnas ("simulaciones", "n", "value=Medias" y "Z")

montecarlo_con_Z <-  function(FUN, n, R, mu, sigma) {
                     montecarlo(FUN, n, R) %>%
                     dplyr::rename(Media = value) %>% 
                     group_by(n) %>% 
                     mutate(z = (Media - mu)/ (sigma/sqrt(n))) %>% 
                     ungroup() %>% 
                     mutate(n = factor(n, ordered = TRUE))
                    }

Distribución exponencial:

#library(tidyverse)
FUN <- rexp  # Exponencial con lambda = 1
lambda <- 1
n <- c(2, 5, 10, 20, 30, 50, 100, 1000, 10000) # tamaño muestral n
R <- 3000   # Número de muestras de tamaño n que se van a seleccionar
mu <- 1/lambda     # Media de la variable
varianza <- 1/(lambda^2)  # Varianza de la variable
sigma <- sqrt(varianza)  # Desviación de la variable

Muestreo <- montecarlo_con_Z(FUN, n, R, mu, sigma)

Muestreo %>% 
  ggplot(aes(z, fill = n)) +
  geom_density(aes(group = NA)) +
  
  gganimate::transition_states(n,
                               transition_length = 2,
                               state_length = 1) +
  
  stat_function(fun = dnorm, aes(color = 'Normal'),
                args = list(mean = 0, sd = 1),
                inherit.aes = FALSE,
                size=1.5) +
  
  gganimate::enter_fade() +
  gganimate::exit_shrink() +
  
  labs(subtitle = "Sample size  n= {closest_state}",
       title = "Distribution of Sample Mean: Exponential with parameter 1",
       caption = "Theoretical distribution is standard normal",
       y = "Sample mean from Exponential") +
  
  gganimate::view_follow() -> Densidad

# VIDEO OUTPUT

#https://gganimate.com/articles/gganimate.html
#library(transformr)
#library(av)
#library(gifski)
#library(gganimate)

animate(Densidad +
        enter_fade() + 
        exit_fly(y_loc = 1), 
        # La velocidad de fotogramas de la animación en fotogramas/segundo (predeterminado=10):
        fps=5,  
        # La duración de la animación en segundos (sin configurar de forma predeterminada)
        #duration = 30 
        renderer = av_renderer()
       )

Distribución uniforme estándar:

#library(tidyverse)
FUN <- runif  #Standard Uniform (cuando a=0, b=1)
a<- 0
b<- 1
n <- c(2, 5, 10, 20, 30, 50, 100, 1000, 10000) # tamaño muestral n
R <- 3000     # Número de muestras de tamaño n que se van a seleccionar
mu <- (a+b)/2     # Media de la variable
varianza <- (b-a)^2/12   # Varianza de la variable
sigma <- sqrt(varianza)  # Desviación de la variable 

Muestreo <- montecarlo_con_Z(FUN, n, R, mu, sigma)

Muestreo %>% 
  ggplot(aes(z, fill = n)) +
  geom_density(aes(group = NA)) +
  transition_states(n,
                    transition_length = 2,
                    state_length = 1) +
  stat_function(fun = dnorm, aes(color = 'Normal'),
                         args = list(mean = 0, sd = 1),
                inherit.aes = FALSE, 
                size=1.5) +
  enter_fade() +
  exit_shrink() +
  labs(subtitle = "Sample size n= {closest_state}",
       title = "Distribution of Sample Mean: Standard Uniform (0,1)",
       caption = "Theoretical distribution is standard normal",
       y = "Sample mean from  Uniform") +
  view_follow() -> Densidad

# VIDEO OUTPUT

#https://gganimate.com/articles/gganimate.html
#library(transformr)
#library(av)
#library(gifski)
#library(gganimate)

animate(Densidad +
        enter_fade() + 
        exit_fly(y_loc = 1), 
        # La velocidad de fotogramas de la animación en fotogramas/segundo (predeterminado=10):
        fps=5,  
        # La duración de la animación en segundos (sin configurar de forma predeterminada)
        #duration = 30 
        renderer = av_renderer()
       )

Theorem 2.7 (Teorema central del límite de Moivre-Laplace) Sea \(X_1, \ldots, X_n\) una muestra aleatoria de una población que tiene distribución \(\mathcal{B}(n,p)\). Si \(\overline{p}_{(n)}\) representa la proporción muestral de éxitos en la muestra, entonces,

\[\frac{\overline{p}_{(n)} - p}{\sqrt{p(1-p)/n}}\; \xrightarrow[n \to \infty] {d}\; \mathcal{N}(0,1)\]

En la práctica, el teorema será válido si \(n\geq 30\) o si \(np\geq 5\) y \(n(1-p)\geq 5\). Puede comparar con la tabla A.2 que se encuentra en el apéndice A.7 para diagramas y tablas (véase la sección correspondiente a la Bibliografía).

De manera gráfica, esta aproximación se puede visualizar así:

En el video de abajo, se ilustra un ejemplo relacionado con este teorema.

Simulando muestras:

# Entrega la media de una muestra de tamaño N: 

xbarra <- function(FUN, N) {         # N es el tamaño de la muestra
           Valores <- FUN(N, 1, 0.5) # Valores k de las variables
           mean(Valores)             # Media de los valores
}

# Seleccionar R muestras de tamaño N y, de cada una, obtener sus medias (vector de tamaño R). Entrega un data frame con las medias (llamada "muestra_N"): 

Media_Muestral <- function(FUN, N, R) {
                  name <- glue::glue("muestra_{N}")
                  rerun(R, xbarra(FUN, N)) %>% 
                  map(data.frame) %>% 
                  bind_rows() %>% 
                  dplyr::rename(!!quo_name(name) := ".x..i..")
}

# Seleccionar R muestras de K diferentes tamaños n=(N1, N2,...NK) y, de cada una, obtener sus medias. Entrega un adta frame de RxK filas  y 3 columnas ("simulaciones", "n" y "value=Medias")

montecarlo <- function(FUN, n, R) {
              map_dfc(n, ~ Media_Muestral(FUN, .x, R)) %>% 
              cbind(simulaciones = 1:R) %>% 
              pivot_longer(-simulaciones, names_to = "n", values_to = "value") %>% 
              mutate(n = str_extract(n, "\\d+"), n = as.numeric(n))
}

# Al data frame anterior, se le agrega otra columna que contine los valores Z. Es decir, es un data frame de RxK filas y 4 columnas ("simulaciones", "n", "value=Medias" y "Z")

montecarlo_con_Z <- function(FUN, n, R, mu, sigma) {
                    montecarlo(FUN, n, R) %>%
                    dplyr::rename(Media = value) %>% 
                    group_by(n) %>% 
                    mutate(z = (Media - mu)/ (sigma/sqrt(n))) %>% 
                    ungroup() %>% 
                    mutate(n = factor(n, ordered = TRUE))
}

Distribución binomial:

#library(tidyverse)

FUN <- rbinom  # Bernoulli con parámetros m=1 y p=0.5
m=1
p=0.5
n <- c(5, 10, 20, 30, 50, 100, 200, 400, 600) # Tamaño muestral n
R <- 3000                 # Número de muestras de tamaño n que se van a seleccionar
mu <- m*p                 # Media de la variable
varianza <- m*p*(1-p)     # Varianza de la variable
sigma <- sqrt(varianza)   # Desviación de la variable

Muestreo <- montecarlo_con_Z(FUN, n, R, mu, sigma)

Muestreo %>% 
  ggplot(aes(z, fill = n)) +
  geom_density(aes(group = NA)) +
  gganimate::transition_states(n,
                               transition_length = 2,
                               state_length = 1
                              ) +
  
  stat_function(fun = dnorm, aes(color = 'Normal'),
                args = list(mean = 0, sd = 1),
                inherit.aes = FALSE,
                size=1.5
               ) +
  
  gganimate::enter_fade() +
  gganimate::exit_shrink() +
  
  labs(subtitle = "Sample size n= {closest_state}",
       title = "Distribution of Sample Mean: binomial",
       caption = "Theoretical distribution is standard normal",
       y = "Sample mean from binomial") +
  
 gganimate::view_follow() -> Densidad

# VIDEO OUTPUT:

#library(transformr)
#library(av)
#library(gifski)
#library(gganimate)

animate(Densidad +
        enter_fade() + 
        exit_fly(y_loc = 1), 
        # La velocidad de fotogramas de la animación en fotogramas/segundo (predeterminado=10):
        fps=5,  
        # La duración de la animación en segundos (sin configurar de forma predeterminada)
        #duration = 30 
        renderer = av_renderer()
       )

3 Metodología de los intervalos de confianza

3.0.1 Introducción

Hasta ahora se ha presentado un concepto fundamental del análisis estadístico: el problema de la estimación (puntual) de un parámetro de interés \(\theta\) usando un estadístico adecuado \(\widehat{\theta} =\widehat{\theta}(X)\) cuyo valor \(\widehat{\theta}(x)\), con base en un dato \(x\), se toma como valor estimado del valor desconocido \(\theta\). Pero, existe un problema obvio relacionado con el uso de las estimaciones puntuales: aunque sólo está implícito un parámetro, el número disponible de estimaciones es generalmente muy grande, pues una de las muestras posibles que se pueden sacar de la población de interés arroja una estimación. Para el estudio de las distribuciones muestrales realizadas anteriormente, sabemos que algunas estimaciones estarán más cerca del parámetro que se está calculando que otras. Sin embargo, no sabemos qué tan cerca está nuestra única estimación puntual del parámetro verdadero. Incluso, en una situación determinada, podemos considerar sumamente improbable que la estimación puntual sea exactamente igual al parámetro, pero no estamos en condiciones de decir en cuánto nos hemos equivocado.

Por esta razón, ahora, se presenta un segundo concepto fundamental para el trabajo práctico de un estadístico, el cual usa y complementa los análisis basados en el concepto anterior. Un intervalo de confianza puede interpretarse como una estimación por un intervalo alrededor de la estimación puntual y dará una mejor idea sobre la precisión de tal estimación.

3.0.2 Intervalo de confianza

Definition 3.1 (Intervalo de confianza) La definición se basa en la siguiente metodología:

  1. Según el problema se tiene un parámetro \(\theta \in \Theta \subseteq \mathbb{R}^k\) e interesa estimar el valor real \(\eta=q(\theta)\), siendo \(q: \Theta \to \mathbb{R}\) una función unidimensional.

  2. Se forma una muestra \(X=(X_1, \ldots, X_n)^t\) de tamaño \(n\), cuya distribución \(f_\theta\) debe ser conocida para cada \(\theta\), observando un dato concreto \(x=(x_1, \ldots, x_n)^t\).

  3. Se buscan dos estadísticos unidimensionales \(U(X)\) y \(W(X)\) con \(U(X) \leq W(X)\), para cada posible dato \(x\), tal que (Para cierto \(\alpha\) fijo y lo más pequeño posible):

\[\begin{equation} P\big(U(X) < \eta < W(X)\big) \;\geq \; 1-\alpha \tag{3.1} \end{equation}\]

  1. Al intervalo aleatorio \(I(Y)= \big(U(X), W(X)\big)\) se le llama intervalo de confianza para \(\eta\) con un grado de confianza, del (\(1-\alpha\))100%. También a su valor se llama intervalo de confianza.

Se usarán las notaciones \(U\), \(W\) e \(I\) para abreviar tanto las expresiones aleatorias \(U(X)\), \(W(X)\) e \(I(X)\) como sus valores reales \(U(x)\), \(W(x)\) e \(I(x)\) correspondientes al dato \(x\). En la práctica, se usan los grados de confianza \(1-\alpha= 90\%, 95\%\) ó \(99\%\).

3.0.3 Intervalo de confianza como estimación

En muchas aplicaciones se usa una estimación (puntual) \(\widehat{\eta} = q(\widehat{\theta})\), con el fin de considerar

\[U= \widehat{\eta}-D, \qquad W=\widehat{\eta}+D\]

Aquí, el estadístico \(D=D(Y)\) es escogido de tal manera que se cumpla (3.1). O sea, buscar un intervalo de confianza de la forma

\[\mbox{$I=(\widehat{\eta} - D, \widehat{\eta} + D)$, o más brevemente, $I = \widehat{\eta} \pm D$ }\] También escribiremos, a veces,

\[\widehat{\eta} - D \;<\; \eta\;<\; \widehat{\eta} + D,\]

Con una probabilidad de por lo menos \(1-\alpha\), este intervalo contiene el valor verdadero \(\eta\) alrededor de la estimación puntual \(\widehat{\eta}=\widehat{\eta}(x)\) con una desviación a lo más de \(D\), para un dato observado \(x\). Entre más pequeña sea \(D(x)\), o la longitud del intervalo \(2D(x)\), más precisa será la estimación. Pero, \(D\) puede depender o no de \(x\) como se explicará más adelante.

3.0.4 Propiedades de los intervalos de confianza

3.0.4.1 Propiedad 1

En la gráfica de abajo se presentan 4 intervalos confianza para la media poblacional (tema que se explicará más adelante), cada uno construido con un grado de confianza diferente (90%, 95%, 97% y 99%, respectivamente). Además, se han mantenido fijos la media de la muestra, la desviación estándar y el tamaño muestral. Se observa lo siguiente: a medida que aumenta el grado de confianza, aumenta el ancho del intervalo.

#1. LOS DATOS

#1.1. Utilizamos los datos iris de R y creamos un nuevo conjunto de datos:

vers <- split(iris$Sepal.Length, iris$Species)$versicolor

#2. CONSTRUIR LOS INTERVALOS DE CONFIANZA

#2.1. la función t.test crea una lista que contiene todas las estadísticas calculadas, incluido el intervalo de confianza (IC). Puedo extraer el IC seleccionando el grado de confianza con el argumento conf.int

tt1 <- t.test(vers, conf.level = 0.9)
tt2 <- t.test(vers, conf.level = 0.95)
tt3 <- t.test(vers, conf.level = 0.97)
tt4 <- t.test(vers, conf.level = 0.99)

#3. CREAR UN GRÁFICO COMPARANDO ESTOS ICs

#3.1. La meta es crear un objeto que sea fácil de manipular en ggplot. Se comienza con una lista de los resultados

Lista <- list(`90% CI` = as.list(tt1$conf.int),
             `95% CI` = as.list(tt2$conf.int),
             `97% CI` = as.list(tt3$conf.int), 
             `99% CI` = as.list(tt4$conf.int))

#3.2.Se usa las funciones melt y cast de reshape para hacer un data.frame que se pueda utilizar: 

#library(reshape)
df_melted <- melt(Lista)
names(df_melted) <- c("value", "Limites", "Grados")

df_casted <- cast(df_melted, Grados ~ Limites)
names(df_casted) <- c("Grado", "Inferior", "Superior")

Intervalos <- df_casted

#4. GRAFICO DESEADO

#library(ggplot2)
#library(ggrepel)

ggplot(Intervalos) + 
  
  geom_segment(aes(x = Inferior, xend = Superior, y = Grado, 
    yend = Grado, colour=Grado), size = 1)  +
  
  geom_point(aes(x = Inferior, xend = Inferior, y = Grado, 
    yend = Grado, label=Inferior), size=2.5) +
  
  geom_point(aes(x = Superior, xend = Superior, y = Grado, 
    yend = Grado, label=Superior), size=2.5 ) +
  
  labs(x="Intervalos", y="Grados de confianza")-> p

#library(ggrepel)

p + geom_text_repel(
                    aes(x = Inferior, xend = Inferior, y = Grado, 
                        yend = Grado, label = round(Inferior,3)),
                    box.padding   = 0.35, 
                    point.padding = 0.5,
                    segment.color = 'grey50',
                    size=2.5
                   ) +
    
    geom_text_repel(
                    aes(x = Superior, xend = Superior, y = Grado, 
                        yend = Grado, label = round(Superior,3)),
                    box.padding   = 0.35, 
                    point.padding = 0.5,
                    segment.color = 'grey50',
                    size=2.5
                   ) 

3.0.4.2 Propiedad 2

En la gráfica de abajo se presentan infnitos intervalos confianza para la media población (tema que se explicará más adelante). Se han mantenido fijos la media de la muestra, desviación estándar y el grado de confianza (en este caso, asumimos que era igual a 95%). Además, el valor de \(n\) se ha hecho variar muchas veces. Se observa lo siguiente: a medida que aumenta el tamaño muestral \(n\), el ancho del intervalo tiende a ser cada vez más pequeño.

mu_ <- 0
sd_ <- 1

n_max = 500  #Número máximo de tamaños muestrales
R = 2        #Númerro de repeticiones

results <- NULL
upper_and_lower <- NULL


for (sample_size_n in 3:n_max) { 
    
    for (i in 1:R) {
        #Muestrear desde una normal, usando tamaños muestrales desde 3 hasta n_max:
        sample_ <- rnorm(sample_size_n, mean=mu_, sd=sd_)
        
        #Para cada muestra, se calculo el IC del 95% utilizando una t:
        ci_test <- t.test(sample_, conf.level=0.95)

        #Hasta aquí df_1_fila: data.frame con 1 fila y 4 columnas: 
        df_1_fila <- data.frame(
                         n = sample_size_n,
                         low_ci = ci_test$conf.int[[1]], 
                         up_ci = ci_test$conf.int[[2]],
                         mean = mean(sample_)
                         )

        #results: es un data.frame con 2x(n_max-3+1) filas y 4 columnas
         results <- rbind(results, df_1_fila)
    }
  
critico <- qnorm(.975)         #Valor crítico  o cuantil Z_alfa/2= 1.96
std <- sd_/sqrt(sample_size_n) #Error estandar
margen <- critico* std         #Error de estimación o margen de error
  
df <- data.frame(
                 n = sample_size_n, 
                 upper = mu_ + margen, 
                 lower = mu_ - margen
                 )

#Se construye el siguiente data.frame con (n_max-3+1) filas y 4 columnas:   
upper_and_lower <- rbind(upper_and_lower, df)

}

# LA GRÁFICA

ggplot() +
    geom_point(data=results, aes(y = mean, x = n), size=1) +
    geom_line(data=upper_and_lower, aes(y = upper, x = n), color = "blue", size=1.5) +
    geom_line(data=upper_and_lower, aes(y = lower, x = n), color = "blue", size=1.5) +      
    geom_hline(yintercept=mu_, linetype="dotted", color = "red", size=1.5) +
  
   labs(x="Tamaño muestral n", y="Media", title="Intervalos del 95% confianza para la media (bandas azules)")

3.0.4.3 Función para la interpretación gráfica del intervalo

R contiene las funciones anm.ci y anm.ci.tck del paquete asbio, que nos permite presentar demostraciones animadas de los intervalos de confianza.

anm.ci(parent=expression(rnorm(n)), par.val, conf = 0.95, sigma = NULL, 
  par.type = c("mu", "median", "sigma.sq", "p"), n.est = 100, 
  n = 50, err.col = 2, par.col = 4, interval = 0.1, ...) 

anm.ci.tck()

Hemos modificado un poco la función, para adaptarlo al objetivo de esta sección.

CI <- function (parent = expression(rnorm(n)), par.val, conf = 0.95, 
    sigma = NULL, par.type = c("mu", "median", "sigma.sq", "p"), 
    n.est = 100, n = 50, err.col = 2, par.col = 4, interval = 0.1, 
    ...) 
{
    ci <- matrix(ncol = 3, nrow = n.est)
    names <- c(expression(mu), "Pop. Median", expression(sigma^2), 
        expression(pi))
    for (i in 1:n.est) {
        x <- sample(eval(parent), size = n, replace = FALSE)
        if (par.type == "mu") {
            if (!is.null(sigma)) {
                cint <- ci.mu.z(x, conf, sigma)
                ci[i, ] <- c(cint$ci[1], cint$ci[2], cint$ci[3])
            }
            if (is.null(sigma)) {
                cint <- ci.mu.t(x, conf)
                ci[i, ] <- c(cint$ci[1], cint$ci[2], cint$ci[3])
            }
        }
        if (par.type == "median") {
            cint <- ci.median(x, conf)
            ci[i, ] <- c(cint$ci[1], cint$ci[2], cint$ci[3])
        }
        if (par.type == "sigma.sq") {
            cint <- ci.sigma(x, conf)
            ci[i, ] <- c(cint$ci[1], cint$ci[2], cint$ci[3])
        }
        if (par.type == "p") {
            cint <- ci.p(x, conf)
            ci[i, ] <- c(cint$ci[1], cint$ci[2], cint$ci[3])
        }
    }
    lcol <- matrix(nrow = n.est, ncol = 1)
    for (i in 1:n.est) {
        lcol[i] <- ifelse(ci[, 2][i] < par.val & ci[, 3][i] > 
            par.val, 1, err.col)
    }
    dev.hold()
    plot(ci[, 1], seq(1, n.est), xlim = c(min(ci[, 2]), max(ci[, 
        3])), type = "n", xlab = "Estimaciones puntuales y de intervalo", 
        ylab = "Cantidad estimada", ...)
    abline(v = par.val, lty = 2, col = par.col)
    if (par.type == "mu") 
        mtext(names[1], 3, at = par.val, font = 3, line = 0.1)
    if (par.type == "median") 
        mtext(names[2], 3, at = par.val, font = 3, line = 0.1)
    if (par.type == "sigma.sq") 
        mtext(names[3], 3, at = par.val, font = 3, line = 0.1)
    if (par.type == "p") 
        mtext(names[4], 3, at = par.val, font = 3, line = 0.1)
    for (i in 1:n.est) {
        points(ci[, 1][i], i, pch = 19, cex = 0.6, col = lcol[i])
        segments(x0 = ci[, 2][i], x1 = ci[, 3][i], y0 = i, y1 = i, 
            col = lcol[i])
        dev.flush()
        Sys.sleep(interval)
    }
    mtext(bquote(paste("Confianza = ", .(round(sum(sapply(lcol == 
        1, sum))/n.est, 2)))), 3, at = max(ci[, 3]), adj = 1, 
        line = 1)
    # mtext(bquote(paste("Conf. = ", .(conf))), 3, at = min(ci[, 
    #     2]), adj = 0, line = 1)
}

4 Intervalos de confianza para la media poblacional

4.0.1 Interpretación gráfica del intervalo

La figura de abajo proporciona un gráfico que muestra los intervalos de confianza con respecto al verdadero valor de un parámetro que está siendo estimado (en este caso, \(\mu=0\)). Los intervalos que no contienen el parámetro se enfatizan con el color rojo. Se obbserva que de 100 intervalos construidos para \(\mu\), el \((1-\alpha)100\%\) (en la figura corresponde a Confianza) de los intervalos no contiene al verdadero valor del parámetro (\(\mu=0\)).

parent<-rnorm(100000)
CI(parent, par.val=0, sigma=1, par.type="mu")

4.0.2 El caso de muestras grandes

Imaginemos que se extrae una muestra aleatoria de una distribución con media desconocida. Nuestro objetivo es hallar un intervalo de confianza para la media poblacional suponiendo que se cumple alguna de las siguientes condiciones:

  1. La población es normal con varianza conocida.

  2. La población es normal con varianza desconocida y el tamaño de la muestra es grande.

  3. La forma de la población es desconocida (o no normal), su varianza es conocida o desconocida y el tamaño de la muestra es grande.

El siguiente ejemplo muestra una situación en donde se cumple la primera condición, es decir, que la población es normal con varianza conocida.

Example 4.1 Se tiene una variable de interés con media \(\mu\) desconocida y varianza \(\sigma^2\) conocida. Entonces,

  1. Se toma como parámetro \(\theta=\mu\in \mathbb{R}\).

  2. Se supone que las variables muestrales \(X_i \sim \mathcal{N}(\mu, \sigma^2)\) forman una muestra \(X\) de tamaño \(n\) para la variable de interés.

  3. Se sabe que \(\widehat{\mu}=\widehat{\mu}(X)=\overline{X}_{(n)}\) es una estimación puntual razonable para \(\mu\). Por lo tanto, se buscará un intervalo de confianza \(I=(\overline{X}_{(n)} - D, \overline{X}_{(n)} + D)\), donde se debe determinar el estadístico \(D\) tal que

\[P(\mu \in I) \;= \; P(\overline{X}_{(n)} - D<\mu<\overline{X}_{(n)} + D)=1-\alpha, \quad \mbox{para $\alpha$ dado}\]

El procedimiento es el siguiente: Se reescriben las desigualdades de manera equivalente, así:

\[-\frac{D}{\sigma/ \sqrt{n}}\;<\; \frac{\overline{X}_{(n)}-\mu}{\sigma/\sqrt{n}} \; < \; \frac{D}{\sigma/ \sqrt{n}}\]

Lo importante es que la distribución de la variable aleatoria

\[Z\; =\; \frac{\overline{X}_{(n)}-\mu}{\sigma/\sqrt{n}} \; \sim\; \mathcal{N}(0,1)\]

no depende del parámetro y se encuentra tabulada. Por consiguiente, abreviando \(z:= \frac{D}{\sigma/ \sqrt{n}}\) y usando la simetría de la función de distribución normal estándar \(\Phi\), resulta que

\[1-\alpha \;= \; P(\overline{X}_{(n)} - D<\mu<\overline{X}_{(n)} + D) \;= \; \Phi(z) - \Phi(-z) \;= \; 2\, \Phi(z) - 1\]

de donde

\[\Phi(z) = 1- \frac{\alpha}{2}\]

Fijando \(\alpha\), de la tabla para \(\mathcal{N}(0,1)\) se obtiene el valor \(z\) (que, de ahora, en adelante, escribiremos \(Z_{\alpha/2}\)) y, así, el valor del estadístico será

\[D= Z_{\alpha/2} \frac{\sigma}{\sqrt{n}}\]

En resumen, un intervalo de confianza de \((1-\alpha)100\%\) para \(\mu\) con \(\sigma^2\) conocida es

\[\overline{X}_{(n)}- Z_{\frac{\alpha}{2}} \frac{\sigma}{\sqrt{n}}\; < \; \mu \; < \; \overline{X}_{(n)}+ Z_{\frac{\alpha}{2}} \frac{\sigma}{\sqrt{n}}\]

siendo \(Z_{\alpha/2}\) el valor de

\[Z= \frac{\overline{X}_{(n)}-\mu}{\sigma/\sqrt{n}}\]

a la derecha del cual se tiene un área de \(\alpha/2\) en la distribución normal. Observe que \(D\) no depende realmente del valor de la muestra y que, aumentando el tamaño \(n\) de la muestra, se puede obtener un intervalo de confianza de \((1-\alpha)100%\) de una longitud tan pequeña como se quiera. \(\blacktriangleleft\)

El resultado encontrado en el ejemplo 4.1 y otros, con las demás situaciones explicadas al inicio de esta sección, se presentan en el teorema 2.2.1 del libro de Estadística inferencial de LLinás (2006, pág. 104). Ver bibliografía abajo. Estos resultados también se encuentran resumidos en la tabla A.5 que se encuentra en el apéndice A.7 para diagramas y tablas (véase la sección correspondiente a la Bibliografía).

Example 4.2 Un fabricante produce bolsas de arroz. El peso del contenido de estas bolsas tiene una distribución normal con desviación típica 15 gramos. A su vez, los contenidos de una muestra aleatoria de 25 bolsas tienen un peso medio de 100 gramos. Calcúlese un intervalo de confianza del 95% para el verdadero peso medio de todas las bolsas de arroz producidas por el fabricante.

Solution:

Como buscamos un intervalo de confianza del 95%, tenemos que \(1-\alpha=95%\), por lo que \(\alpha=5%=0,05\). Al verificar los supuestos de la tabla A.5 que se encuentra en el apéndice A.7 para diagramas y tablas (véase la sección correspondiente a la Bibliografía), el intervalo de confianza del 95% para la media poblacional \(\mu\) es \[\overline{x} \,-\, Z_{\alpha/2} \frac{\sigma}{\sqrt{n}}\; < \;\mu \; <\; \overline{x} \,+\, Z_{\alpha/2} \frac{\sigma}{\sqrt{n}}. \]

De la tabla normal estándar, encontramos que \(Z_{\alpha/2} = Z_{0,025}= 1,96\) porque \(P(Z>1,96) = 0,025\). Con esto y debido a que \(\overline{x}=100\), \(\sigma=15\) y \(n=25\), el intervalo buscado es \[100 \,-\, \frac{(1,96)(15)}{\sqrt{25}}\; < \;\mu \; <\; 100 \,+\, \frac{(1,96)(15)}{\sqrt{25}} \]

o bien \[ 94,12 < \mu < 105,88.\]

Por lo tanto, podemos concluir que, con una confianza del 95%, el verdadero peso medio de todas las bolsas de arroz producidas por el fabricante está entre 94,14 y 105,88 gramos. \(\blacktriangleleft\)

4.0.3 El caso de muestras pequeñas

Example 4.3 Es más realista suponer en el ejemplo 4.1 que \(\sigma^2\) no se conozca. Entonces se obtienen las siguientes modificaciones:

  1. El parámetro es \(\theta=(\mu, \sigma^2)\), con \(\eta=q(\theta)=\mu\) que es lo que se quiere estimar.

  2. La variable \(Z\) del ejemplo 4.1 será reemplazada por la variable aleatoria

\[t\; =\; \frac{\overline{X}_{(n)}-\mu}{S_{(n)}/\sqrt{n}} \; \sim\; \mathcal{T}(n-1)\]

Es decir, \(\sigma^2\) se reemplaza por su estimación insesgada

\[S^2_{(n)}=\frac{\sum\limits_{i=1}^n \left(X_i - \overline{X}_{(n)}\right)^2}{n-1}\]

Como la distribución \(t\) de Student también es simétrica, primero se determina un valor \(t\) (que, de ahora, en adelante, escribiremos \(t_{\alpha/2}\)) en de una tabla para \(\mathcal{T}(n-1)\) tal que \(P(T\geq t)) = \frac{\alpha}{2}\). Por tanto, el valor de la estadística será

\[D= t_{\alpha/2} \frac{S_{(n)}}{\sqrt{n}}\]

que ahora sí depende de la muestra. En resumen, un intervalo de confianza de \((1-\alpha)100%\) para \(\mu\) con \(\sigma^2\) desconocida es

\[\overline{X}_{(n)}- t_{\frac{\alpha}{2}} \frac{S_{(n)}}{\sqrt{n}}\; < \; \mu \; < \; \overline{X}_{(n)}+ t_{\frac{\alpha}{2}} \frac{S_{(n)}}{\sqrt{n}}\]

siendo \(t_{\alpha/2}\) el valor de

\[t= \frac{\overline{X}_{(n)}-\mu}{S_{(n)}/\sqrt{n}}\]

a la derecha del cual se tiene un área de \(\alpha/2\) en la distribución \(t\) de Student con \(n-1\) grados de libertad. \(\blacktriangleleft\)

El resultado encontrado en el ejemplo 4.3 se presenta. en el teorema 2.2.5 de Estadística inferencial de LLinás (2006, pág. 106). Ver bibliografía abajo. Estos resultados también se encuentran resumidos en la tabla A.5 que se encuentra en el apéndice A.7 para diagramas y tablas (véase la sección correspondiente a la Bibliografía).

Example 4.4 Los contenidos de 7 recipientes similares de ácido sulfúrico son 9.8; 10.2; 10.4; 9.8; 10.0; 10.2 y 9.6 litros. Encuéntrese un intervalo de confianza del 95% para la media de todos los recipientes, suponiendo que la población de valores tiene distribución normal.

Solution:

Tenemos que \(n=7\). Además, la media y desviación de los datos dados son \(\overline{x}=10,0\) y \(s=0,283\) litros, respectivamente. Debido, entonces, a que \(t_{\alpha/2}=t_{0,025}=2,447\), el intervalo buscado será

\[10,0 \,-\, \frac{(2,447)(0,283)}{\sqrt{7}}\; < \;\mu \; <\; 10,0 \,+\, \frac{(2,447)(0,283)}{\sqrt{7}} \]

O bien, \[9,74 < \mu < 10,26\]

Es decir, con una confianza del 95%, podemos afirmar que la media de todos los recipientes se encuentra entre 9,74 y 10,26 litros. \(\blacktriangleleft\)

5 Intervalo de confianza para la proporción poblacional

5.0.1 Interpretación gráfica del intervalo

La figura de abajo proporciona un gráfico que muestra los intervalos de confianza con respecto al verdadero valor de un parámetro que está siendo estimado (en este caso, \(p=0.70\)). Los intervalos que no contienen el parámetro se enfatizan con el color rojo. Se obbserva que de 100 intervalos construidos para \(p\), el \((1-\alpha)100\%\) (en la figura corresponde a Confianza) de los intervalos no contiene al verdadero valor del parámetro (\(p=0.70\)).

parent<-rbinom(100000, 1, p=0.70)
CI(parent, par.val=0.70, par.type="p")

Example 5.1 Se supone que las variables muestrales \(X_i \sim \mathcal{B}(1, p)\) forman una muestra \(X\) de tamaño \(n\) para la variable de interés. En este caso, el parámetro es \(\theta=p\).

Se sabe por el teorema central de límite de Moivre-Laplace, teorema 2.7, que

\[\widehat{p}\stackrel{\atop d}{\longrightarrow} \mathcal{N}\left(p, \frac{p(1-p)}{n}\right)\]

Por consiguiente, un intervalo de confianza del \((1-\alpha)100%\) para \(p\) está dado por

\[\widehat{p}- Z_{\frac{\alpha}{2}}\sqrt{\widehat{p}(1-\widehat{p})/n} \; < \; p \; < \; \widehat{p}+ Z_{\frac{\alpha}{2}}\sqrt{\widehat{p}(1-\widehat{p})/n} \]

Como este intervalo exige que tamaño de la muestra sea grande, para la práctica, es suficiente verificar que \(n\geq 30\) o que \(n\widehat{p}>5\) y \(n(1-\widehat{p})>5\). \(\blacktriangleleft\)

El resultado encontrado en el ejemplo 5.1 se presenta en el teorema 2.3.1 del libro de Estadística inferencial de LLinás (2006, pág. 110). Ver bibliografía abajo. Estos resultados también se encuentran resumidos en la tabla A.6 que se encuentra en el apéndice A.7 para diagramas y tablas (véase la sección correspondiente a la Bibliografía).

Example 5.2 Hay empresas especializadas en ayudar a otras a ubicar y asegurar talento para la alta gerencia. Tales firmas son responsables de la ubicación de muchos de los mejores directores ejecutivos de la nación. Una reconocida revista reportó que: uno de cada cuatro directores ejecutivos es una persona con más de 35 años de edad. Si en una muestra aleatoria de 350 compañías de cierto país, 77 tienen directores ejecutivos con más de 35 años de edad, ¿un intervalo de confianza del 99% apoyaría la afirmación?

Solution:

Tenemos que \(n=350\) y que \(\overline{p}= \frac{77}{350}=0,22\). Debido a que \(n\geq 30\) y a que \(Z_{\alpha/2}=Z_{0,005}=2,58\), entonces, un intervalo de confianza para la proporción poblacional \(p\) es: \[0,22 - (2,58) \sqrt{\frac{(0,22)(0,78)}{350}} \; < \; p \; <\; 0,22 + (2,58) \sqrt{\frac{(0,22)(0,78)}{350}}\]

O bien, \[0,163 < p < 0,277\]

Por consiguiente, con una confianza del 99%, se puede afirmar que aproximadamente entre el 16,3% y el 27,7% de las empresas del país tienen directores ejecutivos con más de 35 años de edad. Y, en conclusión, la afirmación está apoyada por tales descubrimientos, ya que el 25% está contenido dentro del intervalo. \(\blacktriangleleft\)

6 Intervalos de confianza para la diferencia de dos medias poblacionales (muestras independientes)

6.0.1 Explicación

Sea \(X_1,X_2,\ldots, X_n\) una muestra aleatoria de tamaño \(n\) de una población normal con valor esperado \(\mu_1\) y varianza \(\sigma_1^2\) y \(Y_1,Y_2,\ldots, Y_m\) una muestra aleatoria de tamaño \(m\) de una población normal con valor esperado \(\mu_2\) y varianza \(\sigma_2^2\). Las dos poblaciones son estadísticamente independientes. Los casos que se presentan a continuación corresponden a los supuestos que se hacen sobre las varianzas poblacionales (y los tamaños muestrales):

  • Varianzas poblacionales conocidas o desconocidas y muestras grandes.

  • Varianzas poblacionales iguales, desconocidas y muestras pequeñas.

  • Varianzas poblacionales diferentes, desconocidas y muestras pequeñas.

6.0.2 Gráfico 1: Estimación de la media con intervalo de confianza

Este gráfico de barras representa la estimación de la media muestral para dos grupos (Grupo1 y Grupo2), acompañada de sus respectivos intervalos de confianza al 95%. Cada barra muestra la media de las mediciones recolectadas en cada grupo, y las líneas superiores e inferiores indican el margen de error asociado a la estimación, calculado con base en el error estándar. Esta visualización permite apreciar no solo las diferencias en las medias, sino también el grado de precisión de dichas estimaciones.

Este tipo de gráfico es ideal para introducir el concepto de estimación puntual y por intervalo, resaltando que toda media muestral viene acompañada de incertidumbre. También se puede utilizar para discutir la superposición de intervalos de confianza como indicio (no prueba) de diferencias significativas entre grupos, promoviendo un enfoque más visual y didáctico que el uso exclusivo de pruebas de hipótesis.

# Cargar paquetes
library(ggplot2)
library(dplyr)

# Datos simulados
set.seed(123)
N <- 40
Grupo1 <- rnorm(N, mean = 120, sd = 25)
Grupo2 <- rnorm(N, mean = 80, sd = 50)
Peso <- rep(c("Bajo", "Medio", "Alto", "Alto"), each = 10)  # 40 observaciones

data <- data.frame(
  Grupo = rep(c("Grupo1", "Grupo2"), each = N),
  Medicion = c(Grupo1, Grupo2),
  Peso = rep(Peso, 2)
)

# Calcular medias e intervalos
resumen <- data %>%
  group_by(Grupo) %>%
  summarise(
    Media = mean(Medicion),
    IC_inf = mean(Medicion) - qt(0.975, n() - 1) * sd(Medicion) / sqrt(n()),
    IC_sup = mean(Medicion) + qt(0.975, n() - 1) * sd(Medicion) / sqrt(n())
  )

# Gráfico
ggplot(resumen, aes(x = Grupo, y = Media, fill = Grupo)) +
  geom_col(width = 0.5, color = "black") +
  geom_errorbar(aes(ymin = IC_inf, ymax = IC_sup), width = 0.2) +
  labs(title = "Estimación de la media con intervalo de confianza",
       y = "Media estimada ± IC 95%", x = "") +
  theme_minimal(base_size = 14) +
  scale_fill_brewer(palette = "Set2") +
  theme(legend.position = "none")

6.0.3 Gráfico 2: Distribución de las mediciones con medias e intervalos de confianza

Este gráfico tipo “violin plot” muestra la distribución de las observaciones individuales en los grupos Grupo1 y Grupo2. A diferencia del gráfico de barras, aquí se visualiza no solo la media con su intervalo de confianza (marcado con líneas horizontales), sino también la densidad de probabilidad y la dispersión de los datos originales. Los puntos representan cada una de las mediciones, lo cual facilita la identificación de outliers, simetría o asimetría, y agrupamientos.

Este gráfico permite abordar conceptos más profundos como la variabilidad dentro de cada grupo y la forma de la distribución. Es especialmente útil para enseñar a los estudiantes a no depender únicamente de resúmenes numéricos como la media, sino a complementar el análisis con una exploración visual de los datos que revele información estructural clave.

ggplot(data, aes(x = Grupo, y = Medicion, fill = Grupo)) +
  geom_violin(trim = FALSE, alpha = 0.4) +
  geom_jitter(width = 0.1, size = 2, alpha = 0.6) +
  stat_summary(fun = mean, geom = "point", size = 3, color = "black") +
  stat_summary(fun.data = mean_cl_normal, geom = "errorbar", width = 0.15) +
  labs(title = "Distribución de las mediciones con medias e IC",
       y = "Medición", x = "") +
  theme_minimal(base_size = 14) +
  scale_fill_brewer(palette = "Pastel1") +
  theme(legend.position = "none")

6.0.4 Primer caso: varianzas poblacionales conocidas o desconocidas y muestras grandes

Example 6.1 Un intervalo de confianza de \((1-\alpha)100%\) para la diferencia de promedios de dos poblaciones independientes, cuando \(\sigma_1^2\) y \(\sigma^2_2\) son conocidas se desarrolla de la siguiente manera: Por el teorema 2.6,

\[\overline{X}_{(n)}\sim \mathcal{N}\left(\mu_1, \frac{\sigma_1^2}{n}\right) \quad \mbox{y}\quad \overline{Y}_{(m)} \sim \mathcal{N}\left(\mu_2, \frac{\sigma_2^2}{m}\right)\]

Por lo tanto,

\[ \overline{X}_{(n)}-\overline{Y}_{(m)}\sim \mathcal{N}\left(\mu_1-\mu_2, \frac{\sigma_1^2}{n} + \frac{\sigma_2^2}{m}\right)\]

Por consiguiente,

\[Z\;=\; \frac{(\overline{X}_{(n)}-\overline{Y}_{(m)})-(\mu_1-\mu_2)}{\sqrt{\frac{\sigma_1^2}{n}+\frac{\sigma_2^2}{m}}}\;\sim\; \mathcal{N}(0,1)\]

A partir de esta variable, puede construirse un intervalo de confianza del \((1-\alpha)100%\) para \(\mu_1 - \mu_2\), así:

\[(\overline{X}_{(n)}-\overline{Y}_{(m)}) - Z_{\frac{\alpha}{2}} \sqrt{\frac{\sigma_1^2}{n}+\frac{\sigma_2^2}{m}} \; < \; \mu_1 - \mu_2 \; < \; (\overline{X}_{(n)}-\overline{Y}_{(m)}) + Z_{\frac{\alpha}{2}} \sqrt{\frac{\sigma_1^2}{n}+\frac{\sigma_2^2}{m}}\]

donde \(Z_{\frac{\alpha}{2}}\) es el valor de \(Z\) que deja un área de \(\frac{\alpha}{2}\) a la derecha de la distribución normal.

Es importante recalcar que para el caso en que las muestras aleatorias provengan de poblaciones no normales o desconocidas, se puede aplicar el teorema central del límite y, de esta forma, encontrar un intervalo aproximado semejante al anterior. Para el caso en que las varianzas poblacionales son desconocidas, utilizamos las desviaciones muestrales respectivas como estimación de las correspondientes desviaciones poblacionales. \(\blacktriangleleft\)

El resultado encontrado en el ejemplo 6.1 se presenta en el teorema 2.5.2 de Estadística inferencial de LLinás (2006, pág. 119). Ver bibliografía abajo. Estos resultados también se encuentran resumidos en la tabla A.7 que se encuentra en el apéndice A.7 para diagramas y tablas (véase la sección correspondiente a la Bibliografía).

Example 6.2 Para una muestra aleatoria de \(321\) fumadores, el número medio de horas de absentismo laboral al mes fue de 3,01 y la desviación típica fue de 1,09 horas al mes. Para una muestra aleatoria independiente de 94 trabajadores que nunca han fumado, el número medio de horas fue de 2,88 y la desviación típica muestral fue de 1,01 horas al mes. Calcule un intervalo de confianza del 95% para la diferencia entre las dos medias poblacionales.

Solution:

Dado que los tamaños muestrales son grandes, podemos utilizar las varianzas muestrales en lugar de las varianzas poblacionales desconocidas de la siguiente manera:

\[(\overline{x}_{(n)} -\overline{x}_{(m)}) - Z_{\alpha/2} \sqrt{\frac{s^2_{(n)}}{n} +\frac{s_{(m)}^2}{m}}\; < \; \mu_1-\mu_2 \; <\; (\overline{x}_{(n)} -\overline{x}_{(m)}) + Z_{\alpha/2} \sqrt{\frac{s^2_{(n)}}{n} +\frac{s_{(m)}^2}{m}},\]

siendo

\[\begin{eqnarray*} n=321, &&\quad \overline{x}_{(n)}=3.01, \quad s_{(n)}=1.09\\ m=94, &&\quad \overline{x}_{(m)}=2.88, \quad s_{(m)}=1.01 \end{eqnarray*}\]

Y, dado que, para un intervalo de confianza del 95%, se tiene que \(Z_{\alpha/2}=Z_{0,025}=1,96\). Entonces, el intervalo es:

\[(3,01-2,88) - (1,96) \sqrt{\mbox{$\frac{(1,09)^2}{321} +\frac{(1,01)^2}{94}$}}\; < \; \mu_1-\mu_2 \; <\; (3,01-2,88) + (1,96) \sqrt{\mbox{$\frac{(1,09)^2}{321} +\frac{(1,01)^2}{94}$}}\]

o bien, \[-0,11 < \mu_1-\mu_2 < 0,37.\]

Por consiguiente, como el cero está dentro del intervalo de confianza, no hay suficiente evidencia en los datos para rechazar la idea de que ambas poblaciones tienen la misma media. \(\blacktriangleleft\)

6.0.5 Segundo caso: varianzas poblacionales iguales, desconocidas y muestras pequeñas

Example 6.3 Un intervalo de confianza de \((1-\alpha)100%\) para la diferencia de promedios poblaciones correspondientes a dos poblaciones independientes, bajo el supuesto de que las varianzas poblacionales son desconocidos pero iguales, se desarrolla teniendo en cuenta lo siguiente: Sea \(\sigma_1^2=\sigma_2^2=\sigma^2\). Entonces, en el ejemplo 6.1, hemos demostrado que

\[Z\;= \; \frac{(\overline{X}_{(n)}-\overline{Y}_{(m)})-(\mu_1-\mu_2)}{\sqrt{\frac{\sigma^2}{n}+\frac{\sigma^2}{m}}}\;\sim\; \mathcal{N}(0,1)\]

Por otro lado, por el teorema 2.3(c), sabemos que

\[\frac{(n-1)S_{(n)}^2}{\sigma^2} \sim \chi^2(n-1), \quad \mbox{y} \quad \frac{(m-1)S_{(m)}^2}{\sigma^2} \sim \chi^2(m-1)\]

Como las poblaciones son estadísticamente independientes, entonces, por los teoremas 2.1(a) y 2.2(b), se cumple que

\[\frac{(n-1)S_{(n)}^2+(m-1)S_{(m)}^2}{\sigma^2} \sim \chi^2 (n+m-2)\]

Con estos resultados y el teorema 2.4(c), la variable

\[t=\frac{(\overline{X}_{(n)}-\overline{Y}_{(m)})-(\mu_1-\mu_2)} {\sqrt{\frac{S_{(n,m)}^2}{n}+\frac{S_{(n,m)}^2}{m}}}\;\sim\; \mathcal{T}(n+m-2)\]

donde

\[S_{(n,m)}^2=\frac{(n-1)S_{(n)}^2+(m-1)S_{(m)}^2}{(n+m-2)}\]

es el estimador de la varianza común \(\sigma^2\), llamado varianza muestral combinada. Por consiguiente, el intervalo de confianza del \((1-\alpha)100%\) para \(\mu_1 - \mu_2\) basado en esta variable es

\[(\overline{X}_{(n)}-\overline{Y}_{(m)}) \;-\; t_{\frac{\alpha}{2}}(\nu)\, \sigma_{(n,m)} \;<\; \mu_1 - \mu_2 \; < \; (\overline{X}_{(n)}-\overline{Y}_{(m)})\; +\;t_{\frac{\alpha}{2}}(\nu)\,\sigma_{(n,m)}\]

donde \(\sigma_{(n,m)}^2:= \frac{S_{(n,m)}^2}{n}+\frac{S_{(n,m)}^2}{m}\) y \(t_{\frac{\alpha}{2}}\) es el valor de \(t(\nu)\) con \(\nu=n+m-2\) grados de libertad, que deja un área de \(\frac{\alpha}{2}\) a la derecha de la distribución \(t\) de Student con \(\nu= n+m-2\) grados de libertad.

El resultado encontrado en el ejemplo 6.3 se presenta en el teorema 2.5.5 del libro de Estadística inferencial de LLinás (2006, pág. 121). Ver bibliografía abajo. Estos resultados también se encuentran resumidos en la tabla A.7 que se encuentra en el apéndice A.7 para diagramas y tablas (véase la sección correspondiente a la Bibliografía).

Example 6.4 En un estudio sobre los efectos de la planificación en el rendimiento financiero de los bancos, se extrajo una muestra aleatoria de seis instituciones financieras que contaban con un sistema de planificación formal, comprobándose que el porcentaje medio anual de crecimiento de los ingresos netos en dicha muestra era de 9.9720 con una desviación típica de 7.47. La media de dicho crecimiento, en otra muestra aleatoria independiente de nueve bancos que no recurrían a la planificación fue de 2.0980 con una desviación típica de 10.8340. Suponiendo que las dos poblaciones son normales y tienen la misma varianza, calcule un intervalo de confianza del 90% para la diferencia de medias.

Solution:

Los datos muestrales son

\[\begin{eqnarray*} n=6, && \quad \overline{x}_{(n)}=9.9720, \quad s_{(n)}=7.47\\ m=9, && \quad \overline{x}_{(m)}=2.0980, \quad s_{(m)}=10.8340 \end{eqnarray*}\]

Claramente, podemos verificar que se cumplen los supuestos señalados en este segundo caso. Además, debido a que el valor de la varianza muestral combinada es: \[s^2_{(n,m)}\;=\; \frac{ (6-1)(7,470)^2 + (9-1)(10,834)^2}{ 6+ 9 - 2} \;\approx \; 93,7\]

y a que \(t_{\alpha/2}= t_{0,05}=1,771\) es el valor de una variable aleatoria que tiene distribución \(t\) de Student con \(\nu=n+m-2=13\) grados de libertad, entonces, el intervalo de confianza del 90% para la diferencia de los incrementos medios porcentuales es: \[-1,161 < \mu_1-\mu_2 < 16,909.\]

Como el intervalo incluye el cero, no existe evidencia suficiente en la muestra para rechazar la idea de la igualdad de medias entre ambas poblaciones. \(\blacktriangleleft\)

6.0.6 Tercer caso: varianzas poblacionales diferentes, desconocidas y muestras pequeñas

Example 6.5 Queda como ejercicio para el lector demostrar que cuando las poblaciones son normales con varianzas distintas y desconocidas, se cumple que

\[t=\frac{(\overline{X}_{(n)}-\overline{Y}_{(m)})-(\mu_1-\mu_2)} {\sqrt{\frac{S_{(n)}^2}{n}+\frac{S_{(m)}^2}{m}}} \;\sim \; t(\nu)\]

siendo \[\nu \approx \frac{\left(\frac{S^2_{(n)}}{n}+\frac{S^2_{(m)}}{m}\right)^2} {\frac{\big(S_{(n)}^2/n\big)^2}{n-1}+\frac{\big(S_{(m)}^2/m\big)^2}{m-1}}\]

el cual se debe redondear al entero más cercano. Por tanto, un intervalo de confianza de \((1-\alpha)100%\) para la diferencia de las medias \(\mu_1-\mu_2\) de dos poblaciones independientes, viene dada por

\[(\overline{X}_{(n)}-\overline{Y}_{(m)}) \; - \; t_{\frac{\alpha}{2}}(\nu)\, \sqrt{\frac{S_{(n)}^2}{n}+\frac{S_{(m)}^2}{m}} \; < \; \mu_1-\mu_2 \; < \; (\overline{X}_{(n)}-\overline{Y}_{(m)}) \; + \; t_{\frac{\alpha}{2}}(\nu)\,\sqrt{\frac{S_{(n)}^2}{n}+\frac{S_{(m)}^2}{m}} \]

siendo \(t_{\frac{\alpha}{2}}(\nu)\) es el valor de \(t(\nu)\) con \(\nu\) grados de libertad, que deja un área de \(\frac{\alpha}{2}\) a la derecha de la distribución \(t\) de Student con \(\nu\) grados de libertad.\(\blacktriangleleft\)

El resultado encontrado en el ejemplo 6.5 se presenta en el teorema 2.5.8 del libro de Estadística inferencial de LLinás (2006, pág. 123). Ver bibliografía abajo. Estos resultados también se encuentran resumidos en la tabla A.7 que se encuentra en el apéndice A.7 para diagramas y tablas (véase la sección correspondiente a la Bibliografía).

Example 6.6 El departamento de zoología de cierto instituto llevó a cabo un estudio para estimar la diferencia en la cantidad de cierta sustancia química medida en dos estaciones diferentes de un río. La sustancia se mide en miligramos por litro, reuniéndose 15 muestras de la estación 1 y 12 muestras de la estación 2. Las 15 muestras de la estación 1 tuvieron un contenido promedio de sustancia química de 3,84 miligramos por litro y una desviación estándar de 3,07 miligramos por litro, mientras que las 12 de la estación 2 tuvieron un contenido promedio de 1,49 miligramos por litro y una desviación estándar de 0,80. Encuentre un intervalo de confianza del 95% para la diferencia en el contenido promedio real de sustancia en estas dos estaciones. Suponga que las observaciones vienen de poblaciones normalmente distribuidas con varianzas diferentes.

Solution:

Tenemos que \[n=15, \quad \overline{x}_{(n)}=3,84, \quad s_{(n)}=3,07, \quad m=12, \quad \overline{x}_{(m)}=1,49, \quad s_{(m)}=0,80\]

Como las varianzas poblacionales se suponen diferentes, sólo podemos encontrar un intervalo de confianza de 95% aproximado basado en la distribución \(t\) de Student con \[\nu\;=\; \frac{\left[\frac{(3,07)^2}{15}-\frac{(0,80)^2}{12}\right]^2}{ \frac{((3,07)^2 / 15)^2}{15-1} + \frac{((0,80)^2 / 12)^2}{12-1}}\;= \; 16,3 \; \approx \; 16\]

grados de libertad. Y, debido a que \(t_{\alpha/2}=t_{0,025}=2,120\) para \(\nu=16\) grados de libertad, entonces, el intervalo buscado es \[0,60 < \mu_1-\mu_2 < 4,10\]

Por todo ello, tenemos una confianza del 95% en que el intervalo de 0,60 a 4,10 miligramos por litro contiene la diferencia de los contenidos promedio reales de sustancia para estos dos lugares y, como el 0 no está incluido en el intervalo, podemos afirmar que estos dos contenidos promedios son diferentes. \(\blacktriangleleft\)

7 Intervalos de confianza para la diferencia de dos medias poblacionales (muestras dependientes o pareadas)

7.0.1 Explicación

Considerando las notaciones introducidas y los resultados obtenidos en la sección 6 para el caso de muestras dependientes o pareadas, los intervalos del \((1-\alpha)100%\) de confianza son análogos a los descritos en la sección 4.

7.0.2 Visualización de cambios individuales en datos pareados: comparación entre condiciones

Este gráfico presenta la estimación de la media de las mediciones en dos grupos pareados: Grupo1 y Grupo2, desglosados por categoría de peso (Bajo, Medio, Alto). Las barras indican la media estimada para cada combinación y las líneas verticales representan el intervalo de confianza al 95%, lo cual da una idea de la precisión de cada estimación. Al tratarse de un diseño pareado, cada observación en Grupo1 tiene su correspondiente medición en Grupo2, permitiendo evaluar el cambio dentro de cada individuo o unidad experimental.

Podemos observar que, en todos los niveles de peso, las medias en Grupo1 tienden a ser mayores que en Grupo2, lo que sugiere una disminución sistemática entre condiciones. No obstante, los intervalos de confianza se superponen en algunos casos, lo cual podría indicar que esta diferencia no es estadísticamente significativa para todas las categorías. Este tipo de análisis es útil cuando se busca evaluar el efecto de una intervención o tratamiento midiendo antes y después, o cuando las comparaciones se hacen entre condiciones ligadas a la misma unidad (por ejemplo, antes/después, izquierda/derecha, o ensayo/control).

library(ggplot2)
library(dplyr)

N = 40
c1 <- rnorm(N, mean = 100, sd = 25)
c2 <- rnorm(N, mean = 100, sd = 50)
g1 <- rnorm(N, mean = 120, sd = 25)
g2 <- rnorm(N, mean = 80, sd = 50)
g3 <- rnorm(N, mean = 100, sd = 12)
g4 <- rnorm(N, mean = 100, sd = 50)
gender <- c(rep('Male', N/2), rep('Female', N/2))
weight <- c(rep('Bajo', N/4), rep('Medio', N/4), rep('Alto', N/2))
dummy <- rep("Dummy", N)
id <- 1: N

wide.data <- tibble::tibble(
                Control1 = c1, Control2 = c2,
                Grupo1 = g1, Grupo2 = g2, Grupo3 = g3, Grupo4 = g4,
                Dummy = dummy,
                Gender = gender,
                Peso = weight,
                ID = id)

my.data <- wide.data %>%
  tidyr::gather(key = Group, value = Measurement, -ID, -Gender, -Dummy, -Peso)


# Filtrar solo los grupos que deseas comparar (Grupo1 y Grupo2)
datos_filtrados <- my.data %>%
  filter(Group %in% c("Grupo1", "Grupo2"))

# Calcular medias y errores estándar por grupo y peso
resumen <- datos_filtrados %>%
  group_by(Group, Peso) %>%
  summarise(
    media = mean(Measurement),
    se = sd(Measurement) / sqrt(n()),
    .groups = 'drop'
  ) %>%
  mutate(
    IC_lower = media - 1.96 * se,
    IC_upper = media + 1.96 * se
  )

# Gráfico de barras con IC
ggplot(resumen, aes(x = Group, y = media, fill = Peso)) +
  geom_bar(stat = "identity", position = position_dodge(width = 0.9)) +
  geom_errorbar(aes(ymin = IC_lower, ymax = IC_upper), 
                width = 0.2, position = position_dodge(width = 0.9)) +
  labs(
    title = "Estimación de la media con IC 95% (Grupos pareados)",
    y = "Media estimada ± IC",
    x = ""
  ) +
  theme_minimal(base_size = 14)

7.0.3 Visualización de cambios individuales en mediciones pareadas según grupo de peso

Cambios individuales y comparación pareada

El gráfico muestra cómo cambió la medición para cada individuo al pasar de Grupo1 a Grupo2. Cada línea representa un sujeto y conecta su medición en ambos grupos. Este tipo de visualización es útil en estudios pareados, donde se busca observar el efecto de un tratamiento o condición sobre la misma unidad. La mayoría de las líneas tienen una pendiente descendente, lo que indica una disminución general en las mediciones de Grupo1 a Grupo2. Esto sugiere que, en promedio, los valores en Grupo2 tienden a ser menores que en Grupo1.

Diferencias según categorías de peso

Los colores indican la categoría de peso del individuo (Alto, Medio, Bajo). No se observa una tendencia uniforme por categoría, aunque podría explorarse si los sujetos de peso “Alto” (rojo) presentan una mayor variabilidad en sus cambios individuales. Esta segmentación por grupo permite identificar visualmente si alguna categoría muestra patrones distintos de cambio, lo que podría motivar un análisis adicional con interacciones o pruebas estratificadas.

datos_pareados <- my.data %>%
  filter(Group %in% c("Grupo1", "Grupo2")) %>%
  select(ID, Group, Measurement, Peso) %>%
  tidyr::spread(key = Group, value = Measurement)

# Volver a formato largo para graficar cambio individual pareado
datos_long <- datos_pareados %>%
  tidyr::gather(key = "Grupo", value = "Medición", -ID, -Peso)

# Gráfico con líneas entre Grupo1 y Grupo2 por individuo
ggplot(datos_long, aes(x = Grupo, y = Medición, group = ID, color = Peso)) +
  geom_line(alpha = 0.6) +
  geom_point(size = 2) +
  labs(
    title = "Cambio individual entre Grupo1 y Grupo2 (pareado)",
    x = "Grupo",
    y = "Medición"
  ) +
  theme_minimal(base_size = 14)

7.0.4 Ejemplo

Example 7.1 Se compararon por pares los niños matriculados en un jardín infantil de cierta escuela, siguiendo un cotejo ciudadoso de criterios tales como la inteligencia, la edad cronológica, el estado socio-económico de los padres y el estado de salud. Un miembro de cada par (seleccionado al azar) se asignó a una clase del jardín cuya profesora contaba con tres auxiliares. Al final del año, se le administró a cada niño una prueba de habilidad de lectura y se obtuvieron los siguientes resultados:

Suponiendo que la población de diferencias promedio entre los puntajes de habilidad en lectura está normalmente distribuida, construya un intervalo de confianza del 95% para esta diferencia promedio de puntajes.

Solution:

Sea \(d_i=x_i-y_i\) las diferencias muestrales entre los puntajes de habilidad en lectura de ambos grupos (con y sin auxiliar). Además, sean \(\overline{d}\) y \(s_d^2\) la media y varianza de las diferencias \(d_i\). Tomando los datos de la muestra, hallamos las diferencias \(d_i\) como se muestra en la siguiente tabla:

Con lo anterior, \(\overline{d}=3,56\), \(s_d^2 =26,0067\) y \(s_d=5,10\). Por consiguiente, teniendo en cuenta los supuestos correspondientes, el intervalo pedido se halla de acuerdo con:

\[\overline{d} \,-\, t_{\alpha/2} \frac{s_d}{\sqrt{n}}\; < \;\mu_{\overline{D}} \;<\; \overline{d} \,+ \, t_{\alpha/2} \frac{s_d}{\sqrt{n}},\]

siendo \(t_{\alpha/2}=t_{0,025}=2,0639\) el valor de una variable aleatoria que tiene distribución \(t\) de Student con \(n-1=24\) grados de libertad y \(\mu_{\overline{D}} =\mu_{\text{con auxiliar}}- \mu_{\text{sin auxiliar}}\).

Reemplazando, luego, los datos calculados, encontramos que \(1,45 <\mu_{\overline{D}}< 5,67\). Por lo tanto, podemos afirmar con una confianza del 95% que hay una diferencia significativa entre los los puntajes de habilidad en lectura de ambos grupos. \(\blacktriangleleft\)

8 Intervalo de confianza para la diferencia de proporciones poblacionales

Se deja como ejercicio al lector la construcción de tal intervalo. El resultado se presenta en el teorema 2.5.8 del libbro de Estadística inferencial de LLinás (2006, pág. 123). Ver bibliografía abajo. Este resultado también se encuentra resumidos en la tabla A.6 que se encuentra en el apéndice A.7 para diagramas y tablas (véase la sección correspondiente a la Bibliografía).

Example 8.1 Se extrajeron dos muestras aleatorias independientes de estudiantes universitarios de estadística con base en el sexo. De 120 hombres, 107 esperaban disfrutar un trabajo de tiempo completo en un máximo de 6 años. En tanto que, de 141 mujeres encuestadas, 73 tenían esta esperanza. Hállese un intervalo de confianza del 95% para la diferencia entre las proporciones poblacionales.

Solution:

Los datos muestrales son

\[n_1=120, \quad \overline{p}_1=\frac{107}{120}=0,892, \quad n_2=141, \quad \overline{p}_2=\frac{73}{141}=0,518.\]

Debido a que \(n_1>30\) y \(n_2>30\) y a que \(Z_{\alpha/2}=Z_{0,025}=1,96\), entonces, los extremos de un intervalo de confianza para la la diferencia entre las proporciones poblacionales \(p}_1-p_2\) son:

\[ (0,892 - 0,518) \; \pm \; (1,96) \sqrt{\frac{(0,892)(0,108)}{120} + \frac{(0,518)(0,482)}{141}} \]

o bien, \[0,275 < p_1-p_2 < 0,473.\]

Como el cero no se encuentra en este intervalo, podemos afirmar, con una confianza del 95%, que la proporción de hombres que esperan trabajar a tiempo completo en un máximo de 6 años es mayor que la de las mujeres. \(\blacktriangleleft\)

9 Intervalos de confianza para la varianza poblacional

9.0.1 Interpretación gráfica del intervalo

La figura de abajo proporciona un gráfico que muestra los intervalos de confianza con respecto al verdadero valor de un parámetro que está siendo estimado (en este caso, \(\sigma^2=1\)). Los intervalos que no contienen el parámetro se enfatizan con el color rojo. Se obbserva que de 100 intervalos construidos para \(\sigma^2\), el \((1-\alpha)100\%\) (en la figura corresponde a Confianza) de los intervalos no contiene al verdadero valor del parámetro (\(\sigma^2=1\)).

parent<-rnorm(100000)
CI(parent, par.val=1, par.type="sigma.sq")

Example 9.1 Considere la siguiente situación:

  1. Se tiene una variable de interés con media \(\mu\) (conocida o desconocida) y varianza \(\sigma^2\) desconocida. Entonces, \(\theta=(\mu, \sigma^2)\), con \(\eta=q(\theta)=\sigma^2\) que es lo que se quiere estimar.

  2. Se supone que las variables muestrales \(X_i \sim \mathcal{N}(\mu, \sigma^2)\) forman una muestra \(X\) de tamaño \(n\) para la variable de inteés.

Teniendo en cuenta la parte (c) del teorema 2.3, un intervalo de confianza de \((1-\alpha)100%\) para \(\sigma^2\) se basa en la variable aleatoria:

\[X^2=\frac{(n-1)S^2_{(n)}}{\sigma^2}\sim \chi^2(n-1)\]

Por lo tanto el cálculo del intervalo de confianza es como sigue: Se tiene que

\[\begin{eqnarray*} 1-\alpha&=& P(U<\sigma^2 <W) \;= \; P\left(\frac{(n-1)S^2_{(n)}}{W}<X^2<\frac{(n-1)S^2_{(n)}}{U}\right) \end{eqnarray*}\]

Se acostumbra a elegir \(\chi_{1-\frac{\alpha}{2}}^2 = \frac{(n-1)S^2_{(n)}}{W}\) y \(\chi_{\frac{\alpha}{2}}^2= \frac{(n-1)S^2_{(n)}}{U}\). Así, el intervalo de confianza de \((1-\alpha)100%\) para \(\sigma^2\) es

\[\frac{(n-1)S^2_{(n)}}{\chi_{\frac{\alpha}{2}}^2} \; < \; \sigma^2 \; < \; \frac{(n-1)S^2_{(n)}}{\chi_{1-\frac{\alpha}{2}}^2}\]

Se puede ver más detalles al respecto en el libro de Mayorga (pág. 131). Ver bibliografía abajo.\(\blacktriangleleft\)

El resultado encontrado en el ejemplo 9.1 se presenta en el teorema 2.3.1 del libro de Estadística inferencial de LLinás (2006, pág. 127). Ver bibliografía abajo. Estos resultados también se encuentran resumidos en la tabla A.8 que se encuentra en el apéndice A.7 para diagramas y tablas (véase la sección correspondiente a la Bibliografía).

Example 9.2 Un fabricante de detergente líquido está interesado en la uniformidad de la máquina utilizada para llenar las botellas. De manera específica, es deseable que la desviación estándar \(\sigma\) del proceso de llenado sea menor que 0.5 onzas de líquido. De otro modo, existiría un porcentaje mayor del deseable de botellas con un contenido menor de detergente. Supóngase que la distribución del volumen de llenado es aproximadamente normal. Al tomar una muestra aleatoria de 20 botellas, se obtiene una varianza muestral \(s^2=0.0153\) (onzas de fluido)\(^2\). Calcule un intervalo de confianza del 90% para \(\sigma\).

Solution:

Debido a que \(\chi^2_{\frac{\alpha}{2}}=\chi^2_{0,05}=30,144\) y \(\chi^2_{1- \frac{\alpha}{2}}=\chi^2_{0,95}=10,117\) con \(\nu=n-1=19\) grados de libertad, el intervalo de confianza del 90% para la varianza poblacional \(\sigma^2\) viene dado por:

\[\frac{(20-1)(0,0153)}{30,144} \; <\; \sigma^2 \; <\; \frac{(20-1)(0,0153)}{10,117}, \]

de donde \[0,00964 < \sigma^2 < 0,0287\]

Así, un intervalo de confianza del 90% para la desviación típica poblacional es:

\[0,098 < \sigma < 0,17\]

Por consiguiente, debido a que \(\sigma <0,17\), con una confianza del 95%, podemos decir que los datos no apoyan la afirmación de que la desviación estándar del proceso es menor que 0,5 onzas de líquido. \(\blacktriangleleft\)

10 Intervalos de confianza para la razón de varianzas poblacionales

Example 10.1 Considere la siguiente situación:

  1. Se tiene dos variables de interés \(X\) y \(Y\), independientes, con medias \(\mu_1\) y \(\mu_2\) (conocidas o desconocidas) y varianzas \(\sigma_1^2\) y \(\sigma^2_2\) desconocidas, respectivamente. Entonces, \(\theta=(\mu_1,\mu_2, \sigma^2_1 \sigma^2_2)\), con \(\eta=q(\theta)=(\sigma^2_1, \sigma^2_2)\) que es lo que se quiere estimar.

  2. Se supone que las variables muestrales \(X_i \sim \mathcal{N}(\mu_1, \sigma^2_1)\) forman una muestra \(X\) de tamaño \(n\) y que las variables muestrales \(Y_j \sim \mathcal{N}(\mu_2, \sigma^2_2)\) forman una muestra \(Y\) de tamaño \(m\), para las dos variables de interés.

Teniendo en cuenta la parte (b) del teorema @ref(thm:teo-Bassler-10-38-39, un intervalo de confianza de \((1-\alpha)100%\) para \(\frac{\sigma^2_1}{\sigma^2_2}\) se basa en la variable aleatoria:

\[F=\frac{S^2_{(n)} / \sigma^2_1}{S^2_{(m)} / \sigma^2_2}\sim \mathcal{F}(n-1, m-1)\]

Por lo tanto el cálculo del intervalo de confianza es como sigue: Se tiene que

\[\begin{eqnarray*} 1-\alpha&=& P\left(U<\frac{\sigma_1^2}{\sigma_2^2} <W\right) \;= \; P\left(\frac{S^2_{(n)}}{S^2_{(m)}}\cdot \frac{1}{W} < F<\frac{S^2_{(n)}}{S^2_{(m)}}\cdot \frac{1}{U}\right) \end{eqnarray*}\]

Si \(\nu_1=n-1\) y \(\nu_2=m-1\), usualmente se acostumbra a elegir

\[U\;=\;\frac{S^2_{(n)}}{S^2_{(m)}\, F_{\frac{\alpha}{2}}(\nu_1, \nu_2)} \qquad \mbox{y}\qquad \;=\;\frac{S^2_{(n)}}{S^2_{(m)}\, F_{1-\frac{\alpha}{2}}(\nu_1, \nu_2)} \;=\; \frac{S^2_{(n)}}{S^2_{(m)}}\, F_{\frac{\alpha}{2}}(\nu_2, \nu_1)\]

Así, el intervalo de confianza de \((1-\alpha)100%\) para \(\sigma_1^2/\sigma_2^2\) es

\[\frac{S_{(n)}^2}{S_{(m)}^2 F_{\frac{\alpha}{2}}(\nu_1, \nu_2)} \;<\; \frac{\sigma_1^2}{\sigma_2^2} \;<\; \frac{S_{(n)}^2}{S_{(m)}^2} F_{\frac{\alpha}{2}} (\nu_2, \nu_1)\]

Se puede ver más detalles al respecto en el libro de Mayorga (pág. 134). Ver bibliografía abajo. \(\blacktriangleleft\)

El resultado encontrado en el ejemplo 10.1 se presenta en el teorema 2.6.4 del libro de Estadística inferencial de LLinás (2006, pág. 129). Ver bibliografía abajo. Estos resultados también se encuentran resumidos en la tabla A.8 que se encuentra en el apéndice A.7 para diagramas y tablas (véase la sección correspondiente a la Bibliografía).

Example 10.2 Una compañía fabrica propulsores para uso en motores de turbina. Para ello, una de las operaciones consiste en esmerilar el terminado de una superficie particular con una aleación de titanio. Pueden emplearse dos procesos de esmerilado, y ambos producen partes que tienen la misma rigurosidad superficial promedio. Al ingeniero de manufactura le gustaría seleccionar, no obstante, el proceso que tenga la menor variabilidad en la rigurosidad de la superficie, para lo cual toma una muestra de \(n=12\) partes del primer proceso, que tiene una desviación estándar muestral de \(s_{(n)}=5,1\) micropulgadas. También toma una muestra aleatoria de \(m=15\) partes del segundo proceso, la cual tiene una desviación estándar muestral de \(s_{(m)}=4,7\) micropulgadas. Lo que el ingeniero busca, con otras palabras, es encontrar un intervalo de confianza del 90% para el cociente de las dos varianzas \(\sigma^2_1/\sigma^2_2\). Supóngase que los dos procesos son independientes y que la rigurosidad de la superficie está distribuida normalmente.

Solution:

Para un intervalo de confianza del 90%, \(\alpha=0,1\). Por tanto, \(F_{0,05}(14,11)\approx 2,74\) y \(F_{0,05}(11,14)\approx 2,564\). Entonces, el intervalo de confianza del 90% para \(\sigma^2_1/\sigma^2_2\) es:

\[\frac{(5,1)^2}{(4,7)^2} \cdot \frac{1}{2,564} \; <\;\frac{\sigma_1^2}{\sigma_2^2} \;<\; \frac{(5,1)^2}{(4,70)^2} \cdot (2,74), \]

de donde \[0,46 < \frac{\sigma_1^2}{\sigma_2^2} < 3,23.\]

Y, en conclusión, puesto que este intervalo de confianza incluye a la unidad, no es posible afirmar que las desviaciones estándares de la rigurosidad de la superficie de los dos procesos sean diferentes con un grado de confianza del 90%. \(\blacktriangleleft\)

11 Ejercicios

Realizar los siguientes ejercicios:

11.0.1 Ejercicios del 1 al 3

  1. Investigue: (a) estimador insesgado, (b) estimador eficiente, (c) método de máxima verosimilitud.

  1. Sea \(X_1\) y \(X_2\) una muestra aleatoria de dos observaciones independientes de una población con media \(\mu\) y varianza \(\sigma^2\). Considere los siguientes tres estimadores puntuales de \(\mu\) que se indican abajo y demuestre que los tres estimadores son insesgados. ¿Cuál de los tres estimadores es más eficiente?

\[\begin{eqnarray*} \overline{X}_{(n)}= \frac{1}{2}X_1 + \frac{1}{2}X_2, \qquad \widehat{\mu}_1 = \frac{1}{4}X_1 + \frac{3}{4}X_2, \qquad \widehat{\mu}_2 = \frac{1}{3}X_1 + \frac{2}{3}X_2. \end{eqnarray*}\]

  1. Sea \(\widehat{\theta}_1\) un estimador insesgado de \(\theta_1\) y \(\widehat{\theta}_2\) un estimador insesgado de \(\theta_2\). Pruebe que \(\widehat{\theta}_1 \pm \widehat{\theta}_2\) es un estimador insesgado de \(\theta_1 \pm \theta_2\).

11.0.2 Ejercicio 4

Sea \(X_1\), \(\ldots\), \(X_n\) una muestra aleatoria de tamaño \(n\) que proviene de una distribución con media \(\mu\) y varianza \(\sigma^2\). Sea

\[{\widehat{\sigma}}^2=\frac{1}{n}\sum^n_{i=1} (X_i-\overline{X}_{(n)})^2\]

  1. Demuestre que \(E({\widehat{\sigma}}^2)=\left(\frac{n-1}{n}\right)\sigma^2\) y, de aquí, que \({\widehat{\sigma}}^2\) es un estimador sesgado para \(\sigma^2\).

  2. Determine el sesgo del estimador.

  3. ¿Qué sucede con el sesgo a medida que aumenta \(n\)?

11.0.3 Ejercicio 5

Si \(X\) es una variable aleatoria binomial con parámetros \(n\) y \(p\), demuestre que:

  1. \(\widehat{p}=X/n\) es un estimador insesgado de \(p\).

  2. \(p'=\frac{X+\sqrt{n/2}}{n+\sqrt{n}}\) es un estimador sesgado de \(p\).

  3. El estimador \(p'\) del inciso (b) se vuelve insesgado cuando \(n\to\infty\).

11.0.4 Ejercicio 6

Mediante el uso de una varilla cuya longitud es \(\mu\), construya un cuadrado en el cual la longitud de cada lado sea \(\mu\). Entonces, el área del cuadrado será \(\mu^2\). Sin embargo, si se desconoce el valor de \(\mu\), entonces se toman \(n\) mediciones independientes \(X_1\), \(\ldots\), \(X_n\). Supongamos que cada \(X_i\) media \(\mu\) y varianza \(\sigma^2\).

  1. Halle \(E\left(\overline{X}_{(n)}^2\right)\) y, con esto, demuestre que \(\overline{X}_{(n)}^2\) es un estimador sesgado de \(\mu^2\).

  2. Determine la magnitud del sesgo del estimador con respecto a \(\mu^2\).

  3. ¿Qué sucede con el sesgo a medida que aumenta el tamaño de \(n\)?

  4. ¿Para cuál valor de \(k\) el estimador \(Y\) es insesgado para \(\mu^2\):

\[Y:=\overline{X}_{(n)}^2 -k S^2_{(n)}\]

11.0.5 Ejercicio 7

Considere una muestra aleatoria \(X_1\), \(\ldots\), \(X_n\), de una población representada por \(X\), la cual tiene función de densidad

\[f(x;\lambda) = 0,5 (1+\lambda x), \quad -1\leq x\leq 1, \quad -1 \leq \lambda \leq 1\]

  1. Halle \(E(X)\).

  2. Calcule \(E(\overline{X}_{(n)})\).

  3. Demuestre que \(\widehat{\lambda}=3\overline{X}_{(n)}\) es un estimador insesgado de \(\lambda\).

11.0.6 Ejercicios del 8 al 10

  1. Cierta clase de maíz tiene una producción esperada por acre de \(\mu_1\), con varianza \(\sigma^2\); mientras que la producción esperada para una segunda clase de maíz es \(\mu_2\) con la misma varianza \(\sigma^2\). Represente con \(S^2_{(n)}\) y \(S^2_{(m)}\) las varianzas muestrales de producciones, basadas en tamaños muestrales \(n\) y \(m\), respectivamente, de las dos clases de maíz. Demuestre que el siguiente estimador (combinado) es insesgado para \(\sigma^2\):

\[ S^2_{(n,m)} = \frac{(n-1)S^2_{(n)} + (m-1)S^2_{(m)}}{n+m-2}\]

  1. Para una muestra con \(X_i \sim B(m_i, p)\) y valores \(x_i\in \{0,1,\ldots, m_i\}\) para \(i=1,2 \ldots, n\) demuestre que la estimación de máxima verosimilitud de \(p\) es

\[\widehat{p}=\frac{\sum\limits_{i=1}^n x_i}{\sum\limits_{i=1}^n m_i}\]

  1. Para variables muestrales \(X_i\), \(i=1, \ldots, n\), con función de densidad normal con parámetros \(\mu\) y \(\sigma^2\), aplique el estimador de máxima verosimilitud para hallar \(\widehat{\mu}\) y \(\widehat{\sigma}^2\). Verifique, también, si los estimadores correspondientes de máxima verosimilitud son insesgados o no.

11.0.7 Ejercicio 11

Tomando en cuenta las variables muestrales \(X_i\), \(i=1, \ldots, n\), con función de densidad \(f_i\) de Rayleigh, definida por:

\[f_i(x_i) = \frac{x_i}{\theta^2} e^{- x_i^2/2\theta^2}, \quad x_i> 0,\]

siendo \(\theta>0\) el parámetro de la distribución, aplique el método de máxima verosimilitud para demostrar que \[{\widehat{\theta}}^2= \frac{1}{2n}\sum\limits_{i=1}^n x_i^2\]

11.0.8 Ejercicio 12

Sea \(X=(X_1,\ldots, X_n)^t\) una muestra con variables muestrales \(X_i\) (discretas) distribuidas uniformemente en el conjunto discreto \(\{1,2, \ldots, \theta\}\). Es decir,

\[X_i \; \sim\; f_i(x_i, \theta) \;= \; \left\{\begin{array}{ll} 1/\theta, & \hbox{si $x_i\in \{1,2, \ldots, \theta\}$;} \\ 0, & \hbox{si no.} \end{array} \right. \]

Sea \(M_n:=\max\{X_1,\ldots, X_n\}\) el máximo muestral de estas variables.

  1. Halle la función de distribución acumulada de \(M_n\).

  2. La función de probabilidad de \(M_n\).

  3. Demuestre que \(\widehat{\theta}=M_n\) es la estimación de máxima verosimilitud de \(\theta\).

11.0.9 Ejercicios del 13 al 15

  1. Sea \(X=(X_1,\ldots, X_n)^t\) una muestra con variables muestrales \(X_i\) (continuas) distribuidas uniformemente en el intervalo \([0,\theta]\). Utilice el método de máxima verosimilitud para demostrar que \(\widehat{\theta}\) es el máximo de las observaciones muestrales.
  1. Se tiene interés en el problema de medir la dependencia lineal del desgaste \(Y\) de una llanta de carro para diferentes cargas \(x\in \mathbb{R}\) a las que se somete dicha llanta. El modelo estadístico correspondienteviene dado por \(Y_i= \delta + \beta x_i +e_i\), con \(i=1, \ldots, n\). Suponga que las \(Y_i\) son independientes y que los errores \(\epsilon_i\) tienen distribución normal con media 0 y varianza \(\sigma^2\), igual para todas las \(n\) mediciones. En este caso, el vector de parámetros es \(\theta = (\delta, \beta, \sigma^2)^t\). Encuentre la estimación de máxima verosimilitud de \(\theta\).
  1. Para variables muestrales \(X_1, \ldots, X_n\) que tienen distribución de Poisson con parámetro \(\lambda\), encuentre la estimación de máxima verosimilitud \(\widehat{\lambda}\).

11.0.10 Ejercicio 16

Un modelo multinomial para proporciones de Hardy-Weinberg. Considere una población genética, de la cual interesa sólo una característica que tenga origen en un sólo gen con dos alelos \(\alpha\) y \(\beta\). Como individuos se consideran los tres genotipos \(\alpha\alpha\), \(\alpha\beta\) y \(\beta\beta\). Para las probabilidades corresondientes, se supone que se cumple la ley de Hardy-Weinberg, es decir,

\[p_1=P(\alpha\alpha)=\theta^2, \quad p_2=P(\alpha\beta)=2\theta(1-\theta), \quad p_3=P(\beta\beta)=(1-\theta)^2\]

donde el parámetro de interés es \(\theta\) y se refiere a la probabilidad de que exista uno de los alelos (por ejemplo, \(\alpha\)) en la población de interés. Suponga que se observan ahora \(n\) individuos.

  1. Formule un modelo estadístico multinomial y muestre que la estimación de máxima verosimilitud de \(\theta\) viene dada por \(\widehat{\theta}=(2n_1+n_2)/2n\), siendo \(n_1\) el número de los individuos con genotipo \(\alpha\alpha\); \(n_2\) el número de los individuos con genotipo \(\alpha\beta\); \(n_3\) el número de los individuos con genotipo \(\beta\beta\) y \(n=n_1+n_2+n_3\) el tamaño de la muestra. Dé una interpretación del resultado.

  2. Para una muestra de 50 genotipos se observan 5, 30 y 15 de los tipos \(\alpha\alpha\), \(\alpha\beta\) y \(\beta\beta\), respectivamente. Calcule \(\widehat{\theta}\) y \(p_i(\widehat{\theta})\) para cada \(i=1,2,3\).

11.0.11 Ejercicio 17

Para cada \(j=1,2 \ldots, J\) se supone el modelo

\[Y_{jk}=\mu_j +\epsilon_{jk}, \quad \epsilon_{jk}\sim \mathcal{N}(0,\sigma^2), \quad k=1,\ldots, K, \quad \mbox{independientes}\]

  1. Demuestre que las estimaciones de máxima verosimilitud para la \(j\)-ésima muestra \((Y_{j1}, \ldots, Y_{jK})^t\) son \[\widehat{\mu}_j = \frac{\sum\limits_{k=1}^K y_{jk}}{K}=: \overline{y}_{j\bullet} , \qquad\widehat{\sigma}^2 = \sum\limits_{k=1}^K (y_{jk}-\overline{y}_{j\bullet})^2/K\]

  2. En el modelo (a) se supone adicionalmente que \(\sigma_j^2=\sigma^2\) para cada \(j\) y que la independencia no sólo vale entre \(k=1, \ldots, K\) sino también entre \(j=1, \ldots, J\). Entonces se tiene una muestra \((Y_{11}, \ldots, Y_{Jk})^t\) de tamaño \(n=JK\). Demuestre que las estimaciones de máxima verosimilitud para toda la muestra son

\[\widehat{\mu}_j = \overline{y}_{j\bullet} , \qquad\widehat{\sigma}^2 = \sum\limits_{j=1}^J\sum\limits_{k=1}^K (y_{jk}-\overline{y}_{j\bullet})^2/n\]

11.0.12 Ejercicio 18

Para variables muestrales \((Y_{1k}, Y_{2k})^t\) con \(k=1,2, \ldots, K\) bi-normales de la forma \((Y_{1k}, Y_{2k})^t \; \sim \;\mathcal{ N}(\mu, \Sigma)\), siendo \(\mu=(\mu_1, \mu_2)^t\) y \[\Sigma \;= \; \left( \begin{array}{ll} \sigma_1^2 & \sigma_1\sigma_2\rho \\ \sigma_1\sigma_2\rho & \sigma_2^2 \end{array} \right)\] y donde los \(K\) vectores son independientes entre sí, demuestre que las estimaciones de máxima verosimilitud de los parámetros \(\mu_1\), \(\mu_2\), \(\sigma^2_1\), \(\sigma_2^2\) y \(\rho\) son, respectivamente:

  1. Para \(\mu_1\) y \(\sigma_1^2\) en \(Y_{1k}\): \[\widehat{\mu}_1 = \overline{Y}_{1\bullet} , \qquad\widehat{\sigma}_1^2 = \sum\limits_{k=1}^K (Y_{1k}-\overline{Y}_{1\bullet})^2/K\]

  2. Para \(\mu_2\) y \(\sigma_2^2\) en \(Y_{2k}\): \[\widehat{\mu}_1 = \overline{Y}_{2\bullet} , \qquad\widehat{\sigma}_2^2 = \sum\limits_{k=1}^K (Y_{2k}-\overline{Y}_{2\bullet})^2/K\]

  3. Para \(\rho\): \[\widehat{\rho}\;= \; \frac{\sum\limits_{i=1}^K (Y_{1k}-\overline{Y}_{1\bullet})(Y_{2k}-\overline{Y}_{2\bullet})}{\sqrt{\left[\sum\limits_{i=1}^K (Y_{1k}-\overline{Y}_{1\bullet})^2\right] \left[ \sum\limits_{i=1}^K (Y_{2k}-\overline{Y}_{2\bullet})^2\right]}}\]

11.0.13 Ejercicio 19

Para obtener una idea de qué efecto tienen dos somníferos 1 y 2, se hizo el siguiente experimento. Se escogieron \(K=10\) personas y se aplicaron a todas las personas los dos somníferos (con ciertos intervalos de tiempo) y se midieron para cada persona \(k\) las horas \(y_{jk}\) que dormían más con el somnífero \(j\) comparando con el tiempo que dormían sin ningún somnífero. Los datos del experimento fueron:

  1. Tomando como variables muestrales \(Y_k=Y_{1k}- Y_{2k}\), para \(k=1, 2, \ldots, n\) y \(n=10\), halle un intevalo del 99% de confianza para \(\mu=\mu_1-\mu_2\) con el fin de determinar cuál de los dos somníferos es el mejor.

  2. Encuentre un intervalo del 99% de confianza para \(\mu=\mu_1-\mu_2\) considerando sólo las primeras: (i) 4; (ii) 2 observaciones. Dé una interpretación y compare con el intervalo hallado en la parte (a) correspondiente a todas las 10 observaciones.

  1. Encuentre un intevalo del 99,9% de confianza para \(\mu=\mu_1-\mu_2\) y dé un interpretación de su resultado.

  2. Bajo el modelo de la parte (a) del ejercicio 17, calcule los valores para las estimaciones \(\widehat{\mu}_1\), \(\widehat{\mu}_2\), \(\widehat{\sigma}^2_1\) y \(\widehat{\sigma}_2^2\). Nótese que sólo se requiere la independencia de las \(Y_{1k}\) entre sí y de las \(Y_{2k}\) entre sí, respectivamente.

  3. Comparando las estimaciones \(\widehat{\sigma}^2_1\) y \(\widehat{\sigma}_2^2\) encontradas en la parte (d), ¿qué sospecha se puede tener? ¿Por qué no se puede aplicar el modelo de la parte (b) del ejercicio 17?

  4. Bajo el supuesto adicional de que las variables muestrales \((Y_{1k}, Y_{2k})^t\) con \(k=1,2, \ldots, K\) son bi-normales de la forma como en el ejercicio 18 y donde los \(K\) vectores son independientes entre sí, calcule el valor de \(\widehat{\rho}\) e interprete el resultado.

11.0.14 Ejercicio 20

Considere los datos del ejercicio 19 y suponga que las variables muestrales \(Y_k \sim \mathcal{N}(\mu, \sigma^2)\).

  1. Halle \(S^2_{(n)}\) y la ML-estimación \(\widehat{\sigma}^2\). Compárelas.

  2. ¿Cuál es la distribución de la variable \(Y=\frac{n\, \widehat{\sigma}^2}{\sigma^2}\)?

  3. Construya un intervalo del (a) 99%, (b) 99,9% de confianza para \(\sigma^2\). Observe que estos resultados dan una idea cuantificada sobre la precisión/bondad de las estimaciones \(S^2_{(n)}\) y \(\widehat{\sigma}^2\) calculadas en (a)

11.0.15 Ejercicios del 21 al 25

  1. Una máquina produce varillas metálicas usadas en el sistema de supensión de un automóvil. Se selecciona una muestra aleatoria de 10 varillas y se mide el diámetro. Los datos resultantes (en centímetros) se encuentran a continuación: \[ 1,014 \quad 1,009 \quad 1,041 \quad 0,962 \quad 1,058 \quad 1,024 \quad 1,019 \quad 1,020 \quad 1,002 \quad 0,958\]

Asumiendo que el diámetro de las varillas provienen de una población normal, encuentre un intervalo de 99% de confianza para el diámetro medio de las varillas.

  1. En una muestra aleatoria de 85 soportes para la pieza de un motor de automóvil, 10 tienen un pequeño defecto. Calcule un intervalo de confianza del 95% para la proporción \(p\) de piezas de motor que tienen un pequeño defecto en la población.

  1. Considérese el proceso de fabricación de soportes para piezas de motores descrito en el ejercicio 22. Supóngase que se hace una modificación al proceso de acabado de la superficie y que, de manera subsecuente, se toma una segunda muestra aleatoria de 85 ejes. Si el número de soportes defectuosos en esta segunda muestra es 8, calcule un intervalo de confianza del 95% para la diferencia en la proporción de los soportes defectuosos producidos por ambos procesos.
  1. Una encuesta respondida por 1.000 estudiantes de un colegio A concluye que 726 no tienen hábito de lectura. En otro colegio B se realizó la misma encuesta a 760 estudiantes, concluyéndose que 240 de ellos tienen hábito de lectura. Calcule un intervalo de confianza del 95% para la diferencia entre la proporción de estudiantes que tienen hábito de lectura entre las dos encuestas. ¿Hay una diferencia significativa?
  1. La tabla de abajo muestra las pulsaciones por minuto que se registraron en 12 sujetos antes y después de haber ingerido cierta cantidad fija de una bebida alcóholica. Construya un intervalo de confianza del 95% para la diferencia promedio de las pulsaciones. Interprete sus respuestas. Suponga que las poblaciones en cuestión son normales.

11.0.16 Ejercicios del 26 al 30

  1. Un científico intenta estimar la efectividad de un medicamento en la habilidad de los individuos para realizar una determinada tarea de coordinación psicomotriz. Los elementos de una muestra aleatoria de 9 personas tomaron el medicamento antes de realizar la prueba. La calificación media obtenida fue \(9,78\) y la varianza muestral \(17,64\). Otra muestra aleatoria independiente de 10 personas, que no tomó el medicamento, se empleó como grupo de control. La calificación media y varianza muestral de este grupo de control fueron \(15,10\) y \(27,01\), respectivamente. Suponiendo que la distribuciones poblacionales son normales con varianzas iguales, calcule un intervalo de confianza del \(90%\) para la diferencia entre las dos calificaciones medias. ¿Hay diferencia significativa? Explique.
  1. Una muestra de 12 bolsas de azúcar, producidas por una determinada empresa, produjo los siguientes pesos netos (medidos en libras):

\[ 12,1 \quad 12,1 \quad 11,8 \quad 11,9 \quad 11,8 \quad 12,0 \quad 12,3 \quad 11,8 \quad 12,0 \quad 11,9 \quad 12,2 \quad 11,6\]

Si se supone que los pesos netos se distribuyen normalmente, construya un intervalo del 95% de confianza para la varianza y la desviación estándar de la población de pesos netos de todas las bolsas de azúcar producidas por la empresa.

  1. Un equipo de profesores de educación física administró a dos grupos universitarios pruebas de resistencia después de un programa de ejercicios. Los puntajes del grupo 1, que constaba de 16 sujetos, arrojaron una varianza muestral de 4.685,40. Para el grupo 2, que constaba de 25 sujetos, la varianza muestral fue de 1.193,70. Suponiendo que los dos grupos de puntajes constituían muestras aleatorias simples independientes de poblaciones normalmente distribuidas, construya un intervalo de confianza del 95% para determinar si las varianzas poblacionales de ambos grupos son iguales.
  1. Encuentre una fórmula para el tamaño muestral que nos permita estimar la media poblacional \(\mu\).
  1. Encuentre una fórmula para el tamaño muestral que nos permita estimar la proporción poblacional \(p\).

Bibliografía

Consultar el documento RPubs :: Teoría de Probabilidad y Estadística Matemática (bibliografía).

 

 
If you found any ERRORS or have SUGGESTIONS, please report them to my email. Thanks.