K. Convergencias y Teoremas Límites Fundamentales

79. Desigualdad de Chebyshev

  • La desigualdad de Chebyshev (a veces transliterada como Chebychev) es un teorema fundamental en teoría de probabilidad que proporciona una cota superior para la probabilidad de que una variable aleatoria se aleje de su media en más de una cierta cantidad. La gran ventaja de esta desigualdad es que se aplica a cualquier distribución de probabilidad, siempre que la media y la varianza sean finitas.

79.1. Enunciado de la Desigualdad de Chebyshev

Sea \(X\) una variable aleatoria con media finita \(\mu = E[X]\) y varianza finita \(\sigma^2 = Var(X)\). Entonces, para cualquier número real \(k > 0\), la probabilidad de que la variable aleatoria \(X\) se desvíe de su media en más de \(k\) desviaciones estándar es menor o igual a \(1/k^2\):

\[P(|X - \mu| \ge k\sigma) \le \frac{1}{k^2}\]

Equivalentemente, la probabilidad de que la variable aleatoria \(X\) se encuentre dentro de \(k\) desviaciones estándar de su media es mayor o igual a \(1 - 1/k^2\):

\[P(|X - \mu| < k\sigma) \ge 1 - \frac{1}{k^2}\]

También se puede expresar la desigualdad en términos de una distancia \(a = k\sigma > 0\) a partir de la media:

\[P(|X - \mu| \ge a) \le \frac{\sigma^2}{a^2}\]

o

\[P(|X - \mu| < a) \ge 1 - \frac{\sigma^2}{a^2}\]

79.2. Importancia y Limitaciones

  • Generalidad: La principal fortaleza de la desigualdad de Chebyshev es su aplicabilidad a cualquier distribución con media y varianza finitas. No se requiere conocer la forma específica de la distribución.
  • Cotas Conservadoras: Las cotas proporcionadas por la desigualdad de Chebyshev suelen ser bastante conservadoras (es decir, la probabilidad real suele ser mucho menor que la cota superior). Esto se debe a su generalidad; al no asumir una distribución específica, debe cubrir el peor de los casos.
  • Utilidad: A pesar de ser conservadora, la desigualdad de Chebyshev es útil en situaciones donde no se conoce la distribución subyacente o cuando se necesita una cota de probabilidad robusta. También es fundamental en la demostración de varios teoremas importantes en probabilidad y estadística, como la Ley Débil de los Grandes Números.

80. Ejemplos Resueltos

80.1. Ejemplo 1: Aplicación General

Problema: Una variable aleatoria \(X\) tiene una media \(\mu = 10\) y una varianza \(\sigma^2 = 4\). Utiliza la desigualdad de Chebyshev para encontrar una cota superior para la probabilidad de que \(X\) esté a más de 3 unidades de su media.

Solución en Markdown:

Tenemos \(\mu = 10\), \(\sigma^2 = 4\) (lo que implica \(\sigma = 2\)), y queremos encontrar una cota para \(P(|X - 10| \ge 3)\).

Podemos usar la forma \(P(|X - \mu| \ge a) \le \frac{\sigma^2}{a^2}\) con \(a = 3\): \[P(|X - 10| \ge 3) \le \frac{4}{3^2} = \frac{4}{9}\]

Por lo tanto, la probabilidad de que \(X\) esté a más de 3 unidades de su media es menor o igual a \(4/9 \approx 0.444\).

Solución en R:

# Datos del problema
media <- 10
varianza <- 4
desviacion_estandar <- sqrt(varianza)
a <- 3

# Aplicar la desigualdad de Chebyshev
prob_cota_superior <- varianza / (a^2)
cat("La cota superior para P(|X -", media, "| >=", a, ") es:", prob_cota_superior, "\n")
## La cota superior para P(|X - 10 | >= 3 ) es: 0.4444444
# Región: La desigualdad acota la probabilidad fuera del intervalo (media - a, media + a), que es (7, 13) en este caso.
# No podemos dibujar la distribución real sin conocerla, pero podemos indicar el intervalo.
intervalo_inferior <- media - a
intervalo_superior <- media + a
cat("La desigualdad acota la probabilidad fuera del intervalo (", intervalo_inferior, ",", intervalo_superior, ").\n")
## La desigualdad acota la probabilidad fuera del intervalo ( 7 , 13 ).

Región: La desigualdad de Chebyshev nos da una cota para la probabilidad de que la variable aleatoria caiga fuera del intervalo \((10 - 3, 10 + 3) = (7, 13)\).

80.2. Ejemplo 2: Determinación del Valor de k

Problema: Una variable aleatoria \(Y\) tiene una media \(\mu = 50\) y una desviación estándar \(\sigma = 5\). ¿Qué valor de \(k\) asegura que la probabilidad de que \(Y\) esté entre \(50 - k \times 5\) y \(50 + k \times 5\) sea al menos \(0.96\)?

Solución en Markdown:

Queremos encontrar \(k\) tal que \(P(|Y - 50| < 5k) \ge 0.96\). Usando la segunda forma de la desigualdad de Chebyshev: \[P(|Y - \mu| < k\sigma) \ge 1 - \frac{1}{k^2}\] En nuestro caso, \(\mu = 50\), \(\sigma = 5\), y queremos \(1 - \frac{1}{k^2} \ge 0.96\).

Resolviendo para \(k\): \[1 - 0.96 \ge \frac{1}{k^2}\] \[0.04 \ge \frac{1}{k^2}\] \[k^2 \ge \frac{1}{0.04} = 25\] \[k \ge \sqrt{25} = 5\]

Por lo tanto, para que la probabilidad de que \(Y\) esté dentro de \(k\) desviaciones estándar de su media sea al menos \(0.96\), \(k\) debe ser mayor o igual a 5.

Solución en R:

# Datos del problema
media <- 50
desviacion_estandar <- 5
probabilidad_minima <- 0.96

# Despejar k de la desigualdad
k_cuadrado_minimo <- 1 / (1 - probabilidad_minima)
k_minimo <- sqrt(k_cuadrado_minimo)
cat("El valor mínimo de k es:", k_minimo, "\n")
## El valor mínimo de k es: 5
# Región: La desigualdad asegura una probabilidad mínima dentro del intervalo (media - k*sigma, media + k*sigma),
# que es (50 - 5*5, 50 + 5*5) = (25, 75) en este caso.
intervalo_inferior <- media - k_minimo * desviacion_estandar
intervalo_superior <- media + k_minimo * desviacion_estandar
cat("La desigualdad asegura una probabilidad de al menos", probabilidad_minima, "dentro del intervalo (", intervalo_inferior, ",", intervalo_superior, ").\n")
## La desigualdad asegura una probabilidad de al menos 0.96 dentro del intervalo ( 25 , 75 ).

Región: La desigualdad de Chebyshev garantiza una probabilidad de al menos \(0.96\) dentro del intervalo \((50 - 5 \times 5, 50 + 5 \times 5) = (25, 75)\).

80.3. Ejemplo 3: Comparación con una Distribución Específica (Normal)

Problema: Sea \(Z\) una variable aleatoria con distribución normal estándar (\(\mu = 0, \sigma^2 = 1\)). Compara la cota proporcionada por la desigualdad de Chebyshev con la probabilidad real para \(k = 2\).

Solución en Markdown:

Para una distribución normal estándar, la desigualdad de Chebyshev con \(k = 2\) da: \[P(|Z - 0| \ge 2 \times 1) \le \frac{1}{2^2} = \frac{1}{4} = 0.25\] \[P(|Z| \ge 2) \le 0.25\]

Ahora, calculemos la probabilidad real para una normal estándar: \[P(|Z| \ge 2) = P(Z \ge 2) + P(Z \le -2) = (1 - P(Z < 2)) + P(Z < -2)\] Usando la función de distribución acumulada normal estándar \(\Phi(z)\): \[P(|Z| \ge 2) = (1 - \Phi(2)) + \Phi(-2) = (1 - 0.9772) + 0.0228 = 0.0228 + 0.0228 = 0.0456\]

La probabilidad real (\(0.0456\)) es mucho menor que la cota superior proporcionada por la desigualdad de Chebyshev (\(0.25\)), lo que ilustra que la desigualdad puede ser conservadora.

Solución en R:

# Valor de k
k <- 2

# Cota de Chebyshev
cota_chebyshev <- 1 / (k^2)
cat("Cota de Chebyshev para k =", k, ":", cota_chebyshev, "\n")
## Cota de Chebyshev para k = 2 : 0.25
# Probabilidad real para una normal estándar
prob_real <- pnorm(-k) + (1 - pnorm(k))
cat("Probabilidad real para una normal estándar (k =", k, "):", prob_real, "\n")
## Probabilidad real para una normal estándar (k = 2 ): 0.04550026
# Región:
# Chebyshev acota la probabilidad fuera del intervalo (-2, 2) para la normal estándar.
# La probabilidad real fuera de este intervalo es mucho menor debido a la forma específica de la distribución normal.

# Para dibujar las regiones:
library(ggplot2)
library(dplyr)
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
df_normal <- data.frame(z = seq(-4, 4, 0.01)) %>%
  mutate(density = dnorm(z))

plot_normal <- ggplot(df_normal, aes(x = z, y = density)) +
  geom_line() +
  geom_area(aes(fill = ifelse(abs(z) >= k, "red", "blue")), alpha = 0.5) +
  scale_fill_manual(values = c("blue" = "lightblue", "red" = "lightcoral"), guide = "none") +
  geom_vline(xintercept = -k, linetype = "dashed", color = "red") +
  geom_vline(xintercept = k, linetype = "dashed", color = "red") +
  theme_minimal() +
  labs(title = "Distribución Normal Estándar y Regiones", x = "Z", y = "Densidad") +
  annotate("text", x = -3, y = 0.1, label = paste("P(|Z| >= ", k, ") <= ", round(cota_chebyshev, 3)), color = "red") +
  annotate("text", x = 3, y = 0.1, label = paste("P(|Z| >= ", k, ") =", round(prob_real, 3)), color = "blue")
print(plot_normal)

Región: La desigualdad de Chebyshev acota el área bajo la curva normal estándar fuera del intervalo \((-2, 2)\) (indicado en rojo) por \(0.25\). La probabilidad real en estas regiones (indicada en azul claro dentro del intervalo) es mucho menor.

80.4. Ejemplo 4: Aplicación a una Distribución Desconocida

Problema: Se sabe que el número de llegadas de clientes a una tienda por hora tiene una media de 20 y una desviación estándar de 5. Sin conocer la distribución del número de llegadas, utiliza la desigualdad de Chebyshev para encontrar una cota inferior para la probabilidad de que el número de llegadas en una hora esté entre 10 y 30.

Solución en Markdown:

Tenemos \(\mu = 20\) y \(\sigma = 5\). Queremos encontrar una cota inferior para \(P(10 \le X \le 30)\), que es equivalente a \(P(|X - 20| \le 10)\).

Podemos usar la forma \(P(|X - \mu| < a) \ge 1 - \frac{\sigma^2}{a^2}\) con \(a = 10\): \[P(|X - 20| < 10) \ge 1 - \frac{5^2}{10^2} = 1 - \frac{25}{100} = 1 - 0.25 = 0.75\]

Por lo tanto, la probabilidad de que el número de llegadas esté entre 10 y 30 es al menos \(0.75\).

Solución en R:

# Datos del problema
media <- 20
desviacion_estandar <- 5
a <- 10

# Aplicar la desigualdad de Chebyshev
prob_cota_inferior <- 1 - (desviacion_estandar^2 / (a^2))
cat("La cota inferior para P(|X -", media, "| <", a, ") es:", prob_cota_inferior, "\n")
## La cota inferior para P(|X - 20 | < 10 ) es: 0.75
# Región: La desigualdad asegura una probabilidad mínima dentro del intervalo (media - a, media + a),
# que es (20 - 10, 20 + 10) = (10, 30) en este caso.
intervalo_inferior <- media - a
intervalo_superior <- media + a
cat("La desigualdad asegura una probabilidad de al menos", prob_cota_inferior, "dentro del intervalo (", intervalo_inferior, ",", intervalo_superior, ").\n")
## La desigualdad asegura una probabilidad de al menos 0.75 dentro del intervalo ( 10 , 30 ).
# No podemos dibujar la distribución real, pero la desigualdad nos da una garantía sobre la probabilidad en el intervalo [10, 30].

Región: La desigualdad de Chebyshev nos asegura que al menos el \(75\%\) de la probabilidad de la distribución (desconocida) se encuentra dentro del intervalo \([10, 30]\).

**81. Diferentes Tipos de Convergencia de Variables Aleatorias

  • En probabilidad y estadística, cuando hablamos de una secuencia de variables aleatorias \(\{X_n\}_{n=1}^\infty\), es importante entender a qué variable aleatoria (o constante) “converge” esta secuencia, y en qué sentido lo hace. Existen varios tipos de convergencia, cada uno con sus propias implicaciones. Los cuatro tipos principales son:
  1. Convergencia en Distribución (o débil)
  2. Convergencia en Probabilidad
  3. Convergencia en Media Cuadrática
  4. Convergencia Casi Segura (o con probabilidad 1)

Vamos a definirlos y explorarlos con ejemplos.

81.1. Convergencia en Distribución (o Débil)

Una secuencia de variables aleatorias \(\{X_n\}\) converge en distribución a una variable aleatoria \(X\) si sus funciones de distribución acumulada (CDF) convergen puntualmente a la CDF de \(X\) en todos los puntos donde la CDF de \(X\) es continua. Se denota como:

\[X_n \xrightarrow{d} X \quad \text{o} \quad X_n \xrightarrow{\mathcal{L}} X\]

Formalmente, para todo \(x \in \mathbb{R}\) tal que \(F_X(x)\) es continua, se cumple:

\[\lim_{n \to \infty} F_{X_n}(x) = F_X(x)\]

  • Implicaciones: La convergencia en distribución es el tipo más débil de convergencia que consideraremos. Implica que las distribuciones de probabilidad de \(X_n\) se aproximan a la distribución de \(X\) a medida que \(n \to \infty\). No implica necesariamente que las realizaciones de \(X_n\) se acerquen a las realizaciones de \(X\).
  • Teorema Central del Límite (TCL): Un ejemplo fundamental de convergencia en distribución es el TCL, que establece que la suma (o promedio) de un gran número de variables aleatorias independientes e idénticamente distribuidas (i.i.d.) con media y varianza finitas, cuando se normaliza adecuadamente, converge en distribución a una variable aleatoria normal estándar.

81.2. Convergencia en Probabilidad

Una secuencia de variables aleatorias \(\{X_n\}\) converge en probabilidad a una variable aleatoria \(X\) si, para cualquier \(\epsilon > 0\), la probabilidad de que la diferencia absoluta entre \(X_n\) y \(X\) sea mayor que \(\epsilon\) tiende a cero cuando \(n \to \infty\). Se denota como:

\[X_n \xrightarrow{p} X\]

Formalmente:

\[\lim_{n \to \infty} P(|X_n - X| > \epsilon) = 0, \quad \forall \epsilon > 0\]

  • Implicaciones: La convergencia en probabilidad implica que, a medida que \(n\) crece, es cada vez más probable que \(X_n\) esté arbitrariamente cerca de \(X\).
  • Ley Débil de los Grandes Números (LDGN): Un ejemplo importante es la LDGN, que establece que el promedio muestral de una secuencia de variables aleatorias i.i.d. con media finita \(\mu\) converge en probabilidad a \(\mu\).

81.3. Convergencia en Media Cuadrática

Una secuencia de variables aleatorias \(\{X_n\}\) converge en media cuadrática (o en \(L^2\)) a una variable aleatoria \(X\) si la esperanza del cuadrado de la diferencia entre \(X_n\) y \(X\) tiende a cero cuando \(n \to \infty\). Se denota como:

\[X_n \xrightarrow{L^2} X \quad \text{o} \quad X_n \xrightarrow{m.s.} X\]

Formalmente:

\[\lim_{n \to \infty} E[(X_n - X)^2] = 0\]

  • Implicaciones: La convergencia en media cuadrática implica que tanto la media como la varianza de \(X_n\) convergen a la media y la varianza de \(X\), respectivamente. Es un tipo de convergencia más fuerte que la convergencia en probabilidad.

81.4. Convergencia Casi Segura (o con Probabilidad 1)

Una secuencia de variables aleatorias \(\{X_n\}\) converge casi seguramente (o con probabilidad 1, o puntualmente con probabilidad 1) a una variable aleatoria \(X\) si la probabilidad de que la secuencia \(\{X_n(\omega)\}\) converja a \(X(\omega)\) para todos los resultados \(\omega\) en el espacio muestral (excepto posiblemente en un conjunto de probabilidad cero) es igual a 1. Se denota como:

\[X_n \xrightarrow{a.s.} X \quad \text{o} \quad X_n \xrightarrow{w.p.1} X\]

Formalmente:

\[P\left(\lim_{n \to \infty} X_n = X\right) = 1\]

Esto es equivalente a decir que para cualquier \(\epsilon > 0\):

\[P\left(\bigcap_{N=1}^\infty \bigcup_{n=N}^\infty \{|X_n - X| > \epsilon\}\right) = 0\]

  • Implicaciones: La convergencia casi segura es el tipo más fuerte de convergencia que consideraremos. Implica que las realizaciones de \(X_n\) se acercan a las realizaciones de \(X\) a medida que \(n \to \infty\), con probabilidad 1.
  • Ley Fuerte de los Grandes Números (LFGN): Un ejemplo importante es la LFGN, que establece que el promedio muestral de una secuencia de variables aleatorias i.i.d. con media finita \(\mu\) converge casi seguramente a \(\mu\).

81.5. Relaciones entre los Tipos de Convergencia

Las siguientes relaciones se cumplen:

\[X_n \xrightarrow{a.s.} X \implies X_n \xrightarrow{p} X\] \[X_n \xrightarrow{L^2} X \implies X_n \xrightarrow{p} X\] \[X_n \xrightarrow{p} X \implies X_n \xrightarrow{d} X\]

La convergencia casi segura no implica la convergencia en media cuadrática (a menos que la secuencia esté uniformemente integrable), y la convergencia en media cuadrática no implica la convergencia casi segura. La convergencia en distribución no implica la convergencia en probabilidad (a menos que la variable límite sea una constante).

82. Ejemplos Resueltos

82.1. Ejemplo 1: Convergencia en Probabilidad (Suma de Variables Bernoulli)

Problema: Sea \(\{X_n\}\) una secuencia de variables aleatorias Bernoulli con parámetro \(p_n = 1/n\). Sea \(S_n = \sum_{i=1}^n X_i\). Demuestra que \(S_n / n \xrightarrow{p} 0\) a medida que \(n \to \infty\).

Solución en Markdown:

\(X_i \sim Bernoulli(1/i)\). \(E[X_i] = 1/i\) y \(Var(X_i) = (1/i)(1 - 1/i) = 1/i - 1/i^2\). \(E[S_n] = \sum_{i=1}^n E[X_i] = \sum_{i=1}^n 1/i \approx \ln(n)\). \(Var(S_n) = \sum_{i=1}^n Var(X_i) = \sum_{i=1}^n (1/i - 1/i^2) \approx \ln(n)\).

Consideremos \(Y_n = S_n / n\). \(E[Y_n] = E[S_n] / n \approx \ln(n) / n \to 0\) cuando \(n \to \infty\). \(Var(Y_n) = Var(S_n) / n^2 \approx \ln(n) / n^2 \to 0\) cuando \(n \to \infty\).

Usando la desigualdad de Chebyshev para \(Y_n\) y cualquier \(\epsilon > 0\): \[P(|Y_n - E[Y_n]| > \epsilon) \le \frac{Var(Y_n)}{\epsilon^2}\] \[\lim_{n \to \infty} P(|S_n / n - E[S_n]/n| > \epsilon) \le \lim_{n \to \infty} \frac{Var(S_n) / n^2}{\epsilon^2} = \lim_{n \to \infty} \frac{\sum_{i=1}^n (1/i - 1/i^2)}{n^2 \epsilon^2} = 0\] Como \(E[S_n]/n \to 0\), tenemos \(S_n / n \xrightarrow{p} 0\).

Solución en R:

# Simulación para ilustrar la convergencia en probabilidad
set.seed(123)
n_simulaciones <- 1000
n_max <- 1000
promedios <- matrix(NA, nrow = n_max, ncol = n_simulaciones)

for (j in 1:n_simulaciones) {
  suma <- 0
  for (n in 1:n_max) {
    p_n <- 1/n
    X_n <- rbinom(1, 1, p_n)
    suma <- suma + X_n
    promedios[n, j] <- suma / n
  }
}

# Visualización de las trayectorias de los promedios
library(ggplot2)
library(reshape2)

df_promedios <- as.data.frame(promedios)
df_promedios$n <- 1:n_max
df_long <- melt(df_promedios, id.vars = "n", variable.name = "simulacion", value.name = "promedio")

ggplot(df_long, aes(x = n, y = promedio, group = simulacion)) +
  geom_line(alpha = 0.3) +
  geom_hline(yintercept = 0, color = "red", linetype = "dashed") +
  labs(title = "Convergencia en Probabilidad de S_n / n a 0", x = "n", y = "S_n / n") +
  theme_minimal()

# Región: A medida que n aumenta, las trayectorias de S_n / n se concentran alrededor de 0.

Región: El gráfico muestra que a medida que \(n\) aumenta, las diferentes realizaciones de \(S_n / n\) tienden a agruparse cada vez más cerca de 0.

82.2. Ejemplo 2: Convergencia Casi Segura (Ley Fuerte de los Grandes Números)

Problema: Sea \(\{X_n\}\) una secuencia de variables aleatorias i.i.d. con media \(\mu\) finita. Por la Ley Fuerte de los Grandes Números, el promedio muestral \(\bar{X}_n = \frac{1}{n} \sum_{i=1}^n X_i\) converge casi seguramente a \(\mu\). Ilustra esto con simulaciones para una distribución exponencial.

Solución en Markdown:

Sea \(X_i \sim Exp(\lambda = 1)\), entonces \(E[X_i] = 1/\lambda = 1\). La LFGN dice que \(\bar{X}_n \xrightarrow{a.s.} 1\).

Solución en R:

# Simulación para ilustrar la convergencia casi segura
set.seed(456)
n_simulaciones <- 1000
n_max <- 1000
promedios_exp <- matrix(NA, nrow = n_max, ncol = n_simulaciones)
lambda <- 1

for (j in 1:n_simulaciones) {
  suma <- 0
  for (n in 1:n_max) {
    X_n <- rexp(1, rate = lambda)
    suma <- suma + X_n
    promedios_exp[n, j] <- suma / n
  }
}

df_promedios_exp <- as.data.frame(promedios_exp)
df_promedios_exp$n <- 1:n_max
df_long_exp <- melt(df_promedios_exp, id.vars = "n", variable.name = "simulacion", value.name = "promedio")

ggplot(df_long_exp, aes(x = n, y = promedio, group = simulacion)) +
  geom_line(alpha = 0.3) +
  geom_hline(yintercept = 1/lambda, color = "red", linetype = "dashed") +
  labs(title = "Convergencia Casi Segura del Promedio Muestral a la Media (Exponencial)", x = "n", y = "Promedio Muestral") +
  theme_minimal()

# Región: A medida que n aumenta, casi todas las trayectorias del promedio muestral convergen a la media poblacional (1).

Región: El gráfico muestra que a medida que \(n\) aumenta, las trayectorias del promedio muestral de las variables exponenciales tienden a acercarse y estabilizarse alrededor de la media teórica (1).

82.3. Ejemplo 3: Convergencia en Distribución (Teorema Central del Límite)

Problema: Sea \(\{X_n\}\) una secuencia de variables aleatorias i.i.d. con distribución uniforme en \([0, 1]\). Sea \(S_n = \sum_{i=1}^n X_i\). Por el TCL, \((S_n - n/2) / \sqrt{n/12}\) converge en distribución a una normal estándar \(N(0, 1)\). Ilustra esto comparando el histograma de \((S_n - n/2) / \sqrt{n/12}\) para un \(n\) grande con la densidad de una normal estándar.

Solución en Markdown:

\(X_i \sim U(0, 1)\), \(E[X_i] = 1/2\), \(Var(X_i) = 1/12\). \(E[S_n] = n/2\), \(Var(S_n) = n/12\), \(\sigma_{S_n} = \sqrt{n/12}\). \(Z_n = (S_n - n/2) / \sqrt{n/12} \xrightarrow{d} N(0, 1)\).

Solución en R:

# Ilustración del Teorema Central del Límite
set.seed(789)
n_simulaciones <- 1000
n <- 30 # Tamaño de muestra grande

sumas_normalizadas <- numeric(n_simulaciones)

for (i in 1:n_simulaciones) {
  muestra <- runif(n, 0, 1)
  suma <- sum(muestra)
  media_teorica <- n / 2
  desviacion_teorica <- sqrt(n / 12)
  suma_normalizada <- (suma - media_teorica) / desviacion_teorica
  sumas_normalizadas[i] <- suma_normalizada
}

df_tcl <- data.frame(z = sumas_normalizadas)

ggplot(df_tcl, aes(x = z)) +
  geom_histogram(aes(y = ..density..), bins = 30, fill = "lightblue", color = "black", alpha = 0.7) +
  stat_function(fun = dnorm, color = "red", linewidth = 1) +
  labs(title = "Ilustración del TCL (Suma de Uniformes Normalizada)", x = "Z_n", y = "Densidad") +
  theme_minimal()
## Warning: The dot-dot notation (`..density..`) was deprecated in ggplot2 3.4.0.
## ℹ Please use `after_stat(density)` instead.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.

# Región: El histograma de las sumas normalizadas se aproxima a la forma de la densidad de la distribución normal estándar.

Región: El histograma de los valores simulados de la suma normalizada se asemeja a la curva de densidad de una distribución normal estándar, especialmente en el centro.

81.4. Ejemplo 4: Convergencia en Media Cuadrática

Problema: Sea \(\{X_n\}\) una secuencia de variables aleatorias tales que \(P(X_n = 1/n) = 1\). Demuestra que \(X_n \xrightarrow{L^2} 0\).

Solución en Markdown:

La variable aleatoria límite es \(X = 0\) (una constante). \(E[X_n] = (1/n) \times 1 = 1/n\). \(E[X] = 0\). \(E[X_n^2] = (1/n)^2 \times 1 = 1/n^2\). \(E[X^2] = 0^2 = 0\).

Verificamos la convergencia en media cuadrática: \[E[(X_n - X)^2] = E[(1/n - 0)^2] = E[1/n^2] = 1/n^2\] \[\lim_{n \to \infty} E[(X_n - 0)^2] = \lim_{n \to \infty} 1/n^2 = 0\] Por lo tanto, \(X_n \xrightarrow{L^2} 0\).

Solución en R:

# Simulación para ilustrar la convergencia en media cuadrática
set.seed(901)
n_simulaciones <- 1000
n_max <- 1000
valores_xn <- matrix(NA, nrow = n_max, ncol = n_simulaciones)

for (j in 1:n_simulaciones) {
  for (n in 1:n_max) {
    valores_xn[n, j] <- 1 / n
  }
}

# Cálculo del error cuadrático medio E[(X_n - 0)^2] para cada n
error_cuadratico_medio <- rowMeans(valores_xn^2)
df_ecm <- data.frame(n = 1:n_max, ECM = error_cuadratico_medio)

# Visualización del ECM a medida que n aumenta
library(ggplot2)

ggplot(df_ecm, aes(x = n, y = ECM)) +
  geom_line() +
  geom_hline(yintercept = 0, color = "red", linetype = "dashed") +
  labs(title = "Convergencia en Media Cuadrática de X_n a 0", x = "n", y = "E[(X_n - 0)^2]") +
  theme_minimal()

# Región: El gráfico muestra que el error cuadrático medio entre X_n y 0 tiende a 0 a medida que n aumenta.

Breve historia de la probabilidad

Historia de la probabilidad clásica

  • La teoría de la probabilidad tuvo como uno de sus primeros puntos de partida el intentar resolver un problema particular, concerniente a una apuesta de juego de dados entre dos personas.

  • El problema involucraba una gran cantidad de dinero y puede plantearse de la siguiente forma:

    Dos jugadores escogen, cada uno de ellos, un número del 1 al 6, distinto uno del otro, y apuestan 32 doblones de oro a que el número escogido por uno de ellos aparece en tres ocasiones antes que el número del contrario al lanzar sucesivamente un dado. Suponga que el número de uno de los jugadores ha aparecido dos veces y el número del otro, una sola vez. Bajo estas circunstancias, ¿Cómo debe dividirse el total de la apuesta si el juego se suspende?

  • Uno de los apostadores, Antonio de Gombaud (el caballero De Méré), consultó el problema con Blaise Pascal (1623-1662).

  • Pascal a su vez consultó con Pierre de Fermat (1601-1665), iniciando en 1654 un intercambio de cartas sobre el problema.

  • Este episodio marcó el inicio de los esfuerzos por desarrollar una teoría matemática para resolver problemas probabilísticos.

Desarrollo histórico

  • En 1900, David Hilbert (1862-1943) planteó 23 problemas matemáticos importantes, incluyendo:
    • La necesidad de axiomas para construir una teoría matemática de la probabilidad.
  • En 1933, A. N. Kolmogorov (1903-1987) propuso los axiomas fundamentales de la teoría clásica de probabilidad que usamos hoy.

Contribuciones clave:

  1. Christiaan Huygens (1629-1695):
    • Introdujo el concepto de esperanza matemática: \(E[X]\)
    • Obra: De ratiocinüs in ludo aleae
  2. Jacques Bernoulli (1654-1705):
    • Ars Conjectandi (publicado póstumamente)
    • Ley de los grandes números: \[\lim_{n\to\infty} P\left(\left|\frac{S_n}{n}-p\right|<\epsilon\right) = 1\]
  3. Pierre-Simon Laplace (1749-1827):
    • Théorie analytique des probabilités (1812)
    • Definición clásica de probabilidad: \[P(A) = \frac{\text{casos favorables}}{\text{casos posibles}}\]
  4. Carl Friedrich Gauss (1777-1855):
    • Desarrollo de la distribución normal: \[f(x) = \frac{1}{\sigma\sqrt{2\pi}}e^{-\frac{1}{2}\left(\frac{x-\mu}{\sigma}\right)^2}\]

Evolución moderna

  • Siglo XIX: Periodo de estancamiento debido a:
    • Paradojas como la de Bertrand
    • Enfoque determinista predominante
  • Siglo XX (1933): Kolmogorov formaliza la teoría usando:
    • Teoría de conjuntos
    • Teoría de la medida
    • Axiomas:
      1. \(P(A) \geq 0\)
      2. \(P(\Omega) = 1\)
      3. \(P(\bigcup_{i=1}^\infty A_i) = \sum_{i=1}^\infty P(A_i)\) para sucesos disjuntos

Experimentos Aleatorios

Experimentos Aleatorios vs Deterministas

  • Existen dos tipos de fenómenos en la naturaleza:
    • Deterministas: Producen el mismo resultado bajo condiciones idénticas
      • Ejemplo: Ley de Boyle para gases ideales \[PV = nRT\]
      • Ejemplo: Ley de reflexión \(\theta_i = \theta_r\)

Video: Espacio muestral 1

  • Aleatorios: Resultados variables bajo mismas condiciones
    • Ejemplo: Lanzamiento de moneda \[\Omega = \{C, S\}\]
    • Ejemplo: Lotería \[\Omega = \{1, 2, ..., 10^6\}\]

Características de Experimentos Aleatorios

  1. Repetible bajo mismas condiciones
  2. Resultado depende del azar
  3. Clasificación no siempre evidente

Espacio Muestral

  • Definición: Conjunto de todos los posibles resultados (\(\Omega\))
    • Ejemplo: Lanzar dado \[\Omega = \{1,2,3,4,5,6\}\]
    • Cardinalidad: \(\sharp(\Omega) = 6\)

Ejemplos Notables

  1. Lanzar dado hasta obtener 6: \[\Omega = \{(6), (1,6), ..., (1,1,6), ...\}\] \(\sharp(\Omega) = \infty\)

  2. Tiempo de espera: \[\Omega = [0, \infty)\]

  3. Lanzar 2 dados indistinguibles: \[\Omega = \{(1,1), ..., (6,6)\}\] \(\sharp(\Omega) = 21\)

Operaciones con Eventos

Operaciones Básicas

  • Unión: \(A \cup B = \{\omega \in \Omega \mid \omega \in A \lor \omega \in B\}\)
  • Intersección: \(A \cap B = \{\omega \in \Omega \mid \omega \in A \land \omega \in B\}\)
  • Complemento: \(\overline{A} = \Omega \setminus A\)

Propiedades Clave

  1. Conmutatividad: \[A \cup B = B \cup A\] \[A \cap B = B \cap A\]
  2. Leyes de De Morgan: \[\overline{A \cup B} = \overline{A} \cap \overline{B}\] \[\overline{A \cap B} = \overline{A} \cup \overline{B}\]

Actividad de Aprendizaje

Evaluación de Tipos de Experimentos

Video: Espacio muestral 2

Propiedades de Operaciones entre Eventos

Propiedades de la Unión

  1. Conmutativa:
    \[A \cup B = B \cup A\]
  2. Idempotencia:
    \[A \cup A = A\]
  3. Elemento neutro:
    \[A \cup \varnothing = A\]
  4. Absorción:
    \[A \cup \Omega = \Omega\]
  5. Complementariedad:
    \[A \cup \overline{A} = \Omega\]

Propiedades de la Intersección

  1. Conmutativa:
    \[A \cap B = B \cap A\]
  2. Idempotencia:
    \[A \cap A = A\]
  3. Elemento absorbente:
    \[A \cap \varnothing = \varnothing\]
  4. Elemento neutro:
    \[A \cap \Omega = A\]
  5. Complementariedad:
    \[A \cap \overline{A} = \varnothing\]

Propiedades de la Diferencia

  1. No conmutativa:
    \[A - B \neq B - A\]
  2. Idempotencia:
    \[A - A = \varnothing\]
  3. Elemento neutro:
    \[A - \varnothing = A\]
  4. Relación con complemento:
    \[\Omega - A = \overline{A}\]
  5. Reducción:
    \[A - B = A - (A \cap B)\]

Otras Propiedades Importantes

  1. Distributivas:
    \[A \cup (B \cap C) = (A \cup B) \cap (A \cup C)\]
    \[A \cap (B \cup C) = (A \cap B) \cup (A \cap C)\]
  2. Leyes de De Morgan:
    \[\overline{A \cup B} = \overline{A} \cap \overline{B}\]
    \[\overline{A \cap B} = \overline{A} \cup \overline{B}\]

Propiedades de Operaciones entre Eventos

Propiedades Básicas

  • Complementos: \[\overline{\varnothing} = \Omega\] \[\overline{\Omega} = \varnothing\] \[\overline{\overline{A}} = A\]

Leyes de Conjuntos

Asociativas

\[A \cup (B \cup C) = (A \cup B) \cup C = A \cup B \cup C\] \[A \cap (B \cap C) = (A \cap B) \cap C = A \cap B \cap C\]

Distributivas

\[A \cap (B \cup C) = (A \cap B) \cup (A \cap C)\] \[A \cup (B \cap C) = (A \cup B) \cap (A \cup C)\]

De Morgan

\[\overline{A \cup B} = \overline{A} \cap \overline{B}\] \[\overline{A \cap B} = \overline{A} \cup \overline{B}\]

Operaciones con Sucesiones de Eventos

  • Uniones e intersecciones: \[\bigcup_{k=1}^n B_k \quad \text{(Unión finita)}\] \[\bigcup_{k=1}^\infty B_k \quad \text{(Unión infinita: ocurre al menos uno)}\] \[\bigcap_{k=1}^n B_k \quad \text{(Intersección finita)}\] \[\bigcap_{k=1}^\infty B_k \quad \text{(Intersección infinita: ocurren todos)}\]

  • Leyes extendidas: \[A \cup \left(\bigcup_{k=1}^\infty B_k\right) = \bigcup_{k=1}^\infty (A \cup B_k)\] \[A \cap \left(\bigcap_{k=1}^\infty B_k\right) = \bigcap_{k=1}^\infty (A \cap B_k)\] \[\overline{\bigcup_{k=1}^\infty B_k} = \bigcap_{k=1}^\infty \overline{B_k}\] \[\overline{\bigcap_{k=1}^\infty B_k} = \bigcup_{k=1}^\infty \overline{B_k}\]

Teoría de Conjuntos Básica

Conjunto Potencia

Para \(\Omega \neq \varnothing\): \[\wp(\Omega) = 2^\Omega = \{A \mid A \subseteq \Omega\}\] Si \(|\Omega| = n < \infty\): \[|2^\Omega| = 2^n\]

Ejemplo: - \(\Omega = \{a, b, c\}\) - \(2^\Omega = \{\varnothing, \{a\}, \{b\}, \{c\}, \{a,b\}, \{a,c\}, \{b,c\}, \Omega\}\) - \(|2^\Omega| = 8 = 2^3\)

Producto Cartesiano

\[A \times B = \{(x,y) \mid x \in A, y \in B\}\] \[A_1 \times \cdots \times A_n = \{(x_1,\ldots,x_n) \mid x_i \in A_i\}\]

Propiedades: - No conmutativo: \(A \times B \neq B \times A\) - Cardinalidad: \(|A \times B| = |A| \cdot |B|\) - Extensión: \(|A_1 \times \cdots \times A_k| = n_1 \cdots n_k\)

Ejemplos: \[\mathbb{R}^2 = \mathbb{R} \times \mathbb{R}\] \[\mathbb{R}^n = \underbrace{\mathbb{R} \times \cdots \times \mathbb{R}}_{n \text{ veces}}\]

Conjuntos Ajenos y Particiones

  • Ajenos (disjuntos): \[A \cap B = \varnothing\]

  • Partición de \(\Omega\):

    1. \(A_i \cap A_j = \varnothing\) para \(i \neq j\)
    2. \(\bigcup_{k=1}^n A_k = \Omega\)

Tipos: - Mutuamente excluyentes: \[\bigcap_{k=1}^n A_k = \varnothing\] - Dos a dos: \[A_i \cap A_j = \varnothing \quad \forall i \neq j\]

Ejemplos de Conteo y Probabilidad

Principio Fundamental de Conteo

  • Ejemplo 1:
    Un hombre con 6 camisas y 7 pantalones puede vestirse de:
    \[6 \times 7 = 42 \text{ formas diferentes}\]

  • Ejemplo 2:
    Una mujer con 3 sombreros, 6 blusas, 8 faldas y 10 pares de zapatos puede vestirse de:
    \[3 \times 6 \times 8 \times 10 = 1,440 \text{ formas diferentes}\]

Álgebra de Boole

Definición de Álgebra

Una familia \(\mathcal{A}\) de subconjuntos de \(\Omega\) es un álgebra si: 1. \(\Omega \in \mathcal{A}\) 2. \(A, B \in \mathcal{A} \Rightarrow A \cup B \in \mathcal{A}\) 3. \(A \in \mathcal{A} \Rightarrow \overline{A} \in \mathcal{A}\)

σ-Álgebra

\(\mathcal{A}\) es una σ-álgebra si además cumple: \[\forall \{A_i\}_{i\in \mathbb{N}} \subseteq \mathcal{A}, \quad \bigcup_{i\in \mathbb{N}} A_i \in \mathcal{A}\]

Correspondencia con teoría de conjuntos: | Probabilidad | Teoría de Conjuntos | |———————–|————————–| | Suceso seguro | Conjunto universal (\(\Omega\)) | | Suceso elemental | Punto | | Sucesos incompatibles | Conjuntos disjuntos | | Unión de sucesos | Unión de conjuntos |

σ-Álgebra: Definición Formal

Definición

Una colección \(\mathcal{F}\) de subconjuntos de \(\Omega\) es una σ-álgebra si cumple:

  1. Contiene el espacio muestral: \[\Omega \in \mathcal{F}\]

  2. Cerrada bajo complementación: \[\forall A \in \mathcal{F}, \quad A^c \in \mathcal{F}\]

  3. Cerrada bajo uniones e intersecciones numerables: \[\forall \{A_n\}_{n=1}^\infty \subseteq \mathcal{F}, \quad \bigcup_{n=1}^\infty A_n \in \mathcal{F} \quad \text{y} \quad \bigcap_{n=1}^\infty A_n \in \mathcal{F}\]

Implicaciones

  • Permite enfocarse solo en eventos medibles
  • Garantiza estabilidad bajo operaciones infinitas

Ejercicio de Demostración

Dada una σ-álgebra \(\mathcal{F}\) y sucesiones \(\{A_n\}, \{B_n\} \subseteq \mathcal{F}\), pruebe que: \[ \left(\bigcap_{n=1}^\infty A_n^c\right) \cup \left(\bigcup_{n=1}^\infty B_n^c\right) \in \mathcal{F} \]

Sugerencias: 1. Aplique la propiedad de complementación a cada \(A_n\) y \(B_n\) 2. Use la cerradura bajo uniones/inters. numerables 3. Recuerde que \(\mathcal{F}\) es cerrada bajo combinaciones de estas operaciones

Definiciones de Probabilidad

Introducción Histórica

  • La probabilidad cuantifica la incertidumbre de eventos en experimentos aleatorios
  • Diversos enfoques históricos han intentado definirla rigurosamente
  • Tres perspectivas fundamentales emergen:

1. Definición Clásica (Laplace)

\[ P(A) = \frac{\text{N° casos favorables}}{\text{N° casos posibles}} \]

Limitaciones: 1. Requiere equiprobabilidad de eventos elementales 2. Inaplicable cuando: - El espacio muestral es infinito (\(|\Omega| = \infty\)) - No se pueden enumerar todos los casos posibles

2. Definición Frecuentista (Bernoulli)

\[ P(A) = \lim_{n \to \infty} \frac{n_A}{n} \] donde: - \(n\) = total de ensayos - \(n_A\) = ocurrencias del evento \(A\)

Problemas Prácticos: 1. Imposibilidad de realizar infinitas repeticiones (\(n < \infty\) en la práctica) 2. Condiciones experimentales pueden variar 3. Solo proporciona aproximaciones: \[ \hat{P}(A) \approx \frac{n_A}{n} \]

3. Enfoque Axiomático (Kolmogorov)

Supera las limitaciones anteriores mediante:

  1. Espacio de probabilidad \((\Omega, \mathcal{F}, P)\)
  2. Axiomas:
    • \(P(\Omega) = 1\)
    • \(P(A) \geq 0\) \(\forall A \in \mathcal{F}\)
    • \(\sigma\)-aditividad: Para \(\{A_i\}_{i=1}^\infty\) disjuntos: \[ P\left(\bigcup_{i=1}^\infty A_i\right) = \sum_{i=1}^\infty P(A_i) \]

Ventajas: - Aplica a espacios discretos (\(\Omega\) finito o infinito numerable) y continuos - Base matemática rigurosa usando teoría de la medida - Generaliza las definiciones clásica y frecuentista

Nota: La versión frecuentista sigue siendo útil en aplicaciones prácticas (estadística inferencial) a pesar de sus limitaciones teóricas, mientras que la axiomática proporciona el fundamento para el desarrollo teórico moderno.

Evolución hacia la Definición Axiomática

Para superar las limitaciones de las definiciones clásica y frecuentista, se desarrolló un enfoque riguroso basado en:

  1. Teoría de Conjuntos (Émile Borel, 1871-1956)
  2. Teoría de la Medida (Henri Lebesgue, 1875-1941)

Esto llevó a Kolmogórov a formular:

Definición Axiomática (1933)

Una medida de probabilidad \(\mathbb{P}\) en \((\Omega, \mathcal{F})\) satisface:

  1. Normalización: \[ \mathbb{P}(\Omega) = 1 \]

  2. No-negatividad: \[ \mathbb{P}(A) \geq 0 \quad \forall A \in \mathcal{F} \]

  3. σ-Aditividad (para eventos disjuntos \(\{A_n\}_{n=1}^\infty\)): \[ \mathbb{P}\left( \bigcup_{n=1}^\infty A_n \right) = \sum_{n=1}^\infty \mathbb{P}(A_n) \]

Kolmogórov
Kolmogórov

Propiedades Fundamentales

Teorema Básico

Para cualquier espacio probabilístico \((\Omega, \mathcal{F}, \mathbb{P})\):

  1. Probabilidad del Complemento: \[ \mathbb{P}(A^c) = 1 - \mathbb{P}(A) \] Corolario: \(\mathbb{P}(\emptyset) = 0\)

  2. Monotonía: \[ A \subseteq B \Rightarrow \mathbb{P}(A) \leq \mathbb{P}(B) \]

  3. Ley de Probabilidad Total: \[ \mathbb{P}(B) = \mathbb{P}(A \cap B) + \mathbb{P}(A^c \cap B) \]

Ejercicios de Demostración

  1. Complementariedad:
    • Use \(\Omega = A \cup A^c\) y axioma 3
  2. Probabilidad Vacía:
    • Aplique complementariedad con \(A = \Omega\)
  3. Monotonía:
    • Exprese \(B = A \cup (B \setminus A)\)

## Propiedades de las Medidas de Probabilidad

Teorema Fundamental

Para un espacio de probabilidad \((\Omega, \mathcal{F}, \mathbb{P})\):

  1. Principio de Inclusión-Exclusión (para n eventos): \[ \mathbb{P}\left(\bigcup_{i=1}^{n}A_i\right) = \sum_{i=1}^{n}\mathbb{P}(A_i) - \sum_{1 \leq i < j \leq n} \mathbb{P}(A_i \cap A_j) \\ + \sum_{1 \leq i < j < k \leq n} \mathbb{P}(A_i \cap A_j \cap A_k) - \cdots + (-1)^{n+1}\mathbb{P}\left(\bigcap_{i=1}^{n}A_i\right) \]

  2. Caso particular para 2 eventos: \[ \mathbb{P}(A \cup B) = \mathbb{P}(A) + \mathbb{P}(B) - \mathbb{P}(A \cap B) \]

  3. Para eventos mutuamente excluyentes: \[ A_i \cap A_j = \emptyset \quad \forall i \neq j \Rightarrow \mathbb{P}\left(\bigcup_{i\in I} A_i\right) = \sum_{i\in I} \mathbb{P}(A_i) \]

Propiedades Básicas

  1. Probabilidad del complemento: \[ \mathbb{P}(\overline{A}) = 1 - \mathbb{P}(A) \]

    Diagrama de complemento
    Diagrama de complemento
  2. Probabilidad del evento imposible: \[ \mathbb{P}(\emptyset) = 0 \]

  3. Relación entre eventos:

    • Para cualquier par de eventos: \[ \mathbb{P}(A \cup B) = \mathbb{P}(A) + \mathbb{P}(B) - \mathbb{P}(A \cap B) \]

    • Visualización:

      Diagrama de Venn para A y B
      Diagrama de Venn para A y B

Limitaciones Prácticas

  • Las definiciones teóricas no proporcionan métodos directos de cálculo
  • En la práctica se usan:
    1. Enfoque clásico (para espacios finitos equiprobables)
    2. Enfoque frecuentista (para estimaciones empíricas)

## Probabilidad para Tres Eventos

Principio de Inclusión-Exclusión

Para tres eventos \(A\), \(B\) y \(C\): \[ \mathbb{P}(A \cup B \cup C) = \mathbb{P}(A) + \mathbb{P}(B) + \mathbb{P}(C) \\ - \mathbb{P}(A \cap B) - \mathbb{P}(A \cap C) - \mathbb{P}(B \cap C) \\ + \mathbb{P}(A \cap B \cap C) \]

Diagrama de Venn para tres conjuntos
Diagrama de Venn para tres conjuntos

Probabilidad Condicional

Si \(\mathbb{P}(B) > 0\): \[ \mathbb{P}(A|B) = \frac{\mathbb{P}(A \cap B)}{\mathbb{P}(B)} \]

Propiedades: 1. \(\mathbb{P}(A \cap B) = \mathbb{P}(A|B)\mathbb{P}(B) = \mathbb{P}(B|A)\mathbb{P}(A)\) 2. Regla del producto para n eventos: \[ \mathbb{P}\left(\bigcap_{i=1}^n A_i\right) = \prod_{i=1}^n \mathbb{P}\left(A_i \mid \bigcap_{j=1}^{i-1} A_j\right) \]

Ejemplo Práctico

Datos: - 60% chicas (\(\mathbb{P}(F) = 0.6\)) - 30% rubias entre chicas (\(\mathbb{P}(R|F) = 0.3\)) - 40% usan gafas entre rubias (\(\mathbb{P}(G|R \cap F) = 0.4\))

Cálculos: 1. Chica rubia: \[ \mathbb{P}(F \cap R) = \mathbb{P}(R|F)\mathbb{P}(F) = 0.3 \times 0.6 = 0.18 \] 2. Chica rubia con gafas: \[ \mathbb{P}(F \cap R \cap G) = \mathbb{P}(G|R \cap F)\mathbb{P}(R|F)\mathbb{P}(F) = 0.4 \times 0.3 \times 0.6 = 0.072 \]

Teoremas Fundamentales

Probabilidad Total

Para partición \(\{A_i\}_{i=1}^n\) de \(\Omega\): \[ \mathbb{P}(B) = \sum_{i=1}^n \mathbb{P}(B|A_i)\mathbb{P}(A_i) \]

Teorema de Bayes

\[ \mathbb{P}(A_i|B) = \frac{\mathbb{P}(A_i)\mathbb{P}(B|A_i)}{\sum_{j=1}^n \mathbb{P}(A_j)\mathbb{P}(B|A_j)} \]

Ejemplo de aplicación: - 5 sospechosos (1 culpable) - Error detective: - \(\mathbb{P}(I|A) = 0.05\) - \(\mathbb{P}(C|I) = 0.08\)

Probabilidad de ser culpable dado que el detective cree que lo es: \[ \mathbb{P}(A|C) = \frac{\mathbb{P}(A)\mathbb{P}(C|A)}{\mathbb{P}(A)\mathbb{P}(C|A) + \mathbb{P}(I)\mathbb{P}(C|I)} = \frac{0.2 \times 0.95}{0.2 \times 0.95 + 0.8 \times 0.08} \approx 0.748 \]

Video explicativo: Probabilidad Parte 3

Demostración del Teorema de Bayes

Paso 1: Definición de Probabilidad Condicional

Partiendo de la definición básica: \[ \mathbb{P}(A_k|B) = \frac{\mathbb{P}(A_k \cap B)}{\mathbb{P}(B)} = \frac{\mathbb{P}(A_k)\mathbb{P}(B|A_k)}{\mathbb{P}(B)} \]

Paso 2: Aplicación de Probabilidad Total

Sustituyendo el denominador usando el teorema de probabilidad total: \[ \mathbb{P}(A_i|B) = \frac{\mathbb{P}(A_i) \mathbb{P}(B|A_i)}{\sum_{j=1}^{k} \mathbb{P}(A_j) \mathbb{P}(B|A_j)} \]

Ejercicio de Aplicación: Caso del Detective

Planteamiento del Problema

  • 5 sospechosos (1 asesino, 4 inocentes)
  • Probabilidades conocidas:
    • \(\mathbb{P}(I|A) = 0.05\) (error tipo I)
    • \(\mathbb{P}(C|\overline{A}) = 0.08\) (error tipo II)

Solución Paso a Paso

  1. Probabilidades a priori: \[ \mathbb{P}(A) = \frac{1}{5} = 0.2 \quad \text{y} \quad \mathbb{P}(\overline{A}) = \frac{4}{5} = 0.8 \]

  2. Probabilidades complementarias: \[ \mathbb{P}(C|A) = 1 - \mathbb{P}(I|A) = 0.95 \]

  3. Aplicación del Teorema de Bayes: \[ \mathbb{P}(A|C) = \frac{\mathbb{P}(C|A)\mathbb{P}(A)}{\mathbb{P}(C|A)\mathbb{P}(A) + \mathbb{P}(C|\overline{A})\mathbb{P}(\overline{A})} \] \[ = \frac{0.95 \times 0.2}{0.95 \times 0.2 + 0.08 \times 0.8} = \frac{0.19}{0.254} \approx 0.748 \]

Interpretación

Cuando el detective cree que alguien es culpable, hay un 74.8% de probabilidad de que realmente sea el asesino.

Diagrama conceptual:

## Independencia de Eventos

Definición de Independencia

  • Dos eventos \(A\) y \(B\) son independientes si: \[ \mathbb{P}(A \cap B) = \mathbb{P}(A) \cdot \mathbb{P}(B) \]

  • Consecuencia (para eventos independientes): \[ \mathbb{P}(B|A) = \mathbb{P}(B) \]

  • n eventos \(A_1, \ldots, A_n\) son mutuamente independientes si para cualquier subconjunto: \[ \mathbb{P}\left(\bigcap_{j=1}^k A_{i_j}\right) = \prod_{j=1}^k \mathbb{P}(A_{i_j}) \]

Ejercicios de Independencia

Ejercicio 16

a) Si \(A\) y \(B\) son independientes, demuestre que: - \(\overline{A}\) y \(B\) son independientes - \(A\) y \(\overline{B}\) son independientes
- \(\overline{A}\) y \(\overline{B}\) son independientes

Solución: \[ \mathbb{P}(\overline{A} \cap B) = \mathbb{P}(B) - \mathbb{P}(A \cap B) = \mathbb{P}(B) - \mathbb{P}(A)\mathbb{P}(B) = \mathbb{P}(B)(1-\mathbb{P}(A)) = \mathbb{P}(\overline{A})\mathbb{P}(B) \]

Ejercicio 18 (Lanzamientos de baloncesto)

a) Probabilidad de encestar 3 lanzamientos seguidos: \[ \left(\frac{1}{4}\right)^3 = \frac{1}{64} \]

b) Probabilidad de al menos 3 éxitos en 5 intentos (distribución binomial): \[ \sum_{k=3}^5 \binom{5}{k} \left(\frac{1}{4}\right)^k \left(\frac{3}{4}\right)^{5-k} \]

Ejercicios Variados

Ejercicio 4 (Dados distintos)

  • Espacio muestral: 36 resultados posibles \((i,j)\) con \(i,j \in \{1,\ldots,6\}\)
  • Suma 7: \(\{(1,6),(2,5),\ldots,(6,1)\}\) → 6 casos \[ \mathbb{P}(\text{suma }7) = \frac{6}{36} = \frac{1}{6} \]

Ejercicio 12 (Probabilidad condicional)

Datos: - 30% varones (\(\mathbb{P}(V)=0.3\)) - 20% varones rubios (\(\mathbb{P}(R|V)=0.2\)) - 50% mujeres rubias (\(\mathbb{P}(R|M)=0.5\))

Solución: a) Varón rubio: \[ \mathbb{P}(V \cap R) = \mathbb{P}(R|V)\mathbb{P}(V) = 0.2 \times 0.3 = 0.06 \]

b) Probabilidad total de rubio: \[ \mathbb{P}(R) = \mathbb{P}(R|V)\mathbb{P}(V) + \mathbb{P}(R|M)\mathbb{P}(M) = 0.2 \times 0.3 + 0.5 \times 0.7 = 0.41 \]

c) Probabilidad condicional inversa: \[ \mathbb{P}(V|R) = \frac{\mathbb{P}(R|V)\mathbb{P}(V)}{\mathbb{P}(R)} = \frac{0.06}{0.41} \approx 0.1463 \]

Diagramas y Representaciones

Ejercicio (Encuesta productos)

Tabla de contingencia: \[ \begin{array}{|c|c|c|c|} \hline \text{Producto} & \text{Hombres} & \text{Mujeres} & \text{Total} \\ \hline A & 225 & 180 & 405 \\ B & 175 & 120 & 295 \\ \hline \end{array} \]

Diagrama de Venn: - Conjuntos: Hombres (H), Mujeres (M), Producto A (A), Producto B (B) - Intersecciones calculadas con \(\mathbb{P}(X \cap Y) = \mathbb{P}(X)\mathbb{P}(Y|X)\)

Teoremas Avanzados

Ejercicio 17 (Probabilidad compuesta): \[ \mathbb{P}(\text{Ganar}) = \frac{4}{5} \times \frac{3}{4} \times \frac{2}{3} \times \frac{1}{2} = \frac{24}{120} = 0.2 \]

# Variables Aleatorias

Definición Formal

Dado un espacio de probabilidad \((\Omega, \mathcal{F}, \mathbb{P})\), una variable aleatoria es una función medible: \[ X: \Omega \rightarrow \mathbb{R} \] tal que para todo \(x \in \mathbb{R}\): \[ \{\omega \in \Omega: X(\omega) \leq x\} \in \mathcal{F} \]

Notación: \[ \mathbb{P}[X \leq x] := \mathbb{P}(\{\omega: X(\omega) \leq x\}) \]

Variables Aleatorias Discretas

Definición

Una variable aleatoria \(X\) es discreta si toma valores en un conjunto finito o numerable \(\{x_1, x_2, \ldots\} \subset \mathbb{R}\).

Función de Masa de Probabilidad

Asociada a \(X\), existe una función \(f\) que cumple: 1. \(f(x) = \mathbb{P}(X = x) \geq 0\) 2. \(A = \{x: f(x) > 0\}\) es finito o numerable 3. \(\sum_{x \in A} f(x) = 1\)

Ejemplos Clásicos

Ejemplo 1: Lanzamiento de Monedas

  • Experimento: Lanzar 10 monedas
  • Variable aleatoria: \(X\) = número de caras
  • Distribución:
    • \(X(\omega) \in \{0,1,\ldots,10\}\)
    • \(f(k) = \binom{10}{k}\left(\frac{1}{2}\right)^{10}\)

Ejemplo 2: Dos Monedas

  • Espacio muestral: \(\Omega = \{SS, SC, CS, CC\}\)
  • Variable \(X\): Número de caras
\(\omega\) \(\mathbb{P}(\omega)\) \(X(\omega)\)
SS 1/4 0
SC, CS 1/2 1
CC 1/4 2

Función de masa: | \(x\) | \(\mathbb{P}(X = x)\) | |—–|———————| | 0 | 1/4 | | 1 | 1/2 | | 2 | 1/4 |

Propiedades Fundamentales

Para cualquier conjunto \(A \subseteq \mathbb{R}\): \[ \mathbb{P}(X \in A) = \sum_{x_i \in A} f(x_i) \]

Demostración: \[ \mathbb{P}(X \in A) = \mathbb{P}\left(\bigcup_{x_i \in A} \{X = x_i\}\right) = \sum_{x_i \in A} \mathbb{P}(X = x_i) = \sum_{x_i \in A} f(x_i) \]

Recursos Adicionales

Nota: La construcción canónica permite definir variables aleatorias directamente a partir de funciones de masa de probabilidad, tomando \(\Omega = \{x_1, x_2, \ldots\}\) y \(\mathbb{P}(\{x_i\}) = f(x_i)\).

# Función de Distribución Acumulativa (Caso Discreto)

Definición

Para una variable aleatoria discreta \(X\), la función de distribución acumulativa (FDA) \(F\) se define como: \[ F(t) = \mathbb{P}(X \leq t) = \sum_{x \leq t} f(x) \] donde \(f(x) = \mathbb{P}(X = x)\) es la función de masa de probabilidad.

Propiedades de la FDA

Una función \(F: \mathbb{R} \rightarrow [0,1]\) es una FDA si cumple: 1. Acotamiento: \[ 0 \leq F(x) \leq 1 \quad \forall x \in \mathbb{R} \] 2. Comportamiento en infinito: \[ \lim_{x \to -\infty} F(x) = 0 \quad \text{y} \quad \lim_{x \to \infty} F(x) = 1 \] 3. Continuidad por la derecha: \[ \lim_{x \downarrow a} F(x) = F(a) \] 4. Monotonía: \[ x < y \Rightarrow F(x) \leq F(y) \]

Teorema Fundamental

Para cualquier \(a \leq b\): \[ \mathbb{P}(a < X \leq b) = F(b) - F(a) \]

Demostración: - Sean \(A = \{X \leq a\}\) y \(B = \{X \leq b\}\) - Como \(A \subseteq B\), tenemos: \[ \mathbb{P}(B) = \mathbb{P}(A) + \mathbb{P}(a < X \leq b) \] - Reordenando: \[ \mathbb{P}(a < X \leq b) = F(b) - F(a) \]

Ejemplo: Juego de Cartas

Para \(X\) = número de ases en una mano de 13 cartas: - Función de masa: \[ \mathbb{P}(X = x) = \frac{\binom{4}{x}\binom{48}{13-x}}{\binom{52}{13}} \quad \text{para } x = 0,1,2,3,4 \]

  • FDA por partes: \[ F(x) = \begin{cases} 0 & x < 0 \\ f(0) & 0 \leq x < 1 \\ f(0)+f(1) & 1 \leq x < 2 \\ f(0)+f(1)+f(2) & 2 \leq x < 3 \\ f(0)+f(1)+f(2)+f(3) & 3 \leq x < 4 \\ 1 & x \geq 4 \end{cases} \]

Transformación de Variables

Si \(Y = g(X)\), entonces: \[ \mathbb{P}(Y = y) = \sum_{\substack{x \\ g(x) = y}} \mathbb{P}(X = x) \]

Ejercicio Resuelto

Dada \(X\) con función de masa: \[ f(x) = \frac{c}{1+x^2} \quad \text{para } x = 0, \pm1, \pm2, \pm3 \]

  1. Normalización: \[ \sum_{x=-3}^3 \frac{c}{1+x^2} = 1 \Rightarrow c = \left(2\left(\frac{1}{1}+\frac{1}{2}+\frac{1}{5}+\frac{1}{10}\right)\right)^{-1} \]

  2. Transformación \(Y = \sin\left(\frac{\pi}{2}X\right)\):

    • Valores posibles de \(Y\): \(\{-1, 0, 1\}\)
    • Cálculo: \[ \mathbb{P}(Y=1) = \mathbb{P}(X=-3) + \mathbb{P}(X=1) = \frac{c}{10} + \frac{c}{2} \] (Análogo para otros valores)

Diagrama conceptual:

## Esperanza y momentos

  • El concepto de esperanza de una variable aleatoria está relacionado con la idea de promediar los posibles valores que la variable puede tomar. En lugar de utilizar un promedio común, en donde a cada posible valor se le da la misma ponderación, las ponderaciones son asignadas a través de la función de densidad de la variable.

    Esperanza y momentos
    Sea \(X\) una variable aleatoria discreta. Si \(\sum_{i} |x_i|f(x_i) < \infty\), definimos la esperanza (media) de \(X\) como
    \[ \mu = E[X] = \sum_{i}x_if(x_i) \]

  • Veamos el video Variables aleatorias Parte 3

  • La esperanza cumple lo siguiente:

    1. Si \(\mathbb{P}(X = c) = 1\) para una constante \(c\), entonces \(E[X] = c\).
    2. Si \(X,Y\) son variables aleatorias definidas sobre el mismo espacio \(\Omega\), ambas con esperanza finita y si \(\mathbb{P}(X \leq Y) = 1\), entonces \(E[X] \leq E[Y]\).
    3. Si \(X\) tiene esperanza finita y si \(\mathbb{P}(X \geq c) = 1\), entonces \(E[X] \geq c\). De la misma forma, si \(\mathbb{P}(X \leq c) = 1\), entonces \(E[X] \leq c\).
    4. \(|E[X]| \leq E[|X|]\).
    5. Si \(Y = g(X)\), entonces \(E[Y] = \sum_{i}g(x_i)f(x_i)\).
    6. Si \(X_1, X_2, \ldots, X_n\) son variables aleatorias definidas sobre el mismo espacio \(\Omega\), con esperanza finita y si \(c_1, \ldots, c_n\) son constantes, entonces
      \[ E\left[ \sum_{i=1}^{n}c_{i}X_i \right] = \sum_{i=1}^{n}c_iE[X_i] \]
  • Ejercicio: Demuestre que si \(X\) es una variable aleatoria que toma los valores \(0,1,2,\ldots\) y con esperanza finita, entonces
    \[ E[X] = \sum_{n=0}^{\infty} \mathbb{P}(X > n) \]

  • Ejercicio: Sea \(X\) una variable aleatoria con función de densidad
    \[ \mathbb{P}[X = x] = \dfrac{1}{x(x + 1)} \]
    para \(x=1,2,3,\ldots\). Demuestre que \(E[X]\) no existe.

  • Ejercicio: Suponga que \(X\) y \(Y\) son variables aleatorias tales que
    \[ \mathbb{P}(|X - Y| \leq M) = 1 \]
    para alguna constante \(M\). Suponga que \(E[Y] < \infty\) y demuestre que \(X\) tiene esperanza finita y \(|E[X] - E[Y]| \leq M\).

Varianza de una variable aleatoria

  • Definición: Sea \(X\) una variable con media finita. La varianza de \(X\) se define como
    \[ \sigma^2 = Var[X] = E[(X - \mu)^2] \]

  • La desviación estándar de \(X\) se define como \(\sigma = \sqrt{\sigma^2}\).

    Propiedades de la varianza
    La varianza cumple lo siguiente:

    1. Para toda constante \(c \in \mathbb{R}\), \(Var(cX) = c^2Var(X)\).
    2. Para toda constante \(c \in \mathbb{R}\), \(Var(X + c) = Var(X)\).
    3. \(Var(X) \geq 0\), para toda variable aleatoria \(X\). La igualdad se cumple sólo si \(\mathbb{P}(X = c)=1\) para algún número \(c\) constante.
    4. \(Var(X) = E(X^2) - (E[X])^2\).
  • Enlazar espacios muestrales y eventos a los datos es proporcionado por el concepto de Variables Aleatorias.

  • Una variable aleatoria es una función \(X:\Omega \rightarrow \mathbb{R}\) que asigna un número real a cada resultado \(\omega\).

  • Ejemplo: Lanzamos una moneda \(10\) veces. Sea \(X(\omega)\) el número de caras en la secuencia \(\omega\). Por ejemplo, si \(\omega = HHTHHTHHTT\), entonces \(X(\omega) = 6\).

  • Ejemplo: Lancemos dos monedas y sea \(X\) el número de caras. Entonces:

    • \(\mathbb{P}(X = 0) = \mathbb{P}(\{TT\}) = 1/4\)
    • \(\mathbb{P}(X = 1) = \mathbb{P}(\{ HT, TH\}) = 1/2\)
    • \(\mathbb{P}(X = 2) = \mathbb{P}(\{HH \}) = 1/4\)

    Las variables aleatorias y su distribución pueden ser resumidas como sigue:

    \(\omega\) \(\mathbb{P}(\{ \omega \})\) \(X(\omega)\)
    TT 1/4 0
    TH 1/4 1
    HT 1/4 1
    HH 1/4 2
    \(x\) \(\mathbb{P}(X = x)\)
    0 1/4
    1 1/2
    2 1/4
  • Dada una variable aleatoria \(X\) y un subconjunto \(A\) de la línea real, definamos \(X^{-1}(A) = \{\omega \in \Omega: X(\omega) \in A \}\) y sea

\[ \mathbb{P}(X \in A) = \mathbb{P}(X^{-1}(A)) = \mathbb{P}(\{\omega \in \Omega; X(\omega) \in A \}) \] \[ \mathbb{P}(X = x) = \mathbb{P}(X^{-1}(x)) = \mathbb{P}(\{\omega \in \Omega; X(\omega) = x \}) \]

  • Función Distribución y Función de Probabilidad

  • Definición: La Función Distribución Acumulativa o CDF, es la función \(F_{X}: \mathbb{R} \rightarrow [0,1]\) definida como

    \[ F_{X}(x) = \mathbb{P}(X \leq x) \]

    La CDF completamente determina la distribución de una variable aleatoria.

    1. Sea \(X\) que tiene un CDF \(F\) y sea \(Y\) que tiene CDF \(G\). Si \(F(x) = G(x)\) para todo \(x\), entonces \(\mathbb{P}(X \in A) = \mathbb{P}(Y \in A)\) para todo \(A\).

    2. Una función \(F: \mathbb{R} \rightarrow [0,1]\) es un CDF para alguna probabilidad \(\mathbb{P}\) si y sólo si se cumplen las siguientes condiciones:

      • \(F\) es no decreciente: \(x_1 < x_2\) implica \(F(x_1) \leq F(x_2)\).
      • \(F\) es normalizado: \[ \lim_{x \rightarrow -\infty}F(x) = 0 \] y \[ \lim_{x \rightarrow \infty}F(x) = 1 \]
      • \(F\) es continua por la derecha: \(F(x) = F(x^{+})\) para todo \(x\), donde \[ F(x^{+}) = \lim_{y \rightarrow x}F(y) \quad \text{si} \quad y > x \]
    3. Ejemplo: Lanzamos una moneda dos veces y sea \(X\) el número de caras. Entonces \(\mathbb{P}(X = 0) = \mathbb{P}(X = 2) = 1/4\) y \(\mathbb{P}(X = 1) = 1/2\). La función distribución es \[ F_{X}(x) = \begin{cases} 0 & x < 0\\ 1/4 & 0 \leq x < 1\\ 3/4 & 1 \leq x < 2\\ 1 & x \geq 2. \end{cases} \] y el CDF se muestra en la siguiente figura. Se debe notar que la función es continua por la derecha, no decreciente y está definida para todo \(x\), incluso si la variable aleatoria toma los valores \(0, 1\) y \(2\).

    4. Definición: Si \(X\) es discreta si toma valores contables \(\{x_1, x_2, \dots \}\). Definimos la función probabilidad o pmf para \(X\) por \(f_{X}(x) = \mathbb{P}(X = x)\).

      Así, \(f_{X}(x) \geq 0\) para todo \(x \in \mathbb{R}\) y \(\sum_{i}f_{X}(x_i) =1\). El CDF se relaciona con \(f_{X}\) por \[ F_{X}(x) = \mathbb{P}(X \leq x) = \sum_{x_i \leq x}f_{X}(x_i) \]

      La función probabilidad para el ejemplo anterior es \[ f_{X}(x) = \begin{cases} 1/4 & x = 0\\ 1/2 & x = 1\\ 1/4 & x = 2\\ 0 & \text{en otros casos}. \end{cases} \]

    5. Taller 7. Variables aleatorias

    6. Definición: Una variable aleatoria es continua si existe una función \(f_X\) tal que \(f_X(x) \geq 0\) para todo \(x\), \(\int_{-\infty}^{\infty}f_X(x)dx = 1\) y para todo \(a \leq b\), \[ \mathbb{P}(a < X < b) = \int_a^{b}f_{X}(x)dx \]

Distribuciones discretas más comunes

Distribución Uniforme Discreta

  • Si \(Y\) es una variable aleatoria discreta cuyo soporte es el conjunto \(\{y_{1},y_{2}\dots,y_{n}\}\) y tiene distribución uniforme discreta, entonces escribiremos \(Y\sim U\{y_{1},y_{2}\dots,y_{n}\}\)

  • La función de probabilidad de \(Y\) es: \[P\{Y=y\}=1/n\] para \(y = y_{1},y_{2}\dots,y_{n}\)

  • Por ejemplo: \(Y \sim U(0,1,\ldots,9)\) se define como \(P(U = j) = 1/10\), para \(j=0,1,\dots,9\)

  • Valor Esperado: \[E(Y) = \frac{1}{n} \sum_{j=1}^n y_j =\bar{y}=\frac{n+1}{2}\]

  • Varianza: \[V(Y) = \frac{1}{n} \sum_{j=1}^n (y_j - E(Y))^2 =\frac{n^2-1}{12}\]

Ejemplo: Sea \(X\sim U(6)\). Calcular la probabilidad de que \(X=2\)

dunifdisc <- function(x, min=1, max=6) ifelse(x>=min & x<=max & round(x)==x, 1/(max-min+1), 0)
dunifdisc(2)
## [1] 0.1666667
  • Encuentre \(M_Y(t)\) si \(Y \sim U(0,1,\ldots,9)\)

  • Compruebe que la fgm de \(X_n\) es: \[M_{X_n}(t)= \begin{cases} \frac{1}{10^n}\frac{1 - e^t}{1-e^{t10^{-n}}} & \text{para } t \ne 0 \\ 1 & \text{para } t = 0 \end{cases}\]

  • Compruebe que \(M_{X_n}(t) \rightarrow \dfrac{e^t -1}{t}\) cuando \(n \to \infty\) y \(t \ne 0\), utilizando la regla de L’Hôpital: \[\lim_{n\to \infty}\frac{1-e^{t10^{-n}}}{10^{-n}} = t\lim_{h\to 0}\frac{1-e^h}{h} = -t\]

  • Compruebe que si \(X \sim U(0,1)\) entonces: \[M_X(t) = \begin{cases} \frac{e^t-1}{t} & \text{para } t \ne 0 \\ 1 & \text{para } t = 0 \end{cases}\]

  • Concluya que \(X_n \overset{d}{\rightarrow} X\) donde \(X \sim U(0,1)\)

Distribución Binomial

  • Binomial: \(Bin(n,p)\) \[\mathbb{P}(X=x) = \binom{n}{x} p^{x}(1 - p)^{n -x} \qquad x=0,1,\ldots,n\]

  • \(E[X] = np\)

  • \(Var(X) = np(1-p)\)

  • \(E[(X - \mu)^3] = np(1-3p+2p^2)\)

  • \(E[(X - \mu)^4] = np(1-p)[1 + 3(n-2)p(1-p)]\)

Distribución Geométrica

  • Geométrica: \(Geom(p)\) \[\mathbb{P}(X = x) = p(1-p)^{x-1} \qquad x=1,2,3,\ldots\]

    \[\begin{matrix} E[X] = \dfrac{1}{p} & Var(X) = \dfrac{1-p}{p^2} \end{matrix}\]

Binomial Negativa

  • Binomial negativa: \(NegBin(r,p)\) \[\mathbb{P}(X=x) = \binom{x-1}{r-1} p^{r}(1-p)^{x-r}, \qquad x=r,r+1,\ldots\]

  • \(E[X] = \dfrac{r}{p}\)

  • \(Var(X) = \dfrac{r(1-p)}{p^2}\)

Hipergeométrica

  • Hipergeométrica: \(Hiper(n,D,N)\) \[\mathbb{P}(X = x) = \dfrac{\binom{D}{x} \binom{N-D}{n-x}}{\binom{N}{n}}, \qquad \max(0,n-N+D) \leq x \leq \min(n,D)\]

    \[\begin{matrix} E[X] = np, & Var(X) = np(1-p)\left(\dfrac{N-n}{N-1}\right) \end{matrix}\]

## Distribución de Poisson

  • Poisson: \(Poi(\lambda)\) \[\mathbb{P}(X = x) = \dfrac{e^{-\lambda} \lambda^x}{x!} \qquad x=0,1,2,\ldots\]

    \[\begin{matrix} E[X] = \lambda & Var(X) = \lambda \\ E[(X-\lambda)^3] = \lambda & E[(X - \lambda)^4] = 3\lambda^2 + \lambda \end{matrix}\]

Variables Continuas

  • Una variable aleatoria continua toma valores en subintervalos o dentro de conjuntos generados por subintervalos de \(\mathbb{R}\).

  • Algunos ejemplos de variables aleatorias continuas son:

    • Precio de un instrumento financiero
    • Tiempo para que una compañía caiga en incumplimiento de sus obligaciones contractuales
    • Rendimientos de un portafolio
  • Ejemplo: Considere el experimento de elegir un punto al azar dentro del disco de radio \(R\) centrado en el origen. Sea \(X\) la variable aleatoria que denota la distancia entre el punto elegido y el origen. Encuentre la función de distribución de \(X\).

Teorema:
Una variable aleatoria \(X\) es continua si y sólo si su función de distribución \(F\) es continua en todo punto \(x\).

  • Como consecuencia del teorema anterior, para cualesquiera números \(a \leq b\): \[\mathbb{P}(a < X < b) = \mathbb{P}(a \leq X \leq b) = \mathbb{P}(a \leq X < b)\]

Función de Densidad (Caso Continuo)

  • Una función de densidad es una función no negativa \(f \geq 0\) tal que: \[\int_{-\infty}^{\infty} f(x)dx = 1\]

  • Si \(f\) es una función de densidad, entonces la función \(F\) definida por: \[F(x) = \int_{-\infty}^{x} f(y)dy, \qquad -\infty < x < \infty\] es una función de distribución.

  • No todas las funciones de distribución tienen asociada una función de densidad. Aquellas que sí la tienen son llamadas absolutamente continuas.

  • Para una variable aleatoria continua \(X\) con densidad \(f\): \[\mathbb{P}(a \leq X \leq b) = \int_{a}^{b}f(x)dx\]

  • De manera más general, si \(A\) es la unión (numerable) de intervalos disjuntos: \[\mathbb{P}(X \in A) = \int_{A}f(x)dx\]

  • Importante: Si \(F\) es absolutamente continua, la densidad \(f\) no es única (puede modificarse en conjuntos de medida cero sin alterar la integral).

Ejemplo de Variable Continua

Una variable aleatoria continua \(X\) tiene función de densidad: \[ f(x)= \begin{cases} k(6-3x) & \text{si } 0\leq x\leq 2 \\ 0 & \text{si } x<0 \text{ o } x>2 \end{cases} \]

  1. Determinar el valor de \(k\)
  2. Hallar:
    • \(P(X\leq 1)\)
    • \(P(X>2)\)
    • \(P(X=1/4)\)
    • \(P(1/3\leq X\leq 2/3)\)
  3. Calcular \(\mu\) y \(\sigma\)
  4. Hallar la función de distribución \(F(x)\)

Función de densidad caso continuo: Solución (Ejemplo 1)

  1. \(k = \frac{1}{6}\)
    • \(P(X \leq 1) = 0.75\)
    • \(P(X > 2) = 0\)
    • \(P(X = \frac{1}{4}) = 0\)
    • \(P\left(\frac{1}{3} \leq X \leq \frac{2}{3}\right) = \frac{1}{4}\)
    • \(\mu = \frac{2}{3}\)
    • \(\sigma^2 = \frac{2}{9}\)
    • \(\sigma = \frac{\sqrt{2}}{3}\)
  2. Función de distribución: \[ F(x) = \begin{cases} 0 & \text{si } x < 0 \\ x - \frac{x^2}{4} & \text{si } 0 \leq x \leq 2 \\ 1 & \text{si } 2 < x \end{cases} \]

Función de densidad caso continuo: Ejemplo 2

Calcular: 1. \(P\left(\frac{1}{2} \leq X \leq \frac{5}{4}\right) = \frac{19}{32}\) 2. Función de distribución: \[ F(x) = \begin{cases} 0 & \text{si } x < 0 \\ \frac{x^2}{2} & \text{si } 0 \leq x \leq 1 \\ -\frac{x^2}{2} + 2x - 1 & \text{si } 1 < x \leq 2 \\ 1 & \text{si } 2 < x \end{cases} \] 3. - \(\mu = 1\) - \(\sigma^2 = \frac{1}{6}\) - \(\sigma = \frac{1}{\sqrt{6}}\)

Función de densidad caso continuo: Ejemplo 3

Calcular: - \(P(X < 1)\) - \(P(X > 0)\) - \(P\left(X = \frac{1}{4}\right)\) - \(P\left(\frac{1}{2} \leq X \leq \frac{3}{2}\right)\)

Función de densidad caso continuo: Ejemplo 4

La duración de las baterías (en años) tiene función de densidad: \[ f(x) = \begin{cases} 0 & \text{si } x < 0 \\ \frac{e^{-x/10}}{10} & \text{si } x \geq 0 \end{cases} \]

Se pide: 1. Comprobar que \(f(x)\) es función de densidad 2. Calcular la función de distribución 3. Calcular: - Probabilidad que dure menos de 5 años - Probabilidad que dure entre 5 y 10 años 4. Calcular la vida media

Solución (Ejemplo 4)

  1. \[\int_{-\infty}^\infty f(x)\, dx = \left[-e^{-x/10}\right]_0^\infty = 1\]
  2. Función de distribución: \[ F(x) = \begin{cases} 0 & \text{si } x < 0 \\ 1 - e^{-x/10} & \text{si } x \geq 0 \end{cases} \]
    • \(P(X < 5) = 0.3935\)
    • \(P(5 < X < 10) = 0.2387\)
  3. \(\mu = 10\) años

Función de densidad caso continuo: Ejemplo 5

La proporción de cierto aditivo en la gasolina determina su precio. Si en la producción de gasolina la proporción de aditivo es una variable aleatoria \(X\) con función de densidad:

\[ f(x) = 6x(1-x) \quad \text{para } 0 \leq x \leq 1 \]

donde: - Si \(x < 0.5\): gasolina tipo I (precio $0.6) - Si \(0.5 \leq x \leq 0.8\): gasolina tipo II (precio $0.7) - Si \(x > 0.8\): gasolina tipo III (precio $0.8)

Se pide: 1. Calcular la función de distribución de \(X\) 2. Calcular los porcentajes de producción de cada tipo de gasolina 3. Calcular el precio medio por litro

Función de densidad caso continuo: Ejemplo 6

Un empleado suele acudir al trabajo en cualquier instante entre las 6 y las 7 con igual probabilidad. Se pide: 1. Calcular la función de densidad: \[ f(x) = \begin{cases} 0 & \text{si } x < 6 \\ 1 & \text{si } 6 \leq x \leq 7 \\ 0 & \text{si } 7 < x \end{cases} \] 2. Calcular la función de distribución: \[ F(x) = \begin{cases} 0 & \text{si } x < 6 \\ x-6 & \text{si } 6 \leq x \leq 7 \\ 1 & \text{si } 7 < x \end{cases} \] 3. Calcular \(P(6.25 < X < 6.5) = 0.25\) 4. Calcular la hora media: \(\mu = 6.5\) (6 horas y media)

Teorema de cambio de variable

Teorema: Sea \(\psi\) una función derivable, estrictamente creciente o decreciente sobre un intervalo \(I\) con rango \(\psi(I)\). Sea \(X\) una variable aleatoria continua con densidad \(f\) tal que \(f(x) = 0\) para \(x \notin I\). Entonces \(Y = \psi(X)\) tiene densidad:

\[ g(y) = f(\psi^{-1}(y)) \left| \dfrac{d}{dy}\psi^{-1}(y)\right|, \quad y \in \psi(I) \]

Demostración

Sean \(F\) y \(G\) las funciones de distribución de \(X\) y \(Y\) respectivamente.

Caso \(\psi\) creciente: 1. Para \(y \in \psi(I)\): \[ \begin{aligned} G(y) &= \mathbb{P}(Y \leq y) \\ &= \mathbb{P}(\psi(X) \leq y) \\ &= \mathbb{P}(X \leq \psi^{-1}(y)) \\ &= F(\psi^{-1}(y)) \end{aligned} \] 2. Derivando: \[ \begin{aligned} G'(y) &= \dfrac{d}{dy}F(\psi^{-1}(y)) \\ &= f(\psi^{-1}(y))\dfrac{d}{dy}\psi^{-1}(y) \\ &= f(\psi^{-1}(y))\left| \dfrac{d}{dy}\psi^{-1}(y) \right| \end{aligned} \]

Caso \(\psi\) decreciente: 1. Para \(y \in \psi(I)\): \[ \begin{aligned} G(y) &= \mathbb{P}(Y \leq y) \\ &= \mathbb{P}(\psi(X) \leq y) \\ &= \mathbb{P}(X \geq \psi^{-1}(y)) \\ &= 1 - F(\psi^{-1}(y)) \end{aligned} \] 2. Derivando: \[ \begin{aligned} G'(y) &= -f(\psi^{-1}(y))\dfrac{d}{dy}\psi^{-1}(y) \\ &= f(\psi^{-1}(y))\left| \dfrac{d}{dy}\psi^{-1}(y) \right| \end{aligned} \]

Ejercicios de Cambio de Variable

Sea \(X\) una variable aleatoria continua con densidad \(f\). Encuentre la densidad de \(Y = X^2\).

Ejercicio 2 (Hoel pag 119)

Sea \(X\) una variable aleatoria uniformemente distribuida en el intervalo \((0,1)\), esto quiere decir que \(F_X(x) = x\) para \(x \in (0,1)\). Encuentre la función de densidad de \(Y = -\dfrac{1}{\lambda} \ln (1 - X)\) para \(\lambda > 0\).

Ejercicio 3 (Método de la transformada inversa, Hoel pag 131 sección 5.4)

Sea \(X\) una variable aleatoria continua con función de distribución \(F\) y densidad \(f\). Utilizando el teorema, encuentre la distribución de \(Y = F(X)\).

De acuerdo a lo obtenido, ¿cómo generaría un número aleatorio con la misma distribución de \(X\) a partir de un número con la misma distribución de \(Y\)?

Ejercicio 4

Sea \(X\) una variable aleatoria continua positiva, con densidad \(f\). Encuentre una fórmula para la densidad de \(Y = \dfrac{1}{X + 1}\).

Ejercicio 5

Sea \(X\) una variable aleatoria, \(g\) una función de densidad y \(\phi\) una función derivable y estrictamente creciente sobre \((-\infty, \infty)\). Supongamos que

\[ \mathbb{P}(X \leq x) = \int_{-\infty}^{\phi(x)} g(z)dx, \qquad -\infty < x <\infty. \]

Demuestre que \(Y = \phi(X)\) tiene densidad \(g\).

Distribuciones Discretas

Distribución Binomial

  • Binomial: \(Bin(n,p)\) \[ \mathbb{P}(X=x) = \binom{n}{x} p^{x}(1 - p)^{n -x} \qquad x=0,1,\ldots,n. \]
  • \(E[X] = np\), \(Var(X) = np(1-p)\)
  • \(E[(X - \mu)^3] = np(1-3p+2p^2)\)
  • \(E[(X - \mu)^4] = np(1-p)[1 + 3(n-2)p(1-p)]\)

Distribución Geométrica

  • Geométrica: \(Geom(p)\) \[ \mathbb{P}(X = x) = p(1-p)^{x-1} \qquad x=1,2,3,\ldots. \] \[ E[X] = \dfrac{1}{p} \quad Var(X) = \dfrac{1-p}{p^2} \]

Distribución Binomial Negativa

  • Binomial negativa: \(NegBin(r,p)\) \[ \mathbb{P}(X=x) = \binom{x-1}{r-1} p^{r}(1-p)^{x-r}, \qquad x=r,r+1,\ldots. \]
  • \(E[X] = \dfrac{r}{p}\), \(Var(X) = \dfrac{r(1-p)}{p^2}\)

Distribución Hipergeométrica

  • Hipergeométrica: \(Hiper(n,D,N)\)

\[ \mathbb{P}(X = x) = \dfrac{ \binom{D}{x} \binom{N-D}{n-x} }{ \binom{N}{n} }, \qquad n-N+D \leq x \leq D. \] \[ E[X] = np, \quad Var(X) = np(1-p)\left( \dfrac{N-n}{N-1} \right) \]

Distribución Poisson

  • Poisson: \(Poi(\lambda)\) \[ \mathbb{P}(X = x) = \dfrac{e^{-\lambda} \lambda^x }{x!} \qquad x=0,1,2,\ldots. \] \[ E[X] = \lambda \quad Var(X) = \lambda \\ E[(X-\lambda)^3] = \lambda \quad E[(X - \lambda)^4] = 3\lambda^2 + \lambda \]
itle: “Distribuciones Continuas y Variables Aleatorias Multivariadas”
utput: beamer_presentation

Distribuciones continuas más comunes

Distribución Uniforme

Distribución Uniforme \(U(a,b)\)

  • Uniforme: \(U(a,b)\) donde \(a,b \in \mathbb{R}\), \(a < b\)

    \[ f(x) = \dfrac{1}{b-a}, \qquad a \leq x \leq b \]

    \[ E[X] = \dfrac{a + b}{2}; \qquad Var[X] = \dfrac{(b - a)^2}{12} \]

Distribución Exponencial

Distribución Exponencial \(Exp(\lambda)\)

  • Exponencial: \(Exp(\lambda)\) con \(\lambda > 0\)

    \[ f(x) = \dfrac{1}{\lambda} e^{\frac{-x}{\lambda}}, \qquad x > 0 \]

    \[ E[X^n] = \lambda^{n}n!, \qquad n \geq 1 \quad \text{(Tarea: Calcule Var[X])} \]

Distribución Gamma

Distribución Gamma \(Gama(k, \theta)\)

  • Gamma: \(Gama(k, \theta)\)

    • \(k>0\): Parámetro de forma
    • \(\theta>0\): Parámetro de escala

    \[ f(x) = \dfrac{1}{\Gamma(k) \theta^{k}} x^{k - 1} e^{-\frac{x}{\theta}}, \qquad x>0 \]

    \[ \Gamma(k) = \int_{0}^{\infty}e^{-x}x^{k-1}dx \]

    \[ E[X] = k\theta, \quad Var[X] = k\theta^{2} \]

Distribución Cauchy

Distribución Cauchy \(Cauchy(x_0, \gamma)\)

  • Cauchy: \(Cauchy(x_0, \gamma > 0)\)

    • \(x_0 \in \mathbb{R}\): Parámetro de localización
    • \(\gamma > 0\): Parámetro de escala

    \[ f(x) = \dfrac{1}{\pi \gamma \left[ 1 + \left( \dfrac{x - x_0}{\gamma} \right)^2 \right] }, \qquad x\in \mathbb{R} \]

    \[ E[X]= \text{No definida} \]

Distribución Beta

Distribución Beta \(Beta(\alpha, \beta)\)

  • Beta: \(Beta(\alpha, \beta)\) con \(\alpha, \beta > 0\)

    \[ f(x) = \dfrac{x^{\alpha - 1} (1 - x)^{\beta - 1}} {B(\alpha, \beta)}, \qquad 0 \leq x \leq 1 \]

    \[ B(\alpha, \beta) = \int_{0}^{1}x^{\alpha - 1}(1 - x)^{\beta - 1}dx \]

    \[ E[X] = \dfrac{\alpha}{\alpha + \beta}, \quad Var[X] = \dfrac{\alpha \beta}{(\alpha + \beta)^2 (\alpha + \beta + 1)} \]

Distribución Normal

Distribución Normal \(N(\mu, \sigma)\)

  • Normal: \(N(\mu, \sigma)\)
    • \(\mu \in \mathbb{R}\): Parámetro de localización
    • \(\sigma > 0\): Parámetro de escala
    $$ f(x) = \dfrac{1}{
itle: “Ejercicios de Probabilidad”
utput: beamer_presentation

Ejercicios sobre Varianza y Variables Independientes

Ejercicios de Varianza

  • Ejercicio 1: Para variables independientes \(X_1, X_2, \ldots, X_n\):

    \[ Var\left(\sum_{i=1}^{n} X_i\right) = \sum_{i=1}^{n} Var(X_i) \]

  • Ejercicio 2: Para \(X_1, \ldots, X_n\) i.i.d. con varianza \(\sigma^2 < \infty\) y \(\bar{X} = \frac{1}{n}\sum_{i=1}^n X_i\):

    \[ Var(\bar{X}) = \dfrac{\sigma^2}{n} \]

Distribución Normal

Propiedades de la Distribución Normal \(N(\mu, \sigma)\)

  • Función de densidad:

    \[ f(x) = \dfrac{1}{\sigma \sqrt{2 \pi}} e^{-\dfrac{(x - \mu)^2}{2 \sigma^2}}, \quad -\infty < x < \infty \]

  • Momentos:

    \[ E[X] = \mu, \quad Var[X] = \sigma^2 \]

Variables Aleatorias Multivariadas

Covarianza y Correlación

  • Definición de covarianza:

    \[ Cov(X,Y) = E[(X - \mu_X)(Y - \mu_Y)] \]

  • Coeficiente de correlación:

    \[ \rho(X,Y) = \dfrac{Cov(X,Y)}{\sqrt{Var(X)Var(Y)}} \quad \text{(con } -1 \leq \rho \leq 1\text{)} \]

  • Ejercicio: Demuestre que \(Cov(X,Y) = E[XY] - E[X]E[Y]\)

Independencia de Variables Aleatorias

  • Definición de independencia:

    \[ \mathbb{P}(X_1=x_1, \ldots, X_k=x_k) = \prod_{i=1}^k \mathbb{P}(X_i=x_i) \]

  • Ejercicio: Para \(X,Y\) independientes con densidades \(f_X, f_Y\):

    \[ \mathbb{P}(X \in A, Y \in B) = \mathbb{P}(X \in A)\mathbb{P}(Y \in B) \]

Más Ejercicios sobre Independencia

  • Ejercicio 3: Para \(X_1, \ldots, X_n\) independientes:

    \[ E\left[\prod_{i=1}^n X_i\right] = \prod_{i=1}^n E[X_i] \]

  • Consecuencia: Si \(X,Y\) son independientes, \(Cov(X,Y) = 0\)

  • Ejercicios para \(X,Y\) independientes:

    1. Distribución de \(\min(X,Y)\)
    2. Distribución de \(\max(X,Y)\)
    3. Calcular \(\mathbb{P}(\min(X,Y) = X) = \mathbb{P}(Y \geq X)\)
    4. Distribución de \(X + Y\)

Ejercicios Adicionales

  • Ejercicio 4 (Repetición para énfasis):

    \[ Var\left(\sum_{i=1}^n X_i\right) = \sum_{i=1}^n Var(X_i) \quad \text{para } X_i \text{ independientes} \]

  • Ejercicio 5 (Repetición para énfasis):

    \[ Var(\bar{X}) = \dfrac{\sigma^2}{n} \quad \text{para } X_i \text{ i.i.d.} \]

Desigualdades de Chebyshev

Teorema de Chebyshev

Desigualdad de Chebyshev:
Sea \(X\) una variable aleatoria con \(\mathbb{E}(X)=\mu\) y \(\mathbb{V}(X)=\sigma^2\). Para cualquier \(\epsilon>0\):

\[\mathbb{P}(|X-\mu|\geq\epsilon)\leq \frac{\sigma^2}{\epsilon^2}\]

Demostración

  1. \(\sigma^2 = \mathbb{E}[(X-\mu)^2] = \mathbb{E}[(X-\mu)^2 \mathbbm{1}_{\{|X-\mu|\geq\epsilon\}} + (X-\mu)^2 \mathbbm{1}_{\{|X-\mu|<\epsilon\}}]\)
  2. \(= \mathbb{E}[(X-\mu)^2 \mathbbm{1}_{\{|X-\mu|\geq\epsilon\}}] + \mathbb{E}[(X-\mu)^2 \mathbbm{1}_{\{|X-\mu|<\epsilon\}}]\)
  3. \(\geq \mathbb{E}[(X-\mu)^2 \mathbbm{1}_{\{|X-\mu|\geq\epsilon\}}]\)
  4. \(\geq \epsilon^2 \mathbb{E}[\mathbbm{1}_{\{|X-\mu|\geq\epsilon\}}]\)
  5. \(= \epsilon^2 \mathbb{P}(|X-\mu|\geq\epsilon)\)

Convergencia de Variables Aleatorias

Tipos de Convergencia

Convergencia Puntual

\(X_n \rightarrow X\) puntualmente si para cada \(\omega \in \Omega\):
\[\lim_{n\to\infty} X_n(\omega) = X(\omega)\]

Convergencia Casi Segura

\(X_n \xrightarrow{c.s.} X\) si:
\[\mathbb{P}\left(\{\omega \in \Omega: \lim_{n\to\infty} X_n(\omega) = X(\omega)\}\right) = 1\]

Convergencia en Probabilidad

\(X_n \xrightarrow{p} X\) si para todo \(\epsilon>0\):
\[\lim_{n\to\infty} \mathbb{P}(|X_n(\omega)-X(\omega)|>\epsilon) = 0\]

Convergencia en Distribución

\(X_n \xrightarrow{d} X\) si para cada punto de continuidad \(x\) de \(F_X(x)\):
\[\lim_{n\to\infty} F_{X_n}(x) = F_X(x)\]

Ejemplo de Convergencia

Consideremos el espacio de probabilidad: - \(\Omega = [0,1]\) - \(\mathfrak{F} = \mathfrak{B}([0,1])\) (σ-álgebra de Borel) - \(\mathbb{P}([a,b]) = b-a\) (medida de Lebesgue)

Definimos la sucesión de variables aleatorias: \[ X_n(\omega) = \begin{cases} n, & \text{si } 0 \leq \omega \leq \frac{1}{n} \\ 0, & \text{si } \frac{1}{n} < \omega \leq 1 \end{cases} \]

Análisis de convergencia: - No converge puntualmente en \(\omega=0\) - Converge casi seguramente a 0 - Converge en probabilidad a 0 - Converge en distribución a 0

Ejemplos Resueltos

Ejemplo 1: Prueba de Hipótesis para la Media (Prueba t de una muestra)

Problema: Un fabricante afirma que el peso promedio de sus bombillas es de 75 gramos. Se toma una muestra aleatoria de 25 bombillas y se encuentra que el peso promedio es de 72 gramos con una desviación estándar muestral de 5 gramos. ¿Hay evidencia suficiente para rechazar la afirmación del fabricante a un nivel de significancia de \(\alpha = 0.05\)? Asume que el peso de las bombillas sigue una distribución aproximadamente normal.

Solución en Markdown:

  1. Hipótesis:

    • \(H_0: \mu = 75\)
    • \(H_1: \mu \neq 75\) (prueba de dos colas)
  2. Nivel de significancia: \(\alpha = 0.05\)

  3. Estadístico de prueba: Dado que la desviación estándar poblacional es desconocida y la muestra es pequeña, usamos el estadístico t: \[t = \frac{\bar{x} - \mu_0}{s / \sqrt{n}}\]

  4. Cálculo del estadístico de prueba: \[\bar{x} = 72, \mu_0 = 75, s = 5, n = 25\] \[t = \frac{72 - 75}{5 / \sqrt{25}} = \frac{-3}{5 / 5} = \frac{-3}{1} = -3\]

  5. Valor p o región crítica:

    • Valor p: Para una prueba t de dos colas con \(gl = n - 1 = 24\) grados de libertad, el valor p asociado a \(t = -3\) es \(P(|T_{24}| > 3)\). Usando una tabla t o software, este valor p es aproximadamente 0.0067.
    • Región crítica: Para una prueba t de dos colas con \(\alpha = 0.05\) y \(gl = 24\), los valores críticos son \(t_{\alpha/2, 24} = \pm 2.064\).
  6. Decisión:

    • Valor p: Como \(0.0067 \le 0.05\), rechazamos \(H_0\).
    • Región crítica: Como el estadístico de prueba \(t = -3\) cae fuera de la región de no rechazo \((-2.064, 2.064)\), rechazamos \(H_0\).
  7. Conclusión: Hay evidencia estadística suficiente al nivel de significancia de 0.05 para rechazar la afirmación del fabricante de que el peso promedio de sus bombillas es de 75 gramos. La media del peso de las bombillas parece ser diferente de 75 gramos.

Solución en R:

# Datos
muestra_media <- 72
media_nula <- 75
desviacion_estandar_muestra <- 5
tamano_muestra <- 25
alfa <- 0.05

# Prueba t de una muestra
prueba_t <- t.test(rnorm(tamano_muestra, mean = muestra_media, sd = desviacion_estandar_muestra),
                   mu = media_nula,
                   alternative = "two.sided",
                   conf.level = 1 - alfa)
print(prueba_t)

# Valor p
p_valor <- prueba_t$p.value
cat("Valor p:", p_valor, "\n")

# Región crítica
gl <- tamano_muestra - 1
t_critico <- qt(1 - alfa / 2, df = gl)
cat("Región crítica: (-", t_critico, ",", t_critico, ")\n")

# Estadístico de prueba
t_estadistico <- prueba_t$statistic
cat("Estadístico t:", t_estadistico, "\n")

# Visualización de la región crítica y el estadístico de prueba
library(ggplot2)
data.frame(x = seq(-4, 4, 0.01)) %>%
  ggplot(aes(x = x)) +
  stat_function(fun = dt, args = list(df = gl), geom = "area",
                fill = ifelse(abs(seq(-4, 4, 0.01)) > t_critico, "red", "lightblue"),
                alpha = 0.5) +
  geom_vline(xintercept = c(-t_critico, t_critico), linetype = "dashed", color = "red") +
  geom_vline(xintercept = t_estadistico, color = "blue", linewidth = 1) +
  annotate("text", x = -t_critico - 0.5, y = 0.05, label = "-t_critico", color = "red") +
  annotate("text", x = t_critico + 0.5, y = 0.05, label = "t_critico", color = "red") +
  annotate("text", x = t_estadistico + 0.5, y = 0.1, label = "t_estadístico", color = "blue") +
  labs(title = "Prueba t de una muestra", x = "Estadístico t", y = "Densidad") +
  theme_minimal()

Región: El gráfico muestra la distribución t con 24 grados de libertad. Las áreas rojas en las colas representan la región crítica (donde se rechaza \(H_0\)). La línea azul indica la ubicación del estadístico de prueba observado. Como cae en la región roja, rechazamos \(H_0\).

Ejemplo 2: Prueba de Hipótesis para la Proporción (Prueba z de una proporción)

Problema: Una encuesta anterior reveló que el 30% de los votantes apoyaba a un candidato. Después de una campaña, se realiza una nueva encuesta a 200 votantes y se encuentra que el 36% lo apoya. ¿Hay evidencia suficiente para decir que el apoyo al candidato ha aumentado a un nivel de significancia de \(\alpha = 0.01\)?

Solución en Markdown:

  1. Hipótesis:

    • \(H_0: p = 0.30\)
    • \(H_1: p > 0.30\) (prueba de una cola superior)
  2. Nivel de significancia: \(\alpha = 0.01\)

  3. Estadístico de prueba: Usamos el estadístico z para proporciones: \[z = \frac{\hat{p} - p_0}{\sqrt{\frac{p_0(1 - p_0)}{n}}}\]

  4. Cálculo del estadístico de prueba: \[\hat{p} = 0.36, p_0 = 0.30, n = 200\] \[z = \frac{0.36 - 0.30}{\sqrt{\frac{0.30(1 - 0.30)}{200}}} = \frac{0.06}{\sqrt{\frac{0.21}{200}}} = \frac{0.06}{\sqrt{0.00105}} \approx \frac{0.06}{0.0324} \approx 1.85\]

  5. Valor p o región crítica:

    • Valor p: Para una prueba z de una cola superior, el valor p asociado a \(z = 1.85\) es \(P(Z > 1.85) = 1 - P(Z \le 1.85) \approx 1 - 0.9678 = 0.0322\).
    • Región crítica: Para una prueba z de una cola superior con \(\alpha = 0.01\), el valor crítico es \(z_\alpha = z_{0.01} = 2.33\).
  6. Decisión:

    • Valor p: Como \(0.0322 > 0.01\), no rechazamos \(H_0\).
    • Región crítica: Como el estadístico de prueba \(z = 1.85\) no cae dentro de la región crítica \((2.33, \infty)\), no rechazamos \(H_0\).
  7. Conclusión: No hay evidencia estadística suficiente al nivel de significancia de 0.01 para concluir que el apoyo al candidato ha aumentado significativamente después de la campaña.

Solución en R:

# Datos
proporcion_muestra <- 0.36
proporcion_nula <- 0.30
tamano_muestra <- 200
alfa <- 0.01

# Prueba z para una proporción (aproximación usando prop.test con corrección de continuidad desactivada)
prueba_proporcion <- prop.test(proporcion_muestra * tamano_muestra, tamano_muestra, p = proporcion_nula,
                               alternative = "greater", correct = FALSE, conf.level = 1 - alfa)
print(prueba_proporcion)

# Valor p
p_valor <- prueba_proporcion$p.value
cat("Valor p:", p_valor, "\n")

# Región crítica
z_critico <- qnorm(1 - alfa)
cat("Región crítica: (", z_critico, ", Inf)\n")

# Estadístico de prueba
z_estadistico <- (proporcion_muestra - proporcion_nula) / sqrt((proporcion_nula * (1 - proporcion_nula)) / tamano_muestra)
cat("Estadístico z:", z_estadistico, "\n")

# Visualización de la región crítica y el estadístico de prueba
library(ggplot2)
data.frame(x = seq(-3, 3, 0.01)) %>%
  ggplot(aes(x = x)) +
  stat_function(fun = dnorm, geom = "area",
                fill = ifelse(seq(-3, 3, 0.01) > z_critico, "red", "lightblue"),
                alpha = 0.5) +
  geom_vline(xintercept = z_critico, linetype = "dashed", color = "red") +
  geom_vline(xintercept = z_estadistico, color = "blue", linewidth = 1) +
  annotate("text", x = z_critico + 0.5, y = 0.05, label = "z_critico", color = "red") +
  annotate("text", x = z_estadistico + 0.5, y = 0.1, label = "z_estadístico", color = "blue") +
  labs(title = "Prueba z para una proporción (una cola superior)", x = "Estadístico z", y = "Densidad") +
  theme_minimal()

Región: El gráfico muestra la distribución normal estándar. El área roja en la cola derecha representa la región crítica. La línea azul indica la ubicación del estadístico de prueba observado. Como cae en la región azul (de no rechazo), no rechazamos \(H_0\).

Ejemplo 3: Prueba de Hipótesis para la Varianza (Prueba Chi-cuadrado)

Problema: Un proceso de fabricación debe tener una varianza en la longitud de las piezas de no más de 0.5 cm\(^2\). Se toma una muestra de 20 piezas y se encuentra una varianza muestral de 0.8 cm\(^2\). ¿Hay evidencia suficiente para decir que la varianza del proceso es mayor que lo especificado, a un nivel de significancia de \(\alpha = 0.05\)? Asume que la longitud de las piezas sigue una distribución aproximadamente normal.

Solución en Markdown:

  1. Hipótesis:
    • \(H_0: \sigma^2 \le 0.5\)
    • \(H_1: \sigma^2 > 0.5\) (prueba de una cola superior)
  2. Nivel de significancia: \(\alpha = 0.05\)

3 #########################################################################################

Ejemplo: Intervalo de Confianza para la Diferencia de Medias

Una operación de montaje en una fábrica manufacturera requiere aproximadamente un periodo de entrenamiento de un mes para que un nuevo empleado alcance la máxima eficiencia. Se sugirió un nuevo método para el entrenamiento y se realizó una prueba para comparar el método nuevo con el procedimiento estándar. Se entrenaron dos grupos de nueve empleados nuevos durante un periodo de tres semanas; un grupo realizó el nuevo método y el otro grupo el procedimiento de entrenamiento estándar. Las mediciones se muestran a continuación. Estime la diferencia real de las medias \((\mu_1 - \mu_2)\), con un coeficiente de confianza de 0.95. Suponga que los tiempos de montaje tienen aproximadamente una distribución normal y que las varianzas son aproximadamente iguales para los dos métodos.

Intervalos de Confianza para la Diferencia de Medias y la Varianza

Intervalos de Confianza para la Varianza

Ejemplo: Variabilidad de un equipo de medición

Problema:
Un experimentador quiere verificar la variabilidad de un equipo diseñado para medir el volumen de una fuente de audio frecuencia. Tres mediciones independientes registradas con este equipo fueron 4.1, 5.2 y 10.2. Estimar \(\sigma^2\) con un coeficiente de confianza de 0.90.

Solución:

  1. Cálculo de la varianza muestral \(S^2\):
    • Media muestral: \[ \bar{Y} = \frac{4.1 + 5.2 + 10.2}{3} = 6.5 \]
    • Varianza muestral: \[ S^2 = \frac{(4.1 - 6.5)^2 + (5.2 - 6.5)^2 + (10.2 - 6.5)^2}{3 - 1} = 10.57 \]
  2. Cálculo del intervalo de confianza para \(\sigma^2\):
    • Para \(\alpha = 0.10\) y \(n - 1 = 2\) grados de libertad, los valores críticos de \(\chi^2\) son: \[ \chi_{0.05, 2}^2 = 5.991 \quad \text{y} \quad \chi_{0.95, 2}^2 = 0.103 \]
    • El intervalo de confianza es: \[ \text{IC}(\sigma^2) = \left( \frac{(n-1)S^2}{\chi_{\alpha/2, n-1}^2}, \frac{(n-1)S^2}{\chi_{1-\alpha/2, n-1}^2} \right) \] Sustituyendo los valores: \[ \text{IC}(\sigma^2) = \left( \frac{2 \cdot 10.57}{5.991}, \frac{2 \cdot 10.57}{0.103} \right) = (3.53, 205.24) \]
  3. Interpretación:
    El intervalo de confianza para la varianza es \((3.53, 205.24)\). Este intervalo es muy amplio debido al pequeño tamaño de la muestra (\(n = 3\)).

Ejemplo: Varianza del rendimiento de trigo

Problema:
Se sembró cierta variedad de trigo en parcelas de cierta localidad. Se extrajo una muestra aleatoria de 20 parcelas y se midió el rendimiento. Se obtuvo un rendimiento de 58 kilogramos por parcela y una desviación típica de 8 kg por parcela. Estimar la varianza poblacional con un nivel de confianza del 95%, sabiendo que el rendimiento se distribuye normalmente.

Solución:

  1. Cálculo de la varianza muestral \(S^2\): \[ S^2 = 8^2 = 64 \]

  2. Cálculo del intervalo de confianza para \(\sigma^2\):

    • Para \(\alpha = 0.05\) y \(n - 1 = 19\) grados de libertad, los valores críticos de \(\chi^2\) son: \[ \chi_{0.025, 19}^2 = 32.9 \quad \text{y} \quad \chi_{0.975, 19}^2 = 8.91 \]
    • El intervalo de confianza es: \[ \text{IC}(\sigma^2) = \left( \frac{(n-1)S^2}{\chi_{\alpha/2, n-1}^2}, \frac{(n-1)S^2}{\chi_{1-\alpha/2, n-1}^2} \right) \] Sustituyendo los valores: \[ \text{IC}(\sigma^2) = \left( \frac{19 \cdot 64}{32.9}, \frac{19 \cdot 64}{8.91} \right) = (36.96, 136.47) \]
  3. Interpretación:
    El intervalo de confianza para la varianza es \((36.96, 136.47)\). Este intervalo indica que la varianza poblacional del rendimiento de trigo se encuentra entre 36.96 y 136.47 kg² con un nivel de confianza del 95%.

Más sobre las Propiedades de los Estimadores Puntuales

Introducción

En esta parte presentamos un estudio más formal y detallado de algunas de las propiedades matemáticas de los estimadores puntuales, en particular de los conceptos de eficiencia, consistencia y suficiencia. Se presentarán estadísticos de mínima suficiencia y se les utilizará para construir estimadores insesgados de varianza mínima para los parámetros. Posteriormente, se considerarán otros dos métodos útiles para obtener estimadores: el método de los momentos y el método de máxima verosimilitud.


Eficiencia Relativa

Definición

Dados dos estimadores, \(\hat{\theta}_1\) y \(\hat{\theta}_2\), del parámetro \(\theta\), con varianzas \(V(\hat{\theta}_1)\) y \(V(\hat{\theta}_2)\), respectivamente, la eficiencia relativa de \(\hat{\theta}_1\) con respecto a \(\hat{\theta}_2\) se define como la razón entre sus varianzas:

\[ \text{Eficiencia} = \frac{V(\hat{\theta}_2)}{V(\hat{\theta}_1)} \]


Ejemplo: Eficiencia Relativa de dos Estimadores

Sea \(Y_1, Y_2, \dots, Y_n\) una muestra aleatoria de la distribución uniforme en el intervalo \((0, \theta)\). Dos estimadores insesgados para \(\theta\) son:

  1. \(\hat{\theta}_1 = 2\bar{Y}\), donde \(\bar{Y} = \frac{1}{n} \sum_{i=1}^n Y_i\).
  2. \(\hat{\theta}_2 = \frac{n+1}{n} Y_{(n)}\), donde \(Y_{(n)} = \max(Y_1, Y_2, \dots, Y_n)\).

Solución:

  1. Distribución de \(Y_{(n)}\):
    • La función de densidad de \(Y_{(n)}\) es: \[ f_{Y_{(n)}}(y) = n \left( \frac{y}{\theta} \right)^{n-1} \frac{1}{\theta}, \quad 0 \leq y \leq \theta \]
    • La esperanza de \(Y_{(n)}\) es: \[ E(Y_{(n)}) = \frac{n}{n+1} \theta \]
    • Por tanto, \(\hat{\theta}_2\) es insesgado: \[ E(\hat{\theta}_2) = \frac{n+1}{n} E(Y_{(n)}) = \theta \]
  2. Varianza de \(\hat{\theta}_2\):
    • La varianza de \(Y_{(n)}\) es: \[ V(Y_{(n)}) = \left( \frac{n}{n+2} - \left( \frac{n}{n+1} \right)^2 \right) \theta^2 \]
    • Por tanto, la varianza de \(\hat{\theta}_2\) es: \[ V(\hat{\theta}_2) = \left( \frac{n+1}{n} \right)^2 V(Y_{(n)}) = \frac{\theta^2}{n(n+2)} \]
  3. Varianza de \(\hat{\theta}_1\):
    • Para \(\hat{\theta}_1 = 2\bar{Y}\): \[ V(\hat{\theta}_1) = 4 V(\bar{Y}) = 4 \cdot \frac{\theta^2}{12n} = \frac{\theta^2}{3n} \]
  4. Eficiencia Relativa:
    • La eficiencia relativa de \(\hat{\theta}_1\) con respecto a \(\hat{\theta}_2\) es: \[ \text{Eficiencia} = \frac{V(\hat{\theta}_2)}{V(\hat{\theta}_1)} = \frac{\frac{\theta^2}{n(n+2)}}{\frac{\theta^2}{3n}} = \frac{3}{n+2} \]
    • Para \(n > 1\), \(\frac{3}{n+2} < 1\), por lo que \(\hat{\theta}_2\) es más eficiente que \(\hat{\theta}_1\).

Consistencia

Definición

El estimador \(\hat{\theta}_n\) es un estimador consistente de \(\theta\) si para cualquier número positivo \(\epsilon\):

\[ \lim_{n \to \infty} P(|\hat{\theta}_n - \theta| \leq \epsilon) = 1 \]

o, en forma equivalente:

\[ \lim_{n \to \infty} P(|\hat{\theta}_n - \theta| > \epsilon) = 0 \]

En otras palabras, \(\hat{\theta}_n\) es un estimador consistente de \(\theta\) si y solo si \(\hat{\theta}_n\) converge en probabilidad a \(\theta\). Para un estimador insesgado, la consistencia se garantiza si:

\[ \lim_{n \to \infty} V(\hat{\theta}_n) = 0 \]


Ejercicios sobre Consistencia

  1. Consistencia de la Media Muestral:
    Sea \(Y_1, Y_2, \dots, Y_n\) una muestra aleatoria de una distribución con media \(\mu\) y varianza \(\sigma^2 < \infty\). Demuestre que \(\bar{Y}\) es un estimador consistente de \(\mu\).

  2. Operaciones con Estimadores Consistentes:
    Supóngase que \(\hat{\theta}_n\) es un estimador consistente de \(\theta\) y \(\hat{\theta}_n'\) es un estimador consistente de \(\theta'\). Entonces:

      1. \(\hat{\theta}_n + \hat{\theta}_n'\) es un estimador consistente de \(\theta + \theta'\).
      1. \(\hat{\theta}_n \cdot \hat{\theta}_n'\) es un estimador consistente de \(\theta \cdot \theta'\).
      1. \(\frac{\hat{\theta}_n}{\hat{\theta}_n'}\) es un estimador consistente de \(\frac{\theta}{\theta'}\), siempre que \(\theta' \neq 0\).
      1. \(\sqrt{\hat{\theta}_n}\) es un estimador consistente de \(\sqrt{\theta}\), si \(P(\hat{\theta}_n \geq 0) = 1\).
  3. Consistencia de la Varianza Muestral:
    Sea \(Y_1, Y_2, \dots, Y_n\) una muestra aleatoria de una distribución con \(E(Y_i) = \mu\), \(E(Y_i^2) = \mu_2'\), y \(E(Y_i^4) = \mu_4'\) finitos. Demuestre que \(S^2 = \frac{1}{n-1} \sum_{i=1}^n (Y_i - \bar{Y})^2\) es un estimador consistente de \(\sigma^2 = V(Y_i)\).


Suficiencia

Definición

Sea \(Y = (Y_1, Y_2, \dots, Y_n)\) una muestra aleatoria con distribución de probabilidad \(f_Y(y, \theta)\). Se dice que el estadístico \(S(Y) = S(Y_1, Y_2, \dots, Y_n)\) es suficiente para \(\theta\) si:

\[ f_Y(y, \theta) = H(y) \cdot G(S(y), \theta) \]

Es decir, \(S(Y)\) contiene toda la información sobre \(\theta\) presente en la muestra.


Ejercicio: Suficiencia de la Media Muestral

Sea \(Y = (Y_1, Y_2, \dots, Y_n)\) una muestra aleatoria con función de densidad:

\[ f_{Y_i}(y_i, \alpha) = \frac{1}{\alpha} e^{-y_i / \alpha}, \quad y_i \geq 0 \]

Pruebe que \(\bar{Y}\) es un estimador suficiente para \(\alpha\).


Suficiencia Mínima y Estimación Insesgada de Mínima Varianza (EIMV)

Definición

Sea \(Y = (Y_1, Y_2, \dots, Y_n)\) una muestra aleatoria con distribución de probabilidad conjunta \(f_Y(y, \theta)\). Si existe una función \(S(Y)\) tal que el cociente:

\[ \frac{f_Y(x, \theta)}{f_Y(y, \theta)} \]

no depende de \(\theta\) si y solo si \(S(x) = S(y)\), entonces \(S(Y)\) se llama un estimador de mínima suficiencia. Si \(\hat{\theta} = \theta(S(Y))\) es un estimador insesgado, entonces \(\hat{\theta}\) se llama un estimador insesgado de mínima varianza (EIMV).


Ejemplo: EIMV para la Media y Varianza

Suponga que \(Y_1, Y_2, \dots, Y_n\) es una muestra aleatoria de una población normal con media \(\mu\) y varianza \(\sigma^2\) desconocidas. Pruebe que:

  1. \(\bar{Y} = \frac{1}{n} \sum_{i=1}^n Y_i\) es un estimador EIMV para \(\mu\).
  2. \(S^2 = \frac{1}{n-1} \sum_{i=1}^n (Y_i - \bar{Y})^2\) es un estimador EIMV para \(\sigma^2\).

Solución:

  1. Suficiencia Mínima:
    • El cociente de verosimilitudes: \[ \frac{f_Y(x, \theta)}{f_Y(y, \theta)} = \exp\left\{ -\frac{1}{2\sigma^2} \left[ \sum_{i=1}^n (x_i - \mu)^2 - \sum_{i=1}^n (y_i - \mu)^2 \right] \right\} \] no depende de \(\mu\) y \(\sigma^2\) si y solo si \(\sum_{i=1}^n x_i = \sum_{i=1}^n y_i\) y \(\sum_{i=1}^n x_i^2 = \sum_{i=1}^n y_i^2\). Por tanto, \(\sum_{i=1}^n Y_i\) y \(\sum_{i=1}^n Y_i^2\) son estadísticos de mínima suficiencia.
  2. Insesgamiento y Varianza Mínima:
    • \(\bar{Y}\) y \(S^2\) son insesgados para \(\mu\) y \(\sigma^2\), respectivamente, y tienen varianza mínima.

Método de los Momentos

Definición

El método de los momentos consiste en elegir como estimaciones aquellos valores de los parámetros que son soluciones de las ecuaciones:

\[ \mu_k' = E(Y^k) = \frac{1}{n} \sum_{i=1}^n Y_i^k = m_k', \quad k = 1, 2, \dots, t \]

donde \(t\) es igual al número de parámetros.


Método de Máxima Verosimilitud

Definición

El método de máxima verosimilitud consiste en elegir como estimaciones aquellos valores de los parámetros que maximizan la función de verosimilitud:

\[ L(y) = f_Y(y, \theta) = f_Y(y_1, y_2, \dots, y_n, \theta) \]


Ejemplo: Estimadores de Máxima Verosimilitud

Suponga que \(Y_1, Y_2, \dots, Y_n\) es una muestra aleatoria de una población normal con media \(\mu\) y varianza \(\sigma^2\) desconocidas. Pruebe que:

  1. \(\bar{Y} = \frac{1}{n} \sum_{i=1}^n Y_i\) es el estimador de máxima verosimilitud para \(\mu\).
  2. \(S^{*2} = \frac{1}{n} \sum_{i=1}^n (Y_i - \bar{Y})^2\) es el estimador de máxima verosimilitud para \(\sigma^2\).

Solución:

  1. Función de Verosimilitud:
    La función de verosimilitud para una muestra normal es: \[ L(\mu, \sigma^2) = \left( \frac{1}{\sqrt{2\pi\sigma^2}} \right)^n \exp\left\{ -\frac{1}{2\sigma^2} \sum_{i=1}^n (Y_i - \mu)^2 \right\} \]

  2. Maximización:

    • Derivando con respecto a \(\mu\) e igualando a cero, se obtiene \(\hat{\mu} = \bar{Y}\).
    • Derivando con respecto a \(\sigma^2\) e igualando a cero, se obtiene \(\hat{\sigma}^2 = S^{*2}\).

Conclusión

Los conceptos de eficiencia, consistencia y suficiencia son fundamentales para evaluar la calidad de los estimadores puntuales. Además, los métodos de los momentos y de máxima verosimilitud son herramientas poderosas para obtener estimadores en una variedad de contextos estadísticos.

Ejemplos de Intervalos de Confianza para la media Poblacional con Varianza conocida

Ejemplo1. Se quiere obtener un intervalo de confianza para el valor de las ventas medias por hora que se producen en un kiosco. Para ello, se realiza una muestra consistente en elegir al azar las ventas que se realizaron durante 1000 horas distintas; muestra cuyos resultados fueron: ventas medias por hora \(4000\) pts, y varianza de dicha muestra \(4000\) pts\(^2\). Obtener dicho intervalo con un nivel de confianza del \(95.5\%\).

Solución:

Para calcular el intervalo de confianza para la media poblacional \(\mu\), utilizamos la fórmula:

\[ IC = \bar{X} \pm Z_{\alpha/2} \cdot \frac{\sigma}{\sqrt{n}} \]

Donde:
- \(\bar{X} = 4000\) pts (media muestral),
- \(\sigma^2 = 4000\) pts\(^2 \Rightarrow \sigma = \sqrt{4000} \approx 63.25\) pts (desviación estándar muestral),
- \(n = 1000\) (tamaño de la muestra),
- \(Z_{\alpha/2}\) es el valor crítico de la distribución normal estándar para un nivel de confianza del \(95.5\%\).

Paso 1: Encontrar el valor crítico \(Z_{\alpha/2}\).
Para un nivel de confianza del \(95.5\%\), el valor crítico correspondiente es \(Z_{\alpha/2} \approx 2.00\) (usando tablas de la distribución normal estándar).

Paso 2: Calcular el error estándar de la media:
\[ \frac{\sigma}{\sqrt{n}} = \frac{63.25}{\sqrt{1000}} \approx \frac{63.25}{31.623} \approx 2.00 \text{ pts} \]

Paso 3: Construir el intervalo de confianza:
\[ IC = 4000 \pm 2.00 \cdot 2.00 = 4000 \pm 4.00 \text{ pts} \]

Por lo tanto, el intervalo de confianza al \(95.5\%\) para las ventas medias por hora es:

\[ \boxed{(3996, \; 4004)} \]

Opciones de respuesta:

  1. \((3996, \; 4004)\)
  2. \((3990, \; 4010)\)
  3. \((3980, \; 4020)\)
  4. \((3995, \; 4005)\)

Respuesta correcta: \(\boxed{A}\) ################################################################################

Introducción

En estadística inferencial, la probabilidad de que un estimador \(T = T(X_1, \ldots, X_n)\) coincida exactamente con el parámetro de interés \(\theta\) es \(0\). Por ello, en la estimación por intervalo, se selecciona un nivel de confianza (confiabilidad) de \(100(1 - \alpha)\%\) y se construye un intervalo aleatorio tal que la probabilidad frecuentista de que este intervalo contenga a \(\theta\) sea \(1 - \alpha\).

Intervalo de Confianza

Dada una muestra aleatoria \(X_1, \ldots, X_n\), donde \(X_i \stackrel{\text{IID}}{\sim} F_X(\theta)\) para \(i = 1, \ldots, n\), la estimación por intervalo consiste en construir un intervalo aleatorio (cuyos límites son variables aleatorias) tal que:

\[ \textsf{Pr}(L_I \leq \theta \leq L_S) = 1 - \alpha. \]

El valor \(100(1 - \alpha)\%\) se denomina nivel de confianza o confiabilidad. Este valor representa la proporción de intervalos calculados a partir de la muestra aleatoria que contienen a \(\theta\).

Por ejemplo, un intervalo de confianza al 95% indica que el 95% de los intervalos de confianza calculados a partir de realizaciones de una muestra aleatoria incluirían el valor del parámetro de interés.

Ejemplo: Población Normal con Varianza Conocida

Considere una población Normal con media desconocida \(\mu = \textsf{E}(X)\) y varianza conocida \(\sigma^2 = \textsf{Var}(X)\). Construya un intervalo de confianza para \(\mu\) al 95% de confianza basado en una muestra aleatoria \(X_1, \ldots, X_n\) de tamaño \(n\).

Dado que \(X_i \stackrel{\text{IID}}{\sim} \textsf{N}(\mu, \sigma^2)\) para \(i = 1, \ldots, n\), se tiene que \(\bar{X} \sim \textsf{N}(\mu, \sigma^2/n)\). Estandarizando, obtenemos:

\[ Z = \frac{\bar{X} - \mu}{\sigma / \sqrt{n}} \sim \textsf{N}(0, 1). \] Por lo tanto: \[ \textsf{Pr}\left(-1.96 < \frac{\bar{X} - \mu}{\sigma / \sqrt{n}} < 1.96\right) = 0.95. \]

# Percentil 97.5 de N(0,1)
qnorm(p = 0.975)
## [1] 1.959964

Despejando \(\mu\) de esta desigualdad, obtenemos: \[ \textsf{Pr}\left(\bar{X} - 1.96 \frac{\sigma}{\sqrt{n}} < \mu < \bar{X} + 1.96 \frac{\sigma}{\sqrt{n}}\right) = 0.95. \] Así, un intervalo de confianza para \(\mu\) al 95% de confianza es: \[ \textsf{IC}_{95\%}(\mu) = \left(\bar{X} - 1.96 \frac{\sigma}{\sqrt{n}}, \bar{X} + 1.96 \frac{\sigma}{\sqrt{n}}\right) = \left( \bar{X} \pm 1.96 \frac{\sigma}{\sqrt{n}} \right). \] La cantidad \(1.96 \frac{\sigma}{\sqrt{n}}\) se denomina margen de error.

Ejemplo: Intervalo de Confianza para \(\mu\) con Confiabilidad \(100(1 - \alpha)\%\)

En el ejemplo anterior, si la confiabilidad es de \(100(1 - \alpha)\%\), el intervalo de confianza para \(\mu\) es: \[ \textsf{IC}_{100(1 - \alpha)\%}(\mu) = \left(\bar{X} - z_{1 - \alpha/2} \frac{\sigma}{\sqrt{n}}, \bar{X} + z_{1 - \alpha/2} \frac{\sigma}{\sqrt{n}}\right) = \left( \bar{X} \pm z_{1 - \alpha/2} \frac{\sigma}{\sqrt{n}} \right), \] donde \(z_{1 - \alpha/2}\) es el percentil \(100(1 - \alpha/2)\) de la distribución normal estándar.

Ejemplo: Simulación de un Intervalo de Confianza

Simule una muestra aleatoria de tamaño \(n = 30\) de una población Normal con media \(\mu = 10\) y desviación estándar \(\sigma = 1\). A partir de esta muestra, calcule el intervalo de confianza para \(\mu\) al 95% de confianza.

# Parámetros de la población (modelo)
mu <- 10
sigma <- 1
# Simulación de la muestra aleatoria
set.seed(1)
x <- rnorm(n = 30, mean = mu, sd = sigma)
x
##  [1]  9.373546 10.183643  9.164371 11.595281 10.329508  9.179532 10.487429
##  [8] 10.738325 10.575781  9.694612 11.511781 10.389843  9.378759  7.785300
## [15] 11.124931  9.955066  9.983810 10.943836 10.821221 10.593901 10.918977
## [22] 10.782136 10.074565  8.010648 10.619826  9.943871  9.844204  8.529248
## [29]  9.521850 10.417942
# Cálculo del intervalo de confianza al 95%
# Tamaño de la muestra
n <- length(x)
n
## [1] 30
# Estimación puntual
xb <- mean(x)
xb
## [1] 10.08246
# Percentil
z975 <- qnorm(p = 0.975)
z975
## [1] 1.959964
# Margen de error
me <- z975 * sigma / sqrt(n)
me
## [1] 0.3578388
# Límite inferior
xb - me
## [1] 9.724619
# Límite superior
xb + me
## [1] 10.4403

Ejemplo: Simulación de Múltiples Intervalos de Confianza

Simule 1,000,000 de muestras aleatorias de tamaño \(n = 30\) de una población Normal con media \(\mu = 10\) y desviación estándar \(\sigma = 1\). Para cada muestra, calcule el intervalo de confianza para \(\mu\) al 95% de confianza. ¿Qué proporción de intervalos contiene el valor de \(\mu\)?

# Parámetros de la población (modelo)
mu <- 10
sigma <- 1
# Tamaño de la muestra
n <- 30
# Percentil
z975 <- qnorm(p = 0.975)
# Número de simulaciones
M <- 1000000
# Objeto para almacenar los intervalos
IC <- matrix(data = NA, nrow = M, ncol = 2)
# Simulación
set.seed(1)
for (i in 1:M) {
  x <- rnorm(n = 30, mean = mu, sd = sigma)
  IC[i, 1] <- mean(x) - z975 * sigma / sqrt(n)
  IC[i, 2] <- mean(x) + z975 * sigma / sqrt(n)
}
# Inspección
dim(IC)
## [1] 1000000       2
head(IC)
##          [,1]     [,2]
## [1,] 9.724619 10.44030
## [2,] 9.774936 10.49061
## [3,] 9.752439 10.46812
## [4,] 9.755494 10.47117
## [5,] 9.312133 10.02781
## [6,] 9.879164 10.59484
# Cobertura
tmp <- (IC[, 1] < mu) & (mu < IC[, 2])
head(tmp)
## [1] TRUE TRUE TRUE TRUE TRUE TRUE
# Proporción
mean(tmp)
## [1] 0.949869

Observaciones

  • Antes de observar los datos, los límites del intervalo son aleatorios.
  • Una vez se tiene una realización de la muestra, los límites del intervalo pierden su carácter aleatorio y se convierten en valores observados. Por lo tanto, la probabilidad frecuentista de que el intervalo calculado contenga \(\theta\) es \(0\) o \(1\).
  • La confianza se encuentra en el proceso de construcción del intervalo, no en los resultados obtenidos en un caso particular.

El Método de la Variable Aleatoria Pivote

Dada una muestra aleatoria \(X_1, \ldots, X_n\), donde \(X_i \stackrel{\text{IID}}{\sim} F_X(\theta)\) para \(i = 1, \ldots, n\), una función \(Q = Q(X_1, \ldots, X_n)\) es una variable aleatoria pivote para \(\theta\) si la distribución de \(Q\) no depende de \(\theta\).

El procedimiento para encontrar los límites del intervalo es:

  1. Encontrar una v.a. pivote \(Q\) para \(\theta\).
  2. Determinar la distribución muestral de \(Q\) para hallar valores \(a\) y \(b\) tales que: \[ \textsf{Pr}(a \leq Q \leq b) = 1 - \alpha. \]
  3. Despejar \(\theta\) en la desigualdad anterior para obtener los límites del intervalo: \[ \textsf{Pr}(L_I \leq \theta \leq L_S) = 1 - \alpha. \]

Ejemplo: Población No Necesariamente Normal con Varianza Conocida

Considere una población no necesariamente Normal con media desconocida \(\mu = \textsf{E}(X)\) y varianza conocida \(\sigma^2 = \textsf{Var}(X)\). Construya un intervalo de confianza para \(\mu\) al \(100(1 - \alpha)\%\) de confianza basado en una muestra aleatoria \(X_1, \ldots, X_n\) de tamaño \(n\).

Por el Teorema del Límite Central, \(\bar{X} \sim \textsf{N}(\mu, \sigma^2/n)\) si \(n\) es grande. Estandarizando, obtenemos: \[ Z = \frac{\bar{X} - \mu}{\sigma / \sqrt{n}} \sim \textsf{N}(0, 1). \]

Por lo tanto, un intervalo de confianza para \(\mu\) al \(100(1 - \alpha)\%\) de confianza es: \[ \textsf{IC}_{100(1 - \alpha)\%}(\mu) = \left(\bar{X} - z_{1 - \alpha/2} \frac{\sigma}{\sqrt{n}}, \bar{X} + z_{1 - \alpha/2} \frac{\sigma}{\sqrt{n}}\right) = \left( \bar{X} \pm z_{1 - \alpha/2} \frac{\sigma}{\sqrt{n}} \right), \] donde \(z_{1 - \alpha/2}\) es el percentil \(100(1 - \alpha/2)\) de la distribución normal estándar.

Ejemplo: Población No Necesariamente Normal con Varianza Desconocida

Considere una población no necesariamente Normal con media desconocida \(\mu = \textsf{E}(X)\) y varianza desconocida \(\sigma^2 = \textsf{Var}(X)\). Construya un intervalo de confianza para \(\mu\) al \(100(1 - \alpha)\%\) de confianza basado en una muestra aleatoria \(X_1, \ldots, X_n\) de tamaño \(n\).

En este caso, \(\bar{X} \sim \textsf{N}(\mu, S^2/n)\) si \(n\) es grande, donde \(S\) es la desviación estándar muestral: \[ S = \sqrt{\frac{1}{n - 1} \sum_{i=1}^n (X_i - \bar{X})^2} = \sqrt{\frac{1}{n - 1} \left(\sum_{i=1}^n X_i^2 - n \bar{X}^2\right)}. \]

Estandarizando, obtenemos: \[ Z = \frac{\bar{X} - \mu}{S / \sqrt{n}} \sim \textsf{N}(0, 1). \]

Por lo tanto, un intervalo de confianza para \(\mu\) al \(100(1 - \alpha)\%\) de confianza es: \[ \textsf{IC}_{100(1 - \alpha)\%}(\mu) = \left(\bar{X} - z_{1 - \alpha/2} \frac{S}{\sqrt{n}}, \bar{X} + z_{1 - \alpha/2} \frac{S}{\sqrt{n}}\right) = \left( \bar{X} \pm z_{1 - \alpha/2} \frac{S}{\sqrt{n}} \right). \]

Ejercicio: Aplicación en Topografía

Los métodos de interpolación se utilizan para calcular alturas superiores al nivel del mar en ubicaciones donde las mediciones directas no están disponibles. En el artículo Transformation of Ellipsoid Heights to Local Leveling Heights (M. Yanalak y O. Baykal, en Journal of Surveying Engineering, 2001:90-103), se evalúa un método de interpolación basado en un polinomio de segundo orden para calcular alturas a partir de mediciones GPS. En una muestra de 74 ubicaciones, los errores del método tienen un promedio de 3.8 cm, con una desviación estándar de 4.8 cm.

  1. Determine un intervalo de confianza de 95% para la media del error de este método.
  2. Determine un intervalo de confianza de 98% para la media del error de este método.
  3. Un topógrafo afirma que el error de media está entre 3.2 y 4.4 cm. ¿Con qué nivel de confianza se puede hacer esta afirmación?
  4. ¿Aproximadamente cuántas ubicaciones se deben muestrear para que un intervalo de confianza de 95% especifique que la media está dentro de \(\pm 0.7\) cm?
  5. ¿Aproximadamente cuántas ubicaciones se deben muestrear para que un intervalo de confianza de 98% especifique que la media está dentro de \(\pm 0.7\) cm?

Mejoras realizadas:

  1. Organización: Se mejoró la estructura del documento para que sea más clara y coherente.
  2. Redacción: Se ajustó la redacción para que sea más precisa y profesional.
  3. Formato: Se corrigieron errores de formato en las ecuaciones y se mejoró la presentación de los bloques de código.
  4. Claridad: Se añadieron explicaciones adicionales para facilitar la comprensión de los conceptos.

Este documento está listo para ser ejecutado en Google Colab o cualquier entorno que soporte R Markdown.

Aquí tienes el texto formateado en RMarkdown con las expresiones matemáticas encerradas en $ y $$ según corresponda:

Prueba de Hipótesis Estadística

Introducción

La Estadística Inferencial es el proceso de usar la información de una muestra para describir el estado de una población. Sin embargo, es frecuente que usemos la información de una muestra para probar un reclamo o conjetura sobre la población. El reclamo o conjetura se refiere a una hipótesis.
El proceso que corrobora si la información de una muestra sostiene o refuta el reclamo se llama Prueba de Hipótesis. En muchos aspectos, el procedimiento formal para la prueba de hipótesis es similar al método científico. El científico observa la naturaleza, establece una teoría y después prueba su teoría respecto de la observación.

En este contexto, el científico propone una teoría relativa a los valores específicos de uno o más parámetros poblacionales. Luego obtiene una muestra de la población y compara la observación con la teoría. Si las observaciones se contraponen a la teoría, el científico rechaza la hipótesis. En caso contrario, concluye que la teoría es válida o bien que la muestra no detectó la diferencia entre los valores reales y los valores de la hipótesis respecto a los parámetros poblacionales.

Por ejemplo,
un investigador en medicina puede proponer la hipótesis de que un medicamento es más efectivo que otro para curar cierta enfermedad. Para probar su hipótesis, selecciona al azar unos pacientes afectados por la enfermedad y los divide aleatoriamente en dos grupos. Se aplica entonces el nuevo medicamento A al primer grupo de pacientes y el otro medicamento B al segundo grupo. Posteriormente, el investigador debe decidir, basándose en el número de pacientes curados en cada grupo, si el nuevo medicamento es más eficaz o no que el anterior.
Las pruebas de hipótesis se realizan en todos los ámbitos en los cuales puede contrastarse la teoría frente a la observación.

Prueba de Hipótesis

Considere el siguiente problema: Un productor de fármacos afirma que tiene una droga cuya aplicación debe aumentar la probabilidad de que nazca una niña de 50% hasta 70%, por lo menos. Se quiere verificar la validez de esta afirmación.
La solución podría consistir de los siguientes pasos:

Paso 1.

Se puede asociar al problema un modelo probabilístico (el cual modela la situación planteada), en el cual la variable de interés “nacimiento de un bebé” está representada por \(Y \sim B(1, \theta)\) con las codificaciones:
- \(y = 1\), si el bebé es una niña;
- \(y = 0\), si el bebé es un niño.

Es decir, el parámetro de interés es \(\theta\), la probabilidad de que nazca una niña.
Como hipótesis nula \(H_0\) se puede escoger \(\theta = 0.5\), que refleja la situación normal, contra la alternativa \(H_1\) de que \(\theta = 0.7\), que refleja la afirmación del productor de fármacos.

Paso 2.

Para ver cómo realmente actúa la droga en cuestión, se escogen, digamos, \(n = 20\) mujeres, independientemente; se aplica la droga a cada una de ellas y se observa, después del debido tiempo, si la mamá \(i\) da a luz a una niña o a un niño. Así se obtiene el modelo estadístico correspondiente, dado por una muestra \(Y = (Y_1, Y_2, \dots, Y_n)\) de tamaño \(n = 20\), con variables muestrales \(Y_i \sim B(1, \theta)\).
Para un experimento concreto, se obtienen los datos \(y = (y_1, y_2, \dots, y_n)\), siendo cada \(y_i \in \{0, 1\}\).

Paso 3.

Se apuntará \(\sum_{i=1}^n y_i =:\) el número de niñas entre los \(n\) bebés nacidos, que es un valor de la estadística

\[ T(Y) = \sum_{i=1}^n Y_i \sim B(n, \theta). \]

Intuitivamente, se rechazará la hipótesis \(H_0\) si \(T(y) \geq c\) para un valor \(c\) “suficientemente grande”, es decir, si hay “muchas” niñas.
Es claro que para \(T(y) = 20\) se rechazará \(H_0\) en favor de la afirmación del productor, y si también nacen 19 niñas; pero ¿con cuál número empiezan las dudas? ¿Desde cuál número se va a creer más en \(H_1\) que en \(H_0\)?
Para poder dar respuestas adecuadas a las preguntas formuladas en el paso 3 del ejemplo y a problemas semejantes, se necesitan formalizar los procedimientos de una prueba de hipótesis, que será un análisis estadístico que completará los resultados obtenidos por la estimación puntual.

Una prueba de hipótesis está dada por los pasos siguientes:

  1. Se parte de un modelo probabilístico asociado al problema, donde la variable de interés tiene una distribución que depende de un parámetro de interés \(\theta\). Según el problema, se escoge una hipótesis nula \(H_0: \theta \in \Theta_0\) junto con una hipótesis alternativa \(H_1: \theta \in \Theta_1\), donde \(\Theta_0 \uplus \Theta_1\) es una unión disyunta del espacio del parámetro \(\Theta\). Nótese que \(\Theta_1\) no necesariamente es la alternativa lógica.
  2. El modelo probabilístico correspondiente está formado por una muestra \(Y = (Y_1, Y_2, \dots, Y_n)\) de tamaño \(n\), cuya distribución \(f_\theta\) debe ser conocida para cada \(\theta\) y calculable, al menos para \(\theta \in \Theta_0\). De una observación concreta resultan los datos \(y = (y_1, y_2, \dots, y_n)\).
  3. Se escoge una estadística \(T(Y)\) unidimensional de tal manera que tiene sentido para el problema: rechazar \(H_0\) con base en \(y = (y_1, y_2, \dots, y_n)\) si y solo si \(T(y) \geq c\), donde \(c\) es determinado atendiendo los criterios de: error tipo I, p-valor, errores tipo I y tipo II.

Definición.

A menor p-valor, mayor tranquilidad para rechazar la hipótesis \(H_0\), porque la probabilidad del error tipo I será más pequeña. Para un p-valor \(\alpha(T(y)) > 5\%\), “se acepta la hipótesis \(H_0\)” en el sentido de que “no se pudo encontrar una desviación algo significativa”; mejor sería hablar de no rechazar \(H_0\), como se verá más adelante.
Si \(W\) es un estadístico de prueba, el valor-p o nivel de significación alcanzado es el mínimo nivel de significación \(\alpha\), para el cual los datos observados indican que se tendría que rechazar la hipótesis nula.

Continuación del ejemplo.

Como la estadística de prueba es

\[ T(Y) = \sum_{i=1}^{20} Y_i \sim B(20, \theta), \]

y como \(H_0: \theta = 0.5\), se hace uso de una tabla para \(B(20, 0.5)\) los posibles valores críticos \(c\) junto con las posibilidades del error tipo I:

\(c\) 14 15 16 17 18
\(P(T(Y) \geq c \mid 0.5)\) 0.0577 0.0207 0.0059 0.0013 0.0002

Se rechaza \(H_0\) a nivel de 5% si

\[ T(y) \in \{15, 16, \dots, 20\}, \]

se rechaza \(H_0\) a nivel de 1% si

\[ T(y) \in \{16, \dots, 20\}, \]

se rechaza \(H_0\) a nivel de 0.1% si

\[ T(y) \in \{18, 19, 20\}. \]

En conclusión, si se observan \(t \in \{0, \dots, 14\}\) nacimientos de niñas, entonces se acepta \(H_0: \theta = 0.5\), rechazando la afirmación del productor; si se observan \(t = 15\), esto puede ser indicio para que el productor tenga razón.
Si se observan \(t = 16\) o \(17\), esto se interpreta como una desviación significativa de \(H_0\), creyendo ya en la afirmación del productor; y finalmente, si se observan por lo menos \(t = 18\), se acepta de manera significativa la afirmación del productor.

Errores tipo I y tipo II.

\(H_0\) es falsa \(H_0\) es verdadera
Rechazar \(H_0\) Decisión correcta Error tipo I (prob. controlada)
No rechazar \(H_0\) (“aceptar” \(H_0\)) Error tipo II (prob. no controlada) Decisión correcta

Ahora se trata de escoger el valor crítico \(c\) tal que

\[ P(T(Y) \geq c \mid H_0) \leq \alpha \]

es válida y además, para cierto \(\beta_0 \in (0, 1)\) fijo,

\[ P(T(Y) < c \mid H_1) \leq \beta, \]

y tal que esta probabilidad sea lo más cercana a \(\beta\).
Aquí “\(T(Y) < c \mid H_1\)” significa “aceptar \(H_0\) a pesar de que \(H_1\) sea correcta”, una decisión errónea del estadístico, a la cual se llama error tipo II. Sería deseable fijar \(1 - \beta\) “cerca” de 1, para asegurar que la probabilidad del error tipo II esté “cerca” de 0. Típicamente, no es posible controlar las probabilidades de ambos errores a la vez, si se fija el tamaño \(n\) de la muestra de antemano.
Una solución a este dilema es diseñar la prueba de tal manera que el error tipo II no sea tan grave; es decir, se deben escoger \(H_0\) y \(H_1\) adecuadamente. Otra solución, a veces posible, es aumentar \(n\) hasta que se puedan cumplir, en este caso, como \(n\) es grande, se usan aproximaciones de la distribución de la estadística de prueba, preferiblemente con una distribución normal.

Aproximación de una distribución binomial por la distribución normal.

Sea \(Y \sim B(n, p)\). Entonces, vale aproximadamente:

\[ P(c \leq Y \leq d \mid p) \approx \Phi\left(\frac{d - np + 1/2}{\sqrt{np(1-p)}}\right) - \Phi\left(\frac{c - np - 1/2}{\sqrt{np(1-p)}}\right), \]

donde \(\Phi \sim N(0, 1)\). Nótese que una aproximación generalmente es suficientemente buena si \(np \geq 5\) y \(n(1-p) \geq 5\).

Continuación del ejemplo.

Buscaremos el tamaño \(n\) de la muestra y el valor \(c\), tales que cumplan

  1. \(P(T(Y) \geq c \mid 0.5) \leq \alpha\), por ejemplo, con \(\alpha = 0.01\),
  2. \(P(T(Y) < c \mid 0.7) \leq \beta\), por ejemplo, con \(1 - \beta = 0.95\),

simultáneamente. Usando el teorema de aproximación, se puede escribir \(1 - \Phi(c_1) = 0.01\) con

\[ \frac{c - 0.5n - 0.5}{0.5\sqrt{n}} = c_1, \]

y \(\Phi(c_2) = 0.05\) con

\[ \frac{c - 0.7n - 0.5}{0.1\sqrt{21n}} = c_2. \]

De la tabla para \(\Phi\) se encuentran los valores \(c_1 = 2.325\), \(c_2 = -1.645\) y que se debe escoger \(n = 92\), \(c = 58\).

Ejemplo.

En conclusión, si \(t \in \{58, 59, \dots, 92\}\), entonces se rechaza la hipótesis \(H_0\), aceptando la afirmación del productor y cometiendo un error de tipo I con una probabilidad de, a lo más, 1%. Si \(t \in \{0, 1, \dots, 57\}\), entonces no se acepta la afirmación del productor, y se comete un error tipo II con una probabilidad de, a lo más, 5%.
En el ejercicio original, si \(c = 15\), \(P(T(Y) < 15 \mid 0.7) = \beta = 0.584\), este valor grande para el error tipo II indica que las muestras de tamaño 20 no suelen detectar la diferencia de un 20% en la proporción hipotética, y como ya vimos, este puede reducirse si se aumenta el tamaño muestral.
La decisión de “aceptar” la hipótesis \(H_0\) es, por lo tanto, una decisión dudosa, siempre y cuando no se conozca la probabilidad de una posible decisión errónea. Es aconsejable decir que “no se puede rechazar \(H_0\)” o “los datos no contradicen \(H_0\)” o simplemente “La muestra no presenta evidencia significativa para rechazar \(H_0\)”.

Este texto está listo para ser compilado en RMarkdown. Las expresiones matemáticas están correctamente encerradas en $ para inline y $$ para ecuaciones centradas. ################################################################################

Elementos comunes en prueba de hipótesis con muestras grandes

Supongamos que se quiere probar una hipótesis referente al parámetro \(\theta\), basado en una muestra aleatoria \(Y = (Y_1, Y_2, \dots, Y_n)\) y en el estimador \(\hat{\theta}\), que tiene (aproximadamente) una distribución normal con media \(\theta\) y varianza \(\sigma_{\hat{\theta}}^2\).

Parámetro:

El parámetro de interés es:

\[ \theta \in \{\mu, p, \mu_1 - \mu_2, p_1 - p_2\} \]

Estimador:

El estimador del parámetro de interés es:

\[ \hat{\theta} \in \{\bar{Y}, \hat{p}, \bar{Y}_1 - \bar{Y}_2, \hat{p}_1 - \hat{p}_2\} \]

Desviación del estimador:

La desviación del estimador del parámetro de interés es:

\[ \sigma_{\hat{\theta}} \in \left\{ \frac{\sigma}{\sqrt{n}}, \sqrt{\frac{p_0 (1 - p_0)}{n}}, \sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}}, \sqrt{\frac{p_1 (1 - p_1)}{n} + \frac{p_2 (1 - p_2)}{n}} \right\} \]

Hipótesis:

Las hipótesis a probar son:

\[ \begin{cases} H_0: \theta = \theta_0 \\ H_1: \begin{cases} \theta > \theta_0 & \text{(alternativa de cola superior)} \\ \theta < \theta_0 & \text{(alternativa de cola inferior)} \\ \theta \neq \theta_0 & \text{(alternativa de dos colas)} \end{cases} \end{cases} \]

Nivel de Significancia:

La prueba se realiza con nivel de significancia:

\[ \alpha \in \{0.05, 0.01, 0.1\} \]

Estadístico de prueba:

De los datos muestrales se calcula el valor experimental:

\[ Z_p = \frac{\hat{\theta} - \theta_0}{\sigma_{\hat{\theta}}} \]

Región de rechazo:

Se rechaza \(H_0\) en favor de \(H_1\) si ocurre que:

\[ \begin{cases} Z_p > z_\alpha & \text{(RR de cola superior)} \\ Z_p < -z_\alpha & \text{(RR de cola inferior)} \\ |Z_p| > z_{\alpha/2} & \text{(RR de dos colas)} \end{cases} \]

Valor p:

El valor p de la prueba se obtiene:

\[ \text{valor p} = \begin{cases} P(Z > Z_p) & \text{(RR de cola superior)} \\ P(Z < -Z_p) & \text{(RR de cola inferior)} \\ 2P(Z > |Z_p|) & \text{(RR de dos colas)} \end{cases} \]

Conclusión:

La significancia de la prueba se establece de la siguiente forma:

  1. Se rechaza \(H_0\) en favor de \(H_1\) casi significativamente si ocurre que \(1\% < \text{valor p} \leq 5\%\). (\(^{*}\))
  2. Se rechaza \(H_0\) en favor de \(H_1\) significativamente si ocurre que \(0.1\% < \text{valor p} \leq 1\%\). (\(^{**}\))
  3. Se rechaza \(H_0\) en favor de \(H_1\) muy significativamente si ocurre que \(0 \leq \text{valor p} \leq 0.1\%\). (\(^{***}\))

Ejemplo 1:

El vicepresidente a cargo de las ventas de una gran corporación afirma que los vendedores tienen un promedio no mayor de 15 prospectos de ventas por semana. (Desearía aumentar esta cifra.) Se seleccionan al azar \(n = 36\) vendedores para verificar su afirmación, y se registra el número de contactos en una sola semana seleccionada en forma aleatoria. La muestra tiene una media de 17 prospectos y una varianza de 9. ¿Contradicen los hechos la afirmación del presidente? Utilice \(\alpha = 0.05\).

Solución:

  1. Nos interesa probar una hipótesis acerca del número promedio de ventas por semana \(\mu\). Específicamente, probamos \(H_0: \mu = 15\) frente a \(H_1: \mu > 15\).

  2. Se sabe que la media muestral \(\bar{Y}\) es un estimador puntual de \(\mu\) que satisface los supuestos antes descritos. Por lo tanto, el estadístico de prueba es:

    \[ Z = \frac{\bar{Y} - \mu_0}{\sigma_{\bar{Y}}} = \frac{\bar{Y} - \mu_0}{\sigma / \sqrt{n}} \]

  3. La región de rechazo, con \(\alpha = 0.05\), está dada por \(z > 1.645\).

  4. La varianza de la población, \(\sigma^2\), se desconoce, pero se puede estimar muy acertadamente (ya que \(n = 36\) es suficientemente grande) por la varianza muestral \(s^2 = 9\).

  5. Por lo tanto, el valor observado del estadístico de la prueba es aproximadamente:

    \[ z = \frac{\bar{y} - \mu_0}{s / \sqrt{n}} = \frac{17 - 15}{3 / \sqrt{36}} = 4 \]

  6. Como el valor observado de \(Z\) cae en la región de rechazo (excede \(z_{0.05} = 1.645\)), rechazamos \(H_0: \mu = 15\). Por lo tanto, resulta que la afirmación del vicepresidente es incorrecta y que el número promedio de prospectos de venta por semana excede a 15.


Ejemplo 2:

Se tiene que reparar una máquina en cierta fábrica si produce más de 10% de artículos defectuosos del gran lote de producción de un día. Una muestra aleatoria de 100 artículos de la producción diaria contiene 15 defectuosos, y el capataz decide que debe repararse la máquina. ¿La evidencia de la muestra apoya su decisión? Utilice \(\alpha = 0.01\).

Solución:

  1. Si \(Y\) denota el número de artículos defectuosos observados, entonces \(Y\) es una variable aleatoria binomial, con \(p\) la probabilidad de que el artículo seleccionado al azar sea defectuoso. Por lo tanto, queremos probar la hipótesis nula \(H_0: p = 0.10\) frente a \(H_1: p > 0.10\).

  2. El estadístico de prueba basado en \(\hat{p} = Y/n\), el estimador puntual insesgado de \(p\), está dado por:

    \[ Z = \frac{\hat{p} - p_0}{\sigma_{\hat{p}}} = \frac{\hat{p} - p_0}{\sqrt{\frac{p_0 (1 - p_0)}{n}}} \]

    (Se hubiese podido usar \(\frac{\hat{p}(1 - \hat{p})}{n}\) para aproximar a \(\sigma_{\hat{p}}^2\), pero como consideramos la distribución \(Z\) conforme a \(H_0\), es más apropiado utilizar \(\frac{p_0 (1 - p_0)}{n}\), el valor real de \(\sigma_{\hat{p}}^2\) cuando \(H_0\) es verdadera).

  3. La región de rechazo, con \(\alpha = 0.01\), está dada por \(z > 2.33\).

  4. El valor observado del estadístico de la prueba es aproximadamente:

    \[ z = \frac{\hat{p} - p_0}{\sqrt{\frac{p_0 (1 - p_0)}{n}}} = \frac{0.15 - 0.10}{\sqrt{\frac{(0.1)(0.9)}{100}}} = \frac{5}{3} \]

  5. Ya que el valor observado de \(Z\) no está en la región de rechazo, se concluye que la evidencia no apoya la decisión del capataz. ¿Está equivocado el capataz? No llegaremos a esta conclusión hasta después de haber calculado \(\beta\), la probabilidad de aceptar \(H_0\) siendo verdadera \(H_1\).


Ejemplo 3:

Se realizó un estudio psicológico para comparar los tiempos de reacción de hombres y de mujeres con respecto a cierto estímulo. Se utilizaron en el experimento muestras aleatorias independientes de 50 hombres y 50 mujeres. Los datos se presentan a continuación. ¿Presentan los datos suficiente evidencia para sugerir una diferencia entre los promedios verdaderos de los tiempos de reacción para hombres y mujeres? Utilice \(\alpha = 0.05\).

Hombres Mujeres
\(n_1 = 50\) \(n_2 = 50\)
\(\bar{y}_1 = 3.6\) segundos \(\bar{y}_2 = 3.8\) segundos
\(s_1^2 = 0.18\) \(s_2^2 = 0.14\)

Solución:

  1. Sean \(\mu_1\) y \(\mu_2\) los promedios reales de los tiempos de reacción para hombres y para mujeres, respectivamente. Entonces, si se desea probar la hipótesis de que las medias son iguales, probaremos \(H_0: \mu_1 - \mu_2 = 0\) frente a \(H_1: \mu_1 - \mu_2 \neq 0\).

  2. Nótese que aplicamos la hipótesis alternativa bilateral para detectar ya sea \(\mu_1 > \mu_2\) o bien \(\mu_1 < \mu_2\), en el caso de que \(H_0\) sea falsa.

  3. El estimador puntual de \(\mu_1 - \mu_2\) es \((\bar{Y}_1 - \bar{Y}_2)\) y satisface los supuestos de la prueba para muestras grandes. Por lo tanto, si se desea probar \(H_0: \mu_1 - \mu_2 = D_0\) (con \(D_0\) fijo) contra cualquier alternativa, el estadístico de prueba está dado por:

    \[ Z = \frac{(\bar{Y}_1 - \bar{Y}_2) - D_0}{\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}}} \]

    donde \(\sigma_1^2\) y \(\sigma_2^2\) son las varianzas poblacionales respectivas. En esta aplicación se requiere una prueba de dos colas.

  4. Por lo tanto, para \(\alpha = 0.05\), se rechaza \(H_0\) si \(|z| > z_{\alpha/2} = z_{0.025} = 1.96\). Para muestras grandes (digamos, \(n > 30\)), las varianzas muestrales dan estimaciones adecuadas de las varianzas poblacionales correspondientes. Al sustituir estos valores junto con \(\bar{y}_1\), \(\bar{y}_2\), \(n_1\), \(n_2\) y \(D_0\) en la fórmula para el estadístico de prueba, se tiene:

    \[ z = \frac{(\bar{y}_1 - \bar{y}_2) - 0}{\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}}} \approx \frac{(3.6 - 3.8) - 0}{\sqrt{\frac{0.18}{50} + \frac{0.14}{50}}} = -2.5 \]

  5. Este valor es menor que \(-z_{\alpha/2} = -1.96\) y por esto cae en la región de rechazo. Por lo tanto, rechazamos la hipótesis de que no hay una diferencia en los promedios de los tiempos de reacción para hombres y mujeres.

Tamaño de la muestra para una hipótesis alternativa de cola superior para la media

Considere \(H_0: \mu = \mu_0\) frente a \(H_1: \mu > \mu_0\) (alternativa de cola superior).
Se trata de hallar \(n\) (tamaño de la muestra) y \(c\) (el punto donde empieza la región de rechazo) conociendo valores de \(\alpha_0\) y \(\beta_0\).

  1. \(\alpha = P\{\bar{Y} \geq c \mid \mu_0\} = P\left\{\frac{\bar{Y} - \mu_0}{\sigma / \sqrt{n}} \geq \frac{c - \mu_0}{\sigma / \sqrt{n}} \mid \mu_0\right\} = P\{Z \geq z_{\alpha}\}\)
  2. \(\beta = P\{\bar{Y} < c \mid \mu_1\} = P\left\{\frac{\bar{Y} - \mu_1}{\sigma / \sqrt{n}} < \frac{c - \mu_1}{\sigma / \sqrt{n}} \mid \mu_1\right\} = P\{Z < -z_{\beta}\}\)

De donde se obtienen:

  1. \(z_{\alpha} = \frac{c - \mu_0}{\sigma / \sqrt{n}}\)
  2. \(-z_{\beta} = \frac{c - \mu_1}{\sigma / \sqrt{n}}\)

Al eliminar \(c\) de las dos ecuaciones, resulta:

\[ n = \left(\frac{z_{\alpha} + z_{\beta}}{\mu_1 - \mu_0}\right)^2 \sigma^2 \]


Ejemplo 1:

Supóngase que el vicepresidente del ejemplo anterior quiere detectar una diferencia igual a un prospecto en el número promedio de prospectos por semana. Es decir, le interesa probar \(H_0: \mu = 15\) frente a \(H_1: \mu = 16\). Calcule \(\beta\) para esta prueba.

Solución:

  1. En un ejemplo anterior teníamos \(n = 36\), \(\bar{y} = 17\) y \(s^2 = 9\). La región de rechazo estaba dada por (\(\alpha = 0.05\)):

    \[ z = \frac{\bar{y} - \mu_0}{\sigma / \sqrt{n}} > 1.645 \]

    que es equivalente a:

    \[ \bar{y} - \mu_0 > 1.645 \left(\frac{\sigma}{\sqrt{n}}\right) \quad \text{o bien} \quad \bar{y} > \mu_0 + 1.645 \left(\frac{\sigma}{\sqrt{n}}\right) \]

  2. Al sustituir \(\mu_0 = 15\) y \(n = 36\), y utilizar \(s\) para aproximar a \(\sigma\), encontramos como región de rechazo:

    \[ \bar{y} > 15 + 1.645 \left(\frac{3}{\sqrt{36}}\right) \quad \text{o bien} \quad \bar{y} > 15.8225 \]

  3. Entonces, por definición, \(\beta = P\{\bar{Y} \leq 15.8225 \mid \mu = 16\}\) es la región sombreada bajo la curva punteada a la izquierda de \(c = 15.8225\). Por lo tanto, para \(\mu_1 = 16\):

    \[ \beta = P\left\{\frac{\bar{Y} - \mu_1}{\sigma / \sqrt{n}} \leq \frac{15.8225 - 16}{3 / \sqrt{36}}\right\} = P\{Z < -0.36\} = 0.3594 \]

  4. El valor grande de \(\beta\) indica que las muestras de tamaño 36 no suelen detectar la diferencia de una unidad de la media hipotética. Podemos reducir el valor de \(\beta\) aumentando el tamaño de la muestra \(n\).


Ejemplo 2:

Ahora supóngase que el vicepresidente quiere probar \(H_0: \mu = 15\) frente a \(H_1: \mu = 16\) con \(\alpha = \beta = 0.05\). Hallar el tamaño de la muestra que garantice esta exactitud. Supóngase que \(\sigma^2 \approx 9\).

Solución:

  1. Ya que \(\alpha = \beta = 0.05\), en consecuencia \(z_{\alpha} = z_{\beta} = z_{0.05} = 1.645\). Entonces:

    \[ n = \left(\frac{z_{\alpha} + z_{\beta}}{\mu_1 - \mu_0}\right)^2 \sigma^2 \approx \left(\frac{1.645 + 1.645}{16 - 15}\right)^2 \cdot 9 = 97.4 \]

  2. Por lo tanto, se tendría que utilizar \(n = 98\) observaciones para garantizar \(\alpha = \beta = 0.05\).


Elementos comunes en prueba de hipótesis con muestras pequeñas

Supongamos que se quiere probar una hipótesis referente al parámetro \(\theta\), basado en una muestra aleatoria \(Y = (Y_1, Y_2, \dots, Y_n)\) y en el estimador \(\hat{\theta}\), que tiene distribución normal con media \(\theta\) y varianza desconocida \(\sigma_{\hat{\theta}}^2\).

Parámetro:

El parámetro de interés es:

\[ \theta \in \{\mu, \mu_1 - \mu_2\} \]

Estimador:

El estimador del parámetro de interés es:

\[ \hat{\theta} \in \{\bar{Y}, \bar{Y}_1 - \bar{Y}_2\} \]

Desviación del estimador:

La desviación del estimador del parámetro de interés es:

\[ \sigma_{\hat{\theta}} \in \left\{ \frac{s}{\sqrt{n}}, \sqrt{\frac{(n_1 - 1)s_1^2 + (n_2 - 1)s_2^2}{n_1 + n_2 - 2} \left(\frac{1}{n_1} + \frac{1}{n_2}\right)}, \sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}} \right\} \]

Hipótesis:

Las hipótesis a probar son:

\[ \begin{cases} H_0: \theta = \theta_0 \\ H_1: \begin{cases} \theta > \theta_0 & \text{(alternativa de cola superior)} \\ \theta < \theta_0 & \text{(alternativa de cola inferior)} \\ \theta \neq \theta_0 & \text{(alternativa de dos colas)} \end{cases} \end{cases} \]

Nivel de Significancia:

La prueba se realiza con nivel de significancia:

\[ \alpha \in \{0.05, 0.01, 0.1\} \]

Estadístico de prueba:

De los datos muestrales se calcula el valor experimental:

\[ t_p = \frac{\hat{\theta} - \theta_0}{\sigma_{\hat{\theta}}} \]

con \(v\) grados de libertad.

Región de rechazo:

Se rechaza \(H_0\) en favor de \(H_1\) si ocurre que:

\[ \begin{cases} t_p > t_{\alpha, v} & \text{(RR de cola superior)} \\ t_p < -t_{\alpha, v} & \text{(RR de cola inferior)} \\ |t_p| > t_{\alpha/2, v} & \text{(RR de dos colas)} \end{cases} \]

Valor p:

El valor p de la prueba se obtiene:

\[ \text{valor p} = \begin{cases} P(t_v > t_p) & \text{(RR de cola superior)} \\ P(t_v < -t_p) & \text{(RR de cola inferior)} \\ 2P(t_v > |t_p|) & \text{(RR de dos colas)} \end{cases} \]

Conclusión:

La significancia de la prueba se establece de la siguiente forma:

  1. Se rechaza \(H_0\) en favor de \(H_1\) casi significativamente si ocurre que \(1\% < \text{valor p} \leq 5\%\). (\(^{*}\))
  2. Se rechaza \(H_0\) en favor de \(H_1\) significativamente si ocurre que \(0.1\% < \text{valor p} \leq 1\%\). (\(^{**}\))
  3. Se rechaza \(H_0\) en favor de \(H_1\) muy significativamente si ocurre que \(0 \leq \text{valor p} \leq 0.1\%\). (\(^{***}\))

Ejemplo 1:

El Instituto eléctrico Edison publica cifras del número anual de kilowatts-hora que gastan varios aparatos electrodomésticos. Se afirma que una aspiradora gasta en promedio 46 kilowatts-hora al año. Si una muestra aleatoria de 12 hogares que se incluye en un estudio planeado indica que las aspiradoras gastan un promedio de 42 kilowatts-hora al año con una desviación estándar de 11.9 kilowatts-hora, ¿en un nivel de significancia de 0.05 esto sugiere que las aspiradoras gastan, en promedio, menos de 46 kilowatts-hora anualmente? Suponga que la población de kilowatts-hora es normal.

Solución:

  1. Hipótesis: \(H_0: \mu = 46\) kilowatts-hora vs \(H_1: \mu < 46\) kilowatts-hora.

  2. Significancia: \(\alpha = 0.05\).

  3. Estadístico de prueba:

    \[ t = \frac{\bar{Y} - \mu_0}{S / \sqrt{n}} \]

    con 11 grados de libertad.

  4. Región de rechazo: \(t < -t_{\alpha} = -1.796\).

  5. Cálculos: \(\bar{y} = 42\), \(s = 11.9\), \(n = 12\). De aquí:

    \[ t_p = \frac{42 - 46}{11.9 / \sqrt{12}} = -1.16 \]

    y

    \[ \text{p-valor} = P\{T \leq -1.16\} \approx 0.135 \]

  6. Decisión: No rechace \(H_0\) y concluya que el número promedio de kilowatts-hora que gastan al año las aspiradoras domésticas no es significativamente menor que 46.


Ejemplo 2:

Se lleva a cabo un experimento para comparar el desgaste por abrasivos de dos diferentes materiales laminados. Se prueban 12 piezas del material 1 exponiendo cada pieza a una máquina para medir el desgaste. Diez piezas del material 2 se prueban de manera similar. En cada caso, se observa la profundidad del desgaste. Las muestras del material 1 dan un desgaste promedio (codificado) de 85 unidades con una desviación estándar muestral de 4; en tanto que las muestras del material 2 dan un promedio de 81 y una desviación estándar muestral de 5. ¿Podríamos concluir, con un nivel de significancia de 0.05, que el desgaste abrasivo del material 1 excede el del material 2 en más de dos unidades? Suponga que las poblaciones son aproximadamente normales con varianzas iguales.

Solución:

  1. Hipótesis: \(H_0: \mu_1 - \mu_2 = 2\) vs \(H_1: \mu_1 - \mu_2 > 2\).

  2. Significancia: \(\alpha = 0.05\).

  3. Estadístico de prueba:

    \[ t = \frac{(\bar{Y}_1 - \bar{Y}_2) - D_0}{S \sqrt{\frac{1}{n_1} + \frac{1}{n_2}}} \]

    con 20 grados de libertad.

  4. Región de rechazo: \(t > 1.725\).

  5. Cálculos: \(\bar{y}_1 = 85\), \(s_1 = 4\), \(n_1 = 12\) y \(\bar{y}_2 = 81\), \(s_2 = 5\), \(n_2 = 10\). De aquí:

    \[ S = \sqrt{\frac{(n_1 - 1)s_1^2 + (n_2 - 1)s_2^2}{n_1 + n_2 - 2}} = \sqrt{\frac{(11)(16) + (9)(25)}{12 + 10 - 2}} = 4.478 \]

    luego,

    \[ t = \frac{(85 - 81) - 2}{4.478 \sqrt{\frac{1}{12} + \frac{1}{10}}} = 1.04 \]

    y

    \[ \text{p-valor} = P\{T > 1.04\} \approx 0.16 \]

  6. Decisión: No rechace \(H_0\). No se puede concluir que el desgaste abrasivo del material 1 excede el del material 2 en más de dos unidades.


Pruebas de hipótesis referentes a varianzas

Supongamos que se quiere probar una hipótesis referente al parámetro \(\theta\), basado en una muestra aleatoria \(Y = (Y_1, Y_2, \dots, Y_n)\) y en el estimador \(\hat{\theta}\), que tiene distribución normal con media \(\theta\) y varianza desconocida \(\sigma_{\hat{\theta}}^2\).

Parámetro:

El parámetro de interés es:

\[ \theta = \sigma^2 \]

Estimador:

El estimador del parámetro de interés es:

\[ \hat{\theta} = S^2 \]

Desviación del estimador:

La desviación del estimador del parámetro de interés es:

\[ \sigma_{\hat{\theta}} \in \{\} \]

Hipótesis:

Las hipótesis a probar son:

\[ \begin{cases} H_0: \sigma^2 = \sigma_0^2 \\ H_1: \begin{cases} \sigma^2 > \sigma_0^2 & \text{(alternativa de cola superior)} \\ \sigma^2 < \sigma_0^2 & \text{(alternativa de cola inferior)} \\ \sigma^2 \neq \sigma_0^2 & \text{(alternativa de dos colas)} \end{cases} \end{cases} \]

Nivel de Significancia:

La prueba se realiza con nivel de significancia:

\[ \alpha \in \{0.05, 0.01, 0.1\} \]

Estadístico de prueba:

De los datos muestrales se calcula el valor experimental:

\[ \chi^2 = \frac{(n - 1)S^2}{\sigma_0^2} \]

con \((n - 1)\) grados de libertad.

Región de rechazo:

Se rechaza \(H_0\) en favor de \(H_1\) si ocurre que:

\[ \begin{cases} \chi^2 > \chi_{\alpha}^2 & \text{(RR de cola superior)} \\ \chi^2 < \chi_{1 - \alpha}^2 & \text{(RR de cola inferior)} \\ \chi^2 > \chi_{\alpha/2}^2 \text{ o } \chi^2 < \chi_{1 - \alpha/2}^2 & \text{(RR de dos colas)} \end{cases} \]

Valor p:

El valor p de la prueba se obtiene:

\[ \text{valor p} = \begin{cases} P(\chi^2 > \chi_p^2) & \text{(RR de cola superior)} \\ P(\chi^2 < \chi_p^2) & \text{(RR de cola inferior)} \\ 2P(\chi^2 > \chi_p^2) & \text{(RR de dos colas)} \end{cases} \]

Conclusión:

La significancia de la prueba se establece de la siguiente forma:

  1. Se rechaza \(H_0\) en favor de \(H_1\) casi significativamente si ocurre que \(1\% < \text{valor p} \leq 5\%\). (\(^{*}\))
  2. Se rechaza \(H_0\) en favor de \(H_1\) significativamente si ocurre que \(0.1\% < \text{valor p} \leq 1\%\). (\(^{**}\))
  3. Se rechaza \(H_0\) en favor de \(H_1\) muy significativamente si ocurre que \(0 \leq \text{valor p} \leq 0.1\%\). (\(^{***}\))

Ejemplo: Prueba de hipótesis para la varianza

Un fabricante de baterías para automóvil afirma que la duración de sus baterías se distribuye de forma aproximadamente normal con una desviación estándar igual a 0.9 años. Si una muestra aleatoria de 10 de tales baterías tiene una desviación estándar de 1.2 años, ¿considera que \(\sigma > 0.9\) años? Utilice \(\alpha = 0.05\).

Solución:

  1. Hipótesis:

    • \(H_0: \sigma^2 = 0.81\) (la varianza es igual a 0.81)
    • \(H_1: \sigma^2 > 0.81\) (la varianza es mayor que 0.81)
  2. Significancia: \(\alpha = 0.05\).

  3. Estadístico de prueba: \[ \chi^2 = \frac{(n - 1)S^2}{\sigma_0^2} \] con \(n - 1 = 9\) grados de libertad.

  4. Región de rechazo: \(\chi^2 > 16.919\).

  5. Cálculos:

    • \(S^2 = 1.44\) (varianza muestral)
    • \(\sigma_0^2 = 0.81\) (varianza bajo \(H_0\))
    • \(\chi^2 = \frac{(9)(1.44)}{0.81} = 16.0\)

    El valor p es: \[ \text{p-valor} = P\{\chi^2 > 16.0\} \approx 0.07 \]

  6. Decisión:

    • El estadístico \(\chi^2\) no es significativo en el nivel 0.05.
    • Sin embargo, con base en el valor p de 0.07, hay alguna evidencia de que \(\sigma > 0.9\).

Dos poblaciones normales

Hipótesis:

  • \(H_0: \sigma_1^2 = \sigma_2^2\)
  • \(H_1:\)
    • \(\sigma_1^2 > \sigma_2^2\) (alternativa de cola superior)
    • \(\sigma_1^2 < \sigma_2^2\) (alternativa de cola inferior)
    • \(\sigma_1^2 \neq \sigma_2^2\) (alternativa de dos colas)

Estadístico de prueba:

\[ F = \frac{S_1^2}{S_2^2} \] con \((n_1 - 1)\) grados de libertad en el numerador y \((n_2 - 1)\) grados de libertad en el denominador.

Región de rechazo:

  • \(F > F_{\alpha}\) (RR de cola superior)
  • \(F < F_{1 - \alpha}\) (RR de cola inferior)
  • \(F > F_{\alpha/2}\) o \(F < F_{1 - \alpha/2}\) (RR de dos colas)

Ejemplo: Prueba de igualdad de varianzas

Al probar la diferencia en el desgaste abrasivo de los dos materiales del ejemplo anterior, supusimos que eran iguales las dos varianzas poblacionales desconocidas. ¿Se justifica tal suposición? Utilice un nivel de significancia de 0.10.

Solución:

  1. Hipótesis:

    • \(H_0: \sigma_1^2 = \sigma_2^2\)
    • \(H_1: \sigma_1^2 \neq \sigma_2^2\)
  2. Significancia: \(\alpha = 0.10\).

  3. Estadístico de prueba: \[ F = \frac{S_1^2}{S_2^2} \] con 11 grados de libertad en el numerador y 9 grados de libertad en el denominador.

  4. Región de rechazo:

    • \(F_{0.95(11,9)} = \frac{1}{F_{0.05(9,11)}} = 0.34\)
    • Por lo tanto, se rechaza \(H_0\) si \(F < 0.34\) o \(F > 3.11\).
  5. Cálculos:

    • \(s_1^2 = 16\), \(s_2^2 = 25\)
    • \(F = \frac{16}{25} = 0.64\)
  6. Decisión:

    • No rechace \(H_0\).
    • Concluya que no hay suficiente evidencia de que las varianzas difieran.

Ejercicios

  1. Ejercicio: Se sabe que el 35% de los miembros de una población sufren de una o más enfermedades crónicas. ¿Cuál es la probabilidad de que, en una muestra aleatoria de 200 individuos, 80 o más tengan al menos una enfermedad crónica?

  2. Ejercicio: Una compañía fabrica clips y los vende en cajas con etiquetas que dicen “Aprox. 100”. Hemos contado los clips en las cajas y encontramos que el número de clips varía entre 93 o 94 y más de 100. Suponga que el número de clips en las cajas producidas por esta fábrica tiene media 100 y desviación estándar de 8. Suponga que se empaca en cartones de 64 cajas y tomamos un cartón como una muestra. Use la distribución muestral de la media muestral para calcular la probabilidad aproximada de que el número de clips por caja esté entre 98 y 100.

  3. Ejercicio: Si se seleccionan todas las muestras posibles de 64 elementos, a partir de una población cuya media es 100 y cuya desviación estándar es 20, ¿entre qué límites cabe esperar que esté el 80% del centro de las medias muestrales?

  4. Ejercicio: Se ha elegido una muestra de 100 baterías de una línea de producción que fabrica baterías con una vida media de 40 meses y una desviación estándar de 10 meses. Si se toma una muestra diferente de 400 baterías a partir de la misma población, ¿será mayor, igual o menor el error estándar de la media? Calcule el nuevo error estándar de la media.

  5. Ejercicio: Se hace un estudio para averiguar el número de horas al día mirando televisión de niños entre 5 y 8 años en una ciudad (Y). Asuma que Y es una variable aleatoria discreta, con la siguiente distribución de probabilidades:

    Y: número de horas 0 1 2 3 4
    Proporción de niños 0.05 0.20 0.25 0.30 0.20
    1. Grafique la distribución de Y, dé su opinión acerca de la forma de la distribución.
    2. ¿Cuál es el número esperado de horas frente al televisor?
    3. ¿Cuál es la desviación estándar del número de horas frente al televisor?
    4. ¿Cuál es la probabilidad de que un niño seleccionado al azar esté a lo más (no más de) 2 horas diarias frente al televisor?
    5. Se toma una muestra aleatoria de \(n = 64\) niños de esta población. Calcule la probabilidad de que la media muestral sea de a lo más dos horas.
  6. Ejercicio: Las estaturas de 1000 estudiantes están distribuidas aproximadamente de forma normal con una media de 174.5 centímetros y una desviación estándar de 6.9 centímetros. Si se extraen 200 muestras aleatorias de tamaño 25 de esta población, determine:

    1. La media y la desviación estándar de la distribución muestral del promedio muestral.
    2. El número de las medias muestrales que caen entre 172.5 y 175.8 centímetros.
  7. Ejercicio: La compañía de baterías Timeless afirma que sus baterías tienen una vida media de 60 meses y una desviación estándar de 9 meses. Un grupo de consumidores que está poniendo a prueba esta afirmación compra 36 baterías y determina la vida media.

    1. Calcule el error estándar de la media.
    2. Suponiendo que lo que afirma Timeless es cierto, ¿cuál es la probabilidad de que la vida media de la muestra sea menor que 58 meses?
    3. Determine la probabilidad de que la vida media de la muestra esté entre 57 y 63 meses.
    4. Si la media muestral del grupo de consumidores es 55 meses, ¿a qué conclusiones llegaría usted si fuera el analista?
  8. Ejercicio: Suponga que el 54% de los estudiantes de Psicología de la UTB son mujeres. Se toma una muestra aleatoria simple de 20 estudiantes.

    1. ¿Entre qué posibles valores podemos encontrar el 99% de las proporciones muestrales?
    2. ¿En qué afecta un aumento a 50 en el tamaño de la muestra a la media y a la desviación estándar de la distribución muestral? Sea específico.
  9. Problema: Suponga que el 65% de los estudiantes de la UTB tiene correo electrónico.

    1. Dibuje la distribución de las proporciones muestrales basadas en muestras de tamaño \(n = 100\) estudiantes.
    2. Entre qué posibles valores podemos encontrar el 95% de las proporciones muestrales.
    3. Dibuje la distribución de las proporciones muestrales basadas en muestras de tamaño \(n = 400\) estudiantes. ¿En qué difiere a la distribución dada en (a)? ¿Cómo afecta el tamaño muestral al rango dado en (b)?
    4. Basados en una muestra de tamaño 100, ¿sería posible observar una proporción muestral estimada de 0.4 o menor, si la proporción en la población es 0.65? Explique.
  10. Ejercicio: El peso medio de los estudiantes secundarios sigue una distribución normal. Se toma una muestra aleatoria de 100 estudiantes y se obtiene una media de 65 kg con una desviación estándar de 9 kg. Encuentre los límites para intervalos de confianza al 95% y 99% para:

    1. La media poblacional si se sabe que la desviación estándar poblacional es de 10 kg.
    2. La media poblacional si no se conoce la desviación estándar poblacional.
  11. Ejercicio: En el problema anterior, ¿qué sucede si el tamaño de la muestra fuera sólo de 20?

  12. Ejercicio: Suponga que a partir de una muestra de tamaño 25 se ha podido establecer un intervalo de confianza para la media poblacional que va desde 68 a 72 unidades de medida, para un \(\alpha = 0.01\). Encuentre un intervalo al 95% de confianza para la media poblacional. Asuma que la varianza poblacional es desconocida.

  13. Ejercicio: En víspera de elecciones presidenciales se toma una muestra aleatoria de 1000 electores, de los cuales 628 dicen estar indecisos todavía. Se pide entonces un intervalo al 98% de confianza de la proporción de personas que no saben aún por quién votar.

  14. Ejercicio: Los pesos de 10 personas menores de 15 años fueron: 51; 48.5; 50.5; 51.5; 50.5; 49; 49.5; 52; 51.5 y 49 kilos. Encuentre un intervalo de confianza para el peso medio de todas las personas menores de 15 años al 99% de confianza.

  15. Ejercicio: Se debe estimar el grosor de las láminas de vidrio producidas en cierta fábrica. Se toma una muestra aleatoria de tamaño 100 y se encuentra un grosor promedio de 20 mm. Suponiendo que se conoce la varianza poblacional y es igual a 1.44 mm², se pide encontrar un intervalo de confianza del 95% de confianza para el espesor promedio de las láminas de vidrio.

  16. Ejercicio: Un gran exportador de manzanas debe estimar el peso promedio por caja que envía al mercado europeo. Para ello extrae una muestra aleatoria de su último embarque consistente en 150 cajas. La media de los pesos para esta muestra fue de 22 kg, mientras que la desviación estándar fue de 3 kg. Se pide:

    1. Calcule un intervalo de confianza para el peso medio de las cajas a nivel poblacional con una confianza del 94%.
    2. ¿De qué tamaño debe tomarse la muestra para que el error de estimación máximo de la media no exceda a 1 kg? Use \(\alpha = 0.05\).
  17. Ejercicio: Los resultados obtenidos en un examen de estadística (de un máximo de 100 ptos.) se presentan a continuación:

    • Clase A: 84, 80, 75, 85, 71, 79, 52, 36, 45, 67, 89, 61.
    • Clase B: 87, 99, 4, 21, 68, 17, 32, 9, 79.
      Calcule al 95% de confianza un intervalo para la diferencia de los puntajes promedios. ¿Qué puede concluir?
  18. Ejercicio: Se ha medido el contenido de nicotina de 36 cigarrillos de una determinada marca. Los resultados obtenidos son \(\sum_{i=1}^{36} y_i = 756\) mg y \(\sum_{i=1}^{36} (y_i - \bar{y})^2 = 315\) mg². Obtenga un intervalo de confianza al 95% para estimar el contenido promedio de nicotina de los cigarrillos de esta marca.

  19. Ejercicio: Una empresa dedicada a los estudios de opinión pública desea medir cuánto leen los habitantes del país. Se realiza el muestreo en 2 ciudades distintas arrojando los siguientes resultados en libros mensuales:

    Ciudad \(n\) \(\bar{y}\) \(s\)
    1 25 2.3 4
    2 25 1.8 3.5

    Construya un intervalo de confianza para la diferencia de promedios al 95% de confianza. ¿Pueden ser los promedios iguales? Fundamente su respuesta.

  20. Ejercicio: Sea \(Y\) una variable aleatoria con distribución normal con media \(\mu\) y varianza 2.0. Se toma una muestra de 10 individuos, obteniéndose los siguientes resultados: 5.3, 6.5, 2.1, 4.3, 3.9, 7.8, 9.0, 1.2, 5.0, 8.1.

    1. Encuentre límites de confianza para la media con 80%, 90% y 95% de confianza.
    2. Recalcule los límites de confianza para la media suponiendo que la varianza de la población es desconocida.
  21. Ejercicio: En el trabajo de un laboratorio es deseable verificar cuidadosamente la variabilidad de las lecturas obtenidas en una muestra estándar. En un estudio de concentración de calcio en agua potable como parte de la valoración de la calidad del agua, se pasó el mismo patrón de medidas seis veces por el laboratorio. Las lecturas, en partes por millón, fueron: 9.54, 9.61, 9.32, 9.48, 9.70, 9.26. Estime la varianza de la población para las lecturas obtenidas del patrón. Use un intervalo del 90% de confianza.

  22. Ejercicio: Un químico ha preparado un producto diseñado para eliminar el 60% de un tipo particular de insecto. ¿Cuál debe ser el tamaño de la muestra, si se quiere tener una confiabilidad del 95% de que el error de estimación de la verdadera proporción de insectos eliminados no sea mayor a 0.02?

  23. Ejercicio: ¿Cuál es el tamaño necesario para que una muestra sacada al azar de semillas pueda afirmar, con una probabilidad de 95% de confianza, que la proporción de germinación muestral se desvía de la tasa de germinación poblacional en 0.03?

  24. Ejercicio: La experiencia muestra que la desviación estándar del ingreso anual de trabajadores del área textil en cierta provincia es de $200,000. ¿Cuántos trabajadores de la rama tendrían que ser seleccionados si se quiere estimar el ingreso medio con un error máximo de $2,500, con una probabilidad del 95%?

  25. Ejercicio: Supongamos que \(Y_1, Y_2, Y_3\) forman una muestra aleatoria de una distribución exponencial con la función densidad:

\[ f_Y(y) = \frac{1}{\theta} e^{-y/\theta}, \quad y > 0 \]

Considere los siguientes cinco estimadores para \(\theta\):

  • \(\theta_1 = Y_1\)
  • \(\theta_2 = \frac{Y_1 + Y_2}{2}\)
  • \(\theta_3 = \frac{Y_1 + 2Y_2}{3}\)
  • \(\theta_4 = \min(Y_1, Y_2, Y_3)\)
  • \(\theta_5 = \bar{Y}\) (media muestral)
  1. ¿Cuáles estimadores son insesgados?
  2. Entre los estimadores insesgados, ¿cuál tiene la menor varianza? ```

Este texto está listo para ser compilado en RMarkdown. Las expresiones matemáticas están correctamente encerradas en $ para inline y $$ para ecuaciones centradas. ##################################################################################