Censo de los Estados Unidos

library(tidyverse)
library(viridis)
library(tidycensus)
# census_api_key("clave")
census_us_county_income <- get_acs(geography = "county", variables = "B19013_001", 
                            shift_geo = TRUE, geometry = TRUE)
ggplot(data = census_us_county_income) + 
  geom_sf(aes(fill = estimate))

Definición de Tipos de Muestras y sus Propiedades

La selección adecuada de la muestra es esencial en cualquier investigación estadística, ya que afecta directamente la validez y generalización de los resultados a la población completa. Aquí se presentan definiciones detalladas de dos tipos comunes de muestras: Muestra Aleatoria Simple y Muestra Estratificada, junto con sus propiedades fundamentales.

Muestras No Probabilísticas

Definición:

Las Muestras No Probabilísticas son aquellas en las que la probabilidad de selección de cada elemento no es conocida o no es uniforme. La selección se realiza de manera no aleatoria, a menudo basada en la conveniencia o juicio del investigador.

sample_us_county_income <- head(x = census_us_county_income, n = 627)
ggplot(data = sample_us_county_income) + 
  geom_sf(aes(fill = estimate))

Propiedades:

  • Simplicidad y Eficiencia: Son más fáciles y rápidas de obtener, pero pueden carecer de representatividad.

  • Dificultades en la Generalización: Las conclusiones basadas en muestras no probabilísticas pueden tener limitaciones en cuanto a la generalización a la población completa.

  • Uso en Exploración Inicial: A menudo se utilizan en las etapas iniciales de una investigación para generar hipótesis o identificar patrones que luego se pueden explorar con muestras probabilísticas.

Muestras Probabilísticas

Definición:

Las Muestras Probabilísticas son aquellas en las que cada elemento de la población tiene una probabilidad conocida y no nula de ser seleccionado en la muestra. La selección se realiza mediante un proceso de muestreo aleatorio.

sample_us_county_income <- sample_frac(tbl = census_us_county_income, size = 0.3)
ggplot(data = sample_us_county_income) + 
  geom_sf(aes(fill = estimate))

Propiedades:

  • Representatividad Probabilística: Cada elemento tiene una probabilidad conocida de ser seleccionado, garantizando una representación adecuada de la población.

  • Inferencia Estadística Válida: Al seguir un proceso probabilístico, las conclusiones basadas en la muestra pueden generalizarse a la población mediante inferencia estadística.

  • Técnicas Estándar de Estimación y Pruebas: Permite el uso de técnicas estándar, como intervalos de confianza y pruebas de hipótesis, para hacer afirmaciones sobre la población.

Muestras por Etapas

Definición:

Las Muestras por Etapas implican la selección de elementos en varias etapas. En cada etapa, se eligen subgrupos o elementos individuales, y luego se realiza una selección adicional hasta alcanzar el tamaño de la muestra deseada.

census_us_county_income <- census_us_county_income %>%
  mutate(STAID = substr(x = census_us_county_income$GEOID, start = 1, stop = 2))
staids_selected <- census_us_county_income %>%
  distinct(STAID) %>%
  sample_frac(size = 0.3)
sample_us_county_income <- census_us_county_income %>% group_by(STAID %in% staids_selected$STAID) %>% sample_frac(size = 0.3)
ggplot(data = sample_us_county_income) + 
  geom_sf(aes(fill = estimate))

Propiedades:

  • Eficiencia en Grandes Poblaciones: Es eficiente para grandes poblaciones, ya que permite la selección por etapas, reduciendo la carga de trabajo en cada fase.

  • Complejidad del Diseño: Puede ser más complejo que otros métodos de muestreo, ya que implica decisiones secuenciales y consideraciones detalladas en cada etapa.

  • Adaptabilidad: Permite adaptarse a la estructura de la población y facilita la selección en situaciones donde la población es desconocida o difícil de abordar en su totalidad.

Muestra Estratificada

Definición:

Una Muestra Estratificada implica dividir la población en subgrupos homogéneos llamados estratos y seleccionar aleatoriamente desde cada estrato. Los estratos se forman en función de características específicas compartidas por los individuos.

sample_us_county_income <- census_us_county_income %>% group_by(STAID) %>% sample_frac(size = 0.3)
ggplot(data = sample_us_county_income) + 
  geom_sf(aes(fill = estimate))

Propiedades:

  • Mejora de Representatividad: Al estratificar la población en grupos homogéneos, se garantiza que cada estrato esté bien representado en la muestra, lo que mejora la representatividad general.

  • Reducción de Varianza: Al seleccionar muestras aleatorias dentro de cada estrato, se reduce la varianza total de la muestra, proporcionando estimaciones más precisas para cada estrato y, por ende, para la población completa.

  • Flexibilidad: Permite adaptarse a la heterogeneidad de la población, asegurando que grupos específicos de interés estén adecuadamente representados.

Muestras por Conglomerados

Definición: Las Muestras por Conglomerados implican dividir la población en grupos llamados conglomerados y seleccionar aleatoriamente algunos conglomerados para incluirlos en la muestra. Luego, todos los elementos dentro de los conglomerados seleccionados se incluyen en la muestra.

staids_selected <- census_us_county_income %>%
  distinct(STAID) %>%
  sample_frac(size = 0.3)
sample_us_county_income <- census_us_county_income %>% filter(STAID %in% staids_selected$STAID) %>% sample_frac(size = 1)
ggplot(data = sample_us_county_income) + 
  geom_sf(aes(fill = estimate))

Propiedades:

  • Estructura Jerárquica: La población se organiza en conglomerados, creando una estructura jerárquica que facilita la selección de muestras grandes y dispersas geográficamente.

  • Eficiencia en Costos: Reducción de costos y tiempo al seleccionar conglomerados en lugar de individuos, especialmente cuando la población es grande y dispersa.

  • Menor Precisión Individual: La variabilidad dentro de los conglomerados puede ser mayor que en las Muestras Aleatorias Simples, lo que puede afectar la precisión de las estimaciones para individuos específicos.

Muestra Aleatoria Simple (MAS)

Definición

Una Muestra Aleatoria Simple (MAS) es un subconjunto de la población seleccionado de manera que cada miembro tiene la misma probabilidad de ser elegido si es con reemplazo y en donde cada muestra del mismo tamaño tiene la misma probabilidad de ser seleccionada si el muestreo se hace sin reemplazo. En otras palabras, cada unidad en la población tiene una oportunidad igual de ser incluida en la muestra.

Propiedades:

  • Igual Probabilidad de Selección: Cada elemento de la población tiene una probabilidad igual de ser seleccionado en la muestra, garantizando imparcialidad en la selección.

  • Independencia de Selección: La selección de un elemento no afecta la probabilidad de selección de otros, lo que evita sesgos en la muestra.

  • Representatividad: Al garantizar que cada individuo tenga igual oportunidad de ser parte de la muestra, se logra una representación justa de la población.

Importancia

  • La muestra aleatoria es fundamental en estadísticas porque permite hacer inferencias válidas sobre la población completa.

Métodos

  • Puedes realizar una muestra aleatoria utilizando generadores de números aleatorios o técnicas de selección aleatoriamente.

Inferencia Estadística

Definición

La inferencia estadística es un proceso mediante el cual se extraen conclusiones o se realizan predicciones sobre una población a partir de información recopilada en una muestra representativa de esa población. Se basa en el principio fundamental de la probabilidad y la teoría de la probabilidad condicional, donde los resultados observados en la muestra se utilizan para hacer afirmaciones sobre los parámetros desconocidos de la población.

La inferencia estadística se divide en dos categorías principales: la inferencia estadística paramétrica, que asume ciertas distribuciones para los datos y estima los parámetros de esas distribuciones, y la inferencia estadística no paramétrica, que se basa en métodos que no requieren suposiciones específicas sobre la forma de la distribución subyacente.

La inferencia estadística paramétrica implica la estimación puntual y por intervalos de los parámetros poblacionales, así como pruebas de hipótesis estadísticas para evaluar afirmaciones sobre estos parámetros. La selección adecuada de métodos inferenciales depende de la naturaleza de los datos y de las suposiciones sobre la población.

Resumen

En resumen, la inferencia estadística proporciona un marco formal para hacer inferencias válidas y generalizables sobre la población a partir de datos de muestra, lo que facilita la toma de decisiones informada en diversas disciplinas científicas y aplicadas.

En qué se basa la Inferencia

  • La inferencia estadística se basa en utilizar información recopilada de una muestra para hacer afirmaciones o predicciones sobre una población más amplia.

Ejemplos

  • Si encuestas a una muestra de votantes y encuentras que el 60% prefiere un candidato, puedes inferir que aproximadamente el 60% de la población total también lo prefiere.

Definición y Tipos de Muestras

Muestra Aleatoria Simple

  • En una muestra aleatoria simple, cada elemento tiene la misma probabilidad de ser seleccionado.

Muestra Estratificada

  • En una muestra estratificada, divides la población en grupos homogéneos (estratos) y seleccionas proporcionalmente de cada grupo.

Distribución de Sumas y Productos en Muestras Aleatorias

Distribución de la Suma de Variables Aleatorias

La suma de variables aleatorias es una operación fundamental en estadística y probabilidad que se refiere a la creación de una nueva variable aleatoria mediante la adición de dos o más variables aleatorias existentes. Si tienes dos variables aleatorias \(X\) e \(Y\), la suma de \(X+Y\) es una nueva variable aleatoria.

Definición

Dadas dos variables aleatorias \(X\) e \(Y\) definidas en el mismo espacio muestral, la suma de estas variables aleatorias, denotada como \(X+Y\), es otra variable aleatoria cuyo valor en cada resultado del espacio muestral es la suma de los valores correspondientes de \(X\) e \(Y\).

Formalmente, si \(X\) e \(Y\) son variables aleatorias definidas en el mismo espacio muestral, la función de masa de probabilidad (en el caso discreto) o la función de densidad de probabilidad (en el caso continuo) de \(X+Y\) se puede expresar en términos de las funciones de masa o densidad de probabilidad de \(X\) e \(Y\).

Para variables aleatorias continuas, la función de densidad de probabilidad de \(X+Y\) se puede obtener convolucionando las funciones de densidad de \(X\) e \(Y\):

\[f_{X-Y}(z)=\int_{-\infty}^{\infty}f_{X}(x)(z-x)dx\]

Esta fórmula representa la convolución de las funciones de densidad de \(X\) e \(Y\).

Para variables aleatorias discretas, la función de masa de probabilidad de \(X+Y\) se obtiene sumando las probabilidades de todas las combinaciones posibles de valores de \(X\) e \(Y\) que suman \(z\):

\[P\left(X+Y=z\right)=\sum{P(X=x,Y=z-x)}\]

En resumen, la suma de variables aleatorias es una operación clave en la teoría de probabilidad y estadística, y su distribución está determinada por la distribución conjunta de las variables originales.

Distribución del Producto de Variables Aleatorias

Definición:

Dada una muestra aleatoria simple de variables aleatorias \(X_1,X_2,\ldots,X_n\) de una población con distribución de probabilidad \(f_X(x)\), la distribución del producto \(P_n=X_1{\cdot}X_2{\cdot}\ldots{\cdot}X_n\)no sigue necesariamente una distribución normal y depende de la distribución subyacente de las variables.

Explicación:

A diferencia de la suma, la distribución del producto no tiende a seguir una distribución normal, incluso cuando el tamaño de la muestra es grande. La forma de la distribución del producto está influenciada por la forma de la distribución original de las variables aleatorias. La distribución del producto puede ser asimétrica y sesgada, y su análisis puede requerir métodos específicos según la naturaleza de las variables involucradas.

Nota importante

En la práctica, la distribución de la suma es más fácil de manejar y entender, mientras que la distribución del producto puede tener propiedades más complejas y puede requerir enfoques específicos de análisis.

Si \(X\) y \(Y=g(X)\) son variables aleatorias continuas, entonces por definición

\[E[Y]=\int_{-\infty}^{\infty}yf_Y(y)dy\]

\[E[g(X)]=\int_{-\infty}^{\infty}g(x)f_X(x)dX\] En general, xi \(X_1,X_2,{\ldots}X_n\) y \(Y=g(X_1,X_2,{\ldots}X_n)\) son variables aleatorias continuas, entonces \(E[Y]=E[g(X_1,X_2,{\ldots}X_n)]\)

\[E[Y]=\int_{-\infty}^{\infty}yf_Y(y)dy\]

\[E[g(X_1,X_2,{\ldots}X_n)]=\int_{-\infty}^{\infty}\int_{-\infty}^{\infty}\cdots\int_{-\infty}^{\infty}g(x_1,x_2,{\cdots}x_n)f_X(x_1,x_2,{\cdots}x_n)dx_1,dx_2,{\cdots}dx_n\]

Suma de variables aleatorias

Para una muestra aleatoria \(X_1,X_2,\ldots,X_n\)

\[E\left[\sum_{i=1}^{n}X_i\right]=\sum_{i=1}^{n}E\left[X_i\right]\]

\[V\left[\sum_{i=1}^{n}X_i\right]=\sum_{i=1}^{n}Var\left[X_i\right]+2\sum_{i=1}^{n}\sum_{i{\neq}j}^{n}Cov\left[X_i,X_j\right]\]

Prueba

\[E\left[\sum_{i=1}^{n}X_i\right]=\sum_{i=1}^{n}E\left[X_i\right]\text{ se sigue de la definición de valor esperado}\]

\[ \begin{aligned} V\left[\sum_{i=1}^{n}X_i\right]&=E\left[\left(\sum_{i=1}^{n}X_i-E\left[\sum_{i=1}^{n}X_i\right]^2\right)\right]\\ &=E\left[\left(\sum_{i=1}^{n}\sum_{j{\neq}i}^{n}(X_i-E\left[X_i\right])(X_j-E\left[X_j\right])\right)\right]\\ &=\sum_{i=1}^{n}\sum_{j{\neq}i}^{n}E\left[(X_i-E\left[X_i\right])(X_j-E\left[X_j\right])\right]\\ &=\sum_{i=1}^{n}Var\left[X_i\right]+2\sum_{i=1}^{n}\sum_{j{\neq}i}^{n}Cov\left[X_i,X_j\right]\\ \end{aligned} \]

Producto de variables aleatorias

Para dos variables aleatorias \(X\) e \(Y\)

\[E\left[XY\right]=\mu_X\mu_Y+Cov\left[X,Y\right]\]

\[Var\left[XY\right]=\mu_Y^2Var\left[X\right]+\mu_X^2Var\left[Y\right]+2\mu_X\mu_YCov\left[X,Y\right]-\left(Cov\left[X,Y\right]\right)^2+E\left[(X-\mu_X)^2(Y-\mu_Y)^2\right]+2\mu_YE\left[(X-\mu_X)^2(Y-\mu_Y)\right]+2\mu_XE\left[(X-\mu_X)(Y-\mu_Y)^2\right]\]

Prueba (Ejercicio)

\[ \begin{aligned} XY&=\mu_X\mu_Y+(X-\mu_X)\mu_Y+(Y-\mu_Y)\mu_X+(X-\mu_X)(Y-\mu_Y)\\ &=\mu_X\mu_Y+X\mu_Y-\mu_X\mu_Y+Y\mu_X-\mu_Y\mu_X+XY-X\mu_Y-\mu_XY+\mu_X\mu_Y\\ &=2\mu_X\mu_Y+X\mu_Y-2\mu_X\mu_Y+Y\mu_X+XY-X\mu_Y-Y\mu_X\\ &=Y\mu_X+XY-Y\mu_X\\ &=XY \end{aligned} \]

\[ \begin{aligned} E[XY]&=E\left[\mu_X\mu_Y+(X-\mu_X)\mu_Y+(Y-\mu_Y)\mu_X+(X-\mu_X)(Y-\mu_Y)\right]\\ &=E\left[\mu_X\mu_Y\right]+E\left[(X-\mu_X)\mu_Y\right]+E\left[(Y-\mu_Y)\mu_X\right]+E\left[(X-\mu_X)(Y-\mu_Y)\right]\\ &=\mu_X\mu_Y+\mu_YE\left[(X-\mu_X)\right]+\mu_XE\left[(Y-\mu_Y)\right]+E\left[(X-\mu_X)(Y-\mu_Y)\right]\\ &=\mu_X\mu_Y+E\left[(X-\mu_X)(Y-\mu_Y)\right]\\ &=\mu_X\mu_Y+Cov\left[X,Y\right] \end{aligned} \]

\[ \begin{aligned} E\left[(XY)^2\right]&=E\left[\left[\mu_X\mu_Y+(X-\mu_X)\mu_Y+(Y-\mu_Y)\mu_X+(X-\mu_X)(Y-\mu_Y)\right]^2\right]\\ &=E\left[\left[\mu_X\mu_Y+(X-\mu_X)\mu_Y\right]^2+2\left[\mu_X\mu_Y+(X-\mu_X)\mu_Y\right]\left[(Y-\mu_Y)\mu_X+(X-\mu_X)(Y-\mu_Y)\right]+\left[(Y-\mu_Y)\mu_X+(X-\mu_X)(Y-\mu_Y)\right]^2\right]\\ &=E\left[\left[\mu_X\mu_Y\right]^2+2\left[\mu_X\mu_Y\right]\left[(X-\mu_X)\mu_Y\right]+\left[(X-\mu_X)\mu_Y\right]^2+2\left[\mu_X\mu_Y+(X-\mu_X)\mu_Y\right]\left[(Y-\mu_Y)\mu_X+(X-\mu_X)(Y-\mu_Y)\right]+\left[(Y-\mu_Y)\mu_X\right]^2+2\left[(Y-\mu_Y)\mu_X\right]\left[(X-\mu_X)(Y-\mu_Y)\right]+\left[(X-\mu_X)(Y-\mu_Y)\right]^2\right]\\ &=E\left[\left[\mu_X\mu_Y\right]^2+2\mu_X\mu_Y^2(X-\mu_X)+\left[(X-\mu_X)\mu_Y\right]^2+2\left[\mu_X\mu_Y+(X-\mu_X)\mu_Y\right]\left[(Y-\mu_Y)\mu_X+(X-\mu_X)(Y-\mu_Y)\right]+\left[(Y-\mu_Y)\mu_X\right]^2+2\mu_X\left[(X-\mu_X)(Y-\mu_Y)^2\right]+\left[(X-\mu_X)(Y-\mu_Y)\right]^2\right]\\ &=\left[\mu_X\mu_Y\right]^2+2\mu_X\mu_Y^2E\left[(X-\mu_X)\right]+E\left[(X-\mu_X)\mu_Y\right]^2+2E\left\{\left[\mu_X\mu_Y+(X-\mu_X)\mu_Y\right]\left[(Y-\mu_Y)\mu_X+(X-\mu_X)(Y-\mu_Y)\right]\right\}+E\left[(Y-\mu_Y)\mu_X\right]^2+2\mu_XE\left[(X-\mu_X)(Y-\mu_Y)^2\right]+E.\left[(X-\mu_X)(Y-\mu_Y)\right]^2\\ &=\left[\mu_X\mu_Y\right]^2+\mu_Y^2E\left[(X-\mu_X)\right]^2+2E\left\{\left[\mu_X\mu_Y+(X-\mu_X)\mu_Y\right]\left[(Y-\mu_Y)\mu_X+(X-\mu_X)(Y-\mu_Y)\right]\right\}+\mu_X^2E\left[(Y-\mu_Y)\right]^2+2\mu_XE\left[(X-\mu_X)(Y-\mu_Y)^2\right]+E\left[(X-\mu_X)(Y-\mu_Y)\right]^2\\ &=\left[\mu_X\mu_Y\right]^2+\mu_Y^2Var\left[X\right]^2+2E\left\{\left[\mu_X\mu_Y+(X-\mu_X)\mu_Y\right]\left[(Y-\mu_Y)\mu_X+(X-\mu_X)(Y-\mu_Y)\right]\right\}+\mu_X^2Var\left[Y\right]^2+2\mu_XE\left[(X-\mu_X)(Y-\mu_Y)^2\right]+E\left[(X-\mu_X)^2(Y-\mu_Y)^2\right]\\ &=\left[\mu_X\mu_Y\right]^2+\mu_Y^2Var\left[X\right]^2+2E\left\{\left[\mu_X\mu_Y(Y-\mu_Y)\mu_X+\mu_X\mu_Y(X-\mu_X)(Y-\mu_Y)\right]+\left[(X-\mu_X)\mu_Y(Y-\mu_Y)\mu_X+(X-\mu_X)\mu_Y(X-\mu_X)(Y-\mu_Y)\right]\right\}+\mu_X^2Var\left[Y\right]^2+2\mu_XE\left[(X-\mu_X)(Y-\mu_Y)^2\right]+E\left[(X-\mu_X)^2(Y-\mu_Y)^2\right]\\ &=\left[\mu_X\mu_Y\right]^2+\mu_Y^2Var\left[X\right]^2+2E\left\{\left[\mu_X^2\mu_Y(Y-\mu_Y)+\mu_X\mu_Y(X-\mu_X)(Y-\mu_Y)\right]+\left[(X-\mu_X)\mu_Y(Y-\mu_Y)\mu_X+(X-\mu_X)^2\mu_Y(Y-\mu_Y)\right]\right\}+\mu_X^2Var\left[Y\right]^2+2\mu_XE\left[(X-\mu_X)(Y-\mu_Y)^2\right]+E\left[(X-\mu_X)^2(Y-\mu_Y)^2\right]\\ &=\left[\mu_X\mu_Y\right]^2+\mu_Y^2Var\left[X\right]^2+2\left\{\mu_X^2\mu_YE(Y-\mu_Y)+\mu_X\mu_YE\left[(X-\mu_X)(Y-\mu_Y)\right]+\mu_Y\mu_XE\left[(X-\mu_X)(Y-\mu_Y)\right]+\mu_YE\left[(X-\mu_X)^2(Y-\mu_Y)\right]\right\}+\mu_X^2Var\left[Y\right]^2+2\mu_XE\left[(X-\mu_X)(Y-\mu_Y)^2\right]+E\left[(X-\mu_X)^2(Y-\mu_Y)^2\right]\\ &=\left[\mu_X\mu_Y\right]^2+\mu_Y^2Var\left[X\right]^2+2\left\{2\mu_Y\mu_XE\left[(X-\mu_X)(Y-\mu_Y)\right]+\mu_YE\left[(X-\mu_X)^2(Y-\mu_Y)\right]\right\}+\mu_X^2Var\left[Y\right]^2+2\mu_XE\left[(X-\mu_X)(Y-\mu_Y)^2\right]+E\left[(X-\mu_X)^2(Y-\mu_Y)^2\right]\\ &=\left[\mu_X\mu_Y\right]^2+\mu_Y^2Var\left[X\right]^2+2\left\{2\mu_Y\mu_XCov\left[X,Y\right]+\mu_YE\left[(X-\mu_X)^2(Y-\mu_Y)\right]\right\}+\mu_X^2Var\left[Y\right]^2+2\mu_XE\left[(X-\mu_X)(Y-\mu_Y)^2\right]+E\left[(X-\mu_X)^2(Y-\mu_Y)^2\right]\\ &=\left[\mu_X\mu_Y\right]^2+\mu_Y^2Var\left[X\right]^2+4\mu_Y\mu_XCov\left[X,Y\right]+2\mu_YE\left[(X-\mu_X)^2(Y-\mu_Y)\right]+\mu_X^2Var\left[Y\right]^2+2\mu_XE\left[(X-\mu_X)(Y-\mu_Y)^2\right]+E\left[(X-\mu_X)^2(Y-\mu_Y)^2\right] \end{aligned} \]

\[ \begin{aligned} Var\left[XY\right]&=E\left[(XY)^2\right]-E\left[XY\right]E\left[XY\right]\\ &=\left[\mu_X\mu_Y\right]^2+\mu_Y^2Var\left[X\right]^2+4\mu_Y\mu_XCov\left[X,Y\right]+2\mu_YE\left[(X-\mu_X)^2(Y-\mu_Y)\right]+\mu_X^2Var\left[Y\right]^2+2\mu_XE\left[(X-\mu_X)(Y-\mu_Y)^2\right]+E\left[(X-\mu_X)^2(Y-\mu_Y)^2\right]-\left[\mu_X\mu_Y+Cov\left[X,Y\right]\right]^2\\ &=\left[\mu_X\mu_Y\right]^2+\mu_Y^2Var\left[X\right]^2+4\mu_Y\mu_XCov\left[X,Y\right]+2\mu_YE\left[(X-\mu_X)^2(Y-\mu_Y)\right]+\mu_X^2Var\left[Y\right]^2+2\mu_XE\left[(X-\mu_X)(Y-\mu_Y)^2\right]+E\left[(X-\mu_X)^2(Y-\mu_Y)^2\right]-\left[\mu_X\mu_Y\right]^2-2\mu_X\mu_YCov\left[X,Y\right]-Cov\left[X,Y\right]^2\\ &=\mu_Y^2Var\left[X\right]+\mu_X^2Var\left[Y\right]+2\mu_X\mu_YCov\left[X,Y\right]-\left(Cov\left[X,Y\right]\right)^2+E\left[(X-\mu_X)^2(Y-\mu_Y)^2\right]+2\mu_YE\left[(X-\mu_X)^2(Y-\mu_Y)\right]+2\mu_XE\left[(X-\mu_X)(Y-\mu_Y)^2\right] \end{aligned} \]

Importancia

  • La distribución de sumas y productos en muestras aleatorias se estudia para entender el comportamiento de estas estadísticas en grandes conjuntos de datos.

Ejercicio

  • ¿Cómo cambia la distribución de la suma al aumentar el tamaño de la muestra?

Respuesta

  • A medida que aumenta el tamaño de la muestra, la distribución de la suma tiende a seguir una distribución normal debido al Teorema Central del Límite.

Distribución de Estadísticas de Orden

Distribución del mínimo y el máximo

Sean \(Y_{(1)}=\min{\left[X_1,X_2,\ldots,X_n\right]}\) y \(Y_{(n)}=\max{\left[X_1,X_2,\ldots,X_n\right]}\), definiendo para cualquier resultado \(\omega\) del espacio muestral \(\Omega\), se define la variable aleatoria \(Y_{(n)}(\omega)=\max{\left[X_1(\omega),X_2(\omega),\ldots,X_n(\omega)\right]}\)

\[ \begin{aligned} F_{Y_{(n)}}(y)&=P\left[Y_{(n)}{\leq}y\right]\\ &=P\left[X_1{\leq}y;X_2{\leq}y;\cdots;X_n{\leq}y\right]\\ &=\prod_{i=1}^{n}P\left[X_i{\leq}y\right]\\ &=\prod_{i=1}^{n}F_{X_i}(y)\\ &=\left[F_{X}(y)\right]^n \end{aligned} \]

En forma similar tenemos que:

\[ \begin{aligned} F_{Y_{(1)}}(y)&=P\left[Y_{(1)}{\leq}y\right]\\ &=1-P\left[Y_{(1)}{>}y\right]\\ &=1-P\left[X_1{>}y;X_2{>}y;\cdots;X_n{>}y\right]\\ &=1-\prod_{i=1}^{n}P\left[X_i{>}y\right]\\ &=1-\prod_{i=1}^{n}\left[1-F_{X_i}{(y))}\right]\\ &=1-\left[1-F_{X}(y)\right]^n \end{aligned} \]

Densidad del mínimo y el máximo

Sean \(Y_{(1)}=\min{\left[X_1,X_2,\ldots,X_n\right]}\) y \(Y_{(n)}=\max{\left[X_1,X_2,\ldots,X_n\right]}\), definiendo para cualquier resultado \(\omega\) del espacio muestral \(\Omega\), se define la variable aleatoria \(Y_{(n)}(\omega)=\max{\left[X_1(\omega),X_2(\omega),\ldots,X_n(\omega)\right]}\)

\[ \begin{aligned} f_{Y_{(n)}}&=\frac{d}{dy}F_{Y_{(n)}}(y)\\ &=\frac{d}{dy}\left[F_{X}(y)\right]^n\\ &=n\left[F_{X}(y)\right]^{n-1}\frac{d}{dy}F_{X}(y)\\ &=n\left[F_{X}(y)\right]^{n-1}f_{X}(y) \end{aligned} \]

En forma similar tenemos que:

\[ \begin{aligned} f_{Y_{(1)}}(y)&=\frac{d}{dy}F_{Y_{(1)}}(y)\\ &=\frac{d}{dy}\left\{1-\left[1-F_{X}(y)\right]^n\right\}\\ &=0-\frac{d}{dy}\left[1-F_{X}(y)\right]^n\\ &=-n\left[1-F_{X}(y)\right]^{n-1}\frac{d}{dy}F_{X}(y)\\ &=-n\left[1-F_{X}(y)\right]^{n-1}(-1)\frac{d}{dy}F_{X}(y)\\ &=n\left[1-F_{X}(y)\right]^{n-1}f_{X}(y) \end{aligned} \]

Ejemplos

  • Supongamos que la vida media de una cierta bombilla de luz es distribuidas exponencialmente con media de 444 horas. Si 6 de tales bombillas son instaladas simultáneamente, cuál es la distribución de la duración de la bombilla que falla primero, ¿cuál es esta duración esperada? Sea \(X_i\) la vida de la \(i\)-ésima bombilla de luz; entonces \(Y_{[1]}=\min{\left[X_1,X_2,\ldots,X_{6}\right]}\) es la vida de la bombilla que falla primero. Se asume que las \(X_i's\) son independientes

\[ \begin{aligned} f_{X_i}&=\frac{1}{444}e^{-\frac{1}{444}x}\mathbb{I}_{(0,+\infty)}(x) \end{aligned} \]

\[ \begin{aligned} F_{X_i}&=1-e^{-\frac{1}{444}x}\mathbb{I}_{(0,+\infty)}(x) \end{aligned} \]

\[ \begin{aligned} f_{Y_{(1)}}(y)&=n\left[1-F_{X}(y)\right]^{n-1}f_{X}(y)\\ &=6\left[1-\left(1-e^{-\frac{1}{444}y}\right)\right]^{6-1}\frac{1}{444}e^{-\frac{1}{444}y}\mathbb{I}_{(0,+\infty)}(y)\\ &=6\left[e^{-\frac{1}{444}y}\right]^{5}\frac{1}{444}e^{-\frac{1}{444}y}\mathbb{I}_{(0,+\infty)}(y)\\ &=\frac{6}{444}\left[e^{-\frac{{5}}{444}y}\right]e^{-\frac{1}{444}y}\mathbb{I}_{(0,+\infty)}(y)\\ &=\frac{6}{444}e^{-\frac{{6}}{444}y}\mathbb{I}_{(0,+\infty)}(y) \end{aligned} \]

  • La cual es una distribución exponencial con valor esperado \(E[Y_{(1)}]\) igual a 74 horas de vida.

  • Supongamos que la vida media de una cierta bombilla de luz es distribuidas exponencialmente con media de 120 horas. Si 8 de tales bombillas son instaladas simultáneamente, cuál es la distribución de la duración de la bombilla que falla primero, ¿cuál es esta duración esperada? Sea \(X_i\) la vida de la \(i\)-ésima bombilla de luz; entonces \(Y_{[1]}=\min{\left[X_1,X_2,\ldots,X_{8}\right]}\) es la vida de la bombilla que falla primero. Se asume que las \(X_i's\) son independientes

\[ \begin{aligned} f_{X_i}&=\frac{1}{120}e^{-\frac{1}{120}x}\mathbb{I}_{(0,+\infty)}(x) \end{aligned} \]

\[ \begin{aligned} F_{X_i}&=1-e^{-\frac{1}{120}x}\mathbb{I}_{(0,+\infty)}(x) \end{aligned} \]

\[ \begin{aligned} f_{Y_{(1)}}(y)&=n\left[1-F_{X}(y)\right]^{n-1}f_{X}(y)\\ &=8\left[1-\left(1-e^{-\frac{1}{120}y}\right)\right]^{8-1}\frac{1}{120}e^{-\frac{1}{120}y}\mathbb{I}_{(0,+\infty)}(y)\\ &=8\left[e^{-\frac{1}{120}y}\right]^{7}\frac{1}{120}e^{-\frac{1}{120}y}\mathbb{I}_{(0,+\infty)}(y)\\ &=\frac{8}{120}\left[e^{-\frac{{7}}{120}y}\right]e^{-\frac{1}{120}y}\mathbb{I}_{(0,+\infty)}(y)\\ &=\frac{8}{120}e^{-\frac{{8}}{120}y}\mathbb{I}_{(0,+\infty)}(y) \end{aligned} \]

  • La cual es una distribución exponencial con valor esperado \(E[Y_{(1)}]\) igual a 15 horas de vida.

  • Supongamos que la vida media de una cierta bombilla de luz es distribuidas exponencialmente con media de 679 horas. Si 7 de tales bombillas son instaladas simultáneamente, cuál es la distribución de la duración de la bombilla que falla primero, ¿cuál es esta duración esperada? Sea \(X_i\) la vida de la \(i\)-ésima bombilla de luz; entonces \(Y_{[1]}=\min{\left[X_1,X_2,\ldots,X_{7}\right]}\) es la vida de la bombilla que falla primero. Se asume que las \(X_i's\) son independientes

\[ \begin{aligned} f_{X_i}&=\frac{1}{679}e^{-\frac{1}{679}x}\mathbb{I}_{(0,+\infty)}(x) \end{aligned} \]

\[ \begin{aligned} F_{X_i}&=1-e^{-\frac{1}{679}x}\mathbb{I}_{(0,+\infty)}(x) \end{aligned} \]

\[ \begin{aligned} f_{Y_{(1)}}(y)&=n\left[1-F_{X}(y)\right]^{n-1}f_{X}(y)\\ &=7\left[1-\left(1-e^{-\frac{1}{679}y}\right)\right]^{7-1}\frac{1}{679}e^{-\frac{1}{679}y}\mathbb{I}_{(0,+\infty)}(y)\\ &=7\left[e^{-\frac{1}{679}y}\right]^{6}\frac{1}{679}e^{-\frac{1}{679}y}\mathbb{I}_{(0,+\infty)}(y)\\ &=\frac{7}{679}\left[e^{-\frac{{6}}{679}y}\right]e^{-\frac{1}{679}y}\mathbb{I}_{(0,+\infty)}(y)\\ &=\frac{7}{679}e^{-\frac{{7}}{679}y}\mathbb{I}_{(0,+\infty)}(y) \end{aligned} \]

  • La cual es una distribución exponencial con valor esperado \(E[Y_{(1)}]\) igual a 97 horas de vida.

  • Supongamos que la vida media de una cierta bombilla de luz es distribuidas exponencialmente con media de 45 horas. Si 5 de tales bombillas son instaladas simultáneamente, cuál es la distribución de la duración de la bombilla que falla primero, ¿cuál es esta duración esperada? Sea \(X_i\) la vida de la \(i\)-ésima bombilla de luz; entonces \(Y_{[1]}=\min{\left[X_1,X_2,\ldots,X_{5}\right]}\) es la vida de la bombilla que falla primero. Se asume que las \(X_i's\) son independientes

\[ \begin{aligned} f_{X_i}&=\frac{1}{45}e^{-\frac{1}{45}x}\mathbb{I}_{(0,+\infty)}(x) \end{aligned} \]

\[ \begin{aligned} F_{X_i}&=1-e^{-\frac{1}{45}x}\mathbb{I}_{(0,+\infty)}(x) \end{aligned} \]

\[ \begin{aligned} f_{Y_{(1)}}(y)&=n\left[1-F_{X}(y)\right]^{n-1}f_{X}(y)\\ &=5\left[1-\left(1-e^{-\frac{1}{45}y}\right)\right]^{5-1}\frac{1}{45}e^{-\frac{1}{45}y}\mathbb{I}_{(0,+\infty)}(y)\\ &=5\left[e^{-\frac{1}{45}y}\right]^{4}\frac{1}{45}e^{-\frac{1}{45}y}\mathbb{I}_{(0,+\infty)}(y)\\ &=\frac{5}{45}\left[e^{-\frac{{4}}{45}y}\right]e^{-\frac{1}{45}y}\mathbb{I}_{(0,+\infty)}(y)\\ &=\frac{5}{45}e^{-\frac{{5}}{45}y}\mathbb{I}_{(0,+\infty)}(y) \end{aligned} \]

  • La cual es una distribución exponencial con valor esperado \(E[Y_{(1)}]\) igual a 9 horas de vida.

  • Supongamos que la vida media de una cierta bombilla de luz es distribuidas exponencialmente con media de 360 horas. Si 6 de tales bombillas son instaladas simultáneamente, cuál es la distribución de la duración de la bombilla que falla primero, ¿cuál es esta duración esperada? Sea \(X_i\) la vida de la \(i\)-ésima bombilla de luz; entonces \(Y_{[1]}=\min{\left[X_1,X_2,\ldots,X_{6}\right]}\) es la vida de la bombilla que falla primero. Se asume que las \(X_i's\) son independientes

\[ \begin{aligned} f_{X_i}&=\frac{1}{360}e^{-\frac{1}{360}x}\mathbb{I}_{(0,+\infty)}(x) \end{aligned} \]

\[ \begin{aligned} F_{X_i}&=1-e^{-\frac{1}{360}x}\mathbb{I}_{(0,+\infty)}(x) \end{aligned} \]

\[ \begin{aligned} f_{Y_{(1)}}(y)&=n\left[1-F_{X}(y)\right]^{n-1}f_{X}(y)\\ &=6\left[1-\left(1-e^{-\frac{1}{360}y}\right)\right]^{6-1}\frac{1}{360}e^{-\frac{1}{360}y}\mathbb{I}_{(0,+\infty)}(y)\\ &=6\left[e^{-\frac{1}{360}y}\right]^{5}\frac{1}{360}e^{-\frac{1}{360}y}\mathbb{I}_{(0,+\infty)}(y)\\ &=\frac{6}{360}\left[e^{-\frac{{5}}{360}y}\right]e^{-\frac{1}{360}y}\mathbb{I}_{(0,+\infty)}(y)\\ &=\frac{6}{360}e^{-\frac{{6}}{360}y}\mathbb{I}_{(0,+\infty)}(y) \end{aligned} \]

  • La cual es una distribución exponencial con valor esperado \(E[Y_{(1)}]\) igual a 60 horas de vida.

Algunas estadísticas de Orden

  • Mediana: El valor medio cuando los datos están ordenados.

  • Rango: La diferencia entre el valor máximo y mínimo en un conjunto de datos.

Ejercicio

  • Dada la lista de alturas en cm: [150, 160, 165, 170, 175, 180, 185, 190, 195, 200], ¿cuál es la mediana y el rango?

Respuesta

  • Mediana: 177.5
  • Rango: 50

Muestras bajo la Distribución Normal

Media muestral

Sea \(X_1,X_2,\ldots,X_n\) una muestra aleatoria proveniente de una función de probabilidad \(f(\cdot)\), se define la media muestral.

\[\overline{X}=\frac{1}{n}\sum_{i=1}^{n}X_i\]

Ejemplos

Media y Varianza

Sean \(X_1,X_2,\ldots,X_n\) una muestra aleatoria proveniente de una densidad \(f(\cdot)\) con media \(\mu\) y varianza finita \(\sigma^2\), y sea \(\overline{x}=\frac{1}{n}\sum_{i=1}^{n}X_i\)

\[ \begin{aligned} E\left[\overline{X}\right]&=\mu_{\overline{X}}\\ \mu \end{aligned} \]

\[ \begin{aligned} Var\left[\overline{X}\right]&=\sigma_{\overline{X}}^2\\ &=\frac{1}{n}\sigma^2 \end{aligned} \]

Ley de los grandes números

Sea \(f(\cdot;\theta)\) la función de densidad de una variable aleatoria \(X\) con media \(\mu\) y varianza finita \(\sigma^2\) y sea \(\overline{X}_n\) ula media muestral de una muestra aleatoria de tamaño \(n\) proveniente de \(f(\cdot)\). Sean \(\varepsilon\) y \(\delta\) dos números específicados tales que \(\varepsilon>0\) y \(0<\delta<1\). Si \(n\) es algún entero más grande que \(\frac{\sigma^2}{\varepsilon^2}\delta\), entonces

\[P\left[-\varepsilon<\overline{X}_{m}-\mu<\varepsilon\right]{\geq}1-\delta\]

Prueba

\[ \begin{aligned} \forall{x}>0&{\rightarrow}P\left[g(X){\geq}k\right]{\leq}\frac{E[g(X)]}{k}\\ &{\rightarrow}P\left[g(X){<}k\right]{\geq}1-\frac{E[g(X)]}{k} \end{aligned} \]

Sea \(g(X)=\left(\overline{X}-\mu\right)^2\) y \(k=\varepsilon^2\); entonces

\[ \begin{aligned} P\left[-\varepsilon{<}\overline{X}-\mu{<}\varepsilon\right]&=P\left[\left|\overline{X}-\mu\right|{<}\varepsilon\right]\\ &=P\left[\left|\overline{X}-\mu\right|^2{<}\varepsilon^2\right]\\ &{\geq}1-\frac{E\left[\left(\overline{X}-\mu\right)^2\right]}{\varepsilon^2}\\ &=1-\frac{\frac{1}{n}\sigma^2}{\varepsilon^2}{\geq}1-\delta \end{aligned} \]

A partir de la última desigualdad se tiene que:

\[ \begin{aligned} 1-\frac{\frac{1}{n}\sigma^2}{\varepsilon^2}{\geq}1-\delta&{\rightarrow}-\frac{\frac{1}{n}\sigma^2}{\varepsilon^2}{\geq}-\delta\\ &{\rightarrow}\frac{\frac{1}{n}\sigma^2}{\varepsilon^2}{<}\delta\\ &{\rightarrow}\frac{\sigma^2}{n\varepsilon^2}{<}\delta\\ &{\rightarrow}\frac{\sigma^2}{\delta\varepsilon^2}{<}n \end{aligned} \]

Ejemplos

  • Suponga alguna distribución con media desconocida y varianza igual a 1. ¿Qué tan grande debe ser la muestra a seleccionarse para garantizar que la probabilidad de que la media muestral \(\overline{X}\) se encuentre como máximo a 0.42 de la media poblacional \(\mu\) con una probabilidad del 98%? Tenemos que \(\delta\) = 0.02 y entonces

\[ \begin{aligned} \frac{\sigma^2}{\delta\varepsilon^2}{<}n&{\implies}\frac{1}{0.02\cdot0.42^2}{<}n\\ &{\implies}283{<}n\\ \end{aligned} \]

  • Suponga alguna distribución con media desconocida y varianza igual a 1. ¿Qué tan grande debe ser la muestra a seleccionarse para garantizar que la probabilidad de que la media muestral \(\overline{X}\) se encuentre como máximo a 0.14 de la media poblacional \(\mu\) con una probabilidad del 97%? Tenemos que \(\delta\) = 0.03 y entonces

\[ \begin{aligned} \frac{\sigma^2}{\delta\varepsilon^2}{<}n&{\implies}\frac{1}{0.03\cdot0.14^2}{<}n\\ &{\implies}1701{<}n\\ \end{aligned} \]

  • Suponga alguna distribución con media desconocida y varianza igual a 1. ¿Qué tan grande debe ser la muestra a seleccionarse para garantizar que la probabilidad de que la media muestral \(\overline{X}\) se encuentre como máximo a 0.76 de la media poblacional \(\mu\) con una probabilidad del 92%? Tenemos que \(\delta\) = 0.08 y entonces

\[ \begin{aligned} \frac{\sigma^2}{\delta\varepsilon^2}{<}n&{\implies}\frac{1}{0.08\cdot0.76^2}{<}n\\ &{\implies}22{<}n\\ \end{aligned} \]

  • Suponga alguna distribución con media desconocida y varianza igual a 1. ¿Qué tan grande debe ser la muestra a seleccionarse para garantizar que la probabilidad de que la media muestral \(\overline{X}\) se encuentre como máximo a 0.82 de la media poblacional \(\mu\) con una probabilidad del 97%? Tenemos que \(\delta\) = 0.03 y entonces

\[ \begin{aligned} \frac{\sigma^2}{\delta\varepsilon^2}{<}n&{\implies}\frac{1}{0.03\cdot0.82^2}{<}n\\ &{\implies}50{<}n\\ \end{aligned} \]

  • Suponga la distribución del ingreso mediano por condado en los Estados Unicos con media desconocida y varianza igual a 281.357.623. ¿Qué tan grande debe ser la muestra a seleccionarse para garantizar que la probabilidad de que la media muestral \(\overline{X}\) se encuentre como máximo a 3.539 de la media poblacional \(\mu\) con una probabilidad del 94%? Tenemos que \(\delta\) = 0.06 y entonces

\[ \begin{aligned} \frac{\sigma^2}{\delta\varepsilon^2}{<}n&{\implies}\frac{281.357.623}{0.06\cdot3.539^2}{<}n\\ &{\implies}374{<}n \end{aligned} \]

Teorema Central del Límite

El Teorema del Límite Central (TLC) establece que la suma de un gran número de variables aleatorias independientes e idénticamente distribuidas (iid) se aproxima a una distribución normal, independientemente de la forma de la distribución original, siempre y cuando la varianza no sea infinita.

La función generadora de momentos (FGM) juega un papel clave en la demostración del TLC. La FGM de la suma de variables aleatorias iid es el producto de las FGM individuales. Aquí, proporcionaré una visión general de la demostración utilizando la función generadora de momentos.

Enunciado Informal del Teorema del Límite Central:

Dadas \(X_1,X_2\ldots,X_n\)​ variables aleatorias independientes e identicamente distribuidas con media \(\mu\) y varianza \(\sigma^2\), y sea \(S_n=X_1+X_2+\ldots+X_n\). Entonces, cuando \(n\) tiende a infinito \(n\rightarrow\infty\), la distribución de \(\frac{S_n-n\mu}{\sqrt{n}\sigma}\) se aproxima a la distribución normal estándar.

Demostración con la Función Generadora de Momentos:

  • Función Generadora de Momentos de \(S_n\):

La FGM de la suma \(S_n\) es el producto de las FGM individuales debido a la independencia:

\[ M_{S_n}(t)=[M_{X}(t)]^n \]

  • Desplazamiento y Escalamiento:

Consideramos la variable estandarizada \(Z_n=\frac{S_n-n\mu}{\sqrt{n}\sigma}\) Su FGM es:

\[ \begin{align} M_{Z_n}(t)&=E[e^{tZ_n}]\\ &=E\left[e^{t\left(\frac{S_n-n\mu}{\sqrt{n}\sigma}\right)}\right] \end{align} \]

  • Aplicación de la FGM de SnSn​:

Utilizamos la FGM de \(S_n\) para escribir la FGM de \(Z_n\):

\[ \begin{align} M_{Z_n}(t)&=E\left[e^{t\left(\frac{S_n-n\mu}{\sqrt{n}\sigma}\right)}\right]\\ &=E\left[e^{\frac{t}{\sqrt{n}\sigma}S_n-t\mu}\right]\\ &=e^{-t\mu}E\left[e^{\frac{t}{\sqrt{n}\sigma}S_n}\right]\\ &=e^{-t\mu}M_{S_n}\left(\frac{t}{\sqrt{n}\sigma}\right) \end{align} \]

  • Expansión en Serie de Taylor:

Utilizamos la expansión en serie de Taylor de \(M_{S_n}\left(\frac{t}{\sqrt{n}\sigma}\right)\) alrededor de \(t=0\):

\[ M_{S_n}\left(\frac{t}{\sqrt{n}\sigma}\right)=M_{S_n}\left(0\right)+\frac{t}{\sqrt{n}\sigma}M_{S_n}'\left(0\right)+\frac{1}{2}\left(\frac{t}{\sqrt{n}\sigma}\right)^2M_{S_n}''\left(0\right)+\cdots \]

  • Convergencia a la FGM de la Normal:

Tomamos el límite cuando \(n\rightarrow\infty\) y utilizamos el hecho de que \(M_{S_n}\left(0\right)=1\), \(M_{S_n}'\left(0\right)=\mu\) y \(M_{S_n}''\left(0\right)=\sigma^2\). Eston nos llevar a:

\[ M_{Z_n}(t)=e^{-t\mu}\left[1+\frac{t}{\sqrt{n}\sigma}\mu+\frac{1}{2}\left(\frac{t}{\sqrt{n}\sigma}\right)^2\sigma^2+\cdots\right] \]

  • Distribución Límite:

Ahora, observemos los términos que involucran nn en el denominador. A medida que nn tiende a infinito, los términos proporcionados por \(\frac{1}{\sqrt{n}}\) tienden a cero. Por lo tanto, los términos que involucran \(n\) en el denominador desaparecerán a medida que nn se hace grande.

Algunas notas acerca de la demostración:

  • Centramiento alrededor de Cero: Si asumimos \(\mu=0\), entonces la expresión \(e^{−t\mu}\) se convierte en \(e^{−t\mu}=e^{−t\cdot0}=e^0=1\). Esto significa que estamos considerando la diferencia entre la variable aleatoria original y cero.

  • Simplificación y Sin Pérdida de Generalidad: Al asumir \(\mu=0\), no perdemos generalidad en el Teorema del Límite Central. Esto se debe a que estamos interesados en la distribución relativa y la forma en que se normaliza la variable aleatoria en relación con su media. Al centrarnos en cero, simplificamos las expresiones matemáticas sin perder la esencia del resultado.

  • Simplificación de la Explicación: Asumir \(\mu=0\) facilita la explicación y el razonamiento, ya que elimina términos adicionales y simplifica la expresión para la FGM. Esto es especialmente útil cuando estamos tratando de transmitir los conceptos clave de la demostración.

En resumen, al asumir \(\mu=0\), estamos simplificando la expresión y la explicación sin perder la esencia del Teorema del Límite Central. Esta elección facilita el análisis matemático y conceptual al centrarnos en la normalización alrededor de cero.

Ahora, examinemos la expresión exponencial principal \(e^{−t\mu}\). Si consideramos \(\mu=0\) (que es típico en el Teorema del Límite Central donde estamos centrando y normalizando), esta expresión se simplifica a \(e^0=1\). Entonces, podemos asumir \(\mu=0\) para simplificar la explicación.

La función generadora de momentos (FGM) de ZnZn​ está dada por:

\[ \begin{aligned} M_{Z_n}(t)&=e^{-t{\cdot}0}\left[1+\frac{t}{\sqrt{n}\sigma}{\cdot}0+\frac{1}{2}\left(\frac{t}{\sqrt{n}\sigma}\right)^2\sigma^2+\cdots\right]\\ &=1\left[1+\frac{1}{2}\left(\frac{t}{\sqrt{n}\sigma}\right)^2\sigma^2+\cdots\right]\\ &=1+\frac{1}{2}\left(\frac{t}{\sqrt{n}\sigma}\right)^2\sigma^2+\cdots \end{aligned} \]

Esto nos lleva a la siguiente aproximación cuando \(n\) tiende a infinito:

\[ \begin{aligned} M_{Z_n}(t)&=1+0+0+\cdots \end{aligned} \]

Por lo tanto, con \(\mu=0\), la expresión exponencial principal \(e^{−t\mu}\) se convierte en \(e^0=1\) y los términos adicionales que involucran μμ dentro del paréntesis también se anulan.

Entonces, la FGM de \(Z_n\) converge a 1, y esta es la característica distintiva de la FGM de la distribución normal estándar \(N(0,1)\). En otras palabras, como \(n\) tiende a infinito, la FGM de \(Z_n\)​ se asemeja a la FGM de una variable aleatoria con distribución normal estándar, que es \(e^{-\frac{1}{2}t}\).

El resultado final es que la FGM de \(Z_n\) converge a la FGM de la distribución normal estándar:

\[ \begin{aligned} \lim_{n\rightarrow\infty}M_{Z_n}(t)&=e^{-\frac{1}{2}t} \end{aligned} \]

  • Conclusión:

Según el teorema de continuidad de Levy, la distribución de \(Z_n\) converge a la distribución normal estándar. Esto completa la demostración del Teorema del Límite Central.

Ejemplos

  • El grado de aproximación depende, en efecto, del tamaño de muestra y en partícular de la densidad \(f(\cdot)\). La aproximación a la normalidad es ilustrada en el siguiente gráfico para la función definida por \(f(x)=e^{-x}I_{(0,+\infty)}(x)\)
# Instala ggplot2 si aún no lo has instalado
# install.packages("ggplot2")

# Carga la librería
library(ggplot2)

# Semilla para reproducibilidad
set.seed(123)

# Número de muestras
num_muestras <- 1000

# Tamaños de muestra a probar
tamanos_muestra <- c(10, 30, 50)

# Lista para almacenar los data frames de las medias
lista_medias <- list()

# Genera muestras y calcula las medias para diferentes tamaños de muestra
for (tamano_muestra in tamanos_muestra) {
  muestras <- matrix(rexp(num_muestras * tamano_muestra), ncol = tamano_muestra)
  medias <- rowMeans(muestras)
  lista_medias[[as.character(tamano_muestra)]] <- data.frame(media = medias, tamano_muestra = tamano_muestra)
}

# Combina los resultados en un único data frame
datos <- do.call(rbind, lista_medias)

# Ancho personalizado de las barras
ancho_barras <- 0.2  # Ajusta este valor para hacer las barras más angostas

# Ajuste de la densidad para coincidir visualmente con las barras
ajuste_densidad <- 1.5  # Ajusta este valor para alinear las barras y las líneas de densidad

# Crea un facet grid con densidad de distribución normal
ggplot(datos, aes(x = media)) +
  geom_histogram(binwidth = ancho_barras, fill = "blue", color = "white", alpha = 0.7, aes(y = ..density.. * ajuste_densidad), legend="Barras") +
  geom_density(aes(y = ..density.. * ajuste_densidad), color = "red", size = 1, legend="Densidad") +
  stat_function(fun = dexp, args = list(rate = 1, log = F), color = "green", size = 1, legend="Distribución Exponencial") +
  labs(title = "Teorema del Límite Central",
       subtitle = "Distribución de medias de muestras de una distribución exponencial",
       x = "Media de la muestra",
       y = "Densidad") +
  facet_grid(. ~ tamano_muestra) +
  theme_minimal() +
  theme(legend.position = "top") +
  scale_fill_manual(values = "blue") +
  scale_color_manual(values = c("red", "green")) +
  guides(fill = guide_legend(title = "Leyenda"),
         color = guide_legend(title = "Leyenda"))

Ejercicios

  • Aplicar el Teorema Central del Límite a un conjunto de datos.

Respuesta

  • La media de la muestra se distribuirá aproximadamente de manera normal, independientemente de la forma de la población original.

Distribuciones Muestrales

La distribución normal juega un papel predominante en las estadísticas, en efecto, el teorema del límite central asegura que este sea el caso, pero existen otras razones igualmente de importantes. En primer lugar, muchas poblaciones encuentran en el curso de su investigación que para muchos campos la distribución normal parece ser una buena aproximación.

Media muestral

Sea \(\overline{X}_n\) la muedia muestral de una muestra aleatoria de tamaño \(n\) proveniende de una distribución normal con media \(\mu\) y varianza \(\sigma^2\). Entonces \(\overline{X}_n{\sim}N(\mu,\frac{\sigma^2}{n})\)

Prueba

\[ \begin{aligned} m_{\overline{X}_n}(t)&=E\left[e^{t\overline{X}}\right]\\ &=E\left[e^{t\frac{\sum_{i=1}^{n}X_i}{n}}\right]\\ &=E\left[\prod_{i=1}^{n}e^{t\frac{X_i}{n}}\right]\\ &=\prod_{i=1}^{n}E\left[e^{t\frac{X_i}{n}}\right]\\ &=\prod_{i=1}^{n}m_{{X}_i}\left(\frac{t}{n}\right)\\ &=\prod_{i=1}^{n}e^{\frac{{\mu}t}{n}+\frac{1}{2}\left[\frac{{\sigma}t}{n}\right]^2}\\ &=e^{{\mu}t+\frac{\frac{1}{2}\left({\sigma}t\right)^2}{n}}\\ \end{aligned} \]

La cual es la función generadora de momentos de una distribución normal con media \(\mu\) y varianza \(\frac{\sigma^2}{n}\)

  • Chi-cuadrado, t-Student, F: Son distribuciones asociadas con diferentes estadísticas muestrales.

Distribución Chi - Cuadrado

La distribución normal tiene dos parametros desconocidos \(\mu\) y \(\sigma^2\). Vamos a ver la distribución de \(S^2\)

\[ S^2=\frac{1}{n-1}\sum_{i=1}^{n}\left(X_i-\overline{X}\right)^2 \]

el cual es un estimador de la varianza desconocida \(\sigma^2\). Una función de densidad que juega un rol central en la derivavión de la distribución de \(S^2\) es la distribución Chi - cuadrado.

\[ f_{X}(x)=\frac{1}{\Gamma\left(\frac{k}{2}\right)}\left(\frac{1}{2}\right)^\frac{k}{2}x^{\frac{k}{2}-1}e^{-\frac{1}{2}x}\mathbb{I}_{(0,+\infty)}(x) \]

Aquí \(k\) corresponde a los grados de libertad, un entero positivo.

\[ \begin{aligned} E\left(X\right)&=\frac{\frac{k}{2}}{\frac{1}{2}}\\ &=\frac{2{\cdot}k}{2{\cdot}1}\\ &=k \end{aligned} \]

\[ \begin{aligned} m_{X}\left(t\right)&=\left[\frac{\frac{1}{2}}{\frac{1}{2}-t}\right]^{\frac{k}{2}}\\ &=\left[\frac{\frac{1}{2}}{\frac{1}{2}-\frac{2}{2}t}\right]^{\frac{k}{2}}\\ &=\left[\frac{\frac{1}{2}}{\frac{1-2t}{2}}\right]^{\frac{k}{2}}\\ &=\left[\frac{2{\cdot}1}{2{\cdot}(1-2t)}\right]^{\frac{k}{2}}\\ &=\left[\frac{1}{1-2t}\right]^{\frac{k}{2}}\text{ con }t<\frac{1}{2} \end{aligned} \]

Teorema 7

Si la variables aleatorias \(X_i\), con \(i=1,\ldots,k\), son normalmente e identicamente distribuidas con medias \(\mu_i\) y varianzas \(\sigma_i^2\), entonces

\[ U=\sum_{i=1}^{k}{\left(\frac{X_i-\mu_i}{\sigma_i}\right)}^{2} \]

tiene una distribución chi-cuadrado con \(k\) grados de libertad.

Prueba

\[ \begin{aligned} m_{U}(t)&=E\left(e^{tU}\right)\\ &=E\left(e^{t\sum_{i=1}^{k}{Z_i^2}}\right)\\ &=E\left(e^{\sum_{i=1}^{k}{tZ_i^2}}\right)\\ &=E\left(\prod_{i=1}^{k}e^{{tZ_i^2}}\right)\\ &=\prod_{i=1}^{k}E\left(e^{{tZ_i^2}}\right) \end{aligned} \]

Pero

\[ \begin{aligned} E\left(e^{tZ_i^2}\right)&=\int_{-\infty}^{+\infty}{e^{tz^2}\left(\frac{1}{\sqrt{2\pi}}\right)e^{-\frac{1}{2}z^2}}dz\\ &=\int_{-\infty}^{+\infty}{\frac{1}{\sqrt{2\pi}}e^{-\frac{1}{2}z^2+tz^2}}dz\\ &=\int_{-\infty}^{+\infty}{\frac{1}{\sqrt{2\pi}}e^{-\frac{1}{2}z^2+\frac{2}{2}tz^2}}dz\\ &=\int_{-\infty}^{+\infty}{\frac{1}{\sqrt{2\pi}}e^{-\frac{1}{2}(z^2-2tz^2)}}dz\\ &=\int_{-\infty}^{+\infty}{\frac{1}{\sqrt{2\pi}}e^{-\frac{1}{2}(1-2t)z^2}}dz\\ &=\int_{-\infty}^{+\infty}{\frac{\sqrt{1-2t}}{\sqrt{1-2t}}\frac{1}{\sqrt{2\pi}}e^{-\frac{1}{2}(1-2t)z^2}}dz\\ &=\frac{1}{\sqrt{1-2t}}\int_{-\infty}^{+\infty}{\frac{\sqrt{1-2t}}{\sqrt{2\pi}}e^{-\frac{1}{2}(\sqrt{1-2t}z)^2}}dz\\ &=\frac{1}{\sqrt{1-2t}}\int_{-\infty}^{+\infty}{\frac{1}{\sqrt{2\pi}\sqrt{\frac{1}{1-2t}}}e^{-\frac{1}{2}\left(\frac{z}{\sqrt{\frac{1}{1-2t}}}\right)^2}}dz\\ &=\frac{1}{\sqrt{1-2t}}\int_{-\infty}^{+\infty}{\frac{1}{\sqrt{2\pi\frac{1}{1-2t}}}e^{-\frac{1}{2}\left(\frac{z-0}{\sqrt{\frac{1}{1-2t}}}\right)^2}}dz\\ &=\frac{1}{\sqrt{1-2t}}{\cdot}1\\ &=\frac{1}{\sqrt{1-2t}} \end{aligned} \]

Para \(Z{\sim}N\left(0,\frac{1}{1-2t}\right)\) lo que implica que la integral es el área bajo la curva de una distribución normal, y \(1-2t>0{\implies}1>2t{\implies}\frac{1}{2}>t\). Luego

\[ \begin{aligned} \prod_{i=1}^{k}E\left(e^{tZ_i^2}\right)&=\prod_{i=1}^{k}\frac{1}{\sqrt{1-2t}}\\ &=\left(\frac{1}{\sqrt{1-2t}}\right)^{k}\\ &=\left(\frac{1}{1-2t}\right)^{\frac{k}{2}} \end{aligned} \]

La función generadora de momentos de una distribución chi-cuadrado con \(k\) grados de libertad.

Corolario

Si \(X_1,X_2,\ldots,X_n\) es una muestra aleatoriasa proveniente de una distribución normal con media \(\mu\) y varianza \(\sigma^2\), entonces \(U=\frac{1}{\sigma^2}\sum_{i=1}^{n}\left({X}_i-\mu\right)^2\) tiene una distribucion chi-cuadrado con \(n\) grados de libertad.

Debemos notar que si alguno \(\mu\) o \(\sigma^2\) es desconociso, \(U\) definido como antes no es un estadístico. De otra parte, si \(\mu\) es conocido y \(\sigma^2\) es desconocido, podríamos estimar \(\sigma^2\) con \(U=\frac{1}{n}\sum_{i=1}^{n}\left(X_i-\mu\right)^2\) notando que:

\[ \begin{aligned} E(U)&=E\left[\frac{1}{n}\sum_{i=1}^{n}\left(X_i-\mu\right)^2\right]\\ &=\frac{1}{n}E\left[\sum_{i=1}^{n}\left(X_i-\mu\right)^2\right]\\ &=\frac{1}{n}\sum_{i=1}^{n}E\left[\left(X_i-\mu\right)^2\right]\\ &=\frac{1}{n}\sum_{i=1}^{n}\sigma^2\\ &=\frac{1}{n}{n}\sigma^2\\ &=\sigma^2 \end{aligned} \]

En otras palabras, la suma de variables normales elevadas al cuadrado siguen una distribución chi-cuadrado con grados de libertad igual al número de terminos en la suma.

Teorema 8

Si \(Z_i,Z_2,\ldots,Z_n\) es una muestra aleatoria de una distribución normal estándar, entonces:

  1. \(\overline{Z}\) tiene una distribución normal con media \(0\) y varianza \(\frac{1}{n}\)

  2. \(\overline{Z}\) y \(\sum_{i=1}^n \left(Z_i-\overline{Z}\right)^2\) son independientes

  3. \(\sum_{i=1}^n \left(Z_i-\overline{Z}\right)^2\) tiene una distribución chi-cuadrado con \(n-1\) grados de libertad.

Prueba (incompleta)
  1. es una caso especial de un teorema anterior. Debemos probar (ii) para el caso \(n=2\).

\[ \overline{Z}=\frac{Z_1+Z_2}{2} \]

y

\[ \begin{aligned} \sum_{i=1}^{2}\left(Z_i-\overline{Z}\right)^2&=\left(Z_1-\overline{Z}\right)^2+\left(Z_2-\overline{Z}\right)^2\\ &=\left(Z_1-\frac{Z_1+Z_2}{2}\right)^2+\left(Z_2-\frac{Z_1+Z_2}{2}\right)^2\\ &=\left(\frac{2Z_1-Z_1-Z_2}{2}\right)^2+\left(\frac{2Z_2-Z_1-Z_2}{2}\right)^2\\ &=\left(\frac{Z_1-Z_2}{2}\right)^2+\left(\frac{Z_1-Z_2}{2}\right)^2\\ &=\frac{\left(Z_1-Z_2\right)^2}{4}+\frac{\left(Z_2-Z_1\right)^2}{4}\\ &=\frac{\left(Z_1-Z_2\right)^2+\left(Z_2-Z_1\right)^2}{4}\\ &=\frac{Z_1^2-2Z_1Z_2+Z_2^2+Z_2^2-2Z_2Z_1+Z_1^2}{4}\\ &=\frac{2Z_1^2-4Z_1Z_2+2Z_2^2}{2{\cdot}2}\\ &=\frac{2\left(Z_1^2-2Z_1Z_2+Z_2^2\right)}{2{\cdot}2}\\ &=\frac{Z_1^2-2Z_1Z_2+Z_2^2}{2}\\ &=\frac{Z_2^2-2Z_1Z_2+Z_1^2}{2}\\ &=\frac{\left(Z_2-Z_1\right)^2}{2} \end{aligned} \]

Por lo que \(\overline{Z}\) es una función de \(Z_1+Z_2\) y \(\sum_{i=1}^{2}\left(Z_i-\overline{Z}\right)^2\) es una función de \(Z_1-Z_2\); por lo que prueba que \(\overline{Z}\) y \(\sum_{i=1}^{2}\left(Z_i-\overline{Z}\right)^2\) son independientes, esto basta para mostrar que \(Z_1+Z_2\) y \(Z_2-Z_1\) son independientes. Ahora

\[ \begin{aligned} m_{Z_1+Z_2}\left(t_1\right)&=E\left[e^{t_1\left(Z_1+Z_2\right)}\right]\\ &=E\left[e^{t_1Z_1}e^{t_1Z_2}\right]\\ &=E\left[e^{t_1Z_1}\right]E\left[e^{t_1Z_2}\right]\\ &=e^{\frac{1}{2}t_1^2}e^{\frac{1}{2}t_1^2}\\ &=e^{t_1^2} \end{aligned} \]

\[ \begin{aligned} m_{Z_2-Z_1}\left(t_2\right)&=E\left[e^{t_2\left(Z_2-Z_1\right)}\right]\\ &=E\left[e^{t_2Z_2}e^{-t_2Z_1}\right]\\ &=E\left[e^{t_2Z_2}\right]E\left[e^{-t_2Z_1}\right]\\ &=e^{\frac{1}{2}t_2^2}e^{\frac{1}{2}t_2^2}\\ &=e^{t_2^2} \end{aligned} \]

También,

\[ \begin{aligned} m_{Z_1+Z_2,Z_2-Z_1}\left(t_1,t_2\right)&=E\left[e^{t_1\left(Z_1+Z_2\right)+t_2\left(Z_2-Z_1\right)}\right]\\ &=E\left[e^{t_1Z_1}e^{t_1Z_2}e^{t_2Z_2}e^{-t_2Z_1}\right]\\ &=E\left[e^{(t_1+t_2)Z_2}\right]E\left[e^{(t_1-t_2)Z_1}\right]\\ &=e^{\frac{1}{2}(t_1-t_2)^2}e^{\frac{1}{2}(t_1+t_2)^2}\\ &=e^{t_1^2}e^{t_2^2}\\ &=m_{Z_1+Z_2}\left(t_1\right)m_{Z_2-Z_1}\left(t_2\right) \end{aligned} \]

y entonces la función generadora de momentos conjunta es el producto de las funciones generadoras de momentos marginales, \(Z_1+Z_2\) y \(Z_2-Z_1\) son independientes.

Para probar (iii), aceptamos la independencia de \(\overline{Z}\) y \(\sum_{i=1}^{n}\left(Z_i-\overline{Z}\right)^2\) para \(n\) arbitrario. Notemos que

\[ \begin{aligned} \sum_{i=1}^{n}Z_i^2&=\sum_{i=1}^{n}\left(Z_i-\overline{Z}+\overline{Z}\right)^2\\ &=\sum_{i=1}^{n}\left[\left(Z_i-\overline{Z}\right)+\overline{Z}\right]^2\\ &=\sum_{i=1}^{n}\left[\left(Z_i-\overline{Z}\right)^2+2\left(Z_i-\overline{Z}\right)\overline{Z}+\overline{Z}^2\right]\\ &=\sum_{i=1}^{n}\left(Z_i-\overline{Z}\right)^2+2\overline{Z}\sum_{i=1}^{n}\left(Z_i-\overline{Z}\right)+\sum_{i=1}^{n}\overline{Z}^2\\ &=\sum_{i=1}^{n}\left(Z_i-\overline{Z}\right)^2+\sum_{i=1}^{n}\overline{Z}^2\\ &=\sum_{i=1}^{n}\left(Z_i-\overline{Z}\right)^2+{n}\overline{Z}^2 \end{aligned} \]

También \(\sum_{i=1}^{n}\left(Z_i-\overline{Z}\right)^2\) y \({n}\overline{Z}^2\) son independientes, entonces

\[ \begin{aligned} m_{\sum_{i=1}^{n}Z_i^2}\left(t\right)&=m_{\sum_{i=1}^{n}\left(Z_i-\overline{Z}\right)^2}\left(t\right)m_{{n}\overline{Z}^2}\left(t\right) \end{aligned} \]

Por lo que,

\[ \begin{aligned} m_{\sum_{i=1}^{n}\left(Z_i-\overline{Z}\right)^2}\left(t\right)&=\frac{m_{\sum_{i=1}^{n}Z_i^2}\left(t\right)}{m_{{n}\overline{Z}^2}\left(t\right)}\\ &=\frac{\left(\frac{1}{1-2t}\right)^{\frac{n}{2}}}{\left(\frac{1}{1-2t}\right)^{\frac{1}{2}}}\\ &=\frac{\frac{1}{\left(1-2t\right)^{\frac{n}{2}}}}{\frac{1}{\left(1-2t\right)^{\frac{1}{2}}}}\\ &=\frac{\left(1-2t\right)^{\frac{1}{2}}}{\left(1-2t\right)^{\frac{n}{2}}}\\ &=\left(1-2t\right)^{\frac{1}{2}}\left(1-2t\right)^{-\frac{n}{2}}\\ &=\left(1-2t\right)^{\frac{1}{2}-\frac{n}{2}}\\ &=\left(1-2t\right)^{\frac{1-n}{2}}\\ &=\left(\frac{1}{1-2t}\right)^{\frac{n-1}{2}}\text{ con }t<\frac{1}{2} \end{aligned} \]

notando que \(\sqrt{n}\overline{Z}\) tiene una distribución normal estándar implicando que \(n\overline{Z}^2\) tiene una distribución chi-cuadrado con un grado de libertad. Nosotros temenos que mostrar que la función generadora dem omentos de \(\sum_{i=1}^{n}\left(Z_i-\overline{Z}\right)^2\) es una chi-cuadrado con \(n-1\) grados de libertad, lo cual completa la prueba.

El teorema anterior fue declarado para una muestra aleatoria de uns distribución normal estándar, como sea si nosotros quisieramos hacer inferencias acerca de \(\mu\) y \(\sigma^2\), nuestra muestra es proveniente de una distribución normal con media \(\mu\) y varianza \(\sigma^2\); entonces el \(Z_i\) puede ser tomado igula a \(\frac{X_i-\mu}{\sigma}\)

  1. del teorema 8 tenemos:

(i’) \(\overline{Z}=\frac{1}{n}\sum_{i=1}^{n}\frac{X_i-\mu}{\sigma}=\frac{\overline{X}_i-\mu}{\sigma}\)

  1. del teorema 8 tenemos:

(ii’) \(\overline{Z}=\frac{\overline{X}_i-\mu}{\sigma}\) y \(\sum_{i=1}^{n}\left(Z_i-\overline{Z}\right)^2=\sum_{i=1}^{n}\left(\frac{X_i-\mu}{\sigma}-\frac{\overline{X}-\mu}{\sigma}\right)^2=\sum_{i=1}^{n}\left(\frac{X_i-\overline{X}}{\sigma}\right)^2\) son independientes, lo cual implica que \(\overline{X}\) y \(\sum_{i=1}^{n}\left(X_i-\overline{X}\right)\) son independientes.

  1. del teorema 8 tenemos:

(iii’) \(\sum_{i=1}^{n}\left(Z_i-\overline{Z}\right)^2=\sum_{i=1}^{n}\left(\frac{X_i-\overline{X}}{\sigma}\right)^2\) tiene una distribución chi-cuadrado con \(n-1\) grados de libertad.

Corolario

Si \(S^2=\frac{1}{n-1}\sum_{i=1}^{n}\left(X_i-\overline{X}\right)^2\) es la varianza muestral de una muestra aleatoria proveniente de una distribución normal con media \(\mu\) y varianza \(\sigma^2\)

\[ U=\frac{(n-1)S^2}{\sigma^2} \]

tiene una distribución chi-cuadrado con \(n-1\) grados de libertad

Prueba

Esta es la última parte del anterior apartado (iii’) \(\sum_{i=1}^{n}\left(Z_i-\overline{Z}\right)^2=\sum_{i=1}^{n}\left(\frac{X_i-\overline{X}}{\sigma}\right)^2\) tiene una distribución chi-cuadrado con \(n-1\) grados de libertad.

Nota

Partiendo de que \(S^2\) es una función lineal de \(U=\frac{(n-1)S^2}{\sigma^2}\), la densidad de \(S^2\) puedes ser obtenida de la densidad de \(U\). Esto es

\[ f_{S^2}(y)=\left(\frac{n-1}{2\sigma^2}\right)^{\frac{n-1}{2}}\frac{1}{\Gamma{\frac{n-1}{2}}}y^{\frac{n-3}{2}}e^{\frac{(n-1)}{2\sigma^2}y}\mathbb{I}_{(0,+\infty)}(y) \]

Nota

Los “grados de libertad” pueden referirse al número de cuadrados independientes en la suma. Por ejemplo, la suma de \(U=\sum_{i=1}^{k}{\left(\frac{X_i-\mu_i}{\sigma_i}\right)}^{2}\) tiene \(k\) cuadrados independientes en la suma. pero en \(\sum_{i=1}^{n}\left(\frac{X_i-\overline{X}}{\sigma}\right)^2\) hay solo \(n-1\) terminos independientes partiendo de que la relación \(\sum_{i=1}^{n}\left(Z_i-\overline{Z}\right)^2=0\) permite el cálculo de uno de los sumandos \(Z_i-\overline{Z}\) dadas los otros \(n-1\) de dichos sumandos.

Todos los resultados aquí expuestos aplican solo para poblaciones normales. En efecto, puede ser probarse, que para ninguna otra distribución (i) son la media muestral y la varianza muestral independientemente distribuidas o (ii) que la media muestral es distribuida normal de forma exácta.

Distribución F

Una distribución, la distribución F, la cual debemos encontrar como de considerable interés práctico, es la distribución dle cociente de dos variables independientes chi-cuadrado divididas por sus respectivos grados de libertad. Suponemos que \(U\) y \(V\) son independientemente distribuidas con distribuciones chi-cuadrado con m y n grados de libertad, respectivamente. La siguietne es la densidad conjunta:

\[ f_{U,V}(u,v)=\frac{1}{\Gamma\left(\frac{m}{2}\right)\Gamma\left(\frac{n}{2}\right)2^{\frac{m+n}{2}}}u^{\frac{m-2}{2}}v^{\frac{n-2}{2}}e^{-\frac{1}{2}(u+v)}\mathbb{I}_{(0,+\infty)}(u)\mathbb{I}_{(0,+\infty)}(v) \]

Debemos halla la distribución de la cantidad

\[ X=\frac{\frac{U}{m}}{\frac{V}{n}} \]

La cual es comunmente conocida como el cociente de varianzas. Para hallar la distribución de \(X\) , nosotros hacemos la transformación \(X=\frac{\frac{U}{m}}{\frac{V}{n}}\) y \(Y=V\), obteniendo la distribución conjunta de \(X\) e \(Y\), y enteonces las distribuciones marginales de \(X\) por medio de la integración de la variable \(y\). El Jacobiano de la transformación es \((\frac{m}{n})y\); por lo que

\[ f_{X,Y}(x,y)=\frac{m}{n}y\frac{1}{\Gamma\left(\frac{m}{2}\right)\Gamma\left(\frac{n}{2}\right)2^{\frac{m+n}{2}}}\left(\frac{m}{n}xy\right)^{\frac{m-2}{2}}y^{\frac{n-2}{2}}e^{-\frac{1}{2}(\frac{m}{n}xy+y)} \]

y

\[ \begin{aligned} f_{X}(x)&=\int_{0}^{+\infty}f_{X,Y}(x,y)dy\\ &=\int_{0}^{+\infty}\frac{m}{n}y\frac{1}{\Gamma\left(\frac{m}{2}\right)\Gamma\left(\frac{n}{2}\right)2^{\frac{m+n}{2}}}\left(\frac{m}{n}xy\right)^{\frac{m-2}{2}}y^{\frac{n-2}{2}}e^{-\frac{1}{2}\left(\frac{m}{n}x+1\right)y}dy\\ &=\int_{0}^{+\infty}\frac{m}{n}y\frac{1}{\Gamma\left(\frac{m}{2}\right)\Gamma\left(\frac{n}{2}\right)2^{\frac{m+n}{2}}}\left(\frac{m}{n}\right)^{\frac{m-2}{2}}x^{\frac{m-2}{2}}y^{\frac{m-2}{2}}y^{\frac{n-2}{2}}e^{-\frac{1}{2}\left(\frac{m}{n}x+1\right)y}dy\\ &=\int_{0}^{+\infty}\frac{m}{n}\left(\frac{m}{n}\right)^{\frac{m-2}{2}}\frac{1}{\Gamma\left(\frac{m}{2}\right)\Gamma\left(\frac{n}{2}\right)2^{\frac{m+n}{2}}}x^{\frac{m-2}{2}}y^{\frac{m-2}{2}}y^{\frac{n-2}{2}}ye^{-\frac{1}{2}\left(\frac{m}{n}x+1\right)y}dy\\ &=\int_{0}^{+\infty}\left(\frac{m}{n}\right)^{\frac{m-2}{2}+1}\frac{1}{\Gamma\left(\frac{m}{2}\right)\Gamma\left(\frac{n}{2}\right)2^{\frac{m+n}{2}}}x^{\frac{m-2}{2}}y^{\frac{m-2}{2}+\frac{n-2}{2}+1}e^{-\frac{1}{2}\left(\frac{m}{n}x+1\right)y}dy\\ &=\int_{0}^{+\infty}\left(\frac{m}{n}\right)^{\frac{m-2}{2}+\frac{2}{2}}\frac{1}{\Gamma\left(\frac{m}{2}\right)\Gamma\left(\frac{n}{2}\right)2^{\frac{m+n}{2}}}x^{\frac{m-2}{2}}y^{\frac{m-2}{2}+\frac{n-2}{2}+\frac{2}{2}}e^{-\frac{1}{2}\left(\frac{m}{n}x+1\right)y}dy\\ &=\int_{0}^{+\infty}\left(\frac{m}{n}\right)^{\frac{m-2+2}{2}}\frac{1}{\Gamma\left(\frac{m}{2}\right)\Gamma\left(\frac{n}{2}\right)2^{\frac{m+n}{2}}}x^{\frac{m-2}{2}}y^{\frac{m-2+n-2+2}{2}}e^{-\frac{1}{2}\left(\frac{m}{n}x+1\right)y}dy\\ &=\int_{0}^{+\infty}\left(\frac{m}{n}\right)^{\frac{m}{2}}\frac{1}{\Gamma\left(\frac{m}{2}\right)\Gamma\left(\frac{n}{2}\right)2^{\frac{m+n}{2}}}x^{\frac{m-2}{2}}y^{\frac{m+n-2}{2}}e^{-\frac{1}{2}\left(\frac{m}{n}x+1\right)y}dy\\ &=\left(\frac{m}{n}\right)^{\frac{m}{2}}\frac{1}{\Gamma\left(\frac{m}{2}\right)\Gamma\left(\frac{n}{2}\right)2^{\frac{m+n}{2}}}x^{\frac{m-2}{2}}\int_{0}^{+\infty}y^{\frac{m+n-2}{2}}e^{-\frac{1}{2}\left(\frac{m}{n}x+1\right)y}dy\\ &=\left(\frac{m}{n}\right)^{\frac{m}{2}}\frac{1}{\Gamma\left(\frac{m}{2}\right)\Gamma\left(\frac{n}{2}\right)2^{\frac{m+n}{2}}}x^{\frac{m-2}{2}}\int_{0}^{+\infty}y^{\frac{m+n-2}{2}}e^{-\frac{1}{2}\left(\frac{m}{n}x+1\right)y}dy \end{aligned} \]

Ahora tomando \(u=\frac{1}{2}(\frac{m}{n}x+1)y\) entonces \(du=\frac{1}{2}(\frac{m}{n}x+1)dy\) y \(\frac{u}{\frac{1}{2}(\frac{m}{n}x+1)}=y\)

\[ \begin{aligned} \left(\frac{m}{n}\right)^{\frac{m}{2}}\frac{1}{\Gamma\left(\frac{m}{2}\right)\Gamma\left(\frac{n}{2}\right)2^{\frac{m+n}{2}}}x^{\frac{m-2}{2}}\int_{0}^{+\infty}y^{\frac{m+n-2}{2}}e^{-\frac{1}{2}(\frac{m}{n}x+1)y}dy&=\left(\frac{m}{n}\right)^{\frac{m}{2}}\frac{1}{\Gamma\left(\frac{m}{2}\right)\Gamma\left(\frac{n}{2}\right)2^{\frac{m+n}{2}}}x^{\frac{m-2}{2}}\int_{0}^{+\infty}\frac{-\frac{1}{2}(\frac{m}{n}x+1)}{-\frac{1}{2}(\frac{m}{n}x+1)}y^{\frac{m+n-2}{2}}e^{-\frac{1}{2}\left(\frac{m}{n}x+1\right)y}dy\\ &=\left(\frac{m}{n}\right)^{\frac{m}{2}}\frac{1}{\Gamma\left(\frac{m}{2}\right)\Gamma\left(\frac{n}{2}\right)2^{\frac{m+n}{2}}}x^{\frac{m-2}{2}}\int_{0}^{+\infty}\frac{\frac{1}{2}(\frac{m}{n}x+1)}{\frac{1}{2}(\frac{m}{n}x+1)}y^{\frac{m+n-2}{2}}e^{-\frac{1}{2}\left(\frac{m}{n}x+1\right)y}dy\\ &=\left(\frac{m}{n}\right)^{\frac{m}{2}}\frac{1}{\Gamma\left(\frac{m}{2}\right)\Gamma\left(\frac{n}{2}\right)2^{\frac{m+n}{2}}}x^{\frac{m-2}{2}}\frac{1}{\frac{1}{2}\left(\frac{m}{n}x+1\right)}\int_{0}^{+\infty}y^{\frac{m+n-2}{2}}e^{-\frac{1}{2}(\frac{m}{n}x+1)y}\frac{1}{2}\left(\frac{m}{n}x+1\right)dy\\ &=\left(\frac{m}{n}\right)^{\frac{m}{2}}\frac{1}{\Gamma\left(\frac{m}{2}\right)\Gamma\left(\frac{n}{2}\right)2^{\frac{m+n}{2}}}x^{\frac{m-2}{2}}\frac{1}{\frac{1}{2}\left(\frac{m}{n}x+1\right)}\int_{0}^{+\infty}\left[\frac{u}{\frac{1}{2}(\frac{m}{n}x+1)}\right]^{\frac{m+n-2}{2}}e^{-u}du \end{aligned} \]

Observando que la integral resultante corresponde a la definición de la función gamma \(\Gamma(\alpha)\) con \(\alpha=\frac{m+n}{2}\)

\[ \begin{aligned} \left(\frac{m}{n}\right)^{\frac{m}{2}}\frac{1}{\Gamma\left(\frac{m}{2}\right)\Gamma\left(\frac{n}{2}\right)2^{\frac{m+n}{2}}}x^{\frac{m-2}{2}}\frac{1}{\frac{1}{2}\left(\frac{m}{n}x+1\right)}\int_{0}^{+\infty}\left[\frac{u}{\frac{1}{2}(\frac{m}{n}x+1)}\right]^{\frac{m+n-2}{2}}e^{-u}du&=\left(\frac{m}{n}\right)^{\frac{m}{2}}\frac{1}{\Gamma\left(\frac{m}{2}\right)\Gamma\left(\frac{n}{2}\right)2^{\frac{m+n}{2}}}x^{\frac{m-2}{2}}\frac{1}{\frac{1}{2}\left(\frac{m}{n}x+1\right)}\left[\frac{1}{\frac{1}{2}(\frac{m}{n}x+1)}\right]^{\frac{m+n-2}{2}}\int_{0}^{+\infty}u^{\frac{m+n-2}{2}}e^{-u}du\\ &=\left(\frac{m}{n}\right)^{\frac{m}{2}}\frac{1}{\Gamma\left(\frac{m}{2}\right)\Gamma\left(\frac{n}{2}\right)2^{\frac{m+n}{2}}}x^{\frac{m-2}{2}}\frac{1}{\left[\frac{1}{2}\left(\frac{m}{n}x+1\right)\right]^{1+\frac{m+n-2}{2}}}\Gamma\left(\frac{m+n}{2}\right)\mathbb{I}_{(0,+\infty)}(x)\\ &=\left(\frac{m}{n}\right)^{\frac{m}{2}}\frac{1}{\Gamma\left(\frac{m}{2}\right)\Gamma\left(\frac{n}{2}\right)2^{\frac{m+n}{2}}}x^{\frac{m-2}{2}}\frac{1}{\left[\frac{1}{2}\left(\frac{m}{n}x+1\right)\right]^{\frac{2}{2}+\frac{m+n-2}{2}}}\Gamma\left(\frac{m+n}{2}\right)\mathbb{I}_{(0,+\infty)}(x)\\ &=\left(\frac{m}{n}\right)^{\frac{m}{2}}\frac{1}{\Gamma\left(\frac{m}{2}\right)\Gamma\left(\frac{n}{2}\right)2^{\frac{m+n}{2}}}x^{\frac{m-2}{2}}\frac{1}{\left[\frac{1}{2}\left(\frac{m}{n}x+1\right)\right]^{\frac{2+m+n-2}{2}}}\Gamma\left(\frac{m+n}{2}\right)\mathbb{I}_{(0,+\infty)}(x)\\ &=\left(\frac{m}{n}\right)^{\frac{m}{2}}\frac{\Gamma\left(\frac{m+n}{2}\right)}{\Gamma\left(\frac{m}{2}\right)\Gamma\left(\frac{n}{2}\right)2^{\frac{m+n}{2}}}\frac{x^{\frac{m-2}{2}}}{\left[\frac{1}{2}\left(\frac{m}{n}x+1\right)\right]^{\frac{m+n}{2}}}\mathbb{I}_{(0,+\infty)}(x)\\ &=\left(\frac{m}{n}\right)^{\frac{m}{2}}\frac{\Gamma\left(\frac{m+n}{2}\right)}{\Gamma\left(\frac{m}{2}\right)\Gamma\left(\frac{n}{2}\right)2^{\frac{m+n}{2}}}\frac{x^{\frac{m-2}{2}}}{\left(\frac{1}{2}\right)^{\frac{m+n}{2}}\left(\frac{m}{n}x+1\right)^{\frac{m+n}{2}}}\mathbb{I}_{(0,+\infty)}(x)\\ &=\left(\frac{m}{n}\right)^{\frac{m}{2}}\frac{\Gamma\left(\frac{m+n}{2}\right)}{\Gamma\left(\frac{m}{2}\right)\Gamma\left(\frac{n}{2}\right)}\frac{x^{\frac{m-2}{2}}}{\left(\frac{m}{n}x+1\right)^{\frac{m+n}{2}}}\mathbb{I}_{(0,+\infty)}(x) \end{aligned} \]

Definición 9

Si \(X\) es una variable aleatoria que tiene una densidad dada por \(\left(\frac{m}{n}\right)^{\frac{m}{2}}\frac{\Gamma\left(\frac{m+n}{2}\right)}{\Gamma\left(\frac{m}{2}\right)\Gamma\left(\frac{n}{2}\right)}\frac{x^{\frac{m-2}{2}}}{\left(\frac{m}{n}x+1\right)^{\frac{m+n}{2}}}\mathbb{I}_{(0,+\infty)}(x)\) entonces \(X\) es distribuidad F con los grados de libertad correspondientes \(m\) y \(n\)

Principios de Simulación

Simulación

  • La simulación implica imitar el comportamiento de un sistema o proceso mediante la generación de datos aleatorios.

Aplicaciones

  • La simulación se utiliza en estadísticas para modelar situaciones complejas o para entender mejor el comportamiento de un fenómeno.

Ejercicio

  • Simular el lanzamiento de un dado 100 veces.

Respuesta

set.seed(123)  # Establecer semilla para reproducibilidad
dados <- sample(1:6, 100, replace = TRUE)
hist(dados, main = "Simulación de lanzamiento de dado", xlab = "Número en el dado", ylab = "Frecuencia")

Distribución de la Suma de Variables Aleatorias en Muestras Aleatorias

Definición:

Dada una muestra aleatoria simple de variables aleatorias \(X_1,X_2,\ldots,X_n\) de una población con distribución de probabilidad \(f_X(x)\), la distribución de la suma \(S_n=X_1+X_2+\ldots+X_n\) se aproxima a una distribución normal cuando el tamaño de la muestra nn es lo suficientemente grande. Este resultado está respaldado por el Teorema Central del Límite.

Explicación:

El Teorema Central del Límite establece que, bajo condiciones generales, la suma de variables aleatorias independientes y de idéntica distribución se distribuirá aproximadamente de manera normal, independientemente de la forma exacta de la distribución original. A medida que el tamaño de la muestra aumenta, la aproximación a la normalidad mejora.

Distribución de las Estadísticas de Orden

Definición

La distribución de las estadísticas de orden se refiere a la probabilidad asociada con la posición de un valor particular dentro de un conjunto de datos ordenados de manera ascendente o descendente. Las estadísticas de orden incluyen la posición de un valor específico (rango), la posición del valor mínimo (primer estadístico de orden), y la posición del valor máximo (último estadístico de orden). Estudiar la distribución de estas estadísticas proporciona información valiosa sobre la variabilidad y la forma de la distribución subyacente.

Explicación:

  • La distribución de estadísticas de orden es útil para comprender la posición relativa de observaciones en un conjunto de datos, especialmente cuando se exploran características como sesgo, simetría y colas en la distribución.

  • Ejemplos de estadísticas de orden incluyen el rango (posición de una observación específica), el rango mínimo (posición del valor mínimo), y el rango máximo (posición del valor máximo).

  • Estas estadísticas son fundamentales en estadística no paramétrica y son esenciales en pruebas de hipótesis basadas en rangos y en la construcción de intervalos de confianza para estimadores no paramétricos.

Construcción de estimadores. ¿Cómo acercarse a los valores de la población con un valor

puntual?

Definición.

En estadística, un estimador es una regla o fórmula matemática que se utiliza para calcular una estimación o predicción de un parámetro desconocido de una población basándose en información proporcionada por una muestra de esa población. Un estimador se denota típicamente por un símbolo, como \(\widehat{\theta}\), donde \({\theta}\) representa el parámetro que se está estimando.

La definición más formal de un estimador \(\widehat{\theta}\) incluye las siguientes características:

  • Sin Sesgo (No Sesgado): Un estimador se considera no sesgado si la expectativa matemática (esperanza) de ese estimador es igual al valor verdadero del parámetro que se está estimando. Matemáticamente, esto se expresa como \(E\left(\widehat{\theta}\right)=\theta\).

  • Eficiencia: Entre varios estimadores no sesgados para el mismo parámetro, se prefiere aquel que tiene una varianza más baja, ya que proporciona estimaciones más precisas. La eficiencia está relacionada con la varianza del estimador.

  • Consistencia: A medida que el tamaño de la muestra tiende hacia el infinito, un estimador es consistente si converge en probabilidad al valor verdadero del parámetro. Es decir, \(\lim_{n{\rightarrow}\infty}P\left(\left|\widehat{\theta}-\theta\right|>\varepsilon\right)=0\) donde nn es el tamaño de la muestra y ϵϵ es un número pequeño positivo.

  • Suficiencia: Un estimador es suficiente si contiene toda la información relevante de la muestra para estimar el parámetro. En otras palabras, no se pierde información importante al usar el estimador.

  • Insesgado por Mínimos Cuadrados (UMVUE): En algunos casos, el estimador insesgado con menor varianza posible se conoce como el Mejor Estimador Insesgado por Mínimos Cuadrados (UMVUE, por sus siglas en inglés).

  • Robustez: Un estimador es robusto si mantiene buenas propiedades incluso cuando se cumplen ciertas condiciones del modelo. La robustez es especialmente importante cuando los datos pueden desviarse de las suposiciones del modelo.

Los estimadores son fundamentales en la inferencia estadística, donde se utilizan para hacer inferencias sobre la población basándose en información de la muestra. La elección del estimador adecuado depende de la naturaleza del problema y las características deseadas del estimador.

Método de los momentos.

El Método de los Momentos es una técnica en estadística para estimar los parámetros de una distribución de probabilidad. La idea principal es igualar los momentos muestrales a los momentos teóricos de la distribución.

Definición del Método de los Momentos:

Dada una muestra de datos \(X_1,X_2,\ldots,X_n\) de una población con parámetros desconocidos, el método de los momentos busca estimadores \(\widehat{\theta}_1,\widehat{\theta}_2\ldots\) para los parámetros de manera que los momentos muestrales coincidan con los momentos teóricos.

Deducción para la Media (\(\mu\)):

  • Momento Muestral de Primer Orden:

\[\overline{X}=\frac{1}{n}\sum_{i=1}^{n}X_i\]

  • Momento Teórico de Primer Orden:

\[E\left(\overline{X}\right)=\mu\]

Igualamos los momentos muestrales y teóricos para obtener el estimador de la media:

\[\overline{X}=\mu{\implies}\widehat{\mu}=\overline{X}\]

Entonces, el estimador de la media es simplemente la media muestral.

Deducción para la Varianza (\(\sigma^2\))

  • Momento Muestral de Segundo Orden (sin corregir):

\[\frac{1}{n}\sum_{i=1}^{n}\left(X_i-\overline{X}\right)^2\]

  • Momento Teórico de Segundo Orden (sin corregir):

\[E\left[\sum_{i=1}^{n}\left(X_i-\overline{X}\right)^2\right]=\sigma^2\]

Igualamos los momentos muestrales y teóricos para obtener el estimador de la varianza:

\[E\left[\sum_{i=1}^{n}\left(X_i-\overline{X}\right)^2\right]=\sigma^2\implies\widehat{\sigma^2}=\frac{1}{n}\sum_{i=1}^{n}\left(X_i-\overline{X}\right)^2\]

Entonces, el estimador sin corregir de la varianza es la varianza muestral.

En la práctica, se suele utilizar la versión corregida del estimador de la varianza, que divide por \(n-1\) en lugar de nn. Esto se hace para ajustar el sesgo del estimador:

\[\widehat{\sigma^2}_{corregido}=\frac{1}{n-1}\sum_{i=1}^{n}\left(X_i-\overline{X}\right)^2\]

Este es el estimador de la varianza corregido y ampliamente utilizado en estadística.

Método de máxima verosimilitud.

Método bayesiano.

Métodos robustos.

Algoritmo EM.

Citas y Fuentes

  • Casella, G., & Berger, R. L. (2002). Statistical Inference. Duxbury Press.

  • Hollander, M., & Wolfe, D. A. (1999). Nonparametric Statistical Methods. John Wiley & Sons. Este libro también proporciona una excelente cobertura de estadísticas de orden y su papel en métodos estadísticos no paramétricos.

  • Hogg, R. V., McKean, J. W., & Craig, A. T. (2019). Introduction to Mathematical Statistics. Pearson.

  • Krejcie, R. V., & Morgan, D. W. (1970). Determining Sample Size for Research Activities. Educational and Psychological Measurement, 30(3), 607-610.

  • Lehmann, E. L. (2006). Nonparametrics: Statistical Methods Based on Ranks. Springer. Este texto clásico aborda en profundidad las estadísticas de orden y sus aplicaciones en inferencia estadística no paramétrica.

  • Lohr, S. (1999). Sampling: Design and Analysis. Duxbury Press.

  • Mood, A. M., Graybill, F. A., & Boes, D. C. (1974). Introduction to the Theory of Statistics. McGraw-Hill.

  • Papoulis, A., & Pillai, S. U. (2002). Probability, Random Variables and Stochastic Processes. McGraw-Hill.