Censo de los Estados Unidos

library(tidyverse)
library(viridis)
library(tidycensus)
census_us_county_income <- get_acs(geography = "county", variables = "B19013_001", 
                            shift_geo = TRUE, geometry = TRUE)
ggplot(data = census_us_county_income) + 
  geom_sf(aes(fill = estimate))

Definición de Tipos de Muestras y sus Propiedades

La selección adecuada de la muestra es esencial en cualquier investigación estadística, ya que afecta directamente la validez y generalización de los resultados a la población completa. Aquí se presentan definiciones detalladas de dos tipos comunes de muestras: Muestra Aleatoria Simple y Muestra Estratificada, junto con sus propiedades fundamentales.

Muestras No Probabilísticas

Definición:

Las Muestras No Probabilísticas son aquellas en las que la probabilidad de selección de cada elemento no es conocida o no es uniforme. La selección se realiza de manera no aleatoria, a menudo basada en la conveniencia o juicio del investigador.

sample_us_county_income <- head(x = census_us_county_income, n = 627)
ggplot(data = sample_us_county_income) + 
  geom_sf(aes(fill = estimate))

Propiedades:

  • Simplicidad y Eficiencia: Son más fáciles y rápidas de obtener, pero pueden carecer de representatividad.

  • Dificultades en la Generalización: Las conclusiones basadas en muestras no probabilísticas pueden tener limitaciones en cuanto a la generalización a la población completa.

  • Uso en Exploración Inicial: A menudo se utilizan en las etapas iniciales de una investigación para generar hipótesis o identificar patrones que luego se pueden explorar con muestras probabilísticas.

Muestras Probabilísticas

Definición:

Las Muestras Probabilísticas son aquellas en las que cada elemento de la población tiene una probabilidad conocida y no nula de ser seleccionado en la muestra. La selección se realiza mediante un proceso de muestreo aleatorio.

sample_us_county_income <- sample_frac(tbl = census_us_county_income, size = 0.3)
ggplot(data = sample_us_county_income) + 
  geom_sf(aes(fill = estimate))

Propiedades:

  • Representatividad Probabilística: Cada elemento tiene una probabilidad conocida de ser seleccionado, garantizando una representación adecuada de la población.

  • Inferencia Estadística Válida: Al seguir un proceso probabilístico, las conclusiones basadas en la muestra pueden generalizarse a la población mediante inferencia estadística.

  • Técnicas Estándar de Estimación y Pruebas: Permite el uso de técnicas estándar, como intervalos de confianza y pruebas de hipótesis, para hacer afirmaciones sobre la población.

Muestras por Etapas

Definición:

Las Muestras por Etapas implican la selección de elementos en varias etapas. En cada etapa, se eligen subgrupos o elementos individuales, y luego se realiza una selección adicional hasta alcanzar el tamaño de la muestra deseada.

census_us_county_income <- census_us_county_income %>%
  mutate(STAID = substr(x = census_us_county_income$GEOID, start = 1, stop = 2))
staids_selected <- census_us_county_income %>%
  distinct(STAID) %>%
  sample_frac(size = 0.3)
sample_us_county_income <- census_us_county_income %>% group_by(STAID %in% staids_selected$STAID) %>% sample_frac(size = 0.3)
ggplot(data = sample_us_county_income) + 
  geom_sf(aes(fill = estimate))

Propiedades:

  • Eficiencia en Grandes Poblaciones: Es eficiente para grandes poblaciones, ya que permite la selección por etapas, reduciendo la carga de trabajo en cada fase.

  • Complejidad del Diseño: Puede ser más complejo que otros métodos de muestreo, ya que implica decisiones secuenciales y consideraciones detalladas en cada etapa.

  • Adaptabilidad: Permite adaptarse a la estructura de la población y facilita la selección en situaciones donde la población es desconocida o difícil de abordar en su totalidad.

Muestra Estratificada

Definición:

Una Muestra Estratificada implica dividir la población en subgrupos homogéneos llamados estratos y seleccionar aleatoriamente desde cada estrato. Los estratos se forman en función de características específicas compartidas por los individuos.

sample_us_county_income <- census_us_county_income %>% group_by(STAID) %>% sample_frac(size = 0.3)
ggplot(data = sample_us_county_income) + 
  geom_sf(aes(fill = estimate))

Propiedades:

  • Mejora de Representatividad: Al estratificar la población en grupos homogéneos, se garantiza que cada estrato esté bien representado en la muestra, lo que mejora la representatividad general.

  • Reducción de Varianza: Al seleccionar muestras aleatorias dentro de cada estrato, se reduce la varianza total de la muestra, proporcionando estimaciones más precisas para cada estrato y, por ende, para la población completa.

  • Flexibilidad: Permite adaptarse a la heterogeneidad de la población, asegurando que grupos específicos de interés estén adecuadamente representados.

Muestras por Conglomerados

Definición: Las Muestras por Conglomerados implican dividir la población en grupos llamados conglomerados y seleccionar aleatoriamente algunos conglomerados para incluirlos en la muestra. Luego, todos los elementos dentro de los conglomerados seleccionados se incluyen en la muestra.

staids_selected <- census_us_county_income %>%
  distinct(STAID) %>%
  sample_frac(size = 0.3)
sample_us_county_income <- census_us_county_income %>% filter(STAID %in% staids_selected$STAID) %>% sample_frac(size = 1)
ggplot(data = sample_us_county_income) + 
  geom_sf(aes(fill = estimate))

Propiedades:

  • Estructura Jerárquica: La población se organiza en conglomerados, creando una estructura jerárquica que facilita la selección de muestras grandes y dispersas geográficamente.

  • Eficiencia en Costos: Reducción de costos y tiempo al seleccionar conglomerados en lugar de individuos, especialmente cuando la población es grande y dispersa.

  • Menor Precisión Individual: La variabilidad dentro de los conglomerados puede ser mayor que en las Muestras Aleatorias Simples, lo que puede afectar la precisión de las estimaciones para individuos específicos.

Muestra Aleatoria Simple (MAS)

Definición

Una Muestra Aleatoria Simple (MAS) es un subconjunto de la población seleccionado de manera que cada miembro tiene la misma probabilidad de ser elegido si es con reemplazo y en donde cada muestra del mismo tamaño tiene la misma probabilidad de ser seleccionada si el muestreo se hace sin reemplazo. En otras palabras, cada unidad en la población tiene una oportunidad igual de ser incluida en la muestra.

Propiedades:

  • Igual Probabilidad de Selección: Cada elemento de la población tiene una probabilidad igual de ser seleccionado en la muestra, garantizando imparcialidad en la selección.

  • Independencia de Selección: La selección de un elemento no afecta la probabilidad de selección de otros, lo que evita sesgos en la muestra.

  • Representatividad: Al garantizar que cada individuo tenga igual oportunidad de ser parte de la muestra, se logra una representación justa de la población.

Importancia

  • La muestra aleatoria es fundamental en estadísticas porque permite hacer inferencias válidas sobre la población completa.

Métodos

  • Puedes realizar una muestra aleatoria utilizando generadores de números aleatorios o técnicas de selección aleatoriamente.

Inferencia Estadística

Definición

La inferencia estadística es un proceso mediante el cual se extraen conclusiones o se realizan predicciones sobre una población a partir de información recopilada en una muestra representativa de esa población. Se basa en el principio fundamental de la probabilidad y la teoría de la probabilidad condicional, donde los resultados observados en la muestra se utilizan para hacer afirmaciones sobre los parámetros desconocidos de la población.

La inferencia estadística se divide en dos categorías principales: la inferencia estadística paramétrica, que asume ciertas distribuciones para los datos y estima los parámetros de esas distribuciones, y la inferencia estadística no paramétrica, que se basa en métodos que no requieren suposiciones específicas sobre la forma de la distribución subyacente.

La inferencia estadística paramétrica implica la estimación puntual y por intervalos de los parámetros poblacionales, así como pruebas de hipótesis estadísticas para evaluar afirmaciones sobre estos parámetros. La selección adecuada de métodos inferenciales depende de la naturaleza de los datos y de las suposiciones sobre la población.

Resumen

En resumen, la inferencia estadística proporciona un marco formal para hacer inferencias válidas y generalizables sobre la población a partir de datos de muestra, lo que facilita la toma de decisiones informada en diversas disciplinas científicas y aplicadas.

En qué se basa la Inferencia

  • La inferencia estadística se basa en utilizar información recopilada de una muestra para hacer afirmaciones o predicciones sobre una población más amplia.

Ejemplos

  • Si encuestas a una muestra de votantes y encuentras que el 60% prefiere un candidato, puedes inferir que aproximadamente el 60% de la población total también lo prefiere.

Definición y Tipos de Muestras

Muestra Aleatoria Simple

  • En una muestra aleatoria simple, cada elemento tiene la misma probabilidad de ser seleccionado.

Muestra Estratificada

  • En una muestra estratificada, divides la población en grupos homogéneos (estratos) y seleccionas proporcionalmente de cada grupo.

Distribución de Sumas y Productos en Muestras Aleatorias

Distribución de la Suma de Variables Aleatorias

La suma de variables aleatorias es una operación fundamental en estadística y probabilidad que se refiere a la creación de una nueva variable aleatoria mediante la adición de dos o más variables aleatorias existentes. Si tienes dos variables aleatorias \(X\) e \(Y\), la suma de \(X+Y\) es una nueva variable aleatoria.

Definición

Dadas dos variables aleatorias \(X\) e \(Y\) definidas en el mismo espacio muestral, la suma de estas variables aleatorias, denotada como \(X+Y\), es otra variable aleatoria cuyo valor en cada resultado del espacio muestral es la suma de los valores correspondientes de \(X\) e \(Y\).

Formalmente, si \(X\) e \(Y\) son variables aleatorias definidas en el mismo espacio muestral, la función de masa de probabilidad (en el caso discreto) o la función de densidad de probabilidad (en el caso continuo) de \(X+Y\) se puede expresar en términos de las funciones de masa o densidad de probabilidad de \(X\) e \(Y\).

Para variables aleatorias continuas, la función de densidad de probabilidad de \(X+Y\) se puede obtener convolucionando las funciones de densidad de \(X\) e \(Y\):

\[f_{X-Y}(z)=\int_{-\infty}^{\infty}f_{X}(x)(z-x)dx\]

Esta fórmula representa la convolución de las funciones de densidad de \(X\) e \(Y\).

Para variables aleatorias discretas, la función de masa de probabilidad de \(X+Y\) se obtiene sumando las probabilidades de todas las combinaciones posibles de valores de \(X\) e \(Y\) que suman \(z\):

\[P\left(X+Y=z\right)=\sum{P(X=x,Y=z-x)}\]

En resumen, la suma de variables aleatorias es una operación clave en la teoría de probabilidad y estadística, y su distribución está determinada por la distribución conjunta de las variables originales.

Distribución del Producto de Variables Aleatorias

Definición:

Dada una muestra aleatoria simple de variables aleatorias \(X_1,X_2,\ldots,X_n\) de una población con distribución de probabilidad \(f_X(x)\), la distribución del producto \(P_n=X_1{\cdot}X_2{\cdot}\ldots{\cdot}X_n\)no sigue necesariamente una distribución normal y depende de la distribución subyacente de las variables.

Explicación:

A diferencia de la suma, la distribución del producto no tiende a seguir una distribución normal, incluso cuando el tamaño de la muestra es grande. La forma de la distribución del producto está influenciada por la forma de la distribución original de las variables aleatorias. La distribución del producto puede ser asimétrica y sesgada, y su análisis puede requerir métodos específicos según la naturaleza de las variables involucradas.

Nota importante

En la práctica, la distribución de la suma es más fácil de manejar y entender, mientras que la distribución del producto puede tener propiedades más complejas y puede requerir enfoques específicos de análisis.

Si \(X\) y \(Y=g(X)\) son variables aleatorias continuas, entonces por definición

\[E[Y]=\int_{-\infty}^{\infty}yf_Y(y)dy\]

\[E[g(X)]=\int_{-\infty}^{\infty}g(x)f_X(x)dX\] En general, xi \(X_1,X_2,{\ldots}X_n\) y \(Y=g(X_1,X_2,{\ldots}X_n)\) son variables aleatorias continuas, entonces \(E[Y]=E[g(X_1,X_2,{\ldots}X_n)]\)

\[E[Y]=\int_{-\infty}^{\infty}yf_Y(y)dy\]

\[E[g(X_1,X_2,{\ldots}X_n)]=\int_{-\infty}^{\infty}\int_{-\infty}^{\infty}\cdots\int_{-\infty}^{\infty}g(x_1,x_2,{\cdots}x_n)f_X(x_1,x_2,{\cdots}x_n)dx_1,dx_2,{\cdots}dx_n\]

Suma de variables aleatorias

Para una muestra aleatoria \(X_1,X_2,\ldots,X_n\)

\[E\left[\sum_{i=1}^{n}X_i\right]=\sum_{i=1}^{n}E\left[X_i\right]\]

\[V\left[\sum_{i=1}^{n}X_i\right]=\sum_{i=1}^{n}Var\left[X_i\right]+2\sum_{i=1}^{n}\sum_{i{\neq}j}^{n}Cov\left[X_i,X_j\right]\]

Prueba

\[E\left[\sum_{i=1}^{n}X_i\right]=\sum_{i=1}^{n}E\left[X_i\right]\text{ se sigue de la definición de valor esperado}\]

\[ \begin{aligned} V\left[\sum_{i=1}^{n}X_i\right]&=E\left[\left(\sum_{i=1}^{n}X_i-E\left[\sum_{i=1}^{n}X_i\right]^2\right)\right]\\ &=E\left[\left(\sum_{i=1}^{n}\sum_{j{\neq}i}^{n}(X_i-E\left[X_i\right])(X_j-E\left[X_j\right])\right)\right]\\ &=\sum_{i=1}^{n}\sum_{j{\neq}i}^{n}E\left[(X_i-E\left[X_i\right])(X_j-E\left[X_j\right])\right]\\ &=\sum_{i=1}^{n}Var\left[X_i\right]+2\sum_{i=1}^{n}\sum_{j{\neq}i}^{n}Cov\left[X_i,X_j\right]\\ \end{aligned} \]

Producto de variables aleatorias

Para dos variables aleatorias \(X\) e \(Y\)

\[E\left[XY\right]=\mu_X\mu_Y+Cov\left[X,Y\right]\]

\[Var\left[XY\right]=\mu_Y^2Var\left[X\right]+\mu_X^2Var\left[Y\right]+2\mu_X\mu_YCov\left[X,Y\right]-\left(Cov\left[X,Y\right]\right)^2+E\left[(X-\mu_X)^2(Y-\mu_Y)^2\right]+2\mu_YE\left[(X-\mu_X)^2(Y-\mu_Y)\right]+2\mu_XE\left[(X-\mu_X)(Y-\mu_Y)^2\right]\]

Prueba (Ejercicio)

\[ \begin{aligned} XY&=\mu_X\mu_Y+(X-\mu_X)\mu_Y+(Y-\mu_Y)\mu_X+(X-\mu_X)(Y-\mu_Y)\\ &=\mu_X\mu_Y+X\mu_Y-\mu_X\mu_Y+Y\mu_X-\mu_Y\mu_X+XY-X\mu_Y-\mu_XY+\mu_X\mu_Y\\ &=2\mu_X\mu_Y+X\mu_Y-2\mu_X\mu_Y+Y\mu_X+XY-X\mu_Y-Y\mu_X\\ &=Y\mu_X+XY-Y\mu_X\\ &=XY \end{aligned} \]

\[ \begin{aligned} E[XY]&=E\left[\mu_X\mu_Y+(X-\mu_X)\mu_Y+(Y-\mu_Y)\mu_X+(X-\mu_X)(Y-\mu_Y)\right]\\ &=E\left[\mu_X\mu_Y\right]+E\left[(X-\mu_X)\mu_Y\right]+E\left[(Y-\mu_Y)\mu_X\right]+E\left[(X-\mu_X)(Y-\mu_Y)\right]\\ &=\mu_X\mu_Y+\mu_YE\left[(X-\mu_X)\right]+\mu_XE\left[(Y-\mu_Y)\right]+E\left[(X-\mu_X)(Y-\mu_Y)\right]\\ &=\mu_X\mu_Y+E\left[(X-\mu_X)(Y-\mu_Y)\right]\\ &=\mu_X\mu_Y+Cov\left[X,Y\right] \end{aligned} \]

\[ \begin{aligned} E\left[(XY)^2\right]&=E\left[\left[\mu_X\mu_Y+(X-\mu_X)\mu_Y+(Y-\mu_Y)\mu_X+(X-\mu_X)(Y-\mu_Y)\right]^2\right]\\ &=E\left[\left[\mu_X\mu_Y+(X-\mu_X)\mu_Y\right]^2+2\left[\mu_X\mu_Y+(X-\mu_X)\mu_Y\right]\left[(Y-\mu_Y)\mu_X+(X-\mu_X)(Y-\mu_Y)\right]+\left[(Y-\mu_Y)\mu_X+(X-\mu_X)(Y-\mu_Y)\right]^2\right]\\ &=E\left[\left[\mu_X\mu_Y\right]^2+2\left[\mu_X\mu_Y\right]\left[(X-\mu_X)\mu_Y\right]+\left[(X-\mu_X)\mu_Y\right]^2+2\left[\mu_X\mu_Y+(X-\mu_X)\mu_Y\right]\left[(Y-\mu_Y)\mu_X+(X-\mu_X)(Y-\mu_Y)\right]+\left[(Y-\mu_Y)\mu_X\right]^2+2\left[(Y-\mu_Y)\mu_X\right]\left[(X-\mu_X)(Y-\mu_Y)\right]+\left[(X-\mu_X)(Y-\mu_Y)\right]^2\right]\\ &=E\left[\left[\mu_X\mu_Y\right]^2+2\mu_X\mu_Y^2(X-\mu_X)+\left[(X-\mu_X)\mu_Y\right]^2+2\left[\mu_X\mu_Y+(X-\mu_X)\mu_Y\right]\left[(Y-\mu_Y)\mu_X+(X-\mu_X)(Y-\mu_Y)\right]+\left[(Y-\mu_Y)\mu_X\right]^2+2\mu_X\left[(X-\mu_X)(Y-\mu_Y)^2\right]+\left[(X-\mu_X)(Y-\mu_Y)\right]^2\right]\\ &=\left[\mu_X\mu_Y\right]^2+2\mu_X\mu_Y^2E\left[(X-\mu_X)\right]+E\left[(X-\mu_X)\mu_Y\right]^2+2E\left\{\left[\mu_X\mu_Y+(X-\mu_X)\mu_Y\right]\left[(Y-\mu_Y)\mu_X+(X-\mu_X)(Y-\mu_Y)\right]\right\}+E\left[(Y-\mu_Y)\mu_X\right]^2+2\mu_XE\left[(X-\mu_X)(Y-\mu_Y)^2\right]+E.\left[(X-\mu_X)(Y-\mu_Y)\right]^2\\ &=\left[\mu_X\mu_Y\right]^2+\mu_Y^2E\left[(X-\mu_X)\right]^2+2E\left\{\left[\mu_X\mu_Y+(X-\mu_X)\mu_Y\right]\left[(Y-\mu_Y)\mu_X+(X-\mu_X)(Y-\mu_Y)\right]\right\}+\mu_X^2E\left[(Y-\mu_Y)\right]^2+2\mu_XE\left[(X-\mu_X)(Y-\mu_Y)^2\right]+E\left[(X-\mu_X)(Y-\mu_Y)\right]^2\\ &=\left[\mu_X\mu_Y\right]^2+\mu_Y^2Var\left[X\right]^2+2E\left\{\left[\mu_X\mu_Y+(X-\mu_X)\mu_Y\right]\left[(Y-\mu_Y)\mu_X+(X-\mu_X)(Y-\mu_Y)\right]\right\}+\mu_X^2Var\left[Y\right]^2+2\mu_XE\left[(X-\mu_X)(Y-\mu_Y)^2\right]+E\left[(X-\mu_X)^2(Y-\mu_Y)^2\right]\\ &=\left[\mu_X\mu_Y\right]^2+\mu_Y^2Var\left[X\right]^2+2E\left\{\left[\mu_X\mu_Y(Y-\mu_Y)\mu_X+\mu_X\mu_Y(X-\mu_X)(Y-\mu_Y)\right]+\left[(X-\mu_X)\mu_Y(Y-\mu_Y)\mu_X+(X-\mu_X)\mu_Y(X-\mu_X)(Y-\mu_Y)\right]\right\}+\mu_X^2Var\left[Y\right]^2+2\mu_XE\left[(X-\mu_X)(Y-\mu_Y)^2\right]+E\left[(X-\mu_X)^2(Y-\mu_Y)^2\right]\\ &=\left[\mu_X\mu_Y\right]^2+\mu_Y^2Var\left[X\right]^2+2E\left\{\left[\mu_X^2\mu_Y(Y-\mu_Y)+\mu_X\mu_Y(X-\mu_X)(Y-\mu_Y)\right]+\left[(X-\mu_X)\mu_Y(Y-\mu_Y)\mu_X+(X-\mu_X)^2\mu_Y(Y-\mu_Y)\right]\right\}+\mu_X^2Var\left[Y\right]^2+2\mu_XE\left[(X-\mu_X)(Y-\mu_Y)^2\right]+E\left[(X-\mu_X)^2(Y-\mu_Y)^2\right]\\ &=\left[\mu_X\mu_Y\right]^2+\mu_Y^2Var\left[X\right]^2+2\left\{\mu_X^2\mu_YE(Y-\mu_Y)+\mu_X\mu_YE\left[(X-\mu_X)(Y-\mu_Y)\right]+\mu_Y\mu_XE\left[(X-\mu_X)(Y-\mu_Y)\right]+\mu_YE\left[(X-\mu_X)^2(Y-\mu_Y)\right]\right\}+\mu_X^2Var\left[Y\right]^2+2\mu_XE\left[(X-\mu_X)(Y-\mu_Y)^2\right]+E\left[(X-\mu_X)^2(Y-\mu_Y)^2\right]\\ &=\left[\mu_X\mu_Y\right]^2+\mu_Y^2Var\left[X\right]^2+2\left\{2\mu_Y\mu_XE\left[(X-\mu_X)(Y-\mu_Y)\right]+\mu_YE\left[(X-\mu_X)^2(Y-\mu_Y)\right]\right\}+\mu_X^2Var\left[Y\right]^2+2\mu_XE\left[(X-\mu_X)(Y-\mu_Y)^2\right]+E\left[(X-\mu_X)^2(Y-\mu_Y)^2\right]\\ &=\left[\mu_X\mu_Y\right]^2+\mu_Y^2Var\left[X\right]^2+2\left\{2\mu_Y\mu_XCov\left[X,Y\right]+\mu_YE\left[(X-\mu_X)^2(Y-\mu_Y)\right]\right\}+\mu_X^2Var\left[Y\right]^2+2\mu_XE\left[(X-\mu_X)(Y-\mu_Y)^2\right]+E\left[(X-\mu_X)^2(Y-\mu_Y)^2\right]\\ &=\left[\mu_X\mu_Y\right]^2+\mu_Y^2Var\left[X\right]^2+4\mu_Y\mu_XCov\left[X,Y\right]+2\mu_YE\left[(X-\mu_X)^2(Y-\mu_Y)\right]+\mu_X^2Var\left[Y\right]^2+2\mu_XE\left[(X-\mu_X)(Y-\mu_Y)^2\right]+E\left[(X-\mu_X)^2(Y-\mu_Y)^2\right] \end{aligned} \]

\[ \begin{aligned} Var\left[XY\right]&=E\left[(XY)^2\right]-E\left[XY\right]E\left[XY\right]\\ &=\left[\mu_X\mu_Y\right]^2+\mu_Y^2Var\left[X\right]^2+4\mu_Y\mu_XCov\left[X,Y\right]+2\mu_YE\left[(X-\mu_X)^2(Y-\mu_Y)\right]+\mu_X^2Var\left[Y\right]^2+2\mu_XE\left[(X-\mu_X)(Y-\mu_Y)^2\right]+E\left[(X-\mu_X)^2(Y-\mu_Y)^2\right]-\left[\mu_X\mu_Y+Cov\left[X,Y\right]\right]^2\\ &=\left[\mu_X\mu_Y\right]^2+\mu_Y^2Var\left[X\right]^2+4\mu_Y\mu_XCov\left[X,Y\right]+2\mu_YE\left[(X-\mu_X)^2(Y-\mu_Y)\right]+\mu_X^2Var\left[Y\right]^2+2\mu_XE\left[(X-\mu_X)(Y-\mu_Y)^2\right]+E\left[(X-\mu_X)^2(Y-\mu_Y)^2\right]-\left[\mu_X\mu_Y\right]^2-2\mu_X\mu_YCov\left[X,Y\right]-Cov\left[X,Y\right]^2\\ &=\mu_Y^2Var\left[X\right]+\mu_X^2Var\left[Y\right]+2\mu_X\mu_YCov\left[X,Y\right]-\left(Cov\left[X,Y\right]\right)^2+E\left[(X-\mu_X)^2(Y-\mu_Y)^2\right]+2\mu_YE\left[(X-\mu_X)^2(Y-\mu_Y)\right]+2\mu_XE\left[(X-\mu_X)(Y-\mu_Y)^2\right] \end{aligned} \]

Importancia

  • La distribución de sumas y productos en muestras aleatorias se estudia para entender el comportamiento de estas estadísticas en grandes conjuntos de datos.

Ejercicio

  • ¿Cómo cambia la distribución de la suma al aumentar el tamaño de la muestra?

Respuesta

  • A medida que aumenta el tamaño de la muestra, la distribución de la suma tiende a seguir una distribución normal debido al Teorema Central del Límite.

Distribución de Estadísticas de Orden

Distribución del mínimo y el máximo

Sean \(Y_{(1)}=\min{\left[X_1,X_2,\ldots,X_n\right]}\) y \(Y_{(n)}=\max{\left[X_1,X_2,\ldots,X_n\right]}\), definiendo para cualquier resultado \(\omega\) del espacio muestral \(\Omega\), se define la variable aleatoria \(Y_{(n)}(\omega)=\max{\left[X_1(\omega),X_2(\omega),\ldots,X_n(\omega)\right]}\)

\[ \begin{aligned} F_{Y_{(n)}}(y)&=P\left[Y_{(n)}{\leq}y\right]\\ &=P\left[X_1{\leq}y;X_2{\leq}y;\cdots;X_n{\leq}y\right]\\ &=\prod_{i=1}^{n}P\left[X_i{\leq}y\right]\\ &=\prod_{i=1}^{n}F_{X_i}(y)\\ &=\left[F_{X}(y)\right]^n \end{aligned} \]

En forma similar tenemos que:

\[ \begin{aligned} F_{Y_{(1)}}(y)&=P\left[Y_{(1)}{\leq}y\right]\\ &=1-P\left[Y_{(1)}{>}y\right]\\ &=1-P\left[X_1{>}y;X_2{>}y;\cdots;X_n{>}y\right]\\ &=1-\prod_{i=1}^{n}P\left[X_i{>}y\right]\\ &=1-\prod_{i=1}^{n}\left[1-F_{X_i}{(y))}\right]\\ &=1-\left[1-F_{X}(y)\right]^n \end{aligned} \]

Densidad del mínimo y el máximo

Sean \(Y_{(1)}=\min{\left[X_1,X_2,\ldots,X_n\right]}\) y \(Y_{(n)}=\max{\left[X_1,X_2,\ldots,X_n\right]}\), definiendo para cualquier resultado \(\omega\) del espacio muestral \(\Omega\), se define la variable aleatoria \(Y_{(n)}(\omega)=\max{\left[X_1(\omega),X_2(\omega),\ldots,X_n(\omega)\right]}\)

\[ \begin{aligned} f_{Y_{(n)}}&=\frac{d}{dy}F_{Y_{(n)}}(y)\\ &=\frac{d}{dy}\left[F_{X}(y)\right]^n\\ &=n\left[F_{X}(y)\right]^{n-1}\frac{d}{dy}F_{X}(y)\\ &=n\left[F_{X}(y)\right]^{n-1}f_{X}(y) \end{aligned} \]

En forma similar tenemos que:

\[ \begin{aligned} f_{Y_{(1)}}(y)&=\frac{d}{dy}F_{Y_{(1)}}(y)\\ &=\frac{d}{dy}\left\{1-\left[1-F_{X}(y)\right]^n\right\}\\ &=0-\frac{d}{dy}\left[1-F_{X}(y)\right]^n\\ &=-n\left[1-F_{X}(y)\right]^{n-1}\frac{d}{dy}F_{X}(y)\\ &=-n\left[1-F_{X}(y)\right]^{n-1}(-1)\frac{d}{dy}F_{X}(y)\\ &=n\left[1-F_{X}(y)\right]^{n-1}f_{X}(y) \end{aligned} \]

Ejemplos

  • Supongamos que la vida media de una cierta bombilla de luz es distribuidas exponencialmente con media de 250 horas. Si 5 de tales bombillas son instaladas simultáneamente, cuál es la distribución de la duración de la bombilla que falla primero, ¿cuál es esta duración esperada? Sea \(X_i\) la vida de la \(i\)-ésima bombilla de luz; entonces \(Y_{[1]}=\min{\left[X_1,X_2,\ldots,X_{5}\right]}\) es la vida de la bombilla que falla primero. Se asume que las \(X_i's\) son independientes

\[ \begin{aligned} f_{X_i}&=\frac{1}{250}e^{-\frac{1}{250}x}\mathbb{I}_{(0,+\infty)}(x) \end{aligned} \]

\[ \begin{aligned} F_{X_i}&=1-e^{-\frac{1}{250}x}\mathbb{I}_{(0,+\infty)}(x) \end{aligned} \]

\[ \begin{aligned} f_{Y_{(1)}}(y)&=n\left[1-F_{X}(y)\right]^{n-1}f_{X}(y)\\ &=5\left[1-\left(1-e^{-\frac{1}{250}y}\right)\right]^{5-1}\frac{1}{250}e^{-\frac{1}{250}y}\mathbb{I}_{(0,+\infty)}(y)\\ &=5\left[e^{-\frac{1}{250}y}\right]^{4}\frac{1}{250}e^{-\frac{1}{250}y}\mathbb{I}_{(0,+\infty)}(y)\\ &=\frac{5}{250}\left[e^{-\frac{{4}}{250}y}\right]e^{-\frac{1}{250}y}\mathbb{I}_{(0,+\infty)}(y)\\ &=\frac{5}{250}e^{-\frac{{5}}{250}y}\mathbb{I}_{(0,+\infty)}(y) \end{aligned} \]

  • La cual es una distribución exponencial con valor esperado \(E[Y_{(1)}]\) igual a 50 horas de vida.

  • Supongamos que la vida media de una cierta bombilla de luz es distribuidas exponencialmente con media de 504 horas. Si 7 de tales bombillas son instaladas simultáneamente, cuál es la distribución de la duración de la bombilla que falla primero, ¿cuál es esta duración esperada? Sea \(X_i\) la vida de la \(i\)-ésima bombilla de luz; entonces \(Y_{[1]}=\min{\left[X_1,X_2,\ldots,X_{7}\right]}\) es la vida de la bombilla que falla primero. Se asume que las \(X_i's\) son independientes

\[ \begin{aligned} f_{X_i}&=\frac{1}{504}e^{-\frac{1}{504}x}\mathbb{I}_{(0,+\infty)}(x) \end{aligned} \]

\[ \begin{aligned} F_{X_i}&=1-e^{-\frac{1}{504}x}\mathbb{I}_{(0,+\infty)}(x) \end{aligned} \]

\[ \begin{aligned} f_{Y_{(1)}}(y)&=n\left[1-F_{X}(y)\right]^{n-1}f_{X}(y)\\ &=7\left[1-\left(1-e^{-\frac{1}{504}y}\right)\right]^{7-1}\frac{1}{504}e^{-\frac{1}{504}y}\mathbb{I}_{(0,+\infty)}(y)\\ &=7\left[e^{-\frac{1}{504}y}\right]^{6}\frac{1}{504}e^{-\frac{1}{504}y}\mathbb{I}_{(0,+\infty)}(y)\\ &=\frac{7}{504}\left[e^{-\frac{{6}}{504}y}\right]e^{-\frac{1}{504}y}\mathbb{I}_{(0,+\infty)}(y)\\ &=\frac{7}{504}e^{-\frac{{7}}{504}y}\mathbb{I}_{(0,+\infty)}(y) \end{aligned} \]

  • La cual es una distribución exponencial con valor esperado \(E[Y_{(1)}]\) igual a 72 horas de vida.

  • Supongamos que la vida media de una cierta bombilla de luz es distribuidas exponencialmente con media de 138 horas. Si 6 de tales bombillas son instaladas simultáneamente, cuál es la distribución de la duración de la bombilla que falla primero, ¿cuál es esta duración esperada? Sea \(X_i\) la vida de la \(i\)-ésima bombilla de luz; entonces \(Y_{[1]}=\min{\left[X_1,X_2,\ldots,X_{6}\right]}\) es la vida de la bombilla que falla primero. Se asume que las \(X_i's\) son independientes

\[ \begin{aligned} f_{X_i}&=\frac{1}{138}e^{-\frac{1}{138}x}\mathbb{I}_{(0,+\infty)}(x) \end{aligned} \]

\[ \begin{aligned} F_{X_i}&=1-e^{-\frac{1}{138}x}\mathbb{I}_{(0,+\infty)}(x) \end{aligned} \]

\[ \begin{aligned} f_{Y_{(1)}}(y)&=n\left[1-F_{X}(y)\right]^{n-1}f_{X}(y)\\ &=6\left[1-\left(1-e^{-\frac{1}{138}y}\right)\right]^{6-1}\frac{1}{138}e^{-\frac{1}{138}y}\mathbb{I}_{(0,+\infty)}(y)\\ &=6\left[e^{-\frac{1}{138}y}\right]^{5}\frac{1}{138}e^{-\frac{1}{138}y}\mathbb{I}_{(0,+\infty)}(y)\\ &=\frac{6}{138}\left[e^{-\frac{{5}}{138}y}\right]e^{-\frac{1}{138}y}\mathbb{I}_{(0,+\infty)}(y)\\ &=\frac{6}{138}e^{-\frac{{6}}{138}y}\mathbb{I}_{(0,+\infty)}(y) \end{aligned} \]

  • La cual es una distribución exponencial con valor esperado \(E[Y_{(1)}]\) igual a 23 horas de vida.

  • Supongamos que la vida media de una cierta bombilla de luz es distribuidas exponencialmente con media de 282 horas. Si 6 de tales bombillas son instaladas simultáneamente, cuál es la distribución de la duración de la bombilla que falla primero, ¿cuál es esta duración esperada? Sea \(X_i\) la vida de la \(i\)-ésima bombilla de luz; entonces \(Y_{[1]}=\min{\left[X_1,X_2,\ldots,X_{6}\right]}\) es la vida de la bombilla que falla primero. Se asume que las \(X_i's\) son independientes

\[ \begin{aligned} f_{X_i}&=\frac{1}{282}e^{-\frac{1}{282}x}\mathbb{I}_{(0,+\infty)}(x) \end{aligned} \]

\[ \begin{aligned} F_{X_i}&=1-e^{-\frac{1}{282}x}\mathbb{I}_{(0,+\infty)}(x) \end{aligned} \]

\[ \begin{aligned} f_{Y_{(1)}}(y)&=n\left[1-F_{X}(y)\right]^{n-1}f_{X}(y)\\ &=6\left[1-\left(1-e^{-\frac{1}{282}y}\right)\right]^{6-1}\frac{1}{282}e^{-\frac{1}{282}y}\mathbb{I}_{(0,+\infty)}(y)\\ &=6\left[e^{-\frac{1}{282}y}\right]^{5}\frac{1}{282}e^{-\frac{1}{282}y}\mathbb{I}_{(0,+\infty)}(y)\\ &=\frac{6}{282}\left[e^{-\frac{{5}}{282}y}\right]e^{-\frac{1}{282}y}\mathbb{I}_{(0,+\infty)}(y)\\ &=\frac{6}{282}e^{-\frac{{6}}{282}y}\mathbb{I}_{(0,+\infty)}(y) \end{aligned} \]

  • La cual es una distribución exponencial con valor esperado \(E[Y_{(1)}]\) igual a 47 horas de vida.

  • Supongamos que la vida media de una cierta bombilla de luz es distribuidas exponencialmente con media de 427 horas. Si 7 de tales bombillas son instaladas simultáneamente, cuál es la distribución de la duración de la bombilla que falla primero, ¿cuál es esta duración esperada? Sea \(X_i\) la vida de la \(i\)-ésima bombilla de luz; entonces \(Y_{[1]}=\min{\left[X_1,X_2,\ldots,X_{7}\right]}\) es la vida de la bombilla que falla primero. Se asume que las \(X_i's\) son independientes

\[ \begin{aligned} f_{X_i}&=\frac{1}{427}e^{-\frac{1}{427}x}\mathbb{I}_{(0,+\infty)}(x) \end{aligned} \]

\[ \begin{aligned} F_{X_i}&=1-e^{-\frac{1}{427}x}\mathbb{I}_{(0,+\infty)}(x) \end{aligned} \]

\[ \begin{aligned} f_{Y_{(1)}}(y)&=n\left[1-F_{X}(y)\right]^{n-1}f_{X}(y)\\ &=7\left[1-\left(1-e^{-\frac{1}{427}y}\right)\right]^{7-1}\frac{1}{427}e^{-\frac{1}{427}y}\mathbb{I}_{(0,+\infty)}(y)\\ &=7\left[e^{-\frac{1}{427}y}\right]^{6}\frac{1}{427}e^{-\frac{1}{427}y}\mathbb{I}_{(0,+\infty)}(y)\\ &=\frac{7}{427}\left[e^{-\frac{{6}}{427}y}\right]e^{-\frac{1}{427}y}\mathbb{I}_{(0,+\infty)}(y)\\ &=\frac{7}{427}e^{-\frac{{7}}{427}y}\mathbb{I}_{(0,+\infty)}(y) \end{aligned} \]

  • La cual es una distribución exponencial con valor esperado \(E[Y_{(1)}]\) igual a 61 horas de vida.

Algunas estadísticas de Orden

  • Mediana: El valor medio cuando los datos están ordenados.

  • Rango: La diferencia entre el valor máximo y mínimo en un conjunto de datos.

Ejercicio

  • Dada la lista de alturas en cm: [150, 160, 165, 170, 175, 180, 185, 190, 195, 200], ¿cuál es la mediana y el rango?

Respuesta

  • Mediana: 177.5
  • Rango: 50

Muestras bajo la Distribución Normal

Media muestral

Sea \(X_1,X_2,\ldots,X_n\) una muestra aleatoria proveniente de una función de probabilidad \(f(\cdot)\), se define la media muestral.

\[\overline{X}=\frac{1}{n}\sum_{i=1}^{n}X_i\]

Ejemplos

Media y Varianza

Sean \(X_1,X_2,\ldots,X_n\) una muestra aleatoria proveniente de una densidad \(f(\cdot)\) con media \(\mu\) y varianza finita \(\sigma^2\), y sea \(\overline{x}=\frac{1}{n}\sum_{i=1}^{n}X_i\)

\[ \begin{aligned} E\left[\overline{X}\right]&=\mu_{\overline{X}}\\ \mu \end{aligned} \]

\[ \begin{aligned} Var\left[\overline{X}\right]&=\sigma_{\overline{X}}^2\\ &=\frac{1}{n}\sigma^2 \end{aligned} \]

Ley de los grandes números

Sea \(f(\cdot;\theta)\) la función de densidad de una variable aleatoria \(X\) con media \(\mu\) y varianza finita \(\sigma^2\) y sea \(\overline{X}_n\) ula media muestral de una muestra aleatoria de tamaño \(n\) proveniente de \(f(\cdot)\). Sean \(\varepsilon\) y \(\delta\) dos números específicados tales que \(\varepsilon>0\) y \(0<\delta<1\). Si \(n\) es algún entero más grande que \(\frac{\sigma^2}{\varepsilon^2}\delta\), entonces

\[P\left[-\varepsilon<\overline{X}_{m}-\mu<\varepsilon\right]{\geq}1-\delta\]

Prueba

\[ \begin{aligned} \forall{x}>0&{\rightarrow}P\left[g(X){\geq}k\right]{\leq}\frac{E[g(X)]}{k}\\ &{\rightarrow}P\left[g(X){<}k\right]{\geq}1-\frac{E[g(X)]}{k} \end{aligned} \]

Sea \(g(X)=\left(\overline{X}-\mu\right)^2\) y \(k=\varepsilon^2\); entonces

\[ \begin{aligned} P\left[-\varepsilon{<}\overline{X}-\mu{<}\varepsilon\right]&=P\left[\left|\overline{X}-\mu\right|{<}\varepsilon\right]\\ &=P\left[\left|\overline{X}-\mu\right|^2{<}\varepsilon^2\right]\\ &{\geq}1-\frac{E\left[\left(\overline{X}-\mu\right)^2\right]}{\varepsilon^2}\\ &=1-\frac{\frac{1}{n}\sigma^2}{\varepsilon^2}{\geq}1-\delta \end{aligned} \]

A partir de la última desigualdad se tiene que:

\[ \begin{aligned} 1-\frac{\frac{1}{n}\sigma^2}{\varepsilon^2}{\geq}1-\delta&{\rightarrow}-\frac{\frac{1}{n}\sigma^2}{\varepsilon^2}{\geq}-\delta\\ &{\rightarrow}\frac{\frac{1}{n}\sigma^2}{\varepsilon^2}{<}\delta\\ &{\rightarrow}\frac{\sigma^2}{n\varepsilon^2}{<}\delta\\ &{\rightarrow}\frac{\sigma^2}{\delta\varepsilon^2}{<}n \end{aligned} \]

Ejemplos

  • Suponga alguna distribución con media desconocida y varianza igual a 1. ¿Qué tan grande debe ser la muestra a seleccionarse para garantizar que la probabilidad de que la media muestral \(\overline{X}\) se encuentre como máximo a 0.63 de la media poblacional \(\mu\) con una probabilidad del 91%? Tenemos que \(\delta\) = 0.09 y entonces

\[ \begin{aligned} \frac{\sigma^2}{\delta\varepsilon^2}{<}n&{\implies}\frac{1}{0.09\cdot0.63^2}{<}n\\ &{\implies}28{<}n\\ \end{aligned} \]

  • Suponga alguna distribución con media desconocida y varianza igual a 1. ¿Qué tan grande debe ser la muestra a seleccionarse para garantizar que la probabilidad de que la media muestral \(\overline{X}\) se encuentre como máximo a 0.19 de la media poblacional \(\mu\) con una probabilidad del 97%? Tenemos que \(\delta\) = 0.03 y entonces

\[ \begin{aligned} \frac{\sigma^2}{\delta\varepsilon^2}{<}n&{\implies}\frac{1}{0.03\cdot0.19^2}{<}n\\ &{\implies}923{<}n\\ \end{aligned} \]

  • Suponga alguna distribución con media desconocida y varianza igual a 1. ¿Qué tan grande debe ser la muestra a seleccionarse para garantizar que la probabilidad de que la media muestral \(\overline{X}\) se encuentre como máximo a 0.13 de la media poblacional \(\mu\) con una probabilidad del 91%? Tenemos que \(\delta\) = 0.09 y entonces

\[ \begin{aligned} \frac{\sigma^2}{\delta\varepsilon^2}{<}n&{\implies}\frac{1}{0.09\cdot0.13^2}{<}n\\ &{\implies}657{<}n\\ \end{aligned} \]

  • Suponga alguna distribución con media desconocida y varianza igual a 1. ¿Qué tan grande debe ser la muestra a seleccionarse para garantizar que la probabilidad de que la media muestral \(\overline{X}\) se encuentre como máximo a 0.21 de la media poblacional \(\mu\) con una probabilidad del 97%? Tenemos que \(\delta\) = 0.03 y entonces

\[ \begin{aligned} \frac{\sigma^2}{\delta\varepsilon^2}{<}n&{\implies}\frac{1}{0.03\cdot0.21^2}{<}n\\ &{\implies}756{<}n\\ \end{aligned} \]

  • Suponga la distribución del ingreso mediano por condado en los Estados Unicos con media desconocida y varianza igual a 281.357.623. ¿Qué tan grande debe ser la muestra a seleccionarse para garantizar que la probabilidad de que la media muestral \(\overline{X}\) se encuentre como máximo a 6.970 de la media poblacional \(\mu\) con una probabilidad del 92%? Tenemos que \(\delta\) = 0.08 y entonces

\[ \begin{aligned} \frac{\sigma^2}{\delta\varepsilon^2}{<}n&{\implies}\frac{281.357.623}{0.08\cdot6.970^2}{<}n\\ &{\implies}72{<}n \end{aligned} \]

Teorema Central del Límite

El Teorema del Límite Central (TLC) establece que la suma de un gran número de variables aleatorias independientes e idénticamente distribuidas (iid) se aproxima a una distribución normal, independientemente de la forma de la distribución original, siempre y cuando la varianza no sea infinita.

La función generadora de momentos (FGM) juega un papel clave en la demostración del TLC. La FGM de la suma de variables aleatorias iid es el producto de las FGM individuales. Aquí, proporcionaré una visión general de la demostración utilizando la función generadora de momentos.

Enunciado Informal del Teorema del Límite Central:

Dadas \(X_1,X_2\ldots,X_n\)​ variables aleatorias independientes e identicamente distribuidas con media \(\mu\) y varianza \(\sigma^2\), y sea \(S_n=X_1+X_2+\ldots+X_n\). Entonces, cuando \(n\) tiende a infinito \(n\rightarrow\infty\), la distribución de \(\frac{S_n-n\mu}{\sqrt{n}\sigma}\) se aproxima a la distribución normal estándar.

Demostración con la Función Generadora de Momentos:

  • Función Generadora de Momentos de \(S_n\):

La FGM de la suma \(S_n\) es el producto de las FGM individuales debido a la independencia:

\[ M_{S_n}(t)=[M_{X}(t)]^n \]

  • Desplazamiento y Escalamiento:

Consideramos la variable estandarizada \(Z_n=\frac{S_n-n\mu}{\sqrt{n}\sigma}\) Su FGM es:

\[ \begin{align} M_{Z_n}(t)&=E[e^{tZ_n}]\\ &=E\left[e^{t\left(\frac{S_n-n\mu}{\sqrt{n}\sigma}\right)}\right] \end{align} \]

  • Aplicación de la FGM de SnSn​:

Utilizamos la FGM de \(S_n\) para escribir la FGM de \(Z_n\):

\[ \begin{align} M_{Z_n}(t)&=E\left[e^{t\left(\frac{S_n-n\mu}{\sqrt{n}\sigma}\right)}\right]\\ &=E\left[e^{\frac{t}{\sqrt{n}\sigma}S_n-t\mu}\right]\\ &=e^{-t\mu}E\left[e^{\frac{t}{\sqrt{n}\sigma}S_n}\right]\\ &=e^{-t\mu}M_{S_n}\left(\frac{t}{\sqrt{n}\sigma}\right) \end{align} \]

  • Expansión en Serie de Taylor:

Utilizamos la expansión en serie de Taylor de \(M_{S_n}\left(\frac{t}{\sqrt{n}\sigma}\right)\) alrededor de \(t=0\):

\[ M_{S_n}\left(\frac{t}{\sqrt{n}\sigma}\right)=M_{S_n}\left(0\right)+\frac{t}{\sqrt{n}\sigma}M_{S_n}'\left(0\right)+\frac{1}{2}\left(\frac{t}{\sqrt{n}\sigma}\right)^2M_{S_n}''\left(0\right)+\cdots \]

  • Convergencia a la FGM de la Normal:

Tomamos el límite cuando \(n\rightarrow\infty\) y utilizamos el hecho de que \(M_{S_n}\left(0\right)=1\), \(M_{S_n}'\left(0\right)=\mu\) y \(M_{S_n}''\left(0\right)=\sigma^2\). Eston nos llevar a:

\[ M_{Z_n}(t)=e^{-t\mu}\left[1+\frac{t}{\sqrt{n}\sigma}\mu+\frac{1}{2}\left(\frac{t}{\sqrt{n}\sigma}\right)^2\sigma^2+\cdots\right] \]

  • Distribución Límite:

Ahora, observemos los términos que involucran nn en el denominador. A medida que nn tiende a infinito, los términos proporcionados por \(\frac{1}{\sqrt{n}}\) tienden a cero. Por lo tanto, los términos que involucran \(n\) en el denominador desaparecerán a medida que nn se hace grande.

Algunas notas acerca de la demostración:

  • Centramiento alrededor de Cero: Si asumimos \(\mu=0\), entonces la expresión \(e^{−t\mu}\) se convierte en \(e^{−t\mu}=e^{−t\cdot0}=e^0=1\). Esto significa que estamos considerando la diferencia entre la variable aleatoria original y cero.

  • Simplificación y Sin Pérdida de Generalidad: Al asumir \(\mu=0\), no perdemos generalidad en el Teorema del Límite Central. Esto se debe a que estamos interesados en la distribución relativa y la forma en que se normaliza la variable aleatoria en relación con su media. Al centrarnos en cero, simplificamos las expresiones matemáticas sin perder la esencia del resultado.

  • Simplificación de la Explicación: Asumir \(\mu=0\) facilita la explicación y el razonamiento, ya que elimina términos adicionales y simplifica la expresión para la FGM. Esto es especialmente útil cuando estamos tratando de transmitir los conceptos clave de la demostración.

En resumen, al asumir \(\mu=0\), estamos simplificando la expresión y la explicación sin perder la esencia del Teorema del Límite Central. Esta elección facilita el análisis matemático y conceptual al centrarnos en la normalización alrededor de cero.

Ahora, examinemos la expresión exponencial principal \(e^{−t\mu}\). Si consideramos \(\mu=0\) (que es típico en el Teorema del Límite Central donde estamos centrando y normalizando), esta expresión se simplifica a \(e^0=1\). Entonces, podemos asumir \(\mu=0\) para simplificar la explicación.

La función generadora de momentos (FGM) de ZnZn​ está dada por:

\[ \begin{aligned} M_{Z_n}(t)&=e^{-t{\cdot}0}\left[1+\frac{t}{\sqrt{n}\sigma}{\cdot}0+\frac{1}{2}\left(\frac{t}{\sqrt{n}\sigma}\right)^2\sigma^2+\cdots\right]\\ &=1\left[1+\frac{1}{2}\left(\frac{t}{\sqrt{n}\sigma}\right)^2\sigma^2+\cdots\right]\\ &=1+\frac{1}{2}\left(\frac{t}{\sqrt{n}\sigma}\right)^2\sigma^2+\cdots \end{aligned} \]

Esto nos lleva a la siguiente aproximación cuando \(n\) tiende a infinito:

\[ \begin{aligned} M_{Z_n}(t)&=1+0+0+\cdots \end{aligned} \]

Por lo tanto, con \(\mu=0\), la expresión exponencial principal \(e^{−t\mu}\) se convierte en \(e^0=1\) y los términos adicionales que involucran μμ dentro del paréntesis también se anulan.

Entonces, la FGM de \(Z_n\) converge a 1, y esta es la característica distintiva de la FGM de la distribución normal estándar \(N(0,1)\). En otras palabras, como \(n\) tiende a infinito, la FGM de \(Z_n\)​ se asemeja a la FGM de una variable aleatoria con distribución normal estándar, que es \(e^{-\frac{1}{2}t}\).

El resultado final es que la FGM de \(Z_n\) converge a la FGM de la distribución normal estándar:

\[ \begin{aligned} \lim_{n\rightarrow\infty}M_{Z_n}(t)&=e^{-\frac{1}{2}t} \end{aligned} \]

  • Conclusión:

Según el teorema de continuidad de Levy, la distribución de \(Z_n\) converge a la distribución normal estándar. Esto completa la demostración del Teorema del Límite Central.

Ejemplos

  • El grado de aproximación depende, en efecto, del tamaño de muestra y en partícular de la densidad \(f(\cdot)\). La aproximación a la normalidad es ilustrada en el siguiente gráfico para la función definida por \(f(x)=e^{-x}I_{(0,+\infty)}(x)\)
# Instala ggplot2 si aún no lo has instalado
# install.packages("ggplot2")

# Carga la librería
library(ggplot2)

# Semilla para reproducibilidad
set.seed(123)

# Número de muestras
num_muestras <- 1000

# Tamaños de muestra a probar
tamanos_muestra <- c(10, 30, 50)

# Lista para almacenar los data frames de las medias
lista_medias <- list()

# Genera muestras y calcula las medias para diferentes tamaños de muestra
for (tamano_muestra in tamanos_muestra) {
  muestras <- matrix(rexp(num_muestras * tamano_muestra), ncol = tamano_muestra)
  medias <- rowMeans(muestras)
  lista_medias[[as.character(tamano_muestra)]] <- data.frame(media = medias, tamano_muestra = tamano_muestra)
}

# Combina los resultados en un único data frame
datos <- do.call(rbind, lista_medias)

# Ancho personalizado de las barras
ancho_barras <- 0.2  # Ajusta este valor para hacer las barras más angostas

# Ajuste de la densidad para coincidir visualmente con las barras
ajuste_densidad <- 1.5  # Ajusta este valor para alinear las barras y las líneas de densidad

# Crea un facet grid con densidad de distribución normal
ggplot(datos, aes(x = media)) +
  geom_histogram(binwidth = ancho_barras, fill = "blue", color = "white", alpha = 0.7, aes(y = ..density.. * ajuste_densidad), legend="Barras") +
  geom_density(aes(y = ..density.. * ajuste_densidad), color = "red", size = 1, legend="Densidad") +
  stat_function(fun = dexp, args = list(rate = 1, log = F), color = "green", size = 1, legend="Distribución Exponencial") +
  labs(title = "Teorema del Límite Central",
       subtitle = "Distribución de medias de muestras de una distribución exponencial",
       x = "Media de la muestra",
       y = "Densidad") +
  facet_grid(. ~ tamano_muestra) +
  theme_minimal() +
  theme(legend.position = "top") +
  scale_fill_manual(values = "blue") +
  scale_color_manual(values = c("red", "green")) +
  guides(fill = guide_legend(title = "Leyenda"),
         color = guide_legend(title = "Leyenda"))

Ejercicios

  • Aplicar el Teorema Central del Límite a un conjunto de datos.

Respuesta

  • La media de la muestra se distribuirá aproximadamente de manera normal, independientemente de la forma de la población original.

Distribuciones Muestrales

La distribución normal juega un papel predominante en las estadísticas, en efecto, el teorema del límite central asegura que este sea el caso, pero existen otras razones igualmente de importantes. En primer lugar, muchas poblaciones encuentran en el curso de su investigación que para muchos campos la distribución normal parece ser una buena aproximación.

Media muestral

Sea \(\overline{X}_n\) la muedia muestral de una muestra aleatoria de tamaño \(n\) proveniende de una distribución normal con media \(\mu\) y varianza \(\sigma^2\). Entonces \(\overline{X}_n{\sim}N(\mu,\frac{\sigma^2}{n})\)

Prueba

\[ \begin{aligned} m_{\overline{X}_n}(t)&=E\left[e^{t\overline{X}}\right]\\ &=E\left[e^{t\frac{\sum_{i=1}^{n}X_i}{n}}\right]\\ &=E\left[\prod_{i=1}^{n}e^{t\frac{X_i}{n}}\right]\\ &=\prod_{i=1}^{n}E\left[e^{t\frac{X_i}{n}}\right]\\ &=\prod_{i=1}^{n}m_{{X}_i}\left(\frac{t}{n}\right)\\ &=\prod_{i=1}^{n}e^{\frac{{\mu}t}{n}+\frac{1}{2}\left[\frac{{\sigma}t}{n}\right]^2}\\ &=e^{{\mu}t+\frac{\frac{1}{2}\left({\sigma}t\right)^2}{n}}\\ \end{aligned} \]

La cual es la función generadora de momentos de una distribución normal con media \(\mu\) y varianza \(\frac{\sigma^2}{n}\)

  • Chi-cuadrado, t-Student, F: Son distribuciones asociadas con diferentes estadísticas muestrales.

Distribución Chi - Cuadrado

La distribución normal tiene dos parametros desconocidos \(\mu\) y \(\sigma^2\). Vamos a ver la distribución de \(S^2\)

\[ S^2=\frac{1}{n-1}\sum_{i=1}^{n}\left(X_i-\overline{X}\right)^2 \]

el cual es un estimador de la varianza desconocida \(\sigma^2\). Una función de densidad que juega un rol central en la derivavión de la distribución de \(S^2\) es la distribución Chi - cuadrado.

\[ f_{X}(x)=\frac{1}{\Gamma\left(\frac{k}{2}\right)}\left(\frac{1}{2}\right)^\frac{k}{2}x^{\frac{k}{2}-1}e^{-\frac{1}{2}x}\mathbb{I}_{(0,+\infty)}(x) \]

Nota

Notamos que la chi - cuadrado es un caso partícula de una densidad gamma con parametros \(r\) y \(\lambda\) iguales, respectivamente, a \(\frac{k}{2}\) y \(\frac{1}{2}\). Aquí \(k\) corresponde a los grados de libertad, un entero positivo.

\[ \begin{aligned} E\left(X\right)&=\frac{\frac{k}{2}}{\frac{1}{2}}\\ &=\frac{2{\cdot}k}{2{\cdot}1}\\ &=k \end{aligned} \]

\[ \begin{aligned} m_{X}\left(t\right)&=\left[\frac{\frac{1}{2}}{\frac{1}{2}-t}\right]^{\frac{k}{2}}\\ &=\left[\frac{\frac{1}{2}}{\frac{1}{2}-\frac{2}{2}t}\right]^{\frac{k}{2}}\\ &=\left[\frac{\frac{1}{2}}{\frac{1-2t}{2}}\right]^{\frac{k}{2}}\\ &=\left[\frac{2{\cdot}1}{2{\cdot}(1-2t)}\right]^{\frac{k}{2}}\\ &=\left[\frac{1}{1-2t}\right]^{\frac{k}{2}}\text{ con }t<\frac{1}{2} \end{aligned} \]

Teorema 7

Si la variables aleatorias \(X_i\), con \(i=1,\ldots,k\), son normalmente e identicamente distribuidas con medias \(\mu_i\) y varianzas \(\sigma_i^2\), entonces

\[ U=\sum_{i=1}^{k}{\left(\frac{X_i-\mu_i}{\sigma_i}\right)}^{2} \]

tiene una distribución chi-cuadrado con \(k\) grados de libertad.

Prueba

\[ \begin{aligned} m_{U}(t)&=E\left(e^{tU}\right)\\ &=E\left(e^{t\sum_{i=1}^{k}{Z_i^2}}\right)\\ &=E\left(e^{\sum_{i=1}^{k}{tZ_i^2}}\right)\\ &=E\left(\prod_{i=1}^{k}e^{{tZ_i^2}}\right)\\ &=\prod_{i=1}^{k}E\left(e^{{tZ_i^2}}\right) \end{aligned} \]

Pero

\[ \begin{aligned} E\left(e^{tZ_i^2}\right)&=\int_{-\infty}^{+\infty}{e^{tz^2}\left(\frac{1}{\sqrt{2\pi}}\right)e^{-\frac{1}{2}z^2}}dz\\ &=\int_{-\infty}^{+\infty}{\frac{1}{\sqrt{2\pi}}e^{-\frac{1}{2}z^2+tz^2}}dz\\ &=\int_{-\infty}^{+\infty}{\frac{1}{\sqrt{2\pi}}e^{-\frac{1}{2}z^2+\frac{2}{2}tz^2}}dz\\ &=\int_{-\infty}^{+\infty}{\frac{1}{\sqrt{2\pi}}e^{-\frac{1}{2}(z^2-2tz^2)}}dz\\ &=\int_{-\infty}^{+\infty}{\frac{1}{\sqrt{2\pi}}e^{-\frac{1}{2}(1-2t)z^2}}dz\\ &=\int_{-\infty}^{+\infty}{\frac{\sqrt{1-2t}}{\sqrt{1-2t}}\frac{1}{\sqrt{2\pi}}e^{-\frac{1}{2}(1-2t)z^2}}dz\\ &=\frac{1}{\sqrt{1-2t}}\int_{-\infty}^{+\infty}{\frac{\sqrt{1-2t}}{\sqrt{2\pi}}e^{-\frac{1}{2}(\sqrt{1-2t}z)^2}}dz\\ &=\frac{1}{\sqrt{1-2t}}\int_{-\infty}^{+\infty}{\frac{1}{\sqrt{2\pi}\sqrt{\frac{1}{1-2t}}}e^{-\frac{1}{2}\left(\frac{z}{\sqrt{\frac{1}{1-2t}}}\right)^2}}dz\\ &=\frac{1}{\sqrt{1-2t}}\int_{-\infty}^{+\infty}{\frac{1}{\sqrt{2\pi\frac{1}{1-2t}}}e^{-\frac{1}{2}\left(\frac{z-0}{\sqrt{\frac{1}{1-2t}}}\right)^2}}dz\\ &=\frac{1}{\sqrt{1-2t}}{\cdot}1\\ &=\frac{1}{\sqrt{1-2t}} \end{aligned} \]

Para \(Z{\sim}N\left(0,\frac{1}{1-2t}\right)\) lo que implica que la integral es el área bajo la curva de una distribución normal, y \(1-2t>0{\implies}1>2t{\implies}\frac{1}{2}>t\). Luego

\[ \begin{aligned} \prod_{i=1}^{k}E\left(e^{tZ_i^2}\right)&=\prod_{i=1}^{k}\frac{1}{\sqrt{1-2t}}\\ &=\left(\frac{1}{\sqrt{1-2t}}\right)^{k}\\ &=\left(\frac{1}{1-2t}\right)^{\frac{k}{2}} \end{aligned} \]

La función generadora de momentos de una distribución chi-cuadrado con \(k\) grados de libertad.

Corolario

Si \(X_1,X_2,\ldots,X_n\) es una muestra aleatoriasa proveniente de una distribución normal con media \(\mu\) y varianza \(\sigma^2\), entonces \(U=\frac{1}{\sigma^2}\sum_{i=1}^{n}\left({X}_i-\mu\right)^2\) tiene una distribucion chi-cuadrado con \(n\) grados de libertad.

Debemos notar que si alguno \(\mu\) o \(\sigma^2\) es desconociso, \(U\) definido como antes no es un estadístico. De otra parte, si \(\mu\) es conocido y \(\sigma^2\) es desconocido, podríamos estimar \(\sigma^2\) con \(U=\frac{1}{n}\sum_{i=1}^{n}\left(X_i-\mu\right)^2\) notando que:

\[ \begin{aligned} E(U)&=E\left[\frac{1}{n}\sum_{i=1}^{n}\left(X_i-\mu\right)^2\right]\\ &=\frac{1}{n}E\left[\sum_{i=1}^{n}\left(X_i-\mu\right)^2\right]\\ &=\frac{1}{n}\sum_{i=1}^{n}E\left[\left(X_i-\mu\right)^2\right]\\ &=\frac{1}{n}\sum_{i=1}^{n}\sigma^2\\ &=\frac{1}{n}{n}\sigma^2\\ &=\sigma^2 \end{aligned} \]

En otras palabras, la suma de variables normales elevadas al cuadrado siguen una distribución chi-cuadrado con grados de libertad igual al número de terminos en la suma.

Teorema 8

Si \(Z_i,Z_2,\ldots,Z_n\) es una muestra aleatoria de una distribución normal estándar, entonces:

  1. \(\overline{Z}\) tiene una distribución normal con media \(0\) y varianza \(\frac{1}{n}\)

  2. \(\overline{Z}\) y \(\sum_{i=1}^n \left(Z_i-\overline{Z}\right)^2\) son independientes

  3. \(\sum_{i=1}^n \left(Z_i-\overline{Z}\right)^2\) tiene una distribución chi-cuadrado con \(n-1\) grados de libertad.

Prueba (incompleta)
  1. es una caso especial de un teorema anterior. Debemos probar (ii) para el caso \(n=2\).

\[ \overline{Z}=\frac{Z_1+Z_2}{2} \]

y

\[ \begin{aligned} \sum_{i=1}^{2}\left(Z_i-\overline{Z}\right)^2&=\left(Z_1-\overline{Z}\right)^2+\left(Z_2-\overline{Z}\right)^2\\ &=\left(Z_1-\frac{Z_1+Z_2}{2}\right)^2+\left(Z_2-\frac{Z_1+Z_2}{2}\right)^2\\ &=\left(\frac{2Z_1-Z_1-Z_2}{2}\right)^2+\left(\frac{2Z_2-Z_1-Z_2}{2}\right)^2\\ &=\left(\frac{Z_1-Z_2}{2}\right)^2+\left(\frac{Z_1-Z_2}{2}\right)^2\\ &=\frac{\left(Z_1-Z_2\right)^2}{4}+\frac{\left(Z_2-Z_1\right)^2}{4}\\ &=\frac{\left(Z_1-Z_2\right)^2+\left(Z_2-Z_1\right)^2}{4}\\ &=\frac{Z_1^2-2Z_1Z_2+Z_2^2+Z_2^2-2Z_2Z_1+Z_1^2}{4}\\ &=\frac{2Z_1^2-4Z_1Z_2+2Z_2^2}{2{\cdot}2}\\ &=\frac{2\left(Z_1^2-2Z_1Z_2+Z_2^2\right)}{2{\cdot}2}\\ &=\frac{Z_1^2-2Z_1Z_2+Z_2^2}{2}\\ &=\frac{Z_2^2-2Z_1Z_2+Z_1^2}{2}\\ &=\frac{\left(Z_2-Z_1\right)^2}{2} \end{aligned} \]

Por lo que \(\overline{Z}\) es una función de \(Z_1+Z_2\) y \(\sum_{i=1}^{2}\left(Z_i-\overline{Z}\right)^2\) es una función de \(Z_1-Z_2\); por lo que prueba que \(\overline{Z}\) y \(\sum_{i=1}^{2}\left(Z_i-\overline{Z}\right)^2\) son independientes, esto basta para mostrar que \(Z_1+Z_2\) y \(Z_2-Z_1\) son independientes. Ahora

\[ \begin{aligned} m_{Z_1+Z_2}\left(t_1\right)&=E\left[e^{t_1\left(Z_1+Z_2\right)}\right]\\ &=E\left[e^{t_1Z_1}e^{t_1Z_2}\right]\\ &=E\left[e^{t_1Z_1}\right]E\left[e^{t_1Z_2}\right]\\ &=e^{\frac{1}{2}t_1^2}e^{\frac{1}{2}t_1^2}\\ &=e^{t_1^2} \end{aligned} \]

\[ \begin{aligned} m_{Z_2-Z_1}\left(t_2\right)&=E\left[e^{t_2\left(Z_2-Z_1\right)}\right]\\ &=E\left[e^{t_2Z_2}e^{-t_2Z_1}\right]\\ &=E\left[e^{t_2Z_2}\right]E\left[e^{-t_2Z_1}\right]\\ &=e^{\frac{1}{2}t_2^2}e^{\frac{1}{2}t_2^2}\\ &=e^{t_2^2} \end{aligned} \]

También,

\[ \begin{aligned} m_{Z_1+Z_2,Z_2-Z_1}\left(t_1,t_2\right)&=E\left[e^{t_1\left(Z_1+Z_2\right)+t_2\left(Z_2-Z_1\right)}\right]\\ &=E\left[e^{t_1Z_1}e^{t_1Z_2}e^{t_2Z_2}e^{-t_2Z_1}\right]\\ &=E\left[e^{(t_1+t_2)Z_2}\right]E\left[e^{(t_1-t_2)Z_1}\right]\\ &=e^{\frac{1}{2}(t_1-t_2)^2}e^{\frac{1}{2}(t_1+t_2)^2}\\ &=e^{t_1^2}e^{t_2^2}\\ &=m_{Z_1+Z_2}\left(t_1\right)m_{Z_2-Z_1}\left(t_2\right) \end{aligned} \]

y entonces la función generadora de momentos conjunta es el producto de las funciones generadoras de momentos marginales, \(Z_1+Z_2\) y \(Z_2-Z_1\) son independientes.

Para probar (iii), aceptamos la independencia de \(\overline{Z}\) y \(\sum_{i=1}^{n}\left(Z_i-\overline{Z}\right)^2\) para \(n\) arbitrario. Notemos que

\[ \begin{aligned} \sum_{i=1}^{n}Z_i^2&=\sum_{i=1}^{n}\left(Z_i-\overline{Z}+\overline{Z}\right)^2\\ &=\sum_{i=1}^{n}\left[\left(Z_i-\overline{Z}\right)+\overline{Z}\right]^2\\ &=\sum_{i=1}^{n}\left[\left(Z_i-\overline{Z}\right)^2+2\left(Z_i-\overline{Z}\right)\overline{Z}+\overline{Z}^2\right]\\ &=\sum_{i=1}^{n}\left(Z_i-\overline{Z}\right)^2+2\overline{Z}\sum_{i=1}^{n}\left(Z_i-\overline{Z}\right)+\sum_{i=1}^{n}\overline{Z}^2\\ &=\sum_{i=1}^{n}\left(Z_i-\overline{Z}\right)^2+\sum_{i=1}^{n}\overline{Z}^2\\ &=\sum_{i=1}^{n}\left(Z_i-\overline{Z}\right)^2+{n}\overline{Z}^2 \end{aligned} \]

También \(\sum_{i=1}^{n}\left(Z_i-\overline{Z}\right)^2\) y \({n}\overline{Z}^2\) son independientes, entonces

\[ \begin{aligned} m_{\sum_{i=1}^{n}Z_i^2}\left(t\right)&=m_{\sum_{i=1}^{n}\left(Z_i-\overline{Z}\right)^2}\left(t\right)m_{{n}\overline{Z}^2}\left(t\right) \end{aligned} \]

Por lo que,

\[ \begin{aligned} m_{\sum_{i=1}^{n}\left(Z_i-\overline{Z}\right)^2}\left(t\right)&=\frac{m_{\sum_{i=1}^{n}Z_i^2}\left(t\right)}{m_{{n}\overline{Z}^2}\left(t\right)}\\ &=\frac{\left(\frac{1}{1-2t}\right)^{\frac{n}{2}}}{\left(\frac{1}{1-2t}\right)^{\frac{1}{2}}}\\ &=\frac{\frac{1}{\left(1-2t\right)^{\frac{n}{2}}}}{\frac{1}{\left(1-2t\right)^{\frac{1}{2}}}}\\ &=\frac{\left(1-2t\right)^{\frac{1}{2}}}{\left(1-2t\right)^{\frac{n}{2}}}\\ &=\left(1-2t\right)^{\frac{1}{2}}\left(1-2t\right)^{-\frac{n}{2}}\\ &=\left(1-2t\right)^{\frac{1}{2}-\frac{n}{2}}\\ &=\left(1-2t\right)^{\frac{1-n}{2}}\\ &=\left(\frac{1}{1-2t}\right)^{\frac{n-1}{2}}\text{ con }t<\frac{1}{2} \end{aligned} \]

notando que \(\sqrt{n}\overline{Z}\) tiene una distribución normal estándar implicando que \(n\overline{Z}^2\) tiene una distribución chi-cuadrado con un grado de libertad. Nosotros temenos que mostrar que la función generadora dem omentos de \(\sum_{i=1}^{n}\left(Z_i-\overline{Z}\right)^2\) es una chi-cuadrado con \(n-1\) grados de libertad, lo cual completa la prueba.

El teorema anterior fue declarado para una muestra aleatoria de uns distribución normal estándar, como sea si nosotros quisieramos hacer inferencias acerca de \(\mu\) y \(\sigma^2\), nuestra muestra es proveniente de una distribución normal con media \(\mu\) y varianza \(\sigma^2\); entonces el \(Z_i\) puede ser tomado igula a \(\frac{X_i-\mu}{\sigma}\)

  1. del teorema 8 tenemos:

(i’) \(\overline{Z}=\frac{1}{n}\sum_{i=1}^{n}\frac{X_i-\mu}{\sigma}=\frac{\overline{X}_i-\mu}{\sigma}\)

  1. del teorema 8 tenemos:

(ii’) \(\overline{Z}=\frac{\overline{X}_i-\mu}{\sigma}\) y \(\sum_{i=1}^{n}\left(Z_i-\overline{Z}\right)^2=\sum_{i=1}^{n}\left(\frac{X_i-\mu}{\sigma}-\frac{\overline{X}-\mu}{\sigma}\right)^2=\sum_{i=1}^{n}\left(\frac{X_i-\overline{X}}{\sigma}\right)^2\) son independientes, lo cual implica que \(\overline{X}\) y \(\sum_{i=1}^{n}\left(X_i-\overline{X}\right)\) son independientes.

  1. del teorema 8 tenemos:

(iii’) \(\sum_{i=1}^{n}\left(Z_i-\overline{Z}\right)^2=\sum_{i=1}^{n}\left(\frac{X_i-\overline{X}}{\sigma}\right)^2\) tiene una distribución chi-cuadrado con \(n-1\) grados de libertad.

Corolario

Si \(S^2=\frac{1}{n-1}\sum_{i=1}^{n}\left(X_i-\overline{X}\right)^2\) es la varianza muestral de una muestra aleatoria proveniente de una distribución normal con media \(\mu\) y varianza \(\sigma^2\)

\[ U=\frac{(n-1)S^2}{\sigma^2} \]

tiene una distribución chi-cuadrado con \(n-1\) grados de libertad

Prueba

Esta es la última parte del anterior apartado (iii’) \(\sum_{i=1}^{n}\left(Z_i-\overline{Z}\right)^2=\sum_{i=1}^{n}\left(\frac{X_i-\overline{X}}{\sigma}\right)^2\) tiene una distribución chi-cuadrado con \(n-1\) grados de libertad.

Nota

Partiendo de que \(S^2\) es una función lineal de \(U=\frac{(n-1)S^2}{\sigma^2}\), la densidad de \(S^2\) puedes ser obtenida de la densidad de \(U\). Esto es

\[ f_{S^2}(y)=\left(\frac{n-1}{2\sigma^2}\right)^{\frac{n-1}{2}}\frac{1}{\Gamma{\frac{n-1}{2}}}y^{\frac{n-3}{2}}e^{\frac{(n-1)}{2\sigma^2}y}\mathbb{I}_{(0,+\infty)}(y) \]

Nota

Los “grados de libertad” pueden referirse al número de cuadrados independientes en la suma. Por ejemplo, la suma de \(U=\sum_{i=1}^{k}{\left(\frac{X_i-\mu_i}{\sigma_i}\right)}^{2}\) tiene \(k\) cuadrados independientes en la suma. pero en \(\sum_{i=1}^{n}\left(\frac{X_i-\overline{X}}{\sigma}\right)^2\) hay solo \(n-1\) terminos independientes partiendo de que la relación \(\sum_{i=1}^{n}\left(Z_i-\overline{Z}\right)^2=0\) permite el cálculo de uno de los sumandos \(Z_i-\overline{Z}\) dadas los otros \(n-1\) de dichos sumandos.

Todos los resultados aquí expuestos aplican solo para poblaciones normales. En efecto, puede ser probarse, que para ninguna otra distribución (i) son la media muestral y la varianza muestral independientemente distribuidas o (ii) que la media muestral es distribuida normal de forma exácta.

Distribución F

Una distribución, la distribución F, la cual debemos encontrar como de considerable interés práctico, es la distribución dle cociente de dos variables independientes chi-cuadrado divididas por sus respectivos grados de libertad. Suponemos que \(U\) y \(V\) son independientemente distribuidas con distribuciones chi-cuadrado con m y n grados de libertad, respectivamente. La siguietne es la densidad conjunta:

\[ f_{U,V}(u,v)=\frac{1}{\Gamma\left(\frac{m}{2}\right)\Gamma\left(\frac{n}{2}\right)2^{\frac{m+n}{2}}}u^{\frac{m-2}{2}}v^{\frac{n-2}{2}}e^{-\frac{1}{2}(u+v)}\mathbb{I}_{(0,+\infty)}(u)\mathbb{I}_{(0,+\infty)}(v) \]

Debemos halla la distribución de la cantidad

\[ X=\frac{\frac{U}{m}}{\frac{V}{n}} \]

La cual es comunmente conocida como el cociente de varianzas. Para hallar la distribución de \(X\) , nosotros hacemos la transformación \(X=\frac{\frac{U}{m}}{\frac{V}{n}}\) y \(Y=V\), obteniendo la distribución conjunta de \(X\) e \(Y\), y enteonces las distribuciones marginales de \(X\) por medio de la integración de la variable \(y\). El Jacobiano de la transformación es \((\frac{m}{n})y\); por lo que

\[ f_{X,Y}(x,y)=\frac{m}{n}y\frac{1}{\Gamma\left(\frac{m}{2}\right)\Gamma\left(\frac{n}{2}\right)2^{\frac{m+n}{2}}}\left(\frac{m}{n}xy\right)^{\frac{m-2}{2}}y^{\frac{n-2}{2}}e^{-\frac{1}{2}(\frac{m}{n}xy+y)} \]

y

\[ \begin{aligned} f_{X}(x)&=\int_{0}^{+\infty}f_{X,Y}(x,y)dy\\ &=\int_{0}^{+\infty}\frac{m}{n}y\frac{1}{\Gamma\left(\frac{m}{2}\right)\Gamma\left(\frac{n}{2}\right)2^{\frac{m+n}{2}}}\left(\frac{m}{n}xy\right)^{\frac{m-2}{2}}y^{\frac{n-2}{2}}e^{-\frac{1}{2}\left(\frac{m}{n}x+1\right)y}dy\\ &=\int_{0}^{+\infty}\frac{m}{n}y\frac{1}{\Gamma\left(\frac{m}{2}\right)\Gamma\left(\frac{n}{2}\right)2^{\frac{m+n}{2}}}\left(\frac{m}{n}\right)^{\frac{m-2}{2}}x^{\frac{m-2}{2}}y^{\frac{m-2}{2}}y^{\frac{n-2}{2}}e^{-\frac{1}{2}\left(\frac{m}{n}x+1\right)y}dy\\ &=\int_{0}^{+\infty}\frac{m}{n}\left(\frac{m}{n}\right)^{\frac{m-2}{2}}\frac{1}{\Gamma\left(\frac{m}{2}\right)\Gamma\left(\frac{n}{2}\right)2^{\frac{m+n}{2}}}x^{\frac{m-2}{2}}y^{\frac{m-2}{2}}y^{\frac{n-2}{2}}ye^{-\frac{1}{2}\left(\frac{m}{n}x+1\right)y}dy\\ &=\int_{0}^{+\infty}\left(\frac{m}{n}\right)^{\frac{m-2}{2}+1}\frac{1}{\Gamma\left(\frac{m}{2}\right)\Gamma\left(\frac{n}{2}\right)2^{\frac{m+n}{2}}}x^{\frac{m-2}{2}}y^{\frac{m-2}{2}+\frac{n-2}{2}+1}e^{-\frac{1}{2}\left(\frac{m}{n}x+1\right)y}dy\\ &=\int_{0}^{+\infty}\left(\frac{m}{n}\right)^{\frac{m-2}{2}+\frac{2}{2}}\frac{1}{\Gamma\left(\frac{m}{2}\right)\Gamma\left(\frac{n}{2}\right)2^{\frac{m+n}{2}}}x^{\frac{m-2}{2}}y^{\frac{m-2}{2}+\frac{n-2}{2}+\frac{2}{2}}e^{-\frac{1}{2}\left(\frac{m}{n}x+1\right)y}dy\\ &=\int_{0}^{+\infty}\left(\frac{m}{n}\right)^{\frac{m-2+2}{2}}\frac{1}{\Gamma\left(\frac{m}{2}\right)\Gamma\left(\frac{n}{2}\right)2^{\frac{m+n}{2}}}x^{\frac{m-2}{2}}y^{\frac{m-2+n-2+2}{2}}e^{-\frac{1}{2}\left(\frac{m}{n}x+1\right)y}dy\\ &=\int_{0}^{+\infty}\left(\frac{m}{n}\right)^{\frac{m}{2}}\frac{1}{\Gamma\left(\frac{m}{2}\right)\Gamma\left(\frac{n}{2}\right)2^{\frac{m+n}{2}}}x^{\frac{m-2}{2}}y^{\frac{m+n-2}{2}}e^{-\frac{1}{2}\left(\frac{m}{n}x+1\right)y}dy\\ &=\left(\frac{m}{n}\right)^{\frac{m}{2}}\frac{1}{\Gamma\left(\frac{m}{2}\right)\Gamma\left(\frac{n}{2}\right)2^{\frac{m+n}{2}}}x^{\frac{m-2}{2}}\int_{0}^{+\infty}y^{\frac{m+n-2}{2}}e^{-\frac{1}{2}\left(\frac{m}{n}x+1\right)y}dy\\ &=\left(\frac{m}{n}\right)^{\frac{m}{2}}\frac{1}{\Gamma\left(\frac{m}{2}\right)\Gamma\left(\frac{n}{2}\right)2^{\frac{m+n}{2}}}x^{\frac{m-2}{2}}\int_{0}^{+\infty}y^{\frac{m+n-2}{2}}e^{-\frac{1}{2}\left(\frac{m}{n}x+1\right)y}dy \end{aligned} \]

Ahora tomando \(u=\frac{1}{2}(\frac{m}{n}x+1)y\) entonces \(du=\frac{1}{2}(\frac{m}{n}x+1)dy\) y \(\frac{u}{\frac{1}{2}(\frac{m}{n}x+1)}=y\)

\[ \begin{aligned} \left(\frac{m}{n}\right)^{\frac{m}{2}}\frac{1}{\Gamma\left(\frac{m}{2}\right)\Gamma\left(\frac{n}{2}\right)2^{\frac{m+n}{2}}}x^{\frac{m-2}{2}}\int_{0}^{+\infty}y^{\frac{m+n-2}{2}}e^{-\frac{1}{2}(\frac{m}{n}x+1)y}dy&=\left(\frac{m}{n}\right)^{\frac{m}{2}}\frac{1}{\Gamma\left(\frac{m}{2}\right)\Gamma\left(\frac{n}{2}\right)2^{\frac{m+n}{2}}}x^{\frac{m-2}{2}}\int_{0}^{+\infty}\frac{-\frac{1}{2}(\frac{m}{n}x+1)}{-\frac{1}{2}(\frac{m}{n}x+1)}y^{\frac{m+n-2}{2}}e^{-\frac{1}{2}\left(\frac{m}{n}x+1\right)y}dy\\ &=\left(\frac{m}{n}\right)^{\frac{m}{2}}\frac{1}{\Gamma\left(\frac{m}{2}\right)\Gamma\left(\frac{n}{2}\right)2^{\frac{m+n}{2}}}x^{\frac{m-2}{2}}\int_{0}^{+\infty}\frac{\frac{1}{2}(\frac{m}{n}x+1)}{\frac{1}{2}(\frac{m}{n}x+1)}y^{\frac{m+n-2}{2}}e^{-\frac{1}{2}\left(\frac{m}{n}x+1\right)y}dy\\ &=\left(\frac{m}{n}\right)^{\frac{m}{2}}\frac{1}{\Gamma\left(\frac{m}{2}\right)\Gamma\left(\frac{n}{2}\right)2^{\frac{m+n}{2}}}x^{\frac{m-2}{2}}\frac{1}{\frac{1}{2}\left(\frac{m}{n}x+1\right)}\int_{0}^{+\infty}y^{\frac{m+n-2}{2}}e^{-\frac{1}{2}(\frac{m}{n}x+1)y}\frac{1}{2}\left(\frac{m}{n}x+1\right)dy\\ &=\left(\frac{m}{n}\right)^{\frac{m}{2}}\frac{1}{\Gamma\left(\frac{m}{2}\right)\Gamma\left(\frac{n}{2}\right)2^{\frac{m+n}{2}}}x^{\frac{m-2}{2}}\frac{1}{\frac{1}{2}\left(\frac{m}{n}x+1\right)}\int_{0}^{+\infty}\left[\frac{u}{\frac{1}{2}(\frac{m}{n}x+1)}\right]^{\frac{m+n-2}{2}}e^{-u}du \end{aligned} \]

Observando que la integral resultante corresponde a la definición de la función gamma \(\Gamma(\alpha)\) con \(\alpha=\frac{m+n}{2}\)

\[ \begin{aligned} \left(\frac{m}{n}\right)^{\frac{m}{2}}\frac{1}{\Gamma\left(\frac{m}{2}\right)\Gamma\left(\frac{n}{2}\right)2^{\frac{m+n}{2}}}x^{\frac{m-2}{2}}\frac{1}{\frac{1}{2}\left(\frac{m}{n}x+1\right)}\int_{0}^{+\infty}\left[\frac{u}{\frac{1}{2}(\frac{m}{n}x+1)}\right]^{\frac{m+n-2}{2}}e^{-u}du&=\left(\frac{m}{n}\right)^{\frac{m}{2}}\frac{1}{\Gamma\left(\frac{m}{2}\right)\Gamma\left(\frac{n}{2}\right)2^{\frac{m+n}{2}}}x^{\frac{m-2}{2}}\frac{1}{\frac{1}{2}\left(\frac{m}{n}x+1\right)}\left[\frac{1}{\frac{1}{2}(\frac{m}{n}x+1)}\right]^{\frac{m+n-2}{2}}\int_{0}^{+\infty}u^{\frac{m+n-2}{2}}e^{-u}du\\ &=\left(\frac{m}{n}\right)^{\frac{m}{2}}\frac{1}{\Gamma\left(\frac{m}{2}\right)\Gamma\left(\frac{n}{2}\right)2^{\frac{m+n}{2}}}x^{\frac{m-2}{2}}\frac{1}{\left[\frac{1}{2}\left(\frac{m}{n}x+1\right)\right]^{1+\frac{m+n-2}{2}}}\Gamma\left(\frac{m+n}{2}\right)\mathbb{I}_{(0,+\infty)}(x)\\ &=\left(\frac{m}{n}\right)^{\frac{m}{2}}\frac{1}{\Gamma\left(\frac{m}{2}\right)\Gamma\left(\frac{n}{2}\right)2^{\frac{m+n}{2}}}x^{\frac{m-2}{2}}\frac{1}{\left[\frac{1}{2}\left(\frac{m}{n}x+1\right)\right]^{\frac{2}{2}+\frac{m+n-2}{2}}}\Gamma\left(\frac{m+n}{2}\right)\mathbb{I}_{(0,+\infty)}(x)\\ &=\left(\frac{m}{n}\right)^{\frac{m}{2}}\frac{1}{\Gamma\left(\frac{m}{2}\right)\Gamma\left(\frac{n}{2}\right)2^{\frac{m+n}{2}}}x^{\frac{m-2}{2}}\frac{1}{\left[\frac{1}{2}\left(\frac{m}{n}x+1\right)\right]^{\frac{2+m+n-2}{2}}}\Gamma\left(\frac{m+n}{2}\right)\mathbb{I}_{(0,+\infty)}(x)\\ &=\left(\frac{m}{n}\right)^{\frac{m}{2}}\frac{\Gamma\left(\frac{m+n}{2}\right)}{\Gamma\left(\frac{m}{2}\right)\Gamma\left(\frac{n}{2}\right)2^{\frac{m+n}{2}}}\frac{x^{\frac{m-2}{2}}}{\left[\frac{1}{2}\left(\frac{m}{n}x+1\right)\right]^{\frac{m+n}{2}}}\mathbb{I}_{(0,+\infty)}(x)\\ &=\left(\frac{m}{n}\right)^{\frac{m}{2}}\frac{\Gamma\left(\frac{m+n}{2}\right)}{\Gamma\left(\frac{m}{2}\right)\Gamma\left(\frac{n}{2}\right)2^{\frac{m+n}{2}}}\frac{x^{\frac{m-2}{2}}}{\left(\frac{1}{2}\right)^{\frac{m+n}{2}}\left(\frac{m}{n}x+1\right)^{\frac{m+n}{2}}}\mathbb{I}_{(0,+\infty)}(x)\\ &=\left(\frac{m}{n}\right)^{\frac{m}{2}}\frac{\Gamma\left(\frac{m+n}{2}\right)}{\Gamma\left(\frac{m}{2}\right)\Gamma\left(\frac{n}{2}\right)}\frac{x^{\frac{m-2}{2}}}{\left(\frac{m}{n}x+1\right)^{\frac{m+n}{2}}}\mathbb{I}_{(0,+\infty)}(x) \end{aligned} \]

Definición 9

Si \(X\) es una variable aleatoria que tiene una densidad dada por \(\left(\frac{m}{n}\right)^{\frac{m}{2}}\frac{\Gamma\left(\frac{m+n}{2}\right)}{\Gamma\left(\frac{m}{2}\right)\Gamma\left(\frac{n}{2}\right)}\frac{x^{\frac{m-2}{2}}}{\left(\frac{m}{n}x+1\right)^{\frac{m+n}{2}}}\mathbb{I}_{(0,+\infty)}(x)\) entonces \(X\) es distribuidad F con los grados de libertad correspondientes \(m\) y \(n\)

El orden en el cual son dados los grados de libertad es importante, luego la densidad de la distribución F no es simétrica en sus grados de libertad \(m\) y \(n\). El número de grados de libertad de el numerador del cociente \(m/n\) que aparece en \(\left(\frac{m}{n}\right)^{\frac{m}{2}}\frac{\Gamma\left(\frac{m+n}{2}\right)}{\Gamma\left(\frac{m}{2}\right)\Gamma\left(\frac{n}{2}\right)}\frac{x^{\frac{m-2}{2}}}{\left(\frac{m}{n}x+1\right)^{\frac{m+n}{2}}}\mathbb{I}_{(0,+\infty)}(x)\) es siempre notada primero. O si la variable aleatoria distribuida F es un cociente de dos variables aleatorias independientes distribuidad chi-cuadrado divididas por sus respectivos grados de libertad, como vimos en su anterior derivación, entonces los grados de libertad de la variable aleatoria chi-cuadrado que aparecen en el numerador son señaladas primero.

Teorema 9

Sea \(U\) una variable aleatoria chi-cuadrado con \(m\) grados de libertad; sea \(V\) una variable aleatoria chi-cuadrado con \(n\) grados de libertad, y sean \(U\) y \(V\) independientes. Entonces la variable aleatoria

\[ X=\frac{\frac{U}{m}}{\frac{V}{n}} \]

es distribuida como una F con \(m\) y \(n\) grados de libertad. La densidad de \(X\) es dada por \(\left(\frac{m}{n}\right)^{\frac{m}{2}}\frac{\Gamma\left(\frac{m+n}{2}\right)}{\Gamma\left(\frac{m}{2}\right)\Gamma\left(\frac{n}{2}\right)}\frac{x^{\frac{m-2}{2}}}{\left(\frac{m}{n}x+1\right)^{\frac{m+n}{2}}}\mathbb{I}_{(0,+\infty)}(x)\)

El siguiente corolario muestr acomo el resultado del Teorema anterior puede ser muy usado en muestreo.

Corolario

Si \(X_1,X_2,\ldots,X_{m+1}\) es una muestra aleatoria de \(m+1\) provenientes de una población normal con media \(\mu_X\) y varianza \(\sigma^2\), si \(Y_1,Y_2,\ldots,Y_{n+1}\) es una muestra aleatoria de tamaño \(n+1\) de una población normal con media \(\mu_Y\) y varianza \(\sigma^2\), y si las dos muestra son independientes, entonces de esto sigue que \(\frac{1}{\sigma^2}\sum_{i=1}^{m+1}\left(X_i-\overline{X}\right)^2\) es distribuida chi-cuadrado con \(m\) grados de libertad, y \(\frac{1}{\sigma^2}\sum_{i=1}^{m+1}\left(Y_i-\overline{Y}\right)^2\) es distribuida chi-cuadrado con \(n\) grados de libertad; por lo que el estadístico

\[ \begin{aligned} \frac{\frac{U}{m}}{\frac{V}{n}}&=\frac{\frac{\frac{1}{\sigma^2}\sum_{i=1}^{m+1}\left(X_i-\overline{X}\right)^2}{m}}{\frac{\frac{1}{\sigma^2}\sum_{i=1}^{m+1}\left(Y_i-\overline{Y}\right)^2}{n}}\\ &=\frac{\frac{\sum_{i=1}^{m+1}\left(X_i-\overline{X}\right)^2}{m}}{\frac{\sum_{i=1}^{m+1}\left(Y_i-\overline{Y}\right)^2}{n}} \end{aligned} \]

tiene una distribución F con \(m\) y \(n\) grados de libertad.

Nota

Si \(X\) es una variable aleatoria distribuida F con \(m\) y \(n\) grados de libertad, entonces

\[ E[X]=\frac{n}{n-2}\text{ para }n>2 \]

y

\[ Var[X]=\frac{2n^2(m+n-2)}{n(n-2)^2(n-4)}\text{ para }n>4 \]

Prueba

En primer lugar debemos ser sorprendidos de que la media dependa solo de los grados de libertad del denominados. Escribiendo \(X\) en \(\frac{\frac{U}{m}}{\frac{V}{n}}\); esto es

\[ \begin{aligned} X&=\frac{\frac{U}{m}}{\frac{V}{n}} \end{aligned} \]

entonces

\[ \begin{aligned} E[X]&=E\left[\frac{\frac{U}{m}}{\frac{V}{n}}\right]\\ &=E\left[\frac{nU}{mV}\right]\\ &=E\left[\frac{n}{m}\frac{U}{V}\right]\\ &=\frac{n}{m}E\left[U\frac{1}{V}\right]\\ &=\frac{n}{m}E\left[U\right]E\left[\frac{1}{V}\right] \end{aligned} \]

Ahora \(E\left[U\right]=m\), y

\[ \begin{aligned} E\left[\frac{1}{V}\right]&=\frac{1}{\Gamma\left(\frac{n}{2}\right)}\left(\frac{1}{2}\right)^{\frac{n}{2}}\int_{0}^{+\infty}\frac{1}{v}v^{\frac{n-2}{2}}e^{-\frac{1}{2}v}dv\\ &=\frac{1}{\Gamma\left(\frac{n}{2}\right)}\left(\frac{1}{2}\right)^{\frac{n}{2}}\int_{0}^{+\infty}v^{-1}v^{\frac{n-2}{2}}e^{-\frac{1}{2}v}dv\\ &=\frac{1}{\Gamma\left(\frac{n}{2}\right)}\left(\frac{1}{2}\right)^{\frac{n}{2}}\int_{0}^{+\infty}v^{\frac{n-2}{2}-1}e^{-\frac{1}{2}v}dv\\ &=\frac{1}{\Gamma\left(\frac{n}{2}\right)}\left(\frac{1}{2}\right)^{\frac{n}{2}}\int_{0}^{+\infty}v^{\frac{n-2}{2}-\frac{2}{2}}e^{-\frac{1}{2}v}dv\\ &=\frac{1}{\Gamma\left(\frac{n}{2}\right)}\left(\frac{1}{2}\right)^{\frac{n}{2}}\int_{0}^{+\infty}v^{\frac{n-4}{2}}e^{-\frac{1}{2}v}dv\\ &=\frac{1}{\Gamma\left(\frac{n}{2}\right)}\left(\frac{1}{2}\right)^{\frac{n}{2}}\int_{0}^{+\infty}v^{\frac{n-4}{2}}e^{-\frac{1}{2}v}dv \end{aligned} \]

Haciendo \(u=\frac{1}{2}v\), entonces \(du=\frac{1}{2}dv\) y \(\frac{u}{\frac{1}{2}}=v\)

\[ \begin{aligned} \frac{1}{\Gamma\left(\frac{n}{2}\right)}\left(\frac{1}{2}\right)^{\frac{n}{2}}\int_{0}^{+\infty}v^{\frac{n-4}{2}}e^{-\frac{1}{2}v}dv&=\frac{1}{\Gamma\left(\frac{n}{2}\right)}\left(\frac{1}{2}\right)^{\frac{n}{2}}2\int_{0}^{+\infty}v^{\frac{n-4}{2}}e^{-\frac{1}{2}v}\frac{1}{2}dv\\ &=\frac{1}{\Gamma\left(\frac{n}{2}\right)}\left(\frac{1}{2}\right)^{\frac{n}{2}}2\int_{0}^{+\infty}2^{\frac{n-4}{2}}u^{\frac{n-4}{2}}e^{-u}du\\ &=\frac{1}{\Gamma\left(\frac{n}{2}\right)}\left(\frac{1}{2}\right)^{\frac{n}{2}}2\cdot2^{\frac{n-4}{2}}\int_{0}^{+\infty}u^{\frac{n-4}{2}}e^{-u}du\\ &=\frac{1}{\Gamma\left(\frac{n}{2}\right)}\left(\frac{1}{2}\right)^{\frac{n}{2}}\int_{0}^{+\infty}u^{\frac{n-4}{2}}e^{-u}du\\ &=\frac{1}{\Gamma\left(\frac{n}{2}\right)}\left(\frac{1}{2}\right)^{\frac{n}{2}}2^{\frac{n-4}{2}+1}\Gamma\left(\frac{n-2}{2}\right)\\ &=\frac{\Gamma\left(\frac{n-2}{2}\right)}{\Gamma\left(\frac{n}{2}\right)}\left(\frac{1}{2}\right)^{\frac{n}{2}}2^{\frac{n-4}{2}+\frac{2}{2}}\\ &=\frac{\Gamma\left(\frac{n-2}{2}\right)}{\Gamma\left(\frac{n}{2}\right)}\left(\frac{1}{2}\right)^{\frac{n}{2}}2^{\frac{n-4+2}{2}}\\ &=\frac{\Gamma\left(\frac{n-2}{2}\right)}{\Gamma\left(\frac{n}{2}\right)}\left(\frac{1}{2}\right)^{\frac{n}{2}}2^{\frac{n-2}{2}}\\ &=\frac{\Gamma\left(\frac{n-2}{2}\right)}{\Gamma\left(\frac{n}{2}\right)}\left(\frac{1}{2}\right)^{\frac{n}{2}}\left(\frac{1}{2}\right)^{-\frac{n-2}{2}}\\ &=\frac{\Gamma\left(\frac{n-2}{2}\right)}{\Gamma\left(\frac{n}{2}\right)}\left(\frac{1}{2}\right)^{\frac{n}{2}-\frac{n-2}{2}}\\ &=\frac{\Gamma\left(\frac{n-2}{2}\right)}{\Gamma\left(\frac{n}{2}\right)}\left(\frac{1}{2}\right)^{\frac{n-n+2}{2}}\\ &=\frac{\Gamma\left(\frac{n-2}{2}\right)}{\Gamma\left(\frac{n}{2}\right)}\left(\frac{1}{2}\right)^{\frac{2}{2}}\\ &=\frac{1}{2}\frac{\Gamma\left(\frac{n-2}{2}\right)}{\Gamma\left(\frac{n}{2}\right)}\\ \end{aligned} \]

\[\frac{\Gamma\left(\frac{n-2}{2}\right)}{\Gamma\left(\frac{n}{2}\right)}\left(\frac{1}{2}\right)^{\frac{n}{2}}\left(\frac{1}{2}\right)^{-\frac{n-2}{2}}=\frac{1}{n-2}\]

y entonces

\[ \begin{aligned} E[X]&=\left(\frac{n}{m}\right)E[U]E\left[\frac{1}{V}\right]\\ \frac{n}{m}\frac{m}{n-2}\\ \frac{n}{n-2} \end{aligned} \]

Nota

Si \(X\) tiene una distribución F con \(m\) y \(n\) grados de libertad, enteonces \(\frac{1}{X}\) tiene una distribución F con \(n\) y \(m\) grados de libertad. Este resultado nos permite tabular la cola derecha de la solamente. Por ejemplo, si el cuantíl \(\zeta_{.95}\) para una distribución con \(n\) y \(m\) grados de libertad es dado por \(\frac{1}{\zeta_{.95}}\). En general, si \(X\) tiene una distribución F con \(m\) y \(n\) grados de libertad y \(Y\) tiene una distribución F con \(n\) y \(m\) grados de libertad, entonces el p-ésimo cuantíl de \(X\), \(\zeta_{p}\), es el reciproco de el (\(1-p\))ésimo cuantíl de \(Y\), \(\zeta_{1-p}\) como se muestra acontinuación

\[ \begin{aligned} p&=P\left[X{\leq}\zeta_p\right]\\ &=P\left[\frac{1}{X}{\geq}\frac{1}{\zeta_p}\right]\\ &=P\left[Y{\geq}\frac{1}{\zeta_p}\right]\\ &=1-P\left[Y{\leq}\frac{1}{\zeta_p}\right]\\ \end{aligned} \]

pero \(1-p=P\left[Y{\leq}\zeta_{p}^{'}\right]\) por lo que \(\zeta_{p}^{'}=\frac{1}{\zeta_{p}}\)

Nota

Si \(X\) una variable aleatoria que tiene una distribución F con \(m\) y \(n\) grados de libertad, entonces

\[ W=\frac{m\frac{X}{n}}{1+m\frac{X}{n}} \]

tiene una distribución beta con parametros \(a=\frac{m}{2}\) y \(b=\frac{n}{2}\)

Distribución t - Student

Otra distribución de importancia práctica considerable es el cociente de unaa variable aleatoria distribuida normalmente sobre la raíz cuadrada de una variable aleatoria independientesmente dsitribuida chi- cuadrado dividida por sus grados de libertad. Esto es, si \(Z\) tiene una distribución normal, si \(U\) tiene una distribución chi - cuadrado con \(k\) grados de libertad, y \(Z\) y \(U\) son independientes, nosotros veremos la distribución de

\[ X=\frac{Z}{\sqrt{\frac{U}{k}}} \]

I nosotros hacemos la transformación \(X=\frac{Z}{\sqrt{\frac{U}{k}}}\) y \(Y=U\) el jacobiano es \(\sqrt{\frac{y}{k}}\) y por lo tanto

\[ \begin{aligned} f_{X,Y}(x,y)&=\sqrt{\frac{y}{k}}\frac{1}{\sqrt{2\pi}}\frac{1}{\Gamma\left(\frac{k}{2}\right)}\left(\frac{1}{2}\right)^{\frac{k}{2}}y^{\frac{k}{2}-1}e^{-\frac{1}{2}y}e^{-\frac{1}{2}\frac{x^2y}{k}}\mathbb{I}_{(0,+\infty)}(y) \end{aligned} \]

\[ \begin{aligned} f_{X}(x)&=\int_{-\infty}^{+\infty}f_{X,Y}(x,y)dy\\ &=\int_{0}^{+\infty}\sqrt{\frac{y}{k}}\frac{1}{\sqrt{2\pi}}\frac{1}{\Gamma\left(\frac{k}{2}\right)}\left(\frac{1}{2}\right)^{\frac{k}{2}}y^{\frac{k}{2}-1}e^{-\frac{1}{2}y}e^{-\frac{1}{2}\frac{x^2}{k}y}dy\\ &=\frac{1}{\sqrt{2{\pi}k}}\frac{1}{\Gamma\left(\frac{k}{2}\right)}\left(\frac{1}{2}\right)^{\frac{k}{2}}\int_{0}^{+\infty}\sqrt{y}y^{\frac{k}{2}-1}e^{-\frac{1}{2}y}e^{-\frac{1}{2}\frac{x^2}{k}y}dy\\ &=\frac{1}{\sqrt{2{\pi}k}}\frac{1}{\Gamma\left(\frac{k}{2}\right)}\left(\frac{1}{2}\right)^{\frac{k}{2}}\int_{0}^{+\infty}y^{\frac{1}{2}}y^{\frac{k}{2}-1}e^{-\frac{1}{2}y}e^{-\frac{1}{2}\frac{x^2}{k}y}dy\\ &=\frac{1}{\sqrt{2{\pi}k}}\frac{1}{\Gamma\left(\frac{k}{2}\right)}\left(\frac{1}{2}\right)^{\frac{k}{2}}\int_{0}^{+\infty}y^{\frac{k}{2}-1+\frac{1}{2}}e^{-\frac{1}{2}\frac{x^2}{k}y-\frac{1}{2}y}dy\\ &=\frac{1}{\sqrt{2{\pi}k}}\frac{1}{\Gamma\left(\frac{k}{2}\right)}\left(\frac{1}{2}\right)^{\frac{k}{2}}\int_{0}^{+\infty}y^{\frac{k}{2}-1+\frac{1}{2}}e^{-\frac{1}{2}\left(\frac{x^2}{k}+1\right)y}dy\\ &=\frac{\Gamma\left(\frac{k+1}{2}\right)}{\Gamma\left(\frac{k}{2}\right)}\frac{1}{\sqrt{k\pi}}\frac{1}{\left(1+\frac{x^2}{k}\right)^{\frac{k+1}{2}}} \end{aligned} \]

Definición

Distribución t - Student: Si \(X\) es una variable aleatoria teniendo densidad dada por \(\frac{\Gamma\left(\frac{k+1}{2}\right)}{\Gamma\left(\frac{k}{2}\right)}\frac{1}{\sqrt{k\pi}}\frac{1}{\left(1+\frac{x^2}{k}\right)^{\frac{k+1}{2}}}\), entonces \(X\) es definida a tener una dsitribución t - Student con \(k\) grados de libertad.

Nosotros derivamos el siguiente resultado.

Teorema 10

Si \(Z\) tiene una distribución normal estándar, si \(U\) tiene una distrivución chi - cuadrado con \(k\) grados de libertad, y \(Z\) y \(U\) son independientes, entonces \(\frac{Z}{\sqrt{\frac{U}{k}}}\) tiene distribución t - student con \(k\) grados de libertad.

El siguiente cololario muestra como el resultado del Teorema 10 es aplicable para el muestreo de una población normal.

Corolario

Si \(X_1,X_2,\ldots,X_n\) es una muestra aleatoria de una distribución normal con media \(\mu\) y varianza \(\sigma^2\), entonces \(Z=\frac{\overline{X}-\mu}{\frac{\sigma}{\sqrt{n}}}\) tiene una distribución normal y \(U=\frac{1}{\sigma^2}\sum_{i=1}^{n}(X_i-\overline{X})^2\) tiene una distribución chi - cuadrado con \(n-1\) grados de libertad. Además, \(Z\) y \(U\) son independientes; (vea Teorema 8); entonces

\[ \frac{\frac{\overline{X}-\mu}{\sqrt{n}}}{\sqrt{\frac{1}{\sigma^2}\sum_{i=1}^{n}\frac{(X_i-\overline{X})^2}{n-1}}}=\frac{\sqrt{n(n-1)}}{\sqrt{\sum_{i=1}^{n}(X_i-\overline{X})^2}}(X_i-\mu) \]

tiene una distribución t - student con \(n-1\) grados de libertad

Nosotros debemos notar que una t - student con un grado de libertad se reduce a una ditribución Cauchy; y como el número de grados de libertad se incrementa, la distribución t - student se aproxima a una distribución normal estándar. Atmbién, el cuadrado de una variable aleatoria con distribución t student con \(k\) grados de libertad tiene distribución \(F\) con \(1\) y \(k\) grados de libertad.

Nota

Si \(X\) es una variable aleatoria que tiene una dsitribución t - student con \(k\) grados del ibertad, entonces

\[ E[X]=0\text{ si }k>1 \]

\[ Var[X]=\frac{k}{k-2}\text{ si }k>2 \]

Prueba

Los primeros dos momentos de \(X\) pueden ser hallados escribiendo \(X=\frac{Z}{\sqrt{\frac{U}{k}}}\) como en el Teoream 10 y usando la independencia de \(Z\) y \(U\).

Estadísticas de orden

Definición y distribución

Las estadśiticas de orden, también los momentos muestrales, juegan un rol importante en la inferencia estadśitica. Las estadsíticas de orden son para los cuantíles poblacionales como los momentos muestrales para los momentos poblacionales.

Definición

Las estadísticas de orden: Sea \(X_1,X_2,\ldots,X_n\) que denota una muestra aleatoria de tamaño \(n\) proveniente de una fitribución acumulada \(F(\cdot)\). Enteonces \(Y_1{\leq}Y_2{\leq}\cdots{\leq}Y_n\) donde las \(Y_i\) sson las \(X_i\) ordenadas en orden creciente según sus magnitudes y son definidas como las estadísticas de orden correspondientes a la muestra aleatoria \(X_1,X_2,\ldots,X_n\).

Nosotros notamos que las \(Y_i\) son estadśiticas (ellas son función de la muestra aleatorais \(X_1,X_2,\ldots,X_n\)) y se encuentran oredenadas. A pesar de ser una muestra aleatoria en sí mismas, las estadsísticas de orden son claramanente no independientes, si \(Y_{j}{\geq}y\), enteonces \(Y_{j+1}{\geq}y\).

Nosotros veremos que la distribución, ambas marginal y conjunta, de als estadśiticas de orden. Nosotros hemos hallado ya la distribución marginal de \(Y_{1}=\min{\left[X_1,X_2,\ldots,X_n\right]}\) y \(Y_{1}=\max{\left[X_1,X_2,\ldots,X_n\right]}\). Ahora hallaremos la distribución marginal acumulad de una estadsítica de orden arbritratia.

Teorema 11

Seaa \(Y_{1}{\leq}Y_{2}{\leq}\cdots{\leq}Y_{n}\) representan las estadsíticas de orden provenienetes de una dsitribución acumjulada \(F(\cdot)\). La distribución acumulada marginal de \(Y_{\alpha}\), \(\alpha=1,2,\ldots,n\) es dada por

\[ F_{Y_\alpha}(y)=\sum_{j=\alpha}^{n}\binom{n}{j}\left[F(y)\right]^{j}\left[1-F(y)\right]^{n-j} \]

Prueba

Para \(y\) fijo, sea

\[ Z_i=\mathbb{I}_{(-\infty,y]}\left(X_i\right) \]

Enteonces

\[ \sum_{i=1}^{n}Z_i=\text{ el número de }X_i{\leq}y \]

Note que \(\sum_{i=1}^{n}Z_i\) tiene una dsitribución binomial con parametros \(n\) y \(F(y)\). Ahroa

\[ \begin{aligned} F_{Y_n}&=P\left[Y_\alpha{\leq}y\right]\\ &=P\left[\sum_{i=1}^{n}Z_i{>}\alpha\right]\\ &=\sum_{j=\alpha}^{n}\binom{n}{j}\left[F(y)\right]^{j}\left[1-F(y)\right]^{n-j} \end{aligned} \]

El paso clase en esta prueba es la equivalencia delos dos eventos \(\left\{Y_\alpha{\leq}y\right\}\) y \(\left\{Z_i{>}\alpha\right\}\). Si la \(\alpha\) - ésima estadsítica de orden es menor o igual a \(y\), enteonces seguramente el número de \(X_i\) menore o iguales a \(y\) es mayor o igual a \(\alpha\), recirprocamente.

Corolario

\[ \begin{aligned} F_{Y_n}(y)&=\sum_{j=n}^{n}\binom{n}{j}\left[F(y)\right]^{j}\left[1-F(y)\right]^{n-j}\\ &=\left[F(y)\right]^{n} \end{aligned} \]

\[ \begin{aligned} F_{Y_1}(y)&=\sum_{j=1}^{n}\binom{n}{j}\left[F(y)\right]^{j}\left[1-F(y)\right]^{n-j}\\ &=\left[F(y)\right]^{n} \end{aligned} \]

Prueba

Dada la función de distribución acumulativa (CDF) de una variable aleatoria \(Y\), denotada como \(F(y)\), la función de distribución acumulativa de la variable aleatoria \(Y_1\)​, definida como el mínimo de nn variables aleatorias independientes e idénticamente distribuidas (i.i.d.) \(Y\), se expresa como:

\[ F_{Y_1}(y)=P\left[\min(Y_1,Y_2,\ldots,Y_n){\leq}y\right] \]

Para que \(Y_1{\leq}y\), al menos uno de los \(Y_i\) debe ser menor o igual a \(y\) La probabilidad de que exactamente \(j\) de las \(n\) variables aleatorias sean menores o iguales a \(y\) es dada por la combinación de \(n\) en \(j\), que se denota como \(\binom{n}{j}\). La probabilidad de que todas las \(Y_i\) sean menores o iguales a \(y\) es \([F(y)]^j\), y la probabilidad de que las restantes \((n−j)\) sean mayores que \(y\) es \([1−F(y))]^{n−j}\).

La expresión general para la función de distribución acumulativa de \(Y_1\)​ se puede escribir como una suma sobre todas las posibles cantidades \(j\) de variables aleatorias menores o iguales a \(y\):

\[ F_{Y_1}(y)=\sum_{j=1}^{n}\binom{n}{j}\left[F(y)\right]^{j}\left[1-F(y)\right]^{n-j} \]

Ahora, queremos simplificar esta expresión. Observemos que si \(j=n\), entonces todos los \(Y_i\) son menores o iguales a \(y\), y la expresión se reduce a \([F(y)]^n\):

\[ \begin{aligned} F_{Y_1}(y)&=\sum_{j=1}^{n}\binom{n}{j}\left[F(y)\right]^{j}\left[1-F(y)\right]^{n-j}\\ &=\left[F(y)\right]^{n} \end{aligned} \]

El Teorema 11 da la distribución marginal de un estadístico de orden individual en terminos de la función de distribución acumulada \(F(\cdot)\). Debemos asumir que nuestra muestra aleatoria \(X_1,X_2,\ldots,X_n\) proviene de una densidad de probbabilidad con función \(f(\cdot)\); esto es, asumimos que las variables aleatorias \(X_i\) son continuas. Vemos que la densidad de \(Y_\alpha\), la cual, de hecho, podría se obtenida de \(F_{Y_\alpha}(y)=\sum_{j=\alpha}^{n}\binom{n}{j}\left[F(y)\right]^{j}\left[1-F(y)\right]^{n-j}\) derivando. Note que

\[ \begin{aligned} f_{Y_\alpha}(y)&=\lim_{{\Delta}y{\rightarrow}\infty}\frac{F_{Y_\alpha}(y+{\Delta}y)-F_{Y_\alpha}(y)}{{\Delta}y}\\ &=\lim_{{\Delta}y{\rightarrow}\infty}\frac{P[y<Y_\alpha{\leq}y+{\Delta}y]}{{\Delta}y}\\ &=\lim_{{\Delta}y{\rightarrow}\infty}\frac{P[(\alpha-1)\text{ de los }X_i{\leq}y;\text{ uno de los }X_i\text{ en }(y,y+{\Delta}y];(n-\alpha)\text{ de los }X_i{>}y+{\Delta}y]}{{\Delta}y}\\ &=\lim_{{\Delta}y{\rightarrow}\infty}\frac{n!}{(\alpha-1)!1!(n-\alpha)!}\frac{[F(y)]^{\alpha-1}[F(y+{\Delta}y)-F(y)][1-F(y+{\Delta}y)]^{n-\alpha}]}{{\Delta}y}\\ &=\lim_{{\Delta}y{\rightarrow}\infty}\frac{n!}{(\alpha-1)!1!(n-\alpha)!}[F(y)]^{\alpha-1}[1-F(y+{\Delta}y)]^{n-\alpha}]\frac{[F(y+{\Delta}y)-F(y)]}{{\Delta}y}\\ &=\frac{n!}{(\alpha-1)!1!(n-\alpha)!}[F(y)]^{\alpha-1}\lim_{{\Delta}y{\rightarrow}\infty}[1-F(y+{\Delta}y)]^{n-\alpha}]\frac{[F(y+{\Delta}y)-F(y)]}{{\Delta}y}\\ &=\frac{n!}{(\alpha-1)!1!(n-\alpha)!}[F(y)]^{\alpha-1}[1-F(y)]^{n-\alpha}]f(y) \end{aligned} \]

Nosotros tenemos que hacer uso sendible de la distribución multinomial. Similarmente, nosotros podemos derivar la densidad conjunta de \(Y_\alpha\) y \(Y_\beta\) para \(1{\leq}\alpha<\beta{\leq}n\)

\[ \begin{aligned} f_{Y_\alpha,Y_\beta}(x,y){\Delta}x{\Delta}y&{\approx}P\left[x{<}Y_\alpha{\leq}x+{\Delta}x;y{<}Y_\beta{\leq}y+{\Delta}y\right]\\ &{\approx}P\left[(\alpha-1)\text{ de los }X_i{\leq}x;\text{ uno de los}X_i\text{ en }(x,x+{\Delta}x];(\beta-\alpha-1)\text{de los}X_i{>}\text{ en }(x+{\Delta}x,y];\text{ uno de los }X_i\text{ en }(y,y+{\Delta}y];(n-\beta)\text{ de los }X_i{>}y+{\Delta}y\right]\\ &{\approx}\frac{n!}{(\alpha-1)!1!(\beta-\alpha-1)!1!(n-\beta)!}[F(y)]^{\alpha-1}[F(y)-F(x+{\Delta}x)]^{\beta-\alpha-1}[1-F(y+{\Delta}y)]^{n-\beta}]f(x){\Delta}xf(y){\Delta}y\\ \end{aligned} \]

Y entonces

\[ f_{Y_\alpha,Y_\beta}(x,y){\Delta}x{\Delta}y=\frac{n!}{(\alpha-1)!1!(\beta-\alpha-1)!1!(n-\beta)!}[F(y)]^{\alpha-1}[F(y)-F(x+{\Delta}x)]^{\beta-\alpha-1}[1-F(y+{\Delta}y)]^{n-\beta}]f(x)f(y)\text{ para }$x<y$ \]

y

\[ f_{Y_\alpha,Y_\beta}(x,y){\Delta}x{\Delta}y=0\text{ para }x{\geq}y \]

En general,

\[ \begin{aligned} f_{Y_1,Y_2.\ldots,Y_n}(y_1,y_2,\ldots,y_n)&=\lim_{{\Delta}y_i{\rightarrow}0}\frac{1}{\prod_{i=1}^{n}{\Delta}y_i}P\left[y_1{<}Y_1{\leq}y_1+{\Delta}y_1;y_2{<}Y_2{\leq}y_2+{\Delta}y_2;\cdots;y_n{<}Y_n{\leq}y_n+{\Delta}y_n\right]\\ &=\lim_{{\Delta}y_i{\rightarrow}0}\frac{1}{\prod_{i=1}^{n}{\Delta}y_i}P\left[\text{Uno de los }X_i\text{ en }(y_1,y_1+{\Delta}y_1];\text{Uno de los }X_i\text{ en }(y_2,y_2+{\Delta}y_2];\cdots;\text{Uno de los }X_i\text{ en }(y_n,y_n+{\Delta}y_n]\right]\\ &=\lim_{{\Delta}y_i{\rightarrow}0}\frac{n!}{\prod_{i=1}^{n}{\Delta}y_i}\left[F(y_1+{\Delta}y_1)-F(y_1)\right]\left[F(y_2+{\Delta}y_2)-F(y_2)\right]{\cdots}\left[F(y_n+{\Delta}y_n)-F(y_n)\right]\\ &={n!}f(y_1)f(y_2){\cdots}f(y_n)\text{ para }y_1<y_2<{\cdots}<y_n \end{aligned} \]

\[ f_{Y_1,Y_2.\ldots,Y_n}(y_1,y_2,\ldots,y_n)=0\text{ en otro caso.} \]

Nosotoros derivamos el siguiente teorema.

Teorema 12

Sea \(X_1,X_2,\ldots,X_n\) una muestra aleatoria proveniente de una función de densidad \(f(\cdot)\) con función de distribución acumulada \(F(\cdot)\). Sea \(Y_1{\leq}Y_2{\leq}\cdots{\leq}Y_n\) denotan las correspondientes estadísticas de orden; entonces

\[ \begin{aligned} f_{Y_\alpha}(y)&=\frac{n!}{(\alpha-1)!(n-\alpha)!}\left[F(y)\right]^{\alpha-1}\left[1-F(y)\right]^{n-\alpha}f(y) \end{aligned} \]

\[ \begin{aligned} f_{Y_\alpha,Y_\beta}(x,y)&=\frac{n!}{(\alpha-1)!(\beta-\alpha-1)!(n-\alpha)!}\left[F(x)\right]^{\alpha-1}\left[F(y)-F(x)\right]^{\beta-\alpha-1}\left[1-F(y)\right]^{n-\beta}f(x)f(y)\mathbb{I}_{(x,+\infty)}(y) \end{aligned} \]

\[ \begin{aligned} f_{Y_1,Y_2{\ldots}Y_n}(y_1,y_2,\ldots,y_n)&=\begin{cases} {n!}f(y_1)f(y_2){\cdots}f(y_n)\text{ para }y_1<y_2<{\cdots}<y_n\\ 0\text{ en otro caso.} \end{cases} \end{aligned} \]

Algún conjunto de densidades marginales puedes ser obtenidas desde la densidad conjunta \(f_{Y_1,Y_2{\ldots}Y_n}(y_1,y_2,\ldots,y_n)\) simplemente integrando sobre las demás variables.

Funciones de dsitribución de las estadśiticas de orden

Una posible función de las estadísticas de orden es su media aritmética, igual a

\[ \frac{1}{n}\sum_{j=1}^{n}Y_j \]

Note, sin embargo, que \(\frac{1}{n}\sum_{j=1}^{n}Y_j=\frac{1}{n}\sum_{i=1}^{n}X_i\), la medias muestral. Definimos ahora algunas otras funciones de las estadsíticas de orden.

Definición

Mediana muestal, rango muestral, y semirango muestral: Sea \(Y_1{\leq}Y_2{\leq}\cdots{\leq}Y_n\) que denotan las estadśiicas de orden de una muestra aleatoria \(X_1,X_2,\ldots,X_n\) provenientes de una densidad \(f(\cdot)\). La mediana muestral es definida la estadística de orden media y \(n\) es impar y el promedio de loas dos estadśiticas de orden medias si \(n\) es par. El rango muestral es definido como \(Y_n-Y_1\), y el rango medio es definido como \(\frac{Y_1+Y_n}{2}\)

Si el tamaño de muestra es impar, enteonces la distribución de la mediana muestral es dada por \(f_{Y_\alpha}(y)=\frac{n!}{(\alpha-1)!(n-\alpha)!}\left[F(y)\right]^{\alpha-1}\left[1-F(y)\right]^{n-\alpha}f(y)\); por ejemplo, si \(n=2k+1\), donde \(k\) es algún entero positivo, entonces \(Y_{k+1}\), corresponde a la mediana muestral y su distribución es \(f_{Y_\alpha}(y)=\frac{n!}{(\alpha-1)!(n-\alpha)!}\left[F(y)\right]^{\alpha-1}\left[1-F(y)\right]^{n-\alpha}f(y)\). Si el tamaño de muestra es par, digamos \(n=2k\), enteonces la mediana muestral es \(\frac{Y_1+Y_{k+1}}{2}\), la distribución puede ser obtenida por una transformación iniciando con la densidad conjunta de \(Y_k\) y \(Y_{k+1}\) es dada por \(f_{Y_\alpha,Y_\beta}(x,y)=\frac{n!}{(\alpha-1)!(\beta-\alpha-1)!(n-\alpha)!}\left[F(x)\right]^{\alpha-1}\left[F(y)-F(x)\right]^{\beta-\alpha-1}\left[1-F(y)\right]^{n-\beta}f(x)f(y)\mathbb{I}_{(x,+\infty)}(y)\).

Nosotros derivaremos ahora la distribución conjunta de el rango muestral y el semirango, a partír dle cual pueden ser obtenidas las marginales.

Por la ecuación \(f_{Y_\alpha,Y_\beta}(x,y)=\frac{n!}{(\alpha-1)!(\beta-\alpha-1)!(n-\alpha)!}\left[F(x)\right]^{\alpha-1}\left[F(y)-F(x)\right]^{\beta-\alpha-1}\left[1-F(y)\right]^{n-\beta}f(x)f(y)\mathbb{I}_{(x,+\infty)}(y)\) tenemos

\[ f_{Y_1,Y_n}=n(n-1)\left[F(y)-F(x)\right]^{n-2}f(x)f(y)\text{ para }x<y \]

Haciendo la transformación \(R=Y_n-Y_1\) y \(T=\frac{Y_1+Y_n}{2}\) o \(r=y-x\) y \(t=\frac{x+y}{2}\). Ahora \(x=t-\frac{r}{2}\) e \(y=t+\frac{r}{2}\); entonces

\[ \begin{aligned} J&=\begin{vmatrix} \frac{{\partial}}x{{\partial}r} & \frac{{\partial}x}{{\partial}t}\\ \frac{{\partial}y}{{\partial}r} & \frac{{\partial}y}{{\partial}t} \end{vmatrix}\\ &=\begin{vmatrix} -\frac{1}{2} & 1\\ +\frac{1}{2} & 1 \end{vmatrix}\\ &=-\frac{1}{2}{\cdot}1-\left[\frac{1}{2}{\cdot}1\right]\\ &=-\frac{1}{2}-\left[\frac{1}{2}\right]\\ &=-\frac{1}{2}-\frac{1}{2}\\ &=-1 \end{aligned} \]

y nosotros obtenemos el Teorema 13

Teorema 13

Si \(R\) es el rango muestral y \(T\) el semirango muestral proveniente de una fundión de densidad de probabilidad, entonces su distribución conjunta es dadda por

\[ f_{R,T}(r,t)=n(n-1)\left[F\left(t+\frac{r}{2}\right)-F\left(t-\frac{r}{2}\right)\right]^{n-2}f\left(t-\frac{r}{2}\right)f\left(t+\frac{r}{2}\right)\text{ para }r>0 \]

\[ f_R(r)=\int_{-\infty}^{+\infty}f_{R,T}(r,t)dt \]

y

\[ f_R(r)=\int_{-\infty}^{+\infty}f_{R,T}(r,t)dr \]

Ejemplos
  • Sea \(X_1,X_2,\ldots,X_n\) una muestra aleatoria de una distribución uniforme sobre \(\left(\mu-\sqrt{3}\sigma,\mu+\sqrt{3}\sigma\right)\). Aquí \(\mu\) es la media y \(\sigma^2\) e la varianda de la población muestreada.

\[ f(x)=\frac{1}{2\sqrt{3}\sigma}\mathbb{I}_{\left(\mu-\sqrt{3}\sigma,\mu+\sqrt{3}\sigma\right)}(x) \]

y

\[ \begin{aligned} F(x)&=\int_{-\infty}^{+\infty}\frac{1}{2\sqrt{3}\sigma}dt\\ &=\frac{1}{2\sqrt{3}\sigma}\int_{-\infty}^{+\infty}1dt\\ &=\frac{1}{2\sqrt{3}\sigma}t|_{\mu-\sqrt{3}\sigma}^{x}\mathbb{I}_{\left(\mu-\sqrt{3}\sigma,\mu+\sqrt{3}\sigma\right)}(x)+\mathbb{I}_{\left(\mu-\sqrt{3}\sigma,+\infty\right)}(x)\\ &=\frac{1}{2\sqrt{3}\sigma}\left[x-(\mu-\sqrt{3}\sigma)\right]\mathbb{I}_{\left(\mu-\sqrt{3}\sigma,\mu+\sqrt{3}\sigma\right)}(x)+\mathbb{I}_{\left(\mu-\sqrt{3}\sigma,+\infty\right)}(x)\\ &=\left[\frac{1}{2\sqrt{3}\sigma}x-\frac{\mu-\sqrt{3}\sigma}{2\sqrt{3}\sigma}\right]\mathbb{I}_{\left(\mu-\sqrt{3}\sigma,\mu+\sqrt{3}\sigma\right)}(x)+\mathbb{I}_{\left(\mu-\sqrt{3}\sigma,+\infty\right)}(x) \end{aligned} \]

Esta es la función de distribución acumulada \(F(x)\) para la distribución que has definido dentro del intervalo \((\mu−\sqrt{3}\sigma,\mu+\sqrt{3}\sigma)\). Fuera de este intervalo, la CDF es cero antes de \(\mu−\sqrt{3}\sigma\) y es uno después de \(\mu+\sqrt{3}\sigma\). La función indicadora \(\mathbb{I}_{\left(\mu-\sqrt{3}\sigma,\mu+\sqrt{3}\sigma\right)}(x)\) asegura que la densidad sea cero fuera de este intervalo.

\[ f_{R,T}(r,t)=\frac{n(n-1)}{\left(2\sqrt{3}\sigma\right)^{n}}r^{n-2}\mathbb{I}_{\left(\mu-\sqrt{3}\sigma+\frac{r}{2},\mu+\sqrt{3}\sigma-\frac{r}{2}\right)}(t)\mathbb{I}_{\left(0,2\sqrt{3}\sigma\right)}(r) \]

\[ \begin{aligned} f_{R,T}(r,t)&=n(n-1)\left[F\left(t+\frac{r}{2}\right)-F\left(t-\frac{r}{2}\right)\right]^{n-2}f\left(t-\frac{r}{2}\right)f\left(t+\frac{r}{2}\right)\\ &=n(n-1)\left[\frac{1}{2\sqrt{3}\sigma}\left(t+\frac{r}{2}\right)-\frac{\mu-\sqrt{3}\sigma}{2\sqrt{3}\sigma}-\frac{1}{2\sqrt{3}\sigma}\left(t-\frac{r}{2}\right)+\frac{\mu-\sqrt{3}\sigma}{2\sqrt{3}\sigma}\right]^{n-2} \frac{1}{2\sqrt{3}\sigma}\frac{1}{2\sqrt{3}\sigma}\mathbb{I}_{\left(\mu-\sqrt{3}\sigma+\frac{r}{2},\mu+\sqrt{3}\sigma-\frac{r}{2}\right)}(t)\mathbb{I}_{\left(0,2\sqrt{3}\sigma\right)}(r)\\ &=n(n-1)\left[\frac{1}{2\sqrt{3}\sigma}\left(t+\frac{r}{2}\right)-\frac{1}{2\sqrt{3}\sigma}\left(t-\frac{r}{2}\right)\right]^{n-2}\frac{1}{\left(2\sqrt{3}\sigma\right)^2}\mathbb{I}_{\left(\mu-\sqrt{3}\sigma+\frac{r}{2},\mu+\sqrt{3}\sigma-\frac{r}{2}\right)}(t)\mathbb{I}_{\left(0,2\sqrt{3}\sigma\right)}(r)\\ &=n(n-1)\left[\frac{1}{2\sqrt{3}\sigma}t+\frac{1}{2\sqrt{3}\sigma}\frac{r}{2}-\frac{1}{2\sqrt{3}\sigma}t+\frac{1}{2\sqrt{3}\sigma}\frac{r}{2}\right]^{n-2}\frac{1}{\left(2\sqrt{3}\sigma\right)^2}\mathbb{I}_{\left(\mu-\sqrt{3}\sigma+\frac{r}{2},\mu+\sqrt{3}\sigma-\frac{r}{2}\right)}(t)\mathbb{I}_{\left(0,2\sqrt{3}\sigma\right)}(r)\\ &=n(n-1)\left[\frac{1}{2\sqrt{3}\sigma}\frac{r}{2}+\frac{1}{2\sqrt{3}\sigma}\frac{r}{2}\right]^{n-2}\frac{t^2-\frac{r^2}{4}}{12\sigma^2}\mathbb{I}_{\left(\mu-\sqrt{3}\sigma+\frac{r}{2},\mu+\sqrt{3}\sigma-\frac{r}{2}\right)}(t)\mathbb{I}_{\left(0,2\sqrt{3}\sigma\right)}(r)\\ &=n(n-1)\left[\frac{1}{2\sqrt{3}\sigma}\left(\frac{r}{2}+\frac{r}{2}\right)\right]^{n-2}\frac{1}{\left(2\sqrt{3}\sigma\right)^2}\mathbb{I}_{\left(\mu-\sqrt{3}\sigma+\frac{r}{2},\mu+\sqrt{3}\sigma-\frac{r}{2}\right)}(t)\mathbb{I}_{\left(0,2\sqrt{3}\sigma\right)}(r)\\ &=n(n-1)\left[\frac{1}{2\sqrt{3}\sigma}r\right]^{n-2}\frac{1}{\left(2\sqrt{3}\sigma\right)^2}\mathbb{I}_{\left(\mu-\sqrt{3}\sigma+\frac{r}{2},\mu+\sqrt{3}\sigma-\frac{r}{2}\right)}(t)\mathbb{I}_{\left(0,2\sqrt{3}\sigma\right)}(r)\\ &=n(n-1)r^{n-2}\left[\frac{1}{2\sqrt{3}\sigma}\right]^{n-2}\frac{1}{\left(2\sqrt{3}\sigma\right)^2}\mathbb{I}_{\left(\mu-\sqrt{3}\sigma+\frac{r}{2},\mu+\sqrt{3}\sigma-\frac{r}{2}\right)}(t)\mathbb{I}_{\left(0,2\sqrt{3}\sigma\right)}(r)\\ &=n(n-1)r^{n-2}\left(2\sqrt{3}\sigma\right)^{2-n}\left(2\sqrt{3}\sigma\right)^{-2}\mathbb{I}_{\left(\mu-\sqrt{3}\sigma+\frac{r}{2},\mu+\sqrt{3}\sigma-\frac{r}{2}\right)}(t)\mathbb{I}_{\left(0,2\sqrt{3}\sigma\right)}(r)\\ &=n(n-1)r^{n-2}\left(2\sqrt{3}\sigma\right)^{-n}\mathbb{I}_{\left(\mu-\sqrt{3}\sigma+\frac{r}{2},\mu+\sqrt{3}\sigma-\frac{r}{2}\right)}(t)\mathbb{I}_{\left(0,2\sqrt{3}\sigma\right)}(r)\\ &=\frac{n(n-1)}{(2\sqrt{3}\sigma)^n}r^{n-2}\mathbb{I}_{\left(\mu-\sqrt{3}\sigma+\frac{r}{2},\mu+\sqrt{3}\sigma-\frac{r}{2}\right)}(t)\mathbb{I}_{\left(0,2\sqrt{3}\sigma\right)}(r) \end{aligned} \]

\[ \begin{aligned} f_R(r)&={\int}f_{R,T}(r,t)dt\\ &={\int}\frac{n(n-1)}{(2\sqrt{3}\sigma)^n}r^{n-2}dt\\ &=\frac{n(n-1)}{(2\sqrt{3}\sigma)^n}r^{n-2}t|_{\mu-\sqrt{3}\sigma+\frac{r}{2}}^{\mu+\sqrt{3}\sigma-\frac{r}{2}}\\ &=\frac{n(n-1)}{(2\sqrt{3}\sigma)^n}r^{n-2}\left(\mu+\sqrt{3}\sigma-\frac{r}{2}-\mu+\sqrt{3}\sigma-\frac{r}{2}\right)\\ &=\frac{n(n-1)}{(2\sqrt{3}\sigma)^n}r^{n-2}\left(2\sqrt{3}\sigma-r\right)\mathbb{I}_{\left(0,2\sqrt{3}\sigma\right)}(r) \end{aligned} \]

Notamos que \(f_R(r)\) es independiente de el parámetro \(\mu\)

$$ \[\begin{aligned} f_T(t)&={\int}f_{R,T}(r,t)dr\\ &={\int}_{0}^{\min{\left[2t-2\left(\mu-\sqrt{3}\sigma\right),2\left(\mu-\sqrt{3}\sigma\right)-2t\right]}}\frac{n(n-1)}{(2\sqrt{3}\sigma)^n}r^{n-2}dr{\cdot}\mathbb{I}_{\left(\mu-\sqrt{3}\sigma+\frac{r}{2},\mu+\sqrt{3}\sigma-\frac{r}{2}\right)}(t)\\ &=\frac{n(n-1)}{(2\sqrt{3}\sigma)^n}{\int}_{0}^{\min{\left[2t-2\left(\mu-\sqrt{3}\sigma\right),2\left(\mu-\sqrt{3}\sigma\right)-2t\right]}}r^{n-2}dr{\cdot}\mathbb{I}_{\left(\mu-\sqrt{3}\sigma+\frac{r}{2},\mu+\sqrt{3}\sigma-\frac{r}{2}\right)}(t)\\ &=\frac{n(n-1)}{(2\sqrt{3}\sigma)^n}\frac{r^{n-2+1}}{n-2+1}|_{0}^{\min{\left[2t-2\left(\mu-\sqrt{3}\sigma\right),2\left(\mu-\sqrt{3}\sigma\right)-2t\right]}}{\cdot}\mathbb{I}_{\left(\mu-\sqrt{3}\sigma+\frac{r}{2},\mu+\sqrt{3}\sigma-\frac{r}{2}\right)}(t)\\ &=\frac{n(n-1)}{(2\sqrt{3}\sigma)^n}\frac{r^{n-1}}{n-1}|_{0}^{\min{\left[2t-2\left(\mu-\sqrt{3}\sigma\right),2\left(\mu-\sqrt{3}\sigma\right)-2t\right]}}{\cdot}\mathbb{I}_{\left(\mu-\sqrt{3}\sigma+\frac{r}{2},\mu+\sqrt{3}\sigma-\frac{r}{2}\right)}(t)\\ &=\frac{n}{(2\sqrt{3}\sigma)^n}r^{n-1}|_{0}^{\min{\left[2t-2\left(\mu-\sqrt{3}\sigma\right),2\left(\mu-\sqrt{3}\sigma\right)-2t\right]}}{\cdot}\mathbb{I}_{\left(\mu-\sqrt{3}\sigma+\frac{r}{2},\mu+\sqrt{3}\sigma-\frac{r}{2}\right)}(t)\\ &=\frac{n}{(2\sqrt{3}\sigma)^n}\left[2\left(\mu-\sqrt{3}\sigma\right)-2t\right]^{n-1}{\cdot}\mathbb{I}_{\left(\mu-\sqrt{3}\sigma+\frac{r}{2},\mu+\sqrt{3}\sigma-\frac{r}{2}\right)}(t)-\frac{n}{(2\sqrt{3}\sigma)^n}\left[2t-2\left(\mu-\sqrt{3}\sigma\right)\right]^{n-1}{\cdot}\mathbb{I}_{\left(\mu-\sqrt{3}\sigma+\frac{r}{2},\mu+\sqrt{3}\sigma-\frac{r}{2}\right)}(t)\\ &=\frac{n}{2\sqrt{3}\sigma}\left[2\left(\mu-\sqrt{3}\sigma\right)\frac{1}{2\sqrt{3}\sigma}-2t\frac{1}{2\sqrt{3}\sigma}\right]^{n-1}{\cdot}\mathbb{I}_{\left(\mu-\sqrt{3}\sigma+\frac{r}{2},\mu+\sqrt{3}\sigma-\frac{r}{2}\right)}(t)-\frac{n}{2\sqrt{3}\sigma}\left[2t\frac{1}{2\sqrt{3}\sigma}-2\left(\mu-\sqrt{3}\sigma\right)\frac{1}{2\sqrt{3}\sigma}\right]^{n-1}{\cdot}\mathbb{I}_{\left(\mu-\sqrt{3}\sigma+\frac{r}{2},\mu+\sqrt{3}\sigma-\frac{r}{2}\right)}(t)\\ &=\frac{n}{2\sqrt{3}\sigma}\left[\left(\mu-\sqrt{3}\sigma\right)\frac{1}{\sqrt{3}\sigma}-t\frac{1}{\sqrt{3}\sigma}\right]^{n-1}{\cdot}\mathbb{I}_{\left(\mu-\sqrt{3}\sigma+\frac{r}{2},\mu+\sqrt{3}\sigma-\frac{r}{2}\right)}(t)-\frac{n}{2\sqrt{3}\sigma}\left[t\frac{1}{\sqrt{3}\sigma}-\left(\mu-\sqrt{3}\sigma\right)\frac{1}{\sqrt{3}\sigma}\right]^{n-1}{\cdot}\mathbb{I}_{\left(\mu-\sqrt{3}\sigma+\frac{r}{2},\mu+\sqrt{3}\sigma-\frac{r}{2}\right)}(t)\\ &=\frac{n}{2\sqrt{3}\sigma}\left[\left(\mu-t\right)\frac{1}{\sqrt{3}\sigma}+1\right]^{n-1}{\cdot}\mathbb{I}_{\left(\mu-\sqrt{3}\sigma+\frac{r}{2},\mu+\sqrt{3}\sigma-\frac{r}{2}\right)}(t)-\frac{n}{2\sqrt{3}\sigma}\left[1-\left(\mu-t\right)\frac{1}{\sqrt{3}\sigma}\right]^{n-1}{\cdot}\mathbb{I}_{\left(\mu-\sqrt{3}\sigma+\frac{r}{2},\mu+\sqrt{3}\sigma-\frac{r}{2}\right)}(t)\\ &=\frac{n}{2\sqrt{3}\sigma}\left[\frac{\mu-t}{\sqrt{3}\sigma}+1\right]^{n-1}{\cdot}\mathbb{I}_{\left(\mu-\sqrt{3}\sigma+\frac{r}{2},\mu+\sqrt{3}\sigma-\frac{r}{2}\right)}(t)-\frac{n}{2\sqrt{3}\sigma}\left[1-\frac{\mu-t}{\sqrt{3}\sigma}\right]^{n-1}{\cdot}\mathbb{I}_{\left(\mu-\sqrt{3}\sigma+\frac{r}{2},\mu+\sqrt{3}\sigma-\frac{r}{2}\right)}(t)\\ &=\frac{n}{2\sqrt{3}\sigma}\left[\frac{t-\mu}{\sqrt{3}\sigma}+1\right]^{n-1}{\cdot}\mathbb{I}_{(-1,0)}\left(\frac{t-\mu}{\sqrt{3}\sigma}\right)+\frac{n}{2\sqrt{3}\sigma}\left[1-\frac{t-\mu}{\sqrt{3}\sigma}\right]^{n-1}{\cdot}\mathbb{I}_{[0,1)}\left(\frac{t-\mu}{\sqrt{3}\sigma}\right) \end{aligned}\]

$$

A partir de la ecuación \(f_R(r)=\frac{n(n-1)}{(2\sqrt{3}\sigma)^n}r^{n-2}\left(2\sqrt{3}\sigma-r\right)\mathbb{I}_{\left(0,2\sqrt{3}\sigma\right)}(r)\) nosotros podemos derivar \(E[R]=2\sqrt{3}\sigma\frac{n-1}{n+1}\)

Ciertas funciones de las estadísticas de orden son de nevo estadísticas y pueden ser usadas para hacer inferencias estadísticas.

Distribuciones asintóticas

Teorema 14

Estimación puntual paramétrica

Introducción y resumen

El problema de estimación, como debemos considerar en adelante, e la perdida definida como sigue: Asuma que algunas caracterísicas de los elementos de una población pueden ser representados por una variable aleatoria \(X\) cuya densidad es \(f_X(\cdot;\theta)=f(\cdot;\theta)\) donde la forma de la densidad es asumida conocida excepto que esta contiene un parámetro desconocido \(\theta\) (si \(\theta\) fuera conocido, la función de densidad podría se completamente específicada, y allí podría se no necesario hacer inferencias acerca de esto). Además asuma que los valores \(x_1,x_2,\ldots,x_n\) de una muestra aleatoria \(X_1,X_2,\ldots,X_n\) proveniente de una \(f(\cdot;\theta)\) observada. Sobre las bases de los valores observados de la muestra \(x_1,x_2,\ldots,x_n\) se desea estimar el valor del parámetro desconocido \(\theta\) o el valor de alguna función, digamos \(\tau(\theta)\) del parametro desconocido. Esta estimación puede ser hecha en dos formas. La primera, llamada estimación puntual, es dar un valor de alguan estadśitica, digamos \(\textit{t}(X_1,Z_2,\ldots,X_n)\), representa, o estimada, la desconocida \(\tau(\theta)\); tal como una estadśitica \(\textit{t}(X_1,Z_2,\ldots,X_n)\), es llamada estimador puntual. La segunda, llamada estimaicón por intervalo, es para definir dos estadísticas, digamos \(\textit{t}_1(X_1,Z_2,\ldots,X_n)\) y \(\textit{t}_2(X_1,Z_2,\ldots,X_n)\) constituye un intervalo para el cual la probabilidad puede ser determinada que esta contiene el desconocido \(\tau(\theta)\). Por ejemplo, si \(f(\cdot;\theta)\) es la densidad normal, esto es,

\[ \begin{aligned} f(x;\theta)&=f(x;\mu,\theta)\\ &=\phi_{\mu,\sigma^2}(x)\\ &=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{1}{2}\left(\frac{x-\mu}{\sigma}\right)^2} \end{aligned} \]

donde el parametro \(\theta\) es (\(\mu,\sigma\)), y si se desea estimar la media, esto es, \(\tau(\theta)=\mu\), entonces la estadśitica \(\overline{X}=\frac{1}{n}\sum_{i=1}^{n}X_i\) es un posible estimador puntual de \(\tau(\theta)=\mu\), y \(\left(\overline{X}-2\sqrt{\frac{S^2}{n}},\overline{X}+2\sqrt{\frac{S^2}{n}}\right)\) es un estimador por intervalo posible de \(\tau(\theta)=\mu\). Recuerdese que \(S^2=\frac{1}{n-1}\sum_{i=1}^{n}\left(X_i-\overline{X}\right)^2\).

La estimacón puntual admite dos problemas; el primero, el dispositivo algumo significa la pbtención de una estadsítica para usar como un estimador; el segundo, selecionar creiterio y técnicas, para definir y hallar un estimador “mejor” de entre los posibles estimadores. Muchos métodos de hallar estimadores. Uno de esetos, y probablemente el más importante, es el método de máxima verosimilitud. Muchos propiedades “óptimas” en que un estimador o secuencia de estimadores puede ser propuesto. Esto incluye cercanía, sesgo y varianza, esficiencia y consistencia. Las funciones de perdid y riesgo, elementos escenciales en la teoría de la desición, son definidas como posibles herramientas en mejoramiento de la bondad de ajuste de los estimadores.

Métodos de hallar estimadores

Asuma que \(X_1,X_2,ldots,X_n\) es una muestra aleatoria de una densidad \(f(\cdot;\theta)\); donde la forma de la densidad es conocida pero los parametos son desconocidos. Además asuma que \(\theta\) es una vector de numeros reales, digamos \(\theta=\left(\theta_1,\theta_2,\ldots,\theta_k\right)\) (comúnmente K es la unidad). Nosotros algunas veces consideramos que \(\theta_1,\theta_2,\ldots,\theta_k\) son \(k\) parametros. Nosotros deberemos llamar \(\Theta\), al espacio de parametros, denotando el conjunto de valores posibles que el parametro \(\theta\) puede asumir. El objetivo es halla estadśiticas, funcíones de las observaciones \(X_1,X_2,\ldots,X_n\), a ser usados como estimadores de \(\theta_h\), \(j=1,2,\ldots,k\). O, más generalmente, nuestro objetivo es halla estadsíticas a ser usadas como estimadores de ciertas funciones, digamos \(\tau_1(\theta),\tau_2(\theta),\ldots,\tau_r(\theta)\), de \(\theta=\left(\theta_1,\theta_2,\ldots,\theta_k\right)\).

Definición

Estimador: Alguna estadísticas (funcíón conocida de las variables aleatorias observables que en sí misma es una variable aleatoria) estos valores son usados pra estimar \(\tau(\theta)\), donde \(\tau\) es alguna fución de el parametro \(\theta\), es definida a ser un estimador de \(\tau(\theta)\).

Un estimados es siempre una estadística la cual es ambas cosas una variables aleatorai y una fución. Por ejemplo, suponga \(X_1,X_2,\ldots,X_n\) es una muestra aleatoria de una densidad \(f(\cdot;\theta)\) y esta se desea estimar \(\tau(\theta)\), donde \(\tau(\cdot)\) es alguna función de \(\theta\). Sea \(\textit{t}(X_1,X_2,\ldots,X_n)\) un estimador de \(\tau(\theta)\). El estimador \(\textit{t}(X_1,X_2,\ldots,X_n)\) puedes ser pendado en dos caminos relativos: primero, como la variable aleatorai, digamos \(T\), donde \(T=\textit{t}(X_1,X_2,\ldots,X_n)\), y, segudno, como la función \(\textit{t}(\cdot,\cdot,\ldots,\cdot)\). Naturalmente, uno necesita específicar la función \(\textit{t}(\cdot,\cdot,\ldots,\cdot)\) antes que la varaible aleatoria \(T=\textit{t}(X_1,X_2,\ldots,X_n)\) sea definida. Tenemos tres tipos de t’s: la mayúscula latina, la cual representa la variable aleatoria \(\textit{t}(X_1,X_2,\ldots,X_n)\), la pequeña letra cursiva \(\textit{t}\), la cual representa la función \(\textit{t}(\cdot,\cdot,\ldots,\cdot)\), y la pequeña letra latina \(t\), la cual represnta a una valor de \(T\); esto es, \(t=\textit{t}(\cdot,\cdot,\ldots,\cdot)\). Adoptaremos la convención de llamar la estadística (o variable aleatoria) esto es usado como un estimados un “estimador” y llamando un valor que la estadística tome en un “estimado”. Tal palabra “estimador” se usa para la función, y la palabra “estimado” se usa para un valor de la función; por ejemplo \(\overline{X}=\frac{1}{n}\sum_{i=1}^{n}X_i\) es un esetimador de la media \(\mu\), y \(\overline{x}_{n}\) es un estimado de \(\mu\). Aquí \(\overline{X}\), \(t\) es \(\overline{x}_{n}\), y \(\textit{t}(\cdot,\cdot,\ldots,\cdot)\) es la función definida como la sumatoria de los argumentos y enteonces dividirla por \(n\)

La notación en la estimación que es ampliamente usada es como sigue: \(\widehat{\theta}\) es usado para denotar una estimación de \(\theta\), y, mas generalmente, \(\left(\widehat{\theta}_1,\widehat{\theta}_2,\ldots,\widehat{\theta}_k\right)\) un vector de estimaciones del vector \(\left(\theta_1,\theta_2,\ldots,\theta_k\right)\) donde \(\widehat{\theta}_j\) estima \(\theta_j\), \(j=1,2,\ldots,k\). Si \(\widehat{\theta}\) es una estimación de \(\theta\), enteonces \(\widehat{\Theta}\) es el correspondiente estimador de \(\theta\); y si la discución requeire que la función que define ambos \(\widehat{\theta}\) y \(\widehat{\Theta}\) son específicados, enteonces esto puede ser denotado por una pqueña letra qriega itálica, esto es, \(\widehat{\Theta}=\widehat{\mathit{\theta}}(X_1,X_2,\ldots,X_n)\).

Cuadno hablamos de estimaciones \(\mathit{\theta}\), nosotros hablasmo de estimadciones de valores fijos y aún desconocidos que \(\theta\) toma. Esto es, asumimos que la muestra aleatoria \(X_1,X_2,\ldots,X_n\) proviene de una densidad \(f(\cdot;\theta)\), donde \(\theta\) es desconocido pero fijo. Nuestro objetivo es, después mirando en los valores de la muestra aleaatoria, la estimación de el parametro desconocido \(\theta\). Y entonces hablamos de estimaciones \(\tau(\theta)\), hablamos de estimaciones del valor \(\tau(\theta)\) que la función conocida \(\tau(\cdot)\) toma para el valor desconocido pero fijo \(\theta\).

Métodos de los momentos

Sea \(f(\cdot;\theta_1,\theta_2,\ldots,\theta_k)\) una densidad de una variable aleatoria \(X\) la cual tiene \(k\) parámetros \(\theta_1,\theta_2,\ldots,\theta_k\). Como antes sea \(\mu_r^{'}\) denota el \(r\) ésimo momento alrededor de \(0\); esto es, \(\mu_r^{'}=E[X^r]\) En general \(\mu_r^{'}\) deberan ser funciones conocidas de los \(k\) parámetros \(\theta_1,\theta_2,\ldots,\theta_k\). denotando esto por la escritura de \(\mu_r^{'}=\mu_r^{'}(\theta_1,\theta_2,\ldots,\theta_k)\). Sea \(X_1,X_2,\ldots,X_n\) una muestra aleatoria proveniente de la densidad \(f(\cdot;\theta_1,\theta_2,\ldots,\theta_k)\) y, como antes, sea \(M_j^{'}\) el \(j\) - ésimo momento muestral; esto es,

\[ M_j^{'}=\frac{1}{n}\sum_{i=1}^{n}X_{i}^{j} \]

Para las \(k\) ecuaciones

\[ M_j^{'}=\mu_r^{'}\left(\theta_1,\theta_2,\ldots,\theta_k\right)\text{, }j=1,\ldots,k \]

en las \(k\) variables \(\theta_1,\theta_2,\ldots,\theta_k\), sea \(\Theta_1,\Theta_2,\ldots,\Theta_k\) sus soluciones (asumimos que aquí hay una única solución). Digamos que el estimador \(\left(\Theta_1,\Theta_2,\ldots,\Theta_k\right)\), donde \(\widehat{\theta}_j\) estima \(\theta_j\), es el estimador de \(\left(\theta_1,\theta_2,\ldots,\theta_k\right)\) obtenido por el método de los momentos. El estimador fue obtenido reemplazando los momentos poblacionales pos los momentos muestrales. Algunos ejemplos abajo

Ejemplo

  • Sea \(X_1,X_2,\ldots,X_n\) una muestra aleatoria proveniente de una distribución normal con media \(\mu\) y varianza \(\sigma^2\). Sea \(\left(\theta_1,\theta_2\right)=(\mu,\sigma)\). Estimar los parametros \(\mu\) y \(sigma\) por el método de los momentos. REcuerde que \(\sigma^2=\mu_2^{'}-\left(\mu_2^{'}\right)^2\) y \(\mu=\mu_1^{'}\). las ecuaciones del métodos de los momentos se transforman

\[ \begin{aligned} M_1^{'}&=\mu_1^{'}\\ &=\mu_1^{'}(\mu,\sigma)\\ &=\mu\\ M_2^{'}&=\mu_2^{'}\\ &=\mu_2^{'}(\mu,\sigma)\\ &=\sigma^2+\mu^2 \end{aligned} \]

y su solución es la siguiente: El estimador por el método de los momentos de \(\mu\) es \(M_1^{'}=\overline{X}\), y el estimados por el métodos del os momentos de \(\sigma\) es \(\sqrt{M_2^{'}-\overline{X}^2}=\sqrt{\frac{1}{n}\sum_{i=1}^{n}X_i^2-\overline{X}^2}=\sqrt{\frac{1}{n}\sum_{i=1}^{n}X_i^2-\left(\frac{1}{n}\sum_{i=1}^{n}X_i\right)^2}=\sqrt{\frac{1}{n}\sum_{i=1}^{n}\left(X_i-\overline{X}\right)^2}\). Note que el estimador por el métodos de los momentos de \(\sigma\) dado no es \(\sqrt{S^2}\)

\[ \begin{aligned} M_1^{'}&=\mu_1^{'}\\ &=\mu_1^{'}(\lambda)\\ &=\lambda \end{aligned} \]

Entonces el estimador por el métodos de los momentos de \(\lambda\) es \(M_1^{'}=\overline{X}\), lo cual indica que el estimador de la media porblacional \(\lambda\) es la media muestral \(\overline{X}\)

  • Sea \(X_1,X_2,\ldots,X_n\) una muestra aleatoria proveniente de una distribución exponencial negativa con densidad \(f(x;\theta)={\theta}e^{-{\theta}x}\mathbb{I}_{(0,+\infty)}(x)\). Estimar \(\theta\). La ecuación por el método de los momentos es

\[ \begin{aligned} M_1^{'}&=\mu_1^{'}\\ &=\mu_1^{'}(\theta)\\ &=\frac{1}{\theta} \end{aligned} \]

Entonces el estimador por el método de los momentos es \(\theta\) es \(\frac{1}{M_1^{'}}=\frac{1}{\overline{X}}\)

  • Sea \(X_1,X_2,\ldots,X_n\) una muestra aleatoria proveniente de una distribución uniforme sobre \(\left(\mu-\sqrt{3}\sigma,\mu+\sqrt{3}\sigma\right)\). Aquí son dos los parametros desconocicos; la media y la desviación estándar. Las ecuaciones por el método de los momentos son:

\[ \begin{aligned} M_1^{'}&=\mu_1^{'}\\ &=\mu_1^{'}(\mu,\sigma)\\ &=\mu\\ M_2^{'}&=\mu_2^{'}\\ &=\mu_2^{'}(\mu,\sigma)\\ &=\sigma^2+\mu^2 \end{aligned} \]

Entonces los estimadores por el método de los momentos son \(\overline{X}\) para \(\mu\) y

\[ \begin{aligned} \sqrt{\frac{1}{n}\sum_{i=1}^{n}\left(X_i-\overline{X}\right)^2}&=\sqrt{\frac{1}{n}\sum_{i=1}^{n}\left(X_i^2-2X_i\overline{X}+\overline{X}^2\right)}\\ &=\sqrt{\frac{1}{n}\left(\sum_{i=1}^{n}X_i^2-\sum_{i=1}^{n}2X_i\overline{X}+\sum_{i=1}^{n}\overline{X}^2\right)}\\ &=\sqrt{\frac{1}{n}\left(\sum_{i=1}^{n}X_i^2-2\overline{X}\sum_{i=1}^{n}X_i+{n}\overline{X}^2\right)}\\ &=\sqrt{\frac{1}{n}\left(\sum_{i=1}^{n}X_i^2-2\overline{X}\frac{n}{n}\sum_{i=1}^{n}X_i+{n}\overline{X}^2\right)}\\ &=\sqrt{\frac{1}{n}\left(\sum_{i=1}^{n}X_i^2-2{n}\overline{X}\frac{\sum_{i=1}^{n}X_i}{n}+{n}\overline{X}^2\right)}\\ &=\sqrt{\frac{1}{n}\left(\sum_{i=1}^{n}X_i^2-2{n}\overline{X}\overline{X}+{n}\overline{X}^2\right)}\\ &=\sqrt{\frac{1}{n}\left(\sum_{i=1}^{n}X_i^2-2{n}\overline{X}^2+{n}\overline{X}^2\right)}\\ &=\sqrt{\frac{1}{n}\left(\sum_{i=1}^{n}X_i^2-{n}\overline{X}^2\right)}\\ &=\sqrt{\frac{1}{n}\sum_{i=1}^{n}X_i^2-\frac{1}{n}{n}\overline{X}^2}\\ &=\sqrt{\frac{1}{n}\sum_{i=1}^{n}X_i^2-\overline{X}^2}\\ &=\sqrt{\frac{1}{n}\sum_{i=1}^{n}X_i^2-\left(\frac{1}{n}\sum_{i=1}^{n}X_i\right)^2}\\ \end{aligned} \]

Para \(\sigma\). Notese que hay mejores estimadores de \(\mu\) y \(\sigma\) para esta distribución.

Los estimadores por el método de los momentos no es únicamente definido. Las ecuaciones por el método de los momentos dados en \(M_j^{'}=\mu_r^{'}\left(\theta_1,\theta_2,\ldots,\theta_k\right)\text{, }j=1,\ldots,k\) son obtenidos usando los primeros \(k\) momentos brutos. Los momentos centrales (más allá que los momentos brutos) podrían también ser usados pra obtener las ecuaciones las cuales podrían ser solución y también producir estimadores que podrían ser llamados estimadores por el método de los momentos. Tamboién, los momentos más que otros los primeros \(k\) podrían ser usados para obtener estimadores que podría nser llamados estimadores por el método de los momentos.

Si, en lugar de estimar \(\left(\theta_1,\theta_2,\ldots,\theta_k\right)\), por el método de estimación de los momentos, digamos, \(\tau_1\left(\theta_1,\theta_2,\ldots,\theta_k\right),\tau_2\left(\theta_1,\theta_2,\ldots,\theta_k\right),\ldots,\tau_r\left(\theta_1,\theta_2,\ldots,\theta_k\right)\) son deseados, ellos pueden ser obtenidos en muchas formas. Un camino podría ser primero estimar por el método de los momentos, digamos \(\widehat{\theta}_1,\widehat{\theta}_2,\ldots,\widehat{\theta}_k\) de \(\theta_1,\theta_2,\ldots,\theta_k\) y entonces usar \(\tau_j\left(\widehat{\theta}_1,\widehat{\theta}_2,\ldots,\widehat{\theta}_k\right)\) como un esitmado de \(\tau_j\left(\theta_1,\theta_2,\ldots,\theta_k\right)\) para \(j=1,2\ldots,r\). Otro camipo podría ser formar las siguientes ecuaciones

\[ M_1^{'}=\mu_1^{'}\left(\tau_1,\tau_2,\ldots,\tau_r\right)\text{ para }j=1,2,\ldots,r \]

y resolverlas para \(\tau_1,\tau_2,\ldots,\tau_r\). Los estimadores obtenidos usando algún camino llamado estimador por el método de los momentos y puede no ser el mismo en ambos casos.

Máxima verosimilitud

Para intorducier el métod de máxima verosimilitud, considere un problema de estimación muy simples. Suponga que una urna contiene un numedo de bolas negras y un número de bolas blancas, y suponga que es conocido el cociente de los números y es de 3 a 1 pero lo que es desconocido es cuales bolas las blancas o las negras son más numerosas. Esto es, la probabilidad de una bola negra es alguno de los dos so \(\frac{1}{4}\) o \(\frac{3}{4}\). Si \(n\) bolas son obtenidas con reemplazamiento de la urna, la distribución de \(X\), el número de bolas negras, es dado por la distribución binomial.

\[ f(x;p)=\binom{n}{x}p^x(1-p)^{n-x}\text{ para }j=0,1,\ldots,n \]

donde \(p\) es la probabilidad de obtener una bola negra. Aquí \(p=\frac{1}{4}\) o \(p=\frac{3}{4}\).

Nosotros debemos obtener una muestra de tres volas, esto es, \(n=3\), con reemplazamiento e intentar estimar el parámetro desconocido \(p\) de la distribución. El problema de estimacioń es particularmente simple en este caso debido a que tenemos solamente que hacer una elección de entre dos números \(0.25\) o \(0.75\). Anticipando los resultados de la muestra obtenida. Las posibles salida y sus probabilidades son dadas abajo:

Salida: x 0 1 2 3
\(f\left(x;\frac{3}{4}\right)\) \(\frac{1}{64}\) \(\frac{9}{64}\) \(\frac{27}{64}\) \(\frac{27}{64}\)
\(f\left(x;\frac{1}{4}\right)\) \(\frac{27}{64}\) \(\frac{27}{64}\) \(\frac{9}{64}\) \(\frac{1}{64}\)

En el presente ejemplo, si nosotros hallamos \(x=0\) en una muestra de \(3\); la esimación es \(0.25\) para \(p\) podría ser preferida sobre \(0.75\) poque la probabilidad \(\frad{27}{64}\) es mas grande que \(\frac{1}{64}\), es decir, debido a que una muestra \(x=0\) es más verosimil (en el sentido de tener una probabilidad más alta) para alcanzar a partir de una población con \(p=\frac{1}{4}\) que una con \(p=\frac{3}{4}\). Y en general debemos estimar \(p\) por \(0.25\) cuando \(x=0\) o \(1\) y por \(0.75\) cuando \(x=2\) o \(x=3\). El estimados puede ser definido como

\[ \begin{aligned} \widehat{p}&=\widehat{p}(x)\\ &=\begin{cases} 0.25\text{ para }x=0,1\\ 0.75\text{ para }x=2,3 \end{cases} \end{aligned} \]

El estimador ta lque selecciona para cada posible \(x\) el valor de \(p\), sigamos \(\widehat{p}\), tal que

\[ f(x;\widehat{p}){>}f(x;p^{'}) \]

donde \(p^{'}\) es el valor alternativo de \(p\)

Más generalmente, en muchos valores alternativos de \(p\) posibles, debemos razonablemente proceder en la misma manera. Tal que nosotros hallamos \(x=6\) en una muestra de tamaño \(25\) proveniente de una distribución binomial, podríamos sustituir todos los posibles valores de \(p\) en la expresión

\[ \begin{aligned} f(6;p)&=\binom{25}{6}p^6(1-p)^{19}\text{ para }0{\leq}p{\leq}1 \end{aligned} \]

y elegir como noestro estimados el valor de \(p\) para el cual es maximizada \(f(6;p)\). Para todos los posibles valores dados de \(p\) podríasmo hallar nuestro estimado de \(\frac{6}{25}\). La posisión de éste máximo valor puede ser hallada poniendo la derivada de la función definida como \(f(6;p)=\binom{25}{6}p^5(1-p)^{19}\text{ para }0{\leq}p{\leq}1\) con respecto a \(p\) igual a \(0\) y resolviendo la ecuación para \(p\). Tal que

\[ \begin{aligned} \frac{{\partial}}{{\partial}p}f(6;p)&=\frac{{\partial}}{{\partial}p}\binom{25}{6}p^6(1-p)^{19}\text{ para }0{\leq}p{\leq}1\\ &=\binom{25}{6}\frac{{\partial}}{{\partial}p}\left[p^6(1-p)^{19}\right]\\ &=\binom{25}{6}\left[\frac{{\partial}}{{\partial}p}p^{6}(1-p)^{19}+p^6\frac{{\partial}}{{\partial}p}(1-p)^{19}\right]\\ &=\binom{25}{6}\left[6p^{6-1}(1-p)^{19}+p^{6}19(1-p)^{19-1}(1-p)\right]\\ &=\binom{25}{6}6p^{5}(1-p)^{19}+p^{6}19(1-p)^{18}(-1)\\ &=\binom{25}{6}6p^{5}(1-p)^{19}-19p^{6}(1-p)^{18}\\ &=\binom{25}{6}p^{5}(1-p)^{18}\left[6(1-p)-19p\right]\\ &=\binom{25}{6}p^{5}(1-p)^{18}\left[6-6p-19p\right]\\ &=\binom{25}{6}p^{5}(1-p)^{18}\frac{25}{25}\left(6-25p\right)\\ &=\binom{25}{6}p^{5}(1-p)^{18}25\left(\frac{6}{25}-p\right) \end{aligned} \]

e igualando a cero y resolviendo para \(p\), hallamos que \(p\) igual a cero, uno y seis sobre veinticinco son las raices.

\[ \begin{aligned} \frac{{\partial}^2}{{\partial}p^2}f(6;p)&=\frac{{\partial}}{{\partial}p}\left[\binom{25}{6}p^{5}(1-p)^{18}25\left(\frac{6}{25}-p\right)\right]\\ &=\binom{25}{6}5p^{5-1}(1-p)^{18}25\left(\frac{6}{25}-p\right)+\binom{25}{6}p^{5}{\cdot}18(1-p)^{18-1}(-1)25\left(\frac{6}{25}-p\right)+\binom{25}{6}p^{5}(1-p)^{18}25\left(-1\right)\\ &=\binom{25}{6}25{\cdot}5p^{4}(1-p)^{18}\left(\frac{6}{25}-p\right)-\binom{25}{6}25{\cdot}18p^{5}(1-p)^{17}\left(\frac{6}{25}-p\right)-\binom{25}{6}25p^{5}(1-p)^{18}\\ &=\binom{25}{6}\left[25{\cdot}5p^{4}(1-p)^{18}\left(\frac{6}{25}-p\right)-25{\cdot}18p^{5}(1-p)^{17}\left(\frac{6}{25}-p\right)-25p^{5}(1-p)^{18}\right]\\ &=\binom{25}{6}25\left[5p^{4}(1-p)^{18}\left(\frac{6}{25}-p\right)-18p^{5}(1-p)^{17}\left(\frac{6}{25}-p\right)-p^{5}(1-p)^{18}\right]\\ &=\binom{25}{6}25p^{4}\left[5(1-p)^{18}\left(\frac{6}{25}-p\right)-18p(1-p)^{17}\left(\frac{6}{25}-p\right)-p(1-p)^{18}\right]\\ &=\binom{25}{6}25p^{4}(1-p)^{17}\left[5(1-p)\left(\frac{6}{25}-p\right)-18p\left(\frac{6}{25}-p\right)-(1-p)\right]\\ &=\binom{25}{6}25p^{4}(1-p)^{17}\left[(1-p)\left(\frac{6}{5}-5p-1\right)-18p\left(\frac{6}{25}-p\right)\right]\\ &=\binom{25}{6}25p^{4}(1-p)^{17}\left[(1-p)\left(\frac{6}{5}-5p-\frac{5}{5}\right)-18p\left(\frac{6}{25}-p\right)\right]\\ &=\binom{25}{6}25p^{4}(1-p)^{17}\left[(1-p)\left(\frac{1}{5}-5p\right)-18p\left(\frac{6}{25}-p\right)\right]\\ &=\binom{25}{6}25p^{4}(1-p)^{17}\left[\left(\frac{1}{5}-5p\right)-p\left(\frac{1}{5}-5p\right)-18p\left(\frac{6}{25}-p\right)\right]\\ &=\binom{25}{6}25p^{4}(1-p)^{17}\left[\frac{1}{5}-5p-\frac{1}{5}p+5p^2-18\frac{6}{25}p+18p^2\right]\\ &=\binom{25}{6}25p^{4}(1-p)^{17}\left[\frac{1}{5}-\left(5-\frac{1}{5}-\frac{18\cdot6}{25}\right)p+(5+18)p^2\right]\\ &=\binom{25}{6}25p^{4}(1-p)^{17}\left[\frac{1}{5}-\left(\frac{125}{25}-\frac{5}{25}-\frac{108}{25}\right)p+23p^2\right]\\ &=\binom{25}{6}25p^{4}(1-p)^{17}\left[\frac{1}{5}-\frac{12}{25}p+23p^2\right]\\ \end{aligned} \]

Estimadores de Bayes

En algunas situaciones reales, represetadas por la densidad \(f(x;\theta)\), existe frecuentemente información adicional sobre \(\theta\) (hasta ahora la única hipótesis que hemos hecho sobre \(\theta\) es que puede tomar valores en \(\Omega\)). Así, por ejemplo, el experimentador puede tener la evidencia de que \(\theta\) se comporta como una variable aleatoria, para la cual es capaz de postular una función de densidad realista. Supongamos, por ejemplo, que se va a examinar una máquina que estampo piezas de automóvil para que qué fracción \(p\) de piezas defectuosas se está obteniendo. En dierto día, se examinan 10 piezas producidas por máquina, representándose las observaciones por \({x}_{1},{x}_{2},\ldots,{x}_{10}\) donde \(X_i=1\) si la i-ésima pieza es defectuosa y \(X_i=0\) si no lo es. Las observaciones pueden considerarse como una muestra aleatoria de temaño \(10\) de la distribución binomial puntual

\[ f\left(x;p\right)=p^x\left(1-p\right)^{1-x}\text{ para }x=0,1\text{ y }0{\leq}p{\leq}1 \]

la cual indica que la probabilidad de que una pieza dada se a defectuosa es igual al número desconocido \(p\). La densidad conjunta de las \(10\) variables aleatorias \({x}_{1},{x}_{2},\ldots,{x}_{10}\) es

\[ g\left({x}_{1},{x}_{2},\ldots,{x}_{10};p\right)={p}^{\sum_{i=1}^{10}x_i}{(1-p)}^{10-\sum_{i=1}^{10}x_i}\text{ para }x=0,1\text{ y }0{\leq}p{\leq}1 \]

El estimador máximo - verosimil de \(p\) es \(\widehat{p}=¸overline{x}\). El método de los momentos proporciona el mismo estimador.

Imaginemos, sin embargo, que el eperimentador dispone de información adicional sobre \(p\); supongamos que ha observado que el valor de \(p\) varía y le parece que el cambio puede representarse como una variable aleatoria con densidad

\[ h(p)=6p(1-p)\text{ para }0{\leq}p{\leq}1 \]

¿Cómo porá utilizarse esta inforamción adicoinal sobre \(p\) para estimar \(p\)? En muchos problemas quizá no sea realista suponer que \(p\) se comporta como una variable aleatoria; en otros, aunque parezca razonable suponer que \(p\) se comporta como una variable aleatoria, puede ser desconocida la función de densidad de \(p\). Sin embargo, en algunos problemas resulta posible hacer hipótesis realistas; examinaremos tal situaión en esta sección. Hasta aquí hemos empleado la notación \(f(x;\theta)\) par representar la densidad de una variable aleatoria \(\boldsymbol{x}\) para cada valor de \(\theta\) en \(\Omega\). Cuando queramos indicar que el parametro es también una variable aleatoria, denotaremos la densidad de \(\boldsymbol{x}\) por \(f(x|\theta)\), en lugar de por \(f(x;\theta)\)

Sea \(\boldsymbol{x}_1,\boldsymbol{x}_2,\ldots,\boldsymbol{x}_n\) una mjuestra aleatoria de tamaño \(n\) de la densidad \(f(x|\theta)\), e imaginemos que deseamos estimar \(\theta\) que determina la densidad de la que procede la muestra aleatoria. Supongamos que la densidad marginal lde \(\boldsymbol{\theta}\) es \(p(\theta)\), y la pérdida, \(\textit{l}\left(\widehat{\theta};\theta\right)\). Recoerdemos que, aunque estamos suponiendo que \(\boldsymbol{\theta}\) es una variable aleatoria, deseamos estimar un valor particular de \(\boldsymbol{\theta}\): el valor \(\theta\) que determina la densidad de \(f(x|\theta)\) de al cual fue seleccionada la muestra aleatoria. En otras palabras, al variar \(\boldsymbol{\theta}\), quedan determinadas diferentes dendidades, y la muestra aleatoria se tomó de una de estas densidades. Queremos estimar el valor de \(\theta\) qu edetermina tal densidad. El riesgo es \(E\left[\textit{l}\left({\boldsymbol{\widehat\theta}};\boldsymbol{\theta}\right)\right]=R(d;\boldsymbol{\theta})\). Puesto que \(\theta\) es una variable aleatoria, interesará determinar la función \(d\) que hace mínimo el riesgo esperado. El riesgo esperado puede escribirse

\[ \begin{aligned} B(d)&=E\left[R(d;\boldsymbol{\theta})\right]\\ &=\int_{-\infty}^{+\infty}R(d;\theta)p(\theta)d\theta\\ &=\int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty}\cdots\int_{-\infty}^{+\infty}\textit{l}\left[d\left(x_1,x_2,\ldots,x_n\right);\theta\right]g\left(x_1,x_2,\ldots,x_n|\theta\right)dx_1dx_2{\cdots}dx_np(\theta)d\theta \end{aligned} \]

Un buen estimador será una función \(d\) de las \(\boldsymbol{x}_i\) que haga mínimo a \(B(d)\); está función recibe el nombre de estimador de Bayes. si en \(B(d)=\int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty}\cdots\int_{-\infty}^{+\infty}\textit{l}\left[d\left(x_1,x_2,\ldots,x_n\right);\theta\right]g\left(x_1,x_2,\ldots,x_n|\theta\right)dx_1dx_2{\cdots}dx_np(\theta)d\theta\) intercambiamos el orden de integración de las variables \(x\) y \(\theta\), tendremos:

\[ \begin{aligned} B(d)&=\int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty}\cdots\int_{-\infty}^{+\infty}\textit{l}\left[d\left(x_1,x_2,\ldots,x_n\right);\theta\right]g\left(x_1,x_2,\ldots,x_n|\theta\right)dx_1dx_2{\cdots}dx_np(\theta)d\theta\\ &=\int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty}\cdots\int_{-\infty}^{+\infty}\textit{l}\left[d\left(x_1,x_2,\ldots,x_n\right);\theta\right]g\left(x_1,x_2,\ldots,x_n|\theta\right)p(\theta)d{\theta}dx_1dx_2{\cdots}dx_n \end{aligned} \]

Ahora bien: \(B(d)\) se hará mínimo si es posible hallar una función \(d\) de las \(x_i\) que haga mínima la cantidad \(\int_{-\infty}^{+\infty}\textit{l}\left[d\left(x_1,x_2,\ldots,x_n\right);\theta\right]g\left(x_1,x_2,\ldots,x_n|\theta\right)p(\theta)d{\theta}\) para todo conjunto de las \(\boldsymbol{x}\). Esto es, queremos hallar la \(d\left(x_1,x_2,\ldots,x_n\right)\) que hace mínimo a

\[ \int_{-\infty}^{+\infty}\textit{l}\left[d\left(x_1,x_2,\ldots,x_n\right);\theta\right]g\left(x_1,x_2,\ldots,x_n|\theta\right)p(\theta)d{\theta} \]

La cantidad \(g\left(x_1,x_2,\ldots,x_n|\theta\right)p(\theta)\) en \(\int_{-\infty}^{+\infty}\textit{l}\left[d\left(x_1,x_2,\ldots,x_n\right);\theta\right]g\left(x_1,x_2,\ldots,x_n|\theta\right)p(\theta)d{\theta}\) es la distribución conjunta de \(x_1,x_2,\ldots,x_n,\theta\) y la designaremos por \(q\left(x_1,x_2,\ldots,x_n,\theta\right)\). La distribución marginal de las \(x_i\) está dada por

\[ \begin{aligned} k\left(x_1,x_2,\ldots,x_n\right)&=\int_{-\infty}^{+\infty}q\left(x_1,x_2,\ldots,x_n,\theta\right)d\theta\\ &=\int_{-\infty}^{+\infty}g\left(x_1,x_2,\ldots,x_n|\theta\right)p(\theta)d\theta \end{aligned} \]

y la distribución condicional de \(\boldsymbol{\theta}\), dadas \(\boldsymbol{x}_1,\boldsymbol{x}_2,\ldots,\boldsymbol{x}_n\) es

\[ \begin{aligned} h\left(\theta|x_1,x_2,\ldots,x_n\right)&=\frac{q\left(x_1,x_2,\ldots,x_n,\theta\right)}{k\left(x_1,x_2,\ldots,x_n\right)}\\ &=\frac{g\left(x_1,x_2,\ldots,x_n|\theta\right)p(\theta)}{k\left(x_1,x_2,\ldots,x_n\right)} \end{aligned} \]

y se llama densidad a posteriori. Así, podemos escribir \(\int_{-\infty}^{+\infty}\textit{l}\left[d\left(x_1,x_2,\ldots,x_n\right);\theta\right]g\left(x_1,x_2,\ldots,x_n|\theta\right)p(\theta)d{\theta}\) en la forma

\[ \begin{aligned} \int_{-\infty}^{+\infty}\textit{l}\left[d\left(x_1,x_2,\ldots,x_n\right);\theta\right]g\left(x_1,x_2,\ldots,x_n|\theta\right)p(\theta)d{\theta}&=\int_{-\infty}^{+\infty}\textit{l}\left[d\left(x_1,x_2,\ldots,x_n\right);\theta\right]h\left(\theta|x_1,x_2,\ldots,x_n\right)k\left(x_1,x_2,\ldots,x_n\right)d{\theta}\\ &=k\left(x_1,x_2,\ldots,x_n\right)\int_{-\infty}^{+\infty}\textit{l}\left[d\left(x_1,x_2,\ldots,x_n\right);\theta\right]h\left(\theta|x_1,x_2,\ldots,x_n\right)d{\theta}\\ \end{aligned} \]

Luego un estimador de Bayes es el valor de \(\boldsymbol{\theta}\) que, para cada muestra posible \(\boldsymbol{x}_1,\boldsymbol{x}_2,\ldots,\boldsymbol{x}_n\) hace mínima la cantidad

\[ \begin{aligned} v\left(\widehat{\theta};x_1,x_2,\ldots,x_n\right)&=\int_{-\infty}^{+\infty}\textit{l}\left[d\left(x_1,x_2,\ldots,x_n\right);\theta\right]h\left(\theta|x_1,x_2,\ldots,x_n\right)d{\theta}\\ &=\int_{-\infty}^{+\infty}\textit{l}\left(\widehat{\theta};\theta\right)h\left(\theta|x_1,x_2,\ldots,x_n\right)d{\theta} \end{aligned} \]

La función \(v\) representa el riesgo a posteriori para estimar \(\boldsymbol{\theta}\), dado \(\boldsymbol{x}_1=x_1,\boldsymbol{x}_2=x_2,\ldots,\boldsymbol{x}_n=x_n\). Todo lo anterior queda resumido en la siguiente definición.

Definición 8-11

Sean \(\boldsymbol{x}_1,\boldsymbol{x}_2,\ldots,\boldsymbol{x}_n\) una muestra aleatoria de la densidad \(f(x|\theta)\), \(p(\theta)\) la densidad de \(\boldsymbol{\theta}\) y \(g(x_1,x_2,\ldots,x_n|\theta)\) la densidad condicional de las \(\boldsymbol{x}_i\), dada \(\boldsymbol{\theta}\). Además, sea \(h(\theta|x_1,x_2,\ldots,x_n)\) la dendidad de \(\boldsymbol{\theta}\) , dadas las \(\boldsymbol{x}_i\), y \(\textit{l}\left(\boldsymbol{\widehat{\theta}};\boldsymbol{\theta}\right)\), la pérdida. El estimador de Bayes de \(\boldsymbol{\theta}\) es una función, definida por \(\boldsymbol{\theta}=d\left(\boldsymbol{x}_1,\boldsymbol{x}_2,\ldots,\boldsymbol{x}_n\right)\) que hace mínimo a \(B(d)\) dado en \(B(d)=\int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty}\cdots\int_{-\infty}^{+\infty}\textit{l}\left[d\left(x_1,x_2,\ldots,x_n\right);\theta\right]g\left(x_1,x_2,\ldots,x_n|\theta\right)dx_1dx_2{\cdots}dx_np(\theta)d\theta\).

De lo anterior se obtiene el teorema siguiente teorema

Teorema 8-7

El valor de \(\widehat{\theta}\) en función de las \(\boldsymbol{x}_i\), que hace mínimo el riesgo a posteriori \(v\left(\widehat{\theta};x_1,x_2,\ldots,x_n\right)\) de la ecuación \(v\left(\widehat{\theta};x_1,x_2,\ldots,x_n\right)=\int_{-\infty}^{+\infty}\textit{l}\left(\widehat{\theta};\theta\right)h\left(\theta|x_1,x_2,\ldots,x_n\right)d{\theta}\), es el estimador de BAyes de \(\theta\) para las densidades y función de pérdida dadas en la definición anterior.

Ejemplo 8-15

Sea \(\boldsymbol{x}_1,\boldsymbol{x}_2,\ldots,\boldsymbol{x}_n\) una muestra aleatoria de la densidad

\[ f(x|\theta)={\theta}^{x}{(1-\theta)}^{x}\text{ para }x=0,1\text{ y }0{\leq}\theta{\leq}1 \]

La densidad condicional de las \(\boldsymbol{x}_i\), dada \(\boldsymbol{\theta}\), es

\[ g\left({x}_{1},{x}_{2},\ldots,{x}_{n}|\theta\right)={p}^{\sum_{i=1}^{n}x_i}{(1-p)}^{n-\sum_{i=1}^{n}x_i}\text{ para }x=0,1\text{ y }0{\leq}p{\leq}1 \]

Supongamos que la pérdida es el error cuadrático; es decir, \(\textit{l}\left(\boldsymbol{\widehat{\theta};\boldsymbol{\theta}}\right)={\left(\boldsymbol{\widehat{\theta}-\boldsymbol{\theta}}\right)}^{2}\). Supongamos además que la densidad de \(\boldsymbol{\theta}\) es uniforme, de modo que \(p(\theta)=1\), \(0{\leq}\theta{\leq}1\). Entonces

\[ \begin{aligned} q\left(x_1,x_2,\ldots,x_n,\theta\right)&=g\left(x_1,x_2,\ldots,x_n|\theta\right){\cdot}p(\theta)\\ &={p}^{\sum_{i=1}^{n}x_i}{(1-p)}^{n-\sum_{i=1}^{n}x_i}{\cdot}1\\ &={p}^{\sum_{i=1}^{n}x_i}{(1-p)}^{n-\sum_{i=1}^{n}x_i} \end{aligned} \]

y

\[ \begin{aligned} k\left(x_1,x_2,\ldots,x_n\right)&=\int_{-\infty}^{+\infty}g\left(x_1,x_2,\ldots,x_n|\theta\right)p(\theta)d\theta\\ &=\int_{-\infty}^{+\infty}{p}^{\sum_{i=1}^{n}x_i}{(1-p)}^{n-\sum_{i=1}^{n}x_i}d\theta \end{aligned} \]

que

La distribución beta

Otra distribución útil en estadístic es la distribución beta

Definición

Se dice que una variable aleatoria \(\boldsymbol{x}\) tiene una distribución beta si su función de densidad está dada por

\[ f(x;\alpha,\beta)=\frac{({\alpha}+{\beta}+1)}{{\alpha}!{\beta}!}x^{\alpha}{(1-{x})}^{\beta}\text{ para }0<x<1 \]

Esta función constituye una familia de distribuciones con dos parámetros, de la que se representan algunos ejemplos en la gráfica. Los parámetros \(\alpha\) y \(\beta\) deben ser ambos mayores que \(-1\). Se reduce a la distribución uniforme sobre el intervalo unitario cuando \(\alpha=\beta=0\)

library(ggplot2)

# Función para simular distribuciones beta y hacer un gráfico
simular_y_graficar_beta <- function(alpha, beta, n_simulaciones = 100000) {
  # Simular datos de distribución beta
  datos_simulados <- rbeta(n_simulaciones, alpha, beta)
  
  # Crear un data frame para ggplot
  df <- data.frame(x = datos_simulados)
  
  # Crear el gráfico con ggplot
  grafico <- ggplot(df, aes(x = x)) +
    geom_density(fill = "skyblue", color = "black", alpha = 0.7) +
    labs(title = "Simulación de Distribuciones Beta",
         x = "Valor",
         y = "Densidad") +
    theme_minimal()
  
  # Mostrar el gráfico
  print(grafico)
}

# Ejemplo de uso con alpha = 2 y beta = 5
simular_y_graficar_beta(alpha = 4, beta = 2)

Para ver que el área limitada por \(f(x)\) es igual a la unidad, calculemos la integral

\[ A(\alpha,\beta)=\int_{0}^{1}{x}^{\alpha}{(1-{x})}^{\beta}dx \]

Clar oque \(A\) es función de \(\alpha\) y \(\beta\); vamos a probar que es igual al recíproco del multiplicador constante que aparece en \(f(x;\alpha,\beta)=\frac{({\alpha}+{\beta}+1)}{{\alpha}!{\beta}!}x^{\alpha}{(1-{x})}^{\beta}\). Volviendo a referirnos a la distribución gamma, podemos escribir

\[ \begin{aligned} \alpha!\beta!&=\left(\int_{0}^{\infty}{x}^{\alpha}{e}^{-x}dx\right)\left(\int_{0}^{\infty}{y}^{\beta}{e}^{-y}dy\right)\\ &=\int_{0}^{\infty}\int_{0}^{\infty}{x}^{\alpha}{y}^{\beta}{e}^{-x}{e}^{-y}dxdy\\ &=\int_{0}^{\infty}\int_{0}^{\infty}{x}^{\alpha}{y}^{\beta}{e}^{-x-y}dxdy\\ &=\int_{0}^{\infty}\int_{0}^{\infty}{x}^{\alpha}{y}^{\beta}{e}^{-(x+y)}dxdy \end{aligned} \]

y en esta última integral cambiaremos la variable \(x\) por la \(U\). mediante la sustitución

\[ u=\frac{x}{x+y} \]

o bien

\[ \begin{aligned} x&=\frac{uy}{1-u}\\ \end{aligned} \]

y

\[ \begin{aligned} dx&=\frac{ydu}{{(1-u)}^{2}}\\ &=\frac{y}{{(1-u)}^{2}}du \end{aligned} \]

Ya que evidentemente \(u\) tiene el recorrido de \(0\) a \(1\), la integral

\[ \begin{aligned} \alpha!\beta!&=\int_{0}^{\infty}\int_{0}^{\infty}{x}^{\alpha}{y}^{\beta}{e}^{-(x+y)}dxdy\\ &=\int_{0}^{\infty}\int_{0}^{\infty}{\left(\frac{uy}{1-u}\right)}^{\alpha}{y}^{\beta}{e}^{-\left(\frac{uy}{1-u}+y\right)}\frac{y}{{(1-u)}^{2}}dudy\\ &=\int_{0}^{\infty}\int_{0}^{\infty}{\left(\frac{uy}{1-u}\right)}^{\alpha}{y}^{\beta}{e}^{-\left(\frac{uy}{1-u}+y\frac{1-u}{1-u}\right)}\frac{y}{{(1-u)}^{2}}dudy\\ &=\int_{0}^{\infty}\int_{0}^{\infty}{\left(\frac{uy}{1-u}\right)}^{\alpha}{y}^{\beta}{e}^{-\left(\frac{uy}{1-u}+\frac{y-uy}{1-u}\right)}\frac{y}{{(1-u)}^{2}}dudy\\ &=\int_{0}^{\infty}\int_{0}^{\infty}{\left(\frac{uy}{1-u}\right)}^{\alpha}{y}^{\beta}{e}^{-\frac{uy+y-uy}{1-u}}\frac{y}{{(1-u)}^{2}}dudy\\ &=\int_{0}^{\infty}\int_{0}^{\infty}{\left(\frac{uy}{1-u}\right)}^{\alpha}{y}^{\beta}{e}^{-\frac{y}{1-u}}\frac{y}{{(1-u)}^{2}}dudy \end{aligned} \]

En esta integral cambiamos \(y\) por \(v\), mediante la sustitución

\[ y=(1-u)v \]

y

\[ dy=(1-u)dv \]

Obteniendo

\[ \begin{aligned} \alpha!\beta!&=\int_{0}^{\infty}\int_{0}^{\infty}{\left(\frac{uy}{1-u}\right)}^{\alpha}{y}^{\beta}{e}^{-\frac{y}{1-u}}\frac{y}{{(1-u)}^{2}}dudy\\ &=\int_{0}^{\infty}\int_{0}^{\infty}{\left(\frac{u(1-u)v}{1-u}\right)}^{\alpha}{[(1-u)v]}^{\beta}{e}^{-\frac{(1-u)v}{1-u}}\frac{(1-u)v}{{(1-u)}^{2}}(1-u)dudv\\ &=\int_{0}^{\infty}\int_{0}^{\infty}{\left(uv\right)}^{\alpha}{[(1-u)v]}^{\beta}{e}^{-v}vdudv\\ &=\int_{0}^{\infty}\int_{0}^{\infty}{u}^{\alpha}{v}^{\alpha}{(1-u)}^{\beta}{v}^{\beta}{e}^{-v}vdudv\\ &=\int_{0}^{\infty}\int_{0}^{\infty}{u}^{\alpha}{(1-u)}^{\beta}{v}^{\alpha}{v}^{\beta}v{e}^{-v}dudv\\ &=\int_{0}^{\infty}\int_{0}^{\infty}{u}^{\alpha}{(1-u)}^{\beta}{v}^{\alpha+\beta+1}{e}^{-v}dudv\\ &=\int_{0}^{\infty}{v}^{\alpha+\beta+1}{e}^{-v}dv\int_{0}^{\infty}{u}^{\alpha}{(1-u)}^{\beta}du\\ \end{aligned} \]

Con relacion a \(\int_{0}^{\infty}{v}^{\alpha+\beta+1}{e}^{-v}dv\) haciendo

\[ u={v}^{\alpha+\beta+1} \]

y

\[ dv={e}^{-v}dv \]

entonces

\[ du={(\alpha+\beta+1)}{v}^{\alpha+\beta}dv \] y

\[ v=-{e}^{-v} \]

y entonces

\[ \begin{aligned} \int_{0}^{\infty}{v}^{\alpha+\beta+1}{e}^{-v}dv&={v}^{\alpha+\beta+1}-{e}^{-v}-\int_{0}^{\infty}-{e}^{-v}{(\alpha+\beta+1)}{v}^{\alpha+\beta}dv\\ &={v}^{\alpha+\beta+1}-{e}^{-v}+{(\alpha+\beta+1)}\int_{0}^{\infty}{e}^{-v}{v}^{\alpha+\beta}dv \end{aligned} \]

\[ u={v}^{\alpha+\beta} \]

y

\[ dv={e}^{-v}dv \]

entonces

\[ du={(\alpha+\beta)}{v}^{\alpha+\beta-1}dv \] y

\[ v=-{e}^{-v} \]

y entonces

\[ \begin{aligned} \int_{0}^{\infty}{v}^{\alpha+\beta+1}{e}^{-v}dv&={v}^{\alpha+\beta+1}-{e}^{-v}-\int_{0}^{\infty}-{e}^{-v}{(\alpha+\beta+1)}{v}^{\alpha+\beta}dv\\ &={v}^{\alpha+\beta+1}-{e}^{-v}+{(\alpha+\beta+1)}\int_{0}^{\infty}{e}^{-v}{v}^{\alpha+\beta}dv\\ &={v}^{\alpha+\beta+1}-{e}^{-v}+{(\alpha+\beta+1)}\left[-{v}^{\alpha+\beta}{e}^{-v}-\int_{0}^{-\infty}-{e}^{-v}{(\alpha+\beta)}{v}^{\alpha+\beta-1}dv\right]\\ \end{aligned} \]

\((\alpha+\beta+1)!\)

Teorema de Bayes

Si \(A\) y \(B\) so eventos con \(P(A)\) y \(P(B)\) mayores que cero

\[ \begin{aligned} P(A|B)&=\frac{P(B|A)}{P(B)} \end{aligned} \]

La \(P(A|B)\) es la probabilidad de \(A\) dado que el evento \(B\) ocurrió, la probabilidad de \(A\) se le llama la probabilidad a priori sin saber nada del evento \(B\), y la \(P(A|B)\) es una probabilidad posterior, la pregunta es ¿será que esto lo puedo pasar a funciones de masa o de densidad de probabilidad?

\[ \begin{aligned} f_{x|y}(x)&=\frac{f_{x,y}(x,y)}{f_y(y)} \end{aligned} \]

\[ \begin{aligned} f_{y|x}(y)=\frac{f_{y,x}(y,x)}{f_x(x)}&{\implies}f_{y,x}(y.x)=f_{y|x}(x)f_x(x) \end{aligned} \]

Reemplazando la segunda ecuación en la primera

\[ \begin{aligned} f_{x|y}(x)&=\frac{f_{y|x}(x)f_x(x)}{f_y(y)} \end{aligned} \]

Ahora, para denotar que \(x\) es un parámetro lo llamaremos \(\theta\)

\[ \begin{aligned} f_{\theta|y}(\theta)&=\frac{f_{y|\theta}(x)f_\theta(\theta)}{f_y(y)} \end{aligned} \]

Obteniendo así una función de densidad de un parámetro dado que ya se observó la muestra

Es un enfoque subjetivo porque admás de tener la muestra debo tener información extra de la muestra y además experiencia del evento; si fuese objetivo es vericable solo la muestra

Entonces la esperiencia se convierte en términos probabilísticos y se le asigna una distribución a priori prior \(f_\theta(\theta)\) y \(f_{\theta|y}(\theta)\) correspondería a que tanto cambio esa creencia después de haber tomado la muestra; lo que sería la distribucion poterio o a posteriori. Finalmente, quiero saber qué es \(f_{\theta|y}(\theta)\) es la función de verosimilitud

\[ \begin{aligned} f_{\theta|y}(\theta)=\frac{f_{y|\theta}(\theta)f_\theta(\theta)}{f_y(y)}&{\propto}f_{y|\theta}(y|\theta)f_\theta(\theta) \end{aligned} \]

Aquí elimino \(f_y(y)\) al considerarla constante, pues, no depende de \(\theta\)

LUego la función de densidad posterior \(f_{\theta|y}(\theta)\) es proporcional a la función de densidad prior \(f_\theta(\theta)\) por la verosimilitud \(f_{y|\theta}(x)\)

Ejemplo

Enfermos de gripa dependen de \(y_i|p\) donde \(p\) es la probabilidad de que, efetivamente, tengan gripa

\[ Y_i|P{\sim}Ber(P)\text{; tiene o no gripa} \]

Supongamos que son eventos independientes.

Hay un espacio de los parámetros \(P\in(0,1)\) y un \(\Omega=\left\{0,1\right\}\) espacio muestral

\[ \begin{aligned} f_{y_i|\theta}(\theta)&=f_{y_i|P}(y_i|P)\\ &={P}^{y_i}{(1-P)}^{1-y_i} \end{aligned} \]

Luego, la verosimilitud o distribución conjunta puede esciribrse como

\[ \begin{aligned} f_{y|\theta}(\theta)&=f_{y_1,y_2,\ldots,y_n|\theta}(y_1,y_2,\ldots,y_n|\theta)\\ &=f_{y_1,y_2,\ldots,y_n|P}(y_1,y_2,\ldots,y_n|P)\\ &=\prod_{i=1}^{n}{f_{y|P}(y_i|P)}\\ &=\prod_{i=1}^{n}{{P}^{y_i}{(1-P)}^{1-y_i}}\\ &={P}^{\sum_{i=1}^{n}{y_i}}{(1-P)}^{\sum_{i=1}^{n}{\left(1-y_i\right)}}\\ &={P}^{\sum_{i=1}^{n}{y_i}}{(1-P)}^{n-\sum_{i=1}^{n}{y_i}}\\ \end{aligned} \]

En donde \(P\in(0,1)\), al espacio de los parámetros lo denotaremos como \(\Theta\). Volviendo al ejemplo, digamos que el médico dice que la probabilidad se encuentra entre \(.05\) y \(.1\), esto es, \(0.05<P<0.1\); quiero ver como describir el comportamiento de estos datos

Funciones de rango \(\Theta=(0,1)\) pueden ser: uniforme o beta; debo elegir una función de probabilidad a la experiencia, a esto se le llama elicitación

Digamos que: \(\overline{P}=0.075\); y que el rango \(0.1-0.05\), de valores que toma \(P\), sobre \(4\) es una buena aproximación de la desviación estándas (muy empirico), luego \(sd=\frac{0.05}{4}=0.0125\) es un valor posible para la desviación estándar

Distribución Beta(a,b)

La esperanza y varianza de una Beta(a,b) son:

\[ \begin{aligned} E(X)&=\frac{a}{a+b}\\ Var(X)&=\frac{ab}{{(a+b)}^{2}(a+b+1)} \end{aligned} \]

Demostración

\[ \begin{aligned} E(X)&=\frac{a}{a+b}\\ &=\int_{0}^{1}{x{\cdot}\frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)}{x}^{a-1}{(1-x)}^{b-1}}{dx}\\ &=\int_{0}^{1}{\frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)}{x}^{a-1+1}{(1-x)}^{b-1}}{dx}\\ &=\frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)}\int_{0}^{1}{{x}^{(a+1)-1}{(1-x)}^{b-1}}{dx}\\ &=\frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)}\int_{0}^{1}{\frac{\frac{\Gamma(a+1+b)}{\Gamma(a+1)\Gamma(b)}}{\frac{\Gamma(a+1+b)}{\Gamma(a+1)\Gamma(b)}}{x}^{(a+1)-1}{(1-x)}^{b-1}}{dx}\\ &=\frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)}\frac{1}{\frac{\Gamma(a+1+b)}{\Gamma(a+1)\Gamma(b)}}\int_{0}^{1}{\frac{\Gamma(a+1+b)}{\Gamma(a+1)\Gamma(b)}{x}^{(a+1)-1}{(1-x)}^{b-1}}{dx}\\ &=\frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)}\frac{\Gamma(a+1)\Gamma(b)}{\Gamma(a+1+b)}\int_{0}^{1}{\frac{\Gamma(a+1+b)}{\Gamma(a+1)\Gamma(b)}{x}^{(a+1)-1}{(1-x)}^{b-1}}{dx}\\ &=\frac{\Gamma(a+b)}{\Gamma(a+b+1)}\frac{\Gamma(a+1)}{\Gamma(a)}\\ &=\frac{\Gamma(a+b)}{(a+b)\Gamma(a+b)}\frac{(a)\Gamma(a)}{\Gamma(a)}\\ &=\frac{a}{a+b} \end{aligned} \]

Ejemplo

\[ \begin{aligned} Var(X)&=\frac{ab}{{(a+b)}^{2}(a+b+1)}\\ &=E\left(X^2\right)-\left[E\left(X\right)\right]^2 \end{aligned} \]

Propiedad

\[ \Gamma(a+1)=a\Gamma(a) \]

Continuando con el ejemplo, como en el método de losm omentos igualamos momentos poblacionales y momentos muestrales

\[ \begin{aligned} \frac{a}{a+b}&=0.075\\ \sqrt{\frac{ab}{{(a+b)}^{2}(a+b+1)}}&=0.0125\\ \sqrt{\frac{ab}{(a+b)(a+b)(a+b+1)}}&=0.0125\\ \sqrt{\frac{a}{(a+b)}\frac{b}{(a+b)}\frac{1}{(a+b+1)}}&=0.0125\\ \sqrt{0.075\frac{b}{(a+b)}\frac{1}{(a+b+1)}}&=0.0125\\ \end{aligned} \]

De donde \(a=33.225\) y \(b=\frac{40}{37}\) ejercicio y luego reemplazando tenemos

\[ \begin{aligned} \frac{a}{a+b}=0.075&{\implies}a=0.075\left(33.225+b\right)\\ &{\implies}a=0.075\left(33.225+b\right)\\ &{\implies}b=409.775\\ \end{aligned} \]

Y de acuerdo con la información que me están suministrando \(P{\sim}Beta(33.225,409.775)\) luego se captura la mayor cantidad de información con una Beta.

Sabemos entonces que:

\[ \begin{aligned} f_{y|\theta}(\theta)&=f_{y_1,y_2,\ldots,y_n|\theta}(y_1,y_2,\ldots,y_n|\theta)\\ &={P}^{\sum_{i=1}^{n}{y_i}}{(1-P)}^{n-\sum_{i=1}^{n}{y_i}}\\ \end{aligned} \]

y

\[ \begin{aligned} f_{\theta}(\theta)&=f_{P}(P)\\ &=\frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)}{P}^{a-1}{(1-P)}^{b-1}\\ &{\propto}{P}^{a-1}{(1-P)}^{b-1} \end{aligned} \]

De donde

\[ \begin{aligned} f_{\theta|y}(\theta)&{\propto}f_{y|\theta}(y|\theta)f_\theta(\theta)\\ &={P}^{\sum_{i=1}^{n}{y_i}}{(1-P)}^{n-\sum_{i=1}^{n}{y_i}}{P}^{a-1}{(1-P)}^{b-1}\\ &={P}^{a+\sum_{i=1}^{n}{y_i}-1}{(1-P)}^{n-\sum_{i=1}^{n}{y_i}+b-1}\\ &={P}^{\left(a+\sum_{i=1}^{n}{y_i}\right)-1}{(1-P)}^{\left(n-\sum_{i=1}^{n}{y_i}+b\right)-1} \end{aligned} \]

Y entonces

\[ \begin{aligned} P|y_1,y_2,\ldots,y_n{\sim}Beta\left(a+\sum_{i=1}^{n}{y_i},n-\sum_{i=1}^{n}{y_i}+b\right) \end{aligned} \]

El valor esperado van a ser los estimadores bayesianos

Nota

Cuando la prior y la posterior tienen la misma función de probabilidada enteonces se dice que hay conjugamiento, y cuando esto sucede enteonces se dice que hay conjugamiento.

\[ \begin{aligned} E\left(P|y_1,y_2,\ldots,y_n\right)&=\frac{a}{a+b}\\ &=\frac{a+\sum_{i=1}^{n}{y_i}}{a+\sum_{i=1}^{n}{y_i}+n-\sum_{i=1}^{n}{y_i}+b}\\ &=\frac{a+\sum_{i=1}^{n}{y_i}}{a+n+b}\\ &=\frac{a}{a+n+b}+\frac{\sum_{i=1}^{n}{y_i}}{a+n+b}\\ &=\frac{a+b}{a+b}\frac{a}{a+n+b}+\frac{n}{n}\frac{\sum_{i=1}^{n}{y_i}}{a+n+b}\\ &=\frac{a+b}{a+n+b}\boldsymbol{\frac{a}{a+b}}+\frac{n}{a+n+b}\boldsymbol{\frac{\sum_{i=1}^{n}{y_i}}{n}} \end{aligned} \]

Concluyendo que el valor esperado resulta ser un promedio ponderado de la prior y el estimador de máxima verosimilitud

Ejemplo

Muestra aleaatoria \(y_1,y_2,\ldots,y_n|\lambda\) y \(y_i|\lambda{\sim}P(\lambda)\) con \(\lambda{\in}\mathbb{R}^{+}\)

Unas distribuciones que se mueven entre \(0\) e \(\infty\) son: exponencial, gamma y weibull

Supongamos que para cada \(\lambda=\lambda_i\) se tiene \(P(\Lambda=\lambda_i)=p_i\), entonces

\[ \begin{aligned} f\left(y_1,y_2,\ldots,y_n|\lambda\right)&=\prod_{i=1}^{n}f\left(y_i|\lambda\right)\\ &=\prod_{i=1}^{n}\frac{e^{-\lambda}{\lambda}^{y_i}}{y_i!}\\ &=\frac{\prod_{i=1}^{n}e^{-\lambda}{\lambda}^{y_i}}{\prod_{i=1}^{n}y_i!}\\ &=\frac{e^{-\sum_{i=1}^{n}\lambda}{\lambda}^{\sum_{i=1}^{n}y_i}}{\prod_{i=1}^{n}y_i!}\\ &=\frac{e^{-{n}\lambda}{\lambda}^{\sum_{i=1}^{n}y_i}}{\prod_{i=1}^{n}y_i!}\\ &{\propto}e^{-{n}\lambda}{\lambda}^{\sum_{i=1}^{n}y_i} \end{aligned} \]

\(\prod_{i=1}^{n}y_i!\) sale como proporcionalidad porque no depende del parámetro \(\lambda\)

\[ \begin{aligned} P\left(\Lambda=\lambda_j|y_1,y_2,\ldots,y_n\right)&{\propto}P(\Lambda=\lambda_j)f\left(y_1,y_2,\ldots,y_n|\lambda_j\right)\\ &{\propto}P_j{\cdot}e^{-{n}\lambda}{\lambda}^{\sum_{i=1}^{n}y_i} \end{aligned} \]

Para que \(P_j{\cdot}e^{-{n}\lambda}{\lambda}^{\sum_{i=1}^{n}y_i}\) sea una distribución de masa tiene que sumar \(1\), y entonces proponemos

\[ \begin{aligned} P\left(\Lambda=\lambda_j|y_1,y_2,\ldots,y_n\right)&{\propto}\frac{P_j{\cdot}e^{-{n}\lambda}{\lambda}^{\sum_{i=1}^{n}y_i}}{\sum_{j=1}^{k}P_j{\cdot}e^{-{n}\lambda_j}{\lambda_j}^{\sum_{i=1}^{n}y_i}} \end{aligned} \]

dividir por \(\sum_{j=1}^{k}P_j{\cdot}e^{-{n}\lambda}{\lambda}^{\sum_{i=1}^{n}y_i}\) garantiza que me da uno y también que \(P\left(\Lambda=\lambda_j|y_1,y_2,\ldots,y_n\right)\) se encuentra entre cero y uno. Y como hay conjugamiento entonces

Propiedad

Siempre que la dsitribución a priori sea una distribución discreta va a darse el conjugamiento cualquiera que sea el experimento

\[ E\left(\lambda|y_1,y_2,\ldots,y_n\right)=\gamma{\cdot}\overline{y}+(1-\gamma)E(\lambda) \]

Ejercicio

Dar una aproximacion a este valor esperado (probabilidad a posteriori), para cada elección de \(\lambda\) se tiene una a posteriori

Continuando con el ejemplo…

Se propone una exponencial \(\lambda|y_1,y_2,\ldots,y_n{\sim}exp(\theta)\), pues, \(\lambda{\in}(0,+\infty)\)

\[ f(\lambda)={\theta}{e}^{-{\lambda}{\theta}} \]

\({\theta}{e}^{-{\lambda}{\theta}}\) es una elección función de densidad a priori y su valor esperado es \(\lambda\)

\[ \begin{aligned} f\left(\lambda|y_1,y_2,\ldots,y_n\right)&{\propto}f(\lambda)f(y_1,y_2,\ldots,y_n|\lambda)\\ &{=}{\theta}{e}^{-\lambda\theta}{\cdot}{e}^{-n\lambda}\lambda^{\sum_{i=1}^{n}y_i}\\ &{\propto}{e}^{-\lambda\theta-n\lambda}\lambda^{\sum_{i=1}^{n}y_i}\\ &{\propto}{e}^{-\lambda(\boldsymbol{\theta-n})}\lambda^{\left(\boldsymbol{\sum_{i=1}^{n}y_i+2}\right)-1} \end{aligned} \]

Luego \(\lambda|y_1,y_2,\ldots,y_n{\sim}gamma(\boldsymbol{\sum_{i=1}^{n}y_i+2},\boldsymbol{\theta-n}))\)

Principios de Simulación

Simulación

  • La simulación implica imitar el comportamiento de un sistema o proceso mediante la generación de datos aleatorios.

Aplicaciones

  • La simulación se utiliza en estadísticas para modelar situaciones complejas o para entender mejor el comportamiento de un fenómeno.

Ejercicio

  • Simular el lanzamiento de un dado 100 veces.

Respuesta

set.seed(123)  # Establecer semilla para reproducibilidad
dados <- sample(1:6, 100, replace = TRUE)
hist(dados, main = "Simulación de lanzamiento de dado", xlab = "Número en el dado", ylab = "Frecuencia")

Distribución de la Suma de Variables Aleatorias en Muestras Aleatorias

Definición:

Dada una muestra aleatoria simple de variables aleatorias \(X_1,X_2,\ldots,X_n\) de una población con distribución de probabilidad \(f_X(x)\), la distribución de la suma \(S_n=X_1+X_2+\ldots+X_n\) se aproxima a una distribución normal cuando el tamaño de la muestra nn es lo suficientemente grande. Este resultado está respaldado por el Teorema Central del Límite.

Explicación:

El Teorema Central del Límite establece que, bajo condiciones generales, la suma de variables aleatorias independientes y de idéntica distribución se distribuirá aproximadamente de manera normal, independientemente de la forma exacta de la distribución original. A medida que el tamaño de la muestra aumenta, la aproximación a la normalidad mejora.

Distribución de las Estadísticas de Orden

Definición

La distribución de las estadísticas de orden se refiere a la probabilidad asociada con la posición de un valor particular dentro de un conjunto de datos ordenados de manera ascendente o descendente. Las estadísticas de orden incluyen la posición de un valor específico (rango), la posición del valor mínimo (primer estadístico de orden), y la posición del valor máximo (último estadístico de orden). Estudiar la distribución de estas estadísticas proporciona información valiosa sobre la variabilidad y la forma de la distribución subyacente.

Explicación:

  • La distribución de estadísticas de orden es útil para comprender la posición relativa de observaciones en un conjunto de datos, especialmente cuando se exploran características como sesgo, simetría y colas en la distribución.

  • Ejemplos de estadísticas de orden incluyen el rango (posición de una observación específica), el rango mínimo (posición del valor mínimo), y el rango máximo (posición del valor máximo).

  • Estas estadísticas son fundamentales en estadística no paramétrica y son esenciales en pruebas de hipótesis basadas en rangos y en la construcción de intervalos de confianza para estimadores no paramétricos.

Construcción de estimadores. ¿Cómo acercarse a los valores de la población con un valor

puntual?

Definición.

En estadística, un estimador es una regla o fórmula matemática que se utiliza para calcular una estimación o predicción de un parámetro desconocido de una población basándose en información proporcionada por una muestra de esa población. Un estimador se denota típicamente por un símbolo, como \(\widehat{\theta}\), donde \({\theta}\) representa el parámetro que se está estimando.

La definición más formal de un estimador \(\widehat{\theta}\) incluye las siguientes características:

  • Sin Sesgo (No Sesgado): Un estimador se considera no sesgado si la expectativa matemática (esperanza) de ese estimador es igual al valor verdadero del parámetro que se está estimando. Matemáticamente, esto se expresa como \(E\left(\widehat{\theta}\right)=\theta\).

  • Eficiencia: Entre varios estimadores no sesgados para el mismo parámetro, se prefiere aquel que tiene una varianza más baja, ya que proporciona estimaciones más precisas. La eficiencia está relacionada con la varianza del estimador.

  • Consistencia: A medida que el tamaño de la muestra tiende hacia el infinito, un estimador es consistente si converge en probabilidad al valor verdadero del parámetro. Es decir, \(\lim_{n{\rightarrow}\infty}P\left(\left|\widehat{\theta}-\theta\right|>\varepsilon\right)=0\) donde nn es el tamaño de la muestra y ϵϵ es un número pequeño positivo.

  • Suficiencia: Un estimador es suficiente si contiene toda la información relevante de la muestra para estimar el parámetro. En otras palabras, no se pierde información importante al usar el estimador.

  • Insesgado por Mínimos Cuadrados (UMVUE): En algunos casos, el estimador insesgado con menor varianza posible se conoce como el Mejor Estimador Insesgado por Mínimos Cuadrados (UMVUE, por sus siglas en inglés).

  • Robustez: Un estimador es robusto si mantiene buenas propiedades incluso cuando se cumplen ciertas condiciones del modelo. La robustez es especialmente importante cuando los datos pueden desviarse de las suposiciones del modelo.

Los estimadores son fundamentales en la inferencia estadística, donde se utilizan para hacer inferencias sobre la población basándose en información de la muestra. La elección del estimador adecuado depende de la naturaleza del problema y las características deseadas del estimador.

Método de los momentos.

El Método de los Momentos es una técnica en estadística para estimar los parámetros de una distribución de probabilidad. La idea principal es igualar los momentos muestrales a los momentos teóricos de la distribución.

Definición del Método de los Momentos:

Dada una muestra de datos \(X_1,X_2,\ldots,X_n\) de una población con parámetros desconocidos, el método de los momentos busca estimadores \(\widehat{\theta}_1,\widehat{\theta}_2\ldots\) para los parámetros de manera que los momentos muestrales coincidan con los momentos teóricos.

Deducción para la Media (\(\mu\)):

  • Momento Muestral de Primer Orden:

\[\overline{X}=\frac{1}{n}\sum_{i=1}^{n}X_i\]

  • Momento Teórico de Primer Orden:

\[E\left(\overline{X}\right)=\mu\]

Igualamos los momentos muestrales y teóricos para obtener el estimador de la media:

\[\overline{X}=\mu{\implies}\widehat{\mu}=\overline{X}\]

Entonces, el estimador de la media es simplemente la media muestral.

Deducción para la Varianza (\(\sigma^2\))

  • Momento Muestral de Segundo Orden (sin corregir):

\[\frac{1}{n}\sum_{i=1}^{n}\left(X_i-\overline{X}\right)^2\]

  • Momento Teórico de Segundo Orden (sin corregir):

\[E\left[\sum_{i=1}^{n}\left(X_i-\overline{X}\right)^2\right]=\sigma^2\]

Igualamos los momentos muestrales y teóricos para obtener el estimador de la varianza:

\[E\left[\sum_{i=1}^{n}\left(X_i-\overline{X}\right)^2\right]=\sigma^2\implies\widehat{\sigma^2}=\frac{1}{n}\sum_{i=1}^{n}\left(X_i-\overline{X}\right)^2\]

Entonces, el estimador sin corregir de la varianza es la varianza muestral.

En la práctica, se suele utilizar la versión corregida del estimador de la varianza, que divide por \(n-1\) en lugar de nn. Esto se hace para ajustar el sesgo del estimador:

\[\widehat{\sigma^2}_{corregido}=\frac{1}{n-1}\sum_{i=1}^{n}\left(X_i-\overline{X}\right)^2\]

Este es el estimador de la varianza corregido y ampliamente utilizado en estadística.

Método de máxima verosimilitud.

Método bayesiano.

Métodos robustos.

Algoritmo EM.

Citas y Fuentes

  • Casella, G., & Berger, R. L. (2002). Statistical Inference. Duxbury Press.

  • Hollander, M., & Wolfe, D. A. (1999). Nonparametric Statistical Methods. John Wiley & Sons. Este libro también proporciona una excelente cobertura de estadísticas de orden y su papel en métodos estadísticos no paramétricos.

  • Hogg, R. V., McKean, J. W., & Craig, A. T. (2019). Introduction to Mathematical Statistics. Pearson.

  • Krejcie, R. V., & Morgan, D. W. (1970). Determining Sample Size for Research Activities. Educational and Psychological Measurement, 30(3), 607-610.

  • Lehmann, E. L. (2006). Nonparametrics: Statistical Methods Based on Ranks. Springer. Este texto clásico aborda en profundidad las estadísticas de orden y sus aplicaciones en inferencia estadística no paramétrica.

  • Lohr, S. (1999). Sampling: Design and Analysis. Duxbury Press.

  • Mood, A. M., Graybill, F. A., & Boes, D. C. (1974). Introduction to the Theory of Statistics. McGraw-Hill.

  • Papoulis, A., & Pillai, S. U. (2002). Probability, Random Variables and Stochastic Processes. McGraw-Hill.