Este documento está diseñado para presentar al lector los modelos lineales generalizados, que proporcionan un marco unificador para muchas técnicas estadísticas de uso común. También ilustran las ideas del modelado estadístico.
Se supone que el lector está familiarizado con los principios y métodos estadísticos clásicos. En particular, es necesario comprender los conceptos de estimación, distribuciones muestrales y prueba de hipótesis. Se asume experiencia en el uso de pruebas t, análisis de varianza, regresión lineal simple y pruebas de independencia de chi cuadrado para tablas de contingencia bidimensionales. Además, se requieren algunos conocimientos de álgebra matricial y cálculo.
El lector encontrará necesario tener acceso a instalaciones de computación estadística. Muchos programas, lenguajes o paquetes estadísticos pueden ahora realizar los análisis discutidos en este libro. Sin embargo, a menudo lo hacen con un programa o procedimiento diferente para cada tipo de análisis, de modo que la estructura unificadora no es evidente.
Algunos programas o lenguajes que tienen procedimientos consistentes con el enfoque utilizado en este documento son Stata y R. Además, cualquier persona que esté trabajando en este documento puede encontrar útil poder utilizar software matemático que pueda realizar álgebra matricial, diferenciación y cálculos iterativos.
Todos los métodos estadísticos considerados en este documento implican el análisis de las relaciones entre las mediciones realizadas en grupos de sujetos u objetos.
Por ejemplo, las medidas pueden ser las alturas o pesos y las edades de niños y niñas, o el rendimiento de plantas en diversas condiciones de crecimiento. Usamos los términos respuesta, resultado o variable dependiente para mediciones que pueden variar libremente en respuesta a otras variables llamadas variables explicativas o variables predictoras o variables independientes, aunque este último término a veces puede ser engañoso. Las respuestas se consideran variables aleatorias. Las variables explicativas generalmente se tratan como si fueran mediciones u observaciones no aleatorias; por ejemplo, pueden ser fijados por el diseño experimental.
Las respuestas y las variables explicativas se miden en una de las siguientes escalas.
Clasificaciones nominales: por ejemplo, rojo, verde, azul; si, no, no lo se, no aplica. En particular, para las variables binarias, dicotómicas o binomiales, solo hay dos categorías: masculino, femenino; muerto vivo; hojas lisas, hojas dentadas. Si hay más de dos categorías la variable se denomina policotómica, politómica o multinomial.
Clasificaciones ordinales en las que existe algún orden natural o clasificación entre las categorías: por ejemplo, joven, mediana edad, anciano; presiones sanguíneas diastólicas agrupadas como \(\leq 70,71-90,91-110,111-130, \geq 131 \mathrm {mmHg}\).
Mediciones continuas donde las observaciones pueden, al menos en teoría, caer en cualquier lugar de un continuo: por ejemplo, peso, longitud o tiempo. Esta escala incluye tanto medidas de escala de intervalo como de escala de razón; estas últimas tienen un cero bien definido. Un ejemplo particular de una medición continua es el tiempo hasta que ocurre un evento específico, como la falla de un componente electrónico; el período de tiempo desde un punto de partida conocido se denomina tiempo de falla.
Los datos nominales y ordinales a veces se denominan variables categóricas o discretas y generalmente se registra el número de observaciones, recuentos o frecuencias en cada categoría. Para datos continuos, se registran las mediciones individuales. El término cuantitativo se usa a menudo para una variable medida en una escala continua y el término cualitativo para mediciones nominales y, a veces, ordinales. Una variable explicativa cualitativa se denomina factor y sus categorías se denominan niveles del factor. Una variable explicativa cuantitativa a veces se denomina covariable.
Los métodos de análisis estadístico dependen de las escalas de medición de la respuesta y las variables explicativas.
Este documento se ocupa principalmente de aquellos métodos estadísticos que son relevantes cuando hay una sola variable de respuesta, aunque normalmente habrá varias variables explicativas. Por lo general, se supone que las respuestas medidas en diferentes sujetos son variables aleatorias estadísticamente independientes.
El cuadro \(1.1\) muestra los principales métodos de análisis estadístico para diversas combinaciones de variables de respuesta y explicativas y los capítulos en los que se describen.
El presente capítulo resume algunas de las teorías estadísticas utilizadas a lo largo del documento. Los capítulos 2 al 5 cubren el marco teórico común a los capítulos siguientes. Los capítulos posteriores se centran en métodos para analizar tipos particulares de datos.
El capítulo 2 desarrolla las ideas principales del modelado estadístico clásico o frecuentista. El proceso de modelado consta de cuatro pasos:
Especificar modelos en dos partes: ecuaciones que relacionan la respuesta y las variables explicativas, y la distribución de probabilidad de la variable de respuesta.
Estimación de parámetros fijos pero desconocidos utilizados en los modelos.
Verificar qué tan bien los modelos se ajustan a los datos reales.
Hacer inferencias; por ejemplo, calculando intervalos de confianza y probando hipótesis sobre los parámetros.
Los siguientes tres capítulos proporcionan los antecedentes teóricos. El capítulo 3 trata sobre la familia exponencial de distribuciones, que incluye las distribuciones Normal, Poisson y Binomial. También cubre modelos lineales generalizados (según la definición de Nelder y Wedderburn (1972)). La regresión lineal y muchos otros modelos son casos especiales de modelos lineales generalizados. En el Capítulo 4 se describen los métodos de estimación clásica y ajuste de modelos.
El capítulo 5 describe los métodos frecuentistas de inferencia estadística para modelos lineales generalizados. La mayoría de estos métodos se basan en qué tan bien un modelo describe el conjunto de datos. Por ejemplo, la prueba de hipótesis se lleva a cabo especificando primero modelos alternativos (uno correspondiente a la hipótesis nula y el otro a una hipótesis más general). Luego, se calculan las estadísticas de prueba que miden la “bondad de ajuste” de cada modelo y se comparan. Por lo general, el modelo correspondiente a la hipótesis nula es más simple, por lo que si se ajusta a los datos tan bien como a un modelo más complejo, generalmente se prefiere en las orondas de parsimonia (es decir, conservamos la hipótesis nula)
Continuas (Chapter 6) | Binaria Nominal, >2 categorías | t-test Analisis de varianza |
---|---|---|
Ordinal | Analisis de varianza | |
Continua | Regresion Multiple | |
Nominal & some continuous | Analisis de covarianza | |
Categorical & continuous | Regresion Multiple | |
Binaria (Chapter 7) | Categorical | Tablas de contingencia y Regresion Logística |
Continua | Logistica, probit & otros modelos de respuesta dose | |
Categorical & continuous | Logistic regression | |
Nominal con | Nominal | tablas de contingencia |
>2 categorás (Chapters 8 & 9) | Categoricas y continuas | Logística Nominal |
regression | ||
Ordinal (Chapter 8) | Categoricas y continuas | Regresion Logística Ordinal |
Conteos (Chapter 9) | Categoricas Categoricas y continuas | Log-linear modelos Regresion Poisson |
Failure times (Chapter 10) | Categoricas y continuas | Análisis de Supervivencia (parametrico) |
repuestas correlacionadas (Chapter 11) | Categoricas y continuas | Generalizado estimar ecuaciones Modelos multinivel |
Generalmente seguimos la convención de denotar variables aleatorias con letras en cursiva mayúscula y valores observados con las letras minúsculas correspondientes. Por ejemplo, las observaciones \(y_{1}, y_{2}, \ldots, y_{n}\) se consideran realizaciones de las variables aleatorias \(Y_{1}, Y_{2}, \ldots, Y_{n} .\) Se utilizan letras griegas para denotar parámetros y las letras romanas minúsculas correspondientes se utilizan para denotar estimadores y estimaciones; ocasionalmente, el símbolo \(^{-}\) se usa para estimadores o estimaciones. Por ejemplo, el parámetro \(\beta\) se estima mediante \(\widehat{\beta}\) o \(b.\) A veces, estas convenciones no se cumplen estrictamente, ya sea para evitar una notación excesiva en los casos en que el significado debería ser evidente a partir del contexto. , o cuando existe una fuerte tradición de notación alternativa (por ejemplo, \(e\) o \(\varepsilon\) para términos de error aleatorio). Los vectores y matrices, ya sean aleatorios o no, se indican con \(\mathrm{b}\). letras minúsculas y mayúsculas, respectivamente. Por tanto, \(y\) representa un vector de observaciones
\[ \left[\begin{array}{c} y_{1}\\ \vdots \\ y_{n} \end{array} \right] \] o un vector de variables aleatorias \[ \left[\begin{array}{c} Y_{1} \\ \vdots \\ Y_{n} \end{array} \right] \] \(\boldsymbol{\beta}\) denota un vector de parámetros y \(X\) es una matriz. El superíndice \(T\) se usa para una transposición de matriz o cuando un vector de columna se escribe como una fila, p. \(y = \left[Y_{1}, \ldots, Y_{n} \right]^{T}\) La función de densidad de probabilidad de una variable aleatoria continua \(Y\) (o la función de masa de probabilidad si \(Y\) es discreta) se denomina simplemente distribución de probabilidad y se denota por
\(\boldsymbol{\theta}\) donde \(\boldsymbol{\theta}\) representa los parámetros de la distribución. Usamos puntos \((\cdot)\) subíndices para la suma y barras \((-)\) para las medias; por lo tanto, \[ \bar{y} = \frac{1}{N} \sum_{i = 1}^{N} y_{i} = \frac{1}{N}y\cdot \] El valor esperado y la varianza de una variable aleatoria \(Y\) se indican mediante \(\mathrm{E}(Y)\) y \(var(Y)\), respectivamente. Suponga que las variables aleatorias \(Y_{1}, \ldots, Y_{N}\) son independientes con \(\mathrm{E} \left(Y_{i} \right) = \mu_{i}\) y \(var\left(Y_{i} \right) = \sigma_{i}^{2}\) para \(i = 1, \ldots, n\). Sea la variable aleatoria \(W\) una combinación lineal de \(Y_{i}^{\prime}\)s
\[\begin{equation} W=a_{1} Y_{1}+a_{2} Y_{2}+\ldots+a_{n} Y_{n} \end{equation}\]
donde los \(a_{i}\) son constantes. Entonces el valor esperado de \(W\) es
\[\begin{equation} \mathrm{E}(W)=a_{1} \mu_{1}+a_{2} \mu_{2}+\ldots+a_{n} \mu_{n} \end{equation}\]
y su varianza es
\[\begin{equation} var(W)=a_{1}^{2} \sigma_{1}^{2}+a_{2}^{2} \sigma_{2}^{2}+\ldots+a_{n}^{2} \sigma_{n}^{2} \end{equation}\]
Las distribuciones muestrales de muchos de los estimadores y estadísticos de prueba utilizados en este documento dependen de la distribución Normal. Lo hacen directamente porque se derivan de variables aleatorias distribuidas normalmente o asintóticamente, a través del teorema del límite central para muestras grandes. En esta sección damos definiciones y notación para estas distribuciones y resumimos las relaciones entre ellas. Los ejercicios al final del capítulo proporcionan práctica en el uso de estos resultados que se emplean ampliamente en los capítulos siguientes.
Si la variable aleatoria $ Y $ tiene la distribución Normal con media \(\mu\) y varianza \(\sigma^{2}\), su función de densidad de probabilidad es \[ f\left(y; \mu, \sigma^{2} \right) = \frac{1}{\sqrt{2 \pi \sigma^{2}}} \exp \left[- \frac{1}{2} \left (\frac{y- \mu} {\sigma} \right)^{2} \right] \] Denotamos esto por \(Y \sim \mathrm{N} \left(\mu, \sigma^{2} \right)\).
La distribución normal con \(\mu = 0\) y \(\sigma^{2} = 1, Y \sim \mathrm{N}(0,1)\), se denomina distribución normal estándar.,
Deje que \(Y_{1}, \ldots, Y_{n}\) denote variables aleatorias normalmente distribuidas con \(Y_{i} \sim \mathrm{N} \left(\mu_{i}, \sigma_{i }^{2} \right)\) para \(i = 1, \ldots, n\) y deje que la covarianza de \(Y_ {i}\) y \(Y_{j}\) se denote por \[ cov\left(Y_{i}, Y_{j} \right) = \rho_{ij} \sigma_{i} \sigma_{j} \] donde \(\rho_{ij}\) es el coeficiente de correlación para \(Y_{i}\) y \(Y_{j}.\) Entonces, la distribución conjunta de \(Y_{i}\) es la distribución normal multivariante con el vector medio \(\boldsymbol{\mu} = \left[\mu_{1}, \ldots, \mu_{n} \right]^{T}\) y matriz de varianza-covarianza \(v\) con elementos diagonales \(\sigma_{i}^{2}\) y elementos no diagonales \(\rho_{ij} \sigma_{i} \sigma_{j}\) para \(i \neq j\). Escribimos esto como \(y \sim MVN(\boldsymbol{\mu},v)\), donde \(y = \left[Y_{1}, \ldots, Y_{n} \right]^{T}\)
Suponga que las variables aleatorias \(Y_{1}, \ldots, Y_{n}\) son independientes y normalmente distribuidas con las distribuciones \(Y_{i} \sim \mathrm{N} \left(\mu_{i}, \sigma_{i}^{2} \right)\) por \(i= 1, \ldots, n.\) Si \[ W = a_{1}Y_{1} + a_{2} Y_{2} + \ldots + a_{n}Y_{n} \] donde los \(a_{i}\) son constantes, entonces \(W\) también se distribuye normalmente, de modo que \[ W = \sum_{i = 1}^{n}a_{i}Y_{i} \sim \mathrm{N} \left(\sum_{i = 1}^{n} a_{i} \mu_{i }, \sum_{i = 1}^{n} a_{i}^{2} \sigma_{i}^{2} \right) \] por las ecuaciones (1.2) y (1.3).
La distribución chi-cuadrado central con \(n\) grados de libertad se define como la suma de cuadrados de \(n\) variables aleatorias independientes \(Z_{1}, \ldots, Z_{n}\) cada una con la distribución normal estándar. Se denota por \[ X^{2} = \sum_{i = 1}^{n} Z_{i}^{2} \sim \chi^{2}(n) \] En notación matricial, si \(z = \left[Z_{1}, \ldots, Z_{n} \right]^{T}\), entonces \(z^{T}z = \sum_{i = 1}^{n} Z_{i}^{2}\) de modo que \(X^{2} =z^{T}z \sim \chi^{2}(n)\)
Si \(X^{2}\) tiene la distribución \(\chi^{2}(n)\), entonces su valor esperado es \(\mathrm{E} \left(X^{2} \right) = n\) y su varianza es \(var\left(X^{2} \right) = 2n\)
Si \(Y_{1}, \ldots, Y_{n}\) son variables aleatorias independientes, normalmente distribuidas, cada una con la distribución \(Y_{i} \sim \mathrm{N} \left(\mu_{i}, \sigma_{i}^{2} \right)\), luego
\[\begin{equation} X^{2}=\sum_{i=1}^{n}\left(\frac{Y_{i}-\mu_{i}}{\sigma_{i}}\right)^{2} \sim \chi^{2}(n) \end{equation}\]
porque cada una de las variables \(Z_{i} = \left(Y_{i} - \mu_{i} \right) / \sigma_{i}\) tiene la distribución Normal estándar \(\mathrm{N} (0,1)\)
Sea \(Z_{1}, \ldots, Z_{n}\) variables aleatorias independientes, cada una con la distribución \(\mathrm{N}(0,1)\) y sea \(Y_{i} = Z_{i} + \mu_{i}\), donde al menos uno de los \(\mu_{i}\) es distinto de cero. Entonces la distribución de \[ \sum Y_{i}^{2} = \sum \left(Z_{i} + \mu_{i} \right)^{2} = \sum Z_{i}^{2} +2 \sum Z_{ i} \mu_{i} + \sum \mu_{i}^{2} \] tiene una media mayor \(n + \lambda\) y una varianza mayor \(2 n + 4 \lambda\) que \(\chi^{2}(n)\) donde \(\lambda = \sum \mu_{i}^{2}.\) Esto es llamada distribución chi-cuadrado no central con \(n\) grados de libertad y parámetro de no centralidad \(\lambda\). Se denota por \(\chi^{2}(n, \lambda)\)
Suponga que los \(Y_{i}\) no son necesariamente independientes y el vector \(y = \left[Y_{1}, \ldots, Y_{n} \right]^{T}\) tiene la distribución normal multivariante \(y \sim MNV(\boldsymbol{\mu},v)\) donde la matriz de varianza-covarianza \(v\) no es singular y su inversa es \(v^{- 1}\). Luego
\[\begin{equation} X^{2}=(\mathbf{y}-\boldsymbol{\mu})^{T} \mathbf{V}^{-1}(\mathbf{y}-\boldsymbol{\mu}) \sim \chi^{2}(n) . \end{equation}\]
De manera más general, si \(y\sim MVN(\mu,v)\), entonces la variable aleatoria \(y^{T}v^{-1}y\) tiene la distribución chi-cuadrado no central \(\chi^{2}(n, \lambda)\) donde \(\lambda = \boldsymbol{\mu}^{T}v^{- 1} \boldsymbol {\mu}\).
Si \(X_{1}^{2}, \ldots, X_{m}^{2}\) son \(m\) variables aleatorias independientes con distribuciones chi-cuadrado \(X_{i}^{2} \sim \chi^{2} \left(n_{i}, \lambda_{i} \right)\), que puede o no ser central, entonces su suma también tiene una distribución chi-cuadrado con \(\sum n_{i}\) grados de libertad y parámetro de no centralidad \(\sum \lambda_{i}\), es decir. \[ \sum_{i = 1}^{m} X_{i}^{2} \sim \chi^{2} \left(\sum_{i = 1}^{m} n_{i}, \sum_{i = 1}^{m} \lambda_{i} \right) \]
Esto se llama propiedad reproductiva de la distribución chi-cuadrado.
Sea \(y \sim MVN(\boldsymbol{\mu},v)\), donde \(y\) tiene \(n\) elementos pero \(Y_{ i}\) no son independientes, por lo que el número \(k\) de filas (o columnas) linealmente independientes de \(v\) (es decir, el rango de \(v\)) es menor que \(n\) y entonces \(V\) es singular y su inverso no está definido de forma única. Deje que \(v^{-}\) denote un inverso generalizado de \(v\) (que es una matriz con la propiedad de que \(VV^{-}V =V\)). Entonces la variable aleatoria \(y^{T}V^{-}y\) tiene la distribución chi-cuadrado no central con \(k\) grados de libertad y parámetro de no centralidad \(\lambda = \boldsymbol{\mu}^{T}V^ {-} \boldsymbol{\mu}\). Para obtener más detalles sobre las propiedades de la distribución chi-cuadrado, consulte Forbes et al. (2010).
Sea \(y_{1}, \ldots, y_{n}\) vectores aleatorios independientes de \(n\) cada uno de longitud \(p\) y \(y_{n} \sim MVN(0,v)\). Entonces \(S = \sum_{i = i}^{n}y_{i}y_{i}^{T}\) es un \(p \times p\) matriz aleatoria que tiene la distribución de Wishart \(\mathrm{W}(V, n)\). Esta distribución se puede usar para hacer inferencias sobre la matriz de covarianza \(V\) porque \(S\) es proporcional a \(V\). En el caso de \(p = 1\), las \(Y_{i}\) son variables aleatorias independientes con \(Y_{i} \sim \mathrm{N} \left(0, \sigma^{2} \right)\), entonces \(Z_{i} = Y_{i} / \sigma \sim \mathrm{N}(0,1).\) Por lo tanto, \(S= \sum_{i = 1}^{n} Y_{i}^{2} = \sigma^{2} \sum_{i = 1}^ {n} Z_{i}^{2}\) y por lo tanto \(S / \sigma^{2} \sim \chi^{2}(n)\). Por tanto, la distribución de Wishart puede considerarse como una generalización de la distribución chi-cuadrado.
La distribución t con \(n\) grados de libertad se define como la razón de dos variables aleatorias independientes. El numerador tiene la distribución Normal estándar y el denominador es la raíz cuadrada de una variable aleatoria central de chi-cuadrado dividida por sus grados de libertad; es decir,
\[ T = \frac{Z}{\left(X^{2}/ n \right)^ {1/2}} \] donde \(Z \sim \mathrm{N}(0,1), X^{2} \sim \chi^{2}(n)\) y \(Z\) y \(X^{2}\) son independientes. Esto se denota por \(T \sim \mathrm {t}(n)\).
dividido por sus grados de libertad, \[\begin{equation} F = \frac{X_{1}^{2}}{n} / \frac{X_{2}^{2}}{m} \end{equation}\]
donde \(X_{1}^{2} \sim \chi^{2}(n), X_{2}^{2} \sim \chi^{2}(m)\) y \(X_{1}^{ 2}\) y \(X_{2}^{2}\) son independientes. Esto se denota por \(F \sim \mathrm{F}(n, m)\).
La relación entre la distribución t y la distribución F se puede derivar elevando al cuadrado los términos de la ecuación (1.6) y usando la definición (1.7) para obtener \[\begin{equation} T^{2} = \frac{\frac{Z^{2}}{1}}{\frac{X^{2}}{n}} \sim \mathrm{F} (1, n) \end{equation}\] es decir, el cuadrado de una variable aleatoria con la distribución t, \(t(n)\), tiene la distribución F, \(F (1, n)\).
La distribución F no central se define como la razón de dos variables aleatorias independientes, cada una dividida por sus grados de libertad, donde el numerador tiene una distribución chi cuadrado no central y el denominador tiene una distribución chi cuadrado central , es decir, \[ F =\dfrac{\frac{X_{1}^{2}}{n}}{\frac{X_{2}^{2}}{m}} \] donde \(X_{1}^{2} \sim \chi^{2}(n, \lambda)\) con \(\lambda = \boldsymbol{\mu}^{T}v^{-1} \boldsymbol{\mu}, X_{2}^{2} \sim \chi^{2}(m)\) y \(X_{1}^{2}\) y \(X_{2}^{2}\) son independientes. La media de una distribución F no central es mayor que la media de una distribución F central con los mismos grados de libertad.
Una forma cuadrática es una expresión polinomial en la que cada término tiene grado 2. Por lo tanto, \(y_{1}^{2} + y_{2}^{2}\) y \(2 y_{1}^{2} + y_{2}^{2} +3 y_{1} y_{2}\) son formas cuadráticas en \(y_{1}\) y \(y_{2}\), pero \(y_{1}^{2} + y_{2 }^{2} +2 y_{1}\) o \(y_{1}^{2} +3 y_{2}^{2} + 2\) no lo son.
Sea A una matriz simétrica \[ \left[\begin{array} {cccc} a_{11} & a_{12} & \cdots & a_{1 n} \\ a_{21} & a_{22} & \cdots & a_{2 n} \\ \vdots & & \ddots & \vdots \\ a_{n 1} & a_{n 2} & \cdots & a_{n n} \end{array} \right] \] donde \(a_{ij} = a_{ji};\) entonces la expresión \(y^{T}Ay = \sum_{i} \sum_{j} a_{ij} y_{i} y_{j}\) es una forma cuadrática en los \(y_{i}\). La expresión \((y - \boldsymbol{\mu})^{T}V^{- 1} (y- \boldsymbol{\mu})\) es una forma cuadrática en los términos \(\left(y_{i} -\mu_{i} \right)\) pero no en los \(y_{i}\)’s.
Se dice que la forma cuadrática \(y^{T} A y\) y la matriz \(A\) son definidas positivas si \(y^{T} A y> 0\) siempre que los elementos de \(y\) no sean todos cero. Una condición necesaria y suficiente para la definición positiva es que todos los determinantes \[ \left | A_{1} \right | = a_{11}, \left |A_{2} \right | = \left |\begin{array}{ll} a_{11} & a_{12} \\ a_{21} & a_{22} \end{array} \right |, \left | A_{3} \right | = \left |\begin{matrix} a_{11} & a_{12} & a_{13} \\ a_{21} & a_{22} & a_{23} \\ a_{31} & a_{32} & a_{33} \end{matrix} \right |, \ldots, \text{y} \] \(\left | A_{n} \right | =det(A)\) son positivos. Si una matriz es definida positiva, entonces puede invertirse y también tiene una matriz de raíz cuadrada \(A^{*}\) tal que \(A^{*}A = A\). Estas propiedades son útiles para la derivación de varios resultados teóricos relacionados con la estimación y las distribuciones de probabilidad de los estimadores.
El rango de la matriz \(A\) también se llama grados de libertad de la forma cuadrática \(Q = y^{T}Ay\).
Suponga que \(Y_{1}, \ldots, Y_{n}\) son variables aleatorias independientes, cada una con la distribución normal \(N \left (0, \sigma^{2} \right)\). Sea \(Q = \sum_{i = 1}^{n} Y_{i}^{2}\) y deje que \(Q_{1}, \ldots, Q_{k}\) sean formas cuadráticas en \(Y_{i}\) es tal que \[ Q = Q_{1} + \ldots + Q_{k} \] donde \(Q_{i}\) tiene \(m_{i}\) grados de libertad \((i = 1, \ldots, k)\). Entonces \(Q_{1}, \ldots, Q_{k}\) son variables aleatorias independientes y \(Q_{1} / \sigma^{2} \sim \chi^{2} \left(m_{1} \right) , Q_{2} / \sigma^{2} \sim \chi^{2} \left(m_{2} \right), \ldots\) y \(Q_{k} / \sigma^{2} \sim \chi^{2} \left(m_{k} \right)\), si y solo si \[ m_{1} + m_{2} + \ldots + m_{k} = n. \] Este es el teorema de Cochran. Un resultado similar también se aplica a las distribuciones no centrales. Para obtener más detalles, consulte Forbes et al. (2010).
Una consecuencia del teorema de Cochran es que la diferencia de dos variables aleatorias independientes, \(X_{1}^{2} \sim \chi^{2}(m)\) y \(X_{2}^{2} \sim \chi^{2}(k)\), también tiene una distribución chi-cuadrado \[ X^{2} = X_{1}^{2} -X_{2}^{2} \sim \chi^{2}(m-k) \] siempre que \(X^{2} \geq 0\) y \(m>k\).
Deje que \(y = \left[Y_{1}, \ldots, Y_{n} \right]^{T}\) denote un vector aleatorio y deje que la función de densidad de probabilidad conjunta de \(Y_{i}\) ser \[ f (y; \boldsymbol{\theta}) \] que depende del vector de parámetros \(\boldsymbol{\theta} = \left[\theta_{1}, \ldots, \theta_{p} \right]^{T}\). La función de probabilidad \(L(\boldsymbol{\theta};y)\) es algebraicamente la misma que la función de densidad de probabilidad conjunta \(f(y; \boldsymbol{\theta})\) pero el cambio en notación refleja un cambio de énfasis de las variables aleatorias \(y\), con \(\boldsymbol{\theta}\) fijo, a los parámetros \(\boldsymbol{\theta}\), con \(y\) reparado. Dado que \(L\) se define en términos del vector aleatorio \(y\), es en sí mismo una variable aleatoria. Sea \(\Omega\) el conjunto de todos los valores posibles del vector de parámetros \(\boldsymbol{\theta}; \Omega\) se llama espacio de parámetros. El estimador de probabilidad máxima de \(\theta\) es el valor \(\widehat{\boldsymbol{\theta}}\) que maximiza la función de probabilidad, es decir, \(L(\widehat{\boldsymbol{\theta}};y) \geq L(\boldsymbol{\theta}; y) \quad\) para todos los \(\boldsymbol{\theta}\) en \(\Omega\)
De manera equivalente, \(\widehat{\boldsymbol{\theta}}\) es el valor que maximiza la función de probabilidad logarítmica \(l(\boldsymbol{\theta};y) = \log L(\boldsymbol {\theta };y)\) ya que la función logarítmica es monótona. Por lo tanto. \[ l(\widehat{\boldsymbol{\theta}};y) \geq l(\boldsymbol{\theta};y) \quad \text{para todos} \quad \boldsymbol{\theta} \quad \text{en} \quad \Omega \] A menudo es más fácil trabajar con la función logarítmica de verosimilitud que con la función de verosimilitud en sí.
Por lo general, el estimador \(\widehat{\boldsymbol{\theta}}\) se obtiene diferenciando la función de probabilidad logarítmica con respecto a cada elemento \(\theta_{j}\) de \(\boldsymbol{\theta}\) y resolviendo las ecuaciones simultáneas \[\begin{equation} \frac{\partial l(\boldsymbol{\theta} ; \mathbf{y})}{\partial \theta_{j}}=0 \quad \text { for } j=1, \ldots, p \end{equation}\]
Es necesario comprobar que las soluciones corresponden a máximos de \(l(\boldsymbol{\theta};y)\) verificando que la matriz de segundas derivadas \[ \frac{\partial^{2} l(\boldsymbol{\theta};y)} {\partial \theta_{j} \partial \theta_{k}} \] evaluado en \(\boldsymbol{\theta} = \widehat{\boldsymbol{\theta}}\) es definido negativo. Por ejemplo, si \(\boldsymbol{\theta}\) tiene solo un elemento \(\theta\), esto significa que es necesario verificar que \[ \left[\frac{\partial^{2} l(\theta, y)} {\partial \theta^{2}} \right]_{\theta = \widehat{\theta}}<0. \] También es necesario verificar si hay valores de \(\boldsymbol{\theta}\) en los bordes del espacio de parámetros \(\Omega\) que den máximos locales de \(l(\boldsymbol{\theta};y)\) Cuando se han identificado todos los máximos locales, el valor de \(\widehat{\boldsymbol{\theta}}\) correspondiente al mayor es el estimador de máxima verosimilitud. (Para la mayoría de los modelos considerados en este libro, solo hay un máximo y corresponde a la solución de las ecuaciones \(\left. \partial l / \partial \theta_{j} = 0, j = 1, \ldots, p . \right)\)
Una propiedad importante de los estimadores de máxima verosimilitud es que si \(g(\boldsymbol{\theta})\) es cualquier función de los parámetros \(\boldsymbol{\theta}\), entonces el estimador de máxima verosimilitud de \(g(\boldsymbol{\theta })\) es \(g(\widehat{\boldsymbol{\theta}})\). Esto se sigue de la definición de \(\widehat{\boldsymbol{\theta}}\). A veces se denomina propiedad de invariancia de los estimadores de máxima verosimilitud. Una consecuencia es que podemos trabajar con una función de los parámetros que sea conveniente para la estimación de máxima verosimilitud y luego usar la propiedad de invariancia para obtener estimaciones de máxima verosimilitud para los parámetros requeridos.
En principio, no es necesario poder encontrar las derivadas de las funciones de verosimilitud o logaritmo-verosimilitud o resolver la Ecuación (1.9) si \(\widehat{\boldsymbol{\theta}}\) se puede encontrar numéricamente. En la práctica, las aproximaciones numéricas son muy importantes para los modelos lineales generalizados.
Otras propiedades de los estimadores de máxima verosimilitud incluyen consistencia, suficiencia, eficiencia asintótica y normalidad asintótica. Estos se analizan en libros como Cox y Hinkley (1974) o Forbes et al. (2010).
Sean \(Y_{1}, \ldots, Y_{n}\) variables aleatorias independientes, cada una con la distribución de Poisson \[ f\left(y_{i}; \theta \right) = \frac{\theta^{y_{i}} e^{-\theta}} {y_{i}!}, \quad y_{i} = 0,1,2, \ldots \] con el mismo parámetro \(\theta\). Su distribución conjunta es
\[ \begin{aligned} f\left(y_{1}, \ldots, y_{n} ; \theta\right)=\prod_{i=1}^{n} f\left(y_{i} ; \theta\right) &=\frac{\theta^{y_{1}} e^{-\theta}}{y_{1} !} \times \frac{\theta^{y_{2}} e^{-\theta}}{y_{2} !} \times \cdots \times \frac{\theta^{y_{n}} e^{-\theta}}{y_{n} !} \\ &=\frac{\theta^{\sum y_{i}} e^{-n \theta}}{y_{1} ! y_{2} ! \ldots y_{n} !} \end{aligned} \]
Esta es también la función de probabilidad \(L\left(\theta; y_{1}, \ldots, y_{n} \right).\) Es más fácil usar la función de probabilidad \(\log\) \[ l\left(\theta; y_{1}, \ldots, y_{n} \right) = \log L\left(\theta; y_{1}, \ldots, y_{n} \right) = \left(\sum y_{i} \right) \log \theta-n \theta- \sum \left(\log y_{i}! \right) \] Para encontrar la estimación de máxima verosimilitud \(\widehat{\theta}\), use \[ \frac{d l} {d \theta} = \frac{1}{\theta} \sum y_{i} -n. \] Iguale esto a cero para obtener la solución \[ \widehat{\theta} = \sum y_{i} / n = \bar{y} \] Dado que \(d^{2} l / d \theta^{2} = - \sum y_{i} / \theta^{2} <0, l\) tiene su valor máximo cuando \(\theta = \widehat{\theta }\), lo que confirma que \(\bar{y}\) es la estimación de máxima verosimilitud.
Sea \(Y_{1}, \ldots, Y_{n}\) variables aleatorias independientes con valores esperados \(\mu_{1}, \ldots , \mu_{n}\), respectivamente. Supongamos que los \(\mu_{i}\) son funciones del vector de parámetros que queremos estimar, \(\boldsymbol{\beta} = \left[\beta_{1}, \ldots, \beta_{p} \right]^{T}; p<n\). Por lo tanto \[ E \left(Y_{i} \right) = \mu_{i}(\boldsymbol{\beta}). \] La forma más simple del método de mínimos cuadrados consiste en encontrar el estimador \(\widehat{\boldsymbol {\beta}}\) que minimiza la suma de cuadrados de las diferencias entre \(Y_{i}\) y sus valores esperados \[ S = \sum \left[Y_{i} - \mu_{i} (\boldsymbol{\beta}) \right]^{2} \] Por lo general, \(\widehat{\boldsymbol{\beta}}\) se obtiene diferenciando \(\mathrm{S}\) con respecto a cada elemento \(\beta_{j}\) de \(\boldsymbol{\beta}\) y resolviendo las ecuaciones simultáneas \[ \frac{\partial S} {\partial \beta_{j}} = 0, \quad j = 1, \ldots, p. \] Por supuesto, es necesario comprobar que las soluciones corresponden a mínimos (es decir, la matriz de segundas derivadas es definida positiva) e identificar el mínimo global entre estas soluciones y cualquier mínimo local en el límite del espacio de parámetros.
Ahora suponga que los \(Y_{i}\) tienen variaciones \(\sigma_{i}^{2}\) que no son todas iguales. Entonces puede ser conveniente minimizar la suma ponderada de las diferencias al cuadrado
\[ S = \sum w_{i} \left[Y_{i} - \mu_{i} (\boldsymbol{\beta}) \right]^{2} \] donde los pesos son \(w_{i} = \left(\sigma_{i}^{2} \right)^{- 1}\). De esta manera, las observaciones que son menos confiables (es decir, los \(Y_{i}\) con las variaciones más grandes) tendrán menos influencia en las estimaciones.
De manera más general, dejemos que \(y = \left[Y_{1}, \ldots, Y_{n} \right]^{T}\) denote un vector aleatorio con un vector medio \(\boldsymbol{\mu} = \left[\mu_{1}, \ldots, \mu_{n} \right]^{T}\) y matriz de varianza-covarianza \(V\). Entonces, el estimador de mínimos cuadrados ponderados se obtiene minimizando \[ S = (y- \boldsymbol{\mu})^{T}V^{- 1}(y - \boldsymbol{\mu}). \]
Una distinción importante entre los métodos de máxima verosimilitud y mínimos cuadrados es que el método de mínimos cuadrados puede usarse sin hacer suposiciones sobre las distribuciones de las variables de respuesta \(Y_{i}\) más allá de especificar sus valores esperados y posiblemente su varianza. estructura de covarianza. En contraste, para obtener estimadores de máxima verosimilitud, necesitamos especificar la distribución de probabilidad conjunta de los \(Y_{i}\).
Para muchas situaciones, los estimadores de máxima verosimilitud y mínimos cuadrados son idénticos.
A menudo, se pueden necesitar métodos numéricos en lugar de cálculos para obtener estimaciones de parámetros que maximicen la función de verosimilitud o logaritmo de verosimilitud o minimicen la suma de cuadrados. El siguiente ejemplo ilustra este enfoque.
Sea \(Y_{1}\) y \(Y_{2}\) variables aleatorias independientes con \(Y_{1} \sim \mathrm {N} (1,3)\) y \(Y_{2}\sim \mathrm{N } (2,5)\). Si \(W_{1} = Y_{1} +2 Y_{2}\) y \(W_{2} = 4 Y_{1} -Y_{2}\), ¿cuál es la distribución conjunta de \(W_{1}\) y \(W_{2}\)?
Sea \(Y_{1}\) y \(Y_{2}\) variables aleatorias independientes con \(Y_{1} \sim \mathrm{N}(0,1)\) y \(Y_{2} \sim \mathrm{N}(3,4)\)
B. Si \(y = \left[\begin{array}{c} Y_{1} \\ \left(Y_{2} -3 \right) / 2 \end{array} \right]\), obtenga una expresión para \(y^{T}y\). Cual es su distribucion?
C. Si \(y = \left(\begin{array}{c} Y_{1} \\ Y_{2} \end{array} \right)\) y su distribución es \(y \sim MVN(\boldsymbol{\mu},V)\), obtenga una expresión sión para \(y^{T}V^{-1}y\). Cual es su distribucion?
Sean \(Y_{1}, \ldots, Y_{n}\) variables aleatorias independientes, cada una con la distribución \(\mathrm {N} \left(\mu, \sigma^{2} \right)\). Sea \[ \bar{Y} = \frac{1}{n} \sum_{i = 1}^{n} Y_{i} \quad \text{y} \quad S^{2} = \frac{1}{n-1} \sum_{i = 1}^{n} \left(Y_{i} - \bar{Y} \right)^{2}. \] A. ¿Cuál es la distribución de \(\bar{Y}\)?
B. Muestre que \(S^{2} = \frac{1}{n-1} \left[\sum_{i = 1}^{n} \left(Y_{i} - \mu \right)^{2} -n(\bar{Y} - \mu)^{2} \right]\).
C. De (b) se sigue que \(\sum \left(Y_{i} - \mu \right)^{2} / \sigma^{2} = (n-1) S^{2} / \sigma^{2} + \left[(\bar{Y} - \mu)^{2} n / \sigma^{2} \right]\). ¿Cómo le permite esto deducir que \(\bar{Y}\) y \(S^{2}\) son independientes?
D. ¿Cuál es la distribución de \((n-1)S^{2} / \sigma^{2}\)?
E. ¿Cuál es la distribución de \(\frac{\bar{Y} - \mu} {S / \sqrt{n}}\)?