Respuesta: c) A matrix that organizes predictor variables into a structured form for modeling
Justificacion: La matriz de diseño organiza las variables predictoras en una forma estructurada para el modelado.
Respuesta: b) It must have full column rank
Justificacion: La matriz de diseño debe tener rango de columna completo para garantizar una solución única en Mínimos Cuadrados.
Considere el modelo lineal \[ Y = X\beta + \epsilon, \] con \(\mathsf{E}(\epsilon) = 0\) y \(\mathsf{Cov}(\epsilon) = \sigma^{2}I\).
Muestre que \[ \|Y - X\beta\|^{2} = \|Y - X\widehat{\beta}\|^{2} + (\widehat{\beta} - \beta)^{\top}X^{\top}X(\widehat{\beta} - \beta), \] y deduzca que \(Q(\beta) = \|Y - X\beta\|^{2}\) es minimizado para \(\beta = \widehat{\beta}\), donde \[ \widehat{\beta} = (X^{\top}X)^{-1}X^{\top}Y. \]
Dado el modelo lineal: \[ Y = X\beta + \epsilon, \] con \(\mathsf{E}(\epsilon) = 0\) y \(\mathsf{Cov}(\epsilon) = \sigma^{2}I\), queremos demostrar que: \[ \|Y - X\beta\|^{2} = \|Y - X\widehat{\beta}\|^{2} + (\widehat{\beta} - \beta)^{\top}X^{\top}X(\widehat{\beta} - \beta), \] y deducir que \(Q(\beta) = \|Y - X\beta\|^{2}\) se minimiza para \(\beta = \widehat{\beta}\), donde: \[ \widehat{\beta} = (X^{\top}X)^{-1}X^{\top}Y. \]
Partimos de la expresión original: \[ Y - X\beta. \] Aquí, \(Y\) es el vector de observaciones, \(X\) es la matriz de diseño, y \(\beta\) es el vector de coeficientes.
Sumamos y restamos \(X\widehat{\beta}\): \[ Y - X\beta = Y - X\beta + X\widehat{\beta} - X\widehat{\beta}. \] Esto no cambia la expresión, ya que estamos sumando y restando el mismo término (\(X\widehat{\beta}\)).
Reorganizamos los términos: \[ Y - X\beta = (Y - X\widehat{\beta}) + (X\widehat{\beta} - X\beta). \] Aquí hemos agrupado los términos de manera que \(Y - X\widehat{\beta}\) y \(X\widehat{\beta} - X\beta\) queden separados.
Factorizamos \(X\) en el segundo término: \[ Y - X\beta = (Y - X\widehat{\beta}) + X(\widehat{\beta} - \beta). \]
Calculamos la norma al cuadrado de \(Y - X\beta\): \[ \|Y - X\beta\|^{2} = \|(Y - X\widehat{\beta}) + X(\widehat{\beta} - \beta)\|^{2}. \]
Expandimos la norma al cuadrado: \[ \|Y - X\beta\|^{2} = \|Y - X\widehat{\beta}\|^{2} + \|X(\widehat{\beta} - \beta)\|^{2} + 2(Y - X\widehat{\beta})^{\top}X(\widehat{\beta} - \beta). \]
Observamos que el término cruzado es cero porque: \[ X^{\top}(Y - X\widehat{\beta}) = 0, \] ya que \(\widehat{\beta}\) minimiza \(Q(\beta)\).
Por lo tanto, la expresión se reduce a: \[ \|Y - X\beta\|^{2} = \|Y - X\widehat{\beta}\|^{2} + (\widehat{\beta} - \beta)^{\top}X^{\top}X(\widehat{\beta} - \beta). \]
Verifique que \(e^{\top}\widehat{Y} = 0\), donde \(e = Y - \widehat{Y}\) y \(\widehat{Y} = X\widehat{\beta}\).
Queremos demostrar que \(e^{\top}\widehat{Y} = 0\), donde: - \(e = Y - \widehat{Y}\) es el vector de residuos. - \(\widehat{Y} = X\widehat{\beta}\) es el vector de valores predichos.
Sabemos que: \[ e = Y - \widehat{Y} = Y - X\widehat{\beta}, \] y \[ \widehat{Y} = X\widehat{\beta}. \]
Sustituimos \(e\) y \(\widehat{Y}\) en \(e^{\top}\widehat{Y}\): \[ e^{\top}\widehat{Y} = (Y - X\widehat{\beta})^{\top}X\widehat{\beta}. \]
Expandimos el producto: \[ e^{\top}\widehat{Y} = Y^{\top}X\widehat{\beta} - \widehat{\beta}^{\top}X^{\top}X\widehat{\beta}. \]
Sabemos que \(\widehat{\beta} = (X^{\top}X)^{-1}X^{\top}Y\), por lo que: \[ Y^{\top}X\widehat{\beta} = Y^{\top}X(X^{\top}X)^{-1}X^{\top}Y. \] Además, \(\widehat{\beta}^{\top}X^{\top}X\widehat{\beta}\) es igual a: \[ \widehat{\beta}^{\top}X^{\top}X\widehat{\beta} = Y^{\top}X(X^{\top}X)^{-1}X^{\top}Y. \]
Sustituyendo en la expresión de \(e^{\top}\widehat{Y}\): \[ e^{\top}\widehat{Y} = Y^{\top}X(X^{\top}X)^{-1}X^{\top}Y - Y^{\top}X(X^{\top}X)^{-1}X^{\top}Y = 0. \]
Hemos demostrado que: \[ e^{\top}\widehat{Y} = 0. \]
Suponga que \(\epsilon \sim \mathbb{N}_{n}(0, \sigma^{2}I_{n})\). Determine la distribución de \(Z = A^{\top}Y\), donde \(A \in \mathbb{R}^{n \times (n-p)}\) y satisface: \[ A^{\top}X = 0, \quad A(A^{\top}A)^{-1}A^{\top} = I - X(X^{\top}X)^{-1}X^{\top}. \] Obtenga el estimador de máxima verosimilitud (ML) de \(\sigma^{2}\) basado en la distribución de \(Z\). ¿Este estimador es insesgado?
Dado que \(Y = X\beta + \epsilon\) y \(\epsilon \sim \mathbb{N}_{n}(0, \sigma^{2}I_{n})\), entonces: \[ Z = A^{\top}Y = A^{\top}X\beta + A^{\top}\epsilon. \]
Como \(A^{\top}X = 0\), se tiene: \[ Z = A^{\top}\epsilon. \]
Dado que \(\epsilon \sim \mathbb{N}_{n}(0, \sigma^{2}I_{n})\), entonces \(Z\) es una combinación lineal de \(\epsilon\), y por lo tanto: \[ Z \sim \mathbb{N}_{n-p}(0, \sigma^{2}A^{\top}A). \]
La función de verosimilitud de \(Z\) es: \[ L(\sigma^{2}; Z) = \frac{1}{(2\pi\sigma^{2})^{(n-p)/2}} \exp\left(-\frac{Z^{\top}(A^{\top}A)^{-1}Z}{2\sigma^{2}}\right). \]
Tomamos el logaritmo de la verosimilitud: \[ \log L = -\frac{n-p}{2} \log(2\pi\sigma^{2}) - \frac{Z^{\top}(A^{\top}A)^{-1}Z}{2\sigma^{2}}. \]
Derivamos \(\log L\) con respecto a \(\sigma^{2}\) e igualamos a cero para maximizar la verosimilitud: \[ \frac{\partial \log L}{\partial \sigma^{2}} = -\frac{n-p}{2\sigma^{2}} + \frac{Z^{\top}(A^{\top}A)^{-1}Z}{2\sigma^{4}} = 0. \]
Resolviendo para \(\sigma^{2}\), obtenemos el estimador ML: \[ \widehat{\sigma}^{2} = \frac{Z^{\top}(A^{\top}A)^{-1}Z}{n-p}. \]
Calculamos la esperanza de \(\widehat{\sigma}^{2}\): \[ \mathsf{E}(\widehat{\sigma}^{2}) = \frac{\mathsf{E}(Z^{\top}(A^{\top}A)^{-1}Z)}{n-p}. \]
Dado que \(Z \sim \mathbb{N}_{n-p}(0, \sigma^{2}A^{\top}A)\), entonces: \[ \mathsf{E}(Z^{\top}(A^{\top}A)^{-1}Z) = \sigma^{2} \text{tr}((A^{\top}A)^{-1}A^{\top}A) = \sigma^{2}(n-p). \]
Por lo tanto: \[ \mathsf{E}(\widehat{\sigma}^{2}) = \frac{\sigma^{2}(n-p)}{n-p} = \sigma^{2}. \]
Concluimos que el estimador \(\widehat{\sigma}^{2}\) es insesgado.
Sean \(Y_{1}, \ldots, Y_{n}\) variables aleatorias independientes con \(Y_{i} \sim \mathbb{N}(\alpha + \theta z_{i}, \sigma^{2})\), \(i = 1, \ldots, n\), donde \(\{z_{i}\}\) son constantes conocidas, tales que \(\sum_{i=1}^{n} z_{i} = 0\). Obtenga el estimador de máxima verosimilitud (ML) de \(\beta = (\alpha, \theta)^{\top}\) y determine su matriz de covarianza. ¿Son \(\widehat{\alpha}\) y \(\widehat{\theta}\) independientes?
Dado que \(Y_{i} \sim \mathbb{N}(\alpha + \theta z_{i}, \sigma^{2})\), la función de verosimilitud conjunta es: \[ L(\alpha, \theta, \sigma^{2}; Y) = \prod_{i=1}^{n} \frac{1}{\sqrt{2\pi\sigma^{2}}} \exp\left(-\frac{(Y_{i} - \alpha - \theta z_{i})^{2}}{2\sigma^{2}}\right). \]
Tomamos el logaritmo de la verosimilitud: \[ \log L = -\frac{n}{2} \log(2\pi\sigma^{2}) - \frac{1}{2\sigma^{2}} \sum_{i=1}^{n} (Y_{i} - \alpha - \theta z_{i})^{2}. \]
Derivamos \(\log L\) con respecto a \(\alpha\) y \(\theta\) e igualamos a cero para maximizar la verosimilitud.
Derivada con respecto a \(\alpha\): \[ \frac{\partial \log L}{\partial \alpha} = \frac{1}{\sigma^{2}} \sum_{i=1}^{n} (Y_{i} - \alpha - \theta z_{i}) = 0. \] Resolviendo: \[ \sum_{i=1}^{n} Y_{i} - n\alpha - \theta \sum_{i=1}^{n} z_{i} = 0. \] Dado que \(\sum_{i=1}^{n} z_{i} = 0\), obtenemos: \[ \widehat{\alpha} = \frac{1}{n} \sum_{i=1}^{n} Y_{i}. \]
Derivada con respecto a \(\theta\): \[ \frac{\partial \log L}{\partial \theta} = \frac{1}{\sigma^{2}} \sum_{i=1}^{n} z_{i}(Y_{i} - \alpha - \theta z_{i}) = 0. \] Resolviendo: \[ \sum_{i=1}^{n} z_{i}Y_{i} - \alpha \sum_{i=1}^{n} z_{i} - \theta \sum_{i=1}^{n} z_{i}^{2} = 0. \] Dado que \(\sum_{i=1}^{n} z_{i} = 0\), obtenemos: \[ \widehat{\theta} = \frac{\sum_{i=1}^{n} z_{i}Y_{i}}{\sum_{i=1}^{n} z_{i}^{2}}. \]
La matriz de covarianza de \(\widehat{\beta}\) es: \[ \text{Cov}(\widehat{\beta}) = \sigma^{2} (X^{\top}X)^{-1}, \] donde \(X\) es la matriz de diseño: \[ X = \begin{bmatrix} 1 & z_{1} \\ 1 & z_{2} \\ \vdots & \vdots \\ 1 & z_{n} \end{bmatrix}. \]
Calculamos \(X^{\top}X\): \[ X^{\top}X = \begin{bmatrix} n & \sum_{i=1}^{n} z_{i} \\ \sum_{i=1}^{n} z_{i} & \sum_{i=1}^{n} z_{i}^{2} \end{bmatrix}. \] Dado que \(\sum_{i=1}^{n} z_{i} = 0\), la matriz se simplifica a: \[ X^{\top}X = \begin{bmatrix} n & 0 \\ 0 & \sum_{i=1}^{n} z_{i}^{2} \end{bmatrix}. \]
La inversa de \(X^{\top}X\) es: \[ (X^{\top}X)^{-1} = \begin{bmatrix} \frac{1}{n} & 0 \\ 0 & \frac{1}{\sum_{i=1}^{n} z_{i}^{2}} \end{bmatrix}. \]
Por lo tanto, la matriz de covarianza de \(\widehat{\beta}\) es: \[ \text{Cov}(\widehat{\beta}) = \sigma^{2} \begin{bmatrix} \frac{1}{n} & 0 \\ 0 & \frac{1}{\sum_{i=1}^{n} z_{i}^{2}} \end{bmatrix}. \]
Dado que la matriz de covarianza de \(\widehat{\beta}\) es diagonal, \(\widehat{\alpha}\) y \(\widehat{\theta}\) son independientes.