1. (15 pts) What is a design matrix in the context of linear models?

  1. A matrix containing the observed responses
  2. A matrix containing the predictor variables and their coefficients
  3. A matrix that organizes predictor variables into a structured form for modeling
  4. A matrix used for storing residuals

Respuesta: c) A matrix that organizes predictor variables into a structured form for modeling

Justificacion: La matriz de diseño organiza las variables predictoras en una forma estructurada para el modelado.

2. (15 pts) Which property must the design matrix satisfy to ensure a unique solution in an OLS regression?

  1. It must be square
  2. It must have full column rank
  3. It must be symmetric
  4. It must contain only binary values

Respuesta: b) It must have full column rank

Justificacion: La matriz de diseño debe tener rango de columna completo para garantizar una solución única en Mínimos Cuadrados.

3. (30 pts)

Considere el modelo lineal \[ Y = X\beta + \epsilon, \] con \(\mathsf{E}(\epsilon) = 0\) y \(\mathsf{Cov}(\epsilon) = \sigma^{2}I\).

Parte a)

Muestre que \[ \|Y - X\beta\|^{2} = \|Y - X\widehat{\beta}\|^{2} + (\widehat{\beta} - \beta)^{\top}X^{\top}X(\widehat{\beta} - \beta), \] y deduzca que \(Q(\beta) = \|Y - X\beta\|^{2}\) es minimizado para \(\beta = \widehat{\beta}\), donde \[ \widehat{\beta} = (X^{\top}X)^{-1}X^{\top}Y. \]

Solución:

Dado el modelo lineal: \[ Y = X\beta + \epsilon, \] con \(\mathsf{E}(\epsilon) = 0\) y \(\mathsf{Cov}(\epsilon) = \sigma^{2}I\), queremos demostrar que: \[ \|Y - X\beta\|^{2} = \|Y - X\widehat{\beta}\|^{2} + (\widehat{\beta} - \beta)^{\top}X^{\top}X(\widehat{\beta} - \beta), \] y deducir que \(Q(\beta) = \|Y - X\beta\|^{2}\) se minimiza para \(\beta = \widehat{\beta}\), donde: \[ \widehat{\beta} = (X^{\top}X)^{-1}X^{\top}Y. \]


Paso 1: Descomposición de \(Y - X\beta\)

Partimos de la expresión original: \[ Y - X\beta. \] Aquí, \(Y\) es el vector de observaciones, \(X\) es la matriz de diseño, y \(\beta\) es el vector de coeficientes.

Sumamos y restamos \(X\widehat{\beta}\): \[ Y - X\beta = Y - X\beta + X\widehat{\beta} - X\widehat{\beta}. \] Esto no cambia la expresión, ya que estamos sumando y restando el mismo término (\(X\widehat{\beta}\)).

Reorganizamos los términos: \[ Y - X\beta = (Y - X\widehat{\beta}) + (X\widehat{\beta} - X\beta). \] Aquí hemos agrupado los términos de manera que \(Y - X\widehat{\beta}\) y \(X\widehat{\beta} - X\beta\) queden separados.

Factorizamos \(X\) en el segundo término: \[ Y - X\beta = (Y - X\widehat{\beta}) + X(\widehat{\beta} - \beta). \]


Paso 2: Cálculo de la norma al cuadrado

Calculamos la norma al cuadrado de \(Y - X\beta\): \[ \|Y - X\beta\|^{2} = \|(Y - X\widehat{\beta}) + X(\widehat{\beta} - \beta)\|^{2}. \]

Expandimos la norma al cuadrado: \[ \|Y - X\beta\|^{2} = \|Y - X\widehat{\beta}\|^{2} + \|X(\widehat{\beta} - \beta)\|^{2} + 2(Y - X\widehat{\beta})^{\top}X(\widehat{\beta} - \beta). \]


Paso 3: El término cruzado es cero

Observamos que el término cruzado es cero porque: \[ X^{\top}(Y - X\widehat{\beta}) = 0, \] ya que \(\widehat{\beta}\) minimiza \(Q(\beta)\).

Por lo tanto, la expresión se reduce a: \[ \|Y - X\beta\|^{2} = \|Y - X\widehat{\beta}\|^{2} + (\widehat{\beta} - \beta)^{\top}X^{\top}X(\widehat{\beta} - \beta). \]

Parte b)

Verifique que \(e^{\top}\widehat{Y} = 0\), donde \(e = Y - \widehat{Y}\) y \(\widehat{Y} = X\widehat{\beta}\).

Solución:

Queremos demostrar que \(e^{\top}\widehat{Y} = 0\), donde: - \(e = Y - \widehat{Y}\) es el vector de residuos. - \(\widehat{Y} = X\widehat{\beta}\) es el vector de valores predichos.

Paso 1: Expresamos \(e\) y \(\widehat{Y}\)

Sabemos que: \[ e = Y - \widehat{Y} = Y - X\widehat{\beta}, \] y \[ \widehat{Y} = X\widehat{\beta}. \]

Paso 2: Calculamos \(e^{\top}\widehat{Y}\)

Sustituimos \(e\) y \(\widehat{Y}\) en \(e^{\top}\widehat{Y}\): \[ e^{\top}\widehat{Y} = (Y - X\widehat{\beta})^{\top}X\widehat{\beta}. \]

Paso 3: Expandimos el producto

Expandimos el producto: \[ e^{\top}\widehat{Y} = Y^{\top}X\widehat{\beta} - \widehat{\beta}^{\top}X^{\top}X\widehat{\beta}. \]

Paso 4: Usamos la definición de \(\widehat{\beta}\)

Sabemos que \(\widehat{\beta} = (X^{\top}X)^{-1}X^{\top}Y\), por lo que: \[ Y^{\top}X\widehat{\beta} = Y^{\top}X(X^{\top}X)^{-1}X^{\top}Y. \] Además, \(\widehat{\beta}^{\top}X^{\top}X\widehat{\beta}\) es igual a: \[ \widehat{\beta}^{\top}X^{\top}X\widehat{\beta} = Y^{\top}X(X^{\top}X)^{-1}X^{\top}Y. \]

Paso 5: Simplificamos

Sustituyendo en la expresión de \(e^{\top}\widehat{Y}\): \[ e^{\top}\widehat{Y} = Y^{\top}X(X^{\top}X)^{-1}X^{\top}Y - Y^{\top}X(X^{\top}X)^{-1}X^{\top}Y = 0. \]

Conclusión:

Hemos demostrado que: \[ e^{\top}\widehat{Y} = 0. \]

Parte c)

Suponga que \(\epsilon \sim \mathbb{N}_{n}(0, \sigma^{2}I_{n})\). Determine la distribución de \(Z = A^{\top}Y\), donde \(A \in \mathbb{R}^{n \times (n-p)}\) y satisface: \[ A^{\top}X = 0, \quad A(A^{\top}A)^{-1}A^{\top} = I - X(X^{\top}X)^{-1}X^{\top}. \] Obtenga el estimador de máxima verosimilitud (ML) de \(\sigma^{2}\) basado en la distribución de \(Z\). ¿Este estimador es insesgado?

Solución:

Paso 1: Distribución de \(Z = A^{\top}Y\)

Dado que \(Y = X\beta + \epsilon\) y \(\epsilon \sim \mathbb{N}_{n}(0, \sigma^{2}I_{n})\), entonces: \[ Z = A^{\top}Y = A^{\top}X\beta + A^{\top}\epsilon. \]

Como \(A^{\top}X = 0\), se tiene: \[ Z = A^{\top}\epsilon. \]

Dado que \(\epsilon \sim \mathbb{N}_{n}(0, \sigma^{2}I_{n})\), entonces \(Z\) es una combinación lineal de \(\epsilon\), y por lo tanto: \[ Z \sim \mathbb{N}_{n-p}(0, \sigma^{2}A^{\top}A). \]


Paso 2: Función de verosimilitud de \(Z\)

La función de verosimilitud de \(Z\) es: \[ L(\sigma^{2}; Z) = \frac{1}{(2\pi\sigma^{2})^{(n-p)/2}} \exp\left(-\frac{Z^{\top}(A^{\top}A)^{-1}Z}{2\sigma^{2}}\right). \]

Tomamos el logaritmo de la verosimilitud: \[ \log L = -\frac{n-p}{2} \log(2\pi\sigma^{2}) - \frac{Z^{\top}(A^{\top}A)^{-1}Z}{2\sigma^{2}}. \]


Paso 3: Estimador de máxima verosimilitud (ML) de \(\sigma^{2}\)

Derivamos \(\log L\) con respecto a \(\sigma^{2}\) e igualamos a cero para maximizar la verosimilitud: \[ \frac{\partial \log L}{\partial \sigma^{2}} = -\frac{n-p}{2\sigma^{2}} + \frac{Z^{\top}(A^{\top}A)^{-1}Z}{2\sigma^{4}} = 0. \]

Resolviendo para \(\sigma^{2}\), obtenemos el estimador ML: \[ \widehat{\sigma}^{2} = \frac{Z^{\top}(A^{\top}A)^{-1}Z}{n-p}. \]


Paso 4: Verificación de insesgamiento

Calculamos la esperanza de \(\widehat{\sigma}^{2}\): \[ \mathsf{E}(\widehat{\sigma}^{2}) = \frac{\mathsf{E}(Z^{\top}(A^{\top}A)^{-1}Z)}{n-p}. \]

Dado que \(Z \sim \mathbb{N}_{n-p}(0, \sigma^{2}A^{\top}A)\), entonces: \[ \mathsf{E}(Z^{\top}(A^{\top}A)^{-1}Z) = \sigma^{2} \text{tr}((A^{\top}A)^{-1}A^{\top}A) = \sigma^{2}(n-p). \]

Por lo tanto: \[ \mathsf{E}(\widehat{\sigma}^{2}) = \frac{\sigma^{2}(n-p)}{n-p} = \sigma^{2}. \]

Concluimos que el estimador \(\widehat{\sigma}^{2}\) es insesgado.


Conclusión:

  • La distribución de \(Z\) es: \[ Z \sim \mathbb{N}_{n-p}(0, \sigma^{2}A^{\top}A). \]
  • El estimador de máxima verosimilitud de \(\sigma^{2}\) es: \[ \widehat{\sigma}^{2} = \frac{Z^{\top}(A^{\top}A)^{-1}Z}{n-p}. \]
  • Este estimador es insesgado.

Pregunta 4 (25 pts)

Sean \(Y_{1}, \ldots, Y_{n}\) variables aleatorias independientes con \(Y_{i} \sim \mathbb{N}(\alpha + \theta z_{i}, \sigma^{2})\), \(i = 1, \ldots, n\), donde \(\{z_{i}\}\) son constantes conocidas, tales que \(\sum_{i=1}^{n} z_{i} = 0\). Obtenga el estimador de máxima verosimilitud (ML) de \(\beta = (\alpha, \theta)^{\top}\) y determine su matriz de covarianza. ¿Son \(\widehat{\alpha}\) y \(\widehat{\theta}\) independientes?


Solución:

Paso 1: Función de verosimilitud

Dado que \(Y_{i} \sim \mathbb{N}(\alpha + \theta z_{i}, \sigma^{2})\), la función de verosimilitud conjunta es: \[ L(\alpha, \theta, \sigma^{2}; Y) = \prod_{i=1}^{n} \frac{1}{\sqrt{2\pi\sigma^{2}}} \exp\left(-\frac{(Y_{i} - \alpha - \theta z_{i})^{2}}{2\sigma^{2}}\right). \]

Tomamos el logaritmo de la verosimilitud: \[ \log L = -\frac{n}{2} \log(2\pi\sigma^{2}) - \frac{1}{2\sigma^{2}} \sum_{i=1}^{n} (Y_{i} - \alpha - \theta z_{i})^{2}. \]


Paso 2: Estimadores de máxima verosimilitud (ML) de \(\alpha\) y \(\theta\)

Derivamos \(\log L\) con respecto a \(\alpha\) y \(\theta\) e igualamos a cero para maximizar la verosimilitud.

  1. Derivada con respecto a \(\alpha\): \[ \frac{\partial \log L}{\partial \alpha} = \frac{1}{\sigma^{2}} \sum_{i=1}^{n} (Y_{i} - \alpha - \theta z_{i}) = 0. \] Resolviendo: \[ \sum_{i=1}^{n} Y_{i} - n\alpha - \theta \sum_{i=1}^{n} z_{i} = 0. \] Dado que \(\sum_{i=1}^{n} z_{i} = 0\), obtenemos: \[ \widehat{\alpha} = \frac{1}{n} \sum_{i=1}^{n} Y_{i}. \]

  2. Derivada con respecto a \(\theta\): \[ \frac{\partial \log L}{\partial \theta} = \frac{1}{\sigma^{2}} \sum_{i=1}^{n} z_{i}(Y_{i} - \alpha - \theta z_{i}) = 0. \] Resolviendo: \[ \sum_{i=1}^{n} z_{i}Y_{i} - \alpha \sum_{i=1}^{n} z_{i} - \theta \sum_{i=1}^{n} z_{i}^{2} = 0. \] Dado que \(\sum_{i=1}^{n} z_{i} = 0\), obtenemos: \[ \widehat{\theta} = \frac{\sum_{i=1}^{n} z_{i}Y_{i}}{\sum_{i=1}^{n} z_{i}^{2}}. \]


Paso 3: Matriz de covarianza de \(\widehat{\beta} = (\widehat{\alpha}, \widehat{\theta})^{\top}\)

La matriz de covarianza de \(\widehat{\beta}\) es: \[ \text{Cov}(\widehat{\beta}) = \sigma^{2} (X^{\top}X)^{-1}, \] donde \(X\) es la matriz de diseño: \[ X = \begin{bmatrix} 1 & z_{1} \\ 1 & z_{2} \\ \vdots & \vdots \\ 1 & z_{n} \end{bmatrix}. \]

Calculamos \(X^{\top}X\): \[ X^{\top}X = \begin{bmatrix} n & \sum_{i=1}^{n} z_{i} \\ \sum_{i=1}^{n} z_{i} & \sum_{i=1}^{n} z_{i}^{2} \end{bmatrix}. \] Dado que \(\sum_{i=1}^{n} z_{i} = 0\), la matriz se simplifica a: \[ X^{\top}X = \begin{bmatrix} n & 0 \\ 0 & \sum_{i=1}^{n} z_{i}^{2} \end{bmatrix}. \]

La inversa de \(X^{\top}X\) es: \[ (X^{\top}X)^{-1} = \begin{bmatrix} \frac{1}{n} & 0 \\ 0 & \frac{1}{\sum_{i=1}^{n} z_{i}^{2}} \end{bmatrix}. \]

Por lo tanto, la matriz de covarianza de \(\widehat{\beta}\) es: \[ \text{Cov}(\widehat{\beta}) = \sigma^{2} \begin{bmatrix} \frac{1}{n} & 0 \\ 0 & \frac{1}{\sum_{i=1}^{n} z_{i}^{2}} \end{bmatrix}. \]


Paso 4: Independencia de \(\widehat{\alpha}\) y \(\widehat{\theta}\)

Dado que la matriz de covarianza de \(\widehat{\beta}\) es diagonal, \(\widehat{\alpha}\) y \(\widehat{\theta}\) son independientes.


Conclusión:

  • Los estimadores de máxima verosimilitud de \(\alpha\) y \(\theta\) son: \[ \widehat{\alpha} = \frac{1}{n} \sum_{i=1}^{n} Y_{i}, \quad \widehat{\theta} = \frac{\sum_{i=1}^{n} z_{i}Y_{i}}{\sum_{i=1}^{n} z_{i}^{2}}. \]
  • La matriz de covarianza de \(\widehat{\beta}\) es: \[ \text{Cov}(\widehat{\beta}) = \sigma^{2} \begin{bmatrix} \frac{1}{n} & 0 \\ 0 & \frac{1}{\sum_{i=1}^{n} z_{i}^{2}} \end{bmatrix}. \]
  • \(\widehat{\alpha}\) y \(\widehat{\theta}\) son independientes.