Este taller está basado en los ejemplos del libro Data Analysis Using Regression and Multilevel/Hierarchical Models. Los autores del libro dispusieron los datos y los scripts de R en el siguiente enlace http://www.stat.columbia.edu/~gelman/arm/. Visite el enlace para descargar el material necesario.
Preguntas
- El usuario Michael de Cross Validated preguntó hace algún tiempo sobre cómo simular datos para una regresión especial, en este enlace usted podrá encontrar la pregunta que Michael hizo. Lea con detalle la pregunta de Michael y las respuestas que le dieron, luego responda los siguientes interrogantes.
- ¿En qué tipo de regresión estaba interesado Michael?
- ¿Cuál de las dos respuestas (la de ocram o la de Mark) usted considera que es más intuitiva para simular datos?
- ¿Cuál de las dos respuestas tiene mayor número de votos favorables?
- Escriba el vector de parámetros \(\boldsymbol{\Theta}\) que usó ocram.
- Use el código de ocram para simular \(n=100\) observaciones \(y_i\) y \(x_i\).
- Estime el vector \(\boldsymbol{\Theta}\) con los datos anteriores.
- ¿Está cerca \(\hat{\boldsymbol{\Theta}}\) de \(\boldsymbol{\Theta}\)?
- Simule 10 observaciones para el siguiente modelo.
\[\begin{align*}
y_i &\sim Poisson(\lambda_i), \\
\log(\lambda_i) &= 2 + 0.5 x_{i}, \\
x_i &\sim U(0, 1).
\end{align*}\]
- En este ejercicio usted va a realizar un estudio de simulación pequeño para estudiar qué tan bien se estiman los parámetros en un modelo de regresión Poisson en función del número de observaciones \(n\) disponibles. En particular, considere el modelo del ejercicio anterior para la simulación.
Lo primero que usted debe hacer es definir los valores de \(n\) a usar. No inicie con \(n=3\) porque serían muy pocas observaciones y así cualquier modelo falla. Tampoco use \(n=10000000000\) porque serían demasiadas.
Luego de definir el vector \(n\) siga los siguientes pasos.
- Seleccionar un valor de \(n\).
- Simular \(n\) observaciones \(y_i\) y \(x_i\).
- Encontrar \(\hat{\beta}_0\) y \(\hat{\beta}_1\).
- Almacenar \(\hat{\beta}_0\) y \(\hat{\beta}_1\).
- Repetir los pasos anteriores \(nrep=1000\) veces.
- Calcular la media de todos los \(\hat{\beta}_0\) y todos los \(\hat{\beta}_1\) anteriores.
- Repita los pasos anteriores para cada uno de los valores de \(n\) que usted eligió.
Luego de terminar los pasos anteriores presente los resultados en forma gráfica, construya una figura similar a la mostrada a continuación.
¿A partir de que valor de \(n\) las estimaciones están cerca de los valores reales de los parámetros?