Este taller está basado en los ejemplos del libro Data Analysis Using Regression and Multilevel/Hierarchical Models. Los autores del libro dispusieron los datos y los scripts de R en el siguiente enlace http://www.stat.columbia.edu/~gelman/arm/. Visite el enlace para descargar el material necesario.
Preguntas
- El usuario zorbar de Cross Validated preguntó hace algún tiempo sobre cómo simular datos para una regresión especial, en este enlace usted podrá encontrar la pregunta que zorbar hizo. Lea con detalle la pregunta de zorbar y luego responda los siguientes interrogantes.
- ¿Qué tipo de regresión interesa a zorbar?
- ¿Regresión logística y regresión Bernoulli es lo mismo?
- ¿Qué le respondió ocran a zorbar?
- Compare la forma para simular \(y\) que usó zorbar y la forma que usó Stéphane Laurent. ¿Qué puede usted concluir?
- ¿Cuál es la función de enlace que usó Stéphane Laurent?
- Escriba el vector de parámetros \(\boldsymbol{\Theta}\) que usó Stéphane Laurent.
- Use el código de ocram para simular \(n=100\) observaciones \(y_i\) y \(x_i\).
- Mire el código de Stéphane Laurent, ¿está cerca \(\hat{\boldsymbol{\Theta}}\) de \(\boldsymbol{\Theta}\)?
- Escriba las ecuaciones del modelo matemático que usó Stéphane Laurent. Complete lo siguiente:
\[\begin{align*}
y_i &\sim Bernoulli(p_i) \\
\text{logit}(p_i) &= \\
x1_{i} &\sim \\
x2_{i} &\sim
\end{align*}\]
- En este ejercicio usted va a realizar un estudio de simulación pequeño para estudiar qué tan bien se estiman los parámetros en un modelo de regresión logístico en función del número de observaciones \(n\) disponibles. En particular, considere el modelo de Stéphane Laurent.
Lo primero que usted debe hacer es definir los valores de \(n\) a usar. No inicie con \(n=3\) porque serían muy pocas observaciones y así cualquier modelo falla. Tampoco use \(n=10000000000\) porque serían demasiadas.
Luego de definir el vector \(n\) siga los siguientes pasos.
- Seleccionar un valor de \(n\).
- Simular \(n\) observaciones \(y_i\) y \(x_i\).
- Encontrar \(\hat{\beta}_0\), \(\hat{\beta}_1\) y \(\hat{\beta}_2\).
- Almacenar \(\hat{\beta}_0\), \(\hat{\beta}_1\) y \(\hat{\beta}_2\).
- Repetir los pasos anteriores \(nrep=1000\) veces.
- Calcular la media de todos los \(\hat{\beta}_0\), todos los \(\hat{\beta}_1\) y todos los \(\hat{\beta}_2\) anteriores.
- Repita los pasos anteriores para cada uno de los valores de \(n\) que usted eligió.
Luego de terminar los pasos anteriores presente los resultados en forma gráfica, construya una figura similar a la mostrada a continuación.
¿A partir de que valor de \(n\) las estimaciones están cerca de los valores reales de los parámetros?