1 Instrucciones generales

Este es un documento html interactivo en el cual usted deberá completar las instrucciones de R para obtener resultados.

Por favor presione el botón siguiente para activar el kernel de R.

De aquí en adelante usted deberá substituir las líneas de piso "___" con algo apropiado según cada caso.

2 Leyendo la base de datos sobre cangrejos

En esta actividad vamos a utilizar los datos de los cangrejos presentados en el capítulo 1 de Agresti (2015). Lo primero que usted debe hacer es leer la base de datos. Cambie ___ por la función read.table para leer la base de datos.

3 Análisis descriptivo

Lo primero que usted debe hacer es construir una tabla de frecuencias absolutas para la variables número de satélites. Cambie ___ por la función table para obtener la tabla.

Mire los resultados de la tabla anterior, a ojo, ¿cuál podría ser la media y la mediana de y?

Para ver qué tan bien es su capacidad de observación, cambie ___ por mean y median obtener la media y la mediana de y.

¿Qué tal funcionó el “ojímetro”?

Ahora usted debe construir un histograma para la variable número de satélites. Cambie ___ por la función hist para construir el histograma.

Ahora usted debe construir un diagrama de dispersión de y versus weigth usando la librería ggplot2. Cambie las ___ por el nombre de la librería y por el nombre de la variable para obtener el diagrama de dispersión.

4 Modelando la variable y con lm

Ahora usted tiene el reto de crear un modelo de regresión para explicar la media de la variable y en función de la variable weight, asumiendo una distribución normal para y. El modelo estadístico que nos interesa es el siguiente.

\[\begin{align} Y_i &\sim N(\mu_i, \sigma^2), \\ \mu_i &= \beta_0 + \beta_1 Weight_i, \\ \sigma^2 &= \text{constante} \end{align}\]

Usted va a estimar los parámetros del modelo anterior de dos formas, usando la función lm y usando la función glm.

El modelo llamado mod1 será construído con la función lm. Cambie ___ por la función lm para ajustar correctamente el modelo.

El modelo llamado mod2 será construído con la función glm. Cambie la primera ___ por la función glm y la segunda ___ por el nombre de la base de datos para ajustar correctamente el modelo.

¿Logra ver que ambos resultados coinciden?

Eso significa que el modelo ajustado sería el siguiente:

\[\begin{align} Y_i &\sim N(\hat{\mu}_i, \hat{\sigma}^2), \\ \hat{\mu}_i &= -1.99 + 2.01 \times Weight_i, \\ \hat{\sigma}^2 &= 2.93^2 \end{align}\]

Su tarea ahora es agregar la recta de regresión al modelo \(\hat{\mu}_i = -1.99 + 2.01 \times Weight_i\) al diagrama de dispersión de y versus weight. Cambie ___ por la función abline para agregar la recta.

Otra forma de obtener el gráfico anterior es usando el código mostrado abajo. Cambie la primer ___ por la función geom_smooth y la segunda ___ por blue para obtener el diagrama de dispersión con la recta de regresión.

¿Cuál de las dos formas le gusta más?

5 Modelando la variable y con glm

Ahora usted tiene el reto de crear un modelo de regresión para explicar la media de la variable y en función de la variable weight, asumiendo una distribución Poisson para y. El modelo estadístico que nos interesa es el siguiente.

\[\begin{align} Y_i &\sim Poisson(\mu_i), \\ \log(\mu_i) &= \beta_0 + \beta_1 Weight_i \end{align}\]

El modelo llamado mod3 será construído con la función glm. Cambie las ___ para ajustar correctamente el modelo.

Usando los resultados de la salida anterior que el modelo ajustado sería el siguiente:

\[\begin{align} Y_i &\sim Poisson(\hat{\mu}_i), \\ \hat{\mu}_i &= \exp(-0.43 + 0.59 \times Weight_i) \end{align}\]

Ahora usted va a agregar la curva estimada anterior al gráfico de dispersión original. Cambie la primer ___ por la función ggplot y la segunda ___ por geom_smooth

6 Comparando los dos modelos

En esta última parte usted va a comparar los dos ajustes mod2 y mod3 gráficamente. Corra el siguiente código sin cambiarle nada.

Usando solo la información de la figura:

  • ¿La variable weight si sirve para explicar la media de y?
  • ¿Será weigth una variable significativa en el modelo?
  • ¿Se podría mejorar el modelo?