1 Instrucciones generales

Este es un documento html interactivo en el cual usted deberá completar las instrucciones de R para obtener resultados.

Por favor presione el botón siguiente para activar el kernel de R.

De aquí en adelante usted deberá substituir las líneas de piso "___" con algo apropiado según cada caso.

2 Leyendo la base de datos sobre cangrejos

En esta actividad vamos a utilizar los datos de los cangrejos presentados en el capítulo 1 de Agresti (2015). Lo primero que usted debe hacer es leer la base de datos. Cambie ___ por la función read.table para leer la base de datos.

datos <- ___('http://users.stat.ufl.edu/~aa/glm/data/Crabs.dat', header=TRUE)
head(datos, n=5)

3 Análisis descriptivo

Lo primero que usted debe hacer es construir una tabla de frecuencias absolutas para la variables número de satélites. Cambie ___ por la función table para obtener la tabla.

___(datos$y)

Mire los resultados de la tabla anterior, a ojo, ¿cuál podría ser la media y la mediana de y?

Para ver qué tan bien es su capacidad de observación, cambie ___ por mean y median obtener la media y la mediana de y.

___(datos$y)
___(datos$y)

¿Qué tal funcionó el “ojímetro”?

Ahora usted debe construir un histograma para la variable número de satélites. Cambie ___ por la función hist para construir el histograma.

___(x=datos$y, breaks=0:17, col='pink', las=1, freq=FALSE, 
     main='', xlab='Número de satelites', ylab='Densidad')

Ahora usted debe construir un diagrama de dispersión de y versus weigth usando la librería ggplot2. Cambie las ___ por el nombre de la librería y por el nombre de la variable para obtener el diagrama de dispersión.

library(___)
ggplot(datos, aes(x=___, y=y)) + geom_point()

4 Modelando la variable `y` con `lm`

Ahora usted tiene el reto de crear un modelo de regresión para explicar la media de la variable y en función de la variable weight, asumiendo una distribución normal para y. El modelo estadístico que nos interesa es el siguiente.

\[\begin{align} Y_i &\sim N(\mu_i, \sigma^2), \\ \mu_i &= \beta_0 + \beta_1 Weight_i, \\ \sigma^2 &= \text{constante} \end{align}\]

Usted va a estimar los parámetros del modelo anterior de dos formas, usando la función lm y usando la función glm.

El modelo llamado mod1 será construído con la función lm. Cambie ___ por la función lm para ajustar correctamente el modelo.

mod1 <- ___(y ~ weight, data=datos)
coef(mod1)
sigma(mod1)

El modelo llamado mod2 será construído con la función glm. Cambie la primera ___ por la función glm y la segunda ___ por el nombre de la base de datos para ajustar correctamente el modelo.

mod2 <- ___(y ~ weight, family=gaussian(link=identity), data=___)
coef(mod2)

¿Logra ver que ambos resultados coinciden?

Eso significa que el modelo ajustado sería el siguiente:

\[\begin{align} Y_i &\sim N(\hat{\mu}_i, \hat{\sigma}^2), \\ \hat{\mu}_i &= -1.99 + 2.01 \times Weight_i, \\ \hat{\sigma}^2 &= 2.93^2 \end{align}\]

Su tarea ahora es agregar la recta de regresión al modelo \(\hat{\mu}_i = -1.99 + 2.01 \times Weight_i\) al diagrama de dispersión de y versus weight. Cambie ___ por la función abline para agregar la recta.

with(datos, plot(x=weight, y=y, las=1))
___(mod1, col='blue', lty='dashed')

Otra forma de obtener el gráfico anterior es usando el código mostrado abajo. Cambie la primer ___ por la función geom_smooth y la segunda ___ por blue para obtener el diagrama de dispersión con la recta de regresión.

ggplot(datos, aes(x=weight, y=y)) + 
  geom_point() +
  ___(method='lm', formula=y~x, 
              se=FALSE, col='___')

¿Cuál de las dos formas le gusta más?

5 Modelando la variable `y` con `glm`

Ahora usted tiene el reto de crear un modelo de regresión para explicar la media de la variable y en función de la variable weight, asumiendo una distribución Poisson para y. El modelo estadístico que nos interesa es el siguiente.

\[\begin{align} Y_i &\sim Poisson(\mu_i), \\ \log(\mu_i) &= \beta_0 + \beta_1 Weight_i \end{align}\]

El modelo llamado mod3 será construído con la función glm. Cambie las ___ para ajustar correctamente el modelo.

mod3 <- ___(y ~ weight, ___=poisson(link=log), data=datos)
coef(mod3)

Usando los resultados de la salida anterior que el modelo ajustado sería el siguiente:

\[\begin{align} Y_i &\sim Poisson(\hat{\mu}_i), \\ \hat{\mu}_i &= \exp(-0.43 + 0.59 \times Weight_i) \end{align}\]

Ahora usted va a agregar la curva estimada anterior al gráfico de dispersión original. Cambie la primer ___ por la función ggplot y la segunda ___ por geom_smooth

___(datos, aes(x=weight, y=y)) + 
  geom_point() +
  ___(method='glm', formula=y~x,
              method.args = list(family = "poisson"),
              se=FALSE, col='red')

6 Comparando los dos modelos

En esta última parte usted va a comparar los dos ajustes mod2 y mod3 gráficamente. Corra el siguiente código sin cambiarle nada.

ggplot(datos, aes(x=weight, y=y)) + 
  geom_point() +
  geom_smooth(method='lm', formula=y~x, 
              se=FALSE, col='dodgerblue1') +
  geom_smooth(method='glm', formula=y~x,
              method.args = list(family = "poisson"),
              se=FALSE, col='tomato')

Usando solo la información de la figura:

¿La variable weight si sirve para explicar la media de y?
¿Será weigth una variable significativa en el modelo?
¿Se podría mejorar el modelo?

Taller Capítulo 1 de Agresti (2015)

Freddy Hernandez

09 mayo, 2020

1 Instrucciones generales

2 Leyendo la base de datos sobre cangrejos

3 Análisis descriptivo

4 Modelando la variable `y` con `lm`

5 Modelando la variable `y` con `glm`

6 Comparando los dos modelos

Taller Capítulo 1 de Agresti (2015)

Freddy Hernandez

09 mayo, 2020

1 Instrucciones generales

2 Leyendo la base de datos sobre cangrejos

3 Análisis descriptivo

4 Modelando la variable y con lm

5 Modelando la variable y con glm

6 Comparando los dos modelos

4 Modelando la variable `y` con `lm`

5 Modelando la variable `y` con `glm`