Ejercicio 8: Modelo lineal general, parte 2.!
El objetivo del ejercicio 8 es lograr enfrentarse a la situación de elegir un modelo lineal, poder ajustarlo a los datos, revisarlo, y sacar conclusiones interpretando sus parámetros y los diversos análisis que se pueden hacer.
Caso 1 - Enojo, tipo de ofertas, sexo y depresión
Primero vamos a trabajar con los datos del estudio de Valentina Paz et al., de la tarea del Ultimatum Game que usamos en el ejercicio 5.
Si no tienen en su entorno de trabajo un data frame llamado parts3, sigan el ejercicio 5 hasta lograr el paso 3 (de la sección “datos anchos”).
Tip: a cada modelo lineal que construyan, pónganle un nombre diferente. Sugiero que el nombre siempre comience con el nombre del data frame sobre el que hacen el modelo, seguido de “.lm”, y luego algún tipo de indiciador. Por ejemplo: “parts3.lm0”, “parts3.lm2”, “parts3.beck.sex.lm”, etc.
- Ajustar un modelo lineal en el que el enojo tenga a la escala “Beck” de depresión como predictor.
- Evaluar los parámetros del modelo. ¿Qué parámetros son significativamente diferentes de 0? ¿Cómo se interpretan estos resultados?
- Ajustar otro modelo lineal con la escala “Beck” y el tipo de oferta como predictores. Ponerle a este modelo un nombre diferente.
- Examinar los parámetros del modelo. ¿Hay efectos de la escala de depresión sobre el enojo? Contrastar con el punto 2.
- Evaluar el ajuste del modelo. ¿Cómo lucen los residuos?
- Hacer un ANOVA de tipo 3 sobre este modelo. (Recordar usar la librería
car, y la función Anova()).
- Usando la función
anova(), comparar el primer y el segundo modelo. Revisar el F y el p-valor. ¿El segundo modelo ajusta significativamente mejor que el primero?
- Comparar los resultados de los puntos 6 y 7 (Fs y ps). ¿Qué está sucediendo?
- Usar el paquete
lsmeans (ver diapos clase 1 y clase 2 de modelos lineales.
- Ajustar otro modelo con “Beck”, tipo de oferta, y su interacción como predictores. ¿Vale la pena incluir la interacción (es decir, ajusta mejor el modelo)?
- Ajustar otro modelo con “Beck”, tipo de oferta, sexo, y sus interacciones como predictores. Interpretar los parámetros del modelo.
- La segunda parte del punto 11 era una broma ;). Mejor hagan un ANOVA tipo 3 y evalúen qué está sucediendo. ¿Qué interacciones resultan significativas? Comparar con lo obtenido en el punto 10.
Caso 2 - Efecto Simpson
Para el siguiente truco, precisaremos instalar (y cargar) el paquete UsingR. Usaremos los datos de la prueba SAT(Scholastic Assessment Test), es una prueba estandarizada cuyo objetivo es evaluar la aptitud de un estudiante para ingresar a la educación terciaria. Fue concebida en los Estados Unidos, donde se aplica masivamente a estudiantes egresados de secundaria. Los resultados de la prueba suelen utilizarse en la admisión a los Colleges.
En el data frame SAT, usaremos el puntaje promedio (total), el gasto en educación (expend), y el porcentaje de estudiantes egresados de secundaria que toma la prueba (perc), para cada uno de los estados de la unión.
- Cargar los datos:
library(UsingR)
data(SAT)
Esto crea un data frame que se llama SAT.
- Ajustar un modelo lineal con el puntaje promedio como la variable respuesta, y el gasto promedio en educación como la predictora. ¿Hay relación entre las variables? Interpretar.
- Graficar (usando
ggplot2) el puntaje promedio vs. el gasto en educación. Agregar la recta de regresión.
- Ajustar un modelo lineal con el puntaje promedio como la variable respuesta, y el porcentaje de estudiantes que da la prueba como la predictora. ¿Hay relación entre las variables? Interpretar.
- Graficar las varibles del modelo anterior.
- Ajustar un modelo lineal con el porcentaje de estudiantes que da la prueba como la variable respuesta, y el gasto en educación como la predictora. ¿Hay relación entre las variables? Interpretar.
- Ajustar un modelo lineal con el puntaje promedio como la variable respuesta, y el porcentaje de estudiantes que da la prueba y el gasto en educación como la predictora. ¿Hay relación entre las variables? Interpretar.
- ¿Difieren los parámetros para la variable
expend entre el primer modelo y el último? ¿Qué cornos está pasando?
- Ploteen esto:
ggplot(data=SAT,aes(x=expend,y=total,col=perc,size=perc))+geom_point(size=4)+labs(x="Gasto en educación",y="Puntaje SAT",col="% da prueba")+ theme(text=element_text(size=24))+geom_smooth(method="lm",se=FALSE)
En este link se pueden encontrar las soluciones