En la sesión 7 vimos modelos lineales generales, para variables numéricas y para variables categóricas, y la interpretación de la salida de ajustes a varios modelos lineales generales.
Vimos 3 modelos principales:
Vamos a hacer los mismos ajustes e interpretarlos (y alguna cosita más).
Veamos los datos primero gráficamente con ggplot2:
ggplot.stat_smooth(method = "lm")La versión gráfica nos da una idea del modelo que estamos tratando de ajustar. Si miramos el código vemos que usa el método ‘lm’, vemos que tiene pendiente positiva, vemos que la recta parece ser el ajuste apropiado (versus una exponencial, por ejemplo) pero no nos devuelve los parámetros. Hagamos ahora el ajuste.
lm, asignarlo a una variable con el nombre de “npi.lm” y mirar la salida con la función summaryLo primero que vemos en el resumen es la fórmula, para recordarnos qué es lo que estamos tratando de ajustar.
En segundo lugar vemos los residuos (la diferencia entre cada valor real y el valor “predicho” por el modelo, se acuerdan?), recuerden que esperamos que la mediana se acerque a 0, y que tengan poca variabilidad. Lo mejor es explorarlos en mayor detalle con la función genérica plot pero lo vamos a dejar para más adelante.
Lo tercero, y de mayor interés, son los coeficientes. Como vimos, los parámetros aparecen en la columna Estimate: el intercepto (b) en la fila (Intercept) y la pendiente (a) en la fila SDTOTAL. Estos parámetros son los que vimos en la ecuación de la recta:y = ax + b. Ahora que tenemos los parámetros del ajuste, sabiendo un valor de dominancia social podemos predecir el valor esperado de narcisimo cierto?
coef puedo obtener los coeficientes del modelo sin tener que copiarlos a mano.Por último, vimos que una regresión lineal como esta (con una sola variable predictora) es equivalente a una correlación. Vamos a compararlas:
cor.test(atentos al argumento use, buscar en la ayuda). Comparar los estadísticos t y r obtenidos con los obtenidos en el modelo anterior.Vamos a trabajar con el mismo dataframe, pero ahora vamos a evaluar diferencias en el puntaje de narcisismo entre hombres y mujeres.
Ya que estamos, probar este código para ver los datos en diagrama de cajas en lugar de barras: ggplot(datosLimpios, aes(x=Sex, y=NPI16TOTAL, fill=Sex)) + geom_boxplot(notch = T). La cintura muestra la mediana, los límites de las cajas el rango intercuartil, los bigotes el máximo y el mínimo, los puntos muestran los outliers y la cuña (notch) muestra el intervalo de confianza al 95%. Mirando esto, y comparando ambas cajas, soy capaz de saber si hay una diferencia significativa entre los sexos. Pero ajustemos un modelo para testearlo.
¿Hay una diferencia significativa entre los sexos?
Dijimos que cuando tenemos variables categóricas como predictores, entonces el parámetro de intercepto (b) corresponde a la media del nivel de base. ¿Cuál es el nivel de base? ¿Por qué? ¿Coincide con la media? Corroborarlo.
¿Y cómo se interpreta la pendiente?
Acá están las soluciones