{r setup, include=FALSE} knitr::opts_chunk$set(echo = TRUE) library(dplyr) library(readr) library(knitr) library(ggplot2) library(knitr) Descripción Un estudio quiere generar un modelo que permita predecir la esperanza de vida media de los habitantes de una ciudad en función de diferentes variables.
Se dispone de información sobre: habitantes, analfabetismo, ingresos, esperanza de vida, asesinatos, universitarios, heladas, área y densidad poblacional.
Objetivo Realizar un análisis de datos identificando coeficientes de correlación entre variables así como un modelo de regresión lineal múltiple para determianr predicciones con nuevos datos.
Objetivos Específicos Cargar los datos Explorar los datos Limpiar los datos Determinar e Interpretar Coeficientes de Correlación Determinar el modelo de Regresión Lineal Múltiple (RLM) Determinar y generar el mejor modelo de RLM Interpretar estadísticos del mejor modelo Realizar predicciones con el mejor modelo Interpretar predicciones con el mejor modelo
datos= as.data.frame(state.x77)
str(datos)
summary(datos)
datos =mutate(.data=datos,dens_p= datos$Population *1000 / datos$Area)
kable(head(datos))
r=cor(datos)
r= as.data.frame(r)
kable(r)
Interpretaciones del coeficiente de Correlación con respecto a la esperanza de vida
El analfabetismo(-.588) y el asesinato(-.780) son los factores negativos mas destacables (teniendo una magnitud negativa considerable) a la esperanza de vida. Graduarse de preparatoria y los ingresos son los factores poditivos mas notorios.
Modelo de regresión lineal
m=lm(datos$`Life Exp`~datos$Population + datos$Income + datos$Illiteracy+datos$Murder+datos$`HS Grad`+datos$Frost+datos$Area+datos$dens_p)
summary(m)
Mejora del modelo
step(object = m,direction = "both",trace = 1)
Se puede determinar con lo obtenido de la operación anterior que las variables de población, asesinatos, graduados de preparatoria y de heladas son los más significativos
Mejor modelo
Life.Exp=datos$`Life Exp`
Population=datos$Population
Murder=datos$Murder
HS.Grad=datos$`HS Grad`
Frost=datos$Frost
m=lm(Life.Exp~Population+Murder+HS.Grad+Frost)
summary(m)
En el modelo, el valor Multiple R-squared indica que las variables seleccionadas representan el 73.6% de la variabilidad presente en la esperanza de vida.
Otras predicciones:
nv= data.frame(Population=c(500,2000,10000),Murder=c(4,12,15),`HS Grad`=c(60,40,20),Frost=c(150,100,50))
nv
Predicción:
pred= predict(m,nv)
pred
Conforme al modelo que se ha obtenido a partir del conjunto de datos, se ha logrado determinar la esperanza de vida en años basada en la incidencia de varios factores en tres casos diferentes, en los que podemos observar que la esperanza de vida en este determinado caso está circulando alrededor de los 70 años