Importo la base de datos
library(readxl)
## Warning: package 'readxl' was built under R version 3.6.3
caso <- read_excel("C:/Users/HP/Desktop/virtual/programacion en R/caso.xlsx")
View(caso)
attach(caso)
LITERAL A- DIAGRAMA DISPERSIÓN
plot(desempleo, homicidios, pch=16)
El grafico muestra relación directa entre variables aunque esta no es lineal
LITERAL B- COEFICIENTE CORRELACIÓN
cor(homicidios, desempleo)
## [1] 0.9608183
Esta correlacion indica que el nivel de asociacion entre el desempleo y los homicidios es muy fuerte.
LITERAL C- MODELO DE REGRESION LINEAL
regresion=lm(homicidios~desempleo)
summary(regresion)
##
## Call:
## lm(formula = homicidios ~ desempleo)
##
## Residuals:
## Min 1Q Median 3Q Max
## -19.335 -11.928 -4.618 6.006 62.193
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -628.936 35.846 -17.55 <2e-16 ***
## desempleo 63.751 2.983 21.37 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 18.06 on 38 degrees of freedom
## Multiple R-squared: 0.9232, Adjusted R-squared: 0.9212
## F-statistic: 456.6 on 1 and 38 DF, p-value: < 2.2e-16
ante un cambio marginal de 1 por ciento en la tasa de desemeplo se da un cambio en la misma direccion de 63,75 casos por cada cien mil habitantes, ceteris paribus con una confianza de casio 100%.
adicionalmente el modelo en su conjunto explica el 92% de los cambios en la tasa de homicidios por cada 100 mil habitantes y ademas es estadisiticamente signifcativo.
LITERAL D- VALIDACION DE SUPUESTOS
par(mfrow=c(2,2))
plot(regresion)
El primer y segundo grafico nos muestra que efectivamente los residuales heredan el comportamiento de la relacion entre la variable explicativa y explicada, es decir que esos residuales tampoco se realcionan linealmente con la estimación, por tanto no hay aleatoriedad en los errores.
El segundo grafico apoya lo anterior, puesto que los puntos, que son los residuales, no se ajustan a la distribución normal representada por la linea punteada.
Lo anterior nos muestra que no es modelo bien especificado, por lo que hay que realizarle ajustes para poder realizar el literal b. A continuacion se ajusta logaritmicamente.
Regresion2=lm(log(homicidios)~ desempleo)
summary(Regresion2)
##
## Call:
## lm(formula = log(homicidios) ~ desempleo)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.08538 -0.02273 0.00001 0.02223 0.09549
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -1.027556 0.075235 -13.66 3.08e-16 ***
## desempleo 0.486124 0.006262 77.64 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.03791 on 38 degrees of freedom
## Multiple R-squared: 0.9937, Adjusted R-squared: 0.9936
## F-statistic: 6027 on 1 and 38 DF, p-value: < 2.2e-16
En este caso la interpretación del coeficiente pasa a ser ante un cambio unitario en la tasa de desempleo se genera un cambio porcentual en tasa de homicidios por cada cienmil habitantes.
Ademas este modelo tiene mejor bondad de ajuste.
Respecto a los supuestos de este segundo modelo
par(mfrow=c(2,2))
plot(Regresion2)
Los 4 graficos muestran menor componente sistematico de los residuales por lo que son aletarios, y se ajustan mejor a una distribucion normal.
Se hace necesario realizar pruebas formales de validacion de supuestos, pero inicialmente es posible tomarlo como un modelo bueno para hacer predicciones.
LITERAL E- PREDECIR
Teniendo en cuenta que es un modelo logaritmico, le aplico exponencial para predecir si el desempleo disminuye 11%
exp(predict(Regresion2, newdata=list(desempleo=11)))
## 1
## 75.17389
este resultado muestra que ante una reduccion de 11% en la tasa de desempleo se genera una disminucion de 75 casos de homicidios por cada 100mil habitantes.