##Desarrollo

require(ggplot2)
require(plotly)
require(forecast)
require(tseries)
require(fGarch)
require(GGally)
require(fBasics)
require(timeDate)
require(corrplot)
require(pander)

#Datos que usaremos 

  library(readxl)
caso <- read_excel("D:/ENAR/UNIVERSIDAD/6TO SEMESTRE/programacion R/caso.xlsx")
View(caso)


#1) gráfica
attach(caso)
plot(caso)

plot(desempleo,homicidios, pch=16)

Respecto a la gráfica se puede decir que hay una relación positiva entre los homicidios y la tasa de desempleo en ese lugar.

#2). Correlaicón. 

cor(desempleo,homicidios)
## [1] 0.9608183

A partir de este resultado se puede reforzar lo dicho con la gráfica, de que estas dos variable tienen una alta relación.

model = lm(homicidios~desempleo)

pander(summary(model))
  Estimate Std. Error t value Pr(>|t|)
(Intercept) -628.9 35.85 -17.55 8.138e-20
desempleo 63.75 2.983 21.37 8.924e-23
Fitting linear model: homicidios ~ desempleo
Observations Residual Std. Error \(R^2\) Adjusted \(R^2\)
40 18.06 0.9232 0.9212

Al obtener los resultados del modelo, se pueden ver que la variable “desempleo” tiene alta significancia, lo que significa que sí tiene poder de explicación sobre la variable dependiente. Ahora, a partir del coeficiente obtenido, se puede concluir que, si el desempleo aumenta en un 1%, los homicidios aumentarían en 63,75 casos por cada 100.000 habitantes, en promedio. Por otro lado, el R cuadrado obtenido, que es de 0,92, se puede reforzar la idea de que el modelo tiene una alta significancia y sí hay un alto nivel de explicación por parte de la variable regresora, en este caso el desempleo, hacia la variable dependiente.

par(mfrow=c(2,2))
plot (model)

El supuesto de homocedasticidad, el cual se comprueba con el gráfico de “residuals vs fitted values”, se puede ver que tienen un comportamiento como en forma de U, por lo que no se cumple este supuesto en este caso ya que debería ser varianza constante y no lo es. Esto puede ser porque ya desde el gráfico de correlación se vio que había una relación positiva, pero no exactamente lineal sino mas bien tenia una forma logaritmica.

model2 = lm(log(homicidios)~desempleo)

par(mfrow=c(2,2))
plot (model2)

pander(summary(model2))
  Estimate Std. Error t value Pr(>|t|)
(Intercept) -1.028 0.07524 -13.66 3.08e-16
desempleo 0.4861 0.006262 77.63 1.788e-43
Fitting linear model: log(homicidios) ~ desempleo
Observations Residual Std. Error \(R^2\) Adjusted \(R^2\)
40 0.03791 0.9937 0.9936

Cómo observamos, el cambio de escala en la variable regresada ha cambiado significativamente la distribución de los errores. Algo que corroboramos en las gráficas. Donde podemos observar menos datos atípicos. Además de ello, contemplamos un r-ajustado mucho más alto al del modelo anterior, presentando un modelo que explica, a partir de la variable del desempleo, 99% de los cambios dados en los homicidios.

prediccion = exp(predict(model2, newdata = list(desempleo=11)))
prediccion
##        1 
## 75.17389

Tenemos que si el desempleo se reduce un 11% se espera que la tasa de homicidios sea de 75.17389 casos por cada 100.000 habitantes.