MODULO 3. METODOS Y SIMULACION ESTADISTICA
TALLER DE SIMULACION ESTADISTICA EN R
Alumno: Oscar Andres Ramirez Avendaño
codigo: 1118863919
Maestria en Ciencia de datos
Pontificia Universidad Javeriana
library(readxl)
caso <- read_excel("Modulo 3/caso.xlsx")
View(caso)
attach(caso)
summary(desempleo)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 10.06 11.19 11.99 11.98 12.65 14.02
summary(homicidios)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 51.61 80.72 121.38 134.61 176.94 327.05
plot(desempleo,homicidios)
cor(desempleo,homicidios)
## [1] 0.9608183
Se observa un coeficiente de correlacion del 96% lo cual indicada un grado de correcion muy fuerte.
modelo=lm(homicidios~desempleo)
summary(modelo)
##
## Call:
## lm(formula = homicidios ~ desempleo)
##
## Residuals:
## Min 1Q Median 3Q Max
## -19.335 -11.928 -4.618 6.006 62.193
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -628.936 35.846 -17.55 <2e-16 ***
## desempleo 63.751 2.983 21.37 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 18.06 on 38 degrees of freedom
## Multiple R-squared: 0.9232, Adjusted R-squared: 0.9212
## F-statistic: 456.6 on 1 and 38 DF, p-value: < 2.2e-16
Con el modelo se observa un modelo con un B1 igual a 63, lo cual indicado que por cada punto porcentual que incrementa el desempleo se aumentan en 63 los casos de homicidios.
De acuerdo al r2, se concluye que el modelo explica en un 92 % el comportamiento de la muestra.
par(mfrow=c(2,2))
plot(modelo)
En el grafico de normalidad se observa que los datos en su extremo inicial tienen un comportamiento mas controlado y en su extremo superior la pendiente es mas pronunciada, mostrando un comportamiento tipo exponencial.
Por lo cual se procede a trasformar el modelo
modelo_trasformado = lm(log(homicidios)~desempleo)
summary(modelo_trasformado)
##
## Call:
## lm(formula = log(homicidios) ~ desempleo)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.08538 -0.02273 0.00001 0.02223 0.09549
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -1.027556 0.075235 -13.66 3.08e-16 ***
## desempleo 0.486124 0.006262 77.64 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.03791 on 38 degrees of freedom
## Multiple R-squared: 0.9937, Adjusted R-squared: 0.9936
## F-statistic: 6027 on 1 and 38 DF, p-value: < 2.2e-16
Se observa un modelo que logra explicar el comportamiento de la muestra con un 99 % de precision, lo cual es algo muy bueno, para la prediccion de valores futuros.
par(mfrow=c(2,2))
plot(modelo_trasformado)
prediccion= predict(modelo_trasformado,list(desempleo=11))
valor_prediccion=exp(prediccion)
Se estima que con una tasa de desempleo del 11%, se tendrian 75.17 homicidios por cada 100.000 habitantes