MODULO 3. METODOS Y SIMULACION ESTADISTICA
                            TALLER DE SIMULACION ESTADISTICA EN R
                            Alumno: Oscar Andres Ramirez Avendaño
                                      codigo: 1118863919
                                  Maestria en Ciencia de datos
                                Pontificia Universidad Javeriana
                                
  1. Analisis Explotarotorio de los datos- Incluidas graficas de dispersion
library(readxl)
caso <- read_excel("Modulo 3/caso.xlsx")
View(caso)

attach(caso)
summary(desempleo)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   10.06   11.19   11.99   11.98   12.65   14.02
summary(homicidios)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   51.61   80.72  121.38  134.61  176.94  327.05
plot(desempleo,homicidios)

  1. Coeficiente de correlacion de Pearson
cor(desempleo,homicidios)
## [1] 0.9608183

Se observa un coeficiente de correlacion del 96% lo cual indicada un grado de correcion muy fuerte.

  1. Estimacion del modelo de regresion lineal
modelo=lm(homicidios~desempleo)
summary(modelo)
## 
## Call:
## lm(formula = homicidios ~ desempleo)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -19.335 -11.928  -4.618   6.006  62.193 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -628.936     35.846  -17.55   <2e-16 ***
## desempleo     63.751      2.983   21.37   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 18.06 on 38 degrees of freedom
## Multiple R-squared:  0.9232, Adjusted R-squared:  0.9212 
## F-statistic: 456.6 on 1 and 38 DF,  p-value: < 2.2e-16

Con el modelo se observa un modelo con un B1 igual a 63, lo cual indicado que por cada punto porcentual que incrementa el desempleo se aumentan en 63 los casos de homicidios.

De acuerdo al r2, se concluye que el modelo explica en un 92 % el comportamiento de la muestra.

  1. Calculo de los supuestos
par(mfrow=c(2,2))
plot(modelo)

En el grafico de normalidad se observa que los datos en su extremo inicial tienen un comportamiento mas controlado y en su extremo superior la pendiente es mas pronunciada, mostrando un comportamiento tipo exponencial.

Por lo cual se procede a trasformar el modelo

modelo_trasformado = lm(log(homicidios)~desempleo)
summary(modelo_trasformado)
## 
## Call:
## lm(formula = log(homicidios) ~ desempleo)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.08538 -0.02273  0.00001  0.02223  0.09549 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -1.027556   0.075235  -13.66 3.08e-16 ***
## desempleo    0.486124   0.006262   77.64  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.03791 on 38 degrees of freedom
## Multiple R-squared:  0.9937, Adjusted R-squared:  0.9936 
## F-statistic:  6027 on 1 and 38 DF,  p-value: < 2.2e-16

Se observa un modelo que logra explicar el comportamiento de la muestra con un 99 % de precision, lo cual es algo muy bueno, para la prediccion de valores futuros.

par(mfrow=c(2,2))
plot(modelo_trasformado)

  1. Predicción de homicidios con 11% de desempleo
prediccion= predict(modelo_trasformado,list(desempleo=11))
valor_prediccion=exp(prediccion)

Se estima que con una tasa de desempleo del 11%, se tendrian 75.17 homicidios por cada 100.000 habitantes