tarea 6

Importo la base de datos

library(readxl)

## Warning: package 'readxl' was built under R version 3.6.3

caso <- read_excel("C:/Users/HP/Desktop/virtual/programacion en R/caso.xlsx")
View(caso)
attach(caso)

LITERAL A- DIAGRAMA DISPERSIÓN

plot(desempleo, homicidios, pch=16)

El grafico muestra relación directa entre variables aunque esta no es lineal

LITERAL B- COEFICIENTE CORRELACIÓN

cor(homicidios, desempleo)

## [1] 0.9608183

Esta correlacion indica que el nivel de asociacion entre el desempleo y los homicidios es muy fuerte.

LITERAL C- MODELO DE REGRESION LINEAL

regresion=lm(homicidios~desempleo)
summary(regresion)

## 
## Call:
## lm(formula = homicidios ~ desempleo)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -19.335 -11.928  -4.618   6.006  62.193 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -628.936     35.846  -17.55   <2e-16 ***
## desempleo     63.751      2.983   21.37   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 18.06 on 38 degrees of freedom
## Multiple R-squared:  0.9232, Adjusted R-squared:  0.9212 
## F-statistic: 456.6 on 1 and 38 DF,  p-value: < 2.2e-16

ante un cambio marginal de 1 por ciento en la tasa de desemeplo se da un cambio en la misma direccion de 63,75 casos por cada cien mil habitantes, ceteris paribus con una confianza de casio 100%.

adicionalmente el modelo en su conjunto explica el 92% de los cambios en la tasa de homicidios por cada 100 mil habitantes y ademas es estadisiticamente signifcativo.

LITERAL D- VALIDACION DE SUPUESTOS

par(mfrow=c(2,2))
plot(regresion)

El primer y segundo grafico nos muestra que efectivamente los residuales heredan el comportamiento de la relacion entre la variable explicativa y explicada, es decir que esos residuales tampoco se realcionan linealmente con la estimación, por tanto no hay aleatoriedad en los errores.

El segundo grafico apoya lo anterior, puesto que los puntos, que son los residuales, no se ajustan a la distribución normal representada por la linea punteada.

Lo anterior nos muestra que no es modelo bien especificado, por lo que hay que realizarle ajustes para poder realizar el literal b. A continuacion se ajusta logaritmicamente.

Regresion2=lm(log(homicidios)~ desempleo)
summary(Regresion2)

## 
## Call:
## lm(formula = log(homicidios) ~ desempleo)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.08538 -0.02273  0.00001  0.02223  0.09549 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -1.027556   0.075235  -13.66 3.08e-16 ***
## desempleo    0.486124   0.006262   77.64  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.03791 on 38 degrees of freedom
## Multiple R-squared:  0.9937, Adjusted R-squared:  0.9936 
## F-statistic:  6027 on 1 and 38 DF,  p-value: < 2.2e-16

En este caso la interpretación del coeficiente pasa a ser ante un cambio unitario en la tasa de desempleo se genera un cambio porcentual en tasa de homicidios por cada cienmil habitantes.

Ademas este modelo tiene mejor bondad de ajuste.

Respecto a los supuestos de este segundo modelo

par(mfrow=c(2,2))
plot(Regresion2)

Los 4 graficos muestran menor componente sistematico de los residuales por lo que son aletarios, y se ajustan mejor a una distribucion normal.

Se hace necesario realizar pruebas formales de validacion de supuestos, pero inicialmente es posible tomarlo como un modelo bueno para hacer predicciones.

LITERAL E- PREDECIR

Teniendo en cuenta que es un modelo logaritmico, le aplico exponencial para predecir si el desempleo disminuye 11%

exp(predict(Regresion2, newdata=list(desempleo=11)))

##        1 
## 75.17389

este resultado muestra que ante una reduccion de 11% en la tasa de desempleo se genera una disminucion de 75 casos de homicidios por cada 100mil habitantes.

tarea 6

Iván Rodrigo Delgado

20/10/2020