Coef de Correlación

Regresion lineal

Supuestos

Predicciones

1. construccion diagrama - Importar la tabla de excel

require(readxl)
## Loading required package: readxl
caso =read_excel("D:/ESPECIALIZACION/SEMESTRE 1/1. Tratamiento de datos/Clase 6/Tarea/caso.xlsx")


attach(caso)                          # attach sirve para “enganchar” el contenido de la tabla o                                                               data frame  al entorno donde R busca los nombres de las                                                                variables; sin emplear el nombre del data frame o el signo $ 

plot(desempleo, homicidios)           # grafico es creciente, muestra relacion directa

2. Coef correlacion

cor(desempleo,homicidios)             # coef = 0.96 el max valor es 1, lo q indica una relacion muy                                       fuerte, es decir el desempleo esta muy asociado con tasa de                                         homicidios 
## [1] 0.9608183

3. Regresion lineal

mod=lm(homicidios~desempleo)           # summary = resumen del modelo, coef estimado de la variable                                                     desempleo 
summary(mod)                           
## 
## Call:
## lm(formula = homicidios ~ desempleo)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -19.335 -11.928  -4.618   6.006  62.193 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -628.936     35.846  -17.55   <2e-16 ***
## desempleo     63.751      2.983   21.37   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 18.06 on 38 degrees of freedom
## Multiple R-squared:  0.9232, Adjusted R-squared:  0.9212 
## F-statistic: 456.6 on 1 and 38 DF,  p-value: < 2.2e-16
#----- coef indica: cual es aumento de homicidios por cada 100 mil hab 
#----- R/ desempleo estimado (63.751) = indica que por cada  1% en desempleo que haya se aumenta la           tasa de homicidios en 63 casos por cada 100.000 hab 
#------R/ desempleo Pr (<2e-16)***= indica si realmete el desempleo es significativo, en este caso            SI, se ve en el nivel de ceros y los *** q tiene.
#------R/ desempleo R cuadrado o squared (0.9232) = medida de ajuste que me indica q tanto el modelo           logra explicar la variable de respuesta, en este caso explica en un 92% los homicidios 

4. supuestos

plot(mod)                             # genera 4 graficos aparte 

par(mfrow=c(2,2))                     # genera 4 en una sola vista 2 filas, 2 columnas
plot(mod) 

#----- Graficos de residuales vs valores ajustados: indica que la supuesta asciacion lineal entre           hom vs desemp es mas creciente tipo exponencial 
#----- Graficos de normalidad coportamiento de los datos respecto a la linea de distribuicion de la         normal 
#----- Graficos escala localizacion 
#----- Graficos de residuales vs ** 



# OJO !!! Graficos de residuales muestra q el supuesto de aliatoriedad de los errores no se cumple
#         entoces se ajusta el modelo con un LOGARITMO log que hace una trasformacion sobre la                variable de respuesta (homicidios)
#         si la variable se altera los resultados del coef sera acorde a esa transformacion, no lo            real. 
#         el R cuadrado con la cndicion de log mejora 0.9937


mod=lm(log(homicidios)~desempleo)           
summary(mod)
## 
## Call:
## lm(formula = log(homicidios) ~ desempleo)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.08538 -0.02273  0.00001  0.02223  0.09549 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -1.027556   0.075235  -13.66 3.08e-16 ***
## desempleo    0.486124   0.006262   77.64  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.03791 on 38 degrees of freedom
## Multiple R-squared:  0.9937, Adjusted R-squared:  0.9936 
## F-statistic:  6027 on 1 and 38 DF,  p-value: < 2.2e-16
par(mfrow=c(2,2))                     
plot(mod) 

5. Predicciones: desempleo disminuye el 11%

predict(mod,newdata=list(desempleo=11))       # R/4.31 aplicando el ajuste con logaritmo
##        1 
## 4.319804
exp(predict(mod,newdata=list(desempleo=11)))  # R/75.71 destrasnformar datos, llevarlos al modelo                                                                      normal sin logorit
##        1 
## 75.17389
#----- la prediccion con datos orginales es 75.17 lo que indica que si el desempleo dismimuye al 11%        se espera q la violencia en esa ciudad sea de 75.17 casos por cada 100 mil hab