library(readxl)
datos = read_excel("G:/ACADEMIA/JAVERIANA CALI/1. SEMESTRE 2022-I/2. METODOS Y SIMULACION/caso_und3.xlsx")
datos
## # A tibble: 40 x 3
##      mes desempleo homicidios
##    <dbl>     <dbl>      <dbl>
##  1     1      10.1       52.4
##  2     2      10.3       52.8
##  3     3      10.3       51.6
##  4     4      10.7       66.6
##  5     5      10.9       69.4
##  6     6      10.9       72.7
##  7     7      10.9       74.4
##  8     8      10.9       71.7
##  9     9      11.0       70.7
## 10    10      11.1       81.2
## # ... with 30 more rows
  1. Grafico
attach(datos)
plot(desempleo,homicidios,col=252,main = "desempleo vs homicidios")

b) Coeficiente de correlación

#calculo correlacion
cor(desempleo,homicidios,use = "complete.obs")
## [1] 0.9608183
  1. Regresión Lineal
mod=lm(homicidios~desempleo)
summary(mod)
## 
## Call:
## lm(formula = homicidios ~ desempleo)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -19.335 -11.928  -4.618   6.006  62.193 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -628.936     35.846  -17.55   <2e-16 ***
## desempleo     63.751      2.983   21.37   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 18.06 on 38 degrees of freedom
## Multiple R-squared:  0.9232, Adjusted R-squared:  0.9212 
## F-statistic: 456.6 on 1 and 38 DF,  p-value: < 2.2e-16

Resultado: Se obtiene un R^2 de importante ajuste con un 92.32% y un coeficiente positivo, indicando que existe una relación directamente proporcional entre las variables observadas y adicionalmente significativa bajo el criterio de p_Value.

  1. Validación de supuestos
par(mfrow=c(2,2))
plot(mod)

#estimacion de un nuevo modelo
mod2=lm(log(homicidios)~desempleo)
summary(mod2)
## 
## Call:
## lm(formula = log(homicidios) ~ desempleo)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.08538 -0.02273  0.00001  0.02223  0.09549 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -1.027556   0.075235  -13.66 3.08e-16 ***
## desempleo    0.486124   0.006262   77.64  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.03791 on 38 degrees of freedom
## Multiple R-squared:  0.9937, Adjusted R-squared:  0.9936 
## F-statistic:  6027 on 1 and 38 DF,  p-value: < 2.2e-16
par(mfrow=c(2,2))
plot(mod2)

#Prueba de normalidad en los residuos
shapiro.test(mod2$res)
## 
##  Shapiro-Wilk normality test
## 
## data:  mod2$res
## W = 0.99108, p-value = 0.9859

Se cumple normalidad en los residuos

  1. predicciones
#Se realizan con el modelo que cumple supuestos
predict(mod2,newdata=list(desempleo=11))
##        1 
## 4.319804

Se debe llevar la prediccion a la escala original

exp(predict(mod2,newdata=list(desempleo=11)))
##        1 
## 75.17389