\[CARGAMOS~LA~BASE~DE~DATOS\] La base la llamamos d
library(readxl)
library(ggplot2)
library(gridExtra)
d<-read_excel("C:\\Users\\MiguelAngel\\Documents\\R Miguelo\\Juan Ortiz (SanTT)\\Competitividad.xlsx")
#Variables evaluadas Global: Escalafón Global de Competitividad F.E.: Fortaleza de la Economía I.L.: Infraestructura y logística B.S.C.H.: Bienestar Social y Capital Humano C.T.I.: Ciencia, Tecnología e Innovación I.G.P.: Institucionalidad y Gestión Pública Regíon: Regón natural de Colombia
head(d)
## # A tibble: 6 x 8
## Dpto Global F.E. I.L. B.S.C.H. C.T.I. I.G.P. Región
## <chr> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <chr>
## 1 Amazonas 28.7 30.3 21.3 20 26.4 50.5 Amazonía
## 2 Antioquia 71.1 75 66 76.6 60.2 79.3 Andina
## 3 Arauca 35.7 35.4 36.3 45.5 4.9 61.5 Orinoquía
## 4 Atlántico 67.1 71.7 74.6 77.1 36.5 76.3 Caribe
## 5 Bogotá – Cundinamarca 87.5 91.9 78.6 87.3 95.4 83.6 Andina
## 6 Bolívar 57.5 58.4 72 61.8 25.6 59.4 Caribe
Recodificamos variables, en especial los factores.
d$Región<-as.factor(d$Región)
str(d)
## tibble [32 x 8] (S3: tbl_df/tbl/data.frame)
## $ Dpto : chr [1:32] "Amazonas" "Antioquia" "Arauca" "Atlántico" ...
## $ Global : num [1:32] 28.7 71.1 35.7 67.1 87.5 57.5 59.8 67.7 40.7 45.1 ...
## $ F.E. : num [1:32] 30.3 75 35.4 71.7 91.9 58.4 54.4 60.1 34.3 52.6 ...
## $ I.L. : num [1:32] 21.3 66 36.3 74.6 78.6 72 58.6 70.9 43.7 51 ...
## $ B.S.C.H.: num [1:32] 20 76.6 45.5 77.1 87.3 61.8 70.9 73.8 54.5 48.6 ...
## $ C.T.I. : num [1:32] 26.4 60.2 4.9 36.5 95.4 25.6 34.5 62.8 15.5 13.1 ...
## $ I.G.P. : num [1:32] 50.5 79.3 61.5 76.3 83.6 59.4 74.8 71 58 64.5 ...
## $ Región : Factor w/ 5 levels "Amazonía","Andina",..: 1 2 4 3 2 3 2 2 1 4 ...
\[CONTRUCCIÓN~DEL~MODELO~DE~REGRESIÓN~LINEAL~MULTIPLE\]
Seleccionamos la variable independiente Ídice Global y omitimos algunas variables.
mod = lm(Global ~., data = d[,-c(1,8)])
summary(mod)
##
## Call:
## lm(formula = Global ~ ., data = d[, -c(1, 8)])
##
## Residuals:
## Min 1Q Median 3Q Max
## -2.95946 -0.32171 0.06415 0.70544 1.88918
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -3.61722 1.50051 -2.411 0.0233 *
## F.E. 0.22040 0.03366 6.547 6.09e-07 ***
## I.L. 0.27517 0.02857 9.632 4.60e-10 ***
## B.S.C.H. 0.16929 0.03277 5.166 2.17e-05 ***
## C.T.I. 0.17702 0.01819 9.732 3.72e-10 ***
## I.G.P. 0.20794 0.03768 5.518 8.61e-06 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 1.154 on 26 degrees of freedom
## Multiple R-squared: 0.9964, Adjusted R-squared: 0.9957
## F-statistic: 1447 on 5 and 26 DF, p-value: < 2.2e-16
Se encontró un Adjusted R-squared muy cercano a 1, casi perfecto. Se deben verificar que se cumplan los supuestos antes de realizar conclusiones.
e = resid(mod) ; e
## 1 2 3 4 5 6
## 1.21809097 -0.08739394 0.16841532 -0.99190180 0.18402580 1.08864231
## 7 8 9 10 11 12
## 1.63927018 0.18793503 0.70239945 -0.86765085 -1.17154912 1.01539684
## 13 14 15 16 17 18
## 0.17615347 -0.06026644 -1.82370175 0.92768896 -0.28866811 -0.29420350
## 19 20 21 22 23 24
## -0.40421981 1.38391677 0.33954386 -1.59869207 0.71457202 -1.45087952
## 25 26 27 28 29 30
## -0.04012326 -0.26571438 0.32858012 0.52224886 -0.12685153 -0.05478511
## 31 32
## 1.88918159 -2.95946034
s = summary(mod)$sigma ; s
## [1] 1.154435
hii = hatvalues(mod) ; hii
## 1 2 3 4 5 6 7
## 0.21535924 0.17704376 0.12936209 0.16934433 0.46167132 0.17600956 0.10806998
## 8 9 10 11 12 13 14
## 0.25747113 0.11390262 0.25840372 0.12315997 0.10433873 0.47902026 0.10162605
## 15 16 17 18 19 20 21
## 0.41983849 0.27846025 0.12617059 0.15503138 0.08890044 0.09770001 0.08235757
## 22 23 24 25 26 27 28
## 0.10749632 0.17867905 0.07665925 0.08854691 0.52115688 0.13670776 0.17706514
## 29 30 31 32
## 0.05298874 0.13891438 0.26452255 0.13402155
#Residuos estandarizados
r = e/(s*(sqrt(1-hii))) ; r
## 1 2 3 4 5 6
## 1.19117244 -0.08344942 0.15634829 -0.94273256 0.21726277 1.03885389
## 7 8 9 10 11 12
## 1.50354175 0.18892151 0.64635897 -0.87275344 -1.08375387 0.92938199
## 13 14 15 16 17 18
## 0.21140299 -0.05507789 -2.07400455 0.94602498 -0.26749510 -0.27724127
## 19 20 21 22 23 24
## -0.36683015 1.26201594 0.30703613 -1.46585212 0.68299874 -1.30791854
## 25 26 27 28 29 30
## -0.03640486 -0.33262032 0.30633225 0.49868363 -0.11291418 -0.05114106
## 31 32
## 1.90818013 -2.75479527
r = rstandard(mod) ; r
## 1 2 3 4 5 6
## 1.19117244 -0.08344942 0.15634829 -0.94273256 0.21726277 1.03885389
## 7 8 9 10 11 12
## 1.50354175 0.18892151 0.64635897 -0.87275344 -1.08375387 0.92938199
## 13 14 15 16 17 18
## 0.21140299 -0.05507789 -2.07400455 0.94602498 -0.26749510 -0.27724127
## 19 20 21 22 23 24
## -0.36683015 1.26201594 0.30703613 -1.46585212 0.68299874 -1.30791854
## 25 26 27 28 29 30
## -0.03640486 -0.33262032 0.30633225 0.49868363 -0.11291418 -0.05114106
## 31 32
## 1.90818013 -2.75479527
ri = rstudent(mod) ; ri
## 1 2 3 4 5 6
## 1.20127907 -0.08183985 0.15338424 -0.94064186 0.21323733 1.04050371
## 7 8 9 10 11 12
## 1.54294688 0.18538006 0.63896147 -0.86862338 -1.08755658 0.92685975
## 13 14 15 16 17 18
## 0.20747608 -0.05401147 -2.22620320 0.94404387 -0.26266220 -0.27226017
## 19 20 21 22 23 24
## -0.36064102 1.27724684 0.30162101 -1.50073613 0.67582558 -1.32691395
## 25 26 27 28 29 30
## -0.03569882 -0.32685723 0.30092703 0.49135504 -0.11074862 -0.05015046
## 31 32
## 2.01773745 -3.21010641
pr = predict(mod) ; pr
## 1 2 3 4 5 6 7 8
## 27.48191 71.18739 35.53158 68.09190 87.31597 56.41136 58.16073 67.51206
## 9 10 11 12 13 14 15 16
## 39.99760 45.96765 47.47155 49.18460 25.22385 45.56027 19.12370 22.97231
## 17 18 19 20 21 22 23 24
## 50.78867 37.09420 47.00422 48.71608 52.16046 48.79869 31.28543 63.55088
## 25 26 27 28 29 30 31 32
## 68.74012 53.46571 69.67142 44.17775 53.62685 66.15479 13.41082 19.75946
Algunos gráficos explicativos
plot(pr, e)
plot(pr, sqrt(abs(r)))
Los residuales ordinarios y estandarizados no presentan un comportamiendo que puedan indicar tendencia lineal o se asemeje a alguna figura geométrica o se aleje de los supuestos de aleatoriedad o varianza constante. No existe una tendencia marcada. Encontramos una nube de puntos dispersa. Sin embargo, es de notar que existen 4 valores posiblemente atípicos. En conclusión, no se rechaza la hipótesis de normalidad de los residuales en este modelo.
qqnorm(r)
qqline(r, col="chocolate4")
Se evidencia una desviación de la normalidad en la cola inferior de los residuales. Se debe realizar una prueba de normalidad de los residuales para mayor certeza en este supuesto.
shapiro.test(r)
##
## Shapiro-Wilk normality test
##
## data: r
## W = 0.96683, p-value = 0.4168
Shapiro-Wilk normality test Indica que los residuos del modelo propuesto sí tienen una distribución normal, ya que el p-value = 0.4168 encontrado es superior al 0.05 de significancia.
plot(d$Global, r)
plot(d$F.E., r)
plot(d$I.L., r)
plot(d$Región,r)
plot(d$B.S.C.H., r)
plot(d$ C.T.I., r)
plot(d$ I.G.P., r)
Se evidencia que existen valores atípicos en cada gráfico. En algunos se presentan 3 y en otro 4 datos atípicos. Estos pueden estar afectando el modelo
\[ OBSERVACIONES~ INFLUYENTES\]
p = length(mod$coefficients)-1 ; p
## [1] 5
n = nrow(d) ; n
## [1] 32
apa = hii >= 2*(p+1)/n ; apa
## 1 2 3 4 5 6 7 8 9 10 11 12 13
## FALSE FALSE FALSE FALSE TRUE FALSE FALSE FALSE FALSE FALSE FALSE FALSE TRUE
## 14 15 16 17 18 19 20 21 22 23 24 25 26
## FALSE TRUE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE TRUE
## 27 28 29 30 31 32
## FALSE FALSE FALSE FALSE FALSE FALSE
d[apa,]
## # A tibble: 4 x 8
## Dpto Global F.E. I.L. B.S.C.H. C.T.I. I.G.P. Región
## <chr> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <fct>
## 1 Bogotá – Cundinamarca 87.5 91.9 78.6 87.3 95.4 83.6 Andina
## 2 Chocó 25.4 24.3 40.6 16.1 15.4 33 Pacífico
## 3 Guainía 17.3 28.1 4.5 26 9.7 44.2 Amazonía
## 4 San Andrés 53.2 69.3 65.9 63.7 14.8 49.4 Caribe
Indica que existen 14 valores de apalancamiento los cuales modifican el intercepto del modelo. Sin embargo hay que tener en cuenta que la base de datos inicial presenta 32 datos, entonces si se eliminan los 14 valores de apalancamiento nos quedaría la mitad de los datos iniciales. Se debe escoger con cuidado para no alterar mucho el comportamiento de los datos.
inc = abs(ri) >= qt(1-0.05/(2*n),n-p-2) ; inc
## 1 2 3 4 5 6 7 8 9 10 11 12 13
## FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
## 14 15 16 17 18 19 20 21 22 23 24 25 26
## FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
## 27 28 29 30 31 32
## FALSE FALSE FALSE FALSE FALSE FALSE
d[inc,]
## # A tibble: 0 x 8
## # ... with 8 variables: Dpto <chr>, Global <dbl>, F.E. <dbl>, I.L. <dbl>,
## # B.S.C.H. <dbl>, C.T.I. <dbl>, I.G.P. <dbl>, Región <fct>
No existen puntos inconstentes, todos se marcaron como FALSE, en caso contrario deberia aparecer TRUE para el posible dato inconsistente.
inf = influence.measures(mod)
#inf
#inf$is.inf
d[apply(inf$is.inf, 1, sum)>0,]
## # A tibble: 5 x 8
## Dpto Global F.E. I.L. B.S.C.H. C.T.I. I.G.P. Región
## <chr> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <fct>
## 1 Bogotá – Cundinamarca 87.5 91.9 78.6 87.3 95.4 83.6 Andina
## 2 Chocó 25.4 24.3 40.6 16.1 15.4 33 Pacífico
## 3 Guainía 17.3 28.1 4.5 26 9.7 44.2 Amazonía
## 4 San Andrés 53.2 69.3 65.9 63.7 14.8 49.4 Caribe
## 5 Vichada 16.8 18.2 19.5 22.3 4.9 45 Orinoquía
Existen 5 valores que infringen el critero de influencia.
library(lmtest)
bptest(mod)
##
## studentized Breusch-Pagan test
##
## data: mod
## BP = 9.477, df = 5, p-value = 0.09148
Breusch-Pagan test indica que la varianza de los residuales de este modelo es constante. Ya que el p-value = 0.09148 encontrado es superior al 0.05 de significancia. Entonces no se rechaza la Homocedasticidad de los residuales.
En conclusión tenemos que los residuales siguen una distribucion aporoximadamente normal, son aleatorios, independientes y presentan varianza constante.
plot(mod)
De las gráficas se desprende la presencia de posibles datos atípicos en las filas 15,31,32. Dos de estos valores tambien fueron catalogados como influyentes según los analisis anteriores.
# Datos atípicos e influyentes de la base inicial.
d[c(15,31,32),]
## # A tibble: 3 x 8
## Dpto Global F.E. I.L. B.S.C.H. C.T.I. I.G.P. Región
## <chr> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <fct>
## 1 Guainía 17.3 28.1 4.5 26 9.7 44.2 Amazonía
## 2 Vaupés 15.3 17.5 3 15.1 6.2 41.8 Amazonía
## 3 Vichada 16.8 18.2 19.5 22.3 4.9 45 Orinoquía
cooksd<-cooks.distance(mod)
plot(cooksd, pch="*", cex=2)
abline(h = 5*mean(cooksd, na.rm=T), col="green")
text(x=1:length(cooksd)+1, y=cooksd,
labels=ifelse(cooksd>5*mean(cooksd, na.rm=T),
names(cooksd),""),
col="red")
El valor de la fila 15 (Guanía) es influyete en términos de la distancia de Cooks. También catalogado como valor influyente.
Encontramos que se cumple una linealidad para todos los predictores del modelo. Donde la mayoría de puntos estan cercanos a 0 para cada una de las variables evaluadas.
\[NUEVO~MODELO~DE~REGRESIÓN~LINEAL~MULTIMPLE\] Se crea un nuevo modelo pero se retiran los datos influyentes.
d2<-d[-c(5,13,15,26,31,32),-c(1,8)]
mod2 = lm(Global ~., data =d2)
summary(mod2)
##
## Call:
## lm(formula = Global ~ ., data = d2)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1.64155 -0.32715 -0.04401 0.30309 1.74321
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -1.16239 1.63430 -0.711 0.485144
## F.E. 0.24218 0.03614 6.702 1.60e-06 ***
## I.L. 0.22028 0.03791 5.811 1.10e-05 ***
## B.S.C.H. 0.20003 0.03065 6.526 2.32e-06 ***
## C.T.I. 0.17709 0.01784 9.928 3.57e-09 ***
## I.G.P. 0.17171 0.03710 4.629 0.000162 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.8833 on 20 degrees of freedom
## Multiple R-squared: 0.9964, Adjusted R-squared: 0.9956
## F-statistic: 1122 on 5 and 20 DF, p-value: < 2.2e-16
Se evidencia que todas la variables son significativas y un Adjusted R-squared alto, cercano a 1.
plot(mod2)
library(olsrr)
all.mod = ols_step_all_possible(mod2) ; all.mod
## Index N Predictors R-Square Adj. R-Square Mallow's Cp
## 1 1 1 F.E. 0.9172992 0.9138534 443.46769
## 2 2 1 I.L. 0.8742908 0.8690529 685.53384
## 3 3 1 B.S.C.H. 0.8686821 0.8632105 717.10147
## 5 4 1 I.G.P. 0.7099089 0.6978218 1610.73015
## 4 5 1 C.T.I. 0.6838880 0.6707167 1757.18429
## 7 6 2 F.E. B.S.C.H. 0.9702097 0.9676193 147.66963
## 13 7 2 B.S.C.H. C.T.I. 0.9634837 0.9603083 185.52619
## 6 8 2 F.E. I.L. 0.9569898 0.9532498 222.07566
## 11 9 2 I.L. C.T.I. 0.9520835 0.9479168 249.69016
## 12 10 2 I.L. I.G.P. 0.9428615 0.9378930 301.59441
## 9 11 2 F.E. I.G.P. 0.9343075 0.9285951 349.73963
## 8 12 2 F.E. C.T.I. 0.9288123 0.9226220 380.66851
## 10 13 2 I.L. B.S.C.H. 0.9071217 0.8990454 502.75013
## 14 14 2 B.S.C.H. I.G.P. 0.9003102 0.8916415 541.08764
## 15 15 2 C.T.I. I.G.P. 0.8395985 0.8256506 882.79350
## 19 16 3 F.E. B.S.C.H. C.T.I. 0.9890823 0.9875936 43.44827
## 24 17 3 I.L. C.T.I. I.G.P. 0.9813476 0.9788041 86.98171
## 22 18 3 I.L. B.S.C.H. C.T.I. 0.9777710 0.9747398 107.11220
## 17 19 3 F.E. I.L. C.T.I. 0.9747180 0.9712704 124.29566
## 18 20 3 F.E. I.L. I.G.P. 0.9734857 0.9698701 131.23153
## 20 21 3 F.E. B.S.C.H. I.G.P. 0.9730918 0.9694226 133.44812
## 16 22 3 F.E. I.L. B.S.C.H. 0.9729741 0.9692888 134.11076
## 25 23 3 B.S.C.H. C.T.I. I.G.P. 0.9693827 0.9652077 154.32423
## 23 24 3 I.L. B.S.C.H. I.G.P. 0.9460962 0.9387457 285.38869
## 21 25 3 F.E. C.T.I. I.G.P. 0.9439577 0.9363156 297.42476
## 26 26 4 F.E. I.L. B.S.C.H. C.T.I. 0.9926400 0.9912381 25.42449
## 29 27 4 F.E. B.S.C.H. C.T.I. I.G.P. 0.9904468 0.9886272 37.76839
## 28 28 4 F.E. I.L. C.T.I. I.G.P. 0.9888802 0.9867621 46.58609
## 30 29 4 I.L. B.S.C.H. C.T.I. I.G.P. 0.9884669 0.9862701 48.91243
## 27 30 4 F.E. I.L. B.S.C.H. I.G.P. 0.9789353 0.9749229 102.55944
## 31 31 5 F.E. I.L. B.S.C.H. C.T.I. I.G.P. 0.9964466 0.9955582 6.00000
Para el mod2 se usaron 5 varibles. Se debe escoger el numero de predictores cercanos a este valor de acuerdo al indice Mallows.
Mallows indica que el mejor modelo debe contener las variales F.E. I.L. B.S.C.H. C.T.I. I.G.P., ya que presnta un indice de Mallow’s Cp= 6. Muy cercano al valor de las variables que contiene el modelo evaluado. Ademas, usando estas variables Mallows indica que se puede explicar el comportamientos de la variable dependiente Indice global
sub.mod = ols_step_best_subset(mod) ; sub.mod
## Best Subsets Regression
## -----------------------------------------------
## Model Index Predictors
## -----------------------------------------------
## 1 F.E.
## 2 B.S.C.H. C.T.I.
## 3 I.L. B.S.C.H. C.T.I.
## 4 F.E. I.L. C.T.I. I.G.P.
## 5 F.E. I.L. B.S.C.H. C.T.I. I.G.P.
## -----------------------------------------------
##
## Subsets Regression Summary
## ------------------------------------------------------------------------------------------------------------------------------------
## Adj. Pred
## Model R-Square R-Square R-Square C(p) AIC SBIC SBC MSEP FPE HSP APC
## ------------------------------------------------------------------------------------------------------------------------------------
## 1 0.9214 0.9188 0.9108 542.2955 198.1766 101.8071 202.5738 810.8237 26.9183 0.8736 0.0890
## 2 0.9673 0.9651 0.9607 211.0322 172.0819 74.5834 177.9449 349.0389 11.9142 0.3890 0.0394
## 3 0.9858 0.9842 0.9807 79.4296 147.5442 50.2533 154.8728 157.9449 5.5383 0.1823 0.0183
## 4 0.9927 0.9917 0.9902 30.6893 127.9608 32.9137 136.7552 83.5552 3.0071 0.1000 0.0099
## 5 0.9964 0.9957 0.9944 6.0000 107.3587 19.2094 117.6189 42.8803 1.5826 0.0533 0.0052
## ------------------------------------------------------------------------------------------------------------------------------------
## AIC: Akaike Information Criteria
## SBIC: Sawa's Bayesian Information Criteria
## SBC: Schwarz Bayesian Criteria
## MSEP: Estimated error of prediction, assuming multivariate normality
## FPE: Final Prediction Error
## HSP: Hocking's Sp
## APC: Amemiya Prediction Criteria
Indica que el menor ACI lo presenta el modelo que contiene las variables F.E. I.L. B.S.C.H. C.T.I. I.G.P. Este modelo corresponde al mismo que presenta el mejor índice de Mallows.
summary(step(mod2, direction = "both"))
## Start: AIC=-1.27
## Global ~ F.E. + I.L. + B.S.C.H. + C.T.I. + I.G.P.
##
## Df Sum of Sq RSS AIC
## <none> 15.604 -1.274
## - I.G.P. 1 16.716 32.320 15.657
## - I.L. 1 26.347 41.951 22.439
## - B.S.C.H. 1 33.226 48.831 26.387
## - F.E. 1 35.042 50.646 27.336
## - C.T.I. 1 76.898 92.502 42.998
##
## Call:
## lm(formula = Global ~ F.E. + I.L. + B.S.C.H. + C.T.I. + I.G.P.,
## data = d2)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1.64155 -0.32715 -0.04401 0.30309 1.74321
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -1.16239 1.63430 -0.711 0.485144
## F.E. 0.24218 0.03614 6.702 1.60e-06 ***
## I.L. 0.22028 0.03791 5.811 1.10e-05 ***
## B.S.C.H. 0.20003 0.03065 6.526 2.32e-06 ***
## C.T.I. 0.17709 0.01784 9.928 3.57e-09 ***
## I.G.P. 0.17171 0.03710 4.629 0.000162 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.8833 on 20 degrees of freedom
## Multiple R-squared: 0.9964, Adjusted R-squared: 0.9956
## F-statistic: 1122 on 5 and 20 DF, p-value: < 2.2e-16
Suguiere que el mejor modelo es aquel que contiene las siguientes variables F.E. + I.L. + B.S.C.H. + C.T.I. + I.G.P
cor(d2[,-1])
## F.E. I.L. B.S.C.H. C.T.I. I.G.P.
## F.E. 1.0000000 0.8759182 0.8445253 0.7955749 0.7975855
## I.L. 0.8759182 1.0000000 0.9215490 0.6604550 0.7015206
## B.S.C.H. 0.8445253 0.9215490 1.0000000 0.6310016 0.7860526
## C.T.I. 0.7955749 0.6604550 0.6310016 1.0000000 0.6606388
## I.G.P. 0.7975855 0.7015206 0.7860526 0.6606388 1.0000000
library(psych)
pairs.panels(d2[,-1],
method="pearson",
hist.col ="green")
Sin Embargo, al evaluar las correlaciones, se evidencia aque existe multicolinealidad entre todas las variable predictoras.
Entonces para seleccionar el mejor modelo de regresión lineal para el Indice Global se va a construir variable por variable hasta encontrar un modelo que no presente multicolinealidad.
Los daots evaluados presenta multicolineadlidad. Entonces se debe proponer un modelo de regresión simple.
mod3<-lm(formula = Global ~ F.E., data = d2)
summary(mod3)
##
## Call:
## lm(formula = Global ~ F.E., data = d2)
##
## Residuals:
## Min 1Q Median 3Q Max
## -7.8055 -2.4220 -0.0585 2.5848 7.9666
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 5.0190 2.9062 1.727 0.097 .
## F.E. 0.9104 0.0558 16.316 1.72e-14 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 3.89 on 24 degrees of freedom
## Multiple R-squared: 0.9173, Adjusted R-squared: 0.9139
## F-statistic: 266.2 on 1 and 24 DF, p-value: 1.717e-14
Este modelo presenta un Adjusted R-squared: 0.9139
mod4<-lm(formula = Global ~ I.L., data = d2)
summary(mod4)
##
## Call:
## lm(formula = Global ~ I.L., data = d2)
##
## Residuals:
## Min 1Q Median 3Q Max
## -7.7975 -2.1666 -0.1247 2.9000 10.9195
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 3.89328 3.74849 1.039 0.309
## I.L. 0.85284 0.06601 12.920 2.67e-12 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 4.796 on 24 degrees of freedom
## Multiple R-squared: 0.8743, Adjusted R-squared: 0.8691
## F-statistic: 166.9 on 1 and 24 DF, p-value: 2.67e-12
Este modelo presenta un Adjusted R-squared: 0.8691
mod5<-lm(formula = Global ~ B.S.C.H., data = d2)
summary(mod5)
##
## Call:
## lm(formula = Global ~ B.S.C.H., data = d2)
##
## Residuals:
## Min 1Q Median 3Q Max
## -9.7567 -3.9903 -0.8461 3.0443 9.1722
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 7.42386 3.57217 2.078 0.0485 *
## B.S.C.H. 0.71154 0.05647 12.600 4.52e-12 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 4.902 on 24 degrees of freedom
## Multiple R-squared: 0.8687, Adjusted R-squared: 0.8632
## F-statistic: 158.8 on 1 and 24 DF, p-value: 4.521e-12
Este modelo presenta un Adjusted R-squared: 0.8632
mod6<-lm(formula = Global ~ C.T.I., data = d2)
summary(mod6)
##
## Call:
## lm(formula = Global ~ C.T.I., data = d2)
##
## Residuals:
## Min 1Q Median 3Q Max
## -22.474 -3.056 2.475 5.065 9.388
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 33.7499 2.7939 12.080 1.09e-11 ***
## C.T.I. 0.6600 0.0916 7.206 1.91e-07 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 7.605 on 24 degrees of freedom
## Multiple R-squared: 0.6839, Adjusted R-squared: 0.6707
## F-statistic: 51.92 on 1 and 24 DF, p-value: 1.908e-07
Este modelo presenta un Adjusted R-squared: 0.6707
mod7<-lm(formula = Global ~ I.G.P., data = d2)
summary(mod7)
##
## Call:
## lm(formula = Global ~ I.G.P., data = d2)
##
## Residuals:
## Min 1Q Median 3Q Max
## -12.6268 -5.3453 0.2016 4.3315 13.5823
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -27.4803 10.3104 -2.665 0.0135 *
## I.G.P. 1.2326 0.1608 7.664 6.69e-08 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 7.286 on 24 degrees of freedom
## Multiple R-squared: 0.7099, Adjusted R-squared: 0.6978
## F-statistic: 58.73 on 1 and 24 DF, p-value: 6.692e-08
Este modelo presenta un Adjusted R-squared: 0.6707
Ahora, de todos los modelos evaluados, escogemos el que presentó mayor Adjusted R-squared
summary(mod3)
##
## Call:
## lm(formula = Global ~ F.E., data = d2)
##
## Residuals:
## Min 1Q Median 3Q Max
## -7.8055 -2.4220 -0.0585 2.5848 7.9666
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 5.0190 2.9062 1.727 0.097 .
## F.E. 0.9104 0.0558 16.316 1.72e-14 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 3.89 on 24 degrees of freedom
## Multiple R-squared: 0.9173, Adjusted R-squared: 0.9139
## F-statistic: 266.2 on 1 and 24 DF, p-value: 1.717e-14
Evaluamos el criterio de AIC
AIC(mod3, mod4, mod5, mod6, mod7)
## df AIC
## mod3 3 148.3407
## mod4 3 159.2280
## mod5 3 160.3629
## mod6 3 183.2032
## mod7 3 180.9698
El modelo (mod3) presenta el menor valor de AIC.
plot(mod3)
Finalmente, despues de realizar el analisis completo para encontrar el modelo de regresión linieal de estos datos, se plantea que para predecir el indice de Competitividad Global debe estar en función de la Fortaleza de la Economia.
Entonces, el modelo lineal simple es capaz de predecir de 91.93 % de la variabilidad observada. Además, es significativo y satisface las condiciones para este tipo de regresión.
La ecuación indica que por cada punto que aumenta la Fortaleza de la Economia, el índice Global de Competitividad aumenta 0.91. Además, cuando la Fortaleza de la Economia es 0, el índice Global de Competitividad aumenta 5.1