\[CARGAMOS~LA~BASE~DE~DATOS\] La base la llamamos d

library(readxl)
library(ggplot2)
library(gridExtra)
d<-read_excel("C:\\Users\\MiguelAngel\\Documents\\R Miguelo\\Juan Ortiz (SanTT)\\Competitividad.xlsx")

#Variables evaluadas Global: Escalafón Global de Competitividad F.E.: Fortaleza de la Economía I.L.: Infraestructura y logística B.S.C.H.: Bienestar Social y Capital Humano C.T.I.: Ciencia, Tecnología e Innovación I.G.P.: Institucionalidad y Gestión Pública Regíon: Regón natural de Colombia

head(d)

## # A tibble: 6 x 8
##   Dpto                  Global  F.E.  I.L. B.S.C.H. C.T.I. I.G.P. Región   
##   <chr>                  <dbl> <dbl> <dbl>    <dbl>  <dbl>  <dbl> <chr>    
## 1 Amazonas                28.7  30.3  21.3     20     26.4   50.5 Amazonía 
## 2 Antioquia               71.1  75    66       76.6   60.2   79.3 Andina   
## 3 Arauca                  35.7  35.4  36.3     45.5    4.9   61.5 Orinoquía
## 4 Atlántico               67.1  71.7  74.6     77.1   36.5   76.3 Caribe   
## 5 Bogotá – Cundinamarca   87.5  91.9  78.6     87.3   95.4   83.6 Andina   
## 6 Bolívar                 57.5  58.4  72       61.8   25.6   59.4 Caribe

Recodificamos variables, en especial los factores.

d$Región<-as.factor(d$Región)
str(d)

## tibble [32 x 8] (S3: tbl_df/tbl/data.frame)
##  $ Dpto    : chr [1:32] "Amazonas" "Antioquia" "Arauca" "Atlántico" ...
##  $ Global  : num [1:32] 28.7 71.1 35.7 67.1 87.5 57.5 59.8 67.7 40.7 45.1 ...
##  $ F.E.    : num [1:32] 30.3 75 35.4 71.7 91.9 58.4 54.4 60.1 34.3 52.6 ...
##  $ I.L.    : num [1:32] 21.3 66 36.3 74.6 78.6 72 58.6 70.9 43.7 51 ...
##  $ B.S.C.H.: num [1:32] 20 76.6 45.5 77.1 87.3 61.8 70.9 73.8 54.5 48.6 ...
##  $ C.T.I.  : num [1:32] 26.4 60.2 4.9 36.5 95.4 25.6 34.5 62.8 15.5 13.1 ...
##  $ I.G.P.  : num [1:32] 50.5 79.3 61.5 76.3 83.6 59.4 74.8 71 58 64.5 ...
##  $ Región  : Factor w/ 5 levels "Amazonía","Andina",..: 1 2 4 3 2 3 2 2 1 4 ...

\[CONTRUCCIÓN~DEL~MODELO~DE~REGRESIÓN~LINEAL~MULTIPLE\]

Seleccionamos la variable independiente Ídice Global y omitimos algunas variables.

mod = lm(Global  ~., data = d[,-c(1,8)])
summary(mod)

## 
## Call:
## lm(formula = Global ~ ., data = d[, -c(1, 8)])
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -2.95946 -0.32171  0.06415  0.70544  1.88918 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -3.61722    1.50051  -2.411   0.0233 *  
## F.E.         0.22040    0.03366   6.547 6.09e-07 ***
## I.L.         0.27517    0.02857   9.632 4.60e-10 ***
## B.S.C.H.     0.16929    0.03277   5.166 2.17e-05 ***
## C.T.I.       0.17702    0.01819   9.732 3.72e-10 ***
## I.G.P.       0.20794    0.03768   5.518 8.61e-06 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1.154 on 26 degrees of freedom
## Multiple R-squared:  0.9964, Adjusted R-squared:  0.9957 
## F-statistic:  1447 on 5 and 26 DF,  p-value: < 2.2e-16

Se encontró un Adjusted R-squared muy cercano a 1, casi perfecto. Se deben verificar que se cumplan los supuestos antes de realizar conclusiones.

Residuos Ordinarios

e = resid(mod) ; e

##           1           2           3           4           5           6 
##  1.21809097 -0.08739394  0.16841532 -0.99190180  0.18402580  1.08864231 
##           7           8           9          10          11          12 
##  1.63927018  0.18793503  0.70239945 -0.86765085 -1.17154912  1.01539684 
##          13          14          15          16          17          18 
##  0.17615347 -0.06026644 -1.82370175  0.92768896 -0.28866811 -0.29420350 
##          19          20          21          22          23          24 
## -0.40421981  1.38391677  0.33954386 -1.59869207  0.71457202 -1.45087952 
##          25          26          27          28          29          30 
## -0.04012326 -0.26571438  0.32858012  0.52224886 -0.12685153 -0.05478511 
##          31          32 
##  1.88918159 -2.95946034

Elementos diagonal de la matriz H

s = summary(mod)$sigma ; s

## [1] 1.154435

hii = hatvalues(mod) ; hii

##          1          2          3          4          5          6          7 
## 0.21535924 0.17704376 0.12936209 0.16934433 0.46167132 0.17600956 0.10806998 
##          8          9         10         11         12         13         14 
## 0.25747113 0.11390262 0.25840372 0.12315997 0.10433873 0.47902026 0.10162605 
##         15         16         17         18         19         20         21 
## 0.41983849 0.27846025 0.12617059 0.15503138 0.08890044 0.09770001 0.08235757 
##         22         23         24         25         26         27         28 
## 0.10749632 0.17867905 0.07665925 0.08854691 0.52115688 0.13670776 0.17706514 
##         29         30         31         32 
## 0.05298874 0.13891438 0.26452255 0.13402155

#Residuos estandarizados

r = e/(s*(sqrt(1-hii))) ; r

##           1           2           3           4           5           6 
##  1.19117244 -0.08344942  0.15634829 -0.94273256  0.21726277  1.03885389 
##           7           8           9          10          11          12 
##  1.50354175  0.18892151  0.64635897 -0.87275344 -1.08375387  0.92938199 
##          13          14          15          16          17          18 
##  0.21140299 -0.05507789 -2.07400455  0.94602498 -0.26749510 -0.27724127 
##          19          20          21          22          23          24 
## -0.36683015  1.26201594  0.30703613 -1.46585212  0.68299874 -1.30791854 
##          25          26          27          28          29          30 
## -0.03640486 -0.33262032  0.30633225  0.49868363 -0.11291418 -0.05114106 
##          31          32 
##  1.90818013 -2.75479527

r = rstandard(mod) ; r

##           1           2           3           4           5           6 
##  1.19117244 -0.08344942  0.15634829 -0.94273256  0.21726277  1.03885389 
##           7           8           9          10          11          12 
##  1.50354175  0.18892151  0.64635897 -0.87275344 -1.08375387  0.92938199 
##          13          14          15          16          17          18 
##  0.21140299 -0.05507789 -2.07400455  0.94602498 -0.26749510 -0.27724127 
##          19          20          21          22          23          24 
## -0.36683015  1.26201594  0.30703613 -1.46585212  0.68299874 -1.30791854 
##          25          26          27          28          29          30 
## -0.03640486 -0.33262032  0.30633225  0.49868363 -0.11291418 -0.05114106 
##          31          32 
##  1.90818013 -2.75479527

Residuos estudentizados

ri = rstudent(mod) ; ri

##           1           2           3           4           5           6 
##  1.20127907 -0.08183985  0.15338424 -0.94064186  0.21323733  1.04050371 
##           7           8           9          10          11          12 
##  1.54294688  0.18538006  0.63896147 -0.86862338 -1.08755658  0.92685975 
##          13          14          15          16          17          18 
##  0.20747608 -0.05401147 -2.22620320  0.94404387 -0.26266220 -0.27226017 
##          19          20          21          22          23          24 
## -0.36064102  1.27724684  0.30162101 -1.50073613  0.67582558 -1.32691395 
##          25          26          27          28          29          30 
## -0.03569882 -0.32685723  0.30092703  0.49135504 -0.11074862 -0.05015046 
##          31          32 
##  2.01773745 -3.21010641

Predicción

pr = predict(mod) ; pr

##        1        2        3        4        5        6        7        8 
## 27.48191 71.18739 35.53158 68.09190 87.31597 56.41136 58.16073 67.51206 
##        9       10       11       12       13       14       15       16 
## 39.99760 45.96765 47.47155 49.18460 25.22385 45.56027 19.12370 22.97231 
##       17       18       19       20       21       22       23       24 
## 50.78867 37.09420 47.00422 48.71608 52.16046 48.79869 31.28543 63.55088 
##       25       26       27       28       29       30       31       32 
## 68.74012 53.46571 69.67142 44.17775 53.62685 66.15479 13.41082 19.75946

Algunos gráficos explicativos

plot(pr, e)

plot(pr, sqrt(abs(r)))

Los residuales ordinarios y estandarizados no presentan un comportamiendo que puedan indicar tendencia lineal o se asemeje a alguna figura geométrica o se aleje de los supuestos de aleatoriedad o varianza constante. No existe una tendencia marcada. Encontramos una nube de puntos dispersa. Sin embargo, es de notar que existen 4 valores posiblemente atípicos. En conclusión, no se rechaza la hipótesis de normalidad de los residuales en este modelo.

qqnorm(r)
qqline(r, col="chocolate4")

Se evidencia una desviación de la normalidad en la cola inferior de los residuales. Se debe realizar una prueba de normalidad de los residuales para mayor certeza en este supuesto.

Prueba de normalidad

shapiro.test(r)

## 
##  Shapiro-Wilk normality test
## 
## data:  r
## W = 0.96683, p-value = 0.4168

Shapiro-Wilk normality test Indica que los residuos del modelo propuesto sí tienen una distribución normal, ya que el p-value = 0.4168 encontrado es superior al 0.05 de significancia.

Grafico de variables explicativas

plot(d$Global, r)

plot(d$F.E., r)

plot(d$I.L., r)

plot(d$Región,r)

plot(d$B.S.C.H., r)

plot(d$ C.T.I., r)

plot(d$ I.G.P., r)

Se evidencia que existen valores atípicos en cada gráfico. En algunos se presentan 3 y en otro 4 datos atípicos. Estos pueden estar afectando el modelo

\[ OBSERVACIONES~ INFLUYENTES\]

p = length(mod$coefficients)-1 ; p

## [1] 5

n = nrow(d) ; n

## [1] 32

Apalancamiento

apa = hii >= 2*(p+1)/n ; apa

##     1     2     3     4     5     6     7     8     9    10    11    12    13 
## FALSE FALSE FALSE FALSE  TRUE FALSE FALSE FALSE FALSE FALSE FALSE FALSE  TRUE 
##    14    15    16    17    18    19    20    21    22    23    24    25    26 
## FALSE  TRUE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE  TRUE 
##    27    28    29    30    31    32 
## FALSE FALSE FALSE FALSE FALSE FALSE

d[apa,]

## # A tibble: 4 x 8
##   Dpto                  Global  F.E.  I.L. B.S.C.H. C.T.I. I.G.P. Región  
##   <chr>                  <dbl> <dbl> <dbl>    <dbl>  <dbl>  <dbl> <fct>   
## 1 Bogotá – Cundinamarca   87.5  91.9  78.6     87.3   95.4   83.6 Andina  
## 2 Chocó                   25.4  24.3  40.6     16.1   15.4   33   Pacífico
## 3 Guainía                 17.3  28.1   4.5     26      9.7   44.2 Amazonía
## 4 San Andrés              53.2  69.3  65.9     63.7   14.8   49.4 Caribe

Indica que existen 14 valores de apalancamiento los cuales modifican el intercepto del modelo. Sin embargo hay que tener en cuenta que la base de datos inicial presenta 32 datos, entonces si se eliminan los 14 valores de apalancamiento nos quedaría la mitad de los datos iniciales. Se debe escoger con cuidado para no alterar mucho el comportamiento de los datos.

Inconsitente

inc = abs(ri) >= qt(1-0.05/(2*n),n-p-2) ; inc

##     1     2     3     4     5     6     7     8     9    10    11    12    13 
## FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE 
##    14    15    16    17    18    19    20    21    22    23    24    25    26 
## FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE 
##    27    28    29    30    31    32 
## FALSE FALSE FALSE FALSE FALSE FALSE

d[inc,]

## # A tibble: 0 x 8
## # ... with 8 variables: Dpto <chr>, Global <dbl>, F.E. <dbl>, I.L. <dbl>,
## #   B.S.C.H. <dbl>, C.T.I. <dbl>, I.G.P. <dbl>, Región <fct>

No existen puntos inconstentes, todos se marcaron como FALSE, en caso contrario deberia aparecer TRUE para el posible dato inconsistente.

Medidas de influencia

inf = influence.measures(mod) 
#inf
#inf$is.inf
d[apply(inf$is.inf, 1, sum)>0,]

## # A tibble: 5 x 8
##   Dpto                  Global  F.E.  I.L. B.S.C.H. C.T.I. I.G.P. Región   
##   <chr>                  <dbl> <dbl> <dbl>    <dbl>  <dbl>  <dbl> <fct>    
## 1 Bogotá – Cundinamarca   87.5  91.9  78.6     87.3   95.4   83.6 Andina   
## 2 Chocó                   25.4  24.3  40.6     16.1   15.4   33   Pacífico 
## 3 Guainía                 17.3  28.1   4.5     26      9.7   44.2 Amazonía 
## 4 San Andrés              53.2  69.3  65.9     63.7   14.8   49.4 Caribe   
## 5 Vichada                 16.8  18.2  19.5     22.3    4.9   45   Orinoquía

Existen 5 valores que infringen el critero de influencia.

library(lmtest)
bptest(mod)

## 
##  studentized Breusch-Pagan test
## 
## data:  mod
## BP = 9.477, df = 5, p-value = 0.09148

Breusch-Pagan test indica que la varianza de los residuales de este modelo es constante. Ya que el p-value = 0.09148 encontrado es superior al 0.05 de significancia. Entonces no se rechaza la Homocedasticidad de los residuales.

En conclusión tenemos que los residuales siguen una distribucion aporoximadamente normal, son aleatorios, independientes y presentan varianza constante.

plot(mod)

De las gráficas se desprende la presencia de posibles datos atípicos en las filas 15,31,32. Dos de estos valores tambien fueron catalogados como influyentes según los analisis anteriores.

# Datos atípicos e influyentes de la base inicial.
d[c(15,31,32),]

## # A tibble: 3 x 8
##   Dpto    Global  F.E.  I.L. B.S.C.H. C.T.I. I.G.P. Región   
##   <chr>    <dbl> <dbl> <dbl>    <dbl>  <dbl>  <dbl> <fct>    
## 1 Guainía   17.3  28.1   4.5     26      9.7   44.2 Amazonía 
## 2 Vaupés    15.3  17.5   3       15.1    6.2   41.8 Amazonía 
## 3 Vichada   16.8  18.2  19.5     22.3    4.9   45   Orinoquía

Datos atípicos

cooksd<-cooks.distance(mod)

plot(cooksd, pch="*", cex=2)
abline(h = 5*mean(cooksd, na.rm=T), col="green") 
 text(x=1:length(cooksd)+1, y=cooksd,
       labels=ifelse(cooksd>5*mean(cooksd, na.rm=T),
        names(cooksd),""),
        col="red")

El valor de la fila 15 (Guanía) es influyete en términos de la distancia de Cooks. También catalogado como valor influyente.

Encontramos que se cumple una linealidad para todos los predictores del modelo. Donde la mayoría de puntos estan cercanos a 0 para cada una de las variables evaluadas.

\[NUEVO~MODELO~DE~REGRESIÓN~LINEAL~MULTIMPLE\] Se crea un nuevo modelo pero se retiran los datos influyentes.

d2<-d[-c(5,13,15,26,31,32),-c(1,8)]
mod2 = lm(Global  ~., data =d2)
summary(mod2)

## 
## Call:
## lm(formula = Global ~ ., data = d2)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -1.64155 -0.32715 -0.04401  0.30309  1.74321 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -1.16239    1.63430  -0.711 0.485144    
## F.E.         0.24218    0.03614   6.702 1.60e-06 ***
## I.L.         0.22028    0.03791   5.811 1.10e-05 ***
## B.S.C.H.     0.20003    0.03065   6.526 2.32e-06 ***
## C.T.I.       0.17709    0.01784   9.928 3.57e-09 ***
## I.G.P.       0.17171    0.03710   4.629 0.000162 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.8833 on 20 degrees of freedom
## Multiple R-squared:  0.9964, Adjusted R-squared:  0.9956 
## F-statistic:  1122 on 5 and 20 DF,  p-value: < 2.2e-16

Se evidencia que todas la variables son significativas y un Adjusted R-squared alto, cercano a 1.

plot(mod2)

library(olsrr)
all.mod = ols_step_all_possible(mod2) ; all.mod

##    Index N                       Predictors  R-Square Adj. R-Square Mallow's Cp
## 1      1 1                             F.E. 0.9172992     0.9138534   443.46769
## 2      2 1                             I.L. 0.8742908     0.8690529   685.53384
## 3      3 1                         B.S.C.H. 0.8686821     0.8632105   717.10147
## 5      4 1                           I.G.P. 0.7099089     0.6978218  1610.73015
## 4      5 1                           C.T.I. 0.6838880     0.6707167  1757.18429
## 7      6 2                    F.E. B.S.C.H. 0.9702097     0.9676193   147.66963
## 13     7 2                  B.S.C.H. C.T.I. 0.9634837     0.9603083   185.52619
## 6      8 2                        F.E. I.L. 0.9569898     0.9532498   222.07566
## 11     9 2                      I.L. C.T.I. 0.9520835     0.9479168   249.69016
## 12    10 2                      I.L. I.G.P. 0.9428615     0.9378930   301.59441
## 9     11 2                      F.E. I.G.P. 0.9343075     0.9285951   349.73963
## 8     12 2                      F.E. C.T.I. 0.9288123     0.9226220   380.66851
## 10    13 2                    I.L. B.S.C.H. 0.9071217     0.8990454   502.75013
## 14    14 2                  B.S.C.H. I.G.P. 0.9003102     0.8916415   541.08764
## 15    15 2                    C.T.I. I.G.P. 0.8395985     0.8256506   882.79350
## 19    16 3             F.E. B.S.C.H. C.T.I. 0.9890823     0.9875936    43.44827
## 24    17 3               I.L. C.T.I. I.G.P. 0.9813476     0.9788041    86.98171
## 22    18 3             I.L. B.S.C.H. C.T.I. 0.9777710     0.9747398   107.11220
## 17    19 3                 F.E. I.L. C.T.I. 0.9747180     0.9712704   124.29566
## 18    20 3                 F.E. I.L. I.G.P. 0.9734857     0.9698701   131.23153
## 20    21 3             F.E. B.S.C.H. I.G.P. 0.9730918     0.9694226   133.44812
## 16    22 3               F.E. I.L. B.S.C.H. 0.9729741     0.9692888   134.11076
## 25    23 3           B.S.C.H. C.T.I. I.G.P. 0.9693827     0.9652077   154.32423
## 23    24 3             I.L. B.S.C.H. I.G.P. 0.9460962     0.9387457   285.38869
## 21    25 3               F.E. C.T.I. I.G.P. 0.9439577     0.9363156   297.42476
## 26    26 4        F.E. I.L. B.S.C.H. C.T.I. 0.9926400     0.9912381    25.42449
## 29    27 4      F.E. B.S.C.H. C.T.I. I.G.P. 0.9904468     0.9886272    37.76839
## 28    28 4          F.E. I.L. C.T.I. I.G.P. 0.9888802     0.9867621    46.58609
## 30    29 4      I.L. B.S.C.H. C.T.I. I.G.P. 0.9884669     0.9862701    48.91243
## 27    30 4        F.E. I.L. B.S.C.H. I.G.P. 0.9789353     0.9749229   102.55944
## 31    31 5 F.E. I.L. B.S.C.H. C.T.I. I.G.P. 0.9964466     0.9955582     6.00000

Para el mod2 se usaron 5 varibles. Se debe escoger el numero de predictores cercanos a este valor de acuerdo al indice Mallows.

Mallows indica que el mejor modelo debe contener las variales F.E. I.L. B.S.C.H. C.T.I. I.G.P., ya que presnta un indice de Mallow’s Cp= 6. Muy cercano al valor de las variables que contiene el modelo evaluado. Ademas, usando estas variables Mallows indica que se puede explicar el comportamientos de la variable dependiente Indice global

sub.mod = ols_step_best_subset(mod) ; sub.mod

##             Best Subsets Regression            
## -----------------------------------------------
## Model Index    Predictors
## -----------------------------------------------
##      1         F.E.                             
##      2         B.S.C.H. C.T.I.                  
##      3         I.L. B.S.C.H. C.T.I.             
##      4         F.E. I.L. C.T.I. I.G.P.          
##      5         F.E. I.L. B.S.C.H. C.T.I. I.G.P. 
## -----------------------------------------------
## 
##                                                      Subsets Regression Summary                                                     
## ------------------------------------------------------------------------------------------------------------------------------------
##                        Adj.        Pred                                                                                              
## Model    R-Square    R-Square    R-Square      C(p)        AIC         SBIC        SBC         MSEP        FPE       HSP       APC  
## ------------------------------------------------------------------------------------------------------------------------------------
##   1        0.9214      0.9188      0.9108    542.2955    198.1766    101.8071    202.5738    810.8237    26.9183    0.8736    0.0890 
##   2        0.9673      0.9651      0.9607    211.0322    172.0819     74.5834    177.9449    349.0389    11.9142    0.3890    0.0394 
##   3        0.9858      0.9842      0.9807     79.4296    147.5442     50.2533    154.8728    157.9449     5.5383    0.1823    0.0183 
##   4        0.9927      0.9917      0.9902     30.6893    127.9608     32.9137    136.7552     83.5552     3.0071    0.1000    0.0099 
##   5        0.9964      0.9957      0.9944      6.0000    107.3587     19.2094    117.6189     42.8803     1.5826    0.0533    0.0052 
## ------------------------------------------------------------------------------------------------------------------------------------
## AIC: Akaike Information Criteria 
##  SBIC: Sawa's Bayesian Information Criteria 
##  SBC: Schwarz Bayesian Criteria 
##  MSEP: Estimated error of prediction, assuming multivariate normality 
##  FPE: Final Prediction Error 
##  HSP: Hocking's Sp 
##  APC: Amemiya Prediction Criteria

Indica que el menor ACI lo presenta el modelo que contiene las variables F.E. I.L. B.S.C.H. C.T.I. I.G.P. Este modelo corresponde al mismo que presenta el mejor índice de Mallows.

summary(step(mod2, direction = "both"))

## Start:  AIC=-1.27
## Global ~ F.E. + I.L. + B.S.C.H. + C.T.I. + I.G.P.
## 
##            Df Sum of Sq    RSS    AIC
## <none>                  15.604 -1.274
## - I.G.P.    1    16.716 32.320 15.657
## - I.L.      1    26.347 41.951 22.439
## - B.S.C.H.  1    33.226 48.831 26.387
## - F.E.      1    35.042 50.646 27.336
## - C.T.I.    1    76.898 92.502 42.998

## 
## Call:
## lm(formula = Global ~ F.E. + I.L. + B.S.C.H. + C.T.I. + I.G.P., 
##     data = d2)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -1.64155 -0.32715 -0.04401  0.30309  1.74321 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -1.16239    1.63430  -0.711 0.485144    
## F.E.         0.24218    0.03614   6.702 1.60e-06 ***
## I.L.         0.22028    0.03791   5.811 1.10e-05 ***
## B.S.C.H.     0.20003    0.03065   6.526 2.32e-06 ***
## C.T.I.       0.17709    0.01784   9.928 3.57e-09 ***
## I.G.P.       0.17171    0.03710   4.629 0.000162 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.8833 on 20 degrees of freedom
## Multiple R-squared:  0.9964, Adjusted R-squared:  0.9956 
## F-statistic:  1122 on 5 and 20 DF,  p-value: < 2.2e-16

Suguiere que el mejor modelo es aquel que contiene las siguientes variables F.E. + I.L. + B.S.C.H. + C.T.I. + I.G.P

cor(d2[,-1])

##               F.E.      I.L.  B.S.C.H.    C.T.I.    I.G.P.
## F.E.     1.0000000 0.8759182 0.8445253 0.7955749 0.7975855
## I.L.     0.8759182 1.0000000 0.9215490 0.6604550 0.7015206
## B.S.C.H. 0.8445253 0.9215490 1.0000000 0.6310016 0.7860526
## C.T.I.   0.7955749 0.6604550 0.6310016 1.0000000 0.6606388
## I.G.P.   0.7975855 0.7015206 0.7860526 0.6606388 1.0000000

library(psych)

pairs.panels(d2[,-1],
             method="pearson",
             hist.col ="green")

Sin Embargo, al evaluar las correlaciones, se evidencia aque existe multicolinealidad entre todas las variable predictoras.

Entonces para seleccionar el mejor modelo de regresión lineal para el Indice Global se va a construir variable por variable hasta encontrar un modelo que no presente multicolinealidad.

Los daots evaluados presenta multicolineadlidad. Entonces se debe proponer un modelo de regresión simple.

mod3<-lm(formula = Global ~ F.E., data = d2)
summary(mod3)

## 
## Call:
## lm(formula = Global ~ F.E., data = d2)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -7.8055 -2.4220 -0.0585  2.5848  7.9666 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)   5.0190     2.9062   1.727    0.097 .  
## F.E.          0.9104     0.0558  16.316 1.72e-14 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 3.89 on 24 degrees of freedom
## Multiple R-squared:  0.9173, Adjusted R-squared:  0.9139 
## F-statistic: 266.2 on 1 and 24 DF,  p-value: 1.717e-14

Este modelo presenta un Adjusted R-squared: 0.9139

mod4<-lm(formula = Global ~ I.L., data = d2)
summary(mod4)

## 
## Call:
## lm(formula = Global ~ I.L., data = d2)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -7.7975 -2.1666 -0.1247  2.9000 10.9195 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  3.89328    3.74849   1.039    0.309    
## I.L.         0.85284    0.06601  12.920 2.67e-12 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 4.796 on 24 degrees of freedom
## Multiple R-squared:  0.8743, Adjusted R-squared:  0.8691 
## F-statistic: 166.9 on 1 and 24 DF,  p-value: 2.67e-12

Este modelo presenta un Adjusted R-squared: 0.8691

mod5<-lm(formula = Global ~ B.S.C.H., data = d2)
summary(mod5)

## 
## Call:
## lm(formula = Global ~ B.S.C.H., data = d2)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -9.7567 -3.9903 -0.8461  3.0443  9.1722 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  7.42386    3.57217   2.078   0.0485 *  
## B.S.C.H.     0.71154    0.05647  12.600 4.52e-12 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 4.902 on 24 degrees of freedom
## Multiple R-squared:  0.8687, Adjusted R-squared:  0.8632 
## F-statistic: 158.8 on 1 and 24 DF,  p-value: 4.521e-12

Este modelo presenta un Adjusted R-squared: 0.8632

mod6<-lm(formula = Global ~ C.T.I., data = d2)
summary(mod6)

## 
## Call:
## lm(formula = Global ~ C.T.I., data = d2)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -22.474  -3.056   2.475   5.065   9.388 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  33.7499     2.7939  12.080 1.09e-11 ***
## C.T.I.        0.6600     0.0916   7.206 1.91e-07 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 7.605 on 24 degrees of freedom
## Multiple R-squared:  0.6839, Adjusted R-squared:  0.6707 
## F-statistic: 51.92 on 1 and 24 DF,  p-value: 1.908e-07

Este modelo presenta un Adjusted R-squared: 0.6707

mod7<-lm(formula = Global ~ I.G.P., data = d2)
summary(mod7)

## 
## Call:
## lm(formula = Global ~ I.G.P., data = d2)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -12.6268  -5.3453   0.2016   4.3315  13.5823 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -27.4803    10.3104  -2.665   0.0135 *  
## I.G.P.        1.2326     0.1608   7.664 6.69e-08 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 7.286 on 24 degrees of freedom
## Multiple R-squared:  0.7099, Adjusted R-squared:  0.6978 
## F-statistic: 58.73 on 1 and 24 DF,  p-value: 6.692e-08

Este modelo presenta un Adjusted R-squared: 0.6707

Ahora, de todos los modelos evaluados, escogemos el que presentó mayor Adjusted R-squared

summary(mod3)

## 
## Call:
## lm(formula = Global ~ F.E., data = d2)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -7.8055 -2.4220 -0.0585  2.5848  7.9666 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)   5.0190     2.9062   1.727    0.097 .  
## F.E.          0.9104     0.0558  16.316 1.72e-14 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 3.89 on 24 degrees of freedom
## Multiple R-squared:  0.9173, Adjusted R-squared:  0.9139 
## F-statistic: 266.2 on 1 and 24 DF,  p-value: 1.717e-14

Evaluamos el criterio de AIC

AIC(mod3, mod4, mod5, mod6, mod7)

##      df      AIC
## mod3  3 148.3407
## mod4  3 159.2280
## mod5  3 160.3629
## mod6  3 183.2032
## mod7  3 180.9698

El modelo (mod3) presenta el menor valor de AIC.

plot(mod3)

Finalmente, despues de realizar el analisis completo para encontrar el modelo de regresión linieal de estos datos, se plantea que para predecir el indice de Competitividad Global debe estar en función de la Fortaleza de la Economia.

Entonces, el modelo lineal simple es capaz de predecir de 91.93 % de la variabilidad observada. Además, es significativo y satisface las condiciones para este tipo de regresión.

Y = 5.0190 + 0.9104X1

La ecuación indica que por cada punto que aumenta la Fortaleza de la Economia, el índice Global de Competitividad aumenta 0.91. Además, cuando la Fortaleza de la Economia es 0, el índice Global de Competitividad aumenta 5.1

Modelo regresión simple y multiple

Miguel Ángel Acosta Chinchilla

16/11/2021