Estadística para el Análisis Político | Lección 10 Regresión Lineal Simple

Marylia Cruz

Estadística Bivariada

La elección de tipo de prueba para el análisis bivariado depende del tipo de las variables.

¿Para qué sirven los modelos de regresión lineal?

Introducción

Identifica la variable dependiente e indepediente de acuerdo a la unidad de análisis de los tres distintos temas

Gestión Pública
Relaciones Internacionales
Política Comparada

Regresión lineal

Un modelo de regresión lineal tiene como variable dependiente una variable numérica o intervalar
Las variables explicativas (independientes) que son parte del modelo suelen ser numéricas o intervalares; sin embargo, es posible incorporar variables explicativas ordinales o categóricas Un modelo de regresión lineal puede ser bivariado o multivariado

Nota: El modelo de regresión lineal que se va a considerar aquí es el que se establece a partir del método de la recta de mínimos cuadrados

Regresión lineal simple (regresión lineal bivariado)

Un modelo de regresión lineal bivariado (o un análisis de regresión lineal bivariado) sirve para:
Establecer la existencia o no de una relación (asociación) lineal entre estas dos variables
Calcular una medida del impacto o influencia que tiene la variable explicativa sobre la variable dependiente.

Regresión lineal simple (regresión lineal bivariado)

Una medida de la dirección y la fuerza de asociación (lineal) entre la variable explicativa y la variable dependiente
Una medida de la magnitud o el grado de variación de la variable dependiente que es explicado por la variable explicativa.

Todo esto a través de pruebas de significancia que consideran una hipótesis nula y una hipótesis alterna sobre la relación estadística que existe entre estas dos variables

Modelo estadístico

Ejemplo

Recta de regresión

https://youtu.be/gfs5bp2j_bA

Estimadores/Coeficientes

Residuos

R cuadrado

Una regresión lineal genera:

Un coeficiente de regresión (lineal) que estima el efecto de la variable independiente sobre la variable dependiente
Una medida (R cuadrado) que indica en qué medida la variable independiente explica la variación en la variable dependiente

R cuadrado

Siempre y cuando se observe (o exista) una relación lineal, se puede calcular una ecuación lineal que predice los cambios en Y a partir de los cambios en X
Una regresión lineal a partir de la recta de mínimos cuadrados es aquella en la cual la ecuación que predice los cambios es la “mejor” línea en cuanto a la reducción de las distancias entre los valores observados y los valores que se predicen (suma de errores al cuadrado).

R cuadrado

Ejercicio en R

library(rio)
data <- import("data_segundavuelta.xlsx")
names(data)

[1] "Distrito.electoral" "IDH"                "Evida"             
[4] "EduCom"             "Aeduca"             "IngresoPer"        
[7] "VOTOS_CASTILLO"     "VOTOS_KEIKO"

Ejercicio en R con los datos de la segunda vuelta de las Elecciones Generales 2021

library(rio)
data <- import("data_segundavuelta.xlsx")
names(data)

[1] "Distrito.electoral" "IDH"                "Evida"             
[4] "EduCom"             "Aeduca"             "IngresoPer"        
[7] "VOTOS_CASTILLO"     "VOTOS_KEIKO"

Identificar la variable dependiente e independiente.

Ejercicio en R de Modelo de Regresión Simple

modelo1=lm(CASTILLO_2da~IDH,data=data)
summary(modelo1)


Call:
lm(formula = VOTOS_CASTILLO ~ IDH, data = data)

Residuals:
     Min       1Q   Median       3Q      Max 
-24.9269 -11.4381   0.3531  12.5154  23.2066 

Coefficients:
              Estimate Std. Error t value Pr(>|t|)    
(Intercept) 102.420025  18.972402   5.398 1.75e-05 ***
IDH          -0.007810   0.003579  -2.182   0.0396 *  
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 15.35 on 23 degrees of freedom
Multiple R-squared:  0.1715,    Adjusted R-squared:  0.1355 
F-statistic: 4.762 on 1 and 23 DF,  p-value: 0.03957

Ejercicio en R - Gráfico

library(ggplot2)
ggplot(data, aes(x=IDH, y=VOTOS_CASTILLO)) + geom_point(colour = "blue")

Ejercicio en R - Gráfico

ggplot(data, aes(x=IDH, y=VOTOS_CASTILLO)) + 
  geom_point() +
  geom_smooth(method='lm', formula=y~x, se=FALSE, col='dodgerblue1') +
  theme_light()

Otros elementos

Extraer los coeficientes

modelo1$coefficients

  (Intercept)           IDH 
102.420025116  -0.007809635

Extraer los valores pronosticados

modelo1$fitted.values

       1        2        3        4        5        6        7        8 
69.79918 62.13012 70.33024 52.24312 68.62774 69.22127 52.42274 62.42689 
       9       10       11       12       13       14       15       16 
72.44665 66.98771 55.56222 62.53622 59.60761 60.69315 45.76113 64.66825 
      17       18       19       20       21       22       23       24 
54.50011 50.96234 65.05092 62.35660 66.05837 64.68387 56.34318 59.06093 
      25 
64.66044

Extraer los residuales

modelo1$residuals

          1           2           3           4           5           6 
 -3.2721815  -3.6681204  11.1447633   8.9358770  13.6622637   2.0797314 
          7           8           9          10          11          12 
 15.0022554  20.7501135  12.5153524   0.7202869  -8.0502177  -4.6492214 
         13          14          15          16          17          18 
-19.5856084 -18.8681476 -11.4381263 -17.4172516  16.4638926  22.1876570 
         19          20          21          22          23          24 
  0.3530763 -22.4015998  23.2066334  -8.5728709  12.3718188 -24.9269340 
         25 
-16.5434420

Guardar los valores pronosticados

data$predicciones <- predict(modelo1)

Gráfico con los valores pronósticados

Ejercicio 2 en R con los datos de las Elecciones Presidenciales de Colombia 2022

library(rio)
data <- import("Colombia2022.xlsx")
names(data)

[1] "Region"    "Petro"     "Hernández" "Fico"      "IDH2019"

Ejercicio en R de Modelo de Regresión Simple

modelo2=lm(Petro~IDH2019,data=data2)
summary(modelo2)


Call:
lm(formula = Petro ~ IDH2019, data = data2)

Residuals:
     Min       1Q   Median       3Q      Max 
-0.25500 -0.11035 -0.02323  0.09892  0.22906 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)   2.0028     0.4968   4.032 0.000334 ***
IDH2019      -2.1193     0.6670  -3.178 0.003354 ** 
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 0.141 on 31 degrees of freedom
Multiple R-squared:  0.2457,    Adjusted R-squared:  0.2214 
F-statistic:  10.1 on 1 and 31 DF,  p-value: 0.003354

Ejercicio en R - Gráfico

ggplot(data2, aes(x=IDH2019, y=Petro)) + 
  geom_point() +
  geom_smooth(method='lm', formula=y~x, se=FALSE, col='dodgerblue1') +
  theme_light()