Unidad 2: Modelo de Regresión

Sesión 3

Introducción

Después de haber tenido un primer acercamiento al manejo de RStudio y otras funciones adicionales, podemos comenzar a desarrollar nuestros primeros modelos econométricos.

No debemos olvidar que son administradores y como tal su análisis dependerá de las ideas y teorías que dominen; de lo contrario, corremos el riesgo de que nuestro trabajo se caracterice por esa “expresión familiar sobre el análisis de datos informáticos, basura que entra, basura que sale” (Kline, 2016: 8).

Making data mean more through storytelling | Ben Wellington | TEDxBroadway

https://www.youtube.com/watch?v=6xsvGYIxJok

Importar bases de datos

No olviden cargar las librerías antes de comenzar con los procedimientos necesarios. Si no tienen alguna librería, deben proceder a descargarla.

#install.package()

#library()

#install.packages("summarytools")
library(summarytools)
library(haven)
library(corrplot)
library(stargazer)
library(Hmisc)

Preparación de base de datos

wage1 <- read_dta("wage1.dta")

Creación de subgrupo

attach(wage1)

Salarios <- data.frame(wage,educ,exper)

detach(wage1)

Estadísticos descriptivos

str(Salarios)

## 'data.frame':    526 obs. of  3 variables:
##  $ wage : num  3.1 3.24 3 6 5.3 ...
##   ..- attr(*, "label")= chr "Promedio de ganancias por hora"
##   ..- attr(*, "format.stata")= chr "%8.2g"
##  $ educ : num  11 12 11 8 12 16 18 12 12 17 ...
##   ..- attr(*, "label")= chr "Años de educación"
##   ..- attr(*, "format.stata")= chr "%8.0g"
##  $ exper: num  2 22 2 44 7 9 15 5 26 22 ...
##   ..- attr(*, "label")= chr "Años de experiencia"
##   ..- attr(*, "format.stata")= chr "%8.0g"

describe(Salarios)

## Salarios 
## 
##  3  Variables      526  Observations
## --------------------------------------------------------------------------------
## wage : Promedio de ganancias por hora  Format:%8.2g 
##        n  missing distinct     Info     Mean      Gmd      .05      .10 
##      526        0      241    0.999    5.896    3.638     2.77     2.92 
##      .25      .50      .75      .90      .95 
##     3.33     4.65     6.88    10.00    12.88 
## 
## lowest : 0.53  1.43  1.5   1.63  1.67 , highest: 21.63 21.86 22.2  22.86 24.98
## --------------------------------------------------------------------------------
## educ : Años de educación  Format:%8.0g 
##        n  missing distinct     Info     Mean      Gmd      .05      .10 
##      526        0       18    0.942    12.56    2.936        8        9 
##      .25      .50      .75      .90      .95 
##       12       12       14       16       17 
##                                                                             
## Value          0     2     3     4     5     6     7     8     9    10    11
## Frequency      2     1     1     3     1     6     4    22    17    30    29
## Proportion 0.004 0.002 0.002 0.006 0.002 0.011 0.008 0.042 0.032 0.057 0.055
##                                                     
## Value         12    13    14    15    16    17    18
## Frequency    198    39    53    21    68    12    19
## Proportion 0.376 0.074 0.101 0.040 0.129 0.023 0.036
## 
## For the frequency table, variable is rounded to the nearest 0
## --------------------------------------------------------------------------------
## exper : Años de experiencia  Format:%8.0g 
##        n  missing distinct     Info     Mean      Gmd      .05      .10 
##      526        0       51    0.999    17.02    15.15     1.25     2.00 
##      .25      .50      .75      .90      .95 
##     5.00    13.50    26.00    38.00    43.00 
## 
## lowest :  1  2  3  4  5, highest: 47 48 49 50 51
## --------------------------------------------------------------------------------

hist(Salarios$wage)

Modelo de regresión

Correlación

cor(Salarios)

##            wage       educ      exper
## wage  1.0000000  0.4059033  0.1129034
## educ  0.4059033  1.0000000 -0.2995418
## exper 0.1129034 -0.2995418  1.0000000

mat_correlacion<-round(cor(Salarios), 1)
corrplot(mat_correlacion, method="number", type="upper")

Modelo de Regresión Simple

modelo1 <- lm(wage ~educ, data=Salarios)

Resultado

summary(modelo1)

## 
## Call:
## lm(formula = wage ~ educ, data = Salarios)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -5.3396 -2.1501 -0.9674  1.1921 16.6085 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -0.90485    0.68497  -1.321    0.187    
## educ         0.54136    0.05325  10.167   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 3.378 on 524 degrees of freedom
## Multiple R-squared:  0.1648, Adjusted R-squared:  0.1632 
## F-statistic: 103.4 on 1 and 524 DF,  p-value: < 2.2e-16

Resultado personalizado

stargazer(modelo1, title = "Modelo Estimado sobre Salarios", type = "text")

## 
## Modelo Estimado sobre Salarios
## ===============================================
##                         Dependent variable:    
##                     ---------------------------
##                                wage            
## -----------------------------------------------
## educ                         0.541***          
##                               (0.053)          
##                                                
## Constant                      -0.905           
##                               (0.685)          
##                                                
## -----------------------------------------------
## Observations                    526            
## R2                             0.165           
## Adjusted R2                    0.163           
## Residual Std. Error      3.378 (df = 524)      
## F Statistic          103.363*** (df = 1; 524)  
## ===============================================
## Note:               *p<0.1; **p<0.05; ***p<0.01