Después de haber tenido un primer acercamiento al manejo de RStudio y otras funciones adicionales, podemos comenzar a desarrollar nuestros primeros modelos econométricos.
No debemos olvidar que son administradores y como tal su análisis dependerá de las ideas y teorías que dominen; de lo contrario, corremos el riesgo de que nuestro trabajo se caracterice por esa “expresión familiar sobre el análisis de datos informáticos, basura que entra, basura que sale” (Kline, 2016: 8).
Making data mean more through storytelling | Ben Wellington | TEDxBroadway
No olviden cargar las librerías antes de comenzar con los procedimientos necesarios. Si no tienen alguna librería, deben proceder a descargarla.
#install.package()
#library()
#install.packages("summarytools")
library(summarytools)
library(haven)
library(corrplot)
library(stargazer)
library(Hmisc)
Preparación de base de datos
wage1 <- read_dta("wage1.dta")
Creación de subgrupo
attach(wage1)
Salarios <- data.frame(wage,educ,exper)
detach(wage1)
str(Salarios)
## 'data.frame': 526 obs. of 3 variables:
## $ wage : num 3.1 3.24 3 6 5.3 ...
## ..- attr(*, "label")= chr "Promedio de ganancias por hora"
## ..- attr(*, "format.stata")= chr "%8.2g"
## $ educ : num 11 12 11 8 12 16 18 12 12 17 ...
## ..- attr(*, "label")= chr "Años de educación"
## ..- attr(*, "format.stata")= chr "%8.0g"
## $ exper: num 2 22 2 44 7 9 15 5 26 22 ...
## ..- attr(*, "label")= chr "Años de experiencia"
## ..- attr(*, "format.stata")= chr "%8.0g"
describe(Salarios)
## Salarios
##
## 3 Variables 526 Observations
## --------------------------------------------------------------------------------
## wage : Promedio de ganancias por hora Format:%8.2g
## n missing distinct Info Mean Gmd .05 .10
## 526 0 241 0.999 5.896 3.638 2.77 2.92
## .25 .50 .75 .90 .95
## 3.33 4.65 6.88 10.00 12.88
##
## lowest : 0.53 1.43 1.5 1.63 1.67 , highest: 21.63 21.86 22.2 22.86 24.98
## --------------------------------------------------------------------------------
## educ : Años de educación Format:%8.0g
## n missing distinct Info Mean Gmd .05 .10
## 526 0 18 0.942 12.56 2.936 8 9
## .25 .50 .75 .90 .95
## 12 12 14 16 17
##
## Value 0 2 3 4 5 6 7 8 9 10 11
## Frequency 2 1 1 3 1 6 4 22 17 30 29
## Proportion 0.004 0.002 0.002 0.006 0.002 0.011 0.008 0.042 0.032 0.057 0.055
##
## Value 12 13 14 15 16 17 18
## Frequency 198 39 53 21 68 12 19
## Proportion 0.376 0.074 0.101 0.040 0.129 0.023 0.036
##
## For the frequency table, variable is rounded to the nearest 0
## --------------------------------------------------------------------------------
## exper : Años de experiencia Format:%8.0g
## n missing distinct Info Mean Gmd .05 .10
## 526 0 51 0.999 17.02 15.15 1.25 2.00
## .25 .50 .75 .90 .95
## 5.00 13.50 26.00 38.00 43.00
##
## lowest : 1 2 3 4 5, highest: 47 48 49 50 51
## --------------------------------------------------------------------------------
hist(Salarios$wage)
Correlación
cor(Salarios)
## wage educ exper
## wage 1.0000000 0.4059033 0.1129034
## educ 0.4059033 1.0000000 -0.2995418
## exper 0.1129034 -0.2995418 1.0000000
mat_correlacion<-round(cor(Salarios), 1)
corrplot(mat_correlacion, method="number", type="upper")
Modelo de Regresión Simple
modelo1 <- lm(wage ~educ, data=Salarios)
Resultado
summary(modelo1)
##
## Call:
## lm(formula = wage ~ educ, data = Salarios)
##
## Residuals:
## Min 1Q Median 3Q Max
## -5.3396 -2.1501 -0.9674 1.1921 16.6085
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -0.90485 0.68497 -1.321 0.187
## educ 0.54136 0.05325 10.167 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 3.378 on 524 degrees of freedom
## Multiple R-squared: 0.1648, Adjusted R-squared: 0.1632
## F-statistic: 103.4 on 1 and 524 DF, p-value: < 2.2e-16
Resultado personalizado
stargazer(modelo1, title = "Modelo Estimado sobre Salarios", type = "text")
##
## Modelo Estimado sobre Salarios
## ===============================================
## Dependent variable:
## ---------------------------
## wage
## -----------------------------------------------
## educ 0.541***
## (0.053)
##
## Constant -0.905
## (0.685)
##
## -----------------------------------------------
## Observations 526
## R2 0.165
## Adjusted R2 0.163
## Residual Std. Error 3.378 (df = 524)
## F Statistic 103.363*** (df = 1; 524)
## ===============================================
## Note: *p<0.1; **p<0.05; ***p<0.01