INTRODUCCIÓN
Utilizando el libro titulado “microeconometrics using stata” de Cameron Trivedi en especifico la sección 6.3.2, nos bararemos en la extracción de datos de la encuesta del panel de gastos médicos (MEPS) por sus siglas en inglés, de personas mayores de 65 años.
Mediante un análisis econométrico se tratara de observar el comportamiento del desembolso total en medicamentos recetados a través de la variable dependiente logaritmo natural de los medicamentos expedidos ldrugexp.
Las variables explicativas son :
hi_empunion: Indicador de si la persona cuenta con un seguro medico proporcionado por su sindicato laboral.
totchr: Indicador que engloba el número de enfermedades crónicas de las personas.
age: Edad de las personas
female: Sexo de las personas
blhisp: Indicador de raza ya sea negro o hispano
linc: Logaritmo natural del ingreso anual del hogar en miles de dólares
Planteando la regresión por MCO como:
ldrugexp = ß0 + a1 hiempunion + ß1 totchr + ß2 age + a2 female + a3 blhisp + ß3 linc + u
COMANDOS PARA BASE
library(haven)
library(stargazer)
##
## Please cite as:
## Hlavac, Marek (2018). stargazer: Well-Formatted Regression and Summary Statistics Tables.
## R package version 5.2.2. https://CRAN.R-project.org/package=stargazer
library(AER)
## Loading required package: car
## Loading required package: carData
## Loading required package: lmtest
## Loading required package: zoo
##
## Attaching package: 'zoo'
## The following objects are masked from 'package:base':
##
## as.Date, as.Date.numeric
## Loading required package: sandwich
## Loading required package: survival
library("ANOVA.TFNs", lib.loc="~/R/win-library/3.5")
library("ANOVAreplication", lib.loc="~/R/win-library/3.5")
## Loading required package: quadprog
## Loading required package: shiny
CARGAR BASE
mus06data <- read_dta("~/Modelos econometricos/TAREA2/mus06data.dta")
head(mus06data)
1. Estimar e interpretar por MCO. Interpretar.
MODELO
ldrugexp = ß0 + a1 hiempunion + ß1 totchr + ß2 age + a2 female + a3 blhisp + ß3 linc + u
reg1<- lm ( ldrugexp ~ hi_empunion + totchr + age + female + blhisp + linc, mus06data)
summary(reg1)
##
## Call:
## lm(formula = ldrugexp ~ hi_empunion + totchr + age + female +
## blhisp + linc, data = mus06data)
##
## Residuals:
## Min 1Q Median 3Q Max
## -6.3295 -0.6754 0.1516 0.8559 3.7343
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 5.861131 0.153184 38.262 < 2e-16 ***
## hi_empunion 0.073879 0.026109 2.830 0.00467 **
## totchr 0.440381 0.009573 46.002 < 2e-16 ***
## age -0.003529 0.001886 -1.871 0.06132 .
## female 0.057806 0.025163 2.297 0.02163 *
## blhisp -0.151307 0.033808 -4.475 7.71e-06 ***
## linc 0.010482 0.013952 0.751 0.45251
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 1.236 on 10082 degrees of freedom
## (302 observations deleted due to missingness)
## Multiple R-squared: 0.177, Adjusted R-squared: 0.1765
## F-statistic: 361.3 on 6 and 10082 DF, p-value: < 2.2e-16
stargazer( reg1,type = 'text')
##
## ===============================================
## Dependent variable:
## ---------------------------
## ldrugexp
## -----------------------------------------------
## hi_empunion 0.074***
## (0.026)
##
## totchr 0.440***
## (0.010)
##
## age -0.004*
## (0.002)
##
## female 0.058**
## (0.025)
##
## blhisp -0.151***
## (0.034)
##
## linc 0.010
## (0.014)
##
## Constant 5.861***
## (0.153)
##
## -----------------------------------------------
## Observations 10,089
## R2 0.177
## Adjusted R2 0.176
## Residual Std. Error 1.236 (df = 10082)
## F Statistic 361.317*** (df = 6; 10082)
## ===============================================
## Note: *p<0.1; **p<0.05; ***p<0.01
INTERPRETACIÓN DEL MODELO POR MCO
COEFICIENTES :
Intercepto: Cuando todas las variables explicativas son igual 0, el gasto total de desembolso en medicamentos recetados será de 586.115% más por persona, en promedio céteris páribus. Esta variable es estadísticamente significativa.(n.s.= 0.001%.)
hi_empunion: Las personas que tienen seguro de gastos médicos por el empleador o por el sindicato gastan 7.38% más que las personas que no cuentan con el seguro, en promedio céteris páribus. Esta variable es estadísticamente significativa ( n.s.= 0.01%.)
totchr: Por cada enfermedadad crónica extra las personas gastan 44.03% más, en promedio céteris páribus. La variable es estadísticamente significativa (n.s.= 0.001%)
age: Por cada año adicional que tenga una persona gastará 0.35% menos, en promedio céteris páribus. La variable es estadísticamente significativa (n.s.= 0.1%.)
female: Las mujeres gastan 5.78% más que los hombres, en promedio céteris páribus. Esta variable es estadísticamente significativa (n.s.= 0.05%.)
blhisp: Las personas negras e hispanas gastan 15.13% menos que las personas no negras o hispanas, en promedio céteris páribus. Esta variable es estadísticamente significativa (n.s.=0.001%)
linc: Por cda unidad porcentual más en el ingreso de las personas, gastaran 0.01 más, en promedio céteris páribus. La variable no es estadísticamente significativa
AJUSTE DE BONDAD :
Coeficiente de Determinación (R^2=0.177). Este nos indica que el modelo explica el 17.70% del cambio de la variable dependiente (ldrugexp).
El coeficiente de determinación ajustado (R^2ajustada =0.1765), es decir que el modelo explica el 17.65% por ciento del cambio de la variable dependiente (ldrugexp).
PRUEBA F:
Bajo el valor p de la prueba F este es menor a 0.05 por lo tanto se rechaza la hipótesis nula. En consecuencia, NO todos los coeficientes de pendiente son simultáneamente cero.
2. ¿Por qué la variable hi_empunion es potencialmente endógena?
Es importante explicar que después de analizar el modelo, y apoyados de la literatura del libro empleado resultq que la variable “hi_empunion” es endógena, ya que esta variable tiene las propiedades de endogeneidad porque tener el seguro complementario además de un seguro médico casi universal para las personas mayores puede ser una variable que toma el caracter de elección.Se toma en cuenta que la mayoría de los individuos en la muestra ya no se encuantran trabajando, ademas esperaban tener altos gastos médicos a futuros cabe la posibilidad de haber tenido más probabilidades de elegir un trabajo el cual fuera capaz de proporcionaría un seguro de salud complementario al momento de la jubilación.
Asi que la variable “hi_empunion” resulta ser endógena por lo tanto bajo esta logica al efectuar la regresión por MCO nos encontraríamos con parámetros inconsistentes y sesgados, por lo que se sugiere el método de variables instrumentales para corregir la endogeneidad.
Se utilizaran variables exógenas que estén correlacionadas con la variable “hi_empunion” estas variables tienen que tomar el papel de instrumentos. Las 4 variables que pueden servir como instrumentos son:
(Reflejan el estado de ingresos del individuo)
ssiratio: Muestra la relación entre el ingreso de seguridad social del individuo y el de todas sus fuentes.
lowincome: Indicador cualitativo que muestra los bajos ingresos del empleado.
(Se basan en las características del empleador)
multlc: Indica si la empresa tiene múltiples ubicaciones.
firmsz: Mide el tamaño de la fuerza laboral empleada en la empresa.
Se espera que las dos primeras variables sean los instrumentos potencialmente más fuertes ya que se basan en características del empleador y además se espera que tengan una correlación negativa con la variable endógena. Porotro lado las ultimas dos variables pretenden mostrar si la persona tiene acceso a un seguro complementario a través del empleador y resulta que serian irrelevantes para personas mayores ya jubiladas, que trabajan por cuenta propia o que compran un seguro privado por lo que se consideran potencialmente débiles
Por consiguinte se presentan las pruebas de cada variable para verificar cuál de las cuatro variables instrumentales seria la edecuada para el modelo.
3.Probar los posibles instrumentos ssiratio, lowincome, multlc, firmsz.Describa sus resultados
PROBAR LOS INSTRUMENTOS
reg2<- lm(hi_empunion ~ ssiratio + totchr + age + female + blhisp + linc, mus06data )
summary(reg2)
##
## Call:
## lm(formula = hi_empunion ~ ssiratio + totchr + age + female +
## blhisp + linc, data = mus06data)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.7162 -0.3879 -0.2321 0.5119 2.5291
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 1.028981 0.057409 17.924 < 2e-16 ***
## ssiratio -0.191643 0.014129 -13.564 < 2e-16 ***
## totchr 0.012786 0.003622 3.530 0.000418 ***
## age -0.008632 0.000713 -12.107 < 2e-16 ***
## female -0.073450 0.009493 -7.737 1.11e-14 ***
## blhisp -0.062680 0.012769 -4.909 9.30e-07 ***
## linc 0.048394 0.005677 8.525 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.4672 on 10082 degrees of freedom
## (302 observations deleted due to missingness)
## Multiple R-squared: 0.07605, Adjusted R-squared: 0.0755
## F-statistic: 138.3 on 6 and 10082 DF, p-value: < 2.2e-16
reg3<- lm(hi_empunion ~ lowincome + totchr + age + female + blhisp + linc, mus06data )
summary(reg3)
##
## Call:
## lm(formula = hi_empunion ~ lowincome + totchr + age + female +
## blhisp + linc, data = mus06data)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.7028 -0.3910 -0.2473 0.5227 1.2557
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 0.9709851 0.0575518 16.871 < 2e-16 ***
## lowincome -0.0907429 0.0123111 -7.371 1.83e-13 ***
## totchr 0.0105194 0.0036408 2.889 0.00387 **
## age -0.0097099 0.0007115 -13.647 < 2e-16 ***
## female -0.0791551 0.0095412 -8.296 < 2e-16 ***
## blhisp -0.0668208 0.0128450 -5.202 2.01e-07 ***
## linc 0.0707178 0.0053621 13.189 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.4702 on 10082 degrees of freedom
## (302 observations deleted due to missingness)
## Multiple R-squared: 0.06424, Adjusted R-squared: 0.06368
## F-statistic: 115.3 on 6 and 10082 DF, p-value: < 2.2e-16
reg4<- lm(hi_empunion ~ multlc + totchr + age + female + blhisp + linc, mus06data )
summary(reg4)
##
## Call:
## lm(formula = hi_empunion ~ multlc + totchr + age + female + blhisp +
## linc, data = mus06data)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.7715 -0.3822 -0.2594 0.5357 1.2940
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 0.9016900 0.0579164 15.569 < 2e-16 ***
## multlc 0.1487593 0.0200300 7.427 1.20e-13 ***
## totchr 0.0109104 0.0036417 2.996 0.00274 **
## age -0.0091799 0.0007186 -12.775 < 2e-16 ***
## female -0.0792221 0.0095406 -8.304 < 2e-16 ***
## blhisp -0.0741602 0.0128696 -5.762 8.53e-09 ***
## linc 0.0720981 0.0053257 13.538 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.4702 on 10082 degrees of freedom
## (302 observations deleted due to missingness)
## Multiple R-squared: 0.06431, Adjusted R-squared: 0.06376
## F-statistic: 115.5 on 6 and 10082 DF, p-value: < 2.2e-16
reg5<- lm(hi_empunion ~ firmsz + totchr + age + female + blhisp + linc, mus06data )
summary(reg5)
##
## Call:
## lm(formula = hi_empunion ~ firmsz + totchr + age + female + blhisp +
## linc, data = mus06data)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.8755 -0.3892 -0.2609 0.5308 1.3424
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 0.9481012 0.0576506 16.446 < 2e-16 ***
## firmsz 0.0068293 0.0021640 3.156 0.00160 **
## totchr 0.0102640 0.0036486 2.813 0.00492 **
## age -0.0099029 0.0007125 -13.898 < 2e-16 ***
## female -0.0807026 0.0095605 -8.441 < 2e-16 ***
## blhisp -0.0687961 0.0128742 -5.344 9.3e-08 ***
## linc 0.0784064 0.0052624 14.899 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.4713 on 10082 degrees of freedom
## (302 observations deleted due to missingness)
## Multiple R-squared: 0.06012, Adjusted R-squared: 0.05956
## F-statistic: 107.5 on 6 and 10082 DF, p-value: < 2.2e-16
stargazer(reg2, reg3, reg4, reg5,type = 'text')
##
## ============================================================================
## Dependent variable:
## -------------------------------------------
## hi_empunion
## (1) (2) (3) (4)
## ----------------------------------------------------------------------------
## ssiratio -0.192***
## (0.014)
##
## lowincome -0.091***
## (0.012)
##
## multlc 0.149***
## (0.020)
##
## firmsz 0.007***
## (0.002)
##
## totchr 0.013*** 0.011*** 0.011*** 0.010***
## (0.004) (0.004) (0.004) (0.004)
##
## age -0.009*** -0.010*** -0.009*** -0.010***
## (0.001) (0.001) (0.001) (0.001)
##
## female -0.073*** -0.079*** -0.079*** -0.081***
## (0.009) (0.010) (0.010) (0.010)
##
## blhisp -0.063*** -0.067*** -0.074*** -0.069***
## (0.013) (0.013) (0.013) (0.013)
##
## linc 0.048*** 0.071*** 0.072*** 0.078***
## (0.006) (0.005) (0.005) (0.005)
##
## Constant 1.029*** 0.971*** 0.902*** 0.948***
## (0.057) (0.058) (0.058) (0.058)
##
## ----------------------------------------------------------------------------
## Observations 10,089 10,089 10,089 10,089
## R2 0.076 0.064 0.064 0.060
## Adjusted R2 0.076 0.064 0.064 0.060
## Residual Std. Error (df = 10082) 0.467 0.470 0.470 0.471
## F Statistic (df = 6; 10082) 138.317*** 115.348*** 115.495*** 107.488***
## ============================================================================
## Note: *p<0.1; **p<0.05; ***p<0.01
RESULTADOS:
Los resultados obtenidos de las variables instrumentales siguen la linea de lo establecido por el autor, el cual menciona que las dos primeras variables instrumentales tengan signo negativo, lo cual si ocurrio y ademas las últimas dos variables instrumentales tienen signo positivo como se esparaba.
Se concluye que:
ssiratio: Es un instrumento fuerte, con un nivel de significancia de 0.01%, por lo que es posible utilizarlo. Además la variable tiene un coeficiente negativo de 0.192.
lowincome: Es un instrumento fuerte, con un nivel de significancia de 0.01% por lo que es factible utilizarla. De igual manera que ssiratio, la variable tiene un coeficiente negativo pera este es de 0.091.
multlc: El impacto de esta variable es positivo con un coeficente de 0.149 y de igual manera al ifual que las otras variables es un instrumento fuerte porque tiene un vivel de significanciadel 0.01%.
firmsz: Esta última variable también tiene un impacto positivo en la variable endógena, el impacto es de 0.007. De igual manera que las otras variables esta tiene una significancia del .01%
4. De acuerdo con los resultados del punto anterior, elija el mejor instrumento, estime por variables instrumentales e interprete los resultados.
ELECCIÓN DE VARIABLE INSTRUMENTAL
Despues de analizar el impacto de las diferentes variables instrumentales debemos elegir una, la cual bajo el criterio en su nivel de significancia y el valor del coeficiente sobre la variable endógena se eligira la variable “ssiratio”.
reg2.1<- ivreg(ldrugexp ~ hi_empunion + totchr + age + female + blhisp + linc|totchr + age + female + blhisp + linc +ssiratio, data = mus06data)
stargazer(reg2.1,type = 'text')
##
## ===============================================
## Dependent variable:
## ---------------------------
## ldrugexp
## -----------------------------------------------
## hi_empunion -0.898***
## (0.208)
##
## totchr 0.450***
## (0.010)
##
## age -0.013***
## (0.003)
##
## female -0.020
## (0.032)
##
## blhisp -0.217***
## (0.039)
##
## linc 0.087***
## (0.022)
##
## Constant 6.787***
## (0.256)
##
## -----------------------------------------------
## Observations 10,089
## R2 0.064
## Adjusted R2 0.063
## Residual Std. Error 1.318 (df = 10082)
## ===============================================
## Note: *p<0.1; **p<0.05; ***p<0.01
INTERPRETACIÓN DEL MODELO UTILIZANDO LA VARIBALE INSTRUMENTAL
COEFICIENTES :
hi_empunion: Tenemos que las personas que tienen seguro de gastos médicos por el empleador o por el sindicato gastan 89.80% menos que las personas que no cuentan con el seguro, en promedio céteris páribus. Esta variable es estadísticamente significativa (n.s.= 0.01%).
totchr: Indica que por cada enfermedadad crónica extra las personas gastan 45% más, en promedio céteris páribus. La variable es estadísticamente significativa (n.s.= 0.01%).
age: Indica que por cada año adicional que tenga una persona gastará 1.3% menos, en promedio céteris páribus. La variable es estadísticamente significativa (n.s.= 0.01%).
female: Las mujeres gastan 2% menos que los hombres, en promedio céteris páribus. Esta variable no es estadísticamente significativa.
blhisp: Las personas negras e hispanas gastan 21.70% menos que las personas no negras o hispanas, en promedio céteris páribus. Esta variable es estadísticamente significativa (n.s.= 0.01%).
linc: Indica que por cada unidad porcentual más en el ingreso de las personas, estas gastaran 0.087 más, en promedio céteris páribus.Esta variable es estadísticamente significativa (n.s.= 0.01%).
AJUSTE DE BONDAD :
El Coeficiente de Determinación (R^2=0.064). El modelo explica el 6.40% del cambio de la variable dependiente (ldrugexp).
El coeficiente de determinación ajustado (R^2ajustada=0.063), esto quiere decir que el modelo explica el 6.30% por ciento del cambio de la variable dependiente (ldrugexp).
PRUEBA F:
Tomando en cuenta el valor p de la prueba F es menor a 0.05 entonces se rechaza la hipótesis nula. En consecuencia, NO todos los coeficientes dependientes son simultáneamente cero.
5. Realice la prueba de Hausman. ¿Existe endogeneidad?
summary(reg2.1,diagnostics= T)
##
## Call:
## ivreg(formula = ldrugexp ~ hi_empunion + totchr + age + female +
## blhisp + linc | totchr + age + female + blhisp + linc + ssiratio,
## data = mus06data)
##
## Residuals:
## Min 1Q Median 3Q Max
## -6.7616 -0.7529 0.1275 0.8959 4.0723
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 6.787170 0.255523 26.562 < 2e-16 ***
## hi_empunion -0.897591 0.207991 -4.316 1.61e-05 ***
## totchr 0.450266 0.010422 43.201 < 2e-16 ***
## age -0.013218 0.002876 -4.596 4.36e-06 ***
## female -0.020406 0.031552 -0.647 0.518
## blhisp -0.217424 0.038688 -5.620 1.96e-08 ***
## linc 0.087002 0.022022 3.951 7.85e-05 ***
##
## Diagnostic tests:
## df1 df2 statistic p-value
## Weak instruments 1 10082 183.98 < 2e-16 ***
## Wu-Hausman 1 10081 25.32 4.93e-07 ***
## Sargan 0 NA NA NA
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 1.318 on 10082 degrees of freedom
## Multiple R-Squared: 0.06395, Adjusted R-squared: 0.0634
## Wald test: 319.6 on 6 and 10082 DF, p-value: < 2.2e-16
` RESULTADOS:
Gracias a la prueba de Hausman, podemos concluir mediante el valor p el cual es menor de a 0.05 “RECHAZAMOS LA HIPOSIS NULA” , la cual nos dice que es preferible dejar el modelo con Mínimos Cuadrados Ordinarios, y optamos la Hiposis alternativa la cual nos dice que es preferible utilizar Minimos Cuadrados Ordinarios en 2 Etapas.
6. Estime por MC2E ocupando dos o más posibles instrumentos. De acuerdo con la prueba de Sargan, ¿Cuál es la mejor combinación de instrumentos? Interprete.
En este ultimo punto, despues de econtrar todas las posibles combinaciones (las cuales en total fueron 11), concluimos que solo 3 combinaciones pasan la prueba de sargan. Las combinaciones son:
reg_final_1<-ivreg(ldrugexp ~ hi_empunion + totchr + age + female + blhisp + linc|totchr + age + female + blhisp + linc +multlc+firmsz, data= mus06data)
summary(reg_final_1, diagnostics= T)
##
## Call:
## ivreg(formula = ldrugexp ~ hi_empunion + totchr + age + female +
## blhisp + linc | totchr + age + female + blhisp + linc + multlc +
## firmsz, data = mus06data)
##
## Residuals:
## Min 1Q Median 3Q Max
## -7.03222 -0.86487 0.08313 0.98693 4.54685
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 7.367225 0.421170 17.492 < 2e-16 ***
## hi_empunion -1.506102 0.401173 -3.754 0.000175 ***
## totchr 0.456457 0.011895 38.373 < 2e-16 ***
## age -0.019286 0.004557 -4.233 2.33e-05 ***
## female -0.069396 0.043593 -1.592 0.111432
## blhisp -0.258839 0.047952 -5.398 6.89e-08 ***
## linc 0.134933 0.035470 3.804 0.000143 ***
##
## Diagnostic tests:
## df1 df2 statistic p-value
## Weak instruments 2 10081 29.273 2.11e-13 ***
## Wu-Hausman 1 10081 21.311 3.95e-06 ***
## Sargan 1 NA 2.607 0.106
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 1.443 on 10082 degrees of freedom
## Multiple R-Squared: -0.122, Adjusted R-squared: -0.1226
## Wald test: 266.4 on 6 and 10082 DF, p-value: < 2.2e-16
reg_final_2<-ivreg(ldrugexp ~ hi_empunion + totchr + age + female + blhisp + linc|totchr + age + female + blhisp + linc + ssiratio+multlc+firmsz, data= mus06data)
summary(reg_final_2, diagnostics= T)
##
## Call:
## ivreg(formula = ldrugexp ~ hi_empunion + totchr + age + female +
## blhisp + linc | totchr + age + female + blhisp + linc + ssiratio +
## multlc + firmsz, data = mus06data)
##
## Residuals:
## Min 1Q Median 3Q Max
## -6.8218 -0.7734 0.1098 0.9131 4.1656
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 6.91626 0.24595 28.121 < 2e-16 ***
## hi_empunion -1.03301 0.19221 -5.374 7.86e-08 ***
## totchr 0.45164 0.01057 42.729 < 2e-16 ***
## age -0.01457 0.00279 -5.221 1.82e-07 ***
## female -0.03131 0.03131 -1.000 0.317
## blhisp -0.22664 0.03891 -5.824 5.91e-09 ***
## linc 0.09767 0.02130 4.586 4.58e-06 ***
##
## Diagnostic tests:
## df1 df2 statistic p-value
## Weak instruments 3 10080 74.669 < 2e-16 ***
## Wu-Hausman 1 10081 40.097 2.52e-10 ***
## Sargan 2 NA 5.209 0.0739 .
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 1.342 on 10082 degrees of freedom
## Multiple R-Squared: 0.03025, Adjusted R-squared: 0.02967
## Wald test: 310.3 on 6 and 10082 DF, p-value: < 2.2e-16
reg_final_3<-ivreg(ldrugexp ~ hi_empunion + totchr + age + female + blhisp + linc|totchr + age + female + blhisp + linc + ssiratio+multlc, data= mus06data)
summary(reg_final_3, diagnostics= T)
##
## Call:
## ivreg(formula = ldrugexp ~ hi_empunion + totchr + age + female +
## blhisp + linc | totchr + age + female + blhisp + linc + ssiratio +
## multlc, data = mus06data)
##
## Residuals:
## Min 1Q Median 3Q Max
## -6.8027 -0.7657 0.1166 0.9099 4.1359
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 6.875188 0.245362 28.021 < 2e-16 ***
## hi_empunion -0.989927 0.192280 -5.148 2.68e-07 ***
## totchr 0.451205 0.010511 42.927 < 2e-16 ***
## age -0.014138 0.002782 -5.082 3.81e-07 ***
## female -0.027840 0.031176 -0.893 0.372
## blhisp -0.223709 0.038714 -5.778 7.76e-09 ***
## linc 0.094275 0.021241 4.438 9.16e-06 ***
##
## Diagnostic tests:
## df1 df2 statistic p-value
## Weak instruments 2 10081 110.613 < 2e-16 ***
## Wu-Hausman 1 10081 36.561 1.53e-09 ***
## Sargan 1 NA 1.164 0.281
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 1.334 on 10082 degrees of freedom
## Multiple R-Squared: 0.04145, Adjusted R-squared: 0.04088
## Wald test: 313.5 on 6 and 10082 DF, p-value: < 2.2e-16
Todas las combinaciónes anteriores tienen un valor mayor a 0.05 por lo que NO RECHAZAMOS LA HIPOTESIS NULA, la cual nos dice de manera eficaz que la Sobreidentificación es valida. Sin embargo, nos quedaremos con la que pasa la prueba con un mayor valor es decir con lacombinacion reg_final_3, ya que obtuvimos un valor de 0.281 en la prueba de Sargan mientras en las otras combinaiones (reg_final_1 y reg_final_2) obtuvimos en la prueba sargan 0.0739 y 0.106 respectivamente.
COMBINACIÓN FINAL
reg_final_3<-ivreg(ldrugexp ~ hi_empunion + totchr + age + female + blhisp + linc|totchr + age + female + blhisp + linc + ssiratio+multlc, data= mus06data)
summary(reg_final_3, diagnostics= T)
##
## Call:
## ivreg(formula = ldrugexp ~ hi_empunion + totchr + age + female +
## blhisp + linc | totchr + age + female + blhisp + linc + ssiratio +
## multlc, data = mus06data)
##
## Residuals:
## Min 1Q Median 3Q Max
## -6.8027 -0.7657 0.1166 0.9099 4.1359
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 6.875188 0.245362 28.021 < 2e-16 ***
## hi_empunion -0.989927 0.192280 -5.148 2.68e-07 ***
## totchr 0.451205 0.010511 42.927 < 2e-16 ***
## age -0.014138 0.002782 -5.082 3.81e-07 ***
## female -0.027840 0.031176 -0.893 0.372
## blhisp -0.223709 0.038714 -5.778 7.76e-09 ***
## linc 0.094275 0.021241 4.438 9.16e-06 ***
##
## Diagnostic tests:
## df1 df2 statistic p-value
## Weak instruments 2 10081 110.613 < 2e-16 ***
## Wu-Hausman 1 10081 36.561 1.53e-09 ***
## Sargan 1 NA 1.164 0.281
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 1.334 on 10082 degrees of freedom
## Multiple R-Squared: 0.04145, Adjusted R-squared: 0.04088
## Wald test: 313.5 on 6 and 10082 DF, p-value: < 2.2e-16
stargazer(reg_final_3,type = 'text')
##
## ===============================================
## Dependent variable:
## ---------------------------
## ldrugexp
## -----------------------------------------------
## hi_empunion -0.990***
## (0.192)
##
## totchr 0.451***
## (0.011)
##
## age -0.014***
## (0.003)
##
## female -0.028
## (0.031)
##
## blhisp -0.224***
## (0.039)
##
## linc 0.094***
## (0.021)
##
## Constant 6.875***
## (0.245)
##
## -----------------------------------------------
## Observations 10,089
## R2 0.041
## Adjusted R2 0.041
## Residual Std. Error 1.334 (df = 10082)
## ===============================================
## Note: *p<0.1; **p<0.05; ***p<0.01
INTERPRETACIÓN DEL MODELO UTILIZANDO LA COMBINACIÓN FINAL DE INSRUMENTOS
COEFICIENTES :
hi_empunion: Tenemos que las personas que tienen seguro de gastos médicos por el empleador o por el sindicato gastan 99% menos que las personas que no cuentan con el seguro, en promedio céteris páribus. Esta variable es estadísticamente significativa (n.s.= 0.01%).
totchr: Indica que por cada número de enfermedades crónicas extra las personas gastan 45.10% más, en promedio céteris páribus. La variable es estadísticamente significativa con un nivel(n.s.= 0.01%).
age: Indica que por cada año adicional que tenga una persona gastará 1.4% menos, en promedio céteris páribus. La variable es estadísticamente significativa (n.s.= 0.01%).
female: Las mujeres gastan 2.80% menos que los hombres, en promedio céteris páribus. Esta variable no es estadísticamente significativa.
blhisp: Las personas negras o hispanas gastan 22.40% menos que las personas no negras o hispanas, en promedio céteris páribus. Esta variable es estadísticamente significativa (n.s.= 0.01%).
linc: Indica que por cada unidad porcentual más en el ingreso de las personas, estas gastaran 0.094 más, en promedio céteris páribus. Esta variable es estadísticamente significativa (n.s.= 0.01%).
AJUSTE DE BONDAD :
El Coeficiente de Determinación (R^2=0.041). Indica que el modelo explica el 4.10% del cambio de la variable dependiente (ldrugexp).
El coeficiente de determinación (R^2ajustada = 0.041), esto quiere decir que el modelo explica el 4.10% por ciento del cambio de la variable dependiente (ldrugexp).
PRUEBA F:
Mediante el valor p de la prueba F es menor a 0.05 entonces se rechaza la hipótesis nula. En consecuencia, no todos los coeficientes dependientes son simultáneamente cero.
CONCLUSIONES
Mediante este este trabajo fue facil en primer instancia entender y comprender que al construir un modelo en efecto existen variables endógenas las cuales pueden afectar a la consistencia y eficencia del mismo modelo. En este caso la varible endógena si representaba un problema clave ya que no era posible obtener la tendencia esperada de tal variable. En cambio al implementar los instrumentos este problema se pudo corregir de manera oportuna puediendo contar con un modelo apto para explicar los impactos en el gasto de medicamentos de una manera satisfactoria y en este caso no solo se opto por emplear un solo instrumento si no que la opcion mas eficiente fue emplear dos instrumentos locuales fueron ssiratio (la relación entre el ingreso de seguridad social del individuo y el de todas sus fuentes) y multlc ( que indica si la empresa tiene múltiples ubicaciones).