Variables instrumentales y MC2E

INTRODUCCIÓN

Utilizando el libro titulado “microeconometrics using stata” de Cameron Trivedi en especifico la sección 6.3.2, nos bararemos en la extracción de datos de la encuesta del panel de gastos médicos (MEPS) por sus siglas en inglés, de personas mayores de 65 años.

Mediante un análisis econométrico se tratara de observar el comportamiento del desembolso total en medicamentos recetados a través de la variable dependiente logaritmo natural de los medicamentos expedidos ldrugexp.

Las variables explicativas son :

hi_empunion: Indicador de si la persona cuenta con un seguro medico proporcionado por su sindicato laboral.

totchr: Indicador que engloba el número de enfermedades crónicas de las personas.

age: Edad de las personas

female: Sexo de las personas

blhisp: Indicador de raza ya sea negro o hispano

linc: Logaritmo natural del ingreso anual del hogar en miles de dólares

Planteando la regresión por MCO como:

ldrugexp = ß0 + a1 hiempunion + ß1 totchr + ß2 age + a2 female + a3 blhisp + ß3 linc + u

COMANDOS PARA BASE

library(haven)
library(stargazer)

## 
## Please cite as:

##  Hlavac, Marek (2018). stargazer: Well-Formatted Regression and Summary Statistics Tables.

##  R package version 5.2.2. https://CRAN.R-project.org/package=stargazer

library(AER)

## Loading required package: car

## Loading required package: carData

## Loading required package: lmtest

## Loading required package: zoo

## 
## Attaching package: 'zoo'

## The following objects are masked from 'package:base':
## 
##     as.Date, as.Date.numeric

## Loading required package: sandwich

## Loading required package: survival

library("ANOVA.TFNs", lib.loc="~/R/win-library/3.5")
library("ANOVAreplication", lib.loc="~/R/win-library/3.5")

## Loading required package: quadprog

## Loading required package: shiny

CARGAR BASE

mus06data <- read_dta("~/Modelos econometricos/TAREA2/mus06data.dta")
head(mus06data)

1. Estimar e interpretar por MCO. Interpretar.

MODELO

ldrugexp = ß0 + a1 hiempunion + ß1 totchr + ß2 age + a2 female + a3 blhisp + ß3 linc + u

reg1<- lm ( ldrugexp ~ hi_empunion + totchr + age + female + blhisp + linc, mus06data)
summary(reg1)

## 
## Call:
## lm(formula = ldrugexp ~ hi_empunion + totchr + age + female + 
##     blhisp + linc, data = mus06data)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -6.3295 -0.6754  0.1516  0.8559  3.7343 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  5.861131   0.153184  38.262  < 2e-16 ***
## hi_empunion  0.073879   0.026109   2.830  0.00467 ** 
## totchr       0.440381   0.009573  46.002  < 2e-16 ***
## age         -0.003529   0.001886  -1.871  0.06132 .  
## female       0.057806   0.025163   2.297  0.02163 *  
## blhisp      -0.151307   0.033808  -4.475 7.71e-06 ***
## linc         0.010482   0.013952   0.751  0.45251    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1.236 on 10082 degrees of freedom
##   (302 observations deleted due to missingness)
## Multiple R-squared:  0.177,  Adjusted R-squared:  0.1765 
## F-statistic: 361.3 on 6 and 10082 DF,  p-value: < 2.2e-16

stargazer( reg1,type = 'text')

## 
## ===============================================
##                         Dependent variable:    
##                     ---------------------------
##                              ldrugexp          
## -----------------------------------------------
## hi_empunion                  0.074***          
##                               (0.026)          
##                                                
## totchr                       0.440***          
##                               (0.010)          
##                                                
## age                           -0.004*          
##                               (0.002)          
##                                                
## female                        0.058**          
##                               (0.025)          
##                                                
## blhisp                       -0.151***         
##                               (0.034)          
##                                                
## linc                           0.010           
##                               (0.014)          
##                                                
## Constant                     5.861***          
##                               (0.153)          
##                                                
## -----------------------------------------------
## Observations                  10,089           
## R2                             0.177           
## Adjusted R2                    0.176           
## Residual Std. Error     1.236 (df = 10082)     
## F Statistic         361.317*** (df = 6; 10082) 
## ===============================================
## Note:               *p<0.1; **p<0.05; ***p<0.01

INTERPRETACIÓN DEL MODELO POR MCO

COEFICIENTES :

Intercepto: Cuando todas las variables explicativas son igual 0, el gasto total de desembolso en medicamentos recetados será de 586.115% más por persona, en promedio céteris páribus. Esta variable es estadísticamente significativa.(n.s.= 0.001%.)

hi_empunion: Las personas que tienen seguro de gastos médicos por el empleador o por el sindicato gastan 7.38% más que las personas que no cuentan con el seguro, en promedio céteris páribus. Esta variable es estadísticamente significativa ( n.s.= 0.01%.)

totchr: Por cada enfermedadad crónica extra las personas gastan 44.03% más, en promedio céteris páribus. La variable es estadísticamente significativa (n.s.= 0.001%)

age: Por cada año adicional que tenga una persona gastará 0.35% menos, en promedio céteris páribus. La variable es estadísticamente significativa (n.s.= 0.1%.)

female: Las mujeres gastan 5.78% más que los hombres, en promedio céteris páribus. Esta variable es estadísticamente significativa (n.s.= 0.05%.)

blhisp: Las personas negras e hispanas gastan 15.13% menos que las personas no negras o hispanas, en promedio céteris páribus. Esta variable es estadísticamente significativa (n.s.=0.001%)

linc: Por cda unidad porcentual más en el ingreso de las personas, gastaran 0.01 más, en promedio céteris páribus. La variable no es estadísticamente significativa

AJUSTE DE BONDAD :

Coeficiente de Determinación (R^2=0.177). Este nos indica que el modelo explica el 17.70% del cambio de la variable dependiente (ldrugexp).

El coeficiente de determinación ajustado (R^2ajustada =0.1765), es decir que el modelo explica el 17.65% por ciento del cambio de la variable dependiente (ldrugexp).

PRUEBA F:

Bajo el valor p de la prueba F este es menor a 0.05 por lo tanto se rechaza la hipótesis nula. En consecuencia, NO todos los coeficientes de pendiente son simultáneamente cero.

2. ¿Por qué la variable hi_empunion es potencialmente endógena?

Es importante explicar que después de analizar el modelo, y apoyados de la literatura del libro empleado resultq que la variable “hi_empunion” es endógena, ya que esta variable tiene las propiedades de endogeneidad porque tener el seguro complementario además de un seguro médico casi universal para las personas mayores puede ser una variable que toma el caracter de elección.Se toma en cuenta que la mayoría de los individuos en la muestra ya no se encuantran trabajando, ademas esperaban tener altos gastos médicos a futuros cabe la posibilidad de haber tenido más probabilidades de elegir un trabajo el cual fuera capaz de proporcionaría un seguro de salud complementario al momento de la jubilación.

Asi que la variable “hi_empunion” resulta ser endógena por lo tanto bajo esta logica al efectuar la regresión por MCO nos encontraríamos con parámetros inconsistentes y sesgados, por lo que se sugiere el método de variables instrumentales para corregir la endogeneidad.

Se utilizaran variables exógenas que estén correlacionadas con la variable “hi_empunion” estas variables tienen que tomar el papel de instrumentos. Las 4 variables que pueden servir como instrumentos son:

(Reflejan el estado de ingresos del individuo)

ssiratio: Muestra la relación entre el ingreso de seguridad social del individuo y el de todas sus fuentes.

lowincome: Indicador cualitativo que muestra los bajos ingresos del empleado.

(Se basan en las características del empleador)

multlc: Indica si la empresa tiene múltiples ubicaciones.

firmsz: Mide el tamaño de la fuerza laboral empleada en la empresa.

Se espera que las dos primeras variables sean los instrumentos potencialmente más fuertes ya que se basan en características del empleador y además se espera que tengan una correlación negativa con la variable endógena. Porotro lado las ultimas dos variables pretenden mostrar si la persona tiene acceso a un seguro complementario a través del empleador y resulta que serian irrelevantes para personas mayores ya jubiladas, que trabajan por cuenta propia o que compran un seguro privado por lo que se consideran potencialmente débiles

Por consiguinte se presentan las pruebas de cada variable para verificar cuál de las cuatro variables instrumentales seria la edecuada para el modelo.

3.Probar los posibles instrumentos ssiratio, lowincome, multlc, firmsz.Describa sus resultados

PROBAR LOS INSTRUMENTOS

reg2<- lm(hi_empunion ~  ssiratio  + totchr + age + female + blhisp + linc, mus06data )
summary(reg2)

## 
## Call:
## lm(formula = hi_empunion ~ ssiratio + totchr + age + female + 
##     blhisp + linc, data = mus06data)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -0.7162 -0.3879 -0.2321  0.5119  2.5291 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  1.028981   0.057409  17.924  < 2e-16 ***
## ssiratio    -0.191643   0.014129 -13.564  < 2e-16 ***
## totchr       0.012786   0.003622   3.530 0.000418 ***
## age         -0.008632   0.000713 -12.107  < 2e-16 ***
## female      -0.073450   0.009493  -7.737 1.11e-14 ***
## blhisp      -0.062680   0.012769  -4.909 9.30e-07 ***
## linc         0.048394   0.005677   8.525  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.4672 on 10082 degrees of freedom
##   (302 observations deleted due to missingness)
## Multiple R-squared:  0.07605,    Adjusted R-squared:  0.0755 
## F-statistic: 138.3 on 6 and 10082 DF,  p-value: < 2.2e-16

reg3<- lm(hi_empunion ~   lowincome  + totchr + age + female + blhisp + linc, mus06data )
summary(reg3)

## 
## Call:
## lm(formula = hi_empunion ~ lowincome + totchr + age + female + 
##     blhisp + linc, data = mus06data)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -0.7028 -0.3910 -0.2473  0.5227  1.2557 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  0.9709851  0.0575518  16.871  < 2e-16 ***
## lowincome   -0.0907429  0.0123111  -7.371 1.83e-13 ***
## totchr       0.0105194  0.0036408   2.889  0.00387 ** 
## age         -0.0097099  0.0007115 -13.647  < 2e-16 ***
## female      -0.0791551  0.0095412  -8.296  < 2e-16 ***
## blhisp      -0.0668208  0.0128450  -5.202 2.01e-07 ***
## linc         0.0707178  0.0053621  13.189  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.4702 on 10082 degrees of freedom
##   (302 observations deleted due to missingness)
## Multiple R-squared:  0.06424,    Adjusted R-squared:  0.06368 
## F-statistic: 115.3 on 6 and 10082 DF,  p-value: < 2.2e-16

reg4<- lm(hi_empunion ~ multlc  + totchr + age + female + blhisp + linc, mus06data )
summary(reg4)

## 
## Call:
## lm(formula = hi_empunion ~ multlc + totchr + age + female + blhisp + 
##     linc, data = mus06data)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -0.7715 -0.3822 -0.2594  0.5357  1.2940 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  0.9016900  0.0579164  15.569  < 2e-16 ***
## multlc       0.1487593  0.0200300   7.427 1.20e-13 ***
## totchr       0.0109104  0.0036417   2.996  0.00274 ** 
## age         -0.0091799  0.0007186 -12.775  < 2e-16 ***
## female      -0.0792221  0.0095406  -8.304  < 2e-16 ***
## blhisp      -0.0741602  0.0128696  -5.762 8.53e-09 ***
## linc         0.0720981  0.0053257  13.538  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.4702 on 10082 degrees of freedom
##   (302 observations deleted due to missingness)
## Multiple R-squared:  0.06431,    Adjusted R-squared:  0.06376 
## F-statistic: 115.5 on 6 and 10082 DF,  p-value: < 2.2e-16

reg5<- lm(hi_empunion ~ firmsz  + totchr + age + female + blhisp + linc, mus06data )
summary(reg5)

## 
## Call:
## lm(formula = hi_empunion ~ firmsz + totchr + age + female + blhisp + 
##     linc, data = mus06data)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -0.8755 -0.3892 -0.2609  0.5308  1.3424 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  0.9481012  0.0576506  16.446  < 2e-16 ***
## firmsz       0.0068293  0.0021640   3.156  0.00160 ** 
## totchr       0.0102640  0.0036486   2.813  0.00492 ** 
## age         -0.0099029  0.0007125 -13.898  < 2e-16 ***
## female      -0.0807026  0.0095605  -8.441  < 2e-16 ***
## blhisp      -0.0687961  0.0128742  -5.344  9.3e-08 ***
## linc         0.0784064  0.0052624  14.899  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.4713 on 10082 degrees of freedom
##   (302 observations deleted due to missingness)
## Multiple R-squared:  0.06012,    Adjusted R-squared:  0.05956 
## F-statistic: 107.5 on 6 and 10082 DF,  p-value: < 2.2e-16

 stargazer(reg2, reg3, reg4, reg5,type = 'text')

## 
## ============================================================================
##                                              Dependent variable:            
##                                  -------------------------------------------
##                                                  hi_empunion                
##                                     (1)        (2)        (3)        (4)    
## ----------------------------------------------------------------------------
## ssiratio                         -0.192***                                  
##                                   (0.014)                                   
##                                                                             
## lowincome                                   -0.091***                       
##                                              (0.012)                        
##                                                                             
## multlc                                                  0.149***            
##                                                         (0.020)             
##                                                                             
## firmsz                                                             0.007*** 
##                                                                    (0.002)  
##                                                                             
## totchr                            0.013***   0.011***   0.011***   0.010*** 
##                                   (0.004)    (0.004)    (0.004)    (0.004)  
##                                                                             
## age                              -0.009***  -0.010***  -0.009***  -0.010*** 
##                                   (0.001)    (0.001)    (0.001)    (0.001)  
##                                                                             
## female                           -0.073***  -0.079***  -0.079***  -0.081*** 
##                                   (0.009)    (0.010)    (0.010)    (0.010)  
##                                                                             
## blhisp                           -0.063***  -0.067***  -0.074***  -0.069*** 
##                                   (0.013)    (0.013)    (0.013)    (0.013)  
##                                                                             
## linc                              0.048***   0.071***   0.072***   0.078*** 
##                                   (0.006)    (0.005)    (0.005)    (0.005)  
##                                                                             
## Constant                          1.029***   0.971***   0.902***   0.948*** 
##                                   (0.057)    (0.058)    (0.058)    (0.058)  
##                                                                             
## ----------------------------------------------------------------------------
## Observations                       10,089     10,089     10,089     10,089  
## R2                                 0.076      0.064      0.064      0.060   
## Adjusted R2                        0.076      0.064      0.064      0.060   
## Residual Std. Error (df = 10082)   0.467      0.470      0.470      0.471   
## F Statistic (df = 6; 10082)      138.317*** 115.348*** 115.495*** 107.488***
## ============================================================================
## Note:                                            *p<0.1; **p<0.05; ***p<0.01

RESULTADOS:

Los resultados obtenidos de las variables instrumentales siguen la linea de lo establecido por el autor, el cual menciona que las dos primeras variables instrumentales tengan signo negativo, lo cual si ocurrio y ademas las últimas dos variables instrumentales tienen signo positivo como se esparaba.

Se concluye que:

ssiratio: Es un instrumento fuerte, con un nivel de significancia de 0.01%, por lo que es posible utilizarlo. Además la variable tiene un coeficiente negativo de 0.192.

lowincome: Es un instrumento fuerte, con un nivel de significancia de 0.01% por lo que es factible utilizarla. De igual manera que ssiratio, la variable tiene un coeficiente negativo pera este es de 0.091.

multlc: El impacto de esta variable es positivo con un coeficente de 0.149 y de igual manera al ifual que las otras variables es un instrumento fuerte porque tiene un vivel de significanciadel 0.01%.

firmsz: Esta última variable también tiene un impacto positivo en la variable endógena, el impacto es de 0.007. De igual manera que las otras variables esta tiene una significancia del .01%

4. De acuerdo con los resultados del punto anterior, elija el mejor instrumento, estime por variables instrumentales e interprete los resultados.

ELECCIÓN DE VARIABLE INSTRUMENTAL

Despues de analizar el impacto de las diferentes variables instrumentales debemos elegir una, la cual bajo el criterio en su nivel de significancia y el valor del coeficiente sobre la variable endógena se eligira la variable “ssiratio”.

reg2.1<- ivreg(ldrugexp ~ hi_empunion + totchr + age + female + blhisp + linc|totchr + age + female + blhisp + linc +ssiratio, data =  mus06data)
 stargazer(reg2.1,type = 'text')

## 
## ===============================================
##                         Dependent variable:    
##                     ---------------------------
##                              ldrugexp          
## -----------------------------------------------
## hi_empunion                  -0.898***         
##                               (0.208)          
##                                                
## totchr                       0.450***          
##                               (0.010)          
##                                                
## age                          -0.013***         
##                               (0.003)          
##                                                
## female                        -0.020           
##                               (0.032)          
##                                                
## blhisp                       -0.217***         
##                               (0.039)          
##                                                
## linc                         0.087***          
##                               (0.022)          
##                                                
## Constant                     6.787***          
##                               (0.256)          
##                                                
## -----------------------------------------------
## Observations                  10,089           
## R2                             0.064           
## Adjusted R2                    0.063           
## Residual Std. Error     1.318 (df = 10082)     
## ===============================================
## Note:               *p<0.1; **p<0.05; ***p<0.01

INTERPRETACIÓN DEL MODELO UTILIZANDO LA VARIBALE INSTRUMENTAL

COEFICIENTES :

hi_empunion: Tenemos que las personas que tienen seguro de gastos médicos por el empleador o por el sindicato gastan 89.80% menos que las personas que no cuentan con el seguro, en promedio céteris páribus. Esta variable es estadísticamente significativa (n.s.= 0.01%).

totchr: Indica que por cada enfermedadad crónica extra las personas gastan 45% más, en promedio céteris páribus. La variable es estadísticamente significativa (n.s.= 0.01%).

age: Indica que por cada año adicional que tenga una persona gastará 1.3% menos, en promedio céteris páribus. La variable es estadísticamente significativa (n.s.= 0.01%).

female: Las mujeres gastan 2% menos que los hombres, en promedio céteris páribus. Esta variable no es estadísticamente significativa.

blhisp: Las personas negras e hispanas gastan 21.70% menos que las personas no negras o hispanas, en promedio céteris páribus. Esta variable es estadísticamente significativa (n.s.= 0.01%).

linc: Indica que por cada unidad porcentual más en el ingreso de las personas, estas gastaran 0.087 más, en promedio céteris páribus.Esta variable es estadísticamente significativa (n.s.= 0.01%).

AJUSTE DE BONDAD :

El Coeficiente de Determinación (R^2=0.064). El modelo explica el 6.40% del cambio de la variable dependiente (ldrugexp).

El coeficiente de determinación ajustado (R^2ajustada=0.063), esto quiere decir que el modelo explica el 6.30% por ciento del cambio de la variable dependiente (ldrugexp).

PRUEBA F:

Tomando en cuenta el valor p de la prueba F es menor a 0.05 entonces se rechaza la hipótesis nula. En consecuencia, NO todos los coeficientes dependientes son simultáneamente cero.

5. Realice la prueba de Hausman. ¿Existe endogeneidad?

 summary(reg2.1,diagnostics= T)

## 
## Call:
## ivreg(formula = ldrugexp ~ hi_empunion + totchr + age + female + 
##     blhisp + linc | totchr + age + female + blhisp + linc + ssiratio, 
##     data = mus06data)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -6.7616 -0.7529  0.1275  0.8959  4.0723 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  6.787170   0.255523  26.562  < 2e-16 ***
## hi_empunion -0.897591   0.207991  -4.316 1.61e-05 ***
## totchr       0.450266   0.010422  43.201  < 2e-16 ***
## age         -0.013218   0.002876  -4.596 4.36e-06 ***
## female      -0.020406   0.031552  -0.647    0.518    
## blhisp      -0.217424   0.038688  -5.620 1.96e-08 ***
## linc         0.087002   0.022022   3.951 7.85e-05 ***
## 
## Diagnostic tests:
##                    df1   df2 statistic  p-value    
## Weak instruments     1 10082    183.98  < 2e-16 ***
## Wu-Hausman           1 10081     25.32 4.93e-07 ***
## Sargan               0    NA        NA       NA    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1.318 on 10082 degrees of freedom
## Multiple R-Squared: 0.06395, Adjusted R-squared: 0.0634 
## Wald test: 319.6 on 6 and 10082 DF,  p-value: < 2.2e-16

` RESULTADOS:

Gracias a la prueba de Hausman, podemos concluir mediante el valor p el cual es menor de a 0.05 “RECHAZAMOS LA HIPOSIS NULA” , la cual nos dice que es preferible dejar el modelo con Mínimos Cuadrados Ordinarios, y optamos la Hiposis alternativa la cual nos dice que es preferible utilizar Minimos Cuadrados Ordinarios en 2 Etapas.

6. Estime por MC2E ocupando dos o más posibles instrumentos. De acuerdo con la prueba de Sargan, ¿Cuál es la mejor combinación de instrumentos? Interprete.

En este ultimo punto, despues de econtrar todas las posibles combinaciones (las cuales en total fueron 11), concluimos que solo 3 combinaciones pasan la prueba de sargan. Las combinaciones son:

reg_final_1<-ivreg(ldrugexp ~ hi_empunion + totchr + age + female + blhisp + linc|totchr + age + female + blhisp + linc +multlc+firmsz, data= mus06data)
summary(reg_final_1, diagnostics= T)

## 
## Call:
## ivreg(formula = ldrugexp ~ hi_empunion + totchr + age + female + 
##     blhisp + linc | totchr + age + female + blhisp + linc + multlc + 
##     firmsz, data = mus06data)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -7.03222 -0.86487  0.08313  0.98693  4.54685 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  7.367225   0.421170  17.492  < 2e-16 ***
## hi_empunion -1.506102   0.401173  -3.754 0.000175 ***
## totchr       0.456457   0.011895  38.373  < 2e-16 ***
## age         -0.019286   0.004557  -4.233 2.33e-05 ***
## female      -0.069396   0.043593  -1.592 0.111432    
## blhisp      -0.258839   0.047952  -5.398 6.89e-08 ***
## linc         0.134933   0.035470   3.804 0.000143 ***
## 
## Diagnostic tests:
##                    df1   df2 statistic  p-value    
## Weak instruments     2 10081    29.273 2.11e-13 ***
## Wu-Hausman           1 10081    21.311 3.95e-06 ***
## Sargan               1    NA     2.607    0.106    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1.443 on 10082 degrees of freedom
## Multiple R-Squared: -0.122,  Adjusted R-squared: -0.1226 
## Wald test: 266.4 on 6 and 10082 DF,  p-value: < 2.2e-16

reg_final_2<-ivreg(ldrugexp ~ hi_empunion + totchr + age + female + blhisp + linc|totchr + age + female + blhisp + linc + ssiratio+multlc+firmsz, data= mus06data)
summary(reg_final_2, diagnostics= T)

## 
## Call:
## ivreg(formula = ldrugexp ~ hi_empunion + totchr + age + female + 
##     blhisp + linc | totchr + age + female + blhisp + linc + ssiratio + 
##     multlc + firmsz, data = mus06data)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -6.8218 -0.7734  0.1098  0.9131  4.1656 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  6.91626    0.24595  28.121  < 2e-16 ***
## hi_empunion -1.03301    0.19221  -5.374 7.86e-08 ***
## totchr       0.45164    0.01057  42.729  < 2e-16 ***
## age         -0.01457    0.00279  -5.221 1.82e-07 ***
## female      -0.03131    0.03131  -1.000    0.317    
## blhisp      -0.22664    0.03891  -5.824 5.91e-09 ***
## linc         0.09767    0.02130   4.586 4.58e-06 ***
## 
## Diagnostic tests:
##                    df1   df2 statistic  p-value    
## Weak instruments     3 10080    74.669  < 2e-16 ***
## Wu-Hausman           1 10081    40.097 2.52e-10 ***
## Sargan               2    NA     5.209   0.0739 .  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1.342 on 10082 degrees of freedom
## Multiple R-Squared: 0.03025, Adjusted R-squared: 0.02967 
## Wald test: 310.3 on 6 and 10082 DF,  p-value: < 2.2e-16

reg_final_3<-ivreg(ldrugexp ~ hi_empunion + totchr + age + female + blhisp + linc|totchr + age + female + blhisp + linc + ssiratio+multlc, data= mus06data)
summary(reg_final_3, diagnostics= T)

## 
## Call:
## ivreg(formula = ldrugexp ~ hi_empunion + totchr + age + female + 
##     blhisp + linc | totchr + age + female + blhisp + linc + ssiratio + 
##     multlc, data = mus06data)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -6.8027 -0.7657  0.1166  0.9099  4.1359 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  6.875188   0.245362  28.021  < 2e-16 ***
## hi_empunion -0.989927   0.192280  -5.148 2.68e-07 ***
## totchr       0.451205   0.010511  42.927  < 2e-16 ***
## age         -0.014138   0.002782  -5.082 3.81e-07 ***
## female      -0.027840   0.031176  -0.893    0.372    
## blhisp      -0.223709   0.038714  -5.778 7.76e-09 ***
## linc         0.094275   0.021241   4.438 9.16e-06 ***
## 
## Diagnostic tests:
##                    df1   df2 statistic  p-value    
## Weak instruments     2 10081   110.613  < 2e-16 ***
## Wu-Hausman           1 10081    36.561 1.53e-09 ***
## Sargan               1    NA     1.164    0.281    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1.334 on 10082 degrees of freedom
## Multiple R-Squared: 0.04145, Adjusted R-squared: 0.04088 
## Wald test: 313.5 on 6 and 10082 DF,  p-value: < 2.2e-16

Todas las combinaciónes anteriores tienen un valor mayor a 0.05 por lo que NO RECHAZAMOS LA HIPOTESIS NULA, la cual nos dice de manera eficaz que la Sobreidentificación es valida. Sin embargo, nos quedaremos con la que pasa la prueba con un mayor valor es decir con lacombinacion reg_final_3, ya que obtuvimos un valor de 0.281 en la prueba de Sargan mientras en las otras combinaiones (reg_final_1 y reg_final_2) obtuvimos en la prueba sargan 0.0739 y 0.106 respectivamente.

COMBINACIÓN FINAL

reg_final_3<-ivreg(ldrugexp ~ hi_empunion + totchr + age + female + blhisp + linc|totchr + age + female + blhisp + linc + ssiratio+multlc, data= mus06data)
summary(reg_final_3, diagnostics= T)

## 
## Call:
## ivreg(formula = ldrugexp ~ hi_empunion + totchr + age + female + 
##     blhisp + linc | totchr + age + female + blhisp + linc + ssiratio + 
##     multlc, data = mus06data)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -6.8027 -0.7657  0.1166  0.9099  4.1359 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  6.875188   0.245362  28.021  < 2e-16 ***
## hi_empunion -0.989927   0.192280  -5.148 2.68e-07 ***
## totchr       0.451205   0.010511  42.927  < 2e-16 ***
## age         -0.014138   0.002782  -5.082 3.81e-07 ***
## female      -0.027840   0.031176  -0.893    0.372    
## blhisp      -0.223709   0.038714  -5.778 7.76e-09 ***
## linc         0.094275   0.021241   4.438 9.16e-06 ***
## 
## Diagnostic tests:
##                    df1   df2 statistic  p-value    
## Weak instruments     2 10081   110.613  < 2e-16 ***
## Wu-Hausman           1 10081    36.561 1.53e-09 ***
## Sargan               1    NA     1.164    0.281    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1.334 on 10082 degrees of freedom
## Multiple R-Squared: 0.04145, Adjusted R-squared: 0.04088 
## Wald test: 313.5 on 6 and 10082 DF,  p-value: < 2.2e-16

stargazer(reg_final_3,type = 'text')

## 
## ===============================================
##                         Dependent variable:    
##                     ---------------------------
##                              ldrugexp          
## -----------------------------------------------
## hi_empunion                  -0.990***         
##                               (0.192)          
##                                                
## totchr                       0.451***          
##                               (0.011)          
##                                                
## age                          -0.014***         
##                               (0.003)          
##                                                
## female                        -0.028           
##                               (0.031)          
##                                                
## blhisp                       -0.224***         
##                               (0.039)          
##                                                
## linc                         0.094***          
##                               (0.021)          
##                                                
## Constant                     6.875***          
##                               (0.245)          
##                                                
## -----------------------------------------------
## Observations                  10,089           
## R2                             0.041           
## Adjusted R2                    0.041           
## Residual Std. Error     1.334 (df = 10082)     
## ===============================================
## Note:               *p<0.1; **p<0.05; ***p<0.01

INTERPRETACIÓN DEL MODELO UTILIZANDO LA COMBINACIÓN FINAL DE INSRUMENTOS

COEFICIENTES :

hi_empunion: Tenemos que las personas que tienen seguro de gastos médicos por el empleador o por el sindicato gastan 99% menos que las personas que no cuentan con el seguro, en promedio céteris páribus. Esta variable es estadísticamente significativa (n.s.= 0.01%).

totchr: Indica que por cada número de enfermedades crónicas extra las personas gastan 45.10% más, en promedio céteris páribus. La variable es estadísticamente significativa con un nivel(n.s.= 0.01%).

age: Indica que por cada año adicional que tenga una persona gastará 1.4% menos, en promedio céteris páribus. La variable es estadísticamente significativa (n.s.= 0.01%).

female: Las mujeres gastan 2.80% menos que los hombres, en promedio céteris páribus. Esta variable no es estadísticamente significativa.

blhisp: Las personas negras o hispanas gastan 22.40% menos que las personas no negras o hispanas, en promedio céteris páribus. Esta variable es estadísticamente significativa (n.s.= 0.01%).

linc: Indica que por cada unidad porcentual más en el ingreso de las personas, estas gastaran 0.094 más, en promedio céteris páribus. Esta variable es estadísticamente significativa (n.s.= 0.01%).

AJUSTE DE BONDAD :

El Coeficiente de Determinación (R^2=0.041). Indica que el modelo explica el 4.10% del cambio de la variable dependiente (ldrugexp).

El coeficiente de determinación (R^2ajustada = 0.041), esto quiere decir que el modelo explica el 4.10% por ciento del cambio de la variable dependiente (ldrugexp).

PRUEBA F:

Mediante el valor p de la prueba F es menor a 0.05 entonces se rechaza la hipótesis nula. En consecuencia, no todos los coeficientes dependientes son simultáneamente cero.

CONCLUSIONES

Mediante este este trabajo fue facil en primer instancia entender y comprender que al construir un modelo en efecto existen variables endógenas las cuales pueden afectar a la consistencia y eficencia del mismo modelo. En este caso la varible endógena si representaba un problema clave ya que no era posible obtener la tendencia esperada de tal variable. En cambio al implementar los instrumentos este problema se pudo corregir de manera oportuna puediendo contar con un modelo apto para explicar los impactos en el gasto de medicamentos de una manera satisfactoria y en este caso no solo se opto por emplear un solo instrumento si no que la opcion mas eficiente fue emplear dos instrumentos locuales fueron ssiratio (la relación entre el ingreso de seguridad social del individuo y el de todas sus fuentes) y multlc ( que indica si la empresa tiene múltiples ubicaciones).