Variables Exógenas Cualitativas

En el análisis de regresión, la variable dependiente o regresada a menudo es influencia no solo de variables en escala de razón (por ejemplo: ingreso, producción, precios, costos y estatura), sino también de variables cualitativas por naturaleza, o de escala nominal (como sexo, raza, entre otras). Por ejemplo, con los demás factores constantes, se ha visto que las trabajadoras de sexo femenino ganan menos que sus pares masculinos, y que las personas afrodescendientes ganan menos que las personas de raza blanca. Este patrón puede resultar de la discriminación sexual o racial, pero cualquiera que sea la razón, las variables cualitativas, como sexo y raza, sí influyen en la variable dependiente y es claro que deben incluirse en las explicativas.

Creación de Variables Dummy

Una variable dummy es aquella variable que representa atributos o características, esta puede ser la religión, el sexo, la raza. Un tipo de variable categórica son las variables de tipo binario, estas variables representan la presencia o la ausencia de cierta característica, y los valores que toma son 1 y 0. Cuando se quiere hacer un análisis de regresión e incluir a un término categórico, se debe crear tantas variables binarias como categorías existen menos 1, de no ser así el modelo no tendrá los parámetros correctos. Por ejemplo, si tenemos 3 categorías para una variable como puede ser el nivel educativo, se debe elegir a la categoría base y a partir de eso crear 2 variables binarias, donde en sus valores serán igual a 1 cuando tiene esa categoría y 0 cuando no la tiene. R ofrece una función que ayuda a la creación de una variable de factor de forma directa, esta es la función factor(). Trabajando con una base de datos de un banco, donde se evalúa a 850 clientes, hay una variable que indica el nivel educativo, para que esta variable pueda ser usada se indicará al programa que es una variable de factor.

View(bankloan)
bankloan$nivel=factor(bankloan$educ)
is.factor(bankloan$nivel)

## [1] TRUE

Esta línea de códigos indica que se está creando una variable de nombre nivel, que representa a los factores de la variable educ, que es el nivel educativo y tiene 5 categorías diferentes.

Modelos ANOVA

Los modelos ANOVA (Modelo de Análisis de Varianza) son aquellos modelos de regresión en los cuales las variables explicativas son únicamente variables dicótomas. Estos modelos permiten observar y estudiar la relación y la significancia estadística entre una variable dependiente numérica y cada una de las categorías, permite comparar las diferencias que pueden existir entre la categoría base y las demás categorías. Para hacer una regresión en R teniendo en cuenta que se tendrá solamente regresores endógenos, se deberá seguir la siguiente sintaxis:

reganova = lm(ingresos~nivel+factor(impago), data=bankloan)

La sintaxis anterior representa un modelo donde se quiere saber que tanto influye el nivel de educación y los impagos anteriores sobre el nivel de ingresos actual. Nótese que se está utilizando la variable de factor creada anteriormente, aunque también se puede usar directamente la variable original con la función factor(), como se está haciendo para el caso de la variable impago. Los resultados de la regresión son los siguientes:

summary(reganova)

## 
## Call:
## lm(formula = ingresos ~ nivel + factor(impago), data = bankloan)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -98.19 -19.14  -9.18   9.83 392.35 
## 
## Coefficients:
##                 Estimate Std. Error t value Pr(>|t|)    
## (Intercept)       41.140      1.953  21.064  < 2e-16 ***
## nivel2             7.677      3.134   2.450 0.014536 *  
## nivel3            21.801      4.247   5.133 3.70e-07 ***
## nivel4            20.478      6.064   3.377 0.000774 ***
## nivel5            77.053     15.981   4.822 1.75e-06 ***
## factor(impago)1   -7.964      3.079  -2.587 0.009889 ** 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 35.5 on 694 degrees of freedom
##   (150 observations deleted due to missingness)
## Multiple R-squared:  0.07694,    Adjusted R-squared:  0.07029 
## F-statistic: 11.57 on 5 and 694 DF,  p-value: 9.441e-11

Estos resultados indican el grado comparación entre individuos de diferentes categorías. Se puede observar que las personas a medida que van aumentando su nivel educativo, el coeficiente aumenta, por ejemplo, una persona con título de bachiller (categoría 2 de la variable nivel) ganará en promedio 7.68 mil soles más que una persona que no completó el bachillerato (categoría 1). Para el caso de la variable impago se observa que se coge como categoría base cuando la persona tiene impagos, esto en los resultados del modelo estimado muestran que las personas que tienen impagos anteriores cuentan con ingresos mensuales 7.96 menos que las personas que no tienen impagos anteriores.

Modelos ANCOVA

Estos modelos, llamados Modelos de Análisis de Covarianzas, se diferencias de los modelos ANOVA ya que estos incluyen entre sus regresores a variables numéricas, las variables explicativas en este tipo de modelo reciben el nombre de covariantes.Como ya se tiene la variable de factor creada, se estima un modelo donde se incluirán regresores adicionales, como por ejemplo la edad y los años en con el mismo empleador.

regancova=lm(ingresos~nivel+edad+empleo, data=bankloan)

Este modelo incluye a los regresores indicados, por lo que los resultados variarán, siendo los siguientes:

summary(regancova)

## 
## Call:
## lm(formula = ingresos ~ nivel + edad + empleo, data = bankloan)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -79.39 -13.13  -1.76   9.20 337.91 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -14.7380     4.4448  -3.316 0.000953 ***
## nivel2       12.5536     2.1888   5.735 1.36e-08 ***
## nivel3       26.6870     3.0001   8.895  < 2e-16 ***
## nivel4       33.3804     4.1315   8.080 2.24e-15 ***
## nivel5       73.0142    12.2491   5.961 3.69e-09 ***
## edad          0.6764     0.1404   4.817 1.73e-06 ***
## empleo        3.3531     0.1682  19.933  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 27.13 on 843 degrees of freedom
## Multiple R-squared:  0.508,  Adjusted R-squared:  0.5045 
## F-statistic: 145.1 on 6 and 843 DF,  p-value: < 2.2e-16

Los resultados en la parte de la variable categórica y sus factores, se interpretan igual que un modelo ANOVA, y los coeficientes de las variables numéricas, se interpretan de la forma típica en el análisis de regresión lineal.

Efectos de las Variables Cualitativas en los Modelos

Las variables dummy representan atributos o cualidades. Una manera de “cuantificar” estos atributos es mediante variables artificiales que toman los valores 0 o 1, donde 1 indica la presencia (o posesión) de ese atributo y 0 su ausencia. Por ejemplo, 1 puede indicar que una persona es de sexo femenino y 0 que es de sexo masculino; o 1 puede indicar que una persona se graduó en la universidad y 0 que no lo ha hecho, y así en cada caso. Como ya se ha visto, las variables dicótomas pueden utilizarse en los modelos de regresión en forma tan fácil como las variables cuantitativas. De hecho, un modelo de regresión puede contener variables explicativas exclusivamente dicótomas o cualitativas, por naturaleza. Tales modelos se denominan modelos de análisis de varianza (ANOVA). Los modelos en donde las variables regresoras o independientes se combina junto con variables categóricas se denominan ANCOVA.

Efectos sobre el término independiente

Sea el siguiente modelo:

reganova = lm(ingresos~nivel+impago, data=bankloan)
summary(reganova)

## 
## Call:
## lm(formula = ingresos ~ nivel + impago, data = bankloan)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -98.19 -19.14  -9.18   9.83 392.35 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)   41.140      1.953  21.064  < 2e-16 ***
## nivel2         7.677      3.134   2.450 0.014536 *  
## nivel3        21.801      4.247   5.133 3.70e-07 ***
## nivel4        20.478      6.064   3.377 0.000774 ***
## nivel5        77.053     15.981   4.822 1.75e-06 ***
## impago        -7.964      3.079  -2.587 0.009889 ** 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 35.5 on 694 degrees of freedom
##   (150 observations deleted due to missingness)
## Multiple R-squared:  0.07694,    Adjusted R-squared:  0.07029 
## F-statistic: 11.57 on 5 and 694 DF,  p-value: 9.441e-11

Los efectos serán los siguientes: El intercepto se asume como el valor medio de la categoría o categorías en comparación. Por ejemplo, en el caso de la regresión estimada se entiende que el valor de la constante representará el promedio del ingreso cuando la persona no tiene impagos anteriores y pertenece a cualquier categoría que no es la primera en la variable de nivel educativo, es decir, cuando las variables dicótomas tomadas como base sean iguales a 0.

Efecto sobre el coeficiente que acompañan a las variables explicativas

Como ya se explicó, se tiene la siguiente interpretación para las variables del modelo:

Variable nivel:

nivel2: Las personas con título de bachiller ganarán 7.677 unidades más que las personas que no tienen título de bachiller.
nivel3: Las personas con estudios superiores incididos ganarán 21.801 unidades más que las personas que no tienen título de bachiller.
nivel4: Las personas con título superior ganarán 20.478 unidades más que las personas que no tienen título de bachiller.
nivel5: Las personas con estudios de postgrado ganarán 77.053 unidades más que las personas que no tienen título de bachiller.

Variable impago:

Las personas que tienen impagos anteriores cuentan con ingresosmensuales 7.96 menos que las personas que no tienen impagosanteriores.

Interacción entre factores cualitativos

A fin de mejorar la estimación de las variables en la regresión se incluyen variables de interacción. Un ejemplo podría ser con el ejemplo anterior introducir una nueva variable de interacción entre nivel y impago, el modelo tendría la siguiente forma: \[ ingresos=\beta_0+\beta_1*nivel+\beta_2*+\beta_3(nivel*impago)+e \] Para estimar en R, se debe hacer lo siguiente:

modelo2=lm(ingresos~ nivel + impago + nivel*impago, data=bankloan)

Siendo los resultados los siguientes:

summary(modelo2)

## 
## Call:
## lm(formula = ingresos ~ nivel + impago + nivel * impago, data = bankloan)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -108.25  -18.48   -8.81    9.28  378.93 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)    
## (Intercept)     41.263      2.056  20.066  < 2e-16 ***
## nivel2          11.133      3.625   3.071  0.00222 ** 
## nivel3          14.913      5.096   2.927  0.00354 ** 
## nivel4          12.529      7.473   1.676  0.09410 .  
## nivel5          86.987     17.719   4.909 1.14e-06 ***
## impago          -8.541      4.462  -1.914  0.05602 .  
## nivel2:impago  -11.431      7.059  -1.619  0.10582    
## nivel3:impago   20.199      9.107   2.218  0.02689 *  
## nivel4:impago   21.821     12.650   1.725  0.08499 .  
## nivel5:impago  -49.709     39.606  -1.255  0.20987    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 35.2 on 690 degrees of freedom
##   (150 observations deleted due to missingness)
## Multiple R-squared:  0.0976, Adjusted R-squared:  0.08583 
## F-statistic: 8.292 on 9 and 690 DF,  p-value: 8.771e-12

Los coeficientes de los términos de interacción se interpretan como los efectos diferenciales cuando ambas variables toman el valor de 1, por ejemplo, la interacción nivel2:impago, muestra el efecto diferencial de los ingresos de una persona cuando tiene título de bachiller y ha tenido impagos anteriores comparado cuando no las personas que no completaron el bachillerato y no tienen impagos anteriores.

Ejemplos

Ejemplo 1: Modelo Anova

Realizar el siguiente modelo: \[ income=\beta_0+\beta_1+*husbuniv+\beta_2*wifework+e \] El modelo afirma que el total de ingresos dependerá de si el esposo tiene educación universitaria y si la madre trabaja. El modelo estimado será el siguiente:

View(engel)
reg= lm(income~husb_univ+wife_work, data=engel)

Los hogares que en los que el esposo tiene estudios universitarios tienen un ingreso 8908 unidades mayor que los hogares en donde el esposo no tiene estudios universitarios. Los hogares en los que la esposa trabaja tienen un ingreso de 3843 unidades mayor que los hogares donde la esposa no trabaja.

Ejemplo 2: Modelo Ancova

El modelo debe tener la siguiente forma: \[ income=\beta_0+\beta_1*husbuniv+\beta_2*wifework+\beta_3*hmembers+e \] El modelo afirma que el total de ingresos dependerá de si el esposo tiene educación universitaria, si la madre trabaja y del total de miembros en el hogar. El modelo estimado será el siguiente:

reg=lm(income ~husb_univ+wife_work+hmembers, data=engel)
summary(reg)

## 
## Call:
## lm(formula = income ~ husb_univ + wife_work + hmembers, data = engel)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -19829  -3731   -845   2438  61975 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)   6544.5      678.6   9.644  < 2e-16 ***
## husb_univ     8915.2      564.3  15.799  < 2e-16 ***
## wife_work     4253.0      465.5   9.136  < 2e-16 ***
## hmembers      1025.4      149.5   6.856 1.26e-11 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 6246 on 961 degrees of freedom
## Multiple R-squared:  0.3126, Adjusted R-squared:  0.3105 
## F-statistic: 145.7 on 3 and 961 DF,  p-value: < 2.2e-16

Este modelo mostrará lo siguiente: El ingreso promedio de una familia en donde el esposo no es universitario y la madre no trabaja es de 6544.5 unidades. Los hogares que en los que el esposo tiene estudios universitarios tienen un ingreso 8915 unidades mayor que los hogares en donde el esposo no tiene estudios universitarios. Los hogares en los que la esposa trabaja tienen un ingreso de 4253 unidades mayor que los hogares donde la esposa no trabaja. Cada vez que el número de miembros en el hogar aumenta en una unidad, los ingresos aumentarán en 1025.4 unidades.

Ejemplo 3: Interacción entre Factores

Estimar el siguiente modelo: \[ foodexpend = \beta_0+\beta_1*husb_{univ}+\beta_2*wife_{work}+\beta_4*(husb_{univ}*wife_{work})+e \] El modelo afirma que el total de gastos de alimentos estará explicado por los estudios de los esposos y un término de interacción entre las variables dicotómicas del modelo. El modelo estimado será el siguiente:

reg=lm(food_expend~husb_univ+wife_work+husb_univ*wife_work, data = engel)
summary(reg)

## 
## Call:
## lm(formula = food_expend ~ husb_univ + wife_work + husb_univ * 
##     wife_work, data = engel)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -3744.0 -1383.3  -316.3   954.7 16547.7 
## 
## Coefficients:
##                     Estimate Std. Error t value Pr(>|t|)    
## (Intercept)          4394.28      82.82  53.059   <2e-16 ***
## husb_univ             519.76     248.45   2.092   0.0367 *  
## wife_work             -50.69     171.77  -0.295   0.7680    
## husb_univ:wife_work  -853.23     377.11  -2.263   0.0239 *  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 2069 on 961 degrees of freedom
## Multiple R-squared:  0.007833,   Adjusted R-squared:  0.004736 
## F-statistic: 2.529 on 3 and 961 DF,  p-value: 0.05601

Este modelo mostrará lo siguiente: Los hogares que en los que el esposo tiene estudios universitarios tienen un gasto en alimentos 519 unidades mayor que los hogares en donde el esposo no tiene estudios universitarios. Los hogares en los que la esposa trabaja tienen un gasto en alimentos de 50.69 unidades menor que los hogares donde la esposa no trabaja. El término de interacción muestra el efecto diferencial cuando ambos esposos tienen estudios universitarios, es decir que un hogar con ambos esposos universitarios tendrán menos gasto en alimentos que un hogar donde no se cumple dicha condición.

Bibliografía

Cayuela, L. (2010). Modelos lineales: Regresión, ANOVA y ANCOVA. EcoLab, Centro Andaluz de Medio Ambiente, Universidad de Granada. Notas de clase, 1-57. Revisado el 27 de diciembre de 2016. <http://recursos.salonesvirtuales.com/assets/bloques/2-Modeloslineales_ luis_cayuela.pdf>
Kleiber, C. & Zeileis, A. (2008). Applied econometrics with R. Springer Science & Business Media.