En el análisis de regresión, la variable dependiente o regresada a menudo es influencia no solo de variables en escala de razón (por ejemplo: ingreso, producción, precios, costos y estatura), sino también de variables cualitativas por naturaleza, o de escala nominal (como sexo, raza, entre otras). Por ejemplo, con los demás factores constantes, se ha visto que las trabajadoras de sexo femenino ganan menos que sus pares masculinos, y que las personas afrodescendientes ganan menos que las personas de raza blanca. Este patrón puede resultar de la discriminación sexual o racial, pero cualquiera que sea la razón, las variables cualitativas, como sexo y raza, sí influyen en la variable dependiente y es claro que deben incluirse en las explicativas.
Una variable dummy es aquella variable que representa atributos o características, esta puede ser la religión, el sexo, la raza. Un tipo de variable categórica son las variables de tipo binario, estas variables representan la presencia o la ausencia de cierta característica, y los valores que toma son 1 y 0. Cuando se quiere hacer un análisis de regresión e incluir a un término categórico, se debe crear tantas variables binarias como categorías existen menos 1, de no ser así el modelo no tendrá los parámetros correctos. Por ejemplo, si tenemos 3 categorías para una variable como puede ser el nivel educativo, se debe elegir a la categoría base y a partir de eso crear 2 variables binarias, donde en sus valores serán igual a 1 cuando tiene esa categoría y 0 cuando no la tiene. R ofrece una función que ayuda a la creación de una variable de factor de forma directa, esta es la función factor(). Trabajando con una base de datos de un banco, donde se evalúa a 850 clientes, hay una variable que indica el nivel educativo, para que esta variable pueda ser usada se indicará al programa que es una variable de factor.
## [1] TRUE
Esta línea de códigos indica que se está creando una variable de nombre nivel, que representa a los factores de la variable educ, que es el nivel educativo y tiene 5 categorías diferentes.
Los modelos ANOVA (Modelo de Análisis de Varianza) son aquellos modelos de regresión en los cuales las variables explicativas son únicamente variables dicótomas. Estos modelos permiten observar y estudiar la relación y la significancia estadística entre una variable dependiente numérica y cada una de las categorías, permite comparar las diferencias que pueden existir entre la categoría base y las demás categorías. Para hacer una regresión en R teniendo en cuenta que se tendrá solamente regresores endógenos, se deberá seguir la siguiente sintaxis:
La sintaxis anterior representa un modelo donde se quiere saber que tanto influye el nivel de educación y los impagos anteriores sobre el nivel de ingresos actual. Nótese que se está utilizando la variable de factor creada anteriormente, aunque también se puede usar directamente la variable original con la función factor(), como se está haciendo para el caso de la variable impago. Los resultados de la regresión son los siguientes:
##
## Call:
## lm(formula = ingresos ~ nivel + factor(impago), data = bankloan)
##
## Residuals:
## Min 1Q Median 3Q Max
## -98.19 -19.14 -9.18 9.83 392.35
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 41.140 1.953 21.064 < 2e-16 ***
## nivel2 7.677 3.134 2.450 0.014536 *
## nivel3 21.801 4.247 5.133 3.70e-07 ***
## nivel4 20.478 6.064 3.377 0.000774 ***
## nivel5 77.053 15.981 4.822 1.75e-06 ***
## factor(impago)1 -7.964 3.079 -2.587 0.009889 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 35.5 on 694 degrees of freedom
## (150 observations deleted due to missingness)
## Multiple R-squared: 0.07694, Adjusted R-squared: 0.07029
## F-statistic: 11.57 on 5 and 694 DF, p-value: 9.441e-11
Estos resultados indican el grado comparación entre individuos de diferentes categorías. Se puede observar que las personas a medida que van aumentando su nivel educativo, el coeficiente aumenta, por ejemplo, una persona con título de bachiller (categoría 2 de la variable nivel) ganará en promedio 7.68 mil soles más que una persona que no completó el bachillerato (categoría 1). Para el caso de la variable impago se observa que se coge como categoría base cuando la persona tiene impagos, esto en los resultados del modelo estimado muestran que las personas que tienen impagos anteriores cuentan con ingresos mensuales 7.96 menos que las personas que no tienen impagos anteriores.
Estos modelos, llamados Modelos de Análisis de Covarianzas, se diferencias de los modelos ANOVA ya que estos incluyen entre sus regresores a variables numéricas, las variables explicativas en este tipo de modelo reciben el nombre de covariantes.Como ya se tiene la variable de factor creada, se estima un modelo donde se incluirán regresores adicionales, como por ejemplo la edad y los años en con el mismo empleador.
Este modelo incluye a los regresores indicados, por lo que los resultados variarán, siendo los siguientes:
##
## Call:
## lm(formula = ingresos ~ nivel + edad + empleo, data = bankloan)
##
## Residuals:
## Min 1Q Median 3Q Max
## -79.39 -13.13 -1.76 9.20 337.91
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -14.7380 4.4448 -3.316 0.000953 ***
## nivel2 12.5536 2.1888 5.735 1.36e-08 ***
## nivel3 26.6870 3.0001 8.895 < 2e-16 ***
## nivel4 33.3804 4.1315 8.080 2.24e-15 ***
## nivel5 73.0142 12.2491 5.961 3.69e-09 ***
## edad 0.6764 0.1404 4.817 1.73e-06 ***
## empleo 3.3531 0.1682 19.933 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 27.13 on 843 degrees of freedom
## Multiple R-squared: 0.508, Adjusted R-squared: 0.5045
## F-statistic: 145.1 on 6 and 843 DF, p-value: < 2.2e-16
Los resultados en la parte de la variable categórica y sus factores, se interpretan igual que un modelo ANOVA, y los coeficientes de las variables numéricas, se interpretan de la forma típica en el análisis de regresión lineal.
Las variables dummy representan atributos o cualidades. Una manera de “cuantificar” estos atributos es mediante variables artificiales que toman los valores 0 o 1, donde 1 indica la presencia (o posesión) de ese atributo y 0 su ausencia. Por ejemplo, 1 puede indicar que una persona es de sexo femenino y 0 que es de sexo masculino; o 1 puede indicar que una persona se graduó en la universidad y 0 que no lo ha hecho, y así en cada caso. Como ya se ha visto, las variables dicótomas pueden utilizarse en los modelos de regresión en forma tan fácil como las variables cuantitativas. De hecho, un modelo de regresión puede contener variables explicativas exclusivamente dicótomas o cualitativas, por naturaleza. Tales modelos se denominan modelos de análisis de varianza (ANOVA). Los modelos en donde las variables regresoras o independientes se combina junto con variables categóricas se denominan ANCOVA.
Sea el siguiente modelo:
##
## Call:
## lm(formula = ingresos ~ nivel + impago, data = bankloan)
##
## Residuals:
## Min 1Q Median 3Q Max
## -98.19 -19.14 -9.18 9.83 392.35
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 41.140 1.953 21.064 < 2e-16 ***
## nivel2 7.677 3.134 2.450 0.014536 *
## nivel3 21.801 4.247 5.133 3.70e-07 ***
## nivel4 20.478 6.064 3.377 0.000774 ***
## nivel5 77.053 15.981 4.822 1.75e-06 ***
## impago -7.964 3.079 -2.587 0.009889 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 35.5 on 694 degrees of freedom
## (150 observations deleted due to missingness)
## Multiple R-squared: 0.07694, Adjusted R-squared: 0.07029
## F-statistic: 11.57 on 5 and 694 DF, p-value: 9.441e-11
Los efectos serán los siguientes: El intercepto se asume como el valor medio de la categoría o categorías en comparación. Por ejemplo, en el caso de la regresión estimada se entiende que el valor de la constante representará el promedio del ingreso cuando la persona no tiene impagos anteriores y pertenece a cualquier categoría que no es la primera en la variable de nivel educativo, es decir, cuando las variables dicótomas tomadas como base sean iguales a 0.
Como ya se explicó, se tiene la siguiente interpretación para las variables del modelo:
Variable nivel:
Variable impago:
Las personas que tienen impagos anteriores cuentan con ingresosmensuales 7.96 menos que las personas que no tienen impagosanteriores.
A fin de mejorar la estimación de las variables en la regresión se incluyen variables de interacción. Un ejemplo podría ser con el ejemplo anterior introducir una nueva variable de interacción entre nivel y impago, el modelo tendría la siguiente forma: \[ ingresos=\beta_0+\beta_1*nivel+\beta_2*+\beta_3(nivel*impago)+e \] Para estimar en R, se debe hacer lo siguiente:
Siendo los resultados los siguientes:
##
## Call:
## lm(formula = ingresos ~ nivel + impago + nivel * impago, data = bankloan)
##
## Residuals:
## Min 1Q Median 3Q Max
## -108.25 -18.48 -8.81 9.28 378.93
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 41.263 2.056 20.066 < 2e-16 ***
## nivel2 11.133 3.625 3.071 0.00222 **
## nivel3 14.913 5.096 2.927 0.00354 **
## nivel4 12.529 7.473 1.676 0.09410 .
## nivel5 86.987 17.719 4.909 1.14e-06 ***
## impago -8.541 4.462 -1.914 0.05602 .
## nivel2:impago -11.431 7.059 -1.619 0.10582
## nivel3:impago 20.199 9.107 2.218 0.02689 *
## nivel4:impago 21.821 12.650 1.725 0.08499 .
## nivel5:impago -49.709 39.606 -1.255 0.20987
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 35.2 on 690 degrees of freedom
## (150 observations deleted due to missingness)
## Multiple R-squared: 0.0976, Adjusted R-squared: 0.08583
## F-statistic: 8.292 on 9 and 690 DF, p-value: 8.771e-12
Los coeficientes de los términos de interacción se interpretan como los efectos diferenciales cuando ambas variables toman el valor de 1, por ejemplo, la interacción nivel2:impago, muestra el efecto diferencial de los ingresos de una persona cuando tiene título de bachiller y ha tenido impagos anteriores comparado cuando no las personas que no completaron el bachillerato y no tienen impagos anteriores.
Realizar el siguiente modelo: \[ income=\beta_0+\beta_1+*husbuniv+\beta_2*wifework+e \] El modelo afirma que el total de ingresos dependerá de si el esposo tiene educación universitaria y si la madre trabaja. El modelo estimado será el siguiente:
Los hogares que en los que el esposo tiene estudios universitarios tienen un ingreso 8908 unidades mayor que los hogares en donde el esposo no tiene estudios universitarios. Los hogares en los que la esposa trabaja tienen un ingreso de 3843 unidades mayor que los hogares donde la esposa no trabaja.
El modelo debe tener la siguiente forma: \[ income=\beta_0+\beta_1*husbuniv+\beta_2*wifework+\beta_3*hmembers+e \] El modelo afirma que el total de ingresos dependerá de si el esposo tiene educación universitaria, si la madre trabaja y del total de miembros en el hogar. El modelo estimado será el siguiente:
##
## Call:
## lm(formula = income ~ husb_univ + wife_work + hmembers, data = engel)
##
## Residuals:
## Min 1Q Median 3Q Max
## -19829 -3731 -845 2438 61975
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 6544.5 678.6 9.644 < 2e-16 ***
## husb_univ 8915.2 564.3 15.799 < 2e-16 ***
## wife_work 4253.0 465.5 9.136 < 2e-16 ***
## hmembers 1025.4 149.5 6.856 1.26e-11 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 6246 on 961 degrees of freedom
## Multiple R-squared: 0.3126, Adjusted R-squared: 0.3105
## F-statistic: 145.7 on 3 and 961 DF, p-value: < 2.2e-16
Este modelo mostrará lo siguiente: El ingreso promedio de una familia en donde el esposo no es universitario y la madre no trabaja es de 6544.5 unidades. Los hogares que en los que el esposo tiene estudios universitarios tienen un ingreso 8915 unidades mayor que los hogares en donde el esposo no tiene estudios universitarios. Los hogares en los que la esposa trabaja tienen un ingreso de 4253 unidades mayor que los hogares donde la esposa no trabaja. Cada vez que el número de miembros en el hogar aumenta en una unidad, los ingresos aumentarán en 1025.4 unidades.
Estimar el siguiente modelo: \[ foodexpend = \beta_0+\beta_1*husb_{univ}+\beta_2*wife_{work}+\beta_4*(husb_{univ}*wife_{work})+e \] El modelo afirma que el total de gastos de alimentos estará explicado por los estudios de los esposos y un término de interacción entre las variables dicotómicas del modelo. El modelo estimado será el siguiente:
##
## Call:
## lm(formula = food_expend ~ husb_univ + wife_work + husb_univ *
## wife_work, data = engel)
##
## Residuals:
## Min 1Q Median 3Q Max
## -3744.0 -1383.3 -316.3 954.7 16547.7
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 4394.28 82.82 53.059 <2e-16 ***
## husb_univ 519.76 248.45 2.092 0.0367 *
## wife_work -50.69 171.77 -0.295 0.7680
## husb_univ:wife_work -853.23 377.11 -2.263 0.0239 *
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 2069 on 961 degrees of freedom
## Multiple R-squared: 0.007833, Adjusted R-squared: 0.004736
## F-statistic: 2.529 on 3 and 961 DF, p-value: 0.05601
Este modelo mostrará lo siguiente: Los hogares que en los que el esposo tiene estudios universitarios tienen un gasto en alimentos 519 unidades mayor que los hogares en donde el esposo no tiene estudios universitarios. Los hogares en los que la esposa trabaja tienen un gasto en alimentos de 50.69 unidades menor que los hogares donde la esposa no trabaja. El término de interacción muestra el efecto diferencial cuando ambos esposos tienen estudios universitarios, es decir que un hogar con ambos esposos universitarios tendrán menos gasto en alimentos que un hogar donde no se cumple dicha condición.