La variable dependiente y las variables independientes en los modelos de regresión múltiple han tenido un significado cuantitativo, ejemplos de esto es el salario por hora, años de educación, promedio general de calificaciones, cantidad de contaminación, nivel de ventas, número de arrestos. También es necesario incluir factores cualitativos en los modelos de regresión.
Los factores cualitativos surgen casi siempre en forma de información bivariada: una persona es mujer u hombre; una persona tiene o no computadora; etc. En econometría a las variables binarias se les suele llamar variables binarias o dummy, en este caso es necesario decidir a cuál se le asigna el valor uno y a cuál el valor cero.
Ejemplo
Para determinar el salario de los individuos, puede definirse female como variable binaria que toma el valor de uno para mujer y el valor cero para hombre. Lo mismo se puede ocupar para definir male (hombre) igual a uno si la persona es hombre y cero si la persona es mujer.
install.packages("wooldridge")
## Installing package into '/cloud/lib/x86_64-pc-linux-gnu-library/4.3'
## (as 'lib' is unspecified)
library(wooldridge)
data(wage1)
# Mirada a la base de datos
str(wage1)
## 'data.frame': 526 obs. of 24 variables:
## $ wage : num 3.1 3.24 3 6 5.3 ...
## $ educ : int 11 12 11 8 12 16 18 12 12 17 ...
## $ exper : int 2 22 2 44 7 9 15 5 26 22 ...
## $ tenure : int 0 2 0 28 2 8 7 3 4 21 ...
## $ nonwhite: int 0 0 0 0 0 0 0 0 0 0 ...
## $ female : int 1 1 0 0 0 0 0 1 1 0 ...
## $ married : int 0 1 0 1 1 1 0 0 0 1 ...
## $ numdep : int 2 3 2 0 1 0 0 0 2 0 ...
## $ smsa : int 1 1 0 1 0 1 1 1 1 1 ...
## $ northcen: int 0 0 0 0 0 0 0 0 0 0 ...
## $ south : int 0 0 0 0 0 0 0 0 0 0 ...
## $ west : int 1 1 1 1 1 1 1 1 1 1 ...
## $ construc: int 0 0 0 0 0 0 0 0 0 0 ...
## $ ndurman : int 0 0 0 0 0 0 0 0 0 0 ...
## $ trcommpu: int 0 0 0 0 0 0 0 0 0 0 ...
## $ trade : int 0 0 1 0 0 0 1 0 1 0 ...
## $ services: int 0 1 0 0 0 0 0 0 0 0 ...
## $ profserv: int 0 0 0 0 0 1 0 0 0 0 ...
## $ profocc : int 0 0 0 0 0 1 1 1 1 1 ...
## $ clerocc : int 0 0 0 1 0 0 0 0 0 0 ...
## $ servocc : int 0 1 0 0 0 0 0 0 0 0 ...
## $ lwage : num 1.13 1.18 1.1 1.79 1.67 ...
## $ expersq : int 4 484 4 1936 49 81 225 25 676 484 ...
## $ tenursq : int 0 4 0 784 4 64 49 9 16 441 ...
## - attr(*, "time.stamp")= chr "25 Jun 2011 23:03"
| person | wage | educ | exper | famale | married |
|---|---|---|---|---|---|
| 1 | 3,10 | 11 | 2 | 1 | 0 |
| 2 | 3,24 | 12 | 22 | 1 | 1 |
| 3 | 3,00 | 11 | 2 | 0 | 0 |
| 4 | 6,00 | 8 | 44 | 0 | 1 |
| 5 | 5,30 | 12 | 7 | 0 | 1 |
| . | |||||
| . | |||||
| . | |||||
| . | |||||
| 525 | 11,56 | 16 | 5 | 0 | 1 |
| 526 | 3,50 | 14 | 5 | 1 | 0 |
En la tabla anterior se puede ver que la persona 1 es mujer y que no está casada, la persona 2 es mujer y está casada, la persona 3 es hombre y que no está casado y así sucesivamente. La razón para utilizar cero-uno para información cualitativa es que en modelos de regresión tienen interpretaciones muy naturales.
Para incorporar la información binaria a los modelos de regresión, cuando sólo hay una variable binaria explicativa simplemente se agrega a la ecuación como una variable independiete, como se muestra a continuación:
\[ wage = \beta_0 +\delta_0famele+\beta_1educ+u \] se usa \(\delta_0\) como parámetro de famele para los parámetros que multiplican a las variables binarias. En este caso solo hay dos factores que afectan al salario: el género y la educación. Como female = 1 si la persona es mujer y famele = 0 si la persona es hombre. Por otro lado \(\delta_0\) es la diferencia del salario por hora entre hombres y mujeres, dada una misma cantidadde educación y con un mismo error, u, determinando si hay discriminación en contra de las mujeres.
El intercepto para hombres es \(\beta_0\) y el intercepto para mujeres es \(\beta_0+\delta_0\), pues hay dos grupos y se necesitan dos interceptos, lo que significa que \(\beta_0\) solo necesita usa una variable binaria, pues usar dos variables binarias introduciría colinealidad perfecta, ya que female + male = 1, lo que significa que male es una función lineal perfecta de female. En este caso se considero como grupo base o grupo de referencia a hombres, como también se puede elegir cualquier grupo base siempre y cuando no se olvide cuál se elijió.
Continuando con el grupo base hombres en un modelo en el que, además de la educación se controle la experiencia y la antigüedad es: \[ wage=\beta_0+\delta_0female+\beta_1educ+\beta_2exper+\beta_3tenure+u \] Tanto educ como exper y tenure son carácteristicas importantes para la productividad, donde la hipótesis nula de que no hay difencia entre hombres y mujeres es \(H_1:\delta_0 < 0\). La alternativa de que existe discriminación contra las mujeres es \(H_1:\delta_0 < 0\). Para probar si exite discriminación se estima el modelo mediante MCO, y se usa el estadístico t habitual.
Si se desea estimar el efecto de la calificación crediticia de la cuidad sobre las tasas de interés de los bonos municipales (MBR). Se supone que las calificaciones van de cero a cuatro, siendo cero la peor calificación crediticia y cuatro la mejor, Variable ordinal llamada CR para poder incorporarla en un modelo que explique MBR, a CR se incorpora como cualquier variable explicativa
\[ MBR=\beta_0+\beta_1CR+otros factores \]
Entonces \(\beta_1\) es la variación de MBR, en puntos porcentuales, cuando CR aumenta una unidad, permaneciendo todos los demás factores constantes. Para poder identificar de mejor manea un aumento en CR es implementar pocos valores, definiendo valores variables binarias para cada valor de CR con ello se estima el modelo. \[ MBR=\beta_0+\delta_1CR_1+\delta_2CR_2+\delta_3CR_3+\delta_4CR_4+otros factores \]
En este modelo se incluyen cuatro de las variable, porque se tiene cinco categorías.Y su interpretación \(\delta_1\) es la diferencia en MBR (permaneciendo los demás factores constantes) entre una municipalidad con una calificación crediticia de uno y una con una calificación crediticia de cero: \(\delta_2\) es la diferencia en MBR entre una municipalidad con una calificación crediticia de dos y una con una calificación crediticia de cero y asi sucesivamente.
Las variables binarias también puden estar relacionadas con los modelos de regresión.
$$ {log(wage)}= 0,321-0,110female+0,213married \ (0.100)(0.56) (0.055)\ -0.301female*married+…,\ (0.072)
$$ Esta ecuación muestra de manera explicativa que hay una interacción estadística significativa entre el género y el estado civil. Además, nos permite probar fácilmente la hipótesis nula de que las diferencias debidas al género no dependen del estado civl.
Hay ocasiones en las que variables binarias interactuan con variables explicativas, que no son variables binarias, permiten considerar diferencias en las pendientes. Para saber si el rendimiento de la educación es el mismo para los hombres y para las mujeres, considerando una diferencia constante entre los salarios de hombres y mujeres, para simplificar el modelo sólo se incluyen educación y género
\[ log(wage)=(\beta_0+\delta_0female)+(\beta_1+\delta_1female)educ+u \] Se introduce female = 0 se encuentra que el intercepto para los hombres es \(\beta_0\) y la pendiente para la educación de los hombres es \(\beta_1\). Cuando se trata de las mujeres, se sustituye female = 1; entonces, el intercepto en el caso de las mujeres es\(\beta_1+\delta_0\) y la pendiente es \(\beta_1+\delta_1\). Por lo tanto, \(\delta_0\) mide la diferencia entre los interceptos para mujeres y hombres y \(\delta_1\) mide la diferencia entre los rendimientos de la educación de mujeres y hombres.
Para probar si el modelo de regresión describe los promedios generales de calificaciones (cumgpa) de los atletas universitarios hombres y de las atletas universitarias mujeres es:
\[ cumgpa=\beta_0+\beta_1sat+\beta_2hsperc+\beta_3tothrs+u \]
donde: sat : es la puntuación obtenida en el examén de admisión a la universidad hsperc: es el percentil alcanzado en el bachillerato tothrs: total de horas de cursos en la universidad
La diferencia entre los interceptos puede incluirse una variable binaria, sea hombre o mujer, si se desea que dependa del género se hace una adecuación don female, teniendo una ecuación que diferencia cualquier situación entre hombres y mujeres, donde se busca el intercepto y que todas las pendientes puedan ser diferentes entre los dos grupos
\[ cumgpa = \beta_0+\delta_0female+\beta_1sat+\delta_1female*sar+\beta_2hsperc+\delta_2female*hsperc+\beta_3tpthrs*\delta_3female*tothrs*u \]
El parámetro \(delta_0\) es la diferencia en el intercepto entre mujeres y hombres, \(\delta_1\) es la diferencia entre hombres y mujeres en la pendiente respecto a sat. La hipótesis nula de que cumgpa sigue le mismo modelo para hombres y mujeres se expresa
\[ H_0:\delta_0=, \delta_1=0, \delta_2=0, \delta_3=0 \] Si uno de los \(\delta_j\) es distinto de cero, el modelo es diferente para hombres y mujeres.
La variable dependiente y sólo toma dos valores: cero o uno, por ejemplo, se puede indicar si un adulto tiene o no educación universitaria, o si un estudiante universitario consumo o no drogas durante un año escolar.
\[ E(y|x)=\beta_0+\beta_1x_1+...+\beta_kx_k \] Donde x es una manera abreviada de escribir todas las variables explicativas. Cuando y es una variable binaria que toma valores cero o uno, entonces se tiene siempre que \(P(y=1|x)=E(y|x)\), la probabilidad de “exito”, es decir, la probabilidad de que y=1 es lo mismo que el valor esperado y.
Es \(p(x)=P(y=1|x)\) es función lineal de las variables \(x_j\).
Un buen ejemplo de esto es una prueba de discriminación racial, pues la raza no está determinada por un individuo o por un administración público, sino determinada por el nacimiento, pero por razones históricas la raza esta relacionada con otros factores importantes los cuales pueden ser importantes para describir la discriminación actual, como la aprobación de créditos. Aunque para la aprobación de un crédito depende de otros fctores como ingreso, riqueza, calificación de crédito y la capacidad general para pagar créditos.
Un modelo de probabilidad lineal para probar si existe discriminación puede ser el siguiente:
\[ approved=\beta_0+\beta_1nonwhite+\beta_2income+\beta_3wealth+\beta_4credrate+other factors \] La discriminación contra las minorías estará indicada por el rechazo de \(H_0:\beta_1=0\) en favor de \(H_0:\beta_1<0\) ya que \(\beta_1\) es la magnitud en que la probabilidad de que la solicitud de una persona que no sea de raza blanca nonwhite sea aprobada difiere de la probabilidad de que la solicitud de una persona de esa raza sea aprovada.
Los problemas de autoselección provienen del hecho de que las personas se autoseleccionan para participar en ciertas conductas o en ciertos programas, esta participación no es determinada de forma aleatoria y esta relacionado con factores no observados, dando el siguiente modelo
\[ y=\beta_0+\beta_1partic+u \]
Donde: y: es una variable de resultado partic: es una variable binaria igual a uno si la persona, empresa o cuidad participa en un comportamiento o en un programa o adopta cierto tipo de ley
Entonces, u depende de la participación \(E(u|partic=1)≠E(u|partic=0)\). esto hace que el estimador \(\beta_1\) en la regresión simple sea sesgado y de esta manera no se podrá hallar el verdadero efecto de la participación, por lo tanto, el problema de autoselección es otra manera en que la variable explicativa (partic en este caso) puede ser endógena.