En un modelo econométrico, las variables representan a los conceptos u operaciones económicas que queremos analizar. Normalmente utilizamos variables cuantitativas, es decir, aquellas cuyos valores vienen expresados de forma numérica; sin embargo, también existe la posibilidad de incluir en el modelo econométrico información cualitativa, siempre que esta pueda expresarse de esa forma.
Las variables cualitativas expresan cualidades o atributos de los agentes o individuos (sexo, religión, nacionalidad, nivel de estudios, etc.) y también recogen acontecimientos extraordinarios como guerras, terremotos, climatologías adversas, huelgas, cambios políticos etc.
No cabe duda de que una forma de recoger factores de este tipo sería la utilización de variables proxy o aproximadas a las variables utilizadas. Por ejemplo, si quiero utilizar una variable que mida el nivel cultural de un país (variable cualitativa) puedo utilizar como variable proxy el número de bibliotecas existentes en un país, o representa una climatología adversa a partir de las temperaturas medias o precipitaciones. Sin embargo, no siempre es posible encontrar este tipo de variables y, en cualquier caso, debemos de ser conscientes de la posible existencia de errores en la definición de la variable.
Puesto que las variables cualitativas normalmente recogen aspectos de la presencia o no de determinado atributo (ser hombre o mujer, tener estudios universitarios o no tenerlos, etc.…) se utilizan variables construidas artificialmente, llamadas también ficticias o dummy, que generalmente toman dos valores, 1 ó 0, según se dé o no cierta cualidad o atributo. Habitualmente a la variable ficticia se le asigna el valor 1 en presencia de la cualidad y 0 en caso contrario. Las variables que toman valores 1 y 0, también reciben el nombre de variables dicotómicas o binarias.
Las variables dicotómicas pueden combinarse para caracterizar variables definidas por su pertenencia o no a un grupo. Si incluyo una variable cualitativa que me define la pertenencia o no de un país a un grupo, por ejemplo renta alta, media y baja, introduciré tres variables cualitativas en el modelo asociadas a la pertenencia o no a cada grupo; la primera caracterizaría a los individuos con renta alta, la segunda a los individuos con renta media, y la tercera a los individuos con renta baja.
Los modelos que utilizan variables cualitativas como regresores se diferencian en dos grupos, los modelos de Análisis de la Varianza o modelos ANOVA, que únicamente incluyen variables cualitativas como regresores; y los modelos de Análisis de la Covarianza o modelos ANCOVA que incluyen tanto variables cualitativas como cuantitativas. Los modelos ANOVA son muy utilizados en Sociología, Psicología, Educación, etc.; en Economía son más comunes los modelos ANCOVA.
Un problema estadístico clásico es la comparación de medias de dos distribuciones normales. Supongamos que las observaciones de la variable \(Y_i\) , provienen de dos distribuciones normales con medias \(\mu_1\) y \(\mu_2\) y varianza común \(\sigma^2\) . El tamaño de la primera distribución se circunscribe a las \(n_1\) primeras observaciones, y el de la segunda las \(n-n_1\) restantes observaciones. Queremos constrastar la hipótesis \(H_0:\mu_1=\mu_2\) frente a la alternativa \(H_0:\mu_1 \neq \mu_2\) al nivel de significación de \(\alpha\).
Este contraste de igualdad de medias cabe formularlo en el marco del modelo lineal general. Así, bajo \(H_0\) tenemos el siguiente modelo de regresión múltiple utilizando variables Dummy: \[ Y_i=\mu_1 D1_i + \mu_2 D2_i + u_i, (1)\]
donde \(D1_i\) toma valor uno en las \(n_1\) primeras observaciones y cero en las restantes, y \(D2_i\) toma cero en las \(n_1\) primeras observaciones y uno en las restantes, o lo que es lo mismo \(D2_i = 1-D1_i\).
Este modelo ANOVA puede formularse tambien a partir de las siguientes expresiones:
\[ Y_i=\beta_1 + \mu_1 D1_i + u_i, (2)\]
\[ Y_i=\beta_1 + \mu_2 D2_i + u_i,(3)\]
El contraste de igualdad de medias, se realiza a través del contraste de significación global, para el que construimos el estadístico experimental \(F_{exp}=\frac {\frac {R^2}{k-1}}{\frac {1-R^2}{n-k}}\), siendo el estadístico teórico \(F_{tco}\), la hipótesis se rechazaría con la regla de decisión \(F_{exp}>F_{tco}\).
Si se utiliza la especificación del modelo (2), el coeficiente asociado a la categoria \(D1\) dado por la suma (\(\beta_1+\mu_1\)), y para \(D2\) por \(\beta_1\). Si queremos contrastar la hipótesis de igualdad de medias en ambos grupos, equivaldría a contrastar la hipótesis nula \(H_0:\mu_1=0\).
Si se utiliza la especificación del modelo (3), el coeficiente asociado a la categoria \(D2\) dado por la suma (\(\beta_1+\mu_2\)), y para \(D2\) por \(\beta_1\). Si queremos analizar la hipótesis de ambos grupos, equivaldría a contrastar la hipótesis nula \(H_0:\mu_2=0\)
Partiendo de la base de datos “mtcars” preparamos un “Chunk” en el que construimos la tabla anova con la función “aov”, para los gastos por hogar y la variable categórica “am”, y estimamos un modelo ANOVA con la función “model.tables”.
## Df Sum Sq Mean Sq F value Pr(>F)
## as.factor(am) 1 405.2 405.2 16.86 0.000285 ***
## Residuals 30 720.9 24.0
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## Tables of means
## Grand mean
##
## 20.09062
##
## as.factor(am)
## 0 1
## 17.15 24.39
## rep 19.00 13.00
La estimación MCO del modelo sería:
##
## Call:
## lm(formula = mpg ~ 0 + as.factor(am), data = mtcars)
##
## Residuals:
## Min 1Q Median 3Q Max
## -9.3923 -3.0923 -0.2974 3.2439 9.5077
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## as.factor(am)0 17.147 1.125 15.25 1.13e-15 ***
## as.factor(am)1 24.392 1.360 17.94 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 4.902 on 30 degrees of freedom
## Multiple R-squared: 0.9487, Adjusted R-squared: 0.9452
## F-statistic: 277.2 on 2 and 30 DF, p-value: < 2.2e-16
##
## Call:
## lm(formula = mpg ~ am, data = mtcars)
##
## Residuals:
## Min 1Q Median 3Q Max
## -9.3923 -3.0923 -0.2974 3.2439 9.5077
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 17.147 1.125 15.247 1.13e-15 ***
## am 7.245 1.764 4.106 0.000285 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 4.902 on 30 degrees of freedom
## Multiple R-squared: 0.3598, Adjusted R-squared: 0.3385
## F-statistic: 16.86 on 1 and 30 DF, p-value: 0.000285
Los modelos ANCOVA son modelos ANOVA que incluyen ademas de las variables cualitativas ó categóricas, variables cuantitativas entre las variables dependientes.
Partiendo de la especificación del modelo ANOVA del apartado anterior, al introducir la variable explicativa cuantitativa, \(X_i\), tendríamos:
\[ Y_i=\mu_1 D1_i + \mu_2 D2_i +\beta_2 X_i+ u_i\]
o sus equivalentes:
\[ Y_i=\beta_1 + \mu_1 D1_i +\beta_2 X_i+ u_i\]
\[ Y_i=\beta_1 + \mu_2 D2_i +\beta_2 X_i+ u_i\]
Para el análisis del comportamiento de cada grupo respecto a la pendiente, habría que especificar los siguientes modelos ANCOVA:
\[ Y_i=\delta_1 D1_iX_i + \delta_2 D2_iX_i + u_i\]
\[ Y_i=\beta_1 +\beta_2 X_i+ \delta_1 D1_i X_i+ u_i\]
\[ Y_i=\beta_1 +\beta_2 X_i+ \delta_2 D2_i X_i+ u_i\]
En los modelos ANOVA y ANCOVA se pueden incluir distintas variables categóricas. Consideremos una categorica \(E\) con tres categorías (1,2,3):
\(E1_i\) que toma valor uno en los individuos pertenecientes a la categoría 1, y cero en los restantes
\(E2_i\) que toma valor uno en los individuos pertenecientes a la categoría 2, y cero en los restantes
\(E3_i\) que toma valor uno en los individuos pertenecientes a la categoría 3, y cero en los restantes.
Si bien a la hora de especificar el modelo hay que evitar los problemas de multicolinealidad entre todas las variables dummy incluidas y el término constante. Una forma de evitar los problemas es no incluir alguna de las categorías en forma de variable dummy, y dejar que la constante recoja el efecto de la categoría no incluida.
Una especificación posible de este modelo ANCOVA sería entonces:
\[ Y_i=\beta_1 +\beta_2 X_i+ \mu_2 D2_i + \alpha_1 E1_i + \alpha_2 E2_i + \alpha_3 E3_i u_i\]
Utilizando la base de datos “mtcars” vamos a estimar varios modelos ANCOVA:
##
## Call:
## lm(formula = mpg ~ 0 + as.factor(am) + wt, data = mtcars)
##
## Residuals:
## Min 1Q Median 3Q Max
## -4.5295 -2.3619 -0.1317 1.4025 6.8782
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## as.factor(am)0 37.3216 3.0546 12.218 5.84e-13 ***
## as.factor(am)1 37.2979 2.0857 17.883 < 2e-16 ***
## wt -5.3528 0.7882 -6.791 1.87e-07 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 3.098 on 29 degrees of freedom
## Multiple R-squared: 0.9802, Adjusted R-squared: 0.9781
## F-statistic: 478.1 on 3 and 29 DF, p-value: < 2.2e-16
##
## Call:
## lm(formula = mpg ~ am + wt, data = mtcars)
##
## Residuals:
## Min 1Q Median 3Q Max
## -4.5295 -2.3619 -0.1317 1.4025 6.8782
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 37.32155 3.05464 12.218 5.84e-13 ***
## am -0.02362 1.54565 -0.015 0.988
## wt -5.35281 0.78824 -6.791 1.87e-07 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 3.098 on 29 degrees of freedom
## Multiple R-squared: 0.7528, Adjusted R-squared: 0.7358
## F-statistic: 44.17 on 2 and 29 DF, p-value: 1.579e-09
##
## Call:
## lm(formula = mpg ~ am + wt + wt * am, data = mtcars)
##
## Residuals:
## Min 1Q Median 3Q Max
## -3.6004 -1.5446 -0.5325 0.9012 6.0909
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 31.4161 3.0201 10.402 4.00e-11 ***
## am 14.8784 4.2640 3.489 0.00162 **
## wt -3.7859 0.7856 -4.819 4.55e-05 ***
## am:wt -5.2984 1.4447 -3.667 0.00102 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 2.591 on 28 degrees of freedom
## Multiple R-squared: 0.833, Adjusted R-squared: 0.8151
## F-statistic: 46.57 on 3 and 28 DF, p-value: 5.209e-11
##
## Call:
## lm(formula = mpg ~ 0 + as.factor(am) + as.factor(gear) + wt,
## data = mtcars)
##
## Residuals:
## Min 1Q Median 3Q Max
## -3.5798 -2.4056 -0.3692 1.8198 5.7713
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## as.factor(am)0 35.0955 3.1862 11.015 1.72e-11 ***
## as.factor(am)1 35.2838 3.0091 11.726 4.20e-12 ***
## as.factor(gear)4 2.0769 1.7343 1.198 0.242
## as.factor(gear)5 -1.0615 2.3845 -0.445 0.660
## wt -4.8782 0.7945 -6.140 1.46e-06 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 2.968 on 27 degrees of freedom
## Multiple R-squared: 0.9831, Adjusted R-squared: 0.9799
## F-statistic: 313.4 on 5 and 27 DF, p-value: < 2.2e-16
La función R “lm”, presenta siempre una especificación que evita la multicolinealidad perfecta.
Realizar ejercicio libre con base de datos “npk”.
## 'data.frame': 24 obs. of 5 variables:
## $ block: Factor w/ 6 levels "1","2","3","4",..: 1 1 1 1 2 2 2 2 3 3 ...
## $ N : Factor w/ 2 levels "0","1": 1 2 1 2 2 2 1 1 1 2 ...
## $ P : Factor w/ 2 levels "0","1": 2 2 1 1 1 2 1 2 2 2 ...
## $ K : Factor w/ 2 levels "0","1": 2 1 1 2 1 2 2 1 1 2 ...
## $ yield: num 49.5 62.8 46.8 57 59.8 58.5 55.5 56 62.8 55.8 ...
El modelo de probabilidad lineal se caracteriza por tener la variable endógena Y dicotómica o binaria, es decir toma el valor \(Y_i=1\) si un determinado suceso ocurre y el valor \(Y_i=0\) en caso contrario. Estos modelos están muy extendidos en el análisis estadístico pero encuentran una difícil aplicación en Economía debido a las dificultades de interpretación económica de los resultados que ofrecen este tipo de investigaciones. A este respecto, hay que considerar que estos modelos lo que realmente investigan es la probabilidad de que se dé una opción (valores \(Y_i=1\)) o no se dé (\(Y_i=0\)).
A pesar del carácter dicotómico de la variable endógena, el modelo de probabilidad lineal se especifica de la forma habitual, teniendo presente que las variables exógenas no son dicotómicas sino continuas:
\[ Y_i=\beta_1 + \beta_2 X_i + e_i, (4)\]
De acuerdo con la expresión (4), el hecho de que la variable endógena tome valores discretos (1 ó 0), el término de perturbación ei, puede tomar también dos valores únicamente:
Si \(Y_i=0 \Rightarrow e_i=-\beta_1 - \beta_2X_i\) con probabilidad \(p\).
Si \(Y_i=1 \Rightarrow e_i=1- \beta_1 - \beta_2X_i\) con probabilidad \((1-p)\).
Dado que la esperanza del término de error ha de ser nula \(E(e_i)=0\), entonces se demuestra que \(p=1-\beta_1 - \beta_2X_i\) y \((1-p) = \beta_1 + \beta_2X_i\), lo que permite evaluar la probabilidad de que la variable endógena tome el valor correspondiente:
\(Prob (Y_i=0) = Prob (e_i=-\beta_1 - beta_2X_i=p=1-\beta_1 - \beta_2X_i\).
\(Prob (Y_i=1) = Prob (e_i=1-\beta_1 - beta_2X_i=(1-p)=\beta_1 + \beta_2X_i\).
A su vez la varianza del término de perturbación, se calcularía a partir de:
\[Var(e_i)=p(1-p)=(1-\beta_1 - \beta_2X_i)(\beta_1 + \beta_2X_i)\]
Una problemática inherente a los estimadores MCO de estos modelos, es la siguiente:
La perturbación aleatoria \(e_i\) no sigue una distribución Normal. Es sencillo observar este hecho ya que el carácter binario (1 ó 0) de la variable endógena afecta a la distribución de la perturbación, teniendo ésta una distribución Binomial . Este problema se atenúa cuando se utilizan tamaños de muestra (\(N\)) grandes en donde la distribución Binomial es susceptible de aproximarse a una Normal.
La perturbación aleatoria no tiene una varianza constante (es heteroscedástica), lo cual supone una falta de eficiencia. Para solucionarlo habría que realizar transformaciones que nos diesen una perturbación homocedástica; esta transformación consiste en multiplicar todas las variables por una cierta cantidad que elimine el problema de la heteroscedasticidad. Dicha cantidad es:
\[\frac{1}{\sqrt{(1-\hat\beta_1 - \hat\beta_2X_i)(\hat\beta_1 + \hat\beta_2X_i)}}\]
siendo \(\hat\beta_1\) y \(\hat\beta_2\) los estimaciones MCO del modelo.
El problema que presentan los modelos probabilísticos lineales en cuanto a la existencia de predicciones establecidas fuera rango (negativas o mayores que uno), es debido a que utilizan una función de probabilidad que depende linealmente de las variables explicativas (\(X_i\)), que se resolverían acotando dicha distribución de probabilidad. El modelo Logit en concreto utiliza, para ello, la función de distribución logística:
Debido a que la función de distribución logística no tiene forma lineal, el modelo Logit se estima de forma diferente, así en vez de minimizar las sumas de las diferencias al cuadrado entre los valores observados y los estimados por el modelo, el carácter no lineal de los modelos Logit requiere la utilización del método de Máxima Verosimilitud para ser estimado, maximizando la verosimilitud de que un suceso tenga lugar, aunque se podría estimar por MCO mediante una transformación logarítmica de los datos (Gujarati, 1997).
La probabilidad de que \(Y_i=0\) (\(p\)) se define ahora mediante la siguiente expresión:
\[p=\frac{1}{1+e^{-z}}\]
donde \(z=\beta_1 + \beta_2X_i+e_i\).
La probabilidad de que \(Y_i=1\) (\(1-p\)) sería:
\[1-p=\frac{1}{1+e^{z}}\]
En consecuencia, la razón entre ambas será igual a:
\[\frac{p}{1-p}=\frac{1+e^{z}}{1+e^{-z}}=e^z\]
Tomando el logaritmo natural de la expresión anterior se obtiene:
\[L_i=\frac{p}{1-p}=loge^z=\beta_1 + \beta_2X_i\]
donde \(L_i\) es denominado Logit.
Los coeficientes \(\beta\) indican el cambio en el Logit causado por el cambio en una unidad en el valor de \(X_i\), mientras que los \(e^{\beta}\) definen el cambio en la razón de probabilidades \(\frac{p}{1-p}\) causado por el cambio en una unidad en el valor de \(X_i\). Si \(\beta\) es positivo,\(e^{\beta}\) será mayor que 1, es decir, \(\frac{p}{1-p}\) se incrementará;si \(\beta\) es negativo,\(e^{\beta}\) será menor que 1, y \(\frac{p}{1-p}\) disminuirá. Adicionalmente, puede demostrarse que el cambio en la probabilidad (\(p\)) causado por el cambio en una unidad en el valor de \(X_i\) es \(\beta(\frac{p}{1-p})\), es decir, depende no sólo del coeficiente, sino también del nivel de probabilidad a partir del cual se mide el cambio.
A la hora de estimar un modelo Logit, hay que tener presente que para estimar el modelo además de los valores \(X_i\), se necesitan los valores del Logit (\(L_i\)), y por otro lado, la estimación de los coeficientes de modelo ha de realizarse utilizando el método de Máxima Verosimilitud, es decir, eligiendo como estimadores de los coeficientes a aquellos que maximizan la función de verosimilitud, construida sobre la base de \(p=\frac{1}{1+e^{-z}}\). Pero si tenemos la posibilidad de agrupar los datos individuales, entonces podría estimarse el modelo por MCO.
Mientras que el modelo Logit utiliza la función de distribución logística para acotar la distribución de probabilidad en el modelo de probabilidad lineal, el modelo Probit utiliza la función de distribución Normal.
Las funciones de distribución normal y logística son muy semejantes: la diferencia principal es que la función de distribución normal se acerca más rápidamente a los ejes que la logística.
Para entender la filosofía del modelo Probit, vamos a suponer que existe una variable desconocida \(s\) que cumple lo siguiente:
Si \(I_i=\beta_1+\beta_2X_i \geq s\) entonces \(Y_i=1\)
Si \(I_i=\beta_1+\beta_2X_i<s\) entonces \(Y_i=0\)
Dado el supuesto de normalidad en un suceso, la probabilidad de que este sea menor o igual al valor (\(s\)), se calcula a partir de la función de distribución acumulada de una distribución Normal estandarizada, esto es, con esperanza cero y desviación típica uno.
\[pr(Y_i=1)=pr(I^*_i\geq I_i)=pr(\beta_1+\beta_2X_i \geq s)=F(\beta_1+\beta_2X_i)\]
\(F\) es la FDA normal estandar:
\[F(I_i)=\frac{1}{\sqrt{2\pi}}\int_{- \infty}^{\beta_1+\beta_2X_i}{e^{-\frac{z^2}{2}d(z)}}\]
donde \(Z_i\) es la variable normal estandarizada \(Z \sim N(0,\sigma^2)\)
Ahora para obtener información sobre \(I_i\), se toma la inversa de \(F(I_i)\):
\[I_i=F^{-1}(I_i)=F^{-1}(P)=\beta_1+\beta_2X_i\]
Al igual que ocurre en el probit si tenemos la posibilidad de agrupar los datos individuales, entonces podría estimarse el modelo por MCO.
Los modelos lineales (regresión, ANOVA, ANCOVA), se basan en los siguientes supuestos: 1. Los errores se distribuyen normalmente. 2. La varianza es constante. 3. La variable dependiente se relaciona linealmente con las variables independientes.
de manera analítica tendríamos: \[Y_i=\beta_1X_{1i}+\beta_2X_{1i}+...+\beta_kX_{1i}+u_i\], \(i=1,2,…, n\)
donde \(e_i\) esta distribuida de cómo una normal de media cero, varianza constante (homocedástica),y donde la covarianza entre \(e_i\) y \(e_j\) es nula para \(e_i\neq e_j\) (ausencia de autocorrelación). Es decir. Estos supuestos llevan implícito que la distribución de la variable dependiente \(Y_i\) sea también una normal \(Y_i\sim(\mu,\sigma^2)\).
donde \(\mu=\beta_1X_{1i}+\beta_2X_{1i}+...+\beta_kX_{1i}\)
En muchas ocasiones, sin embargo, nos encontramos con que uno o varios de estos supuestos no se cumplen por la naturaleza de la información. En algunos casos, estos problemas se pueden llegar a solucionar mediante la transformación de la variable respuesta (por ejemplo tomando logaritmos). Sin embargo estas transformaciones no siempre consiguen corregir la falta de normalidad, la heterocedasticidad (varianza no constante) o la no linealidad de nuestros datos.
Una alternativa a la transformación de la variable dependiente/respuesta y a la falta de normalidad es el uso de los modelos lineales generalizados (MLG).
Los MLG fueron formulados por John Nelder y Robert Wedderburn (1989) como una manera de unificar varios modelos estadísticos, incluyendo la regresión lineal, regresión logística y regresión de Poisson, bajo un solo marco teórico.
Los MLG son, por tanto, una extensión de los modelos lineales que permiten utilizar distribuciones no normales de los errores (binomiales, Poisson, gamma, etc) y varianzas no constantes.
Los MLG permiten especificar distintos tipos de distribución de errores, Cayuela (2010) expone los siguientes ejemplos:
• Poisson, muy útiles para conteos de acontecimientos, por ejemplo: número de heridos por accidentes de tráfico; número de hogares asegurados que dan parte de siniestro al día.
• Binomiales, de gran utilidad para proporciones y datos de presencia/ausencia, por ejemplo: tasas de mortalidad; tasas de infección; porcentaje de siniestros mortales.
• Gamma, muy útiles con datos que muestran un coeficiente de variación constante, esto es, en donde la varianza aumenta según aumenta la media de la muestra de manera constante, por ejemplo : número de heridos en función del número de siniestros
• Exponencial, muy útiles para los análisis de supervivencia.
Otra razón por la que un modelo lineal puede no ser adecuado para describir un fenómeno determinado es que la relación entre la variable respuesta y las variables independientes no es siempre lineal.
La función de vínculo se encarga de linealizar la relación entre la variable dependiente y las variables independientes mediante la transformación de la variable respuesta:
Tabla nº 1 Funciones de ligadura-vínculo más usadas
| Función Vínculo | Formula | Uso |
|---|---|---|
| Identidad | \(\mu\) | Datos continuos con errores normales (regresión y ANOVA) |
| Logaritmica | \(log(\mu)\) | Conteos con errores de tipo de Poisson |
| Logit | \(log(\frac{\mu}{n-\mu})\) | Proporciones (datos entre O y 1) con errores binomiales |
| Recíproca | \(\frac{1}{\mu}\) | Datos continuos con errores Gamma |
| Cuadrada | \(\sqrt{\mu}\) | Conteos |
| Exponencial | \(\mu^n\) | Funciones de potencia |
Fuente: (Cayuela, 2016)
Tabla nº2 Modelos MLG más comunes
| Tipo de análisis | Variable respuesta | Variable explicativa | Función vínculo | Distribución de errores |
|---|---|---|---|---|
| Regresión | Continua | Continua | Identidad | Normal |
| ANOVA | Continua | Factor | Identidad | Normal |
| Regresión | Continua | Continua | Identidad | Gamma |
| Regresión | Conteo | Continua | Recíproca | Poisson |
| Tabla de contingencia | Conteo | Factor | Logarítmica | Poisson |
| Proporciones | Proporción | Continua | Logarítmica | Binomial |
| Regresión logística | Binaria | Continua | Logit | Binomial |
| Análisis de superviviencia | Tiempo | Recíproca | Identidad | Exponencial |
Fuente: (Cayuela, 2016)
La estimación de los parámetros \(\beta\), se realiza por máximo verosimilitud,y los ajustes de \(\hat \mu_i\), se calculan como \(g^{-1}(x'_i\beta)\), una vez estimados los parámetros del vector \(\beta\). Para valorar el ajuste de los \(MLG\) se utiliza el estadístico chi-cuadrado, que se define como el doble de la diferencia entre el máximo del logaritmo de la verosimilitud que se podría conseguir con la mínima (o máxima) parametrización y el valor del máximo del logaritmo de la verosimilitud que se consigue con el modelo a evaluar, y el estadístico AIC (Akaike Information Criterion), formulado por Akaike (1974):
\[AIC=-2 \frac l N + 2 \frac k N \]
donde \(l\) es el valor en el óptimo del logaritmo de la función de verosimilitud con \(k\) parámetros estimados y \(N\) las observaciones. Siguiendo estos criterios, se seleccionará aquel modelo para el que se obtenga un AIC más bajo.
La especificación de un MLG se realiza en tres partes:
• La componente aleatoria correspondiente a la variable \(Y_i\) que sigue una distribución de la familia exponencial (normal, log-normal, poisson, gamma,…) • La componente sistemática, o predictor, que se denota \(\eta\) y corresponde al vector de \(n\) componentes \(\eta_i=\beta_1X_{1i}+\beta_2X_{1i}+...+\beta_kX_{1i}\) • La función de ligadura (o función link \(g(•)\)) que relaciona la esperanza matemática de la variable con el predictor lineal \(\eta_i=g(\mu_i)\).
Leemos base de datos de prestamos fallidos al consumo:
library(ISLR)
str(Default)
## 'data.frame': 10000 obs. of 4 variables:
## $ default: Factor w/ 2 levels "No","Yes": 1 1 1 1 1 1 1 1 1 1 ...
## $ student: Factor w/ 2 levels "No","Yes": 1 2 1 1 1 2 1 2 1 1 ...
## $ balance: num 730 817 1074 529 786 ...
## $ income : num 44362 12106 31767 35704 38463 ...
La variable dependiente será default, \(Y=YES\) e \(Y=No\).
Tenemos entonces tres variables predictivas: student, que caracteriza al consumidor como estudiante; balance, que es el saldo promedio de la tarjeta de crédito, e income que la renta del cliente.
Estimamos un modelo logit para explicar la admisión de alumnos, y evaluamos la tasa de
mylogit=glm(default~student+balance+income,family="binomial",data=Default)
summary(mylogit)
##
## Call:
## glm(formula = default ~ student + balance + income, family = "binomial",
## data = Default)
##
## Deviance Residuals:
## Min 1Q Median 3Q Max
## -2.4691 -0.1418 -0.0557 -0.0203 3.7383
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -1.087e+01 4.923e-01 -22.080 < 2e-16 ***
## studentYes -6.468e-01 2.363e-01 -2.738 0.00619 **
## balance 5.737e-03 2.319e-04 24.738 < 2e-16 ***
## income 3.033e-06 8.203e-06 0.370 0.71152
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 2920.6 on 9999 degrees of freedom
## Residual deviance: 1571.5 on 9996 degrees of freedom
## AIC: 1579.5
##
## Number of Fisher Scoring iterations: 8
summary(mylogit$fitted.values)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.0000103 0.0002798 0.0019662 0.0333000 0.0132244 0.9776263
fit.pred=ifelse(mylogit$fitted.values>0.5,1,0)
table(fit.pred,Default$default)
##
## fit.pred No Yes
## 0 9627 228
## 1 40 105
Estimamos ahora un Probit para explicar la admisión de alumnos:
myprobit=glm(default~student+balance+income, data=Default,family=binomial(link=probit))
summary(myprobit)
##
## Call:
## glm(formula = default ~ student + balance + income, family = binomial(link = probit),
## data = Default)
##
## Deviance Residuals:
## Min 1Q Median 3Q Max
## -2.2226 -0.1354 -0.0321 -0.0044 4.1254
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -5.475e+00 2.385e-01 -22.960 <2e-16 ***
## studentYes -2.960e-01 1.188e-01 -2.491 0.0127 *
## balance 2.821e-03 1.139e-04 24.774 <2e-16 ***
## income 2.101e-06 4.121e-06 0.510 0.6101
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 2920.6 on 9999 degrees of freedom
## Residual deviance: 1583.2 on 9996 degrees of freedom
## AIC: 1591.2
##
## Number of Fisher Scoring iterations: 8
summary(myprobit$fitted.values)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.0000000 0.0000183 0.0007723 0.0334850 0.0130713 0.9609657
fit.pred=ifelse(myprobit$fitted.values>0.5,1,0)
table(fit.pred,Default$default)
##
## fit.pred No Yes
## 0 9639 238
## 1 28 95