Modelos Lineales generalizados: Ejemplo 1 Regresion Gamma en Rstudio

Wafer data

El resultado es un resultado continuo, pero está sesgado a la derecha y siempre es positivo. La forma más común de analizar estos datos es registrar y transformar el resultado. Sin embargo, existen alternativas en el marco del modelo lineal generalizado, que pueden dar una mejor interpretabilidad.

library(faraway)
data(wafer)
plot(density(wafer$resist))

head(wafer)

“resistencia de la oblea en el experimento de semiconductores”

Descripción:

  Un experimento factorial completo con cuatro predictores de dos niveles.

Formato:

  Un marco de datos con 16 observaciones sobre las siguientes 5 variables.  
  
  x1 un factor con niveles "-" "+"  
  
  x2 un factor con niveles "-" "+"  
  
  x3 un factor con niveles "-" "+"  
  
  x4 un factor con niveles "-" "+"  
  
  resistir la resistividad de la oblea

Fuente: Myers, R. y Montgomery D. (1997) Un tutorial sobre generalizado modelos lineales, Journal of Quality Technology, 29, 274-291.

Terminología

La media aritmética es la media ordinaria \((\frac{1}{n} \sum_{i = 1}^n Y_i)\).
La media geométrica es la media aritmética calculada en la escala logarítmica \((\frac{1}{n} \sum_{i = 1}^ n log(Y_i))\).
Aquí se utiliza “razón media” para describir la razón comparando dos medias, al igual que la razón de posibilidades y la razón de tasas.

La forma habitual: modelo lineal con resultado de transformación logarítmica (modelo de media geométrica multiplicativa)

res.lm.logY <- lm(log(resist) ~ x1 + x2 + x3 + x4, data = wafer)
summary(res.lm.logY)

## 
## Call:
## lm(formula = log(resist) ~ x1 + x2 + x3 + x4, data = wafer)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.17572 -0.06222  0.01749  0.08765  0.10841 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  5.44048    0.05982  90.948  < 2e-16 ***
## x1+          0.12277    0.05350   2.295 0.042432 *  
## x2+         -0.29986    0.05350  -5.604 0.000159 ***
## x3+          0.17844    0.05350   3.335 0.006652 ** 
## x4+         -0.05615    0.05350  -1.049 0.316515    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.107 on 11 degrees of freedom
## Multiple R-squared:  0.8164, Adjusted R-squared:  0.7496 
## F-statistic: 12.22 on 4 and 11 DF,  p-value: 0.0004915

exp(coef(res.lm.logY))

## (Intercept)         x1+         x2+         x3+         x4+ 
## 230.5536396   1.1306261   0.7409254   1.1953481   0.9454013

Si el resultado es sesgado y siempre positivo, se puede modelar mediante la transformación.

Este modelo está modelando lo siguiente:

\((E[log(Y_i)] = \beta_0 + \beta_1X_1 + \beta_2X_2 + \beta_3X_3 + \beta_4X_4)\)

Por lo tanto, solo es interpretable en términos del cambio medio (aritmético) en la escala logarítmica, es decir, se interpreta solo en términos de la “razón media” geométrica en la escala original.

Por ejemplo, tener x1 = + cambia el valor esperado (media aritmética) del resultado logarítmico en 0.12277. El coeficiente exponencial \((e^ {0.12277} = 1.130624)\) es la razón por la cual se multiplica la media geométrica del resultado original (“razón media” geométrica en la escala original).

La intersección exponenciada \(((e^{5.44} = 230.6))\) es la media geométrica esperada para las obleas que tienen - para todos los predictores.

Por lo tanto, este modelo asume efectos multiplicativos sobre el resultado original por parte de los predictores.

Alternativa uno: modelo lineal generalizado con familia Gamma y enlace logarítmico (modelo de media aritmética multiplicativa)

res.glm.Gamma.log <- glm(formula = resist ~ x1 + x2 + x3 + x4,
                         family  = Gamma(link = "log"),
                         data    = wafer)
summary(res.glm.Gamma.log)

## 
## Call:
## glm(formula = resist ~ x1 + x2 + x3 + x4, family = Gamma(link = "log"), 
##     data = wafer)
## 
## Deviance Residuals: 
##      Min        1Q    Median        3Q       Max  
## -0.17548  -0.06486   0.01423   0.08399   0.10898  
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  5.44552    0.05856  92.983  < 2e-16 ***
## x1+          0.12115    0.05238   2.313 0.041090 *  
## x2+         -0.30049    0.05238  -5.736 0.000131 ***
## x3+          0.17979    0.05238   3.432 0.005601 ** 
## x4+         -0.05757    0.05238  -1.099 0.295248    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for Gamma family taken to be 0.01097542)
## 
##     Null deviance: 0.69784  on 15  degrees of freedom
## Residual deviance: 0.12418  on 11  degrees of freedom
## AIC: 152.91
## 
## Number of Fisher Scoring iterations: 4

exp(coef (res.glm.Gamma.log))

## (Intercept)         x1+         x2+         x3+         x4+ 
## 231.7185740   1.1287977   0.7404588   1.1969634   0.9440590

Si el resultado es sesgado y siempre positivo, se puede modelar utilizando la distribución gamma.

La función de enlace es log () para ser coherente con el modelo lineal anterior, por lo que el modelo está modelando lo siguiente.

\((log(E[Y_i]) = \beta_0 + \beta_1X_1 + \beta_2X_2 + \beta_3X_3 + \beta_4X_4)\)

y lo siguiente también es válido,

\((E [Y_i] = e^{\beta_0 + \beta_1X_1 + \beta_2X_2 + \beta_3X_3 + \beta_4X_4})\) (siempre positivo)

por tanto, es posible hacer inferencias sobre las medias aritméticas \(((E [Y_i] ))\) en la escala original.

Por ejemplo, tener x1 = + aumenta el resultado de la media aritmética logarítmica en 0.12115. El coeficiente exponenciado \((e^{0.12115} = 1.128794)\) es el factor por el cual se multiplica el resultado de la media aritmética en la escala original, es decir, si x1 = +, la media aritmética en la escala original es 1.13 veces mayor en comparación con x1 = - dentro de los niveles de otras variables.

La intersección exponenciada \(((e^{5.45} = 231.7))\) es el resultado de la media aritmética para las obleas que tienen - para todos los predictores.

Por lo tanto, este modelo asume efectos multiplicativos sobre el resultado original por parte de los predictores.

Diferencias y similitudes

Estos dos modelos se ven muy similares y dan coeficientes similares en este caso, pero sus coeficientes exponenciados tienen una interpretación diferente (“razón media” geométrica vs “razón media” aritmética).

Esto es porque

\((E [log (Y_i) | X] \ne log (E [Y_i | X]))\) (La media en la escala logarítmica no es igual al logaritmo de la media en la escala original)

Por lo tanto, si el resultado se transforma logarítmicamente antes de ingresar al modelo de regresión lineal, la inferencia sobre la media geométrica. Por el contrario, el enfoque del modelo lineal generalizado permite inferencias sobre la media aritmética en la escala original.

En cualquier caso, el efecto de cada predictor es multiplicativo (\(\%\) de cambio en las medias).

Alternativa dos: modelo lineal generalizado con familia Gamma y vínculo de identidad (modelo de media aritmética aditiva)

res.glm.Gamma.identity <- glm(formula = resist ~ x1 + x2 + x3 + x4,
                         family  = Gamma(link = "identity"),
                         data    = wafer)
summary(res.glm.Gamma.identity)

## 
## Call:
## glm(formula = resist ~ x1 + x2 + x3 + x4, family = Gamma(link = "identity"), 
##     data = wafer)
## 
## Deviance Residuals: 
##       Min         1Q     Median         3Q        Max  
## -0.190394  -0.066533   0.005538   0.091549   0.126838  
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)   235.43      14.21  16.572 3.97e-09 ***
## x1+            27.83      12.24   2.274 0.044017 *  
## x2+           -65.74      12.68  -5.184 0.000302 ***
## x3+            36.94      12.32   2.999 0.012102 *  
## x4+           -11.88      12.15  -0.978 0.349294    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for Gamma family taken to be 0.0124071)
## 
##     Null deviance: 0.69784  on 15  degrees of freedom
## Residual deviance: 0.14009  on 11  degrees of freedom
## AIC: 154.84
## 
## Number of Fisher Scoring iterations: 6

Si el efecto de cada predictor se considera aditivo en la escala original, se puede utilizar un modelo lineal generalizado con la función de vínculo de identidad.

En este caso, los coeficientes brutos están en la escala original. Tener x1 = + agrega 27.83 al resultado de la media aritmética (efecto aditivo).

La intersección sin procesar (235,43) es el resultado de la media aritmética para las obleas que tienen - para todos los predictores.

Modelos Lineales generalizados: Ejemplo 1 Regresion Gamma en Rstudio

Jaime Isaac

30/5/2021