Wafer data
El resultado es un resultado continuo, pero está sesgado a la derecha y siempre es positivo. La forma más común de analizar estos datos es registrar y transformar el resultado. Sin embargo, existen alternativas en el marco del modelo lineal generalizado, que pueden dar una mejor interpretabilidad.
library(faraway)
data(wafer)
plot(density(wafer$resist))
head(wafer)
“resistencia de la oblea en el experimento de semiconductores”
Descripción:
Un experimento factorial completo con cuatro predictores de dos niveles.
Formato:
Un marco de datos con 16 observaciones sobre las siguientes 5 variables.
x1 un factor con niveles "-" "+"
x2 un factor con niveles "-" "+"
x3 un factor con niveles "-" "+"
x4 un factor con niveles "-" "+"
resistir la resistividad de la oblea
Fuente: Myers, R. y Montgomery D. (1997) Un tutorial sobre generalizado modelos lineales, Journal of Quality Technology, 29, 274-291.
Terminología
La media aritmética es la media ordinaria \((\frac{1}{n} \sum_{i = 1}^n Y_i)\).
La media geométrica es la media aritmética calculada en la escala logarítmica \((\frac{1}{n} \sum_{i = 1}^ n log(Y_i))\).
Aquí se utiliza “razón media” para describir la razón comparando dos medias, al igual que la razón de posibilidades y la razón de tasas.
La forma habitual: modelo lineal con resultado de transformación logarítmica (modelo de media geométrica multiplicativa)
res.lm.logY <- lm(log(resist) ~ x1 + x2 + x3 + x4, data = wafer)
summary(res.lm.logY)
##
## Call:
## lm(formula = log(resist) ~ x1 + x2 + x3 + x4, data = wafer)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.17572 -0.06222 0.01749 0.08765 0.10841
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 5.44048 0.05982 90.948 < 2e-16 ***
## x1+ 0.12277 0.05350 2.295 0.042432 *
## x2+ -0.29986 0.05350 -5.604 0.000159 ***
## x3+ 0.17844 0.05350 3.335 0.006652 **
## x4+ -0.05615 0.05350 -1.049 0.316515
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.107 on 11 degrees of freedom
## Multiple R-squared: 0.8164, Adjusted R-squared: 0.7496
## F-statistic: 12.22 on 4 and 11 DF, p-value: 0.0004915
exp(coef(res.lm.logY))
## (Intercept) x1+ x2+ x3+ x4+
## 230.5536396 1.1306261 0.7409254 1.1953481 0.9454013
Si el resultado es sesgado y siempre positivo, se puede modelar mediante la transformación.
Este modelo está modelando lo siguiente:
\((E[log(Y_i)] = \beta_0 + \beta_1X_1 + \beta_2X_2 + \beta_3X_3 + \beta_4X_4)\)
Por lo tanto, solo es interpretable en términos del cambio medio (aritmético) en la escala logarítmica, es decir, se interpreta solo en términos de la “razón media” geométrica en la escala original.
Por ejemplo, tener x1 = + cambia el valor esperado (media aritmética) del resultado logarítmico en 0.12277. El coeficiente exponencial \((e^ {0.12277} = 1.130624)\) es la razón por la cual se multiplica la media geométrica del resultado original (“razón media” geométrica en la escala original).
La intersección exponenciada \(((e^{5.44} = 230.6))\) es la media geométrica esperada para las obleas que tienen - para todos los predictores.
Por lo tanto, este modelo asume efectos multiplicativos sobre el resultado original por parte de los predictores.
Alternativa uno: modelo lineal generalizado con familia Gamma y enlace logarítmico (modelo de media aritmética multiplicativa)
res.glm.Gamma.log <- glm(formula = resist ~ x1 + x2 + x3 + x4,
family = Gamma(link = "log"),
data = wafer)
summary(res.glm.Gamma.log)
##
## Call:
## glm(formula = resist ~ x1 + x2 + x3 + x4, family = Gamma(link = "log"),
## data = wafer)
##
## Deviance Residuals:
## Min 1Q Median 3Q Max
## -0.17548 -0.06486 0.01423 0.08399 0.10898
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 5.44552 0.05856 92.983 < 2e-16 ***
## x1+ 0.12115 0.05238 2.313 0.041090 *
## x2+ -0.30049 0.05238 -5.736 0.000131 ***
## x3+ 0.17979 0.05238 3.432 0.005601 **
## x4+ -0.05757 0.05238 -1.099 0.295248
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for Gamma family taken to be 0.01097542)
##
## Null deviance: 0.69784 on 15 degrees of freedom
## Residual deviance: 0.12418 on 11 degrees of freedom
## AIC: 152.91
##
## Number of Fisher Scoring iterations: 4
exp(coef (res.glm.Gamma.log))
## (Intercept) x1+ x2+ x3+ x4+
## 231.7185740 1.1287977 0.7404588 1.1969634 0.9440590
Si el resultado es sesgado y siempre positivo, se puede modelar utilizando la distribución gamma.
La función de enlace es log () para ser coherente con el modelo lineal anterior, por lo que el modelo está modelando lo siguiente.
\((log(E[Y_i]) = \beta_0 + \beta_1X_1 + \beta_2X_2 + \beta_3X_3 + \beta_4X_4)\)
y lo siguiente también es válido,
\((E [Y_i] = e^{\beta_0 + \beta_1X_1 + \beta_2X_2 + \beta_3X_3 + \beta_4X_4})\) (siempre positivo)
por tanto, es posible hacer inferencias sobre las medias aritméticas \(((E [Y_i] ))\) en la escala original.
Por ejemplo, tener x1 = + aumenta el resultado de la media aritmética logarítmica en 0.12115. El coeficiente exponenciado \((e^{0.12115} = 1.128794)\) es el factor por el cual se multiplica el resultado de la media aritmética en la escala original, es decir, si x1 = +, la media aritmética en la escala original es 1.13 veces mayor en comparación con x1 = - dentro de los niveles de otras variables.
La intersección exponenciada \(((e^{5.45} = 231.7))\) es el resultado de la media aritmética para las obleas que tienen - para todos los predictores.
Por lo tanto, este modelo asume efectos multiplicativos sobre el resultado original por parte de los predictores.
Diferencias y similitudes
Estos dos modelos se ven muy similares y dan coeficientes similares en este caso, pero sus coeficientes exponenciados tienen una interpretación diferente (“razón media” geométrica vs “razón media” aritmética).
Esto es porque
\((E [log (Y_i) | X] \ne log (E [Y_i | X]))\) (La media en la escala logarítmica no es igual al logaritmo de la media en la escala original)
Por lo tanto, si el resultado se transforma logarítmicamente antes de ingresar al modelo de regresión lineal, la inferencia sobre la media geométrica. Por el contrario, el enfoque del modelo lineal generalizado permite inferencias sobre la media aritmética en la escala original.
En cualquier caso, el efecto de cada predictor es multiplicativo (\(\%\) de cambio en las medias).
Alternativa dos: modelo lineal generalizado con familia Gamma y vínculo de identidad (modelo de media aritmética aditiva)
res.glm.Gamma.identity <- glm(formula = resist ~ x1 + x2 + x3 + x4,
family = Gamma(link = "identity"),
data = wafer)
summary(res.glm.Gamma.identity)
##
## Call:
## glm(formula = resist ~ x1 + x2 + x3 + x4, family = Gamma(link = "identity"),
## data = wafer)
##
## Deviance Residuals:
## Min 1Q Median 3Q Max
## -0.190394 -0.066533 0.005538 0.091549 0.126838
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 235.43 14.21 16.572 3.97e-09 ***
## x1+ 27.83 12.24 2.274 0.044017 *
## x2+ -65.74 12.68 -5.184 0.000302 ***
## x3+ 36.94 12.32 2.999 0.012102 *
## x4+ -11.88 12.15 -0.978 0.349294
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for Gamma family taken to be 0.0124071)
##
## Null deviance: 0.69784 on 15 degrees of freedom
## Residual deviance: 0.14009 on 11 degrees of freedom
## AIC: 154.84
##
## Number of Fisher Scoring iterations: 6
Si el efecto de cada predictor se considera aditivo en la escala original, se puede utilizar un modelo lineal generalizado con la función de vínculo de identidad.
En este caso, los coeficientes brutos están en la escala original. Tener x1 = + agrega 27.83 al resultado de la media aritmética (efecto aditivo).
La intersección sin procesar (235,43) es el resultado de la media aritmética para las obleas que tienen - para todos los predictores.