Verificación de supuestos del modelo de datos.
La validez de los resultados obtenidos en cualquier análisis de varianza ANOVA queda supeditado a que los supuestos del modelo se cumplan. Estos supuestos son:
- Normalidad
- Varianza constante (igual varianza de los tratamientos) u homocedasticidad.
- Independencia.
Esto es, la respuesta \(y_{ij}\) se debe distribuir de manera normal, con la misma varianza en cada tratamiento y las mediciones deben ser independientes.
\[y_{ij}\sim N(\mu+\tau_i~,~\sigma^2)~, \\ Igual~varianza~\sigma^2~para~todos~tratamientos~i~, \\ Mediciones~independientes\]
Estos supuestos sobre \(y_{ij}\) se traducen en supuestos sobre el término del error aleatorio \(\epsilon_{ij}\) en el modelo \(y_{ij}=\mu+\tau_i+\epsilon_{ij}\), en la práçtica se realizan la verificación de los supuestos sobre los residuales
Definición de residuales \(e_{ij}\)
Es una práctica común utilizar la muestra de ** residuales o residuos** para comprobar los supuestos del modelo, ya que si los supuestos se cumplen, los residuos o residuales se pueden ver como una muestra aleatoria de una distribución normal con media cero y varianza constante, esto es:
\[e_{ij} \sim N(0,\sigma^2)\]
Los residuales \(e_{ij}\) se definen como la diferencia entre la observación \(y_{ij}\) y la respuesta predicha por el modelo de datos \(\hat{y_{ij}}\) por lo tanto:
\[e_{ij} = y_{ij}-\hat{y_{ij}}\]
El cálculo de residuales permite hacer un diagnóstico más directo de la calidad del modelo, ya que su magnitud señala qué tan bien describe a los datos el modelo estadístico.
Recordemos que el modelo que describe los datos en un diseño de experimentos de un factor es:
\[y_{ij}=\mu+\tau_i+\epsilon_{ij}\]
Cuando se realiza el ANOVA, y sólo cuando éste resulta significativo (rechazo \(H_o\)), entonces se procede a estimar el modelo ajustado o modelo de trabajo dado por:
\[\hat{y_{ij}}=\hat{\mu}+\hat{\tau_i}\]
El término del error \(\epsilon_{ij}\) desaparece de la expresión del modelo de datos puesto que su valor esperado \(E(\epsilon_{ij})=0\)
También es importante recordar que:
\[\hat{\mu}=\bar{y_{..}} \\ \tau_i = \bar{y_{i.}} - \bar{y_{..}}\]
Por lo que el modelo se puede escribir como:
\[\hat{y_{ij}}=\hat{\mu}+\hat{\tau_i} = \bar{y_{..}}-(\bar{y_{i.}}+\bar{y_{..}}) \rightarrow\]
\[\hat{y_{ij}} = \bar{y_{i.}}\]
Dado lo anterior, el residual \(\epsilon_{ij}\) asociado a la observación \(y_{ij}\) está dado por:
\[\epsilon_{ij}=y_{ij}-\hat{y_{ij}}= y_{ij} - \bar{y_{i.}}\]
Los supuestos del modelo, traducidos a los residuales \(\epsilon_{ij}\) son:
- Los \(\epsilon_{ij}\) siguen una distribución normal con media cero.
\[\epsilon_{ij}\sim N(0,\sigma^2)\]
Los \(\epsilon_{ij}\) de cada tratamiento tienen la misma varianza \(\sigma^2\). Homocedasticidad de la varianza de los residuales.
Los \(\epsilon_{ij}\) son independientes entre sí.
Para comprobar cada supuesto existen pruebas analíticas y gráficas que veremos a continuación.
Verificación de supuesto de varianza constante de los tratamientos - HOMOCEDASTICIDAD
Verificación gráfica
Una forma de verificar el supuesto de varianza constante (los tratamientos tienen la misma varianza) es realizando un gráfico de dispersión con las siguientes variables:
- Eje X \(\rightarrow\) ajustados o predichos \(\hat{y_{ij}}\)
- Eje Y \(\rightarrow\) residuales \(e_{ij}\)
Si los puntos de este gráfico de dispersión se distribuyen de manera aleatoria en una banda horizontal (sin ningún patrón claro y contundente), entonces es señal de que se cumple el supuesto de que los tratamientos tienen igual varianza.
Verificación gráfica ejemplo
Tomaremos como ejemplo el caso de la fibra sintética fabricada con distintos porcentajes de algodón que se presume afecta la resistencia a la tensión:
Peso porcentual algodón | 1 | 2 | 3 | 4 | 5 | Total | Promedio |
---|---|---|---|---|---|---|---|
15% | 7 | 7 | 15 | 11 | 9 | 49 | 9.80 |
20% | 12 | 17 | 12 | 18 | 18 | 77 | 15.40 |
25% | 14 | 18 | 18 | 19 | 19 | 88 | 17.60 |
30% | 19 | 25 | 22 | 19 | 23 | 108 | 21.60 |
35% | 7 | 10 | 11 | 15 | 11 | 54 | 10.80 |
376 | 15.04 |
De los datos anteriores se pueden calcular las observaciones ajustadas o predichas por el modelo como sigue:
\[\hat{y_{ij}}=\bar{y_{i.}}\]
El resultado de los cálculos de los valores ajustados por el modelo para las observaciones es el siguiente:
Numero | Ajustados |
---|---|
1 | 9.8 |
2 | 9.8 |
3 | 9.8 |
4 | 9.8 |
5 | 9.8 |
6 | 15.4 |
7 | 15.4 |
8 | 15.4 |
9 | 15.4 |
10 | 15.4 |
11 | 17.6 |
12 | 17.6 |
13 | 17.6 |
14 | 17.6 |
15 | 17.6 |
16 | 21.6 |
17 | 21.6 |
18 | 21.6 |
19 | 21.6 |
20 | 21.6 |
21 | 10.8 |
22 | 10.8 |
23 | 10.8 |
24 | 10.8 |
25 | 10.8 |
Igualmente se pueden calcular los residuales:
\[e_{ij}=y_{ij}-\hat{y_{ij}}\]
El resultado de los cálculos se muestra a continuación:
Ajustados | Residuales |
---|---|
9.8 | -2.8 |
9.8 | -2.8 |
9.8 | 5.2 |
9.8 | 1.2 |
9.8 | -0.8 |
15.4 | -3.4 |
15.4 | 1.6 |
15.4 | -3.4 |
15.4 | 2.6 |
15.4 | 2.6 |
17.6 | -3.6 |
17.6 | 0.4 |
17.6 | 0.4 |
17.6 | 1.4 |
17.6 | 1.4 |
21.6 | -2.6 |
21.6 | 3.4 |
21.6 | 0.4 |
21.6 | -2.6 |
21.6 | 1.4 |
10.8 | -3.8 |
10.8 | -0.8 |
10.8 | 0.2 |
10.8 | 4.2 |
10.8 | 0.2 |
Se puede entonces realizar la gráfica:
- Eje X \(\rightarrow\) ajustados o predichos \(\hat{y_{ij}}\)
- Eje Y \(\rightarrow\) residuales \(e_{ij}\)
Resulta como sigue:
Verificación analítica
Prueba de Bartlett
Supongamos que tenemos \(a\) poblaciones o tratamientos independientes. Cada uno de ellos con una distribución normal, esto es:
\[N(\mu_{i},\sigma^2_i)~,~ i=1,2,..,a\]
Las varianzas \(\sigma^2_i\) son desconocidas, para realizar el contraste de varianza constante u homocedasticidad mediante el Test de Barlett se siguen los siguientes pasos:
1. Planteamiento de hipótesis.
Se requiere probar la hipótesis de igualdad de varianzas dada por:
\[H_o: \sigma^2_1=\sigma^2_2=...=\sigma^2_a=\sigma^2 \\ H_1: \sigma^2_i\neq \sigma^2_j\]
2. Cálculo de estadístico de prueba \(X^2_o\)
\[X^2_o=2,3096~\frac{q}{c}\]
\[q=(N-a)\log_{10}S^2_p-\sum_{i=1}^a(n_i-1)\log_{10}S^2_i\]
\[c=1+\frac{1}{3(a-1)} \left[ \left(\sum_{i=1}^a (n_i-1)^{-1} \right)-(N-a)^{-1}\right]\]
\[S^2_p=\frac{\sum_{i=1}^a(n_i-1)S^2_i}{N-a}\]
\(S^2_i\) es la varianza muestral de la población i-ésima.
3. Comparamos con estadístico teórico \(X^2_{\alpha,a-1}\)
El estadístico \(X^2_o\) sigue una distribución ji-cuadrada con \(\alpha\) nivel de significancia y \(a-1\) grados de libertad, esto es:
\[X^2_o \sim X_{\alpha,a-1}\]
Por lo tanto si:
\[X^2_o>X_{\alpha,a-1} \rightarrow Rechazo~H_o \]
Solución de problema de clase en R
Verificación gráfica
Para el problema usado en clases el procedimiento de solución gráfico es el siguiente:
# Realizo el análisis de varianza ANOVA
cuero <- c("A", "A","A","A","A","A", "B", "B","B","B","B","B","C","C","C","C","C","C","D","D","D","D","D","D")
desgaste <- c(264,260,258,241,262,255,208,220,216,200,213,206,220,263,219,225,230,228,217,226,215,227,220,222)
cuero <- as.factor(cuero)
modelo <- lm(desgaste~cuero)
anova <- aov(modelo)
# Obtengo residuales y valores ajustados
residuales <- anova$residuals
ajustados <- anova$fitted.values
# Realizo el gráfico de dispersión Ajustados vs Residuales, puedo editar gráfico según mis preferencias
plot(x=ajustados, y=residuales, main = "Verificación Homocedasticidad", xlab= "Ajustados por modelo", ylab="Residuales", ylim=c(-30,45), xlim=c(200,270),abline(h=c(-20,38)))
Del gráfico de dispersión Ajustados vs Residuales no se encuentra evidencia para sospechar sobre la no homogeneidad de la varianza, no se observa patrón evidente en el gráfico.
Para el problema usado en clases el procedimiento de solución gráfico es el siguiente:
Verificaicón analítica - formal
Para el problema usado en clases el procedimiento de solución mediante Test de Bartlett es el siguiente:
# Realizo el análisis de varianza ANOVA
cuero <- c("A", "A","A","A","A","A", "B", "B","B","B","B","B","C","C","C","C","C","C","D","D","D","D","D","D")
desgaste <- c(264,260,258,241,262,255,208,220,216,200,213,206,220,263,219,225,230,228,217,226,215,227,220,222)
cuero <- as.factor(cuero)
modelo <- lm(desgaste~cuero)
anova <- aov(modelo)
# Obtengo residuales y valores ajustados
residuales <- anova$residuals
# Realizo el Test de Bartlett por tratamiento
bartlett.test(residuales~cuero)
##
## Bartlett test of homogeneity of variances
##
## data: residuales by cuero
## Bartlett's K-squared = 7.4634, df = 3, p-value = 0.05851
# Estadístico de referencia para alpha = 0.05
qchisq(0.05,3,lower.tail = FALSE)
## [1] 7.814728
Del análisis anterior obtenemos los siguientes resultados:
\(X_0^2 = 7,4634\)
\(X_{\alpha,~a-1} = X_{0.05,~3} = 7,8147\)
\[X_0^2 = 7,4634 \ngtr X_{0.05,~3} = 7,8147 \]
Por lo que no existe evidencia estadística suficiente para rechazar \(H_0\) por lo que los residuales entre tratamientos tienen varianza homogénea.