Con Mi Profe: Julio Hurtado Marquez; EMAIL_TAREAS: juliohurtado210307@gmail.com
El diseño experimental (DE) tiene inicio teórico a partir de 1935 por Sir Ronald A. Fisher (1890-1962), desarrollados en la Estación Agrícola Experimental de Rothamsted, en el Reino Unido, donde introdujo el concepto de aleatorización y el análisis de varianza. A lo largo de varias décadas, la teoría del diseño de experimentos y sus aplicaciones se consolidaron y expandieron, y en años recientes, recibieron un fuerte impulso por las contribuciones de Genichi Taguchi, un estadístico japonés ampliamente conocido en Occidente.
Sir Ronald A. Fisher
(1890-1962)
Padre del diseño experimental
Genichi Taguchi
(1924-2012)
Diseño de parámetros y robustez
La experimentación es una técnica utilizada para conocer el comportamiento de una variable a partir de diferentes combinaciones de factores o variables de entrada de un proceso, que al cambiar afectan la respuesta. En este sentido, se puede afirmar que el diseño experimental estudia procesos, donde un proceso puede considerarse como una “caja negra” a la cual ingresan diversas variables que interactúan para producir un resultado.
Las variables que ingresan al proceso se denominan variables de entrada (factores o variables independientes) y el resultado: variable de salida (respuesta o variable dependiente). La búsqueda de combinaciones óptimas de las variables de entrada da lugar al diseño experimental.
Cualquier problema experimental incluye: diseño del experimento y análisis de los datos.
Diseñar un experimento se refiere al proceso de planear y ejecutar el experimento que se desea para optimizar una característica de calidad de interés. Se refiere a la adquisición apropiada de los datos que al ser analizados de manera estadística proporcione la información deseada con una alta confianza y rigurosidad.
Prueba o series de pruebas en las que se hacen cambios deliberados en las variables de entrada de un proceso para observar e identificar las razones de los cambios en la respuesta de salida.
Unidad a la cual se le aplica un sólo tratamiento (combinación de factores) en una reproducción del experimento.
Describe la situación de no llegar a resultados idénticos con dos unidades experimentales tratadas de igual forma.
Conjunto particular de condiciones experimentales que deben imponerse a una unidad experimental.
Número de ocasiones que se efectúa una misma condición experimental. Proporciona una estimación del error experimental y permite estimaciones más precisas.
Orden en que se ejecutan las condiciones experimentales. Todos los tratamientos tienen la misma oportunidad de ser seleccionados. Cancela efectos de variables no controladas.
Técnica para aumentar la precisión. Se usa cuando se conoce la fuente de variabilidad y se puede controlar, reduciendo su influencia en la respuesta.
Figura: Representación esquemática de un proceso con variables de entrada y salida
1.
Enunciado o planteamiento del problema
2.
Formulación de hipótesis
3.
Proposición de la técnica experimental y el diseño
4.
Examen de sucesos posibles y referencias
5.
Consideración de posibles resultados
6.
Ejecución del experimento
7.
Aplicación de técnicas estadísticas
8.
Extracción de conclusiones
9.
Valoración y contrastación
En este tipo de diseño se considera un sólo factor de interés y el objetivo es comparar más de dos tratamientos (niveles del factor), con el fin de elegir la mejor alternativa que conduzca a optimizar una característica de calidad o variable respuesta (\(Y\)).
El interés del experimentador se centra en comparar los tratamientos en cuanto a sus medias poblacionales con respecto a la variable \(Y\), sin olvidar que también es importante compararlos en relación a sus varianzas y su capacidad actual y futura para cumplir con los requerimientos de calidad y productividad.
La hipótesis fundamental a probar cuando se comparan varios tratamientos es:
\[H_0: \mu_1 = \mu_2 = \cdots = \mu_k = \mu\]
\[H_1: \mu_i \neq \mu_j \text{ para algún } i \neq j\]
con la cual se quiere decidir si los tratamientos son iguales estadísticamente en cuanto a sus medias poblacionales, contra la alternativa de que al menos dos de ellos son diferentes.
Son factores adicionales al factor de interés que se incorporan de manera explícita en un experimento comparativo, para estudiar de manera más adecuada y eficaz al factor de interés.
Ejemplo: Cuando se comparan varias máquinas, manejadas por operadores diferentes, es pertinente incluir explícitamente al factor operadores (bloques) para lograr el propósito del estudio. También se podrían controlar el tipo de material, lotes, día, turno, etc.
Los diseños experimentales más utilizados para comparar tratamientos son:
La diferencia fundamental entre estos diseños es el número de factores de bloque que incorporan o controlan de forma explícita durante el experimento.
| Diseño | Factores de bloqueo | ANOVA con | Modelo estadístico |
|---|---|---|---|
| DCA | 0 | un criterio | \(Y_{i} = \mu + \tau_i + \varepsilon_i\) |
| DBCA | 1 | dos criterios | \(Y_{ij} = \mu + \tau_i + \gamma_j + \varepsilon_{ij}\) |
| DCL | 2 | tres criterios | \(Y_{ijk} = \mu + \tau_i + \gamma_j + \delta_k + \varepsilon_{ijk}\) |
| DCGL | 3 | cuatro criterios | \(Y_{ijkl} = \mu + \tau_i + \gamma_j + \delta_k + \phi_l + \varepsilon_{ijkl}\) |
Notación: \(Y\) es la variable de salida, \(\mu\) la media global, \(\tau_i\) el efecto del \(i\)-ésimo tratamiento, \(\varepsilon\) error aleatorio, y \(\gamma_j, \delta_k, \phi_l\) son los efectos de los factores de bloqueo.
Los factores o componentes del modelo estadístico son aditivos; la variable respuesta es la suma de los efectos del modelo.
La relación entre los factores o componentes del modelo estadístico es de tipo lineal.
Los valores resultado del experimento provienen de una distribución normal con media \(\mu\) y varianza finita \(\sigma^2\).
Los resultados observados en el experimento son independientes entre sí.
Las diversas poblaciones generadas por la aplicación de dos o más tratamientos tienen varianzas homogéneas (varianza común).
El diseño completamente al azar (DCA) es el más simple de todos los diseños, sólo considera dos fuentes de variabilidad: los tratamientos y el error aleatorio. Se llama completamente al azar porque todas las corridas experimentales se realizan en orden aleatorio completo; en apariencia no existe ninguna restricción a la aleatorización.
En un DCA se tienen \(k\) poblaciones o tratamientos, independientes, con medias desconocidas \(\mu_1, \mu_2, \ldots, \mu_k\), y varianzas también desconocidas pero que se suponen iguales \(\sigma_1^2 = \sigma_2^2 = \cdots = \sigma_k^2 = \sigma^2\). Las poblaciones pueden ser \(k\) métodos de producción, \(k\) tratamientos, \(k\) grupos, etc.
| \(T_1\) | \(T_2\) | \(T_3\) | \(\cdots\) | \(T_k\) |
|---|---|---|---|---|
| \(Y_{11}\) | \(Y_{21}\) | \(Y_{31}\) | \(\cdots\) | \(Y_{k1}\) |
| \(Y_{12}\) | \(Y_{22}\) | \(Y_{32}\) | \(\cdots\) | \(Y_{k2}\) |
| \(\vdots\) | \(\vdots\) | \(\vdots\) | \(\ddots\) | \(\vdots\) |
| \(Y_{1n_1}\) | \(Y_{2n_2}\) | \(Y_{3n_3}\) | \(\cdots\) | \(Y_{kn_k}\) |
En el caso de que los tratamientos tengan efecto, las observaciones \(Y_{ij}\) se pueden describir con el modelo lineal dado por:
\[Y_{ij} = \mu + \tau_i + \varepsilon_{ij}\]
donde:
Este tipo de modelo se llama Modelo de Efectos Fijos.
Sirve para representar de manera abreviada cantidades numéricas:
\[Y_{i\cdot} = \sum_{j=1}^{n_i} Y_{ij}, \quad \bar{Y}_{i\cdot} = \frac{Y_{i\cdot}}{n_i}, \quad Y_{\cdot\cdot} = \sum_{i=1}^{k} \sum_{j=1}^{n_i} Y_{ij}, \quad \bar{Y}_{\cdot\cdot} = \frac{Y_{\cdot\cdot}}{N}\]
donde \(N = \sum_{i=1}^{k} n_i\) es el número total de observaciones.
El objetivo es probar las hipótesis:
\[H_0: \tau_1 = \tau_2 = \cdots = \tau_k = 0 \quad \text{vs} \quad H_1: \tau_i \neq 0 \text{ para algún } i\]
Las sumas de cuadrados se calculan como:
\[SCT = \sum_{i=1}^{k} \sum_{j=1}^{n_i} (Y_{ij} - \bar{Y}_{\cdot\cdot})^2 = \sum_{i=1}^{k} \sum_{j=1}^{n_i} Y_{ij}^2 - \frac{Y_{\cdot\cdot}^2}{N}\]
\[SCTr = \sum_{i=1}^{k} n_i (\bar{Y}_{i\cdot} - \bar{Y}_{\cdot\cdot})^2 = \sum_{i=1}^{k} \frac{Y_{i\cdot}^2}{n_i} - \frac{Y_{\cdot\cdot}^2}{N}\]
\[SCE = SCT - SCTr\]
| Fuente de variación | SC | gl | CM | \(F_0\) | Valor-p |
|---|---|---|---|---|---|
| Entre tratamientos | SCTr | \(k-1\) | CMTr = SCTr/(k-1) | \(F_0 = \frac{CMTr}{CME}\) | \(P(F_{k-1,N-k} > F_0)\) |
| Dentro tratamientos (Error) | SCE | \(N-k\) | CME = SCE/(N-k) | ||
| Total | SCT | \(N-1\) |
Regla de decisión: Se rechaza \(H_0\) si \(F_0 > F_{\alpha, k-1, N-k}\) o si valor-p \(< \alpha\).
Un ingeniero industrial quiere comparar el rendimiento de tres máquinas que producen el mismo tipo de pieza. Se toman muestras de 5 piezas de cada máquina y se mide el tiempo de producción (en segundos). Los datos son:
| Máquina 1 | Máquina 2 | Máquina 3 |
|---|---|---|
| 12.5 | 11.2 | 10.8 |
| 13.0 | 10.5 | 11.0 |
| 11.8 | 12.0 | 9.5 |
| 12.2 | 10.8 | 10.2 |
| 11.5 | 11.5 | 11.5 |
📊 “El diseño experimental es el arte de la investigación planificada, donde la estadística proporciona el rigor y la creatividad proporciona el camino”
— Adaptado de George E. P. Box
Los valores esperados de los cuadrados medios son fundamentales para entender el comportamiento del estadístico \(F_0\) y la interpretación del ANOVA. A continuación se presenta la derivación matemática de \(E(CME)\) y \(E(CMTr)\).
Partimos de la definición de \(CME\):
\[CME = \frac{SCE}{N-k} = \frac{1}{N-k} \sum_{i=1}^{k} \sum_{j=1}^{n_i} (Y_{ij} - \bar{Y}_{i\cdot})^2\]
Desarrollando la expresión:
\[E(CME) = \frac{1}{N-k} E\left[\sum_{i=1}^{k} \sum_{j=1}^{n_i} (Y_{ij}^2 - 2Y_{ij}\bar{Y}_{i\cdot} + \bar{Y}_{i\cdot}^2)\right]\]
Simplificando:
\[E(CME) = \frac{1}{N-k} E\left[\sum_{i=1}^{k} \sum_{j=1}^{n_i} Y_{ij}^2 - \sum_{i=1}^{k} \frac{Y_{i\cdot}^2}{n_i}\right]\]
Sustituyendo \(Y_{ij} = \mu + \tau_i + \varepsilon_{ij}\), con \(E(\varepsilon_{ij}) = 0\):
\[E(CME) = \frac{1}{N-k} E\left[\sum_{i=1}^{k} \sum_{j=1}^{n_i} (\mu + \tau_i + \varepsilon_{ij})^2 - \sum_{i=1}^{k} \frac{1}{n_i} \left(\sum_{j=1}^{n_i} (\mu + \tau_i + \varepsilon_{ij})\right)^2\right]\]
Después de desarrollar y simplificar (aprovechando que \(E(\varepsilon_{ij}) = 0\), \(E(\varepsilon_{ij}^2) = \sigma^2\), y \(E(\varepsilon_{ij}\varepsilon_{i'j'}) = 0\) para observaciones independientes):
\[E(CME) = \frac{1}{N-k} \left(\sum_{i=1}^{k} \sum_{j=1}^{n_i} \sigma^2 - \sum_{i=1}^{k} \sigma^2\right) = \frac{1}{N-k} (N\sigma^2 - k\sigma^2) = \sigma^2\]
📌 Resultado clave:
\[E(CME) = \sigma^2\]
El cuadrado medio del error es un estimador insesgado de la varianza poblacional \(\sigma^2\).
Partimos de la definición de \(CMTr\):
\[CMTr = \frac{SCTr}{k-1} = \frac{1}{k-1} \left(\sum_{i=1}^{k} \frac{Y_{i\cdot}^2}{n_i} - \frac{Y_{\cdot\cdot}^2}{N}\right)\]
Tomando esperanza y sustituyendo el modelo \(Y_{ij} = \mu + \tau_i + \varepsilon_{ij}\):
\[E(CMTr) = \frac{1}{k-1} E\left[\sum_{i=1}^{k} \frac{1}{n_i} \left(\sum_{j=1}^{n_i} (\mu + \tau_i + \varepsilon_{ij})\right)^2 - \frac{Y_{\cdot\cdot}^2}{N}\right]\]
Desarrollando el cuadrado:
\[E(CMTr) = \frac{1}{k-1} E\left[\sum_{i=1}^{k} \left(n_i\mu^2 + n_i\tau_i^2 + \frac{1}{n_i}\left(\sum_{j=1}^{n_i}\varepsilon_{ij}\right)^2 + 2\mu n_i\tau_i + 2\mu\sum_{j=1}^{n_i}\varepsilon_{ij} + 2\tau_i\sum_{j=1}^{n_i}\varepsilon_{ij}\right) - \frac{Y_{\cdot\cdot}^2}{N}\right]\]
Aprovechando que \(E(\varepsilon_{ij}) = 0\), \(E(\varepsilon_{ij}^2) = \sigma^2\), y la condición de identificabilidad \(\sum_{i=1}^{k} n_i\tau_i = 0\):
\[E(CMTr) = \frac{1}{k-1} \left[\sum_{i=1}^{k} n_i\tau_i^2 + k\sigma^2 - \sigma^2\right] = \sigma^2 + \frac{\sum_{i=1}^{k} n_i\tau_i^2}{k-1}\]
📌 Resultado clave:
\[E(CMTr) = \sigma^2 + \frac{\sum_{i=1}^{k} n_i\tau_i^2}{k-1}\]
Bajo \(H_0\) (todos \(\tau_i = 0\)), \(E(CMTr) = \sigma^2\), por lo que \(F_0 = CMTr/CME\) sigue una distribución \(F_{k-1,N-k}\).
Un fabricante de calzado desea mejorar la calidad de las suelas, las cuales se pueden hacer con uno de los cuatro tipos de cuero A, B, C y D disponibles en el mercado. Para ello, prueba los cueros con una máquina que hace pasar los zapatos por una superficie abrasiva. Se prueban en orden aleatorio 24 zapatos, seis de cada tipo de cuero. Los datos (en mg) sobre el desgaste de cada tipo de cuero se muestran en la tabla siguiente:
| Tipo de cuero | Desgaste (mg) | Promedio | |||||
|---|---|---|---|---|---|---|---|
| A | 264 | 260 | 258 | 241 | 262 | 255 | 256.7 |
| B | 208 | 220 | 216 | 200 | 213 | 206 | 210.5 |
| C | 220 | 263 | 219 | 225 | 230 | 228 | 230.8 |
| D | 217 | 226 | 215 | 224 | 220 | 222 | 220.7 |
Pregunta: ¿Existen diferencias en el desgaste promedio de los diferentes tipos de cuero?
Paso 1: Hipótesis
\[H_0: \mu_A = \mu_B = \mu_C = \mu_D\]
\[H_1: \mu_i \neq \mu_j \text{ para algún } i \neq j\]
Paso 2: Cálculos
\(N = 24\), \(k = 4\), \(n_i = 6\) para cada tratamiento.
\(\bar{Y}_{\cdot\cdot} = (256.7 + 210.5 + 230.8 + 220.7)/4 = 229.675\)
Paso 3: Tabla ANOVA
| Fuente | SC | gl | CM | \(F_0\) | Valor-p |
|---|---|---|---|---|---|
| Tipo de cuero | 7072.33 | 3 | 2357.44 | 23.24 | 0.0000 |
| Error | 2029.00 | 20 | 101.45 | ||
| Total | 9101.33 | 23 |
Paso 4: Decisión
Como valor-p = 0.0000 < 0.05, se rechaza \(H_0\).
Conclusión: Existen diferencias significativas en el desgaste promedio entre los diferentes tipos de cuero.
Cuando se rechaza \(H_0: \mu_1 = \mu_2 = \cdots = \mu_k\) y se acepta que al menos un par de medias es diferente, es necesario investigar cuáles tratamientos resultaron diferentes. La respuesta consiste en probar las hipótesis:
\[H_0: \mu_i = \mu_j \quad \text{vs} \quad H_1: \mu_i \neq \mu_j \quad \text{para toda } i \neq j\]
usando métodos de comparaciones de rangos múltiples. Los más utilizados son:
Para \(k\) tratamientos se tienen en total \(k(k-1)/2\) pares de medias. Se rechaza \(H_0: \mu_i = \mu_j\) si:
\[|\bar{Y}_{i\cdot} - \bar{Y}_{j\cdot}| > LSD\]
donde:
\[LSD = t_{\alpha/2, N-k} \cdot \sqrt{CME \left(\frac{1}{n_i} + \frac{1}{n_j}\right)}\]
Si el diseño es balanceado (\(n_i = n_j = n\)):
\[LSD = t_{\alpha/2, N-k} \cdot \sqrt{\frac{2 \cdot CME}{n}}\]
📌 Condiciones de uso:
Este procedimiento utiliza la distribución de rango estudentizado \(Q_{\alpha; m, n}\), donde \(m\) son los grados de libertad del numerador y \(n\) los del denominador. Se rechaza \(H_0: \mu_i = \mu_j\) si:
\[|\bar{Y}_{i\cdot} - \bar{Y}_{j\cdot}| > Tukey\]
donde:
\[Tukey = Q_{\alpha, k, N-k} \cdot \sqrt{\frac{CME}{2} \left(\frac{1}{n_i} + \frac{1}{n_j}\right)}\]
Para diseño balanceado (\(n_i = n_j = n\)):
\[Tukey = Q_{\alpha, k, N-k} \cdot \sqrt{\frac{CME}{n}}\]
📌 Características:
Si las \(k\) muestras son de igual tamaño, se acomodan los promedios en orden ascendente. Se rechaza \(H_0: \mu_i = \mu_j\) si:
\[|\bar{Y}_{i\cdot} - \bar{Y}_{j\cdot}| > DUNCAN\]
donde:
\[DUNCAN = r_{\alpha}(p, l) \cdot \sqrt{\frac{CME}{n}}\]
con \(p = 2, 3, \ldots, k\) y \(l = N-k\) grados de libertad del error. Si las muestras tienen tamaños diferentes, se usa la media armónica:
\[n_{AR} = \frac{k}{\sum_{i=1}^{k} \frac{1}{n_i}}\]
📌 Nota:
Aunque no es necesario que la prueba \(F\) sea significativa previamente, es recomendable realizarla para evitar contradicciones.
En ocasiones uno de los \(k\) tratamientos es el llamado tratamiento control. Denotemos como tratamiento control al \(k\)-ésimo tratamiento. Comparar respecto al control implica probar las \(k-1\) hipótesis:
\[H_0: \mu_i = \mu_k \quad \text{vs} \quad H_1: \mu_i \neq \mu_k, \quad i = 1, 2, \ldots, k-1\]
Se rechaza \(H_0\) si:
\[|\bar{Y}_{i\cdot} - \bar{Y}_{k\cdot}| > DUNNETT\]
donde:
\[DUNNETT = D_{\alpha}(k-1, l) \cdot \sqrt{CME \left(\frac{1}{n_i} + \frac{1}{n_k}\right)}\]
y \(l = N-k\) grados de libertad del error.
Con referencia al ejemplo de los cueros, el test LSD sugiere:
| Método | \(n_i\) | LS Mean | Grupos | |||
|---|---|---|---|---|---|---|
| CUERO B | 6 | 210.500 | X | |||
| CUERO D | 6 | 220.667 | X | X | ||
| CUERO C | 6 | 230.833 | X | |||
| CUERO A | 6 | 256.667 | X | |||
Conclusiones:
En la práctica no siempre interesa probar sólo las \(k(k-1)/2\) hipótesis dos a dos. En ocasiones el objetivo del estudio lleva a contrastar hipótesis que involucran a más de dos medias.
Una expresión de la forma \(C = \sum_{i=1}^{k} c_i \mu_i\) es una combinación lineal de las medias poblacionales, donde \(c_i\) son números reales. La combinación lineal \(C\) se llama contraste si:
\[\sum_{i=1}^{k} c_i = 0\]
El contraste estimado es \(\hat{C} = \sum_{i=1}^{k} c_i \bar{Y}_{i\cdot}\) y su varianza estimada es:
\[V(\hat{C}) = CME \sum_{i=1}^{k} \frac{c_i^2}{n_i}\]
Dos contrastes \(C_1 = \sum c_{1i} \mu_i\) y \(C_2 = \sum c_{2i} \mu_i\) son ortogonales si:
\[\sum_{i=1}^{k} c_{1i} c_{2i} = 0 \quad \text{(diseño balanceado)}\]
\[\sum_{i=1}^{k} n_i c_{1i} c_{2i} = 0 \quad \text{(diseño desbalanceado)}\]
📌 Ejemplo de contrastes ortogonales (k=4):
| \(c_1\) | \(c_2\) | \(c_3\) | \(c_4\) | Contraste |
|---|---|---|---|---|
| 2 | -1 | -1 | 0 | \(2\mu_A - \mu_B - \mu_C\) |
| 0 | 1 | -1 | 0 | \(\mu_B - \mu_C\) |
| 1 | 1 | 1 | -3 | \(\mu_A + \mu_B + \mu_C - 3\mu_D\) |
Este método está diseñado para probar todos los contrastes que pudieran interesar al experimentador, controlando la tasa de error Tipo I. Un intervalo de confianza al \(100(1-\alpha)\%\) para cualquier contraste \(C\) es:
\[\hat{C} \pm \sqrt{(k-1) V(\hat{C}) F_{\alpha, k-1, N-k}}\]
Si el intervalo no contiene al cero, se concluye que el contraste es significativamente diferente de cero.
📌 Ejemplo de contraste (cueros):
Probar si \(2\mu_A = \mu_B + \mu_C\), es decir, \(H_0: 2\mu_A - \mu_B - \mu_C = 0\).
\(\hat{C} = 2\bar{Y}_A - \bar{Y}_B - \bar{Y}_C = 2(256.667) - 210.5 - 230.833 = 513.334 - 441.333 = 72.001\)
\(V(\hat{C}) = CME \sum \frac{c_i^2}{n_i} = 101.45 \times \left(\frac{4}{6} + \frac{1}{6} + \frac{1}{6} + 0\right) = 101.45 \times 1 = 101.45\)
\(F_{0.05,3,20} = 3.10\), entonces \(\sqrt{(k-1)V(\hat{C})F} = \sqrt{3 \times 101.45 \times 3.10} = \sqrt{943.485} = 30.72\)
IC: \(72.001 \pm 30.72 = (41.28, 102.72)\), que no contiene al cero → se rechaza \(H_0\).
📊 “El análisis de varianza no es una técnica estadística, es una forma de pensar”
— Adaptado de Sir Ronald A. Fisher
La validez de los resultados obtenidos en cualquier ANOVA queda supeditada a que los supuestos del modelo se cumplan, los cuales son: normalidad, varianza constante (igual varianza de los tratamientos) e independencia para la variable respuesta \(Y\), los cuales se traducen en supuestos sobre el término error \(\varepsilon\) en los diferentes modelos.
En la práctica, lo que se hace es tomar la muestra de residuos para comprobar los supuestos del modelo, ya que ésta se puede ver como una muestra aleatoria de una distribución normal con media cero y varianza constante \(\sigma^2\). Los residuos \(e_{ij} = Y_{ij} - \hat{Y}_{ij}\) se definen como la diferencia entre la respuesta observada (\(Y_{ij}\)) y la respuesta predicha por el modelo (\(\hat{Y}_{ij}\)), lo que permite hacer un diagnóstico más directo de la calidad del modelo.
Consideremos el modelo en el DCA:
\[Y_{ij} = \mu + \tau_i + \varepsilon_{ij}\]
Cuando se realiza el ANOVA y sólo si éste resulta significativo, se procede a estimar el modelo ajustado o modelo de trabajo dado por:
\[\hat{Y}_{ij} = \hat{\mu} + \hat{\tau}_i\]
Como \(\hat{\mu} = \bar{Y}_{\cdot\cdot}\) y \(\hat{\tau}_i = \bar{Y}_{i\cdot} - \bar{Y}_{\cdot\cdot}\), el modelo ajustado del DCA se puede escribir como:
\[\hat{Y}_{ij} = \bar{Y}_{i\cdot}\]
El residual o residuo asociado a la observación \(Y_{ij}\) se define como:
\[e_{ij} = Y_{ij} - \hat{Y}_{ij} = Y_{ij} - \bar{Y}_{i\cdot}\]
📌 Nota importante: En el DCA, los residuos se obtienen restando a cada valor observado la media muestral del tratamiento a que pertenece. Los \(N\) residuos \(e_{ij}\) representan una muestra aleatoria de la variable \(\varepsilon_{ij}\).
Para comprobar cada supuesto existen pruebas analíticas y gráficas. Las pruebas gráficas se pueden aplicar razonablemente con pocos datos, cosa que no sucede con las pruebas analíticas. El inconveniente que tienen las gráficas es que no son “exactas”; aun así, proporcionan la evidencia suficiente en contra o a favor de los supuestos.
Un procedimiento para verificar el cumplimiento del supuesto de normalidad de los residuos consiste en graficar los residuos en papel o gráfica de probabilidad normal (Q-Q plot). Esta gráfica tiene las escalas de tal manera que si los residuos siguen una distribución normal, al graficarlos deben tender a estar alineados en una línea recta; si claramente no se alinean, se concluye que el supuesto de normalidad no se cumple.
💡 Nota: El ajuste de los puntos a una recta no tiene que ser perfecto, dado que el análisis de varianza resiste pequeñas y moderadas desviaciones al supuesto de normalidad.
El histograma de los residuos permite visualizar la forma de la distribución. Si los residuos son aproximadamente normales, el histograma debe tener forma de campana aproximadamente simétrica alrededor de cero.
Se puede verificar el supuesto de que los tratamientos tienen la misma varianza graficando los valores ajustados \(\hat{Y}_{ij}\) contra los residuos \(e_{ij}\). Si los puntos en la gráfica se distribuyen aleatoriamente en una banda horizontal (sin ningún patrón claro), entonces es señal de que se cumple el supuesto de varianza constante.
Al graficar los niveles del factor contra los residuos, si se cumple el supuesto de varianza constante, se espera que la amplitud de la dispersión de los puntos en cada nivel de factor sea similar.
📌 Nota: Cuando hay evidencia contundente de que no se cumple el supuesto de varianza constante, una alternativa es transformar los datos (logaritmo, raíz cuadrada) y repetir el análisis.
La suposición de independencia en los residuos puede verificarse graficando el orden en que se colectó un dato contra el residuo correspondiente. Si se detecta una tendencia o patrón no aleatorio claramente definido, entonces es evidencia de que existe una correlación entre los errores y el supuesto de independencia no se cumple. Si el comportamiento de los puntos es aleatorio dentro de una banda horizontal, el supuesto se está cumpliendo.
⚠️ Advertencia: La violación de este supuesto generalmente indica deficiencias en la planeación y ejecución del experimento, como la falta de aleatorización adecuada.
Consideremos una muestra aleatoria de datos \(X_1, X_2, \ldots, X_n\) que proceden de cierta distribución desconocida. Se quiere verificar si dichos datos fueron generados por un proceso normal mediante las hipótesis:
\[H_0: \text{Los datos proceden de una distribución normal}\]
\[H_1: \text{Los datos no proceden de una distribución normal}\]
El estadístico de prueba \(W\) se calcula como:
\[W = \frac{1}{(n-1)S^2} \left[ \sum_{i=1}^{k} a_i (X_{(n-i+1)} - X_{(i)}) \right]^2\]
donde \(X_{(i)}\) son los datos ordenados, \(a_i\) son coeficientes tabulados y \(S^2\) es la varianza muestral. Se rechaza \(H_0\) si \(W\) es menor que el valor crítico.
Cuando se tienen \(k\) poblaciones o tratamientos independientes, cada una con distribución normal \(N(\mu_i, \sigma_i^2)\), se quiere probar la hipótesis de igualdad de varianzas:
\[H_0: \sigma_1^2 = \sigma_2^2 = \cdots = \sigma_k^2 = \sigma^2\]
\[H_1: \sigma_i^2 \neq \sigma_j^2 \text{ para algún } i \neq j\]
El estadístico de prueba está dado por:
\[\chi_0^2 = 2.3026 \cdot \frac{q}{c}\]
\[q = (N-k)\log_{10} S_p^2 - \sum_{i=1}^{k} (n_i-1)\log_{10} S_i^2\]
\[c = 1 + \frac{1}{3(k-1)} \left( \sum_{i=1}^{k} (n_i-1)^{-1} - (N-k)^{-1} \right)\]
\[S_p^2 = \frac{1}{N-k} \sum_{i=1}^{k} (n_i-1) S_i^2\]
Bajo \(H_0\), \(\chi_0^2\) sigue una distribución \(\chi^2\) con \(k-1\) grados de libertad. Se rechaza \(H_0\) si \(\chi_0^2 > \chi_{\alpha, k-1}^2\).
📌 Nota: La prueba de Bartlett es sensible a la falta de normalidad de las poblaciones, por lo que debe comprobarse primero el cumplimiento de este supuesto.
La prueba de Levene es una alternativa robusta a la prueba de Bartlett, menos sensible a desviaciones de la normalidad. Se basa en el análisis de varianza de los valores absolutos de las desviaciones de las observaciones respecto a sus medianas o medias.
Problema: Un ingeniero de desarrollo de productos tiene interés en investigar la resistencia a la tensión de una fibra sintética nueva que se usará para hacer tela de camisas. El ingeniero sabe por experiencia que la resistencia se afecta por el peso porcentual del algodón utilizado en la mezcla (entre 10% y 40%). Decide probar ejemplares en cinco niveles: 15%, 20%, 25%, 30% y 35%, con cinco réplicas en cada nivel.
Variable de interés: \(Y\) = Resistencia a la tensión de la fibra (lb/pulg²)
Factor: Porcentaje de algodón (5 niveles)
Replicas: \(n=5\) por nivel
| Peso % | Resistencia (lb/pulg²) | \(\bar{Y}_{i\cdot}\) | \(S_i\) | ||||
|---|---|---|---|---|---|---|---|
| 15% | 7 | 7 | 15 | 11 | 9 | 9.8 | 3.27 |
| 20% | 12 | 17 | 12 | 18 | 18 | 15.4 | 2.88 |
| 25% | 14 | 18 | 18 | 19 | 19 | 17.6 | 2.07 |
| 30% | 19 | 25 | 22 | 19 | 23 | 21.6 | 2.61 |
| 35% | 7 | 10 | 11 | 15 | 11 | 10.8 | 2.86 |
| Total | \(\bar{Y}_{\cdot\cdot}=15.04\) | ||||||
| Fuente | SC | gl | CM | \(F_0\) | Valor-p |
|---|---|---|---|---|---|
| Tratamientos | 475.76 | 4 | 118.94 | 14.76 | 0.0000 |
| Error | 161.20 | 20 | 8.06 | ||
| Total | 636.96 | 24 |
Conclusión: Como valor-p = 0.0000 < 0.05, se rechaza \(H_0\). Los contenidos de porcentaje de algodón afectan muy significativamente la media de la resistencia con un 95% de confianza.
1. Normalidad:
La gráfica Q-Q muestra los puntos aproximadamente alineados sobre la línea recta, y el histograma presenta una forma aproximadamente acampanada. La prueba de Shapiro-Wilk arroja un valor-p > 0.05, lo que indica que no hay evidencia para rechazar la normalidad de los residuos.
2. Varianza constante (Homocedasticidad):
La gráfica de residuos vs valores ajustados muestra una dispersión aleatoria sin patrones claros (banda horizontal). Los boxplots de residuos por tratamiento muestran amplitudes similares. Las pruebas de Bartlett y Levene arrojan valores-p > 0.05, confirmando que las varianzas son homogéneas.
3. Independencia:
La gráfica de residuos en secuencia temporal muestra un comportamiento aleatorio sin tendencias claras. La prueba de Durbin-Watson arroja un estadístico cercano a 2, indicando que no hay autocorrelación significativa entre los residuos.
Conclusión general: Los tres supuestos del modelo (normalidad, homocedasticidad e independencia) se cumplen satisfactoriamente, validando así los resultados del ANOVA y las conclusiones sobre el efecto del porcentaje de algodón en la resistencia a la tensión.
📊 “La validación de supuestos no es un simple requisito técnico, sino una garantía de que nuestras conclusiones son confiables”
— Adaptado de George E. P. Box
Aquí tienes el material completo sobre Prueba de Shapiro-Wilk y Modelo de Efectos Aleatorios en el DCA, diseñado en el mismo formato visual y pedagógico de tus secciones anteriores, con códigos en R y Python para cada ejemplo y aplicación.
La prueba de Shapiro-Wilk es una de las pruebas más potentes para evaluar la normalidad de un conjunto de datos. Se utiliza ampliamente en el diagnóstico de modelos ANOVA y regresión.
Las hipótesis a contrastar son:
\[H_0: \text{Los datos proceden de una distribución normal}\]
\[H_1: \text{Los datos no proceden de una distribución normal}\]
\[W = \frac{1}{(n-1)S^2} \left[ \sum_{i=1}^{k} a_i (X_{(n-i+1)} - X_{(i)}) \right]^2\]
donde \(k\) es aproximadamente \(n/2\) (para \(n\) par, \(k = n/2\); para \(n\) impar, \(k = (n-1)/2\)).
Una expresión alternativa equivalente es:
\[W = \frac{\left[ \sum_{i=1}^{k} a_i (X_{(n-i+1)} - X_{(i)}) \right]^2}{\sum_{i=1}^{n} (X_i - \bar{X})^2}\]
Los residuos del ejemplo de resistencia a la tensión (ordenados) son:
X₍₁₎ = -3.8, X₍₂₎ = -3.6, X₍₃₎ = -3.4, X₍₄₎ = -3.4, X₍₅₎ = -2.8,
X₍₆₎ = -2.8, X₍₇₎ = -2.6, X₍₈₎ = -2.6, X₍₉₎ = -0.8, X₍₁₀₎ = -0.8,
X₍₁₁₎ = 0.2, X₍₁₂₎ = 0.2, X₍₁₃₎ = 0.4, X₍₁₄₎ = 0.4, X₍₁₅₎ = 0.4,
X₍₁₆₎ = 1.2, X₍₁₇₎ = 1.4, X₍₁₈₎ = 1.4, X₍₁₉₎ = 1.4, X₍₂₀₎ = 1.6,
X₍₂₁₎ = 2.6, X₍₂₂₎ = 2.6, X₍₂₃₎ = 3.4, X₍₂₄₎ = 4.2, X₍₂₅₎ = 5.2
| \(i\) | \(a_{i,25}\) | \(X_{(25-i+1)} - X_{(i)}\) | \(a_i \times (X_{(25-i+1)} - X_{(i)})\) |
|---|---|---|---|
| 1 | 0.4450 | 9.0 | 4.0050 |
| 2 | 0.3069 | 7.8 | 2.3938 |
| 3 | 0.2543 | 6.8 | 1.7292 |
| 4 | 0.2148 | 6.0 | 1.2888 |
| 5 | 0.1822 | 5.4 | 0.9839 |
| 6 | 0.1539 | 4.4 | 0.6772 |
| 7 | 0.1283 | 4.0 | 0.5132 |
| 8 | 0.1046 | 4.0 | 0.4184 |
| 9 | 0.0823 | 2.2 | 0.1811 |
| 10 | 0.0610 | 2.0 | 0.1220 |
| 11 | 0.0403 | 0.2 | 0.0081 |
| 12 | 0.0200 | 0.2 | 0.0040 |
| 13 | 0.0000 | 0.0 | 0.0000 |
| Total | 12.3246 | ||
Varianza muestral: \(S^2 = 6.71667\) (calculada a partir de los residuos)
Suma de cuadrados total: \(\sum_{i=1}^{25} (X_i - \bar{X})^2 = 161.2\)
\[W = \frac{1}{(n-1)S^2} \left[ \sum_{i=1}^{13} a_i (X_{(25-i+1)} - X_{(i)}) \right]^2 = \frac{1}{24 \times 6.71667} \times (12.3246)^2 = 0.9422\]
\[W = \frac{\left[ \sum_{i=1}^{13} a_i (X_{(25-i+1)} - X_{(i)}) \right]^2}{\sum_{i=1}^{25} (X_i - \bar{X})^2} = \frac{(12.3246)^2}{161.2} = 0.9422\]
Valor crítico de Shapiro-Wilk para \(n=25\) y \(\alpha=0.05\): \(W_{0.95;25} = 0.918\)
Como \(W = 0.9422 > 0.918\), no se rechaza \(H_0\).
Conclusión: Los residuos siguen una distribución normal.
💻 Salida de Statgraphics: Estadístico W de Shapiro-Wilk = 0.942656, P-valor = 0.179142
Los modelos lineales estudiados hasta ahora corresponden a Modelos de Efectos Fijos, donde los niveles del factor en estudio eran los únicos de interés para el investigador. Frecuentemente, al investigador le interesa un factor que tiene un gran número de posibles niveles. Se dice que este factor es aleatorio si los niveles que se estudian son seleccionados aleatoriamente de la población.
En un Modelo de Efectos Aleatorios, una repetición del experimento producirá un nuevo conjunto de tratamientos de la misma población y, por lo tanto, el interés del investigador estará en la variabilidad de los tratamientos.
Supongamos que tenemos un factor \(A\) con \(k\) niveles, con \(n\) repeticiones por tratamiento. El modelo de efectos aleatorios es:
\[Y_{ij} = \mu + A_i + \varepsilon_{ij}, \quad i = 1,\ldots,k; \quad j = 1,\ldots,n\]
donde:
La varianza de \(Y\) es la suma de dos varianzas:
\[V(Y) = \sigma_A^2 + \sigma^2\]
Las varianzas \(\sigma_A^2\) y \(\sigma^2\) se conocen como componentes de varianza.
Como los tratamientos son una muestra aleatoria de una población de tratamientos, las hipótesis se formulan en términos de la varianza \(\sigma_A^2\):
\[H_0: \sigma_A^2 = 0 \quad \text{vs} \quad H_1: \sigma_A^2 > 0\]
Si \(\sigma_A^2 = 0\), entonces todos los efectos de los grupos son iguales (no hay variabilidad entre tratamientos). Si \(\sigma_A^2 > 0\), existe variabilidad entre los efectos de los grupos.
Para probar estas hipótesis se utiliza el mismo estadístico \(F_0 = CMTr/CME\), pero con diferentes valores esperados:
\[E(CMTr) = n\sigma_A^2 + \sigma^2\]
\[E(CME) = \sigma^2\]
Si \(H_0\) es verdadera (\(\sigma_A^2 = 0\)), \(CMTr\) y \(CME\) son estimadores insesgados de \(\sigma^2\). Si \(H_1\) es verdadera, el valor esperado del numerador es mayor que el del denominador. Por lo tanto, se rechaza \(H_0\) para valores grandes del estadístico \(F_0\).
| Fuente | SC | gl | CM | \(F_0\) | Valor-p |
|---|---|---|---|---|---|
| Entre tratamientos | \(SCTr\) | \(k-1\) | \(CMTr\) | \(F_0 = CMTr/CME\) | \(P(F_{k-1,N-k} > F_0)\) |
| Dentro tratamientos | \(SCE\) | \(N-k\) | \(CME\) | ||
| Total | \(SCT\) | \(N-1\) |
📌 Estimación de componentes de varianza:
\[\hat{\sigma}^2 = CME\]
\[\hat{\sigma}_A^2 = \frac{CMTr - CME}{n}\]
Para tamaños de muestra desiguales, \(n\) se reemplaza por \(n_0 = \frac{1}{k-1}\left(\sum n_i - \frac{\sum n_i^2}{\sum n_i}\right)\).
Una preocupación creciente en cierta entidad financiera es la duración de los préstamos hipotecarios que sus empleados conceden a sus clientes. Se eligen cinco empleados al azar y se recoge el número de meses de los préstamos hipotecarios concedidos recientemente. Los datos son:
| Empleado 1 | Empleado 2 | Empleado 3 | Empleado 4 | Empleado 5 |
|---|---|---|---|---|
| 180 | 240 | 240 | 300 | 300 |
| 240 | 360 | 270 | 240 | 360 |
| 300 | 180 | 300 | 300 | 240 |
| 360 | 180 | 360 | 360 | 360 |
| 240 | 300 | 360 | 360 | 360 |
| 180 | 240 | 300 | 360 | 360 |
| 144 | 360 | 360 | 360 | 360 |
| 300 | 360 | 360 | 360 | 300 |
| 240 | 360 | 300 | 300 | 360 |
Variable respuesta: \(Y_{ij}\) = Duración (en meses) del préstamo hipotecario.
Factor: Empleado (efecto aleatorio). Los cinco empleados son una muestra representativa de todos los empleados de la entidad.
Modelo: \(Y_{ij} = \mu + A_i + \varepsilon_{ij}\), donde \(A_i \sim N(0, \sigma_A^2)\) y \(\varepsilon_{ij} \sim N(0, \sigma^2)\).
La pregunta a responder es: ¿Conceden los empleados préstamos hipotecarios de la misma duración?
\[H_0: \sigma_A^2 = 0 \quad \text{vs} \quad H_1: \sigma_A^2 > 0\]
La tabla ANOVA para este diseño es:
| Fuente | SC | gl | CM | \(F_0\) | Valor-p |
|---|---|---|---|---|---|
| Entre empleados | 50019.2 | 4 | 12504.8 | 3.75 | 0.011 |
| Error | 133552.0 | 40 | 3338.8 | ||
| Total | 183571.2 | 44 |
Conclusión: Con un nivel de confianza del 95%, se rechaza \(H_0\) (valor-p = 0.011 < 0.05). Existe evidencia suficiente para afirmar que los empleados no conceden préstamos hipotecarios de la misma duración.
\[\hat{\sigma}^2 = CME = 3338.8\]
\[\hat{\sigma}_A^2 = \frac{CMTr - CME}{n} = \frac{12504.8 - 3338.8}{9} = 1018.44\]
El porcentaje de variabilidad explicado por los empleados es:
\[\frac{\hat{\sigma}_A^2}{\hat{\sigma}_A^2 + \hat{\sigma}^2} = \frac{1018.44}{1018.44 + 3338.8} = 0.234 = 23.4\%\]
Para el porcentaje de variabilidad \(\theta = \frac{\sigma_A^2}{\sigma_A^2 + \sigma^2}\), el intervalo de confianza del \(95\%\) es:
\[\left( \frac{L_1}{1+L_1}, \frac{L_2}{1+L_2} \right)\]
donde:
\[L_1 = \frac{1}{n}\left( \frac{CMTr}{CME} \cdot \frac{1}{F_{k-1,N-k;\alpha/2}} - 1 \right) = 0.0218\]
\[L_2 = \frac{1}{n}\left( \frac{CMTr}{CME} \cdot \frac{1}{F_{k-1,N-k;1-\alpha/2}} - 1 \right) = 3.3883\]
El intervalo de confianza del \(95\%\) para \(\theta\) es:
\[\left( \frac{0.0218}{1+0.0218}, \frac{3.3883}{1+3.3883} \right) = (0.0213, 0.7721)\]
Interpretación: Con un 95% de confianza, entre el 2.13% y el 77.21% de la variabilidad total en la duración de los préstamos es atribuible a diferencias entre empleados.
📊 “En los modelos de efectos aleatorios, el objetivo no es comparar tratamientos específicos, sino estimar y comprender la variabilidad inherente a la población de tratamientos”
— Adaptado de Douglas C. Montgomery
Las siguientes obras constituyen los textos fundamentales que han servido como base para la elaboración de estas notas de clase. Se recomienda encarecidamente su consulta para profundizar en los temas tratados y para complementar los ejemplos y ejercicios presentados.
Diseño y Análisis de Experimentos
Segunda Edición.
Editorial Limusa Wiley.
Texto clásico y referencia internacional
en el campo del diseño experimental. Cubre desde conceptos básicos hasta
diseños avanzados como factoriales fraccionados, superficies de
respuesta y diseños robustos.
Análisis y Diseño de Experimentos
Segunda Edición.
McGraw-Hill Interamericana.
Excelente texto en español con
numerosos ejemplos aplicados a la industria y los negocios. Enfoque
práctico y accesible para estudiantes de ingeniería y ciencias
administrativas.
Diseño de Experimentos
Segunda Edición. Thomson
Learning.
Aborda de manera exhaustiva los principios del diseño
experimental con énfasis en aplicaciones en agricultura, biología e
industrias químicas. Incluye numerosos ejemplos con datos reales.
Diseño de Experimentos
Pearson Prentice Hall.
Texto con enfoque pedagógico que combina teoría y práctica. Incluye
ejercicios resueltos y propuestos, así como aplicaciones en diversos
campos de la ingeniería.
Probabilidad y Estadística para Ingeniería y
Ciencias
Sexta Edición. International Thomson Editores.
Texto ampliamente utilizado en cursos introductorios. Presenta los
conceptos fundamentales de probabilidad y estadística con aplicaciones
reales en ingeniería y ciencias.
Probabilidad y Estadística
Cuarta Edición.
McGraw-Hill.
Clásico en la enseñanza de la estadística. Cubre
desde conceptos básicos hasta temas avanzados como regresión y análisis
de varianza, con numerosos ejemplos y ejercicios.
Mathematical Statistics with Applications
Séptima
Edición. Thomson/Brooks-Cole.
Texto fundamental en inglés para
el estudio de la estadística matemática. Aborda con rigor los
fundamentos teóricos de la inferencia estadística, incluyendo
estimación, pruebas de hipótesis y modelos lineales.
| Tema | Montgomery | Gutiérrez & de la Vara | Kuehl | Devore | Walpole |
|---|---|---|---|---|---|
| Estadística Inferencial | Cap. 3 | Cap. 2 | Cap. 2 | Cap. 6-7 | Cap. 7-8 |
| Distribuciones Muestrales | Cap. 3 | Cap. 2 | Cap. 2 | Cap. 5 | Cap. 7 |
| Estimación Puntual | Cap. 3 | Cap. 2 | Cap. 2 | Cap. 6 | Cap. 8 |
| Intervalos de Confianza | Cap. 3 | Cap. 2 | Cap. 2 | Cap. 7 | Cap. 8 |
| Prueba de Hipótesis | Cap. 3 | Cap. 2 | Cap. 3 | Cap. 8-9 | Cap. 9-10 |
| Diseños de Experimentos | Cap. 1-14 | Cap. 3-12 | Cap. 4-14 | Cap. 10-11 | Cap. 13-15 |
| ANOVA | Cap. 4 | Cap. 3-5 | Cap. 4-5 | Cap. 10 | Cap. 13 |
| Diseños Factoriales | Cap. 5-7 | Cap. 6-8 | Cap. 6-8 | Cap. 11 | Cap. 14 |
Nota: Las referencias a capítulos son aproximadas y pueden variar según la edición de cada texto. Se recomienda consultar el índice detallado de cada obra para una ubicación precisa de los temas.
Autor(es). (Año). Título de la obra (Edición). Editorial.
Ejemplo:
Montgomery, D. C. (2004). Diseño y
Análisis de Experimentos (2ª ed.). Limusa Wiley.
AUTOR, Nombre. Título. Edición. Lugar de publicación: Editorial, año.
Ejemplo:
GUTIÉRREZ, Humberto y DE LA VARA, Román.
Análisis y Diseño de Experimentos. 2ª ed. México: McGraw-Hill,
2008.
Maestría en Ingenierías y Especialización en Estadística Aplicada. (2026). Diseño de Experimentos - Notas de Clase. Universidad Tecnológica de Bolívar.
📚 “El diseño experimental es el arte de la investigación planificada, donde la estadística proporciona el rigor y la creatividad proporciona el camino”
— Adaptado de George E. P. Box