Con Mi Profe: Julio Hurtado Marquez; EMAIL_TAREAS:

1 📌 DISEÑO DE EXPERIMENTOS

🔍 INTRODUCCIÓN AL DISEÑO EXPERIMENTAL

El diseño experimental (DE) tiene inicio teórico a partir de 1935 por Sir Ronald A. Fisher (1890-1962), desarrollados en la Estación Agrícola Experimental de Rothamsted, en el Reino Unido, donde introdujo el concepto de aleatorización y el análisis de varianza. A lo largo de varias décadas, la teoría del diseño de experimentos y sus aplicaciones se consolidaron y expandieron, y en años recientes, recibieron un fuerte impulso por las contribuciones de Genichi Taguchi, un estadístico japonés ampliamente conocido en Occidente.

Ronald Fisher

Sir Ronald A. Fisher
(1890-1962)

Padre del diseño experimental

Genichi Taguchi

Genichi Taguchi
(1924-2012)

Diseño de parámetros y robustez

La experimentación es una técnica utilizada para conocer el comportamiento de una variable a partir de diferentes combinaciones de factores o variables de entrada de un proceso, que al cambiar afectan la respuesta. En este sentido, se puede afirmar que el diseño experimental estudia procesos, donde un proceso puede considerarse como una “caja negra” a la cual ingresan diversas variables que interactúan para producir un resultado.

Las variables que ingresan al proceso se denominan variables de entrada (factores o variables independientes) y el resultado: variable de salida (respuesta o variable dependiente). La búsqueda de combinaciones óptimas de las variables de entrada da lugar al diseño experimental.

🏭 Aplicaciones en la industria

  • Buscar el mejoramiento del rendimiento de un proceso.
  • Reducir la variabilidad y permitir un mayor acercamiento a los parámetros de la empresa.
  • Reducir tiempos de procesamiento y reducir costos.

2 📌 CONCEPTOS FUNDAMENTALES DEL DISEÑO EXPERIMENTAL

🔍 CONCEPTOS BÁSICOS DEL DISEÑO EXPERIMENTAL

Cualquier problema experimental incluye: diseño del experimento y análisis de los datos.

Diseñar un experimento se refiere al proceso de planear y ejecutar el experimento que se desea para optimizar una característica de calidad de interés. Se refiere a la adquisición apropiada de los datos que al ser analizados de manera estadística proporcione la información deseada con una alta confianza y rigurosidad.

📊 ¿Qué es un experimento?

Prueba o series de pruebas en las que se hacen cambios deliberados en las variables de entrada de un proceso para observar e identificar las razones de los cambios en la respuesta de salida.

🎯 Unidad experimental

Unidad a la cual se le aplica un sólo tratamiento (combinación de factores) en una reproducción del experimento.

⚠️ Error experimental

Describe la situación de no llegar a resultados idénticos con dos unidades experimentales tratadas de igual forma.

🧪 Tratamiento

Conjunto particular de condiciones experimentales que deben imponerse a una unidad experimental.


2.1 📌 Preguntas clave antes de diseñar un experimento

  1. ¿Cuáles son los factores controlables que se estudiarán en esta investigación? Pueden incluirse factores de ruido o incontrolables.
  2. ¿Cuántos niveles involucran los factores que afectan la característica de calidad que se va a mejorar?
  3. ¿Cómo se va a medir el efecto de los factores estudiados?
  4. ¿Cuántas veces deberá ejecutarse el experimento?
  5. ¿Cuál será la forma de análisis o tipo de diseño experimental?
  6. ¿A partir de qué valores se considera importante el efecto de un factor?

3 📌 OBJETIVOS Y PRINCIPIOS DEL DISEÑO EXPERIMENTAL

🎯 OBJETIVOS DE UN DISEÑO DE EXPERIMENTO

  1. Proporcionar la máxima cantidad de información pertinente al problema bajo investigación.
  2. Proporcionar métodos que permitan obtener la mayor cantidad de información válida acerca de una investigación, teniendo en cuenta el factor costo y el uso adecuado del material disponible mediante métodos que permitan disminuir el error experimental.
  3. Determinar las principales causas de variación en la característica de calidad que se va a mejorar.
  4. Encontrar las condiciones experimentales con las que se consigue un valor extremo en la variable de interés o respuesta.
  5. Obtener un modelo estadístico matemático que permita hacer predicciones de respuestas futuras.

4 📌 PRINCIPIOS BÁSICOS DEL DISEÑO DE EXPERIMENTOS

🔍 PRINCIPIOS BÁSICOS

🔄 Replicación

Número de ocasiones que se efectúa una misma condición experimental. Proporciona una estimación del error experimental y permite estimaciones más precisas.

🎲 Aleatorización

Orden en que se ejecutan las condiciones experimentales. Todos los tratamientos tienen la misma oportunidad de ser seleccionados. Cancela efectos de variables no controladas.

🧱 Bloqueo

Técnica para aumentar la precisión. Se usa cuando se conoce la fuente de variabilidad y se puede controlar, reduciendo su influencia en la respuesta.

Representación de un proceso

Figura: Representación esquemática de un proceso con variables de entrada y salida


5 📌 CLASIFICACIÓN DE FACTORES Y VARIABLES

🔍 CLASIFICACIÓN DE FACTORES Y VARIABLES

📊 Factores (Variables Independientes)

  • Controlables: Cualitativas (máquina, operador) y Cuantitativas (temperatura, presión)
  • No controlables: Medibles pero no bajo control del experimentador (humedad)
  • Fijos: Los niveles son los únicos de interés
  • Aleatorios: Los niveles son una muestra de una población mayor

📈 Variables de Salida (Respuesta)

  • Univariada: Una sola salida de interés
  • Multivariada: Múltiples salidas de interés
  • Cualitativas: Características (aceptable/no aceptable)
  • Cuantitativas: Mediciones numéricas (viscosidad, tiempo, peso)

📌 Otros conceptos importantes

  • Confusión: Cuando los efectos de dos o más factores no se pueden separar.
  • Grados de libertad: Número de términos independientes en un test particular (\(n-1\)).
  • Agrupamiento: Colocación de unidades experimentales homogéneas en grupos.
  • Balanceo: Configuración balanceada de unidades experimentales, agrupamiento y asignación de tratamientos.

6 📌 ETAPAS DE UN DISEÑO DE EXPERIMENTOS

📋 ETAPAS DE UN DISEÑO DE EXPERIMENTOS

1.

Enunciado o planteamiento del problema

2.

Formulación de hipótesis

3.

Proposición de la técnica experimental y el diseño

4.

Examen de sucesos posibles y referencias

5.

Consideración de posibles resultados

6.

Ejecución del experimento

7.

Aplicación de técnicas estadísticas

8.

Extracción de conclusiones

9.

Valoración y contrastación


7 📌 EXPERIMENTOS CON UN SOLO FACTOR

🔍 EXPERIMENTOS CON UN SOLO FACTOR

En este tipo de diseño se considera un sólo factor de interés y el objetivo es comparar más de dos tratamientos (niveles del factor), con el fin de elegir la mejor alternativa que conduzca a optimizar una característica de calidad o variable respuesta (\(Y\)).

El interés del experimentador se centra en comparar los tratamientos en cuanto a sus medias poblacionales con respecto a la variable \(Y\), sin olvidar que también es importante compararlos en relación a sus varianzas y su capacidad actual y futura para cumplir con los requerimientos de calidad y productividad.


7.1 📌 Hipótesis fundamental

La hipótesis fundamental a probar cuando se comparan varios tratamientos es:

\[H_0: \mu_1 = \mu_2 = \cdots = \mu_k = \mu\]

\[H_1: \mu_i \neq \mu_j \text{ para algún } i \neq j\]

con la cual se quiere decidir si los tratamientos son iguales estadísticamente en cuanto a sus medias poblacionales, contra la alternativa de que al menos dos de ellos son diferentes.


7.2 📌 Factores de bloqueo

Son factores adicionales al factor de interés que se incorporan de manera explícita en un experimento comparativo, para estudiar de manera más adecuada y eficaz al factor de interés.

Ejemplo: Cuando se comparan varias máquinas, manejadas por operadores diferentes, es pertinente incluir explícitamente al factor operadores (bloques) para lograr el propósito del estudio. También se podrían controlar el tipo de material, lotes, día, turno, etc.


8 📌 FAMILIA DE DISEÑOS PARA COMPARAR TRATAMIENTOS

📊 FAMILIA DE DISEÑOS PARA COMPARAR TRATAMIENTOS

Los diseños experimentales más utilizados para comparar tratamientos son:

  1. Diseño Completamente al Azar (DCA)
  2. Diseño en Bloques Completamente al Azar (DBCA)
  3. Diseño en Cuadro Latino (DCL)
  4. Diseño en Cuadro Greco-Latino (DCGL)

La diferencia fundamental entre estos diseños es el número de factores de bloque que incorporan o controlan de forma explícita durante el experimento.

Diseño Factores de bloqueo ANOVA con Modelo estadístico
DCA 0 un criterio \(Y_{i} = \mu + \tau_i + \varepsilon_i\)
DBCA 1 dos criterios \(Y_{ij} = \mu + \tau_i + \gamma_j + \varepsilon_{ij}\)
DCL 2 tres criterios \(Y_{ijk} = \mu + \tau_i + \gamma_j + \delta_k + \varepsilon_{ijk}\)
DCGL 3 cuatro criterios \(Y_{ijkl} = \mu + \tau_i + \gamma_j + \delta_k + \phi_l + \varepsilon_{ijkl}\)

Notación: \(Y\) es la variable de salida, \(\mu\) la media global, \(\tau_i\) el efecto del \(i\)-ésimo tratamiento, \(\varepsilon\) error aleatorio, y \(\gamma_j, \delta_k, \phi_l\) son los efectos de los factores de bloqueo.


9 📌 SUPUESTOS DEL MODELO ESTADÍSTICO

📋 SUPUESTOS DEL MODELO ESTADÍSTICO

  1. Aditividad

Los factores o componentes del modelo estadístico son aditivos; la variable respuesta es la suma de los efectos del modelo.

  1. Linealidad

La relación entre los factores o componentes del modelo estadístico es de tipo lineal.

  1. Normalidad

Los valores resultado del experimento provienen de una distribución normal con media \(\mu\) y varianza finita \(\sigma^2\).

  1. Independencia

Los resultados observados en el experimento son independientes entre sí.

  1. Homocedasticidad (Varianzas homogéneas)

Las diversas poblaciones generadas por la aplicación de dos o más tratamientos tienen varianzas homogéneas (varianza común).


10 📌 DISEÑO COMPLETAMENTE AL AZAR (DCA)

🔍 DISEÑO COMPLETAMENTE AL AZAR (DCA) Y ANOVA

El diseño completamente al azar (DCA) es el más simple de todos los diseños, sólo considera dos fuentes de variabilidad: los tratamientos y el error aleatorio. Se llama completamente al azar porque todas las corridas experimentales se realizan en orden aleatorio completo; en apariencia no existe ninguna restricción a la aleatorización.


10.1 📌 Definición del DCA

En un DCA se tienen \(k\) poblaciones o tratamientos, independientes, con medias desconocidas \(\mu_1, \mu_2, \ldots, \mu_k\), y varianzas también desconocidas pero que se suponen iguales \(\sigma_1^2 = \sigma_2^2 = \cdots = \sigma_k^2 = \sigma^2\). Las poblaciones pueden ser \(k\) métodos de producción, \(k\) tratamientos, \(k\) grupos, etc.

Tabla: Datos para un DCA con k tratamientos
\(T_1\) \(T_2\) \(T_3\) \(\cdots\) \(T_k\)
\(Y_{11}\) \(Y_{21}\) \(Y_{31}\) \(\cdots\) \(Y_{k1}\)
\(Y_{12}\) \(Y_{22}\) \(Y_{32}\) \(\cdots\) \(Y_{k2}\)
\(\vdots\) \(\vdots\) \(\vdots\) \(\ddots\) \(\vdots\)
\(Y_{1n_1}\) \(Y_{2n_2}\) \(Y_{3n_3}\) \(\cdots\) \(Y_{kn_k}\)

10.1.1 📌 Modelo de Efectos Fijos

En el caso de que los tratamientos tengan efecto, las observaciones \(Y_{ij}\) se pueden describir con el modelo lineal dado por:

\[Y_{ij} = \mu + \tau_i + \varepsilon_{ij}\]

donde:

  • \(\mu\) es el parámetro de escala común a todos los tratamientos (media global)
  • \(\tau_i\) es un parámetro que mide el efecto del tratamiento \(i\)
  • \(\varepsilon_{ij}\) es el error aleatorio atribuible a la medición

Este tipo de modelo se llama Modelo de Efectos Fijos.


10.2 📌 Notación de puntos

Sirve para representar de manera abreviada cantidades numéricas:

\[Y_{i\cdot} = \sum_{j=1}^{n_i} Y_{ij}, \quad \bar{Y}_{i\cdot} = \frac{Y_{i\cdot}}{n_i}, \quad Y_{\cdot\cdot} = \sum_{i=1}^{k} \sum_{j=1}^{n_i} Y_{ij}, \quad \bar{Y}_{\cdot\cdot} = \frac{Y_{\cdot\cdot}}{N}\]

donde \(N = \sum_{i=1}^{k} n_i\) es el número total de observaciones.


10.3 📌 ANOVA para el DCA

El objetivo es probar las hipótesis:

\[H_0: \tau_1 = \tau_2 = \cdots = \tau_k = 0 \quad \text{vs} \quad H_1: \tau_i \neq 0 \text{ para algún } i\]

Las sumas de cuadrados se calculan como:

\[SCT = \sum_{i=1}^{k} \sum_{j=1}^{n_i} (Y_{ij} - \bar{Y}_{\cdot\cdot})^2 = \sum_{i=1}^{k} \sum_{j=1}^{n_i} Y_{ij}^2 - \frac{Y_{\cdot\cdot}^2}{N}\]

\[SCTr = \sum_{i=1}^{k} n_i (\bar{Y}_{i\cdot} - \bar{Y}_{\cdot\cdot})^2 = \sum_{i=1}^{k} \frac{Y_{i\cdot}^2}{n_i} - \frac{Y_{\cdot\cdot}^2}{N}\]

\[SCE = SCT - SCTr\]

Fuente de variación SC gl CM \(F_0\) Valor-p
Entre tratamientos SCTr \(k-1\) CMTr = SCTr/(k-1) \(F_0 = \frac{CMTr}{CME}\) \(P(F_{k-1,N-k} > F_0)\)
Dentro tratamientos (Error) SCE \(N-k\) CME = SCE/(N-k)
Total SCT \(N-1\)

Regla de decisión: Se rechaza \(H_0\) si \(F_0 > F_{\alpha, k-1, N-k}\) o si valor-p \(< \alpha\).


11 📌 EJEMPLO PRÁCTICO: DCA CON R Y PYTHON

💻 EJEMPLO: COMPARACIÓN DE TRES MÁQUINAS

Un ingeniero industrial quiere comparar el rendimiento de tres máquinas que producen el mismo tipo de pieza. Se toman muestras de 5 piezas de cada máquina y se mide el tiempo de producción (en segundos). Los datos son:

Máquina 1 Máquina 2 Máquina 3
12.5 11.2 10.8
13.0 10.5 11.0
11.8 12.0 9.5
12.2 10.8 10.2
11.5 11.5 11.5

11.1 💻 EJEMPLO: DCA - COMPARACIÓN DE TRES MÁQUINAS - Código en R y Python


📊 “El diseño experimental es el arte de la investigación planificada, donde la estadística proporciona el rigor y la creatividad proporciona el camino”

— Adaptado de George E. P. Box

12 📌 4. VALORES ESPERADOS EN UN DCA

📊 VALORES ESPERADOS DE LOS CUADRADOS MEDIOS EN EL DCA

Los valores esperados de los cuadrados medios son fundamentales para entender el comportamiento del estadístico \(F_0\) y la interpretación del ANOVA. A continuación se presenta la derivación matemática de \(E(CME)\) y \(E(CMTr)\).


12.1 📌 Valor Esperado del Cuadrado Medio del Error (CME)

Partimos de la definición de \(CME\):

\[CME = \frac{SCE}{N-k} = \frac{1}{N-k} \sum_{i=1}^{k} \sum_{j=1}^{n_i} (Y_{ij} - \bar{Y}_{i\cdot})^2\]

Desarrollando la expresión:

\[E(CME) = \frac{1}{N-k} E\left[\sum_{i=1}^{k} \sum_{j=1}^{n_i} (Y_{ij}^2 - 2Y_{ij}\bar{Y}_{i\cdot} + \bar{Y}_{i\cdot}^2)\right]\]

Simplificando:

\[E(CME) = \frac{1}{N-k} E\left[\sum_{i=1}^{k} \sum_{j=1}^{n_i} Y_{ij}^2 - \sum_{i=1}^{k} \frac{Y_{i\cdot}^2}{n_i}\right]\]

Sustituyendo \(Y_{ij} = \mu + \tau_i + \varepsilon_{ij}\), con \(E(\varepsilon_{ij}) = 0\):

\[E(CME) = \frac{1}{N-k} E\left[\sum_{i=1}^{k} \sum_{j=1}^{n_i} (\mu + \tau_i + \varepsilon_{ij})^2 - \sum_{i=1}^{k} \frac{1}{n_i} \left(\sum_{j=1}^{n_i} (\mu + \tau_i + \varepsilon_{ij})\right)^2\right]\]

Después de desarrollar y simplificar (aprovechando que \(E(\varepsilon_{ij}) = 0\), \(E(\varepsilon_{ij}^2) = \sigma^2\), y \(E(\varepsilon_{ij}\varepsilon_{i'j'}) = 0\) para observaciones independientes):

\[E(CME) = \frac{1}{N-k} \left(\sum_{i=1}^{k} \sum_{j=1}^{n_i} \sigma^2 - \sum_{i=1}^{k} \sigma^2\right) = \frac{1}{N-k} (N\sigma^2 - k\sigma^2) = \sigma^2\]

📌 Resultado clave:

\[E(CME) = \sigma^2\]

El cuadrado medio del error es un estimador insesgado de la varianza poblacional \(\sigma^2\).


12.2 📌 Valor Esperado del Cuadrado Medio de Tratamientos (CMTr)

Partimos de la definición de \(CMTr\):

\[CMTr = \frac{SCTr}{k-1} = \frac{1}{k-1} \left(\sum_{i=1}^{k} \frac{Y_{i\cdot}^2}{n_i} - \frac{Y_{\cdot\cdot}^2}{N}\right)\]

Tomando esperanza y sustituyendo el modelo \(Y_{ij} = \mu + \tau_i + \varepsilon_{ij}\):

\[E(CMTr) = \frac{1}{k-1} E\left[\sum_{i=1}^{k} \frac{1}{n_i} \left(\sum_{j=1}^{n_i} (\mu + \tau_i + \varepsilon_{ij})\right)^2 - \frac{Y_{\cdot\cdot}^2}{N}\right]\]

Desarrollando el cuadrado:

\[E(CMTr) = \frac{1}{k-1} E\left[\sum_{i=1}^{k} \left(n_i\mu^2 + n_i\tau_i^2 + \frac{1}{n_i}\left(\sum_{j=1}^{n_i}\varepsilon_{ij}\right)^2 + 2\mu n_i\tau_i + 2\mu\sum_{j=1}^{n_i}\varepsilon_{ij} + 2\tau_i\sum_{j=1}^{n_i}\varepsilon_{ij}\right) - \frac{Y_{\cdot\cdot}^2}{N}\right]\]

Aprovechando que \(E(\varepsilon_{ij}) = 0\), \(E(\varepsilon_{ij}^2) = \sigma^2\), y la condición de identificabilidad \(\sum_{i=1}^{k} n_i\tau_i = 0\):

\[E(CMTr) = \frac{1}{k-1} \left[\sum_{i=1}^{k} n_i\tau_i^2 + k\sigma^2 - \sigma^2\right] = \sigma^2 + \frac{\sum_{i=1}^{k} n_i\tau_i^2}{k-1}\]

📌 Resultado clave:

\[E(CMTr) = \sigma^2 + \frac{\sum_{i=1}^{k} n_i\tau_i^2}{k-1}\]

Bajo \(H_0\) (todos \(\tau_i = 0\)), \(E(CMTr) = \sigma^2\), por lo que \(F_0 = CMTr/CME\) sigue una distribución \(F_{k-1,N-k}\).


13 📌 EJEMPLO COMPLETO DE DCA: CUEROS PARA SUELAS

👞 EJEMPLO: COMPARACIÓN DE CUEROS PARA SUELAS

Un fabricante de calzado desea mejorar la calidad de las suelas, las cuales se pueden hacer con uno de los cuatro tipos de cuero A, B, C y D disponibles en el mercado. Para ello, prueba los cueros con una máquina que hace pasar los zapatos por una superficie abrasiva. Se prueban en orden aleatorio 24 zapatos, seis de cada tipo de cuero. Los datos (en mg) sobre el desgaste de cada tipo de cuero se muestran en la tabla siguiente:

Tipo de cuero Desgaste (mg) Promedio
A 264 260 258 241 262 255 256.7
B 208 220 216 200 213 206 210.5
C 220 263 219 225 230 228 230.8
D 217 226 215 224 220 222 220.7

Pregunta: ¿Existen diferencias en el desgaste promedio de los diferentes tipos de cuero?


13.1 📌 Solución analítica

Paso 1: Hipótesis

\[H_0: \mu_A = \mu_B = \mu_C = \mu_D\]

\[H_1: \mu_i \neq \mu_j \text{ para algún } i \neq j\]

Paso 2: Cálculos

\(N = 24\), \(k = 4\), \(n_i = 6\) para cada tratamiento.

\(\bar{Y}_{\cdot\cdot} = (256.7 + 210.5 + 230.8 + 220.7)/4 = 229.675\)

Paso 3: Tabla ANOVA

Fuente SC gl CM \(F_0\) Valor-p
Tipo de cuero 7072.33 3 2357.44 23.24 0.0000
Error 2029.00 20 101.45
Total 9101.33 23

Paso 4: Decisión

Como valor-p = 0.0000 < 0.05, se rechaza \(H_0\).

Conclusión: Existen diferencias significativas en el desgaste promedio entre los diferentes tipos de cuero.


14 📌 COMPARACIONES DE RANGOS MÚLTIPLES

🔍 MÉTODOS DE COMPARACIONES MÚLTIPLES

Cuando se rechaza \(H_0: \mu_1 = \mu_2 = \cdots = \mu_k\) y se acepta que al menos un par de medias es diferente, es necesario investigar cuáles tratamientos resultaron diferentes. La respuesta consiste en probar las hipótesis:

\[H_0: \mu_i = \mu_j \quad \text{vs} \quad H_1: \mu_i \neq \mu_j \quad \text{para toda } i \neq j\]

usando métodos de comparaciones de rangos múltiples. Los más utilizados son:

  • Método LSD (Diferencia Mínima Significativa)
  • Método de Tukey (HSD - Diferencia Significativa Honesta)
  • Método de Duncan
  • Método de Dunnett (para comparación con un control)

14.1 📌 Método LSD (Least Significant Difference)

Para \(k\) tratamientos se tienen en total \(k(k-1)/2\) pares de medias. Se rechaza \(H_0: \mu_i = \mu_j\) si:

\[|\bar{Y}_{i\cdot} - \bar{Y}_{j\cdot}| > LSD\]

donde:

\[LSD = t_{\alpha/2, N-k} \cdot \sqrt{CME \left(\frac{1}{n_i} + \frac{1}{n_j}\right)}\]

Si el diseño es balanceado (\(n_i = n_j = n\)):

\[LSD = t_{\alpha/2, N-k} \cdot \sqrt{\frac{2 \cdot CME}{n}}\]

📌 Condiciones de uso:

  1. La prueba \(F\) resulta significativa.
  2. Las comparaciones fueron planeadas antes de ejecutar el experimento.

14.2 📌 Método de Tukey (HSD - Honestly Significant Difference)

Este procedimiento utiliza la distribución de rango estudentizado \(Q_{\alpha; m, n}\), donde \(m\) son los grados de libertad del numerador y \(n\) los del denominador. Se rechaza \(H_0: \mu_i = \mu_j\) si:

\[|\bar{Y}_{i\cdot} - \bar{Y}_{j\cdot}| > Tukey\]

donde:

\[Tukey = Q_{\alpha, k, N-k} \cdot \sqrt{\frac{CME}{2} \left(\frac{1}{n_i} + \frac{1}{n_j}\right)}\]

Para diseño balanceado (\(n_i = n_j = n\)):

\[Tukey = Q_{\alpha, k, N-k} \cdot \sqrt{\frac{CME}{n}}\]

📌 Características:

  • Es más exigente que LSD (menor probabilidad de error Tipo I).
  • Controla la tasa de error por familia (family-wise error rate).
  • Se utiliza para comparaciones a posteriori.

14.3 📌 Método de Duncan

Si las \(k\) muestras son de igual tamaño, se acomodan los promedios en orden ascendente. Se rechaza \(H_0: \mu_i = \mu_j\) si:

\[|\bar{Y}_{i\cdot} - \bar{Y}_{j\cdot}| > DUNCAN\]

donde:

\[DUNCAN = r_{\alpha}(p, l) \cdot \sqrt{\frac{CME}{n}}\]

con \(p = 2, 3, \ldots, k\) y \(l = N-k\) grados de libertad del error. Si las muestras tienen tamaños diferentes, se usa la media armónica:

\[n_{AR} = \frac{k}{\sum_{i=1}^{k} \frac{1}{n_i}}\]

📌 Nota:

Aunque no es necesario que la prueba \(F\) sea significativa previamente, es recomendable realizarla para evitar contradicciones.


14.4 📌 Método de Dunnett (Comparación con un Control)

En ocasiones uno de los \(k\) tratamientos es el llamado tratamiento control. Denotemos como tratamiento control al \(k\)-ésimo tratamiento. Comparar respecto al control implica probar las \(k-1\) hipótesis:

\[H_0: \mu_i = \mu_k \quad \text{vs} \quad H_1: \mu_i \neq \mu_k, \quad i = 1, 2, \ldots, k-1\]

Se rechaza \(H_0\) si:

\[|\bar{Y}_{i\cdot} - \bar{Y}_{k\cdot}| > DUNNETT\]

donde:

\[DUNNETT = D_{\alpha}(k-1, l) \cdot \sqrt{CME \left(\frac{1}{n_i} + \frac{1}{n_k}\right)}\]

y \(l = N-k\) grados de libertad del error.


14.5 📌 Resultados del ejemplo de cueros con LSD

Con referencia al ejemplo de los cueros, el test LSD sugiere:

Método \(n_i\) LS Mean Grupos
CUERO B 6 210.500 X
CUERO D 6 220.667 X X
CUERO C 6 230.833 X
CUERO A 6 256.667 X

Conclusiones:

  • El cuero tipo A se diferencia significativamente de los otros tipos de cuero.
  • Entre los cueros tipo B y D no hay diferencia significativa.
  • Entre los cueros tipo D y C no hay diferencia significativa.
  • Se observa una diferencia significativa entre los cueros tipo B y C.

15 📌 COMPARACIÓN POR CONTRASTES

🔍 COMPARACIÓN POR CONTRASTES

En la práctica no siempre interesa probar sólo las \(k(k-1)/2\) hipótesis dos a dos. En ocasiones el objetivo del estudio lleva a contrastar hipótesis que involucran a más de dos medias.


15.1 📌 Definición de Contraste

Una expresión de la forma \(C = \sum_{i=1}^{k} c_i \mu_i\) es una combinación lineal de las medias poblacionales, donde \(c_i\) son números reales. La combinación lineal \(C\) se llama contraste si:

\[\sum_{i=1}^{k} c_i = 0\]

El contraste estimado es \(\hat{C} = \sum_{i=1}^{k} c_i \bar{Y}_{i\cdot}\) y su varianza estimada es:

\[V(\hat{C}) = CME \sum_{i=1}^{k} \frac{c_i^2}{n_i}\]


15.2 📌 Contrastes Ortogonales

Dos contrastes \(C_1 = \sum c_{1i} \mu_i\) y \(C_2 = \sum c_{2i} \mu_i\) son ortogonales si:

\[\sum_{i=1}^{k} c_{1i} c_{2i} = 0 \quad \text{(diseño balanceado)}\]

\[\sum_{i=1}^{k} n_i c_{1i} c_{2i} = 0 \quad \text{(diseño desbalanceado)}\]

📌 Ejemplo de contrastes ortogonales (k=4):

\(c_1\) \(c_2\) \(c_3\) \(c_4\) Contraste
2 -1 -1 0 \(2\mu_A - \mu_B - \mu_C\)
0 1 -1 0 \(\mu_B - \mu_C\)
1 1 1 -3 \(\mu_A + \mu_B + \mu_C - 3\mu_D\)

15.3 📌 Método de Scheffé

Este método está diseñado para probar todos los contrastes que pudieran interesar al experimentador, controlando la tasa de error Tipo I. Un intervalo de confianza al \(100(1-\alpha)\%\) para cualquier contraste \(C\) es:

\[\hat{C} \pm \sqrt{(k-1) V(\hat{C}) F_{\alpha, k-1, N-k}}\]

Si el intervalo no contiene al cero, se concluye que el contraste es significativamente diferente de cero.

📌 Ejemplo de contraste (cueros):

Probar si \(2\mu_A = \mu_B + \mu_C\), es decir, \(H_0: 2\mu_A - \mu_B - \mu_C = 0\).

\(\hat{C} = 2\bar{Y}_A - \bar{Y}_B - \bar{Y}_C = 2(256.667) - 210.5 - 230.833 = 513.334 - 441.333 = 72.001\)

\(V(\hat{C}) = CME \sum \frac{c_i^2}{n_i} = 101.45 \times \left(\frac{4}{6} + \frac{1}{6} + \frac{1}{6} + 0\right) = 101.45 \times 1 = 101.45\)

\(F_{0.05,3,20} = 3.10\), entonces \(\sqrt{(k-1)V(\hat{C})F} = \sqrt{3 \times 101.45 \times 3.10} = \sqrt{943.485} = 30.72\)

IC: \(72.001 \pm 30.72 = (41.28, 102.72)\), que no contiene al cero → se rechaza \(H_0\).


15.4 💻 COMPARACIONES MÚLTIPLES - EJEMPLO DE CUEROS - Código en R y Python


📊 “El análisis de varianza no es una técnica estadística, es una forma de pensar”

— Adaptado de Sir Ronald A. Fisher

16 📌 VERIFICACIÓN DE LOS SUPUESTOS DEL MODELO EN EL DCA

🔍 IMPORTANCIA DE LA VERIFICACIÓN DE SUPUESTOS

La validez de los resultados obtenidos en cualquier ANOVA queda supeditada a que los supuestos del modelo se cumplan, los cuales son: normalidad, varianza constante (igual varianza de los tratamientos) e independencia para la variable respuesta \(Y\), los cuales se traducen en supuestos sobre el término error \(\varepsilon\) en los diferentes modelos.

En la práctica, lo que se hace es tomar la muestra de residuos para comprobar los supuestos del modelo, ya que ésta se puede ver como una muestra aleatoria de una distribución normal con media cero y varianza constante \(\sigma^2\). Los residuos \(e_{ij} = Y_{ij} - \hat{Y}_{ij}\) se definen como la diferencia entre la respuesta observada (\(Y_{ij}\)) y la respuesta predicha por el modelo (\(\hat{Y}_{ij}\)), lo que permite hacer un diagnóstico más directo de la calidad del modelo.


17 📌 RESIDUOS EN EL DISEÑO COMPLETAMENTE AL AZAR

📊 RESIDUOS EN EL DCA

Consideremos el modelo en el DCA:

\[Y_{ij} = \mu + \tau_i + \varepsilon_{ij}\]

Cuando se realiza el ANOVA y sólo si éste resulta significativo, se procede a estimar el modelo ajustado o modelo de trabajo dado por:

\[\hat{Y}_{ij} = \hat{\mu} + \hat{\tau}_i\]

Como \(\hat{\mu} = \bar{Y}_{\cdot\cdot}\) y \(\hat{\tau}_i = \bar{Y}_{i\cdot} - \bar{Y}_{\cdot\cdot}\), el modelo ajustado del DCA se puede escribir como:

\[\hat{Y}_{ij} = \bar{Y}_{i\cdot}\]

El residual o residuo asociado a la observación \(Y_{ij}\) se define como:

\[e_{ij} = Y_{ij} - \hat{Y}_{ij} = Y_{ij} - \bar{Y}_{i\cdot}\]

📌 Nota importante: En el DCA, los residuos se obtienen restando a cada valor observado la media muestral del tratamiento a que pertenece. Los \(N\) residuos \(e_{ij}\) representan una muestra aleatoria de la variable \(\varepsilon_{ij}\).

📋 Supuestos del modelo en términos de los residuos

  • Los \(e_{ij}\) siguen una distribución normal con media cero.
  • Los \(e_{ij}\) son independientes entre sí.
  • Los tratamientos tienen una varianza constante \(\sigma^2\) (homocedasticidad).

18 📌 PRUEBAS GRÁFICAS PARA VERIFICACIÓN DE SUPUESTOS

📊 PRUEBAS GRÁFICAS PARA DIAGNÓSTICO

Para comprobar cada supuesto existen pruebas analíticas y gráficas. Las pruebas gráficas se pueden aplicar razonablemente con pocos datos, cosa que no sucede con las pruebas analíticas. El inconveniente que tienen las gráficas es que no son “exactas”; aun así, proporcionan la evidencia suficiente en contra o a favor de los supuestos.


18.1 📌 Verificación de Normalidad

📈 Gráfica de probabilidad normal (Q-Q Plot)

Un procedimiento para verificar el cumplimiento del supuesto de normalidad de los residuos consiste en graficar los residuos en papel o gráfica de probabilidad normal (Q-Q plot). Esta gráfica tiene las escalas de tal manera que si los residuos siguen una distribución normal, al graficarlos deben tender a estar alineados en una línea recta; si claramente no se alinean, se concluye que el supuesto de normalidad no se cumple.

💡 Nota: El ajuste de los puntos a una recta no tiene que ser perfecto, dado que el análisis de varianza resiste pequeñas y moderadas desviaciones al supuesto de normalidad.

📊 Histograma de residuos

El histograma de los residuos permite visualizar la forma de la distribución. Si los residuos son aproximadamente normales, el histograma debe tener forma de campana aproximadamente simétrica alrededor de cero.


18.2 📌 Verificación de Varianza Constante (Homocedasticidad)

📈 Gráfica de residuos vs valores ajustados

Se puede verificar el supuesto de que los tratamientos tienen la misma varianza graficando los valores ajustados \(\hat{Y}_{ij}\) contra los residuos \(e_{ij}\). Si los puntos en la gráfica se distribuyen aleatoriamente en una banda horizontal (sin ningún patrón claro), entonces es señal de que se cumple el supuesto de varianza constante.

📊 Gráfica de factor contra residuos

Al graficar los niveles del factor contra los residuos, si se cumple el supuesto de varianza constante, se espera que la amplitud de la dispersión de los puntos en cada nivel de factor sea similar.

📌 Nota: Cuando hay evidencia contundente de que no se cumple el supuesto de varianza constante, una alternativa es transformar los datos (logaritmo, raíz cuadrada) y repetir el análisis.


18.3 📌 Verificación de Independencia

📈 Gráfica de residuos en secuencia temporal

La suposición de independencia en los residuos puede verificarse graficando el orden en que se colectó un dato contra el residuo correspondiente. Si se detecta una tendencia o patrón no aleatorio claramente definido, entonces es evidencia de que existe una correlación entre los errores y el supuesto de independencia no se cumple. Si el comportamiento de los puntos es aleatorio dentro de una banda horizontal, el supuesto se está cumpliendo.

⚠️ Advertencia: La violación de este supuesto generalmente indica deficiencias en la planeación y ejecución del experimento, como la falta de aleatorización adecuada.


19 📌 PRUEBAS ANALÍTICAS PARA VERIFICACIÓN DE SUPUESTOS

📊 PRUEBAS ANALÍTICAS PARA DIAGNÓSTICO


19.1 📌 Prueba de Shapiro-Wilk para Normalidad

Consideremos una muestra aleatoria de datos \(X_1, X_2, \ldots, X_n\) que proceden de cierta distribución desconocida. Se quiere verificar si dichos datos fueron generados por un proceso normal mediante las hipótesis:

\[H_0: \text{Los datos proceden de una distribución normal}\]

\[H_1: \text{Los datos no proceden de una distribución normal}\]

El estadístico de prueba \(W\) se calcula como:

\[W = \frac{1}{(n-1)S^2} \left[ \sum_{i=1}^{k} a_i (X_{(n-i+1)} - X_{(i)}) \right]^2\]

donde \(X_{(i)}\) son los datos ordenados, \(a_i\) son coeficientes tabulados y \(S^2\) es la varianza muestral. Se rechaza \(H_0\) si \(W\) es menor que el valor crítico.


19.2 📌 Prueba de Bartlett para Homogeneidad de Varianzas

Cuando se tienen \(k\) poblaciones o tratamientos independientes, cada una con distribución normal \(N(\mu_i, \sigma_i^2)\), se quiere probar la hipótesis de igualdad de varianzas:

\[H_0: \sigma_1^2 = \sigma_2^2 = \cdots = \sigma_k^2 = \sigma^2\]

\[H_1: \sigma_i^2 \neq \sigma_j^2 \text{ para algún } i \neq j\]

El estadístico de prueba está dado por:

\[\chi_0^2 = 2.3026 \cdot \frac{q}{c}\]

\[q = (N-k)\log_{10} S_p^2 - \sum_{i=1}^{k} (n_i-1)\log_{10} S_i^2\]

\[c = 1 + \frac{1}{3(k-1)} \left( \sum_{i=1}^{k} (n_i-1)^{-1} - (N-k)^{-1} \right)\]

\[S_p^2 = \frac{1}{N-k} \sum_{i=1}^{k} (n_i-1) S_i^2\]

Bajo \(H_0\), \(\chi_0^2\) sigue una distribución \(\chi^2\) con \(k-1\) grados de libertad. Se rechaza \(H_0\) si \(\chi_0^2 > \chi_{\alpha, k-1}^2\).

📌 Nota: La prueba de Bartlett es sensible a la falta de normalidad de las poblaciones, por lo que debe comprobarse primero el cumplimiento de este supuesto.


19.3 📌 Prueba de Levene para Homogeneidad de Varianzas

La prueba de Levene es una alternativa robusta a la prueba de Bartlett, menos sensible a desviaciones de la normalidad. Se basa en el análisis de varianza de los valores absolutos de las desviaciones de las observaciones respecto a sus medianas o medias.


20 📌 EJEMPLO ILUSTRATIVO: RESISTENCIA A LA TENSIÓN DE UNA FIBRA SINTÉTICA

🧵 EJEMPLO: RESISTENCIA A LA TENSIÓN SEGÚN PORCENTAJE DE ALGODÓN

Problema: Un ingeniero de desarrollo de productos tiene interés en investigar la resistencia a la tensión de una fibra sintética nueva que se usará para hacer tela de camisas. El ingeniero sabe por experiencia que la resistencia se afecta por el peso porcentual del algodón utilizado en la mezcla (entre 10% y 40%). Decide probar ejemplares en cinco niveles: 15%, 20%, 25%, 30% y 35%, con cinco réplicas en cada nivel.

Variable de interés: \(Y\) = Resistencia a la tensión de la fibra (lb/pulg²)

Factor: Porcentaje de algodón (5 niveles)

Replicas: \(n=5\) por nivel


20.1 📌 Datos del experimento

Peso % Resistencia (lb/pulg²) \(\bar{Y}_{i\cdot}\) \(S_i\)
15% 7 7 15 11 9 9.8 3.27
20% 12 17 12 18 18 15.4 2.88
25% 14 18 18 19 19 17.6 2.07
30% 19 25 22 19 23 21.6 2.61
35% 7 10 11 15 11 10.8 2.86
Total \(\bar{Y}_{\cdot\cdot}=15.04\)

20.2 📌 Tabla ANOVA

Fuente SC gl CM \(F_0\) Valor-p
Tratamientos 475.76 4 118.94 14.76 0.0000
Error 161.20 20 8.06
Total 636.96 24

Conclusión: Como valor-p = 0.0000 < 0.05, se rechaza \(H_0\). Los contenidos de porcentaje de algodón afectan muy significativamente la media de la resistencia con un 95% de confianza.


20.4 📌 Interpretación de los resultados

📖 Análisis de los diagnósticos

1. Normalidad:

La gráfica Q-Q muestra los puntos aproximadamente alineados sobre la línea recta, y el histograma presenta una forma aproximadamente acampanada. La prueba de Shapiro-Wilk arroja un valor-p > 0.05, lo que indica que no hay evidencia para rechazar la normalidad de los residuos.

2. Varianza constante (Homocedasticidad):

La gráfica de residuos vs valores ajustados muestra una dispersión aleatoria sin patrones claros (banda horizontal). Los boxplots de residuos por tratamiento muestran amplitudes similares. Las pruebas de Bartlett y Levene arrojan valores-p > 0.05, confirmando que las varianzas son homogéneas.

3. Independencia:

La gráfica de residuos en secuencia temporal muestra un comportamiento aleatorio sin tendencias claras. La prueba de Durbin-Watson arroja un estadístico cercano a 2, indicando que no hay autocorrelación significativa entre los residuos.

Conclusión general: Los tres supuestos del modelo (normalidad, homocedasticidad e independencia) se cumplen satisfactoriamente, validando así los resultados del ANOVA y las conclusiones sobre el efecto del porcentaje de algodón en la resistencia a la tensión.


📊 “La validación de supuestos no es un simple requisito técnico, sino una garantía de que nuestras conclusiones son confiables”

— Adaptado de George E. P. Box

Aquí tienes el material completo sobre Prueba de Shapiro-Wilk y Modelo de Efectos Aleatorios en el DCA, diseñado en el mismo formato visual y pedagógico de tus secciones anteriores, con códigos en R y Python para cada ejemplo y aplicación.


21 📌 PRUEBA DE SHAPIRO-WILK PARA NORMALIDAD

📊 PRUEBA DE SHAPIRO-WILK PARA NORMALIDAD

La prueba de Shapiro-Wilk es una de las pruebas más potentes para evaluar la normalidad de un conjunto de datos. Se utiliza ampliamente en el diagnóstico de modelos ANOVA y regresión.


21.1 📌 Hipótesis de la prueba

Las hipótesis a contrastar son:

\[H_0: \text{Los datos proceden de una distribución normal}\]

\[H_1: \text{Los datos no proceden de una distribución normal}\]


21.2 📌 Procedimiento de cálculo

📋 Pasos para calcular el estadístico W

  1. Ordenar los datos de menor a mayor: \(X_{(1)}, X_{(2)}, \ldots, X_{(n)}\)
  2. Calcular la varianza muestral \(S^2 = \frac{1}{n-1}\sum_{i=1}^{n}(X_i - \bar{X})^2\)
  3. Obtener los coeficientes \(a_i\) de la tabla de Shapiro-Wilk para el tamaño \(n\)
  4. Calcular el estadístico \(W\) mediante la fórmula:

\[W = \frac{1}{(n-1)S^2} \left[ \sum_{i=1}^{k} a_i (X_{(n-i+1)} - X_{(i)}) \right]^2\]

donde \(k\) es aproximadamente \(n/2\) (para \(n\) par, \(k = n/2\); para \(n\) impar, \(k = (n-1)/2\)).

Una expresión alternativa equivalente es:

\[W = \frac{\left[ \sum_{i=1}^{k} a_i (X_{(n-i+1)} - X_{(i)}) \right]^2}{\sum_{i=1}^{n} (X_i - \bar{X})^2}\]


21.3 📌 Ejemplo de cálculo con residuos del DCA

📊 Datos: Residuos ordenados

Los residuos del ejemplo de resistencia a la tensión (ordenados) son:

X₍₁₎ = -3.8, X₍₂₎ = -3.6, X₍₃₎ = -3.4, X₍₄₎ = -3.4, X₍₅₎ = -2.8,
X₍₆₎ = -2.8, X₍₇₎ = -2.6, X₍₈₎ = -2.6, X₍₉₎ = -0.8, X₍₁₀₎ = -0.8,
X₍₁₁₎ = 0.2, X₍₁₂₎ = 0.2, X₍₁₃₎ = 0.4, X₍₁₄₎ = 0.4, X₍₁₅₎ = 0.4,
X₍₁₆₎ = 1.2, X₍₁₇₎ = 1.4, X₍₁₈₎ = 1.4, X₍₁₉₎ = 1.4, X₍₂₀₎ = 1.6,
X₍₂₁₎ = 2.6, X₍₂₂₎ = 2.6, X₍₂₃₎ = 3.4, X₍₂₄₎ = 4.2, X₍₂₅₎ = 5.2

\(i\) \(a_{i,25}\) \(X_{(25-i+1)} - X_{(i)}\) \(a_i \times (X_{(25-i+1)} - X_{(i)})\)
1 0.4450 9.0 4.0050
2 0.3069 7.8 2.3938
3 0.2543 6.8 1.7292
4 0.2148 6.0 1.2888
5 0.1822 5.4 0.9839
6 0.1539 4.4 0.6772
7 0.1283 4.0 0.5132
8 0.1046 4.0 0.4184
9 0.0823 2.2 0.1811
10 0.0610 2.0 0.1220
11 0.0403 0.2 0.0081
12 0.0200 0.2 0.0040
13 0.0000 0.0 0.0000
Total 12.3246

📐 Cálculo del estadístico W

Varianza muestral: \(S^2 = 6.71667\) (calculada a partir de los residuos)

Suma de cuadrados total: \(\sum_{i=1}^{25} (X_i - \bar{X})^2 = 161.2\)

\[W = \frac{1}{(n-1)S^2} \left[ \sum_{i=1}^{13} a_i (X_{(25-i+1)} - X_{(i)}) \right]^2 = \frac{1}{24 \times 6.71667} \times (12.3246)^2 = 0.9422\]

\[W = \frac{\left[ \sum_{i=1}^{13} a_i (X_{(25-i+1)} - X_{(i)}) \right]^2}{\sum_{i=1}^{25} (X_i - \bar{X})^2} = \frac{(12.3246)^2}{161.2} = 0.9422\]

📊 Decisión

Valor crítico de Shapiro-Wilk para \(n=25\) y \(\alpha=0.05\): \(W_{0.95;25} = 0.918\)

Como \(W = 0.9422 > 0.918\), no se rechaza \(H_0\).

Conclusión: Los residuos siguen una distribución normal.

💻 Salida de Statgraphics: Estadístico W de Shapiro-Wilk = 0.942656, P-valor = 0.179142


22 📌 MODELO DE EFECTOS ALEATORIOS CON UN SOLO FACTOR

🔍 MODELO DE EFECTOS ALEATORIOS CON UN SOLO FACTOR

Los modelos lineales estudiados hasta ahora corresponden a Modelos de Efectos Fijos, donde los niveles del factor en estudio eran los únicos de interés para el investigador. Frecuentemente, al investigador le interesa un factor que tiene un gran número de posibles niveles. Se dice que este factor es aleatorio si los niveles que se estudian son seleccionados aleatoriamente de la población.

En un Modelo de Efectos Aleatorios, una repetición del experimento producirá un nuevo conjunto de tratamientos de la misma población y, por lo tanto, el interés del investigador estará en la variabilidad de los tratamientos.


22.1 📌 Modelo Lineal para Efectos Aleatorios

Supongamos que tenemos un factor \(A\) con \(k\) niveles, con \(n\) repeticiones por tratamiento. El modelo de efectos aleatorios es:

\[Y_{ij} = \mu + A_i + \varepsilon_{ij}, \quad i = 1,\ldots,k; \quad j = 1,\ldots,n\]

donde:

  • \(A_i\) y \(\varepsilon_{ij}\) son variables aleatorias independientes
  • \(A_i \sim N(0, \sigma_A^2)\) (efectos aleatorios de los tratamientos)
  • \(\varepsilon_{ij} \sim N(0, \sigma^2)\) (error experimental)

La varianza de \(Y\) es la suma de dos varianzas:

\[V(Y) = \sigma_A^2 + \sigma^2\]

Las varianzas \(\sigma_A^2\) y \(\sigma^2\) se conocen como componentes de varianza.


22.2 📌 Hipótesis en el Modelo de Efectos Aleatorios

Como los tratamientos son una muestra aleatoria de una población de tratamientos, las hipótesis se formulan en términos de la varianza \(\sigma_A^2\):

\[H_0: \sigma_A^2 = 0 \quad \text{vs} \quad H_1: \sigma_A^2 > 0\]

Si \(\sigma_A^2 = 0\), entonces todos los efectos de los grupos son iguales (no hay variabilidad entre tratamientos). Si \(\sigma_A^2 > 0\), existe variabilidad entre los efectos de los grupos.


22.3 📌 ANOVA para el DCA con Efectos Aleatorios

Para probar estas hipótesis se utiliza el mismo estadístico \(F_0 = CMTr/CME\), pero con diferentes valores esperados:

\[E(CMTr) = n\sigma_A^2 + \sigma^2\]

\[E(CME) = \sigma^2\]

Si \(H_0\) es verdadera (\(\sigma_A^2 = 0\)), \(CMTr\) y \(CME\) son estimadores insesgados de \(\sigma^2\). Si \(H_1\) es verdadera, el valor esperado del numerador es mayor que el del denominador. Por lo tanto, se rechaza \(H_0\) para valores grandes del estadístico \(F_0\).

Fuente SC gl CM \(F_0\) Valor-p
Entre tratamientos \(SCTr\) \(k-1\) \(CMTr\) \(F_0 = CMTr/CME\) \(P(F_{k-1,N-k} > F_0)\)
Dentro tratamientos \(SCE\) \(N-k\) \(CME\)
Total \(SCT\) \(N-1\)

📌 Estimación de componentes de varianza:

\[\hat{\sigma}^2 = CME\]

\[\hat{\sigma}_A^2 = \frac{CMTr - CME}{n}\]

Para tamaños de muestra desiguales, \(n\) se reemplaza por \(n_0 = \frac{1}{k-1}\left(\sum n_i - \frac{\sum n_i^2}{\sum n_i}\right)\).


23 📌 EJEMPLO: DURACIÓN DE PRÉSTAMOS HIPOTECARIOS

🏦 EJEMPLO: DURACIÓN DE PRÉSTAMOS HIPOTECARIOS

Una preocupación creciente en cierta entidad financiera es la duración de los préstamos hipotecarios que sus empleados conceden a sus clientes. Se eligen cinco empleados al azar y se recoge el número de meses de los préstamos hipotecarios concedidos recientemente. Los datos son:

Empleado 1 Empleado 2 Empleado 3 Empleado 4 Empleado 5
180 240 240 300 300
240 360 270 240 360
300 180 300 300 240
360 180 360 360 360
240 300 360 360 360
180 240 300 360 360
144 360 360 360 360
300 360 360 360 300
240 360 300 300 360

23.1 📌 Modelo Estadístico

Variable respuesta: \(Y_{ij}\) = Duración (en meses) del préstamo hipotecario.

Factor: Empleado (efecto aleatorio). Los cinco empleados son una muestra representativa de todos los empleados de la entidad.

Modelo: \(Y_{ij} = \mu + A_i + \varepsilon_{ij}\), donde \(A_i \sim N(0, \sigma_A^2)\) y \(\varepsilon_{ij} \sim N(0, \sigma^2)\).


23.2 📌 Hipótesis

La pregunta a responder es: ¿Conceden los empleados préstamos hipotecarios de la misma duración?

\[H_0: \sigma_A^2 = 0 \quad \text{vs} \quad H_1: \sigma_A^2 > 0\]


23.3 💻 EJEMPLO: MODELO DE EFECTOS ALEATORIOS - DURACIÓN DE PRÉSTAMOS HIPOTECARIOS - Código en R y Python


23.3.1 📌 Resultados del ANOVA

La tabla ANOVA para este diseño es:

Fuente SC gl CM \(F_0\) Valor-p
Entre empleados 50019.2 4 12504.8 3.75 0.011
Error 133552.0 40 3338.8
Total 183571.2 44

Conclusión: Con un nivel de confianza del 95%, se rechaza \(H_0\) (valor-p = 0.011 < 0.05). Existe evidencia suficiente para afirmar que los empleados no conceden préstamos hipotecarios de la misma duración.

📊 Estimación de componentes de varianza

\[\hat{\sigma}^2 = CME = 3338.8\]

\[\hat{\sigma}_A^2 = \frac{CMTr - CME}{n} = \frac{12504.8 - 3338.8}{9} = 1018.44\]

El porcentaje de variabilidad explicado por los empleados es:

\[\frac{\hat{\sigma}_A^2}{\hat{\sigma}_A^2 + \hat{\sigma}^2} = \frac{1018.44}{1018.44 + 3338.8} = 0.234 = 23.4\%\]


23.3.2 📌 Intervalo de confianza para la componente de varianza

📐 Intervalo para el porcentaje de variabilidad

Para el porcentaje de variabilidad \(\theta = \frac{\sigma_A^2}{\sigma_A^2 + \sigma^2}\), el intervalo de confianza del \(95\%\) es:

\[\left( \frac{L_1}{1+L_1}, \frac{L_2}{1+L_2} \right)\]

donde:

\[L_1 = \frac{1}{n}\left( \frac{CMTr}{CME} \cdot \frac{1}{F_{k-1,N-k;\alpha/2}} - 1 \right) = 0.0218\]

\[L_2 = \frac{1}{n}\left( \frac{CMTr}{CME} \cdot \frac{1}{F_{k-1,N-k;1-\alpha/2}} - 1 \right) = 3.3883\]

El intervalo de confianza del \(95\%\) para \(\theta\) es:

\[\left( \frac{0.0218}{1+0.0218}, \frac{3.3883}{1+3.3883} \right) = (0.0213, 0.7721)\]

Interpretación: Con un 95% de confianza, entre el 2.13% y el 77.21% de la variabilidad total en la duración de los préstamos es atribuible a diferencias entre empleados.


📊 “En los modelos de efectos aleatorios, el objetivo no es comparar tratamientos específicos, sino estimar y comprender la variabilidad inherente a la población de tratamientos”

— Adaptado de Douglas C. Montgomery

23.4 📌REFERENCIAS BIBLIOGRÁFICAS

📚 REFERENCIAS BIBLIOGRÁFICAS

Las siguientes obras constituyen los textos fundamentales que han servido como base para la elaboración de estas notas de clase. Se recomienda encarecidamente su consulta para profundizar en los temas tratados y para complementar los ejemplos y ejercicios presentados.


23.4.1 📌 Textos principales en Diseño de Experimentos

Montgomery, D. C.

Diseño y Análisis de Experimentos
Segunda Edición. Editorial Limusa Wiley.
Texto clásico y referencia internacional en el campo del diseño experimental. Cubre desde conceptos básicos hasta diseños avanzados como factoriales fraccionados, superficies de respuesta y diseños robustos.

Gutiérrez, H. & de la Vara, R.

Análisis y Diseño de Experimentos
Segunda Edición. McGraw-Hill Interamericana.
Excelente texto en español con numerosos ejemplos aplicados a la industria y los negocios. Enfoque práctico y accesible para estudiantes de ingeniería y ciencias administrativas.

Kuehl, R. O.

Diseño de Experimentos
Segunda Edición. Thomson Learning.
Aborda de manera exhaustiva los principios del diseño experimental con énfasis en aplicaciones en agricultura, biología e industrias químicas. Incluye numerosos ejemplos con datos reales.

Vicente, M., Girón, P., Nieto, C., & Pérez, T.

Diseño de Experimentos
Pearson Prentice Hall.
Texto con enfoque pedagógico que combina teoría y práctica. Incluye ejercicios resueltos y propuestos, así como aplicaciones en diversos campos de la ingeniería.


23.4.2 📌 Textos de Probabilidad y Estadística

Devore, J. L.

Probabilidad y Estadística para Ingeniería y Ciencias
Sexta Edición. International Thomson Editores.
Texto ampliamente utilizado en cursos introductorios. Presenta los conceptos fundamentales de probabilidad y estadística con aplicaciones reales en ingeniería y ciencias.

Walpole, R. E., Myers, R. H., & Myers, S. L.

Probabilidad y Estadística
Cuarta Edición. McGraw-Hill.
Clásico en la enseñanza de la estadística. Cubre desde conceptos básicos hasta temas avanzados como regresión y análisis de varianza, con numerosos ejemplos y ejercicios.


23.4.3 📌 Texto de Estadística Matemática

Wackerly, D. D., Mendenhall, W., & Scheaffer, R. L.

Mathematical Statistics with Applications
Séptima Edición. Thomson/Brooks-Cole.
Texto fundamental en inglés para el estudio de la estadística matemática. Aborda con rigor los fundamentos teóricos de la inferencia estadística, incluyendo estimación, pruebas de hipótesis y modelos lineales.


23.5 📌 BIBLIOGRAFÍA RECOMENDADA PARA PROFUNDIZACIÓN

📚 BIBLIOGRAFÍA COMPLEMENTARIA

📘 Diseños Experimentales Avanzados

  • Box, G. E. P., Hunter, J. S., & Hunter, W. G. (2005). Statistics for Experimenters. 2nd Ed. Wiley.
  • Wu, C. F. J., & Hamada, M. S. (2009). Experiments: Planning, Analysis, and Optimization. 2nd Ed. Wiley.
  • Montgomery, D. C. (2013). Design and Analysis of Experiments. 8th Ed. Wiley.
  • Lawson, J. (2014). Design and Analysis of Experiments with R. CRC Press.

📙 Estadística Aplicada con Software

  • Crawley, M. J. (2013). The R Book. 2nd Ed. Wiley.
  • James, G., Witten, D., Hastie, T., & Tibshirani, R. (2013). An Introduction to Statistical Learning. Springer.
  • Venables, W. N., & Ripley, B. D. (2002). Modern Applied Statistics with S. 4th Ed. Springer.
  • Kuhn, M., & Johnson, K. (2013). Applied Predictive Modeling. Springer.

📗 Métodos Estadísticos Fundamentales

  • Casella, G., & Berger, R. L. (2002). Statistical Inference. 2nd Ed. Duxbury.
  • Hogg, R. V., McKean, J. W., & Craig, A. T. (2013). Introduction to Mathematical Statistics. 7th Ed. Pearson.
  • Rice, J. A. (2007). Mathematical Statistics and Data Analysis. 3rd Ed. Duxbury.
  • Peña, D. (2001). Fundamentos de Estadística. Alianza Editorial.

📕 Aplicaciones en Ingeniería y Negocios

  • Anderson, D. R., Sweeney, D. J., & Williams, T. A. (2011). Statistics for Business and Economics. 11th Ed. South-Western.
  • Mendenhall, W., & Sincich, T. (2012). Statistics for Engineering and the Sciences. 6th Ed. CRC Press.
  • Levine, D. M., & Stephan, D. F. (2014). Estadística para Administración. 6ta Ed. Pearson.
  • Vining, G. G., & Kowalski, S. M. (2011). Statistical Methods for Engineers. 3rd Ed. Brooks/Cole.

23.6 📌 RECURSOS DIGITALES Y SOFTWARE ESTADÍSTICO

💻 RECURSOS DIGITALES Y SOFTWARE ESTADÍSTICO

📊 Software Estadístico

  • R Project (https://www.r-project.org/) - Software libre y de código abierto para computación estadística y gráficos.
  • RStudio (https://posit.co/) - IDE para R que facilita el trabajo con scripts, markdown y visualizaciones.
  • Python (https://www.python.org/) - Con librerías como NumPy, SciPy, pandas, statsmodels y matplotlib.
  • Minitab - Software especializado en diseño de experimentos y control estadístico de procesos.
  • JMP - Plataforma de análisis estadístico con fuerte énfasis en visualización y DOE.
  • SPSS - Software de análisis estadístico ampliamente utilizado en ciencias sociales y negocios.

📚 Repositorios y Recursos en Línea

23.7 📌 CITAS RECOMENDADAS PARA CADA SECCIÓN

📌 GUÍA DE LECTURA POR CAPÍTULOS

Tema Montgomery Gutiérrez & de la Vara Kuehl Devore Walpole
Estadística Inferencial Cap. 3 Cap. 2 Cap. 2 Cap. 6-7 Cap. 7-8
Distribuciones Muestrales Cap. 3 Cap. 2 Cap. 2 Cap. 5 Cap. 7
Estimación Puntual Cap. 3 Cap. 2 Cap. 2 Cap. 6 Cap. 8
Intervalos de Confianza Cap. 3 Cap. 2 Cap. 2 Cap. 7 Cap. 8
Prueba de Hipótesis Cap. 3 Cap. 2 Cap. 3 Cap. 8-9 Cap. 9-10
Diseños de Experimentos Cap. 1-14 Cap. 3-12 Cap. 4-14 Cap. 10-11 Cap. 13-15
ANOVA Cap. 4 Cap. 3-5 Cap. 4-5 Cap. 10 Cap. 13
Diseños Factoriales Cap. 5-7 Cap. 6-8 Cap. 6-8 Cap. 11 Cap. 14

Nota: Las referencias a capítulos son aproximadas y pueden variar según la edición de cada texto. Se recomienda consultar el índice detallado de cada obra para una ubicación precisa de los temas.


23.8 📌 CÓMO CITAR ESTAS NOTAS

📝 FORMATO DE CITACIÓN

📖 APA (7ª edición)

Autor(es). (Año). Título de la obra (Edición). Editorial.

Ejemplo:
Montgomery, D. C. (2004). Diseño y Análisis de Experimentos (2ª ed.). Limusa Wiley.

📚 ISO 690

AUTOR, Nombre. Título. Edición. Lugar de publicación: Editorial, año.

Ejemplo:
GUTIÉRREZ, Humberto y DE LA VARA, Román. Análisis y Diseño de Experimentos. 2ª ed. México: McGraw-Hill, 2008.

📌 Para citar estas notas de clase

Maestría en Ingenierías y Especialización en Estadística Aplicada. (2026). Diseño de Experimentos - Notas de Clase. Universidad Tecnológica de Bolívar.


📚 “El diseño experimental es el arte de la investigación planificada, donde la estadística proporciona el rigor y la creatividad proporciona el camino”

— Adaptado de George E. P. Box