ANOVA Experimento de un factor completo al azar de efectos fijos

Author

Juan José Arteaga, Lorena Negrete, Nahum Sánchez y Laura Sánchez


1 Introducción

En el ámbito del marketing y la distribución de productos, la presentación en los puntos de venta juega un papel crucial en el comportamiento del consumidor. Un distribuidor de refrescos busca evaluar la efectividad de tres diseños de mostradores ubicados en los extremos de los pasillos, con el objetivo de determinar si influyen significativamente en el aumento de las ventas.

Para ello, se ha diseñado un experimento en el que 15 tiendas de características similares han sido seleccionadas para probar estos mostradores durante un mes. La variable de interés es el porcentaje de incremento en las ventas en comparación con el comportamiento típico de cada tienda sin mostrador.

El análisis de los datos obtenidos se llevará a cabo mediante pruebas estadísticas en R, siguiendo tres etapas fundamentales:

1.Verificación de normalidad: Se evaluará si los datos siguen una distribución normal, utilizando métodos gráficos y el test de Shapiro-Wilk

2 .Verificación de homocedasticidad: Se comprobará si las variaciones de los grupos son homogéneas, mediante representaciones gráficas y el test de Bartlett.

3 Verificación de independencia: Se analizará si el orden de ejecución de las pruebas experimentales afecta los resultados, empleando herramientas gráficas y el test de Durbin-Watson. A través de estas pruebas, se determinará si las diferencias en el aumento de ventas pueden atribuirse al tipo de mostrador utilizado o si existen otros factores que podrían influir en los resultados. Finalmente, se presentarán las conclusiones obtenidas en función de los hallazgos estadísticos.


1.1 Problema

Un distribuidor de refrescos quiere evaluar la efectividad de tres diseños de mostradores ubicados en los extremos de los pasillos para aumentar las ventas. Para ello, 15 tiendas de características similares participarán en un estudio donde cada una probará un mostrador durante un mes. Se medirá el incremento porcentual en las ventas y se analizará si el tipo de mostrador influye en dicho aumento.:


Datos

Tipo de Mostrador Incremento 1 Incremento 2 Incremento 3 Incremento 4 Incremento 5
1 5.43 5.71 6.22 6.01 5.29
2 6.24 6.71 5.88 5.66 6.68
3 8.79 9.12 7.19 8.15 7.55

En la tabla, las réplicas de cada mostrador, se refieren alporcentaje deñl incremento de ventas. A lo largo del análisis, se utilizará un nivel de significancia de \(0.05\) para las pruebas estadísticas cuando sea necesario.


1.2 Aplicación de verificación de supuesto de normalidad

En esta sección, se procederá a la verificación del supuesto de normalidad utilizando métodos gráficos y analíticos. El objetivo es evaluar siel porcentaje del incremento de ventas,siguen una distribución normal. Para analizar los datos, utilizamos el siguiente modelo:

\(Y_{ij} \sim N (\mu + \tau_i, \ \sigma^2)\)

\(\forall \ i \ e \ 1, 2, 3, 4, 5 \ \ j \ e\ 1, 2, 3, 4\)

Donde:

\(Y_{ij}\): es el porcentaje de incremento en ventas para la tienda \(j\) que usa el mostrador \(i\).

\(\mu\): Media general del incremento de ventas

\(\tau_i\): efecto del tipo de mostrador \(i\) (factor de interes)

\(\sigma^2\): Varianza muestral.

En realidad, \(Y_{ij} \sim N (\mu + \tau_i, \ \sigma^2)\) significa que el porcentaje de incremento de ventas (\(Y_{ij}\)) se distribuyen normalmente con una media que varía según el tipo de mostrador (\(\mu + \tau_i\)) y una varianza constante (\(\sigma^2\)).

El supuesto de normalidad garantiza la validez de las inferencias estadísticas derivadas del modelo. Si los datos no siguen una distribución normal, las pruebas paramétricas podrían producir resultados incorrectos, y podría ser necesario aplicar transformaciones a los datos o utilizar métodos no paramétricos alternativos.

Para verificar la normalidad al problema propuesto, aplicamos dos enfoques principales:

  • Método gráfico: Este método proporciona una representación visual de la distribución de los datos y permiten observar si se ajustan a una distribución normal. Aquí se utiliza el gráfico cuantil-cuantil (Q-Q plot) para comparar los cuantiles observados de los datos con los cuantiles esperados de una distribución normal teórica.

  • Métodos analíticos: Estos métodos proporcionan una evaluación formal de la normalidad mediante pruebas estadísticas. Se emplean el test de Shapiro-Wilk para evaluar si los datos se ajustan a una distribución normal. Estas pruebas proporcionan valores p que ayudan a decidir si se puede rechazar la hipótesis nula de normalidad.


1.3 Residuales

Se define un residual \(e_{ij}\) como la diferencia entre la observación original \(Y_{ij}\) y el valor ajustado o estimado \(\hat{Y}_{ij}\) proporcionado por el modelo estadístico. El residual también refleja la desviación entre los datos observados y lo que predice el modelo. Los residuales son fundamentales en el análisis de datos porque representan la variabilidad que no ha sido explicada por el modelo. Matemáticamente, el residual se expresa como:

\(e_{ij} = Y_{ij}-\hat{Y}_{ij}\), donde \(\hat{Y}_{ij} = \tilde{Y}_{i.}\)

\(e_{ij} = Y_{ij}-\tilde{Y}_{i.}\)

Donde:

\(e_{ij}\): es el residual para la \(j-ésima\) observación en el \(i-ésimo\) nivel del mostrador.

\(Y_{ij}\): es el porcentaje de incremento en ventas en la \(j-ésima\) réplica para el \(i-ésima\) nivel del mostrador.

\(\tilde{Y}_{i.}\): Promedio de las observaciones para el porcentaje de incremento de ventas \(i\)


1.4 Graficamente

El análisis gráfico de los residuales evalúa la adecuación de un modelo estadístico. En este contexto, el gráfico cuantil-cuantil se utiliza para verificar si los residuales siguen una distribución normal. En este gráfico, se comparan los cuantiles observados de los residuales con los cuantiles esperados de una distribución normal teórica.

Por ende, si los residuales siguen una distribución normal, los puntos en el gráfico se alinearán aproximadamente a lo largo de una línea recta.

Primero, se calculan los promedios de las observaciones para cada nivel de tratamiento usando la fórmula de la media muestral:

\(\tilde X = \frac {\sum_{i=1}^{n}X_i}{n}\)

Donde:

\(\tilde X\): Es la media muestral.

\(X_i\): son los valores individuales de la muestra.

\(n\): es el número total de observaciones en la muestra.

Para cada nivel de tratamiento, los residuales se obtienen restando el promedio del nivel a cada observación individual. A continuación, se presenta la tabla con las observaciones y sus promedios:

Tipo de Mostrador Ventas 1 Ventas 2 Ventas 3 Ventas 4 Ventas 5 Promedio (%)
1 5.43 5.71 6.22 6.01 5.29 5.73
2 6.24 6.71 5.88 5.66 6.68 6.23
3 8.79 9.12 7.19 8.15 7.55 8.16

Observaciones y sus promedios por tratamiento.


:::Una vez calculados los promedios de las observaciones para cada nivel de tratamiento, el siguiente paso es calcular los residuales. Es importante entender que este cálculo mide la diferencia entre cada observación individual y el promedio del nivel de tratamiento correspondiente. Los residuales proporcionan información crucial sobre cómo se ajusta el modelo a los datos.

A continuación, se presenta la tabla de residuales calculados:

( i ) ( e_{ij} )
1 -0.302
2 -0.022
3 0.488
4 0.278
5 -0.442
6 0.006
7 0.476
8 -0.354
9 -0.574
10 0.446
11 0.630
12 0.960
13 -0.970
14 -0.010
15 -0.610

Residuales.


La interpretación de los residuales permite evaluar la idoneidad del modelo estadístico. Un residual cercano a cero indica que la predicción es buena, mientras que valores positivos o negativos significativos sugieren que el modelo puede no estar capturando adecuadamente la variabilidad de los datos. Además, el análisis de los residuales puede revelar patrones que indiquen violaciones a los supuestos del modelo, como la normalidad.

Para la creación del gráfico cuantil, debemos seguir los siguientes pasos:

  1. Ordenar los residuales: Debemos ordenar los residuales \(e_{ij}\) de manera ascendente para obtener \(e_1, e_2, ..., e_N\), donde \(N\) es el número total de residuales.

  2. Llamar a los residuales ordenados: Debemos asignar una notación a los residuales ordenados como \(r_i\), donde \(i\) varía de \(1\) a \(N\). De esta manera, \(r_1 \leq r_2 \leq ... \leq r_N\). Esta asignación es una extensión del paso anterior y facilita el análisis y la visualización de los datos.

  3. Posición teórica: Para cada residual \(r_i\), se calcula la posición teórica \(P_i\). Aquí, \(P_i\) representa la probabilidad acumulada en la distribución normal para el \(i\)-ésimo residual. Esta posición indica la ubicación esperada del residual en una distribución normal.

  4. Cuantía teórica normal inversa: Se calcula el cuantíl teórico normal inverso \(Z_i\) correspondiente a \(P_i\). Esto se obtiene mediante la función inversa de la distribución normal estándar (también conocida como la función cuantil o la función probit). Donde \(\Phi^{-1}\) es la función inversa de la función de distribución acumulada de la normal estándar. Este cuantíl teórico proporciona la referencia para comparar los residuales observados con la distribución normal.

  5. Gráfico de dispersión: Se crea un gráfico de dispersión donde, normalmente, el eje x representa los cuantiles teóricos \(Z_i\) y el eje y representa los residuales ordenados \(r_i\). Es importante tener en cuenta que cada punto en el gráfico representa un par \((Z_i, r_i)\), y que la alineación de los puntos a lo largo de una línea recta indicará si los residuales siguen una distribución normal.

Es necesario recalcar que \(N\) para el problema propuesto, en el presente informe, es igual a \(15\).

1.4.1 Ordenar residuales

La organización de los residuales, de forma ascendente, es el siguiente paso en el análisis de la normalidad, ya que permite establecer una relación clara entre los datos observados y la distribución normal teórica.

Al calcular y ordenar los residuales, se obtiene una perspectiva sobre la adecuación del modelo a los datos experimentales, facilitando la construcción del gráfico de probabilidad normal, donde los residuales se comparan con los valores esperados de una distribución normal.

A continuación se muestra la tabla con los residuales ordenados \(r_i\):

( i ) ( \(e{ij}\) ) ( \(r_i\) )
1 -0.302 -0.970
2 -0.022 -0.610
3 0.488 -0.574
4 0.278 -0.442
5 -0.442 -0.354
6 0.006 -0.302
7 0.476 -0.022
8 -0.354 -0.010
9 -0.574 0.006
10 0.446 0.278
11 0.630 0.446
12 0.960 0.476
13 -0.970 0.488
14 -0.010 0.630
15 -0.610 0.960

Residuales ordenados.


::: {style=“text-align: justify;”} La organización de los residuales de forma ascendente permite establecer una relación clara entre los datos observados y la distribución normal teórica.

( i ) ($ e_{ij} $) ( \(r_i\) )
1 -0.302 -0.970
2 -0.022 -0.610
3 0.488 -0.574
4 0.278 -0.442
5 -0.442 -0.354
6 0.006 -0.302
7 0.476 -0.022
8 -0.354 -0.010
9 -0.574 0.006
10 0.446 0.278
11 0.630 0.446
12 0.960 0.476
13 -0.970 0.488
14 -0.010 0.630
15 -0.610 0.960

Residuales ordenados.


1.4.2 Cuantía teórica normal inversa

Para calcular los valores de la cuantía teórica normal inversa (Z_i) a partir de las posiciones teóricas (P_i), se utiliza la función inversa de la distribución normal estándar:

(Z_{i} = ^{-1}(P_{i}))

Donde:

  • (^{-1}) es la función inversa de la distribución normal estándar.
  • (P_i) es la posición teórica calculada previamente.

Estos valores (Z_i) se utilizarán para graficar los cuantiles observados contra los cuantiles esperados en un gráfico de probabilidad normal, lo cual facilitará la evaluación visual de la normalidad de los residuales. Un ajuste adecuado con la distribución normal se reflejará en una alineación cercana a la línea diagonal en el gráfico.

1.5 Gráfico de dispersión

Este gráfico sirve para evaluar visualmente la conformidad de los residuales con una distribución normal. En un gráfico ideal, los puntos deberían alinearse aproximadamente a lo largo de una línea diagonal recta, que representa la distribución normal estándar.

Para generar este gráfico en RStudio, se puede utilizar el siguiente código:

1.6 Codigo en R

library(ggplot2)
Warning: package 'ggplot2' was built under R version 4.4.3
# CREACIÓN DEL DATAFRAME 
tipo_mostrador <- factor(rep(1:3, each = 5))  
incremento_ventas <- c(5.43, 5.71, 6.22, 6.01, 5.29, 
                       6.24, 6.71, 5.88, 5.66, 6.68, 
                       8.79, 9.12, 7.19, 8.15, 7.55)

datos <- data.frame(tipo_mostrador, incremento_ventas)

# ANÁLISIS DE VARIANZA ANOVA
anova_model <- aov(incremento_ventas ~ tipo_mostrador, data = datos)
residuales <- residuals(anova_model)  # Extraer residuales

# GRÁFICO Q-Q
ggplot(data.frame(residuales), aes(sample = residuales)) +
  stat_qq() + stat_qq_line() +
  ggtitle("Gráfico Q-Q de los Residuales") +
  xlab("Cuantiles Teóricos") + ylab("Cuantiles Muestrales") +
  theme_minimal()

El gráfico de dispersión mostrado ilustra la relación entre los residuales ordenados \(r_i\) y los valores de la normal inversa \(Z_i\). En este gráfico, el eje \(X\) representa los valores teóricos \(Z_i\), mientras que el eje \(Y\) muestra los residuales ordenados \(r_i\).

El gráfico cuantil-cuantil muestra que la mayoría de los puntos se alinean con la línea de tendencia, lo que sugiere que los residuales siguen una distribución aproximadamente normal. No obstante, se presentan ligeras desviaciones en los extremos, lo que podría indicar la existencia de valores atípicos o una leve desviación de la normalidad en las colas de la distribución. En términos generales, la distribución de los residuales es aceptable, lo que permite asumir el cumplimiento del supuesto de normalidad y aplicar métodos paramétricos que dependen de esta condición.

El test de Shapiro-Wilk es una prueba estadística utilizada para evaluar si un conjunto de datos sigue una distribución normal. Fue desarrollado por Samuel Shapiro y Martin Wilk en \(1965\), es ampliamente reconocido por su alta potencia, especialmente con muestras pequeñas a medianas.

Esta prueba compara los valores observados de los datos con los valores esperados bajo una distribución normal. Calcula un estadístico, denotado como \(W\), que mide la correlación entre los datos ordenados y los cuantiles correspondientes de una distribución normal.

Un valor de \(W\) cercano a \(1\) indica que los datos se ajustan aproximadamente a una distribución normal, mientras que un valor significativamente menor sugiere una desviación de la normalidad. Además, el \(p-value\) asociado al test ayuda a decidir si se rechaza la hipótesis nula de normalidad. Si el \(p-value\) es menor que un umbral establecido (generalmente \(\alpha = 0.05\)), se concluye que los datos no siguen una distribución normal.

Para realizar el test de Shapiro-Wilk manualmente, siguiendo una prueba de hipótesis para determinar la normalidad, se deben seguir estos pasos:

Plantear hipótesis: Establecer la hipótesis nula (\(H_0\)) que indica que los datos siguen una distribución normal, y la hipótesis alternativa (\(H_1\)) que indica que los datos no siguen una distribución normal.

Calcular el estadístico de prueba: Calcular el estadístico de prueba \(W\) utilizando los residuales ordenados y los coeficientes obtenidos a partir de la muestra.

Buscar el estadístico teórico, en tablas: Comparar el valor calculado de \(W\) con el valor crítico en las tablas específicas de Shapiro-Wilk para determinar si se rechaza \(H_0\).

Definir cuando rechazo la hipótesis nula: Para un nivel de significancia \(\alpha = 0.05\), rechazamos \(H_0\) si el estadístico de prueba es mayor al estadístico de referencia, o si el \(p-value\) es menor que el nivel de significancia.

Análisis en RStudio: Se utilizará un código en el software de RStudio para validar los resultados del test de Shapiro-Wilk.

Estos pasos se desarrollarán a partir de los siguientes datos y tablas, calculados en el apartado Graficamente:

Tipo de Mostrador Ventas 1 Ventas 2 Ventas 3 Ventas 4 Ventas 5 Promedio (%)
1 5.43 5.71 6.22 6.01 5.29 5.73
2 6.24 6.71 5.88 5.66 6.68 6.23
3 8.79 9.12 7.19 8.15 7.55 8.16

Observaciones y sus promedios por tratamiento.


( i ) ( e_{ij} )
1 -0.302
2 -0.022
3 0.488
4 0.278
5 -0.442
6 0.006
7 0.476
8 -0.354
9 -0.574
10 0.446
11 0.630
12 0.960
13 -0.970
14 -0.010
15 -0.610

Residuales.


( i ) ( e_{ij} ) ( r_i )
1 -0.302 -0.970
2 -0.022 -0.610
3 0.488 -0.574
4 0.278 -0.442
5 -0.442 -0.354
6 0.006 -0.302
7 0.476 -0.022
8 -0.354 -0.010
9 -0.574 0.006
10 0.446 0.278
11 0.630 0.446
12 0.960 0.476
13 -0.970 0.488
14 -0.010 0.630
15 -0.610 0.960

Residuales ordenados.


Ahora sí, a partir de las tablas construidas anteriormente, sigamos el paso a paso propuesto.


2 Prueba de hipótesis

Cuando los datos siguen una distribución normal, es razonable asumir que los residuales también lo harán, ya que los residuales representan la diferencia entre los valores observados y los valores esperados bajo el modelo de regresión.

\(\left\{\begin{matrix} H_0:e_{ij} \sim N(\mu,\sigma^2) \\ H_1:e_{ij} \nsim N(\mu,\sigma^2) \end{matrix}\right.\)


Donde \(i = 1, \ldots, a\) (niveles del factor) y \(j = 1, \ldots, n\) (total de corridas experimentales), con \(a = 5\) y \(n = 15\).

La hipótesis nula \(H_0\) establece que los residuales siguen una distribución normal, lo cual es un supuesto fundamental para la validez de muchas pruebas estadísticas, como las pruebas \(t\) y las pruebas \(F\) en el análisis de varianza. Por otro lado, la hipótesis alternativa \(H_1\) sugiere que los residuales no siguen una distribución normal, lo que indicaría la necesidad de considerar transformaciones de los datos, métodos robustos o modelos alternativos que no dependan de la suposición de normalidad.


En este apartado, se procederá a calcular el estadístico de prueba \(W\) a partir de los datos proporcionados. Los residuales ordenados y los coeficientes específicos se utilizarán para determinar si los datos se ajustan a la normalidad. Este estadístico, desarrollado por Shapiro y Wilk, es especialmente efectivo para muestras pequeñas y medianas, proporcionando una medida robusta de la normalida

.

Cuando los residuales se encuentran ordenados, como en este caso, estos forman el siguiente conjunto:

\(r_i:{X_1, X_2, X_3, ..., X_N}\), donde \(N\) se refiere a la cantidad de residuales o al total de corridas experimentales.

\(i: {1, 2, 3, ..., N}\), donde \(N\) se refiere a la cantidad de observaciones o al total de corridas experimentales.

En el caso del problema propuesto, los conjuntos serían:

\(r_i:{X_1, X_2, X_3, ..., X_{20}}\)

\(i: {1, 2, 3, ..., 20}\)

Entonces, el estadístico de prueba \(W\) se calcula con la siguiente ecuación:

\(W = \frac {1} {(N-1) \ \cdot \ S^2} \ \cdot \ [ \ \sum_{i=1}^{h}( \ a_i( \ X_{N-i+1}-X_i \ ) \ ) \ ]^2\)

Donde:

\(h:\left\{\begin{matrix} \frac {N} {2}, \ si \ N \ es \ par \\ \frac {N-1} {2}, \ si \ N \ es \ impar \end{matrix}\right.\)

\(N\): es el número total de observaciones.

\(S^2\): es la varianza muestral.

\(a_i\): son los coeficientes de Shapiro-Wilk, que dependen del tamaño de la muestra y se obtienen de tablas específicas.

\(X_{N-i+1}\) y \(X_i\): son los valores de los residuales ordenados.

El cálculo del estadístico \(W\) permite comparar la correlación entre los residuales observados y los valores teóricos que se esperarían si los datos siguieran una distribución normal. Un valor de \(W\) cercano a \(1\) indica que los datos son aproximadamente normales, mientras que un valor significativamente menor sugiere una desviación de la normalidad.

En este caso, al trabajar con \(N = 15\) observaciones, y este ser un número impar, se determina que \(h = \frac {N-1}{2}\), es decir, \(h = 7\). Esto implica que se utilizarán \(7\) coeficientes \(a_i\) correspondientes para los cálculos de \(W\).

A continuación, se presenta una tabla con los valores de los residuales \(r_i\), los índices \(i\), y los índices \(h\):

( i ) ( \(e{ij}\) ) ( \(r_i\) ) ( h )
1 -0.970 -0.970 1
2 -0.610 -0.610 2
3 -0.574 -0.574 3
4 -0.354 -0.354 4
5 -0.302 -0.302 5
6 -0.022 -0.022 6
7 0.006 0.006 7
8 0.278 0.278
9 0.446 0.446
10 0.476 0.476
11 0.488 0.488
12 0.630 0.630
13 0.960 0.960
14 -0.010 -0.010
15 0.630 0.630

A continuación, se presenta la tabla con los valores de los residuales \(r_i\), los índices \(i\), los índices \(h\), y los coeficientes \(a_i\) correspondientes

( i ) ( e_{ij} ) ( r_i ) ( h ) ( a_i )
1 -0.970 -0.970 1 0.5150
2 -0.610 -0.610 2 0.3306
3 -0.574 -0.574 3 0.2495
4 -0.354 -0.354 4 0.1878
5 -0.302 -0.302 5 0.1353
6 -0.022 -0.022 6 0.0880
7 0.006 0.006 7 0.0433
8 0.278 0.278
9 0.446 0.446
10 0.476 0.476
11 0.488 0.488
12 0.630 0.630
13 0.960 0.960
14 -0.010 -0.010
15 0.630 0.630

Coeficientes \(a_i\) para el cálculo de \(W\)

:::

2.1 Codigo en R, TEST (Shapiro-Wilk)

## 1.B - TEST FORMAL DE NORMALIDAD (Shapiro-Wilk)

shapiro_test <- shapiro.test(residuales)
print(shapiro_test)

    Shapiro-Wilk normality test

data:  residuales
W = 0.974, p-value = 0.9122
##  PLANTEAMIENTO DEL TEST DE SHAPIRO-WILK:
##
## Hipótesis:
## - H0 (Hipótesis nula): Los datos siguen una distribución normal.
## - H1 (Hipótesis alternativa): Los datos NO siguen una distribución normal.
##  Resultado del test:
##  Estadístico de prueba W = 0.974
##  p-valor = 0.9122
## Resultados del Test de Normalidad

De R obtenemos los siguientes resultados:

Estadístico de prueba: ( W = 0.974 ) P-value: ( 0.9122 )

De las tablas de cuantiles teóricos para el estadístico ( W ), obtenemos el siguiente dato:
Si ( = 0.05 ) y la cantidad de residuales es ( n = 15 ), entonces:

[ W_{1-} = W_{1-0.05} = W_{0.95} = 0.984 ]

Por lo que:

[ W = 0.974 > W_{0.95} = 0.984 ]

Dado que el estadístico de prueba no supera el umbral teórico, no se rechaza la hipótesis nula ( H_0 ), lo que indica que los residuales ( e_{ij} ) proceden de una distribución normal.

Comparacion con el p-valor

Decisión: Si p-valor < 0.05, se rechaza H0 → Los datos “no” son normales. Si p-valor ≥ 0.05, no se rechaza H0 → No hay evidencia suficiente para decir que los datos no son normales. Como el p-valor obtenido (0.9122) es “mucho mayor” que 0.05, “no se rechaza la hipótesis nula”. Esto significa que “los residuales siguen una distribución normal”. En el contexto del problema, “se cumple el supuesto de normalidad”,lo que permite continuar con el análisis ANOVA sin problemas. Aceptamos la hipótesis nula en base al valor de \(W\) y el \(valor \ p\).


# Verificación del Supuesto de Varianza Constante - HOMOCEDASTICIDAD

2.2 Verificación Gráfica

Una forma de verificar el supuesto de varianza constante (es decir, que los tratamientos tienen la misma varianza) es mediante un gráfico de dispersión con las siguientes variables:

Eje X → Valores ajustados o predichos \[ \hat{y}_{ij} \] Eje Y → Residuales \[ e_{ij} \] :::{style=“text-align: justify;”} Si los puntos en este gráfico de dispersión se distribuyen de manera aleatoria dentro de una banda horizontal, sin mostrar un patrón claro y definido, esto indica que el supuesto de homocedasticidad se cumple, es decir, que los tratamientos tienen varianzas iguales.

Para este problema, procedemos a resolver en R

2.3 Codigo en R

# PRUEBA DE HOMOCEDASTICIDAD
mostradores <- c(1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 3, 3, 3, 3, 3) 
incrementos <- c(5.43, 5.71, 6.22,6.01,5.29, 6.24, 6.71, 5.88,5.66,6.68, 8.79, 9.12, 7.19, 8.15,7.55) 
mostradores <- as.factor(mostradores) 
modelo <- lm(incrementos~mostradores)
anova <- aov(modelo) 
residuales <- anova$residuals
residuales
     1      2      3      4      5      6      7      8      9     10     11 
-0.302 -0.022  0.488  0.278 -0.442  0.006  0.476 -0.354 -0.574  0.446  0.630 
    12     13     14     15 
 0.960 -0.970 -0.010 -0.610 
ajustados <- anova$fitted.values
ajustados
    1     2     3     4     5     6     7     8     9    10    11    12    13 
5.732 5.732 5.732 5.732 5.732 6.234 6.234 6.234 6.234 6.234 8.160 8.160 8.160 
   14    15 
8.160 8.160 

Paso 1: Crear Vectores de Datos Se crean dos vectores de datos:

  • mostradores: un vector con valores que representan diferentes categorías o grupos (en este caso, 1, 2 o 3).
  • incrementos: un vector con valores que representan las medidas o respuestas asociadas a cada categoría.

2.4 Paso 2: Convertir el Vector mostradores a Factor

Se utiliza la función as.factor() para convertir el vector mostradores en un factor, lo que indica que los valores en este vector son categorías o grupos, en lugar de valores numéricos.

2.5 Paso 3: Crear un Modelo Lineal

Se utiliza la función lm() para crear un modelo lineal que relaciona las variables incrementos y mostradores. El modelo se almacena en la variable modelo.

2.6 Paso 4: Realizar una Prueba de Varianza (ANOVA)

Se utiliza la función aov() para realizar una prueba de varianza (ANOVA) sobre el modelo lineal creado en el paso anterior. El resultado se almacena en la variable anova.

2.7 Paso 5: Extraer los Residuales y los Valores Ajustados

Se extraen los residuales (diferencias entre los valores observados y los valores predichos) y los valores ajustados (valores predichos por el modelo) del objeto anova y se almacenan en las variables residuales y ajustados, respectivamente.

2.8 Graficamos a partir de los datos

Aquí tienes la tabla en formato Quarto:

Índice Residuales Ajustados
1 -0.302 5.732
2 -0.022 5.732
3 0.488 5.732
4 0.278 5.732
5 -0.442 5.732
6 0.006 6.234
7 0.476 6.234
8 -0.354 6.234
9 -0.574 6.234
10 0.446 6.234
11 0.630 8.160
12 0.960 8.160
13 -0.970 8.160
14 -0.010 8.160
15 -0.610 8.160
## Verificación gráfica
plot(x=ajustados, y=residuales, main = "VERIFICACIÓN HOMOCEDASTICIDAD", xlab = 
       "Ajustados por el modelo", ylab = "Residuales", pch= 20, col= "#BF3EFF")

2.9 Verificación gráfica de la homocedasticidad

  • plot(x=ajustados, y=residuales, ...): se crea un gráfico de dispersión para visualizar la relación entre los valores ajustados y los residuales.
  • main = "VERIFICACIÓN HOMOCEDASTICIDAD": se establece el título del gráfico.
  • xlab = "Ajustados por el modelo": se establece el etiqueta para el eje x.
  • ylab = "Residuales": se establece el etiqueta para el eje y.
  • pch= 20: se establece el tipo de símbolo para los puntos del gráfico.
  • col= "#BF3EFF": se establece el color para los puntos del gráfico.

El objetivo de este gráfico es verificar si la varianza de los residuales es constante en todos los niveles de los valores ajustados. Si la varianza es constante, se dice que el modelo es homocedástico. Si la varianza no es constante, se dice que el modelo es heterocedástico.

3 Test de Bartlett

El test de Bartlett es una prueba estadística utilizada para determinar si la varianza de dos o más grupos es igual. Fue desarrollado por el estadístico británico Maurice Bartlett en 1937.El test de Bartlett se utiliza comúnmente en análisis de varianza (ANOVA) para verificar la homocedasticidad, es decir, si la varianza de los residuales es constante en todos los grupos.

3.1 Hipótesis

La prueba de Bartlett se basa en la siguiente hipótesis:

  • H0: La varianza es igual en todos los grupos. ### Hipótesis Nula (H0) H0: σ₁² = σ₂² = … = σₖ²

Donde:

  • σ₁², σ₂², …, σₖ² son las varianzas de los k grupos.

  • H1: La varianza no es igual en todos los grupos. H1: No todas las varianzas son iguales.

Es decir, existe al menos un par de grupos con varianzas diferentes:

σᵢ² ≠ σⱼ² para algún i ≠ j.

3.2 Estadística de prueba

El test de Bartlett calcula una estadística que sigue una distribución chi-cuadrada. Si la estadística es mayor que un valor crítico, se rechaza la hipótesis nula y se concluye que la varianza no es igual en todos los grupos.

3.3 Sensibilidad

El test de Bartlett es sensible a la normalidad de los datos y a la presencia de outliers. Por lo tanto, es importante verificar la normalidad y la presencia de outliers antes de realizar el test de Bartlett.

3.4 ** Verificación Analítica de la Homocedasticidad**

Se utiliza el test de Bartlett para verificar si la varianza de los residuales es igual en todos los grupos definidos por la variable mostradores.

3.5 Test de Bartlett

La función bartlett.test() se utiliza para realizar el test de Bartlett. La sintaxis es la siguiente:

bartlett.test(residuales ~ mostradores)

    Bartlett test of homogeneity of variances

data:  residuales by mostradores
Bartlett's K-squared = 2.2112, df = 2, p-value = 0.331

Donde:

  • residuales es el vector de residuales obtenidos del modelo.
  • mostradores es la variable que define los grupos.

4 Resultados

El resultado del test de Bartlett incluye:

  • La estadística de prueba (Chi-cuadrada).
  • El valor p asociado a la estadística de prueba.
  • El número de grados de libertad.

Si el valor p es menor que el nivel de significación (generalmente 0.05), se rechaza la hipótesis nula y se concluye que la varianza no es igual en todos los grupos.


# Cálculo del Cuantil Teórico de la Distribución Chi-Cuadrada

Se utiliza la función `qchisq()` para calcular el cuantil teórico de la distribución chi-cuadrada con:

* `0.05` como nivel de significación (alpha)
* `2` como número de grados de libertad
* `lower.tail = F` para indicar que se quiere calcular el cuantil superior (es decir, el valor por encima del cual se encuentra el 5% de la distribución)

El resultado es:
::: {.cell}

```{.r .cell-code}
qchisq(0.05, 2, lower.tail = F)
[1] 5.991465

5 Comparación con el Valor p y el Estadístico Calculado

Se comparan los resultados con:

### Si P-value < Alpha rechazo
0.331<0.05 #falso, no se rechaza
[1] FALSE
### Si 
2.2112 > 5.991465 #Falso, no se rechaza
[1] FALSE
  • El valor p (0.331) y el nivel de significación (0.05)
  • El estadístico calculado (2.2112) y el cuantil teórico (5.991465)

6 Conclusión

Basándose en las comparaciones, se puede concluir que:

  • El valor p (0.331) es mayor que el nivel de significación (0.05), por lo que no se rechaza la hipótesis nula.
  • El estadístico calculado (2.2112) es menor que el cuantil teórico (5.991465), por lo que no se rechaza la hipótesis nula.

Por lo tanto podemos concluir que no hay evidencia estadística para rechazar la hipótesis nula, lo que sugiere que la varianza es igual en todos los grupos.


7 Verificación de supuesto de Independencia

8 Independencia

El supuesto de independencia indica que los errores de la regresión no deben estar correlacionados entre sí. Si hay autocorrelación presente, puede afectar la precisión de los coeficientes y las pruebas de hipótesis, lo que lleva a conclusiones erróneas sobre la importancia de las variables predictoras.

8.0.1 Autocorrelación

La autocorrelación se refiere a la presencia de un patrón sistemático en la distribución de los errores del modelo a lo largo del tiempo. En un modelo de regresión, los errores o residuos deberían distribuirse de manera aleatoria y seguir una distribución normal con media cero y varianza constante. ## Codigo en R

#Datos en orden de corrida en experimental

Mostrador <- c(1,3,1,2,2,1,2,1,3,3,3,2,1,2,3)

Ventas <- c(6.01, 8.79, 5.43, 6.71, 5.66, 5.29, 5.88, 5.71, 9.12, 7.55, 8.15, 6.24, 6.22, 6.68, 7.19)

#FACTTOR 

Mostrador <- as.factor(Mostrador)

#MOdelo
modelo <-  lm(Ventas~Mostrador)

#ANOVA

anova <- aov(modelo)
summary(anova)
            Df Sum Sq Mean Sq F value   Pr(>F)    
Mostrador    2 16.428   8.214   23.96 6.46e-05 ***
Residuals   12  4.114   0.343                     
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
#Residuales 
residuales <- anova$residuals

orden <-  c(1:15)

8.1 Verificación gráfica

La graficación de los residuales en orden temporal de recolección de los datos es útil para detectar correlaciones entre los residuales ( e_{ij} ).

Una tendencia a tener corridas de residuales ( e_{ij} ) positivos o negativos indica una correlación positiva. Esto implicaría que el supuesto de independencia de los errores ( _{ij} ) ha sido violado.

La aleatorización adecuada del experimento es un paso clave para poder conseguir independencia. ## Codigo en R

#Residuales 
residuales <- anova$residuals

orden <-  c(1:15)

8.2 Gráfico de dispersión: Residuales vs Orden de corrida experimental

Para realizar la verificación gráfica, construimos un gráfico de dispersión donde:

  • Eje X: Orden de corrida experimental.
  • Eje Y: Residuales organizados por orden de corrida.
#Grafico orden Vs residuales orden

plot(x=orden, y=residuales)

#CONCLUSION

#A partir del gráfico de residuos vs. orden de corrida, no se observa un patrón claro ni 
#una tendencia definida en los puntos. Los residuos parecen distribuirse de manera aleatoria 
#dentro de una banda horizontal, sin agrupaciones ni tendencias.

#Por lo tanto, no se viola el supuesto de independencia de los errores, 
#lo que sugiere que la aleatorización del experimento fue adecuada y que no hay correlación 
#entre los errores.

Aquí tienes el texto en formato Quarto:

8.3 Verificación Analítica de la Independencia

Una prueba analítica para verificar la independencia entre residuos consecutivos es la prueba de Durbin-Watson. Esta prueba permite diagnosticar la presencia de correlación (autocorrelación) entre los residuos consecutivos (ordenados en el tiempo), que es una posible manifestación de la falta de independencia.

8.3.1 Formulación de Hipótesis

Sea \(\rho\) el parámetro que representa la correlación entre residuos consecutivos, es decir, \(Corr(e_t, e_{t+1})\). La hipótesis en la prueba de Durbin-Watson es:

  • \(H_0: \rho = 0\)
  • \(H_1: \rho > 0\)

8.3.2 Estadístico de Prueba

Calculamos el estadístico de prueba \(d_0\) como sigue:

\[d_0 = \frac{\sum_{t=2}^T (e_t - e_{t-1})^2}{\sum_{t=1}^T e_t^2}\]

Donde los \(e_t\) corresponden a los residuales ordenados en el tiempo.

8.3.3 Interpretación del Resultado

Se compara el estadístico de prueba \(d_0\) con el estadístico teórico, de tabla, siguiendo la siguiente regla:

  • Si \(d_0 < d_L\), se rechaza \(H_0\)
  • Si \(d_L < d_0 < d_U\), prueba no concluyente
  • Si \(d_U < d_0 < 4-d_U\), no se rechaza \(H_0\)
  • Si \(4-d_U < d_0 < 4-d_L\), prueba no concluyente
  • Si \(d_0 > 4-d_L\), se rechaza \(H_0\)

Para entrar a las tablas se requiere el número de residuos \(n\), el nivel de significancia prefijado \(\alpha\) y el número de variables explicativas del modelo (cantidad de tratamientos).

En caso de interesar la hipótesis de autocorrelación negativa \(H_1: \rho < 0\), se utiliza el estadístico \(d_0' = 4 - d_0\). En caso de interesar la hipótesis bilateral con alternativa \(H_1: \rho \neq 0\), se combinan las dos pruebas unilaterales de tamaño \(\alpha\) de manera que la prueba bilateral tenga el tamaño deseado \(2\alpha\).

8.4 Verificación Analítica mediante el Test de Durbin-Watson

La verificación analítica mediante el Test de Durbin-Watson se realiza de la siguiente manera:

# Cargar la biblioteca car


library(car)
Warning: package 'car' was built under R version 4.4.3
Cargando paquete requerido: carData
Warning: package 'carData' was built under R version 4.4.3
durbin = durbinWatsonTest(modelo,alternative = "two.sided")
durbin
 lag Autocorrelation D-W Statistic p-value
   1      -0.2009664      2.154464   0.714
 Alternative hypothesis: rho != 0
#Cantidad de residuales n=15

#Cantidad de tratamientos a=3=k

dl=0.814
du=1.750
do=durbin$dw
du4 = 2.25
dl4=3.186

#como:
#du=1.750 < do=2.154 < 4 - du=2.25

8.5 Resultado del Test de Durbin-Watson

Según el resultado anterior, obtenemos lo siguiente:

9 Cantidad de residuales

n = 15

10 Cantidad de tratamientos

a = 3 k = a

11 Valores críticos

dl = 0.814 du = 1.750

12 Estadístico de prueba

do = durbin$dw

13 Valores críticos adicionales

du4 = 2.25 dl4 = 3.186

13.0.1 Interpretación del Resultado

Por lo tanto, no se rechaza \(H_0\). Esto significa que los residuales no poseen autocorrelación serial. En otras palabras, los residuales son independientes y no presentan un patrón de correlación entre sí, existe suficiente evidencia estadística para rechazar H0 , por lo que no existe correlación serial entre los residuales organizados por orden de corrida experimental. Por lo tanto,se cumple mediante el Test de Durbin-Watson el criterio de independencia. #

14 Conclusión

En base a los resultados obtenidos, se puede concluir que:

  • Normalidad: Los residuales siguen una distribución normal, lo que permite cumplir con el supuesto de normalidad y continuar con el análisis ANOVA sin problemas.
  • Homocedasticidad: No hay evidencia estadística para rechazar la hipótesis nula, lo que sugiere que la varianza es igual en todos los grupos.
  • Independencia: Los residuales no poseen autocorrelación serial, lo que indica que los residuales son independientes y no presentan un patrón de correlación entre sí.

En general, se puede afirmar que los supuestos necesarios para realizar un análisis ANOVA se cumplen en este caso, lo que permite tener confianza en los resultados obtenidos.

Se puede concluir que el tipo de mostrador utilizado tiene un efecto significativo en el aumento de ventas, ya que los datos cumplen con los supuestos de normalidad, homocedasticidad e independencia. Esto sugiere que los diferentes tipos de mostradores pueden tener un impacto diferente en el aumento de ventas.