library(ggplot2)
# CREACIÓN DEL DATAFRAME
tipo_mostrador <- factor(rep(1:3, each = 5))
incremento_ventas <- c(5.43, 5.71, 6.22, 6.01, 5.29,
6.24, 6.71, 5.88, 5.66, 6.68,
8.79, 9.12, 7.19, 8.15, 7.55)
datos <- data.frame(tipo_mostrador, incremento_ventas)
# ANÁLISIS DE VARIANZA ANOVA
anova_model <- aov(incremento_ventas ~ tipo_mostrador, data = datos)
residuales <- residuals(anova_model) # Extraer residuales
# GRÁFICO Q-Q
ggplot(data.frame(residuales), aes(sample = residuales)) +
stat_qq() + stat_qq_line() +
ggtitle("Gráfico Q-Q de los Residuales") +
xlab("Cuantiles Teóricos") + ylab("Cuantiles Muestrales") +
theme_minimal()ANOVA Experimento de un factor completo al azar de efectos fijos
1 Introducción
En el ámbito del marketing y la distribución de productos, la presentación en los puntos de venta juega un papel crucial en el comportamiento del consumidor. Un distribuidor de refrescos busca evaluar la efectividad de tres diseños de mostradores ubicados en los extremos de los pasillos, con el objetivo de determinar si influyen significativamente en el aumento de las ventas.
Para ello, se ha diseñado un experimento en el que 15 tiendas de características similares han sido seleccionadas para probar estos mostradores durante un mes. La variable de interés es el porcentaje de incremento en las ventas en comparación con el comportamiento típico de cada tienda sin mostrador.
El análisis de los datos obtenidos se llevará a cabo mediante pruebas estadísticas en R, siguiendo tres etapas fundamentales:
- Verificación de normalidad: Se evaluará si los datos siguen una distribución normal, utilizando métodos gráficos y el test de Shapiro-Wilk
- Verificación de homocedasticidad: Se comprobará si las variaciones de los grupos son homogéneas, mediante representaciones gráficas y el test de Bartlett.
- Verificación de independencia: Se analizará si el orden de ejecución de las pruebas experimentales afecta los resultados, empleando herramientas gráficas y el test de Durbin-Watson. A través de estas pruebas, se determinará si las diferencias en el aumento de ventas pueden atribuirse al tipo de mostrador utilizado o si existen otros factores que podrían influir en los resultados. Finalmente, se presentarán las conclusiones obtenidas en función de los hallazgos estadísticos.
2 Planteamiento del Problema
Un distribuidor de refrescos quiere evaluar la efectividad de tres diseños de mostradores ubicados en los extremos de los pasillos para aumentar las ventas. Para ello, 15 tiendas de características similares participarán en un estudio donde cada una probará un mostrador durante un mes. Se medirá el incremento porcentual en las ventas y se analizará si el tipo de mostrador influye en dicho aumento.
Datos
| Tipo de Mostrador | Incremento 1 | Incremento 2 | Incremento 3 | Incremento 4 | Incremento 5 |
|---|---|---|---|---|---|
| 1 | 5.43 | 5.71 | 6.22 | 6.01 | 5.29 |
| 2 | 6.24 | 6.71 | 5.88 | 5.66 | 6.68 |
| 3 | 8.79 | 9.12 | 7.19 | 8.15 | 7.55 |
En la tabla, las réplicas de cada mostrador, se refieren al porcentaje del incremento de ventas. A lo largo del análisis, se utilizará un nivel de significancia de \(0.05\) para las pruebas estadísticas cuando sea necesario.
3 Verificación de supuesto de normalidad
En esta sección, se procederá a la verificación del supuesto de normalidad utilizando métodos gráficos y analíticos. El objetivo es evaluar siel porcentaje del incremento de ventas,siguen una distribución normal. Para analizar los datos, utilizamos el siguiente modelo:
\(Y_{ij} \sim N (\mu + \tau_i, \ \sigma^2)\)
\(\forall \ i \ e \ 1, 2, 3, 4, 5 \ \ j \ e\ 1, 2, 3, 4\)
Donde:
\(Y_{ij}\): es el porcentaje de incremento en ventas para la tienda \(j\) que usa el mostrador \(i\).
\(\mu\): Media general del incremento de ventas
\(\tau_i\): efecto del tipo de mostrador \(i\) (factor de interes)
\(\sigma^2\): Varianza muestral.
\(Y_{ij} \sim N (\mu + \tau_i, \ \sigma^2)\) significa que el porcentaje de incremento de ventas (\(Y_{ij}\)) se distribuyen normalmente con una media que varía según el tipo de mostrador (\(\mu + \tau_i\)) y una varianza constante (\(\sigma^2\)).
El supuesto de normalidad garantiza la validez de las inferencias estadísticas derivadas del modelo. Si los datos no siguen una distribución normal, las pruebas paramétricas podrían producir resultados incorrectos, y podría ser necesario aplicar transformaciones a los datos o utilizar métodos no paramétricos alternativos.
Para verificar la normalidad al problema propuesto, aplicamos dos enfoques principales:
Método gráfico: Este método proporciona una representación visual de la distribución de los datos y permiten observar si se ajustan a una distribución normal. Aquí se utiliza el gráfico cuantil-cuantil (Q-Q plot) para comparar los cuantiles observados de los datos con los cuantiles esperados de una distribución normal teórica.
Métodos analíticos: Estos métodos proporcionan una evaluación formal de la normalidad mediante pruebas estadísticas. Se emplean el test de Shapiro-Wilk para evaluar si los datos se ajustan a una distribución normal. Estas pruebas proporcionan valores p que ayudan a decidir si se puede rechazar la hipótesis nula de normalidad.
3.1 Residuales
Se define un residual \(e_{ij}\) como la diferencia entre la observación original \(Y_{ij}\) y el valor ajustado o estimado \(\hat{Y}_{ij}\) proporcionado por el modelo estadístico. El residual también refleja la desviación entre los datos observados y lo que predice el modelo. Los residuales son fundamentales en el análisis de datos porque representan la variabilidad que no ha sido explicada por el modelo. Matemáticamente, el residual se expresa como:
\(e_{ij} = Y_{ij}-\hat{Y}_{ij}\), donde \(\hat{Y}_{ij} = \bar{Y}_{i.}\)
\(e_{ij} = Y_{ij}-\bar{Y}_{i.}\)
Donde:
\(e_{ij}\): es el residual para la \(j-ésima\) observación en el \(i-ésimo\) nivel del mostrador.
\(Y_{ij}\): es el porcentaje de incremento en ventas en la \(j-ésima\) réplica para el \(i-ésima\) nivel del mostrador.
\(\bar{Y}_{i.}\): Promedio de las observaciones para el porcentaje de incremento de ventas \(i\)
3.2 Verificación Gráfica
El análisis gráfico de los residuales evalúa la adecuación de un modelo estadístico. En este contexto, el gráfico cuantil-cuantil se utiliza para verificar si los residuales siguen una distribución normal. En este gráfico, se comparan los cuantiles observados de los residuales con los cuantiles esperados de una distribución normal teórica.
Por ende, si los residuales siguen una distribución normal, los puntos en el gráfico se alinearán aproximadamente a lo largo de una línea recta.
Primero, se calculan los promedios de las observaciones para cada nivel de tratamiento usando la fórmula de la media muestral:
Donde:
\(\bar X\): Es la media muestral.
\(X_i\): son los valores individuales de la muestra.
\(n\): es el número total de observaciones en la muestra.
Para cada nivel de tratamiento, los residuales se obtienen restando el promedio del nivel a cada observación individual. A continuación, se presenta la tabla con las observaciones y sus promedios:
| Tipo de Mostrador | Ventas 1 | Ventas 2 | Ventas 3 | Ventas 4 | Ventas 5 | Promedio (%) |
|---|---|---|---|---|---|---|
| 1 | 5.43 | 5.71 | 6.22 | 6.01 | 5.29 | 5.73 |
| 2 | 6.24 | 6.71 | 5.88 | 5.66 | 6.68 | 6.23 |
| 3 | 8.79 | 9.12 | 7.19 | 8.15 | 7.55 | 8.16 |
Una vez calculados los promedios de las observaciones para cada nivel de tratamiento, el siguiente paso es calcular los residuales. Es importante entender que este cálculo mide la diferencia entre cada observación individual y el promedio del nivel de tratamiento correspondiente. Los residuales proporcionan información crucial sobre cómo se ajusta el modelo a los datos.
A continuación, se presenta la tabla de residuales calculados:
| ( i ) | ( \(e_{ij}\) ) |
|---|---|
| 1 | -0.302 |
| 2 | -0.022 |
| 3 | 0.488 |
| 4 | 0.278 |
| 5 | -0.442 |
| 6 | 0.006 |
| 7 | 0.476 |
| 8 | -0.354 |
| 9 | -0.574 |
| 10 | 0.446 |
| 11 | 0.630 |
| 12 | 0.960 |
| 13 | -0.970 |
| 14 | -0.010 |
| 15 | -0.610 |
La interpretación de los residuales permite evaluar la idoneidad del modelo estadístico. Un residual cercano a cero indica que la predicción es buena, mientras que valores positivos o negativos significativos sugieren que el modelo puede no estar capturando adecuadamente la variabilidad de los datos. Además, el análisis de los residuales puede revelar patrones que indiquen violaciones a los supuestos del modelo, como la normalidad.
Para la creación del gráfico cuantil, debemos seguir los siguientes pasos:
Ordenar los residuales: Debemos ordenar los residuales \(e_{ij}\) de manera ascendente para obtener \(e_1, e_2, ..., e_N\), donde \(N\) es el número total de residuales.
Llamar a los residuales ordenados: Debemos asignar una notación a los residuales ordenados como \(r_i\), donde \(i\) varía de \(1\) a \(N\). De esta manera, \(r_1 \leq r_2 \leq ... \leq r_N\). Esta asignación es una extensión del paso anterior y facilita el análisis y la visualización de los datos.
Posición teórica: Para cada residual \(r_i\), se calcula la posición teórica \(P_i\). Aquí, \(P_i\) representa la probabilidad acumulada en la distribución normal para el \(i\)-ésimo residual. Esta posición indica la ubicación esperada del residual en una distribución normal.
Cuantía teórica normal inversa: Se calcula el cuantíl teórico normal inverso \(Z_i\) correspondiente a \(P_i\). Esto se obtiene mediante la función inversa de la distribución normal estándar (también conocida como la función cuantil o la función probit). Donde \(\Phi^{-1}\) es la función inversa de la función de distribución acumulada de la normal estándar. Este cuantíl teórico proporciona la referencia para comparar los residuales observados con la distribución normal.
Gráfico de dispersión: Se crea un gráfico de dispersión donde, normalmente, el eje x representa los cuantiles teóricos \(Z_i\) y el eje y representa los residuales ordenados \(r_i\). Es importante tener en cuenta que cada punto en el gráfico representa un par \((Z_i, r_i)\), y que la alineación de los puntos a lo largo de una línea recta indicará si los residuales siguen una distribución normal.
Es necesario recalcar que \(N\) para el problema propuesto, en el presente informe, es igual a \(15\).
3.2.1 Ordenar residuales
La organización de los residuales, de forma ascendente, es el siguiente paso en el análisis de la normalidad, ya que permite establecer una relación clara entre los datos observados y la distribución normal teórica.
Al calcular y ordenar los residuales, se obtiene una perspectiva sobre la adecuación del modelo a los datos experimentales, facilitando la construcción del gráfico de probabilidad normal, donde los residuales se comparan con los valores esperados de una distribución normal.
A continuación se muestra la tabla con los residuales ordenados \(r_i\):
| ( i ) | ( \(e{ij}\) ) | ( \(r_i\) ) |
|---|---|---|
| 1 | -0.302 | -0.970 |
| 2 | -0.022 | -0.610 |
| 3 | 0.488 | -0.574 |
| 4 | 0.278 | -0.442 |
| 5 | -0.442 | -0.354 |
| 6 | 0.006 | -0.302 |
| 7 | 0.476 | -0.022 |
| 8 | -0.354 | -0.010 |
| 9 | -0.574 | 0.006 |
| 10 | 0.446 | 0.278 |
| 11 | 0.630 | 0.446 |
| 12 | 0.960 | 0.476 |
| 13 | -0.970 | 0.488 |
| 14 | -0.010 | 0.630 |
| 15 | -0.610 | 0.960 |
3.2.2 Calcular normal inversa
Para calcular los valores de la normal inversa \(Z_i\) a partir de las posiciones teóricas \(P_i\), se utiliza la función inversa de la distribución normal estándar:
Donde:
- \(\phi^{-1}\) es la función inversa de la distribución normal estándar.
- \(P_i\) es la posición teórica calculada previamente.
Estos valores \(Z_i\) se utilizarán para graficar los cuantiles observados contra los cuantiles esperados en un gráfico de probabilidad normal, lo cual facilitará la evaluación visual de la normalidad de los residuales. Un ajuste adecuado con la distribución normal se reflejará en una alineación cercana a la línea diagonal en el gráfico.
3.3 Gráfico de dispersión
Este gráfico sirve para evaluar visualmente la conformidad de los residuales con una distribución normal. En un gráfico ideal, los puntos deberían alinearse aproximadamente a lo largo de una línea diagonal recta, que representa la distribución normal estándar.
3.4 Codigo en R
El gráfico de dispersión mostrado ilustra la relación entre los residuales ordenados \(r_i\) y los valores de la normal inversa \(Z_i\). En este gráfico, el eje \(X\) representa los valores teóricos \(Z_i\), mientras que el eje \(Y\) muestra los residuales ordenados \(r_i\).
El gráfico cuantil-cuantil muestra que la mayoría de los puntos se alinean con la línea de tendencia, lo que sugiere que los residuales siguen una distribución aproximadamente normal. No obstante, se presentan ligeras desviaciones en los extremos, lo que podría indicar la existencia de valores atípicos o una leve desviación de la normalidad en las colas de la distribución. En términos generales, la distribución de los residuales es aceptable, lo que permite asumir el cumplimiento del supuesto de normalidad y aplicar métodos paramétricos que dependen de esta condición.
#Verificación analítica con test de Shapiro-Wilk
El test de Shapiro-Wilk es una prueba estadística utilizada para evaluar si un conjunto de datos sigue una distribución normal. Fue desarrollado por Samuel Shapiro y Martin Wilk en \(1965\), es ampliamente reconocido por su alta potencia, especialmente con muestras pequeñas a medianas.
Esta prueba compara los valores observados de los datos con los valores esperados bajo una distribución normal. Calcula un estadístico, denotado como \(W\), que mide la correlación entre los datos ordenados y los cuantiles correspondientes de una distribución normal.
Un valor de \(W\) cercano a \(1\) indica que los datos se ajustan aproximadamente a una distribución normal, mientras que un valor significativamente menor sugiere una desviación de la normalidad. Además, el \(p-value\) asociado al test ayuda a decidir si se rechaza la hipótesis nula de normalidad. Si el \(p-value\) es menor que un umbral establecido (generalmente \(\alpha = 0.05\)), se concluye que los datos no siguen una distribución normal.
Para realizar el test de Shapiro-Wilk manualmente, siguiendo una prueba de hipótesis para determinar la normalidad, se deben seguir estos pasos:
Plantear hipótesis: Establecer la hipótesis nula (\(H_0\)) que indica que los datos siguen una distribución normal, y la hipótesis alternativa (\(H_1\)) que indica que los datos no siguen una distribución normal.
Calcular el estadístico de prueba: Calcular el estadístico de prueba \(W\) utilizando los residuales ordenados y los coeficientes obtenidos a partir de la muestra.
Buscar el estadístico teórico, en tablas: Comparar el valor calculado de \(W\) con el valor crítico en las tablas específicas de Shapiro-Wilk para determinar si se rechaza \(H_0\).
Definir cuando rechazo la hipótesis nula: Para un nivel de significancia \(\alpha = 0.05\), rechazamos \(H_0\) si el estadístico de prueba es mayor al estadístico de referencia, o si el \(p-value\) es menor que el nivel de significancia.
Análisis en RStudio: Se utilizará un código en el software de RStudio para validar los resultados del test de Shapiro-Wilk.
Estos pasos se desarrollarán a partir de los siguientes datos y tablas, calculados en el apartado graficamente:
| Tipo de Mostrador | Ventas 1 | Ventas 2 | Ventas 3 | Ventas 4 | Ventas 5 | Promedio (%) |
|---|---|---|---|---|---|---|
| 1 | 5.43 | 5.71 | 6.22 | 6.01 | 5.29 | 5.73 |
| 2 | 6.24 | 6.71 | 5.88 | 5.66 | 6.68 | 6.23 |
| 3 | 8.79 | 9.12 | 7.19 | 8.15 | 7.55 | 8.16 |
| ( i ) | ( \(e{ij}\) ) |
|---|---|
| 1 | -0.302 |
| 2 | -0.022 |
| 3 | 0.488 |
| 4 | 0.278 |
| 5 | -0.442 |
| 6 | 0.006 |
| 7 | 0.476 |
| 8 | -0.354 |
| 9 | -0.574 |
| 10 | 0.446 |
| 11 | 0.630 |
| 12 | 0.960 |
| 13 | -0.970 |
| 14 | -0.010 |
| 15 | -0.610 |
| ( i ) | ( \(e{ij}\) ) | ( r_i ) |
|---|---|---|
| 1 | -0.302 | -0.970 |
| 2 | -0.022 | -0.610 |
| 3 | 0.488 | -0.574 |
| 4 | 0.278 | -0.442 |
| 5 | -0.442 | -0.354 |
| 6 | 0.006 | -0.302 |
| 7 | 0.476 | -0.022 |
| 8 | -0.354 | -0.010 |
| 9 | -0.574 | 0.006 |
| 10 | 0.446 | 0.278 |
| 11 | 0.630 | 0.446 |
| 12 | 0.960 | 0.476 |
| 13 | -0.970 | 0.488 |
| 14 | -0.010 | 0.630 |
| 15 | -0.610 | 0.960 |
3.5 Prueba de hipótesis
Cuando los datos siguen una distribución normal, es razonable asumir que los residuales también lo harán, ya que los residuales representan la diferencia entre los valores observados y los valores esperados bajo el modelo de regresión.
Donde \(i = 1, \ldots, a\) (niveles del factor) y \(j = 1, \ldots, n\) (total de corridas experimentales), con \(a = 5\) y \(n = 15\).
La hipótesis nula \(H_0\) establece que los residuales siguen una distribución normal, lo cual es un supuesto fundamental para la validez de muchas pruebas estadísticas, como las pruebas \(t\) y las pruebas \(F\) en el análisis de varianza. Por otro lado, la hipótesis alternativa \(H_1\) sugiere que los residuales no siguen una distribución normal, lo que indicaría la necesidad de considerar transformaciones de los datos, métodos robustos o modelos alternativos que no dependan de la suposición de normalidad.
3.6 Estadístico de prueba
En este apartado, se procederá a calcular el estadístico de prueba \(W\) a partir de los datos proporcionados. Los residuales ordenados y los coeficientes específicos se utilizarán para determinar si los datos se ajustan a la normalidad. Este estadístico, desarrollado por Shapiro y Wilk, es especialmente efectivo para muestras pequeñas y medianas, proporcionando una medida robusta de la normalida
Cuando los residuales se encuentran ordenados, como en este caso, estos forman el siguiente conjunto:
\(r_i:{X_1, X_2, X_3, ..., X_N}\), donde \(N\) se refiere a la cantidad de residuales o al total de corridas experimentales.
\(i: {1, 2, 3, ..., N}\), donde \(N\) se refiere a la cantidad de observaciones o al total de corridas experimentales.
En el caso del problema propuesto, los conjuntos serían:
\(r_i:{X_1, X_2, X_3, ..., X_{20}}\)
\(i: {1, 2, 3, ..., 20}\)
Entonces, el estadístico de prueba \(W\) se calcula con la siguiente ecuación:
Donde:
\(h:\left\{\begin{matrix} \frac {N} {2}, \ si \ N \ es \ par \\ \frac {N-1} {2}, \ si \ N \ es \ impar \end{matrix}\right.\)
\(N\): es el número total de observaciones.
\(S^2\): es la varianza muestral.
\(a_i\): son los coeficientes de Shapiro-Wilk, que dependen del tamaño de la muestra y se obtienen de tablas específicas.
\(X_{N-i+1}\) y \(X_i\): son los valores de los residuales ordenados.
El cálculo del estadístico \(W\) permite comparar la correlación entre los residuales observados y los valores teóricos que se esperarían si los datos siguieran una distribución normal. Un valor de \(W\) cercano a \(1\) indica que los datos son aproximadamente normales, mientras que un valor significativamente menor sugiere una desviación de la normalidad.
En este caso, al trabajar con \(N = 15\) observaciones, y este ser un número impar, se determina que \(h = \frac {N-1}{2}\), es decir, \(h = 7\). Esto implica que se utilizarán \(7\) coeficientes \(a_i\) correspondientes para los cálculos de \(W\).
A continuación, se presenta una tabla con los valores de los residuales \(r_i\), los índices \(i\), y los índices \(h\):
| ( i ) | ( \(e{ij}\) ) | ( \(r_i\) ) | ( h ) |
|---|---|---|---|
| 1 | -0.970 | -0.970 | 1 |
| 2 | -0.610 | -0.610 | 2 |
| 3 | -0.574 | -0.574 | 3 |
| 4 | -0.354 | -0.354 | 4 |
| 5 | -0.302 | -0.302 | 5 |
| 6 | -0.022 | -0.022 | 6 |
| 7 | 0.006 | 0.006 | 7 |
| 8 | 0.278 | 0.278 | |
| 9 | 0.446 | 0.446 | |
| 10 | 0.476 | 0.476 | |
| 11 | 0.488 | 0.488 | |
| 12 | 0.630 | 0.630 | |
| 13 | 0.960 | 0.960 | |
| 14 | -0.010 | -0.010 | |
| 15 | 0.630 | 0.630 |
A continuación, se presenta la tabla con los valores de los residuales \(r_i\), los índices \(i\), los índices \(h\), y los coeficientes \(a_i\) correspondientes
| ( i ) | ( e_{ij} ) | ( r_i ) | ( h ) | ( a_i ) |
|---|---|---|---|---|
| 1 | -0.970 | -0.970 | 1 | 0.5150 |
| 2 | -0.610 | -0.610 | 2 | 0.3306 |
| 3 | -0.574 | -0.574 | 3 | 0.2495 |
| 4 | -0.354 | -0.354 | 4 | 0.1878 |
| 5 | -0.302 | -0.302 | 5 | 0.1353 |
| 6 | -0.022 | -0.022 | 6 | 0.0880 |
| 7 | 0.006 | 0.006 | 7 | 0.0433 |
| 8 | 0.278 | 0.278 | ||
| 9 | 0.446 | 0.446 | ||
| 10 | 0.476 | 0.476 | ||
| 11 | 0.488 | 0.488 | ||
| 12 | 0.630 | 0.630 | ||
| 13 | 0.960 | 0.960 | ||
| 14 | -0.010 | -0.010 | ||
| 15 | 0.630 | 0.630 |
3.7 Test Shapiro-Wilk
# TEST FORMAL DE NORMALIDAD (Shapiro-Wilk)
shapiro_test <- shapiro.test(residuales)
print(shapiro_test)
Shapiro-Wilk normality test
data: residuales
W = 0.974, p-value = 0.9122
De R obtenemos los siguientes resultados:
Estadístico de prueba: \(W = 0.974\) P-value: \(0.9122\)
De las tablas de cuantiles teóricos para el estadístico \(W\), obtenemos el siguiente dato:
Si \(\alpha = 0.05\) y la cantidad de residuales es \(n = 15\), entonces:
\(W_{1-\alpha} = W_{1-0.05} = W_{0.95} = 0.984\)
Por lo que:
\(W = 0.974 \not> W_{0.95} = 0.984\)
Dado que el estadístico de prueba no supera el umbral teórico, no se rechaza la hipótesis nula \(H_0\) , lo que indica que los residuales \(e_{ij}\) proceden de una distribución normal.
Comparacion con el p-valor
Decisión: Si p-valor < 0.05, se rechaza H0 → Los datos “no” son normales. Si p-valor ≥ 0.05, no se rechaza H0 → No hay evidencia suficiente para decir que los datos no son normales. Como el p-valor obtenido (0.9122) es “mucho mayor” que 0.05, “no se rechaza la hipótesis nula”. Esto significa que “los residuales siguen una distribución normal”. En el contexto del problema, “se cumple el supuesto de normalidad”,lo que permite continuar con el análisis ANOVA sin problemas. Aceptamos la hipótesis nula en base al valor de \(W\) y el \(valor \ p\).
4 Verificación del Supuesto de Homocedasticidad
4.1 Verificación Gráfica
Una forma de verificar el supuesto de varianza constante (es decir, que los tratamientos tienen la misma varianza) es mediante un gráfico de dispersión con las siguientes variables:
Eje X → Valores ajustados o predichos \[ \hat{y}_{ij} \] Eje Y → Residuales \[ e_{ij} \]
Si los puntos en este gráfico de dispersión se distribuyen de manera aleatoria dentro de una banda horizontal, sin mostrar un patrón claro y definido, esto indica que el supuesto de homocedasticidad se cumple, es decir, que los tratamientos tienen varianzas iguales.
Para este problema, procedemos a resolver en R
4.2 Codigo en R
# PRUEBA DE HOMOCEDASTICIDAD
mostradores <- c(1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 3, 3, 3, 3, 3)
incrementos <- c(5.43, 5.71, 6.22,6.01,5.29, 6.24, 6.71, 5.88,5.66,6.68, 8.79, 9.12, 7.19, 8.15,7.55)
mostradores <- as.factor(mostradores)
modelo <- lm(incrementos~mostradores)
anova <- aov(modelo)
residuales <- anova$residuals
residuales 1 2 3 4 5 6 7 8 9 10 11
-0.302 -0.022 0.488 0.278 -0.442 0.006 0.476 -0.354 -0.574 0.446 0.630
12 13 14 15
0.960 -0.970 -0.010 -0.610
ajustados <- anova$fitted.values
ajustados 1 2 3 4 5 6 7 8 9 10 11 12 13
5.732 5.732 5.732 5.732 5.732 6.234 6.234 6.234 6.234 6.234 8.160 8.160 8.160
14 15
8.160 8.160
- Paso 1: Se crean dos vectores con los datos.
mostradores: un vector con valores que representan diferentes categorías o grupos (en este caso, 1, 2 o 3).
incrementos un vector con valores que representan las medidas o respuestas asociadas a cada categoría.
Paso 2: Convertir el Vector mostradores a Factor Se utiliza la función as.factor() para convertir el vector mostradores en un factor, lo que indica que los valores en este vector son categorías o grupos, en lugar de valores numéricos.
Paso 3: Crear un Modelo Lineal Se utiliza la función lm() para crear un modelo lineal que relaciona las variables incrementos y mostradores. El modelo se almacena en la variable modelo.
Paso 4: Realizar una Prueba de Varianza (ANOVA) Se utiliza la función aov() para realizar una prueba de varianza (ANOVA) sobre el modelo lineal creado en el paso anterior. El resultado se almacena en la variable anova.
Paso 5: Extraer los Residuales y los Valores Ajustados Se extraen los residuales (diferencias entre los valores observados y los valores predichos) y los valores ajustados (valores predichos por el modelo) del objeto anova y se almacenan en las variables residuales y ajustados, respectivamente.
4.3 Graficamos a partir de los datos
| Índice | Residuales | Ajustados |
|---|---|---|
| 1 | -0.302 | 5.732 |
| 2 | -0.022 | 5.732 |
| 3 | 0.488 | 5.732 |
| 4 | 0.278 | 5.732 |
| 5 | -0.442 | 5.732 |
| 6 | 0.006 | 6.234 |
| 7 | 0.476 | 6.234 |
| 8 | -0.354 | 6.234 |
| 9 | -0.574 | 6.234 |
| 10 | 0.446 | 6.234 |
| 11 | 0.630 | 8.160 |
| 12 | 0.960 | 8.160 |
| 13 | -0.970 | 8.160 |
| 14 | -0.010 | 8.160 |
| 15 | -0.610 | 8.160 |
plot(x=ajustados, y=residuales, main = "VERIFICACIÓN HOMOCEDASTICIDAD", xlab =
"Ajustados por el modelo", ylab = "Residuales", pch= 20, col= "#BF3EFF",abline(h=c(-1.0,1.0)))A partir del grafico de dispersión Ajustados vs Residuales, no hay una tendencia evidente de cambio de dispersión de residuales en función de los valores ajustados, por lo cual sugiere que el supuesto de homocedasticidad se cumple.
4.4 Test de Bartlett
El test de Bartlett es una prueba estadística utilizada para determinar si la varianza de dos o más grupos es igual. Fue desarrollado por el estadístico británico Maurice Bartlett en 1937.El test de Bartlett se utiliza comúnmente en análisis de varianza (ANOVA) para verificar la homocedasticidad, es decir, si la varianza de los residuales es constante en todos los grupos.
4.5 Hipótesis
La prueba de Bartlett se basa en la siguiente hipótesis:
\(H_0: \sigma_1^2 = \sigma_2^2 =...= \sigma_a^2 = \sigma^2\)
\(H_1: \sigma_i^2 \neq \sigma_j^2\)
4.6 Estadístico de prueba
El test de Bartlett calcula una estadística que sigue una distribución chi-cuadrada. Si la estadística es mayor que un valor crítico, se rechaza la hipótesis nula y se concluye que la varianza no es igual en todos los grupos.
4.7 Verificación Analítica (Test de Bartlett)
bartlett.test(residuales ~ mostradores)
Bartlett test of homogeneity of variances
data: residuales by mostradores
Bartlett's K-squared = 2.2112, df = 2, p-value = 0.331
Donde:
- residuales: es el vector de residuales obtenidos del modelo.
- mostradores: es la variable que define los grupos.
El resultado del test de Bartlett incluye:
- La estadística de prueba (Chi-cuadrada).
- El valor p asociado a la estadística de prueba.
- El número de grados de libertad.
Si el valor p es menor que el nivel de significación (generalmente 0.05), se rechaza la hipótesis nula y se concluye que la varianza no es igual en todos los grupos.
4.8 Cálculo del Cuantil Teórico
Se utiliza la función qchisq() para calcular el cuantil teórico de la distribución con:
0.05como nivel de significación (\(\alpha\))2como número de grados de libertadlower.tail = Fpara indicar que se quiere calcular el cuantil superior (es decir, el valor por encima del cual se encuentra el 5% de la distribución)
El resultado es:
qchisq(0.05, 2, lower.tail = F)[1] 5.991465
Comparación con el Valor p y el Estadístico Calculado
Se comparan los resultados con:
- El valor p (0.331) y el nivel de significación (0.05)
- El estadístico calculado (2.2112) y el cuantil teórico (5.991465)
4.9 Conclusión
Dado que no se rechaza la hipótesis nula de igualdad de varianzas, podemos concluir que no hay evidencia suficiente para afirmar que las varianzas de los incrementos en las ventas difieran significativamente entre los distintos tipos de mostradores.
5 Verificación de supuesto de Independencia
5.1 Independencia
El supuesto de independencia indica que los errores de la regresión no deben estar correlacionados entre sí. Si hay autocorrelación presente, puede afectar la precisión de los coeficientes y las pruebas de hipótesis, lo que lleva a conclusiones erróneas sobre la importancia de las variables predictoras.
5.2 Autocorrelación
La autocorrelación se refiere a la presencia de un patrón sistemático en la distribución de los errores del modelo a lo largo del tiempo. En un modelo de regresión, los errores o residuos deberían distribuirse de manera aleatoria y seguir una distribución normal con media cero y varianza constante.
5.3 Codigo en R
#Datos en orden de corrida en experimental
Mostrador <- c(1,3,1,2,2,1,2,1,3,3,3,2,1,2,3)
Ventas <- c(6.01, 8.79, 5.43, 6.71, 5.66, 5.29, 5.88, 5.71, 9.12, 7.55, 8.15, 6.24, 6.22, 6.68, 7.19)
#FACTTOR
Mostrador <- as.factor(Mostrador)
#MOdelo
modelo <- lm(Ventas~Mostrador)
#ANOVA
anova <- aov(modelo)
summary(anova) Df Sum Sq Mean Sq F value Pr(>F)
Mostrador 2 16.428 8.214 23.96 6.46e-05 ***
Residuals 12 4.114 0.343
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
#Residuales
residuales <- anova$residuals
orden <- c(1:15)5.4 Verificación gráfica
La graficación de los residuales en orden temporal de recolección de los datos es útil para detectar correlaciones entre los residuales \(e_{ij}\).
Una tendencia a tener corridas de residuales \(e_{ij}\) positivos o negativos indica una correlación positiva. Esto implicaría que el supuesto de independencia de los errores \(\epsilon_{ij}\) ha sido violado.
La aleatorización adecuada del experimento es un paso clave para poder conseguir independencia.
5.5 Codigo en R
#Residuales
residuales <- anova$residuals
orden <- c(1:15)5.6 Gráfico de dispersión: Residuales vs Orden de corrida experimental
Para realizar la verificación gráfica, construimos un gráfico de dispersión donde:
- Eje X: Orden de corrida experimental.
- Eje Y: Residuales organizados por orden de corrida.
#Grafico orden Vs residuales orden
plot(x=orden, y=residuales)A partir del gráfico de residuales vs. orden de corrida, no se observa un patrón claro ni una tendencia definida en los puntos. Los residuales parecen distribuirse de manera aleatoria dentro de una banda horizontal, sin agrupaciones ni tendencias.
Por lo tanto, no se viola el supuesto de independencia de los errores,lo que sugiere que la aleatorización del experimento fue adecuada y que no hay correlación entre los errores.
5.7 Verificación Analítica de la Independencia
Una prueba analítica para verificar la independencia entre residuos consecutivos es la prueba de Durbin-Watson. Esta prueba permite diagnosticar la presencia de correlación (autocorrelación) entre los residuos consecutivos (ordenados en el tiempo), que es una posible manifestación de la falta de independencia.
5.7.1 Formulación de Hipótesis
Sea \(\rho\) el parámetro que representa la correlación entre residuos consecutivos, es decir, \(Corr(e_t, e_{t+1})\). La hipótesis en la prueba de Durbin-Watson es:
- \(H_0: \rho = 0\)
- \(H_1: \rho > 0\)
5.7.2 Estadístico de Prueba
Calculamos el estadístico de prueba \(d_0\) como sigue:
\[d_0 = \frac{\sum_{t=2}^T (e_t - e_{t-1})^2}{\sum_{t=1}^T e_t^2}\]
Donde los \(e_t\) corresponden a los residuales ordenados en el tiempo.
5.7.3 Interpretación del Resultado
Se compara el estadístico de prueba \(d_0\) con el estadístico teórico, de tabla, siguiendo la siguiente regla:
- Si \(d_0 < d_L\), se rechaza \(H_0\)
- Si \(d_L < d_0 < d_U\), prueba no concluyente
- Si \(d_U < d_0 < 4-d_U\), no se rechaza \(H_0\)
- Si \(4-d_U < d_0 < 4-d_L\), prueba no concluyente
- Si \(d_0 > 4-d_L\), se rechaza \(H_0\)
Para entrar a las tablas se requiere el número de residuos \(n\), el nivel de significancia prefijado \(\alpha\) y el número de variables explicativas del modelo (cantidad de tratamientos).
En caso de interesar la hipótesis de autocorrelación negativa \(H_1: \rho < 0\), se utiliza el estadístico \(d_0' = 4 - d_0\). En caso de interesar la hipótesis bilateral con alternativa \(H_1: \rho \neq 0\), se combinan las dos pruebas unilaterales de tamaño \(\alpha\) de manera que la prueba bilateral tenga el tamaño deseado \(2\alpha\).
5.8 Verificación Analítica mediante el Test de Durbin-Watson
La verificación analítica mediante el Test de Durbin-Watson se realiza de la siguiente manera:
# Cargar la biblioteca car
library(car)Cargando paquete requerido: carData
durbin = durbinWatsonTest(modelo,alternative = "two.sided")
durbin lag Autocorrelation D-W Statistic p-value
1 -0.2009664 2.154464 0.716
Alternative hypothesis: rho != 0
#Cantidad de residuales n=15
#Cantidad de tratamientos a=3=k
dl=0.814
du=1.750
do=durbin$dw
du4 = 2.25
dl4=3.186
#como:
#du=1.750 < do=2.154 < 4 - du=2.255.9 Resultado del Test de Durbin-Watson
Según el resultado anterior, obtenemos lo siguiente:
5.9.1 Cantidad de residuales
n = 15
5.9.2 Cantidad de tratamientos
a = 3 k = a
5.9.3 Valores críticos
dl = 0.814 du = 1.750
5.9.4 Estadístico de prueba
do = durbin$dw
5.9.5 Valores críticos adicionales
du4 = 2.25 dl4 = 3.186
5.10 Interpretación del Resultado
Por lo tanto, no se rechaza \(H_0\). Esto significa que los residuales no poseen autocorrelación serial. En otras palabras, los residuales son independientes y no presentan un patrón de correlación entre sí, existe suficiente evidencia estadística para rechazar H0 , por lo que no existe correlación serial entre los residuales organizados por orden de corrida experimental. Por lo tanto,se cumple mediante el Test de Durbin-Watson el criterio de independencia.
6 Conclusión
En base a los resultados obtenidos, se puede concluir que:
- Normalidad: Los residuales siguen una distribución normal, lo que permite cumplir con el supuesto de normalidad y continuar con el análisis ANOVA sin problemas.
- Homocedasticidad: No hay evidencia estadística para rechazar la hipótesis nula, lo que sugiere que la varianza es igual en todos los grupos.
- Independencia: Los residuales no poseen autocorrelación serial, lo que indica que los residuales son independientes y no presentan un patrón de correlación entre sí.
En general, se puede afirmar que los supuestos necesarios para realizar un análisis ANOVA se cumplen en este caso, lo que permite tener confianza en los resultados obtenidos.
Se puede concluir que el tipo de mostrador utilizado tiene un efecto significativo en el aumento de ventas, ya que los datos cumplen con los supuestos de normalidad, homocedasticidad e independencia. Esto sugiere que los diferentes tipos de mostradores pueden tener un impacto diferente en el aumento de ventas.