En la tabla, las réplicas de cada mostrador, se refieren alporcentaje deñl incremento de ventas. A lo largo del análisis, se utilizará un nivel de significancia de \(0.05\) para las pruebas estadísticas cuando sea necesario.
Graficamente
El análisis gráfico de los residuales evalúa la adecuación de un modelo estadístico. En este contexto, el gráfico cuantil-cuantil se utiliza para verificar si los residuales siguen una distribución normal. En este gráfico, se comparan los cuantiles observados de los residuales con los cuantiles esperados de una distribución normal teórica.
Por ende, si los residuales siguen una distribución normal, los puntos en el gráfico se alinearán aproximadamente a lo largo de una línea recta.
Primero, se calculan los promedios de las observaciones para cada nivel de tratamiento usando la fórmula de la media muestral:
\(\tilde X = \frac {\sum_{i=1}^{n}X_i}{n}\)
Donde:
\(\tilde X\): Es la media muestral.
\(X_i\): son los valores individuales de la muestra.
\(n\): es el número total de observaciones en la muestra.
Para cada nivel de tratamiento, los residuales se obtienen restando el promedio del nivel a cada observación individual. A continuación, se presenta la tabla con las observaciones y sus promedios:
1 |
5.43 |
5.71 |
6.22 |
6.01 |
5.29 |
5.73 |
2 |
6.24 |
6.71 |
5.88 |
5.66 |
6.68 |
6.23 |
3 |
8.79 |
9.12 |
7.19 |
8.15 |
7.55 |
8.16 |
Observaciones y sus promedios por tratamiento.
:::Una vez calculados los promedios de las observaciones para cada nivel de tratamiento, el siguiente paso es calcular los residuales. Es importante entender que este cálculo mide la diferencia entre cada observación individual y el promedio del nivel de tratamiento correspondiente. Los residuales proporcionan información crucial sobre cómo se ajusta el modelo a los datos.
A continuación, se presenta la tabla de residuales calculados:
1 |
-0.302 |
2 |
-0.022 |
3 |
0.488 |
4 |
0.278 |
5 |
-0.442 |
6 |
0.006 |
7 |
0.476 |
8 |
-0.354 |
9 |
-0.574 |
10 |
0.446 |
11 |
0.630 |
12 |
0.960 |
13 |
-0.970 |
14 |
-0.010 |
15 |
-0.610 |
Residuales.
La interpretación de los residuales permite evaluar la idoneidad del modelo estadístico. Un residual cercano a cero indica que la predicción es buena, mientras que valores positivos o negativos significativos sugieren que el modelo puede no estar capturando adecuadamente la variabilidad de los datos. Además, el análisis de los residuales puede revelar patrones que indiquen violaciones a los supuestos del modelo, como la normalidad.
Para la creación del gráfico cuantil, debemos seguir los siguientes pasos:
Ordenar los residuales: Debemos ordenar los residuales \(e_{ij}\) de manera ascendente para obtener \(e_1, e_2, ..., e_N\), donde \(N\) es el número total de residuales.
Llamar a los residuales ordenados: Debemos asignar una notación a los residuales ordenados como \(r_i\), donde \(i\) varía de \(1\) a \(N\). De esta manera, \(r_1 \leq r_2 \leq ... \leq r_N\). Esta asignación es una extensión del paso anterior y facilita el análisis y la visualización de los datos.
Posición teórica: Para cada residual \(r_i\), se calcula la posición teórica \(P_i\). Aquí, \(P_i\) representa la probabilidad acumulada en la distribución normal para el \(i\)-ésimo residual. Esta posición indica la ubicación esperada del residual en una distribución normal.
Cuantía teórica normal inversa: Se calcula el cuantíl teórico normal inverso \(Z_i\) correspondiente a \(P_i\). Esto se obtiene mediante la función inversa de la distribución normal estándar (también conocida como la función cuantil o la función probit). Donde \(\Phi^{-1}\) es la función inversa de la función de distribución acumulada de la normal estándar. Este cuantíl teórico proporciona la referencia para comparar los residuales observados con la distribución normal.
Gráfico de dispersión: Se crea un gráfico de dispersión donde, normalmente, el eje x representa los cuantiles teóricos \(Z_i\) y el eje y representa los residuales ordenados \(r_i\). Es importante tener en cuenta que cada punto en el gráfico representa un par \((Z_i, r_i)\), y que la alineación de los puntos a lo largo de una línea recta indicará si los residuales siguen una distribución normal.
Es necesario recalcar que \(N\) para el problema propuesto, en el presente informe, es igual a \(15\).
Ordenar residuales
La organización de los residuales, de forma ascendente, es el siguiente paso en el análisis de la normalidad, ya que permite establecer una relación clara entre los datos observados y la distribución normal teórica.
Al calcular y ordenar los residuales, se obtiene una perspectiva sobre la adecuación del modelo a los datos experimentales, facilitando la construcción del gráfico de probabilidad normal, donde los residuales se comparan con los valores esperados de una distribución normal.
A continuación se muestra la tabla con los residuales ordenados \(r_i\):
1 |
-0.302 |
-0.970 |
2 |
-0.022 |
-0.610 |
3 |
0.488 |
-0.574 |
4 |
0.278 |
-0.442 |
5 |
-0.442 |
-0.354 |
6 |
0.006 |
-0.302 |
7 |
0.476 |
-0.022 |
8 |
-0.354 |
-0.010 |
9 |
-0.574 |
0.006 |
10 |
0.446 |
0.278 |
11 |
0.630 |
0.446 |
12 |
0.960 |
0.476 |
13 |
-0.970 |
0.488 |
14 |
-0.010 |
0.630 |
15 |
-0.610 |
0.960 |
Residuales ordenados.
::: {style=“text-align: justify;”} La organización de los residuales de forma ascendente permite establecer una relación clara entre los datos observados y la distribución normal teórica.
1 |
-0.302 |
-0.970 |
2 |
-0.022 |
-0.610 |
3 |
0.488 |
-0.574 |
4 |
0.278 |
-0.442 |
5 |
-0.442 |
-0.354 |
6 |
0.006 |
-0.302 |
7 |
0.476 |
-0.022 |
8 |
-0.354 |
-0.010 |
9 |
-0.574 |
0.006 |
10 |
0.446 |
0.278 |
11 |
0.630 |
0.446 |
12 |
0.960 |
0.476 |
13 |
-0.970 |
0.488 |
14 |
-0.010 |
0.630 |
15 |
-0.610 |
0.960 |
Residuales ordenados.
Cuantía teórica normal inversa
Para calcular los valores de la cuantía teórica normal inversa (Z_i) a partir de las posiciones teóricas (P_i), se utiliza la función inversa de la distribución normal estándar:
(Z_{i} = ^{-1}(P_{i}))
Donde:
- (^{-1}) es la función inversa de la distribución normal estándar.
- (P_i) es la posición teórica calculada previamente.
Estos valores (Z_i) se utilizarán para graficar los cuantiles observados contra los cuantiles esperados en un gráfico de probabilidad normal, lo cual facilitará la evaluación visual de la normalidad de los residuales. Un ajuste adecuado con la distribución normal se reflejará en una alineación cercana a la línea diagonal en el gráfico.
Gráfico de dispersión
Este gráfico sirve para evaluar visualmente la conformidad de los residuales con una distribución normal. En un gráfico ideal, los puntos deberían alinearse aproximadamente a lo largo de una línea diagonal recta, que representa la distribución normal estándar.
Para generar este gráfico en RStudio, se puede utilizar el siguiente código:
Codigo en R
Warning: package 'ggplot2' was built under R version 4.4.3
# CREACIÓN DEL DATAFRAME
tipo_mostrador <- factor(rep(1:3, each = 5))
incremento_ventas <- c(5.43, 5.71, 6.22, 6.01, 5.29,
6.24, 6.71, 5.88, 5.66, 6.68,
8.79, 9.12, 7.19, 8.15, 7.55)
datos <- data.frame(tipo_mostrador, incremento_ventas)
# ANÁLISIS DE VARIANZA ANOVA
anova_model <- aov(incremento_ventas ~ tipo_mostrador, data = datos)
residuales <- residuals(anova_model) # Extraer residuales
# GRÁFICO Q-Q
ggplot(data.frame(residuales), aes(sample = residuales)) +
stat_qq() + stat_qq_line() +
ggtitle("Gráfico Q-Q de los Residuales") +
xlab("Cuantiles Teóricos") + ylab("Cuantiles Muestrales") +
theme_minimal()
El gráfico de dispersión mostrado ilustra la relación entre los residuales ordenados \(r_i\) y los valores de la normal inversa \(Z_i\). En este gráfico, el eje \(X\) representa los valores teóricos \(Z_i\), mientras que el eje \(Y\) muestra los residuales ordenados \(r_i\).
El gráfico cuantil-cuantil muestra que la mayoría de los puntos se alinean con la línea de tendencia, lo que sugiere que los residuales siguen una distribución aproximadamente normal. No obstante, se presentan ligeras desviaciones en los extremos, lo que podría indicar la existencia de valores atípicos o una leve desviación de la normalidad en las colas de la distribución. En términos generales, la distribución de los residuales es aceptable, lo que permite asumir el cumplimiento del supuesto de normalidad y aplicar métodos paramétricos que dependen de esta condición.
El test de Shapiro-Wilk es una prueba estadística utilizada para evaluar si un conjunto de datos sigue una distribución normal. Fue desarrollado por Samuel Shapiro y Martin Wilk en \(1965\), es ampliamente reconocido por su alta potencia, especialmente con muestras pequeñas a medianas.
Esta prueba compara los valores observados de los datos con los valores esperados bajo una distribución normal. Calcula un estadístico, denotado como \(W\), que mide la correlación entre los datos ordenados y los cuantiles correspondientes de una distribución normal.
Un valor de \(W\) cercano a \(1\) indica que los datos se ajustan aproximadamente a una distribución normal, mientras que un valor significativamente menor sugiere una desviación de la normalidad. Además, el \(p-value\) asociado al test ayuda a decidir si se rechaza la hipótesis nula de normalidad. Si el \(p-value\) es menor que un umbral establecido (generalmente \(\alpha = 0.05\)), se concluye que los datos no siguen una distribución normal.
Para realizar el test de Shapiro-Wilk manualmente, siguiendo una prueba de hipótesis para determinar la normalidad, se deben seguir estos pasos:
Plantear hipótesis: Establecer la hipótesis nula (\(H_0\)) que indica que los datos siguen una distribución normal, y la hipótesis alternativa (\(H_1\)) que indica que los datos no siguen una distribución normal.
Calcular el estadístico de prueba: Calcular el estadístico de prueba \(W\) utilizando los residuales ordenados y los coeficientes obtenidos a partir de la muestra.
Buscar el estadístico teórico, en tablas: Comparar el valor calculado de \(W\) con el valor crítico en las tablas específicas de Shapiro-Wilk para determinar si se rechaza \(H_0\).
Definir cuando rechazo la hipótesis nula: Para un nivel de significancia \(\alpha = 0.05\), rechazamos \(H_0\) si el estadístico de prueba es mayor al estadístico de referencia, o si el \(p-value\) es menor que el nivel de significancia.
Análisis en RStudio: Se utilizará un código en el software de RStudio para validar los resultados del test de Shapiro-Wilk.
Estos pasos se desarrollarán a partir de los siguientes datos y tablas, calculados en el apartado Graficamente:
1 |
5.43 |
5.71 |
6.22 |
6.01 |
5.29 |
5.73 |
2 |
6.24 |
6.71 |
5.88 |
5.66 |
6.68 |
6.23 |
3 |
8.79 |
9.12 |
7.19 |
8.15 |
7.55 |
8.16 |
Observaciones y sus promedios por tratamiento.
1 |
-0.302 |
2 |
-0.022 |
3 |
0.488 |
4 |
0.278 |
5 |
-0.442 |
6 |
0.006 |
7 |
0.476 |
8 |
-0.354 |
9 |
-0.574 |
10 |
0.446 |
11 |
0.630 |
12 |
0.960 |
13 |
-0.970 |
14 |
-0.010 |
15 |
-0.610 |
Residuales.
1 |
-0.302 |
-0.970 |
2 |
-0.022 |
-0.610 |
3 |
0.488 |
-0.574 |
4 |
0.278 |
-0.442 |
5 |
-0.442 |
-0.354 |
6 |
0.006 |
-0.302 |
7 |
0.476 |
-0.022 |
8 |
-0.354 |
-0.010 |
9 |
-0.574 |
0.006 |
10 |
0.446 |
0.278 |
11 |
0.630 |
0.446 |
12 |
0.960 |
0.476 |
13 |
-0.970 |
0.488 |
14 |
-0.010 |
0.630 |
15 |
-0.610 |
0.960 |
Residuales ordenados.
Ahora sí, a partir de las tablas construidas anteriormente, sigamos el paso a paso propuesto.
Prueba de hipótesis
Cuando los datos siguen una distribución normal, es razonable asumir que los residuales también lo harán, ya que los residuales representan la diferencia entre los valores observados y los valores esperados bajo el modelo de regresión.
\(\left\{\begin{matrix} H_0:e_{ij} \sim N(\mu,\sigma^2) \\ H_1:e_{ij} \nsim N(\mu,\sigma^2) \end{matrix}\right.\)
Donde \(i = 1, \ldots, a\) (niveles del factor) y \(j = 1, \ldots, n\) (total de corridas experimentales), con \(a = 5\) y \(n = 15\).
La hipótesis nula \(H_0\) establece que los residuales siguen una distribución normal, lo cual es un supuesto fundamental para la validez de muchas pruebas estadísticas, como las pruebas \(t\) y las pruebas \(F\) en el análisis de varianza. Por otro lado, la hipótesis alternativa \(H_1\) sugiere que los residuales no siguen una distribución normal, lo que indicaría la necesidad de considerar transformaciones de los datos, métodos robustos o modelos alternativos que no dependan de la suposición de normalidad.
En este apartado, se procederá a calcular el estadístico de prueba \(W\) a partir de los datos proporcionados. Los residuales ordenados y los coeficientes específicos se utilizarán para determinar si los datos se ajustan a la normalidad. Este estadístico, desarrollado por Shapiro y Wilk, es especialmente efectivo para muestras pequeñas y medianas, proporcionando una medida robusta de la normalida
.
Cuando los residuales se encuentran ordenados, como en este caso, estos forman el siguiente conjunto:
\(r_i:{X_1, X_2, X_3, ..., X_N}\), donde \(N\) se refiere a la cantidad de residuales o al total de corridas experimentales.
\(i: {1, 2, 3, ..., N}\), donde \(N\) se refiere a la cantidad de observaciones o al total de corridas experimentales.
En el caso del problema propuesto, los conjuntos serían:
\(r_i:{X_1, X_2, X_3, ..., X_{20}}\)
\(i: {1, 2, 3, ..., 20}\)
Entonces, el estadístico de prueba \(W\) se calcula con la siguiente ecuación:
\(W = \frac {1} {(N-1) \ \cdot \ S^2} \ \cdot \ [ \ \sum_{i=1}^{h}( \ a_i( \ X_{N-i+1}-X_i \ ) \ ) \ ]^2\)
Donde:
\(h:\left\{\begin{matrix} \frac {N} {2}, \ si \ N \ es \ par \\ \frac {N-1} {2}, \ si \ N \ es \ impar \end{matrix}\right.\)
\(N\): es el número total de observaciones.
\(S^2\): es la varianza muestral.
\(a_i\): son los coeficientes de Shapiro-Wilk, que dependen del tamaño de la muestra y se obtienen de tablas específicas.
\(X_{N-i+1}\) y \(X_i\): son los valores de los residuales ordenados.
El cálculo del estadístico \(W\) permite comparar la correlación entre los residuales observados y los valores teóricos que se esperarían si los datos siguieran una distribución normal. Un valor de \(W\) cercano a \(1\) indica que los datos son aproximadamente normales, mientras que un valor significativamente menor sugiere una desviación de la normalidad.
En este caso, al trabajar con \(N = 15\) observaciones, y este ser un número impar, se determina que \(h = \frac {N-1}{2}\), es decir, \(h = 7\). Esto implica que se utilizarán \(7\) coeficientes \(a_i\) correspondientes para los cálculos de \(W\).
A continuación, se presenta una tabla con los valores de los residuales \(r_i\), los índices \(i\), y los índices \(h\):
1 |
-0.970 |
-0.970 |
1 |
2 |
-0.610 |
-0.610 |
2 |
3 |
-0.574 |
-0.574 |
3 |
4 |
-0.354 |
-0.354 |
4 |
5 |
-0.302 |
-0.302 |
5 |
6 |
-0.022 |
-0.022 |
6 |
7 |
0.006 |
0.006 |
7 |
8 |
0.278 |
0.278 |
|
9 |
0.446 |
0.446 |
|
10 |
0.476 |
0.476 |
|
11 |
0.488 |
0.488 |
|
12 |
0.630 |
0.630 |
|
13 |
0.960 |
0.960 |
|
14 |
-0.010 |
-0.010 |
|
15 |
0.630 |
0.630 |
|
A continuación, se presenta la tabla con los valores de los residuales \(r_i\), los índices \(i\), los índices \(h\), y los coeficientes \(a_i\) correspondientes
1 |
-0.970 |
-0.970 |
1 |
0.5150 |
2 |
-0.610 |
-0.610 |
2 |
0.3306 |
3 |
-0.574 |
-0.574 |
3 |
0.2495 |
4 |
-0.354 |
-0.354 |
4 |
0.1878 |
5 |
-0.302 |
-0.302 |
5 |
0.1353 |
6 |
-0.022 |
-0.022 |
6 |
0.0880 |
7 |
0.006 |
0.006 |
7 |
0.0433 |
8 |
0.278 |
0.278 |
|
|
9 |
0.446 |
0.446 |
|
|
10 |
0.476 |
0.476 |
|
|
11 |
0.488 |
0.488 |
|
|
12 |
0.630 |
0.630 |
|
|
13 |
0.960 |
0.960 |
|
|
14 |
-0.010 |
-0.010 |
|
|
15 |
0.630 |
0.630 |
|
|
Coeficientes \(a_i\) para el cálculo de \(W\)
:::
Codigo en R, TEST (Shapiro-Wilk)
## 1.B - TEST FORMAL DE NORMALIDAD (Shapiro-Wilk)
shapiro_test <- shapiro.test(residuales)
print(shapiro_test)
Shapiro-Wilk normality test
data: residuales
W = 0.974, p-value = 0.9122
## PLANTEAMIENTO DEL TEST DE SHAPIRO-WILK:
##
## Hipótesis:
## - H0 (Hipótesis nula): Los datos siguen una distribución normal.
## - H1 (Hipótesis alternativa): Los datos NO siguen una distribución normal.
## Resultado del test:
## Estadístico de prueba W = 0.974
## p-valor = 0.9122
## Resultados del Test de Normalidad
De R obtenemos los siguientes resultados:
Estadístico de prueba: ( W = 0.974 ) P-value: ( 0.9122 )
De las tablas de cuantiles teóricos para el estadístico ( W ), obtenemos el siguiente dato:
Si ( = 0.05 ) y la cantidad de residuales es ( n = 15 ), entonces:
[ W_{1-} = W_{1-0.05} = W_{0.95} = 0.984 ]
Por lo que:
[ W = 0.974 > W_{0.95} = 0.984 ]
Dado que el estadístico de prueba no supera el umbral teórico, no se rechaza la hipótesis nula ( H_0 ), lo que indica que los residuales ( e_{ij} ) proceden de una distribución normal.
Comparacion con el p-valor
Decisión: Si p-valor < 0.05, se rechaza H0 → Los datos “no” son normales. Si p-valor ≥ 0.05, no se rechaza H0 → No hay evidencia suficiente para decir que los datos no son normales. Como el p-valor obtenido (0.9122) es “mucho mayor” que 0.05, “no se rechaza la hipótesis nula”. Esto significa que “los residuales siguen una distribución normal”. En el contexto del problema, “se cumple el supuesto de normalidad”,lo que permite continuar con el análisis ANOVA sin problemas. Aceptamos la hipótesis nula en base al valor de \(W\) y el \(valor \ p\).
# Verificación del Supuesto de Varianza Constante - HOMOCEDASTICIDAD
Verificación Gráfica
Una forma de verificar el supuesto de varianza constante (es decir, que los tratamientos tienen la misma varianza) es mediante un gráfico de dispersión con las siguientes variables:
Eje X → Valores ajustados o predichos \[ \hat{y}_{ij} \] Eje Y → Residuales \[ e_{ij} \] :::{style=“text-align: justify;”} Si los puntos en este gráfico de dispersión se distribuyen de manera aleatoria dentro de una banda horizontal, sin mostrar un patrón claro y definido, esto indica que el supuesto de homocedasticidad se cumple, es decir, que los tratamientos tienen varianzas iguales.
Para este problema, procedemos a resolver en R
Codigo en R
# PRUEBA DE HOMOCEDASTICIDAD
mostradores <- c(1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 3, 3, 3, 3, 3)
incrementos <- c(5.43, 5.71, 6.22,6.01,5.29, 6.24, 6.71, 5.88,5.66,6.68, 8.79, 9.12, 7.19, 8.15,7.55)
mostradores <- as.factor(mostradores)
modelo <- lm(incrementos~mostradores)
anova <- aov(modelo)
residuales <- anova$residuals
residuales
1 2 3 4 5 6 7 8 9 10 11
-0.302 -0.022 0.488 0.278 -0.442 0.006 0.476 -0.354 -0.574 0.446 0.630
12 13 14 15
0.960 -0.970 -0.010 -0.610
ajustados <- anova$fitted.values
ajustados
1 2 3 4 5 6 7 8 9 10 11 12 13
5.732 5.732 5.732 5.732 5.732 6.234 6.234 6.234 6.234 6.234 8.160 8.160 8.160
14 15
8.160 8.160
Paso 1: Crear Vectores de Datos Se crean dos vectores de datos:
mostradores
: un vector con valores que representan diferentes categorías o grupos (en este caso, 1, 2 o 3).
incrementos
: un vector con valores que representan las medidas o respuestas asociadas a cada categoría.
Paso 2: Convertir el Vector mostradores
a Factor
Se utiliza la función as.factor()
para convertir el vector mostradores
en un factor, lo que indica que los valores en este vector son categorías o grupos, en lugar de valores numéricos.
Paso 3: Crear un Modelo Lineal
Se utiliza la función lm()
para crear un modelo lineal que relaciona las variables incrementos
y mostradores
. El modelo se almacena en la variable modelo
.
Paso 4: Realizar una Prueba de Varianza (ANOVA)
Se utiliza la función aov()
para realizar una prueba de varianza (ANOVA) sobre el modelo lineal creado en el paso anterior. El resultado se almacena en la variable anova
.
Graficamos a partir de los datos
Aquí tienes la tabla en formato Quarto:
1 |
-0.302 |
5.732 |
2 |
-0.022 |
5.732 |
3 |
0.488 |
5.732 |
4 |
0.278 |
5.732 |
5 |
-0.442 |
5.732 |
6 |
0.006 |
6.234 |
7 |
0.476 |
6.234 |
8 |
-0.354 |
6.234 |
9 |
-0.574 |
6.234 |
10 |
0.446 |
6.234 |
11 |
0.630 |
8.160 |
12 |
0.960 |
8.160 |
13 |
-0.970 |
8.160 |
14 |
-0.010 |
8.160 |
15 |
-0.610 |
8.160 |
## Verificación gráfica
plot(x=ajustados, y=residuales, main = "VERIFICACIÓN HOMOCEDASTICIDAD", xlab =
"Ajustados por el modelo", ylab = "Residuales", pch= 20, col= "#BF3EFF")
Verificación gráfica de la homocedasticidad
plot(x=ajustados, y=residuales, ...)
: se crea un gráfico de dispersión para visualizar la relación entre los valores ajustados y los residuales.
main = "VERIFICACIÓN HOMOCEDASTICIDAD"
: se establece el título del gráfico.
xlab = "Ajustados por el modelo"
: se establece el etiqueta para el eje x.
ylab = "Residuales"
: se establece el etiqueta para el eje y.
pch= 20
: se establece el tipo de símbolo para los puntos del gráfico.
col= "#BF3EFF"
: se establece el color para los puntos del gráfico.
El objetivo de este gráfico es verificar si la varianza de los residuales es constante en todos los niveles de los valores ajustados. Si la varianza es constante, se dice que el modelo es homocedástico. Si la varianza no es constante, se dice que el modelo es heterocedástico.
Test de Bartlett
El test de Bartlett es una prueba estadística utilizada para determinar si la varianza de dos o más grupos es igual. Fue desarrollado por el estadístico británico Maurice Bartlett en 1937.El test de Bartlett se utiliza comúnmente en análisis de varianza (ANOVA) para verificar la homocedasticidad, es decir, si la varianza de los residuales es constante en todos los grupos.
Hipótesis
La prueba de Bartlett se basa en la siguiente hipótesis:
- H0: La varianza es igual en todos los grupos. ### Hipótesis Nula (H0) H0: σ₁² = σ₂² = … = σₖ²
Donde:
σ₁², σ₂², …, σₖ² son las varianzas de los k grupos.
H1: La varianza no es igual en todos los grupos. H1: No todas las varianzas son iguales.
Es decir, existe al menos un par de grupos con varianzas diferentes:
σᵢ² ≠ σⱼ² para algún i ≠ j.
Estadística de prueba
El test de Bartlett calcula una estadística que sigue una distribución chi-cuadrada. Si la estadística es mayor que un valor crítico, se rechaza la hipótesis nula y se concluye que la varianza no es igual en todos los grupos.
Sensibilidad
El test de Bartlett es sensible a la normalidad de los datos y a la presencia de outliers. Por lo tanto, es importante verificar la normalidad y la presencia de outliers antes de realizar el test de Bartlett.
** Verificación Analítica de la Homocedasticidad**
Se utiliza el test de Bartlett para verificar si la varianza de los residuales es igual en todos los grupos definidos por la variable mostradores
.
Test de Bartlett
La función bartlett.test()
se utiliza para realizar el test de Bartlett. La sintaxis es la siguiente:
bartlett.test(residuales ~ mostradores)
Bartlett test of homogeneity of variances
data: residuales by mostradores
Bartlett's K-squared = 2.2112, df = 2, p-value = 0.331
Donde:
residuales
es el vector de residuales obtenidos del modelo.
mostradores
es la variable que define los grupos.
Resultados
El resultado del test de Bartlett incluye:
- La estadística de prueba (Chi-cuadrada).
- El valor p asociado a la estadística de prueba.
- El número de grados de libertad.
Si el valor p es menor que el nivel de significación (generalmente 0.05), se rechaza la hipótesis nula y se concluye que la varianza no es igual en todos los grupos.
# Cálculo del Cuantil Teórico de la Distribución Chi-Cuadrada
Se utiliza la función `qchisq()` para calcular el cuantil teórico de la distribución chi-cuadrada con:
* `0.05` como nivel de significación (alpha)
* `2` como número de grados de libertad
* `lower.tail = F` para indicar que se quiere calcular el cuantil superior (es decir, el valor por encima del cual se encuentra el 5% de la distribución)
El resultado es:
::: {.cell}
```{.r .cell-code}
qchisq(0.05, 2, lower.tail = F)