TALLER VERIFICACION DE SUPUESTOS

Un distribuidor de refrescos sabe que los mostradores (lugar donde se exponen los productos) en los extremos de los pasillos son una forma eficaz de aumentar las ventas del producto. Existen varias formas de diseñar estos mostradores: variando el texto mostrado, los colores utilizados o las imágenes publicitarias. El grupo de marketing de la empresa ha diseñado tres nuevos mostradores y quiere comprobar su eficacia. Han seleccionado 15 tiendas de tamaño y tipo similar para participar en el estudio. Cada tienda probará uno de los mostradores durante un mes. La variable respuesta es el aumento porcentual de la actividad de ventas con respecto a las ventas típicas de la tienda cuando no se utiliza el mostrador. Los gerentes del distribuidor de refrescos quieren comprobar, si el mostrador usado interfiere en el aumento de ventas.

Los datos del experimento se muestran en la siguiente tabla:

Tabla de Porcentajes e Incremento de Ventas
	Porcentaje e Incremento ventas
Tipo de mostrador
1	5.43	5.71	6.22	6.01	5.29
2	6.24	6.71	5.88	5.66	6.68
3	8.79	9.12	7.19	8.15	7.55

PUNTO 1 Verificación Gráfica del Supuesto de Normalidad en R

1.En este estudio, se busca evaluar el impacto de tres tipos de mostradores en el incremento porcentual de ventas de refrescos. Para ello, es necesario comprobar si los datos siguen una distribución normal, lo cual es un supuesto clave para la aplicación de pruebas estadísticas como el ANOVA.

2. Conceptos Claves:

• Normalidad: Supone que los datos analizados siguen una distribución normal.

• Residuales: Diferencias entre los valores observados y los valores ajustados por el modelo.

• Test de Shapiro-Wilk: Prueba estadística para evaluar si un conjunto de datos sigue una distribución normal.

• Gráficos de normalidad: Se emplean para la verificación visual, como histogramas, boxplots y Q-Q plots.

3. Verificación Formal de Normalidad

3.1 Planteamiento de hipótesis Para aplicar el test de Shapiro-Wilk, se establecen las siguientes hipótesis: \[H_0: eij ~ N(μ,σ^2) \]

\[H_0: eij ~ N(μ,σ^2)\]

\[H_0: los\ datos\ siguen\ una\ distribución \ normal\] \[H_1: los\ datos\ no \ siguen \ una\ distribución \ normal \] Se tomará un nivel de significancia de α = 0.05.

4.PROCEDIMIENTO EN R Se aplicará un Análisis de Varianza (ANOVA) para determinar si el tipo de mostrador influye en el aumento de ventas. Posteriormente, se evaluará la normalidad de los residuales utilizando el test de Shapiro-Wilk y visualizaciones gráficas.

PASO 1: Cargamos los datos y definimos el modelo

# NORMALIDAD 
mostrador <- c(1,1,1,1,1,2,2,2,2,2,3,3,3,3,3)
incrementodeventas <- c(5.43, 5.71, 6.22, 6.01, 5.29, 6.24, 6.71, 5.88, 5.66, 6.68, 8.79, 9.12, 7.19, 8.15, 7.55)

# factor de interes
mostrador <- as.factor(mostrador)

# modelo
modelo <- lm(incrementodeventas~mostrador)

# anova
anova <- aov(modelo)

PASO 2:: Extraemos y analizamos los residuales

# residuales
residuales <- anova
residuales <- anova$residuals

# test de shapiro
shapiro.test(residuales)

PASO 3:: Visualización grafica de la normalidad

#grafico cuantil-cuantil normalidad
qqnorm(residuales)
qqline(residuales)

## 
##  Shapiro-Wilk normality test
## 
## data:  residuales
## W = 0.974, p-value = 0.9122

Cálculo del estadístico de prueba y comparación con el valor teórico:

El resultado del test de Shapiro-Wilk muestra un estadístico W = 0.974 y un p-valor = 0.9122. Dado que el p-valor es mayor que 0.05, no se rechaza la hipótesis nula de normalidad. Esto indica que los residuales del modelo siguen una distribución normal, por lo que el supuesto de normalidad se cumple y es válido aplicar pruebas paramétricas como ANOVA.

Verificación del Supuesto de Homocedasticidad en R 1. Introducción: En este estudio, se busca evaluar el impacto de tres tipos de mostradores en el incremento porcentual de ventas de refrescos. Para aplicar ANOVA, es necesario verificar la homocedasticidad, es decir, que las varianzas de los grupos sean iguales.

2. Conceptos Claves: • Homocedasticidad: Supone que las varianzas de los grupos son iguales. • Residuales: Diferencias entre los valores observados y los valores ajustados por el modelo. • Test de Bartlett: Prueba estadística para evaluar la igualdad de varianzas entre grupos. • Gráficos de homocedasticidad: Se emplean para la verificación visual, como gráficos de dispersión.

3. Verificación Gráfica de la Homocedasticidad: Para verificar gráficamente la homocedasticidad, se realiza un gráfico de dispersión de los residuales frente a los valores ajustados. Una forma de verificar el supuesto de varianza constante (los tratamientos tienen la misma varianza) es realizando un gráfico de dispersión con las siguientes variables:

\[Eje X-ajustados\ o \ predichos\ Yij\] \[Eje Y-residuales\ eij\] Si los puntos de este gráfico de dispersión se distribuyen de manera aleatoria en una banda horizontal (sin ningún patrón claro y contundente), entonces es señal de que se cumple el supuesto de que los tratamientos tienen igual varianza.

# homocedasticidad
# grafico ajustado-residuales
library(ggplot2)

## Warning: package 'ggplot2' was built under R version 4.4.3

ajustados <- anova$fitted.values
residuales <- anova$residuals
datos <- data.frame(ajustados, residuales)

# grafico 
plot(x= ajustados, y= residuales, main = "verificacion homocedasticidad", xlab = "ajustados por modelo", ylab = "residuales", ylim = c(-5,5), xlim = c(5,9), abline(h= c(-3,3)))

4. Verificación Formal con el Test de Bartlett: El test de Bartlett evalúa si las varianzas de los grupos son homogéneas.

4.1 Planteamiento de hipótesis: Se requiere probar la hipótesis de igualdad de varianzas dada por:

\[H_0 : σ^2_1= σ^2_2=...=σ^2_a=σ^2\] \[H_1: σ^2_i \neq \ σ^2_j\] \[H_0: Las\ varianzas\ de\ los \ grupos \ son\ iguales\]

\[H_1: Al\ menos\ una\ varianza\ es \ diferente\]

Se toma un nivel de significancia de α = 0.05.

4.2 Procedimiento en R:

# bartlett test
bartlett.test(residuales~mostrador)

#estadistico de referencia
qchisq(0.05,2, lower.tail = FALSE)

4.3 Interpretación del Test de Bartlett:

\[X^2_0=2.21 \ X0.05,3=7,8147\] Por lo que no existe evidencia estadística suficiente para rechazar H_0 por lo que los residuales entre tratamientos tienen varianza homogénea. lo que indica que no hay evidencia suficiente para afirmar que las varianzas de los grupos son diferentes. Es decir, se cumple la homocedasticidad, lo que permite continuar con el ANOVA sin preocupaciones sobre la igualdad de varianzas.

Verificación de Independencia en R 1. Introducción: En este estudio, se busca evaluar la independencia de los residuales para garantizar la validez del modelo de ANOVA aplicado al incremento porcentual de ventas de refrescos. La independencia es un supuesto clave en el análisis estadístico.

2. Conceptos Claves: • Independencia: Supone que los errores (residuales) no están correlacionados entre sí.

• Gráfico de Residuales vs. Orden de Observación: Permite evaluar visualmente si hay patrones en los residuales.

• Test de Durbin-Watson: Prueba formal para detectar autocorrelación en los residuales.

3. Procedimiento en R:

Paso 1: Visualización Gráfica

La gafricacion de los residuales en orden temporal de recoleccin de los datos es util para detectar correlaciones entre los residuales eij. Una tendencia a tener corridas de residuales eij positivos o negativos indica una correlacion positiva. Esto implicaria que el supuesto de independencia de los errores eij ha sido violado. La aleatorizacion adecuada del experimento es un paso clave para poder conseguir independencia. Se pueden calcular los residuales eij usando la siguiente expresion: \[eij = yij- \hat{\ yij}\] para el orden de los residuales se usa el orden de las corridas experimentales aleatorizadas como siguen en la siguiente tabla:

Corridas experimentales aleaotorizadas
	Identificador de corrida experimental
Tipo de mostrador
1	1	2	3	4	5
2	6	7	8	9	10
3	11	12	13	14	15

Por lo que el cálculo de los residuales en orden de corrida experimental se muestra a continuación:

IdentificadorDeCorridaExperimental	OrdenDeCorridaExperimental
Tabla De Corrida Experimental
1	3
2	8
3	13
4	1
5	6
6	12
7	4
8	7
9	5
10	14
11	2
12	9
13	15
14	11
15	10

Para realizar la verificación gráfica, construimos un gráfico de dispersión con los siguientes datos: \[Eje X-Orden\ de\ corrida \ experimental\] \[Eje Y-Residuales\ organizados\ por\ orden \ de\ corrida\]

Teniendo en cuenta lo anterior el gráfico resulta en:

# independencia
mostrador <- c(1,3,1,2,2,1,2,1,3,3,3,2,1,2,3)
ventas <- c( 6.01,8.79,5.43,6.71,5.66,5.29,5.88,5.71,9.12,7.55,8.15,6.24,6.22,6.68,7.19)
mostrador <- as.factor(mostrador)
modelo <- lm(ventas~mostrador)
anova<- aov(modelo)
# generamos el orden de corrida experimental y los residuales del objeto anova
orden <- c(1:15)
residuales <- anova$residuals
residuales
# realizamos el grafico orden vs residuales 

plot(x=orden, y=residuales, main ="independencia",xlab="orden de corrida experimental",ylab="Residuales",abline(lm(residuales~orden)))

##      1      2      3      4      5      6      7      8      9     10     11 
##  0.278  0.630 -0.302  0.476 -0.574 -0.442 -0.354 -0.022  0.960 -0.610 -0.010 
##     12     13     14     15 
##  0.006  0.488  0.446 -0.970

4. Verificación formal prueba de Durbin-Wattson: Una prueba analítica para verificar la independencia entre residuos consecutivos es la prueba de Durbin-Watson Esta prueba permite diagnosticar la presencia de correlación (autocorrelación) entre los residuos consecutivos (ordenados en el tiempo), que es una posible manifestación de la falta de independencia. La autocorrelación se presenta en experimentos en los cuales cada medición tiene alguna contaminación de la medición inmediata anterior, lo cual contradice el supuesto de independencia.

4.1. Planteamiento de hipótesis:

Sea p el parametro que representa la correlacion entre residuos consecutivos, es decir, Corr(ei,et+1). La hipotesis en la prueba de Durbin-Watson es: \[H_0: P=0\]

\[H_1:P>0\]

\[ H₀: No\ hay\ autocorrelación\ en\ los\ residuales (independencia).\] \[ H₁: Existe\ autocorrelación\ en\ los\ residuales.\]

Paso 2: Prueba de Durbin-Watson Aplicación del test en R:

# Test Durbin - Watson
library(car)
durbinWatsonTest(modelo)

De los resultados obtenemos lo siguiente: \(d0=2.154464\)

De la tabla de Durbin - Watson para α=0,05, k=3 tratamientos, y 15 observaciones o residuales:

\(• dL=0,814\)

\(• dU=1,750\)

\(• 4−dU= 2,25\)

\(• 4−dL= 3,186\)

5. interpretación de resultados de la prueba de Durbin-Watson:

\(dU= 1,750 < d0= 2.154464 < 4−dU = 2,25\)

No existe evidencia estadística suficiente para rechazar H0 por lo que no existe correlación serial entre los residuales organizados por orden de corrida experimental. Por lo que se cumple mediante el Test de Durbin-Watson el criterio de independencia.

TALLER VERIFICACION DE SUPUESTOS

Maria Jose Gutierrez, Manuel Cardenas, Eva Morales, Nicolas Peñata, Manuel Garcia

2025-02-21