Ejercicios Verificación de Supuestos

Author

Edgar Andrés Cárdenas Rodríguez

VERIFICACION DE SUPUESTOS

Se realiza para asegurar que los datos cumplen con las condiciones necesarias para que los resultados de una prueba específica sean válidos y confiables.

Para realizar las pruebasa de supuestos realizaremos los siguientes puntos:

1. EJERCICIO 1

Una vez realizado un modelo de simulación con cuatro escenarios de producción (1 operador hasta 4 operadores),se registran las unidades producidas en 8h.

Determinar si existe diferencia significativa entre los escenarios planteados.

library(readxl)
Warning: package 'readxl' was built under R version 4.4.2
datos <- read_excel("data_15.xlsx")
View(datos)

SE compara la distribución de la variable PTERMINADO entre los cuatro grupos de OPERADORES (1T, 2T, 3T y 4T).

summary(datos)
      CORR         PTERMINADO     OPERADORES       
 Min.   :  1.0   Min.   :452.0   Length:400        
 1st Qu.:100.8   1st Qu.:637.5   Class :character  
 Median :200.5   Median :747.0   Mode  :character  
 Mean   :200.5   Mean   :706.3                     
 3rd Qu.:300.2   3rd Qu.:813.0                     
 Max.   :400.0   Max.   :852.0                     
boxplot(datos$PTERMINADO~datos$OPERADORES)

Este gráfico es la razón por la cual se justifica hacer pruebas de comparación. Al ver que las cajas no se solapan horizontalmente (las medianas están en niveles muy distintos), hay una evidencia visual fuerte de que existen diferencias significativas entre los operadores.

1.1. NORMALIDAD

Para verificar el supuesto de normalidad en muestras que presentan una sola variable dependiente, utilizando la funcion lillie.test

H₀: 𝐿𝑎 𝑑𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑐𝑖ó𝑛 𝑑𝑒 𝑙𝑜𝑠 𝑑𝑎𝑡𝑜𝑠 𝑠𝑖𝑔𝑢𝑒𝑛 𝑢𝑛𝑎 𝑑𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑐𝑖ó𝑛 𝑛𝑜𝑟𝑚a.

H₁:𝐿𝑎 𝑑𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑐𝑖ó𝑛 𝑑𝑒 𝑙𝑜𝑠 𝑑𝑎𝑡𝑜𝑠 𝑛𝑜 𝑠𝑖𝑔𝑢𝑒𝑛 𝑢𝑛𝑎 𝑑𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑐𝑖ó𝑛 𝑛𝑜𝑟𝑚𝑎.

library(nortest)

data1=datos[datos$OPERADORES%in%"1T","PTERMINADO"]
lillie.test(data1$PTERMINADO)

    Lilliefors (Kolmogorov-Smirnov) normality test

data:  data1$PTERMINADO
D = 0.062847, p-value = 0.4292

p_valor es 0.42 por tanto es > alpha. No se rechaza H0 (hay normalidad)

data2=datos[datos$OPERADORES%in%"2T","PTERMINADO"] 
lillie.test(data2$PTERMINADO)

    Lilliefors (Kolmogorov-Smirnov) normality test

data:  data2$PTERMINADO
D = 0.051383, p-value = 0.7438

p_valor es 0.74 por tanto es > alpha. No se rechaza H0 (hay normalidad)

data3=datos[datos$OPERADORES%in%"3T","PTERMINADO"]
lillie.test(data3$PTERMINADO)

    Lilliefors (Kolmogorov-Smirnov) normality test

data:  data3$PTERMINADO
D = 0.05953, p-value = 0.5177

p_valor es 0.51 por tanto es > alpha. No se rechaza H0 (hay normalidad)

data4=datos[datos$OPERADORES%in%"4T","PTERMINADO"] 
lillie.test(data4$PTERMINADO)

    Lilliefors (Kolmogorov-Smirnov) normality test

data:  data4$PTERMINADO
D = 0.070594, p-value = 0.2544

p_valor es 0.25 por tanto es > alpha. No se rechaza H0 (hay normalidad)

Tras haber realisado la prueba lilliefors en cada grupo tal y como se muestra en la tabla a continuacion.

Se puede concluir que: si cumple con el supuesto de normalidad NO RECHAZANDO la H₀.

1.2. LINEALIDAD

Tras concluir con la normalidad seguimos con la linealidad, utilizando el Q-Q Plot permite visualizar una gráfica de dependencia de los cuantiles obtenidos de los datos del experimento.

ModeloLineal=lm(PTERMINADO~OPERADORES,data=datos)
standarized=rstudent(ModeloLineal)
qqnorm(standarized)
abline(0,1)

Se puede observar que existe una normalidad en el intervalo de -2 hasta +2, concluyendo con que Los puntos estan alineados (se puede decir que hay linealidad).

1.3. HOMOGENEIDAD

La homogeneidad también llamada prueba de igualdad de varianzas, permite verificar que la varianza de los grupos existentes en la muestra se mantenga en rangos similares, permitiendo de esta manera garantizar homogeneidad entre las funciones de densidad de los subgrupos existentes en la muestra.

H₀ = 𝐿𝑎𝑠 𝑣𝑎𝑟𝑖𝑎𝑛𝑧𝑎𝑠 𝑑𝑒 𝑙𝑜𝑠 𝑔𝑟𝑢𝑝𝑜𝑠 𝑠𝑜𝑛 𝑖𝑔𝑢𝑎𝑙𝑒𝑠 ( ℎ𝑜𝑚𝑜𝑔𝑒𝑛𝑒𝑖𝑑𝑎𝑑).

H₁ = 𝐿𝑎𝑠 𝑣𝑎𝑟𝑖𝑎𝑛𝑧𝑎𝑠 𝑑𝑒 𝑙𝑜𝑠 𝑔𝑟𝑢𝑝𝑜𝑠 𝑠𝑜𝑛 𝑑𝑖𝑓𝑒𝑟𝑒𝑛𝑡𝑒𝑠 (𝑛𝑜 ℎ𝑜𝑚𝑜𝑔𝑒𝑛𝑒𝑖𝑑𝑎𝑑).

library(carData)
Warning: package 'carData' was built under R version 4.4.3
library(car)
Warning: package 'car' was built under R version 4.4.3
leveneTest(PTERMINADO~OPERADORES,data=datos)
Warning in leveneTest.default(y = y, group = group, ...): group coerced to
factor.
Levene's Test for Homogeneity of Variance (center = median)
       Df F value    Pr(>F)    
group   3   16.86 2.515e-10 ***
      396                      
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Se ejecutó la Prueba de Levene (leveneTest) utilizando el paquete car. Esta prueba se usa para evaluar la Homocedasticidad (homogeneidad de varianzas), es decir, para verificar si los distintos grupos tienen varianzas similares.

Despues de ejecutar la prueba y obtenes el resultado P VALOR < alpha ,RECHAZANDO Ho. (No hay homegineidad).

1.4. KRUSKAL WALLIS

Como no cumple con este supuesto, se dice que los datos son NO PARAMETRICOS,por tanto se hace una prueba no parametrica KRUSKAL WALLIS.

kruskal.test(PTERMINADO ~ OPERADORES, data=datos)

    Kruskal-Wallis rank sum test

data:  PTERMINADO by OPERADORES
Kruskal-Wallis chi-squared = 354.78, df = 3, p-value < 2.2e-16

Dado que el p-valor es extremadamente inferior al nivel de significancia estándar (\(0.05\)), se rechaza la hipótesis nula (\(H_0\)).

Conclusión: Existe evidencia estadística suficiente para afirmar que hay diferencias significativas en la cantidad de producto terminado entre al menos dos de los operadores analizados.

2. EJERCICIO 2

Una vez realizado un modelo de simulación con cuatro escenarios de producción (1 operador hasta 4 operadores),se registran las unidades producidas en 8h.

Determinar si existe diferencia significativa entre los escenarios planteados.

library(readxl)
datos <- read_excel("data_15.4.xlsx")
View(datos)
summary(datos)
      CORR         PTERMINADO     OPERADORES       
 Min.   :  1.0   Min.   :460.0   Length:400        
 1st Qu.:100.8   1st Qu.:620.0   Class :character  
 Median :200.5   Median :751.5   Mode  :character  
 Mean   :200.5   Mean   :700.5                     
 3rd Qu.:300.2   3rd Qu.:799.2                     
 Max.   :400.0   Max.   :857.0                     
boxplot(datos$PTERMINADO~datos$OPERADORES)

Se compara el rendimiento o la cantidad de “PTERMINADO” (producto terminado) entre cuatro grupos diferentes de “OPERADORES” (1T, 2T, 3T y 4T).

Visualización clara para comparar el rendimiento de cada operador.

VERIFICACION DE SUPUESTOS

2.1. NORMALIDAD

Para verificar el supuesto de normalidad en muestras que presentan una sola variable dependiente, utilizando la funcion lillie.test

H₀: 𝐿𝑎 𝑑𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑐𝑖ó𝑛 𝑑𝑒 𝑙𝑜𝑠 𝑑𝑎𝑡𝑜𝑠 𝑠𝑖𝑔𝑢𝑒𝑛 𝑢𝑛𝑎 𝑑𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑐𝑖ó𝑛 𝑛𝑜𝑟𝑚a.

H₁:𝐿𝑎 𝑑𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑐𝑖ó𝑛 𝑑𝑒 𝑙𝑜𝑠 𝑑𝑎𝑡𝑜𝑠 𝑛𝑜 𝑠𝑖𝑔𝑢𝑒𝑛 𝑢𝑛𝑎 𝑑𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑐𝑖ó𝑛 𝑛𝑜𝑟𝑚𝑎.

library(nortest)

data1=datos[datos$OPERADORES%in%"1T","PTERMINADO"] 
lillie.test(data1$PTERMINADO)

    Lilliefors (Kolmogorov-Smirnov) normality test

data:  data1$PTERMINADO
D = 0.054539, p-value = 0.6574

p_valor es 0.6574 por tanto es > alpha. No se rechaza H0 (hay normalidad)

data2=datos[datos$OPERADORES%in%"2T","PTERMINADO"] 
lillie.test(data2$PTERMINADO)

    Lilliefors (Kolmogorov-Smirnov) normality test

data:  data2$PTERMINADO
D = 0.072634, p-value = 0.2178

P_valor es 0.21 por tanto es > alpha. No se rechaza H0 (hay normalidad)

data3=datos[datos$OPERADORES%in%"3T","PTERMINADO"] 
lillie.test(data3$PTERMINADO)

    Lilliefors (Kolmogorov-Smirnov) normality test

data:  data3$PTERMINADO
D = 0.048882, p-value = 0.8061

p_valor es 0.80 por tanto es > alpha. No se rechaza H0 (hay normalidad)

data4=datos[datos$OPERADORES%in%"4T","PTERMINADO"] 
lillie.test(data4$PTERMINADO)

    Lilliefors (Kolmogorov-Smirnov) normality test

data:  data4$PTERMINADO
D = 0.058951, p-value = 0.5337

p_valor es 0.53 por tanto es > alpha. No se rechaza H0 (hay normalidad)

Tras haber realisado la prueba lilliefors en cada grupo tal y como se muestra en la tabla a continuacion.

Se puede concluir que: si cumple con el supuesto de normalidad NO RECHAZANDO la H₀.

2.2. LINEALIDAD

Tras concluir con la normalidad seguimos con la linealidad, utilizando el Q-Q Plot permite visualizar una gráfica de dependencia de los cuantiles obtenidos de los datos del experimento.

ModeloLineal=lm(PTERMINADO~OPERADORES,data=datos)
standarized=rstudent(ModeloLineal)
qqnorm(standarized)
abline(0,1)

####Se puede observar que existe una normalidad en el intervalo de -2 hasta +2, concluyendo con que Los puntos estan alineados (se puede decir que hay linealidad).

2.3. HOMOGENEIDAD

La homogeneidad también llamada prueba de igualdad de varianzas, permite verificar que la varianza de los grupos existentes en la muestra se mantenga en rangos similares, permitiendo de esta manera garantizar homogeneidad entre las funciones de densidad de los subgrupos existentes en la muestra.

H₀ = 𝐿𝑎𝑠 𝑣𝑎𝑟𝑖𝑎𝑛𝑧𝑎𝑠 𝑑𝑒 𝑙𝑜𝑠 𝑔𝑟𝑢𝑝𝑜𝑠 𝑠𝑜𝑛 𝑖𝑔𝑢𝑎𝑙𝑒𝑠 ( ℎ𝑜𝑚𝑜𝑔𝑒𝑛𝑒𝑖𝑑𝑎𝑑).

H₁ = 𝐿𝑎𝑠 𝑣𝑎𝑟𝑖𝑎𝑛𝑧𝑎𝑠 𝑑𝑒 𝑙𝑜𝑠 𝑔𝑟𝑢𝑝𝑜𝑠 𝑠𝑜𝑛 𝑑𝑖𝑓𝑒𝑟𝑒𝑛𝑡𝑒𝑠 (𝑛𝑜 ℎ𝑜𝑚𝑜𝑔𝑒𝑛𝑒𝑖𝑑𝑎𝑑).

library(carData)
library(car)
leveneTest(PTERMINADO~OPERADORES,data=datos)
Warning in leveneTest.default(y = y, group = group, ...): group coerced to
factor.
Levene's Test for Homogeneity of Variance (center = median)
       Df F value Pr(>F)
group   3  1.9276 0.1245
      396               

Despues de ejecutar la prueba y obtenes el resultado P VALOR > alpha ,NO RECHAZANDO Ho. (SI hay homegineidad)).

2.4. HOMOCEDASTICIDAD

Es la característica que implica que la varianza de los errores permanece constante en el tiempo, lo que permite afianzar una inferencia

H₀: 𝐿𝑎 𝑣𝑎𝑟𝑖𝑎𝑛𝑧𝑎 𝑛𝑜 𝑒𝑠𝑡á 𝑐𝑎𝑚𝑏𝑖𝑎𝑛𝑑𝑜 𝑐𝑜𝑛 𝑒𝑙 𝑟𝑒𝑠𝑖𝑑𝑢𝑜 ( ℎ𝑜𝑚𝑜𝑐𝑒𝑑𝑎𝑠𝑡𝑖𝑐𝑖𝑑𝑎𝑑)

H₁: L𝑎 𝑣𝑎𝑟𝑖𝑎𝑛𝑧𝑎 𝑒𝑠𝑡á 𝑐𝑎𝑚𝑏𝑖𝑎𝑛𝑑𝑜 𝑐𝑜𝑛 𝑒𝑙 𝑟𝑒𝑠𝑖𝑑𝑢𝑜 ( 𝐻𝑒𝑡𝑒𝑟𝑜𝑐𝑒𝑑𝑎𝑠𝑡𝑖𝑐𝑖𝑑𝑎𝑑)

pruebas de Breusch- Pagan

La prueba ejecutada es el test de Breusch-Pagan, utilizando la función bptest() del paquete lmtest. Esta prueba se utiliza para determinar si la varianza de los residuos de un modelo es constante (homocedasticidad) o si varía en función de las variables explicativas (heterocedasticidad).

library(lmtest)
Warning: package 'lmtest' was built under R version 4.4.3
Cargando paquete requerido: zoo
Warning: package 'zoo' was built under R version 4.4.3

Adjuntando el paquete: 'zoo'
The following objects are masked from 'package:base':

    as.Date, as.Date.numeric
bptest(ModeloLineal)

    studentized Breusch-Pagan test

data:  ModeloLineal
BP = 8.044, df = 3, p-value = 0.04511

Dado que el p-valor está muy cerca del límite (0.05), el modelo se encuentra en una zona “fronteriza”,SI HAY homocedaticidad ( p_valor> alpha )

2.5. PRUEBA ANOVA

Análisis de varianza, se basa en el contraste de varianzas y sumas de cuadrados por factor, explicados y residuales. Esta prueba permite determinar la existencia de diferencias significativas en una muestra univariada que presenta tres o más grupos dentro de su variable independiente

.

El objetivo es verificar la hipótesis nula (\(H_0\)), la cual sostiene que las medias de todas las poblaciones comparadas son iguales.

anova=aov(datos$PTERMINADO~datos$OPERADORES)
summary(anova)
                  Df  Sum Sq Mean Sq F value Pr(>F)    
datos$OPERADORES   3 6035072 2011691    4659 <2e-16 ***
Residuals        396  170990     432                   
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Hay un efecto real: El tipo de operador o turno influye drásticamente en la producción. No es una variación al azar.

Problema de supuestos: Existe una ligera diferencia en la dispersión de los datos entre los grupos (como vimos en el boxplot anterior, unos grupos son más variables que otros).

plot(TukeyHSD(anova))

Diferencias Significativas (Casi todas)

Comparaciones con 1T (2T-1T, 3T-1T, 4T-1T): Todos estos intervalos están muy a la derecha del cero. El operador 1T produce significativamente menos que todos los demás.

Comparaciones con 2T (3T-2T, 4T-2T): También están lejos del cero. Los operadores 3T y 4T son significativamente más productivos que el 2T.

La excepción: 4T frente a 3T

Comparación 4T-3T: Fíjate en la parte inferior de la gráfica. El intervalo de confianza está muy cerca de la línea del cero.

Aunque parece que apenas se separa del cero (indicando una diferencia pequeña), es la comparación donde las medias están más próximas. Esto confirma lo que vimos en el primer gráfico de cajas: el rendimiento entre el tercer y cuarto grupo es muy similar.

Indica que existen diferencias significativas en alguna parte entre los grupos

2.6. t-test

Prueba de comparaciones múltiples por pares (Pairwise t-tests) con ajuste de Bonferroni. Se utiliza después del ANOVA para confirmar exactamente qué grupos son diferentes entre sí, controlando el error que surge al hacer muchas comparaciones.

pairwise.t.test(datos$PTERMINADO,datos$OPERADORES,paired = FALSE,
                var.equal=TRUE,p.adjust.method = "bon")

    Pairwise comparisons using t tests with pooled SD 

data:  datos$PTERMINADO and datos$OPERADORES 

   1T     2T     3T  
2T <2e-16 -      -   
3T <2e-16 <2e-16 -   
4T <2e-16 <2e-16 0.03

P value adjustment method: bonferroni 

Basándonos en todas las pruebas que has compartido (Boxplot, Breusch-Pagan, ANOVA, Tukey y Pairwise t-test), el panorama es el siguiente:

Tendencia de Crecimiento: Existe una relación positiva directa entre el aumento de “OPERADORES” y el “PTERMINADO”.

Productividad por Salto:

  • El salto de 1T a 2T es masivo.

  • El salto de 2T a 3T es sustancial.

  • El salto de 3T a 4T es el más pequeño, sugiriendo que la eficiencia está llegando a un tope o techo de producción.

3. TABLA COMPARATIVA

Característica Ejercicio 1 (data_15.xlsx) Ejercicio 2 (data_15.4.xlsx)
Objetivo Determinar diferencias significativas en unidades producidas entre 1 y 4 operadores1. Determinar diferencias significativas en unidades producidas entre 1 y 4 operadores.
Normalidad Cumple. Todos los p-valores de la prueba Lilliefors fueron > 0.05. Cumple. Todos los p-valores de la prueba Lilliefors fueron > 0.05.
Linealidad Cumple. Puntos alineados en el intervalo de -2 a +2 en el Q-Q Plot. Cumple. Puntos alineados en el intervalo de -2 a +2 en el Q-Q Plot.
Homogeneidad de Varianzas No cumple. Prueba de Levene con p-valor (\(2.515e-10\)) < 0.05. Cumple. Prueba de Levene con p-valor (\(0.1245\)) > 0.05.
Naturaleza de los Datos Catalogados como No Paramétricos por falta de homogeneidad9. Catalogados como aptos para pruebas paramétricas (ANOVA).
Prueba Estadística Principal Kruskal-Wallis (Prueba no paramétrica). ANOVA y Tukey HSD (Pruebas paramétricas).
Resultado de Diferencias Existen diferencias significativas entre al menos dos operadores (p-valor \(< 2.2e-16\)). Existen diferencias significativas entre los grupos (p-valor \(< 2e-16\)).

4. CONCLUCION

Tras el análisis estadístico de los dos escenarios de simulación, se concluye que el número de operadores tiene un impacto significativo en la producción en ambos casos. Sin embargo, la validez técnica de los resultados difiere según el comportamiento de los datos:

4.1. Validación de la Metodología Estadística

Cumplimiento de Supuestos: Ambos ejercicios demostraron normalidad y linealidad, lo que indica que los datos están bien distribuidos y no presentan valores atípicos extremos que invaliden las pruebas.

Divergencia en Homocedasticidad: El Ejercicio 1 presentó varianzas desiguales (Heterocedasticidad) , lo que obligó a utilizar la prueba no paramétrica de Kruskal-Wallis. Por el contrario, el Ejercicio 2 cumplió con la homogeneidad de varianzas , permitiendo un análisis de varianza (ANOVA) y comparaciones múltiples de Tukey más precisas.

4.2. Comportamiento de la Productividad (Ejercicio 2)

El análisis detallado del segundo escenario revela una dinámica de rendimientos decrecientes:

  • Impacto Inicial: El incremento de personal de 1 a 2 operadores genera un aumento de producción “masivo”.

  • Punto de Saturación: Al pasar de 3 a 4 operadores, el incremento es estadísticamente el más pequeño (p-valor de 0.03 en comparación con <2e-16 de los otros saltos).

  • Techo Operativo: Esto sugiere que el sistema está llegando a un tope o techo de producción. Agregar más personal después del tercer operador ofrece beneficios marginales menores, posiblemente debido a limitaciones en el espacio físico, maquinaria disponible o flujo del proceso.