Taller verificación de supuestos y pruebas de rangos múltiples DBCA

Author

Glendy Diaz, Ana Doria, Wilber pacheco, Glenis Naranjo

Taller verificación de supuestos y pruebas de rangos múltiples DBCA

Problema

Un fabricante de productos para la salud produce injertos vasculares (venas artificiales). Estos injertos se fabrican extruyendo tubos de resina de politetrafluoroetileno (PTFE) combinada con un lubricante. Con frecuencia, algunos de los tubos de una serie de producción contienen pequeñas protuberancias duras en la superficie externa. Estos defectos se conocen como “flicks”. El defecto es causa de rechazo de la unidad. El desarrollador del producto responsable de los injertos vasculares sospecha que la presión de extrusión afecta a la aparición de “flicks” y, por tanto, pretende llevar a cabo un experimento para investigar esta hipótesis. Sin embargo, la resina la fabrica un proveedor externo y se entrega al fabricante de productos para la salud por lotes. El ingeniero también sospecha que puede haber una variación significativa entre lotes, porque aunque el material debería ser consistente con respecto a parámetros como el peso molecular, el tamaño medio de partícula y la retención, probablemente no lo sea debido a la variación de fabricación en el proveedor de resina y a la variación natural del material. Por lo tanto, el desarrollador del producto decide investigar el efecto de cuatro niveles diferentes de presión de extrusión sobre los flicks, considerando los lotes de resina como bloques. La variable de respuesta es el rendimiento, es decir, el porcentaje de tubos de la tirada de producción que no contenían ninguna fisura. Recuerde que el orden en que se prueban las presiones de extrusión dentro de cada bloque es aleatorio. Las observaciones se encuentran en la siguiente tabla:

Punto 1 Verificación de la normalidad
Presión de extrusión (PSI) Lote 1 Lote 2 Lote 3 Lote 4 Lote 5 Lote 6
8500 90,30 89,20 98,20 93,90 87,40 97,90
8700 92,50 89,50 90,60 94,70 87,00 95,80
8900 85,50 90,80 89,60 86,20 88,00 93,40
9100 82,50 89,50 85,60 87,40 78,90 90,70

a. Verifique el supuesto de normalidad de manera gráfica. Concluya partiendo de los resultados.

library(readxl)
datos <- read_excel("C:/Users/LVJ/Downloads/Primera base de datos.xlsx")
New names:
• `` -> `...4`
• `` -> `...5`
presion <- as.factor(datos$presion)
lotes <- as.factor(datos$lotes)
modelo <- lm(datos$rendimiento~(presion + lotes))
anova <- aov(modelo)
{library(car)}
Warning: package 'car' was built under R version 4.3.3
Loading required package: carData
Warning: package 'carData' was built under R version 4.3.3
qqPlot (anova, main= "Gráfico Cuantil - Cuantil", id=FALSE)

summary(anova)
            Df Sum Sq Mean Sq F value  Pr(>F)   
presion      3  178.2   59.39   8.107 0.00192 **
lotes        5  192.2   38.45   5.249 0.00553 **
Residuals   15  109.9    7.33                   
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

En este código, primero se importa la librería readxl para leer datos desde un archivo Excel. se utiliza un metodo especifico para analizar la relación entre el rendimiento y los factores de presión y lotes. A continuación, se lleva a cabo un análisis de varianza ANOVA sobre el modelo ajustado para determinar si existen diferencias significativas en el rendimiento según los factores de presión y lotes. Por último, se presenta un resumen del ANOVA para evaluar la significancia de estas relaciones.

conclusion:

Del gráfico Cuantil-Cuantil no se observa alguna evidencia para sospechar que no exista normalidad en los residuales.

b. Verifique la normalidad usando el Test de Shapiro - Wilk. Plantee las hipótesis correspondientes y concluya a partir de ellas y el problema objeto de estudio.

Verificación analítica mediante Shapiro-Wilk.

Para la prueba tenemos las siguientes hipótesis:

\[H_{0}: e_{ij} \sim N(0,\sigma^2)\] \[H_{1}: e_{ij} \ncong N(0,\sigma^2)\] \[i,j = 1,2,3,4\]

shapiro.test(anova$residuals)

    Shapiro-Wilk normality test

data:  anova$residuals
W = 0.95631, p-value = 0.3689

El estadístico de prueba obtenido para la prueba de Shapiro-Wilk, utilizado para evaluar la normalidad de los residuos del modelo, fue de 0.95631. Este valor se comparó con el estadístico crítico teórico para la distribución normal, considerando un nivel de significancia de 0.05 y el tamaño de la muestra de los residuos. Dado que el valor de prueba 0.95631 es menor que el valor teorico 0.981, no se encontró evidencia estadística suficiente para rechazar la hipótesis nula.

Por lo tanto esta conclusión es relevante para el problema en estudio, que busca determinar si la presión de extrusión tiene un efecto significativo en la aparición de “flicks” en los injertos vasculares. Sugiere que el supuesto de normalidad de los errores en el modelo de ANOVA podría ser razonablemente válido en este contexto.

c. Verifique la normalidad usando el Test de Kolmogorov - Smirnov. Plantee las hipótesis correspondientes y concluya a partir de ellas y el problema objeto de estudio.

Verificación analítica mediante Kolmogorov - Smirnov.

Para la prueba tenemos las siguientes hipótesis.

\[H_{0}: e_{ij} \sim N(0,\sigma^2)\] \[H_{1}: e_{ij} \ncong N(0,\sigma^2)\] \[i,j=1,2,3,4\]

library(nortest)
lillie.test(modelo$residuals)

    Lilliefors (Kolmogorov-Smirnov) normality test

data:  modelo$residuals
D = 0.1305, p-value = 0.3617

conclusion:

El estadístico de prueba para la prueba de Lilliefors arrojó un valor de D = 0.1305, con un valor p de 0.3617. Dado que el valor p es mayor que el nivel de significancia convencional (0.05), no hay evidencia estadística suficiente para rechazar la hipótesis nula de normalidad de los residuos. Por lo tanto, se concluye que los residuos provienen de una distribución normal según el test de Lilliefors.

Punto 2 Verificación de la homocestacidad

a. Verifique el supuesto de homogeneidad de la varianza de manera gráfica. Concluya partiendo de los resultados.

library(readxl)

datos <- read_excel("C:/Users/LVJ/Downloads/Primera base de datos.xlsx")
New names:
• `` -> `...4`
• `` -> `...5`
presion <- as.factor(datos$presion)
lotes <- as.factor(datos$lotes)
modelo <- lm(datos$rendimiento~(presion + lotes))
anova <- aov(modelo)

Gráfico

predichos<-modelo$fitted.values
residuales <-modelo$residuals
plot(predichos,residuales, main="Predichos VS Residuales", xlab="Valores predichos", ylab="Residuales", ylim = c(-5,5), xlim=c(80,100))

En esta gráfica se evidencia que no existe un patrón entre los puntos, lo que puede ser una señal de que los tratamientos tiene una igual varianza.

b. Verifique la homogeneidad de la varianza usando el Test de Bartlett. Plantee las hipótesis correspondientes y concluya a partir de ellas y el problema objeto de estudio.

Test de Bartlett

bartlett.test(anova$residuals~datos$presion)

    Bartlett test of homogeneity of variances

data:  anova$residuals by datos$presion
Bartlett's K-squared = 0.15654, df = 3, p-value = 0.9843
qchisq(0.05,3,lower.tail = FALSE)
[1] 7.814728

Para la prueba tenemos las siguientes hipótesis:

\(H_0: \sigma_1^2 = \sigma_2^2 = \sigma_3^2 = \sigma_4^2 =\sigma^2 \\ H_1: \sigma_i^2 \neq \sigma_j^2~para~al~menos~un~par~(i,j)~con~i \neq j \\ i,j=1,2,3,4\)

En este caso la prueba de Bartlett nos dio un estadístico de prueba de \(X_0^2=0.15654\) el estadístico teoríco para el nivel de significancia \(\alpha=0.05\) y \(a=1\) grados de libertad en el tratamiento quedea como \(X_{0.05,~3}^2=7.814728\)

Entonces tenemos qué:

\(X_0=0.15654\)

\(X_{0.05,~3}^2=7.814728\)

Como \(X_0^2<X_{\alpha,~a-1}\) No existe suficiente evidencia estadística para rechazar \(H_0\) por lo que las varianzas de los tratamientos son iguales, de la misma manera como se concluye en el gráfico.

Punto 3 Verificación supuesto de independencia

Tenga en cuenta los siguientes datos para el orden de corrida experimental:

datos2 <- read_excel("C:/Users/LVJ/Downloads/Segunda base de datos.xlsx")
New names:
• `` -> `...5`
presion2 <- as.factor(datos2$presion2)
lotes2 <- as.factor(datos2$lotes2)
modelo2 <- lm(datos2$rendimiento2~(presion2 + lotes2))
anova2 <- aov(modelo2)

a. Verifique el supuesto de independencia de manera gráfica. Concluya partiendo de los resultados gráficos.

residuales2 = anova2$residuals
orden = c(1:24)
plot(orden, residuales2, ylim = c(-3,5), xlim = c(1,25), main = "Grafico de independencia")

De acuerdo a los datos obtenidos en el gráfico de independecia no se puede observar con claridad un patrón en los datos, por esto no hay evidencia para dudar de la independencia entre los residuales.

b. Verifique la independencia usando el Test de Durbin - Watson. Plantee las hipótesis correspondientes y concluya a partir de ellas y el problema objeto de estudio.

HIPÓTESIS

\(H_0:\rho = 0\)

\(H_1: \rho \neq0\)

Test de Durbin - Watson

library(car)
durbinWatsonTest(modelo2, alternative = "two.sided")
 lag Autocorrelation D-W Statistic p-value
   1      -0.2278286      2.407773   0.288
 Alternative hypothesis: rho != 0

\(D=\) 2.407

\(D_L=\) 1.013

\(D_U=\) 1.775

\(4- D_L=\) 2.987

\(4- D_U=\) 2.225

Conclusión:

De acuerdo a los resultados obtenidos por el test de durbin - watson concluimos que \(4- D_U= 2.225 < D= 2.407 < 4- D_L= 2.987\). Por esto la prueba no es concluyente.

Punto 4 Decisión

a. ¿Cuál presión de extrusión ofrece mejores resultados al ingeniero? Responda y argumente usando la Test LSD de Fisher.

b. ¿Cuál presión de extrusión ofrece mejores resultados al ingeniero? Responda y argumente usando la Test HSD de Tukey.

#Análisis de varianza

library(readxl)
datos <- read_excel("C:/Users/LVJ/Downloads/Primera base de datos.xlsx")
New names:
• `` -> `...4`
• `` -> `...5`
presion <- as.factor(datos$presion)
lotes <- as.factor(datos$lotes)
modelo <- lm(datos$rendimiento~(presion + lotes))
anova <- aov(modelo)

a. ¿Cuál presión de extrusión ofrece mejores resultados al ingeniero? Responda y argumente usando la Test LSD de Fisher.

Test LSD de Fisher

library(agricolae)
Warning: package 'agricolae' was built under R version 4.3.3
LSD.test(y=anova, trt="presion", group=TRUE, console=TRUE)

Study: anova ~ "presion"

LSD t Test for datos$rendimiento 

Mean Square Error:  7.32575 

presion,  means and individual ( 95 %) CI

     datos.rendimiento      std r      se      LCL      UCL  Min  Max    Q25
8500          92.81667 4.577081 6 1.10497 90.46148 95.17185 87.4 98.2 89.475
8700          91.68333 3.304189 6 1.10497 89.32815 94.03852 87.0 95.8 89.775
8900          88.91667 2.966760 6 1.10497 86.56148 91.27185 85.5 93.4 86.650
9100          85.76667 4.445072 6 1.10497 83.41148 88.12185 78.9 90.7 83.275
       Q50    Q75
8500 92.10 96.900
8700 91.55 94.150
8900 88.80 90.500
9100 86.50 88.975

Alpha: 0.05 ; DF Error: 15
Critical Value of t: 2.13145 

least Significant Difference: 3.330738 

Treatments with the same letter are not significantly different.

     datos$rendimiento groups
8500          92.81667      a
8700          91.68333     ab
8900          88.91667     bc
9100          85.76667      c

Se puede concluir que los valores de PSI 8500 y 8700 representan los tratamientos con una media muestral más alta, por lo tanto tienen mayor rendimiento. Además, son estadísticamente iguales. A partir de esto, se infiere que el menor de los niveles de presión de extrusión es el que tendrá un mayor valor porcentual que no contiene ninguna fisura, en este caso es 8500 PSI.

b. ¿Cuál presión de extrusión ofrece mejores resultados al ingeniero? Responda y argumente usando la Test HSD de Tukey.

Test HSD de Tukey

library(agricolae)
TukeyHSD(anova, conf.level = 0.95)
  Tukey multiple comparisons of means
    95% family-wise confidence level

Fit: aov(formula = modelo)

$presion
               diff        lwr       upr     p adj
8700-8500 -1.133333  -5.637161  3.370495 0.8854831
8900-8500 -3.900000  -8.403828  0.603828 0.1013084
9100-8500 -7.050000 -11.553828 -2.546172 0.0020883
8900-8700 -2.766667  -7.270495  1.737161 0.3245644
9100-8700 -5.916667 -10.420495 -1.412839 0.0086667
9100-8900 -3.150000  -7.653828  1.353828 0.2257674

$lotes
      diff         lwr        upr     p adj
2-1  2.050  -4.1680828  8.2680828 0.8853016
3-1  3.300  -2.9180828  9.5180828 0.5376297
4-1  2.850  -3.3680828  9.0680828 0.6757699
5-1 -2.375  -8.5930828  3.8430828 0.8105903
6-1  6.750   0.5319172 12.9680828 0.0297368
3-2  1.250  -4.9680828  7.4680828 0.9845521
4-2  0.800  -5.4180828  7.0180828 0.9980198
5-2 -4.425 -10.6430828  1.7930828 0.2483499
6-2  4.700  -1.5180828 10.9180828 0.1986961
4-3 -0.450  -6.6680828  5.7680828 0.9998784
5-3 -5.675 -11.8930828  0.5430828 0.0837504
6-3  3.450  -2.7680828  9.6680828 0.4925715
5-4 -5.225 -11.4430828  0.9930828 0.1263042
6-4  3.900  -2.3180828 10.1180828 0.3674672
6-5  9.125   2.9069172 15.3430828 0.0027838

En conclusión, según los resultados obtenidos en la prueba HSD de Tukey, la presión de extrusión de 9100 ofrece mejores resultados que las presiones de extrusión de 8500 y 8700, ya que la diferencia en las medias es estadísticamente significativa. No hay diferencias significativas entre las demás combinaciones de presiones de extrusión. Esto quiere decir qué, basándonos en los resultados de la prueba HSD de Tukey, la presión de extrusión de 9100 es la que ofrece mejores resultados según los criterios evaluados en tu estudio.