Capítulo 2: Estadística Descriptiva.

Ejercicio 16.

Una característica clave en la calidad de las pinturas es su densidad, y un componente que influye en esta es la cantidad de arenas que se utilizan en su elaboración. La cantidad de arena en la formulación de un lote se controla por medio del número de costales, que según el proveedor contienen 20 kg. Sin embargo, continuamente se tienen problemas en la densidad de la pintura que es necesario corregir con retrabajo y reprocesos adicionales. En este contexto se decide investigar cuánta arena contienen en realidad los costales. Para ello, se toma una muestra aleatoria de 30 costales de cada lote o pedido (500 costales). Los pesos obtenidos en las muestras de los últimos tres lotes se muestran adelante. Las especificaciones iniciales que se establecen para el peso de los costales de arena son de 20 ± 0.8 kg.
## Warning in system2("/usr/bin/otool", c("-L", shQuote(DSO)), stdout = TRUE):
## running command ''/usr/bin/otool' -L '/Library/Frameworks/R.framework/
## Resources/modules/R_de.so'' had status 1

a) De acuerdo con los 90 datos, ¿el centrado del proceso es adecuado?

Para verificar si el centrado de los 90 datos es el adecuado, procedemos a investigar la tendencia central de los datos, calulando media, mediana; con esto, determinaremos si el proceso está centrado; es decir, si la tendencia central de la variable peso de arena en la pintura está muy próxima al valor especificado que es de 20 kg.

## La media es = 19.35
## La mediana es  19.25

A continuación mostramos el diagrama de caja y bigotes, para evidenciar la presencia de datos atípicos

boxplot(x = df$pesos, main = "Pesos de Arena",ylab = "Pesos")

En el diagrama de caja y bigotes anterior vemos que se presenta un punto atípico, que es el peso de 21 kg.

De acuerdo a las medidas de tendencia central calculadas vemos hay evidencia de que el proceso está descentrado moderadamente hacia la izquierda.Vemos que, en efecto la media es mayor a la mediana con 0.10 kg, esto, evidencia que la media es sensible a los datos atípicos,

b) ¿La variabilidad es poca o mucha? Apóyese en los estadísticos adecuados.

Para conocer la variabilidad de los datos, nos apoyaremos en la desviación estándar que nos indicará que tan esparcidos están los datos de la media. Así,

## La desviación estándar es = 0.5487985

Analizando para los 90 datos sin distinción de lotes vemos que existe evidencia de que la distancia promedio entre los datos y la media es de aproximadamente 0,549 kg; por otra parte, tenemos que la amplitud máxima de dispersión 2,4 kg. Vemos que la dispersión de los datos respecto a la media es mucho menor que la mitad de la amplitud máxima; además, es menor que a la tolerancia de 0,8kg establecida.

c) Obtenga un histograma para los 90 datos, inserte las especificaciones e interprételo con detalle.

A continuación, presentaremos el histograma para los 90 datos, que nos permitirá analizar la distribución de la variable peso de arena en la pintura

hist(df$pesos, main = "Distribución de los Pesos de Arena",ylab = "Frecuencias",xlab="Pesos de Arena")
abline(v=19.2,col="blue")
abline(v=20.8,col="red")

Del histograma mostrado anteriormente, vemos aproximadamente el 38,9 % de costales tienen un peso entre 19 kg y 19.5 kg; y, existe evidencia de que aproximandamente el 28,9 % de los costales tienen un peso que oscila entre 18.5 kg y 19.kg . También vemos que los existe una cantidad similar de costales entre los pesos de 20kg a 20.5 kg y de 20.5 a 21kg.

Al aplicar la desigualdad de Chevishev a los datos del peso de arena en los costales, se tiene que un alto porcentaje de las mediciones del peso de arena en los costales varía entre: 17.7 y 21kg que se deriva del siguiente cálculo:

\[ \begin{eqnarray*} 19.35-3(0.55)=17.7 \\ 19.35+3(0.55)=21 \end{eqnarray*} \] Al comparar los límites de especificación 19.2 kg y 20,8 kg con los límites calculados anteriormente vemos que 17,7 está por debajo de la especificación inferior lo que refleja la baja capacidad del proceso.

d) Dé su conclusión general acerca de si los bultos cumplen con el peso especificado.

Como pudimos notar de manera analítica usando la desigualdad de Chevishev, varios bultos no cumplen con el peso especificado, en su gran mayoría por tener un peso menor. Así, en general podemos concluir que los bultos no cumplen con el peso especificado.

e) Haga un análisis de cada lote por separado y con apoyo de estadísticos y gráficas, señale si hay diferencias grandes entre los lotes.

Para esto planteamos las siguientes pruebas de hipó́tesis con los datos de los lotes anteriores y toda la informació́n ya obtenida ( α = 0,05): Para el lote 1 y 2 tenemos lo siguiente: \[ \begin{eqnarray*} H_0:\mu_1=\mu_2\\ H_1:\mu_1\neq\mu_2 \end{eqnarray*} \] Para el lote 2 y 3

\[ \begin{eqnarray*} H_0:\mu_2=\mu_3\\ H_1:\mu_2\neq\mu_3 \end{eqnarray*} \]

Para el lote 2 y 3

\[ \begin{eqnarray*} H_0:\mu_3=\mu_1\\ H_1:\mu_3\neq\mu_1 \end{eqnarray*} \]

Así,

## 
##  Welch Two Sample t-test
## 
## data:  x1 and x2
## t = 0.11091, df = 14.894, p-value = 0.9132
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  -0.5468999  0.6068999
## sample estimates:
## mean of x mean of y 
##     19.31     19.28
## 
##  Welch Two Sample t-test
## 
## data:  x2 and x3
## t = -0.64728, df = 15.748, p-value = 0.5268
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  -0.7702895  0.4102895
## sample estimates:
## mean of x mean of y 
##     19.28     19.46
## 
##  Welch Two Sample t-test
## 
## data:  x1 and x3
## t = -0.71573, df = 17.839, p-value = 0.4834
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  -0.5905876  0.2905876
## sample estimates:
## mean of x mean of y 
##     19.31     19.46

De los resultados anteriores vemos que para el lote 1 y 2 se tiene un p-valor de 0.9132>0.05, por tanto no se rechaza la hipótesis nula, es decir, no existe diferencia significativa entre las medias de ambos lotes

Para el lote 2 y 3 se tiene un p-valor de 0.5268>0.05, por ende, tampoco se rechaza la hipótesis nula, las medias de estos lotes son similares

Para el lote 1 y 3 se tiene un p-valor de 0.4834>0.05, así, no se rechaza la hipótesis nula, y las medias de dichos lotes son similares.

f) ¿Las diferencias encontradas se podrían haber inferido a partir del histograma del inciso c)?

Vemos un sesgo hacia la izquierda, luego existen datos hacia la derecha del limite de exigencia inferior es decir que existen varios costales que no cumplen con la calidad mínima, de la misma manera observamos que existen datos hacia la izquierda del limite superior de exigencia, por tanto se podría decir que si los 90 datos no cumplen las especificaciones en su totalidad, lo cual se evidencia inciso c.

Ahora, para cada lote tenemos lo siguiente:

hist(x1, main = "Distribución de los Pesos de Arena de lote 1",ylab = "Frecuencias",xlab="Pesos de Arena")
abline(v=19.2,col="blue")
abline(v=20.8,col="red")

hist(x2, main = "Distribución de los Pesos de Arena de lote 2",ylab = "Frecuencias",xlab="Pesos de Arena")
abline(v=19.2,col="blue")
abline(v=20.8,col="red")

hist(x3, main = "Distribución de los Pesos de Arena de lote 3",ylab = "Frecuencias",xlab="Pesos de Arena")
abline(v=19.2,col="blue")
abline(v=20.8,col="red")

Vemos que existen evidencias de que el lote 1 es el más centrado; sin embargo, los lotes 2, y 3 presentan sesgo hacia la izquierda además de mostrar varibilidad.

g) Obtenga un diagrama de caja para cada lote y compárelos.

boxplot(x1,x2,x3 ,main = "Distribución de los Pesos de Arena",ylab = "Frecuencias",xlab="Lotes" ,border = c("blue", "green", "red"))

De los diagramas de caja y bigotes para los lotes 1,2 y 3 vemos que el 50% de los costales de arena tienen un peso que oscila entre 19 y 19,5kg. En el lote 2 encontramos la presencia de un dato atípico con un peso de 21kg. Además, la mediana es cercana al valor del cuartil inferior, su brazo derecho es mas largo, es decir existe una gran posibilidad de la presencia de sesgo en los datos de este lote, para constatar esto calculemos su sesgo.

En vista de que el sesgo es 1,014, la cola derecha de la distribución es más larga

En el lote 3 se tiene un sesgo de 0,2853, por ende, también se tiene que la cola derecha es más larga.

El sesgo del lote 1 es de 1.0147 lo cual nos indica que la cola derecha es también la más larga al ser positivo.