En una empresa que fabrica y vende equipo para fotocopiado utilizan como un indicador importante de la calidad en el servicio posventa, el tiempo de respuesta a solicitudes de apoyo técnico debido a fallas en los equipos. Para problemas mayores, en cierta zona del país se estableció como meta que la respuesta se dé en un máximo de 6 horas hábiles; es decir, de que habla el cliente solicitando apoyo, y que si el problema se clasifica como grave no deben pasar más de 6 horas hábiles para que un técnico acuda a resolver el problema. A continuación se aprecian los tiempos de respuesta en horas para los primeros nueve meses del año (65 datos).
5.0 5.4 7.1 7.0 5.5 4.4 5.4 6.6 7.1 4.2 4.1 3.0 5.7 6.7 6.8 4.7 7.1 3.2 5.7 4.1 5.5 7.9 2.0 5.4 2.9 5.3 7.4 5.1 6.9 7.5 3.2 3.9 5.9 3.6 4.0 2.3 8.9 5.8 5.8 6.4 7.7 3.9 5.8 5.9 1.7 3.2 6.8 7.0 5.4 5.6 4.5 6.5 4.1 7.5 6.8 4.3 5.9 3.1 8.3 5.4 4.7 6.3 6.0 3.1 4.8
Los códigos que se utilizan son:
datos17 <- c(5.0, 5.4, 7.1, 7.0, 5.5, 4.4, 5.4, 6.6, 7.1, 4.2,
4.1, 3.0, 5.7, 6.7, 6.8, 4.7, 7.1, 3.2, 5.7, 4.1,
5.5, 7.9, 2.0, 5.4, 2.9, 5.3, 7.4, 5.1, 6.9, 7.5,
3.2, 3.9, 5.9, 3.6, 4.0, 2.3, 8.9, 5.8, 5.8, 6.4,
7.7, 3.9, 5.8, 5.9, 1.7, 3.2, 6.8, 7.0, 5.4, 5.6,
4.5, 6.5, 4.1, 7.5, 6.8, 4.3, 5.9, 3.1, 8.3, 5.4,
4.7, 6.3, 6.0, 3.1, 4.8)
Calculemos las medidas de tendencia central:
Media:
mean(datos17)
## [1] 5.366154
Mediana:
median(datos17)
## [1] 5.5
Si solo nos basamos en estos datos se podría afirmar que se cumple con la meta puesto que ambos valores son menores que el máximo de tiempo permitido, que es 6 horas. Sin embargo, no conocemos la dispersión de estos datos. De esta forma pueden existir valores que estén fuera del máximo permitido y tener igual media y moda. En conclusión si solo tomamos en cuenta las medidas de tendencia central y no evaluamos las de variación, nuestras afirmaciones pueden ser erróneas.
Para aplicar la regla empírica necesitamos los datos de la media y desviación estándar muestrales. Calculemos la desviación estándar muestral:
sd(datos17)
## [1] 1.618475
Así tenemos que:
\[ \bar{x} = 5.366154 \qquad \text{y} \qquad s = 1.618475\]
x <- mean(datos17)
s <- sd(datos17)
Utilizando la regla empírica sabemos que el 68% de los datos de la muestra se encuentra en el intervalo: \[ [\bar{x} - s, \hspace{5pt} \bar{x} + s] \]
c(x-s,x+s)
## [1] 3.747679 6.984629
El 95% de los datos se encuentra en el intervalo
\[ [\bar{x} - 2s, \hspace{5pt} \bar{x} + 2s] \]
c(x-2*s,x+2*s)
## [1] 2.129204 8.603104
El 99.7% de los datos se encuentra en el intervalo
\[ [\bar{x} - 3s, \hspace{5pt} \bar{x} + 3s] \]
c(x-3*s,x+3*s)
## [1] 0.5107286 10.2215790
Analizando estos valores, podemos concluir que la meta no se cumple como es deseado, puesto que en todos los intervalos se sobrepasa el límite permitido de 6 horas.
hist(datos17, xlab="Horas", ylab="Frecuencia",col="#CEF6F5")
Del histograma se puede ver que:
Puesto que los datos que se nos presentan son de horas en las que se da respuesta a un conflicto, lo ideal sería que el pico del proceso se encuentre más a la izquierda. Esto significaría que los problemas se resuleven de manera más eficiente.
Lo óptimo sería que la mayor frecuencia esté en las horas mas bajas e ir decreciendo hasta las horas más grandes, esto sería un servicio óptimo. Por lo tanto, las acciones que se deberían tomar en cuenta para mejorar el proceso y cumplir mejor la meta serían:
Los siguientes datos representan las horas caídas de equipos por semana en tres líneas de producción.
| SEMANA | Línea 1 | Línea 2 | Línea 3 | SEMANA | Línea 1 | Línea 2 | Línea 3 |
|---|---|---|---|---|---|---|---|
| 1 | 7.7 | 6.6 | 7.5 | 14 | 6.3 | 6.5 | 8.5 |
| 2 | 6.8 | 5.2 | 8.1 | 15 | 7.8 | 7.7 | 8.0 |
| 3 | 8.5 | 7.2 | 6.2 | 16 | 6.7 | 7.4 | 7.7 |
| 4 | 8.6 | 9.2 | 7.4 | 17 | 7.3 | 6.1 | 7.5 |
| 5 | 5.7 | 6.7 | 8.2 | 18 | 5.7 | 6.2 | 8.2 |
| 6 | 7.9 | 6.2 | 6.0 | 19 | 6.2 | 7.3 | 7.7 |
| 7 | 8.1 | 7.1 | 8.2 | 20 | 7.3 | 6.9 | 7.0 |
| 8 | 7.6 | 8.1 | 8.1 | 21 | 5.0 | 6.1 | 6.5 |
| 9 | 7.1 | 6.4 | 6.7 | 22 | 5.0 | 6.9 | 6.2 |
| 10 | 7.3 | 6.3 | 8.0 | 23 | 5.4 | 8.4 | 6.0 |
| 11 | 7.8 | 8.2 | 8.1 | 24 | 7.5 | 5.0 | 6.1 |
| 12 | 6.1 | 8.4 | 8.1 | 25 | 6.0 | 7.4 | 5.8 |
| 13 | 6.4 | 7.4 | 7.0 | . | . | . | . |
Para analizar los datos de cada línea nos guiaremos de sus características más relevantes en la distribución de los datos tales como la media, la mediana, la moda, la variación de los datos y la forma de los mismos.
l1 = c(7.7,6.8,8.5,8.6,5.7,7.9,8.1,7.6,7.1,7.3,7.8,6.1,6.4,6.3,7.8,6.7,7.3,5.7,6.2,7.3,5.0,5.0,5.4,7.5,6.0)
l2 = c(6.6,5.2,7.2,9.2,6.7,6.2,7.1,8.1,6.4,6.3,8.2,8.4,7.4,6.5,7.7,7.4,6.1,6.2,7.3,6.9,6.1,6.9,8.4,5.0,7.4)
l3 = c(7.5,8.1,6.2,7.4,8.2,6.0,8.2,8.1,6.7,8.0,8.1,8.1,7.0,8.5,8.0,7.7,7.5,8.2,7.7,7.0,6.5,6.2,6.0,6.1,5.8)
c("Media" = round(mean(l1),2), "Mediana" = round(median(l1),2), "Min" = min(l1), "Max" = max(l1), "Rango" = max(l1) - min(l1), "DesEst" = round(sd(l1),2))
## Media Mediana Min Max Rango DesEst
## 6.87 7.10 5.00 8.60 3.60 1.05
Por otra parte, la forma en la que se distribuyen los datos de la Línea 1, con su densidad, es la siguiente
hist(l1,main="Línea 1",col = "#58FAF4",freq = F)
lines(density(l1),col = "red", lwd = 3)
Para la Línea 2, tenemos los siguientes resultados
c("Media" = round(mean(l2),2), "Mediana" = round(median(l2),2), "Min" = min(l2), "Max" = max(l2), "Rango" = max(l2) - min(l2), "DesEst" = round(sd(l2),2))
## Media Mediana Min Max Rango DesEst
## 7.0 6.9 5.0 9.2 4.2 1.0
hist(l2,main="Línea 2",col = "#81F781",freq = F)
lines(density(l2),col = "red", lwd = 3)
Finalmente de la Línea 3 obtenemos
c("Media" = round(mean(l3),2), "Mediana" = round(median(l3),2), "Min" = min(l3), "Max" = max(l3), "Rango" = max(l3) - min(l3),"DesEst" = round(sd(l3),2))
## Media Mediana Min Max Rango DesEst
## 7.31 7.50 5.80 8.50 2.70 0.88
hist(l3,main="Línea 3",col = "#F6CEEC",freq = F)
lines(density(l3),col = "red", lwd = 3)
Con los resultados obtenidos en el literal anterior, podemos notar que las distribuciones de las 3 líneas son muy diferentes en cuanto a cada una de sus características y, sobre todo en la forma en la que se distribuyen el conjunto de datos; aun así, podemos ver que la Línea dos tiene una forma más deseable que las otras dos, pues las líneas 1 y 3 parecen ser bimodales, donde no se pueden apreciar adecudamente el centrado de los datos.
Se tienen dos proveedores de una pieza metálica, cuyo diámetro ideal o valor objetivo es igual a 20.25 cm. Se toman dos muestras de 14 piezas a cada proveedor y los datos obtenidos se muestran a continuación:
| Proveedor | Diámetros de las piezas de cada proveedor |
|---|---|
| 1 | 21.38, 20.13, 19.12, 19.85, 20.54, 18.00, 22.24, 21.94, 19.07, 18.60, 21.89, 22.60, 18.10, 19.25 |
| 2 | 21.51, 22.22, 21.49, 21.91, 21.52, 22.06, 21.51, 21.29, 22.71, 22.65, 21.53, 22.22, 21.92, 20.82 |
datos26_1 <- c(21.38, 20.13, 19.12, 19.85, 20.54, 18.00, 22.24, 21.94, 19.07, 18.60, 21.89, 22.60, 18.10, 19.25)
datos26_2 <- c(21.51, 22.22, 21.49, 21.91, 21.52, 22.06, 21.51, 21.29, 22.71, 22.65, 21.53, 22.22, 21.92, 20.82)
Prueba de Hipótesis
\[ H_0 : \mu_x = \mu_y \\ H_A : \mu_x \neq \mu_y \]
El estadístico de prueba es:
\[ t_0 = \frac{\bar{X}-\bar{Y}}{S_p \sqrt{\frac{1}{n_x}+\frac{1}{n_y}}} \]
el cual sigue una distribución T de Student con
\[ n_x + n_y -2 \] grados de libertad.
Calculemos \[ S_p^2 = \frac{(n_x -1)S_x^2 + (n_y-1)S_y^2}{n_x+n_y-2} \]
Para este ejercicio: \[ n_x = 14 \qquad n_y = 14 \qquad \Rightarrow \qquad n_x + n_y -2 = 26 \]
X <- mean(datos26_1)
Y <- mean(datos26_2)
sdX <- sd(datos26_1)
sdY <- sd(datos26_2)
Sp <- sqrt(((13*sdX^2)+(13*sdY^2))/26)
t_0 <- (X-Y)/(Sp*sqrt(1/7))
Entonces el valor del estadístico es:
t_0
## [1] -3.626231
Ahora, tenemos que:
\[ t_{(0.025,26)} = 2,055533675 \]
Así, puesto que \[ |t_0| > t_{\alpha /2} \] entonces se rechaza la hipótesis nula. En conclusión, para un nivel del confianza del 95% se puede afirmar que las medias poblacionales no son iguales.
\[ H_0 : \sigma_x^2 = \sigma_y^2 \\ H_A : \sigma_x^2 \neq \sigma_y^2 \]
El planteamiento se puede reescribir como:
\[ H_0 : \frac{\sigma_x^2}{\sigma_y^2} = 1\\ H_A : \frac{\sigma_x^2}{\sigma_y^2} \neq 1 \]
El estadístico de prueba es:
\[ F_0 = \frac{S_x^2}{S_y^2} \]
el cual sigue una distribución F con \[ n_x -1 \] grados de libertad en el numerador y \[ n_y -1 \] grados de libertad en el denominador.
F0 <- (sdX^2)/(sdY^2)
F0
## [1] 8.975213
Así
\[ F_0 = 8.975213 \]
Ahora, tenemos que:
\[ F_{\alpha/2,n_x-1,n_y-1} = F_{0.025,13,13} = 0,3210236155 \\ F_{1-\alpha/2,n_x-1,n_y-1} = F_{0.975,13,13} = 3,115035629 \]
Entonces, como:
\[ F_0 > F_{\alpha/2,n_x-1,n_y-1} \] entonces se rechaza la hipótesis nula. En conclusión, para un nivel de confianza del 95% se puede afirmar que las varianzas son distintas.
Grafiquemos los datos:
Proveedor 1
Proveedor 2
Se puede ver que en proveedor 1 produce menos piezas defectuosas.
Me quedo con el proveedor 1 porque es el que menos piezas defectuosas produce, además su media es la que más se acerca al óptimo.
Se realiza un estudio para comparar dos tratamientos que se aplicarán a frijoles crudos con el objetivo de reducir el tiempo de cocción. Un tratamiento (T1) es a base de bicarbonato de sodio; mientras que el otro, T2, se realiza con cloruro de sodio o sal común. La variable de respuesta es el tiempo de cocción en minutos. Se hacen siete réplicas. Los datos se muestran en la siguiente tabla:
| TRATAMIENTO | MINUTOS |
|---|---|
| T1 | 76 85 74 78 82 75 82 |
| T2 | 57 67 55 64 61 63 63 |
Llamemos, a la media de T1 \(\mu_1\) y, a la de T2 \(\mu_2\); Sí, planteemos la hipótesis de prueba para la igualdad de las medias de los tratamientos \[ H_0: \mu_1 = \mu_2 \\ H_1: \mu_1 \neq \mu_2 \] Calculemos las medias y las varianza muestrales
T1 = c(76,85, 74, 78, 82, 75, 82)
T2 = c(57, 67, 55, 64, 61, 63, 63)
u1 = mean(T1)
var1 = var(T1)
u2 = mean(T2)
var2 = var(T2)
c("u1" = u1, "var1" = var1, "u2" = u2, "var2" = var2)
## u1 var1 u2 var2
## 78.85714 17.47619 61.42857 17.28571
Así, podemos verque en los datos anteriores, las medias muestrales son distintas, pero eso no garantiza que las medias poblacionales sean diferentes. Por ello, es necesario probar la hipótesis de igualdad de medias como, lo cual, usaremos la alternativa bilateral porque no hay ninguna conjetura acerca de cuál centrifugadora puede reportar valores mayores.
El estadístico de prueba adecuado para probar la hipótesis de igualdad de medias está dado por \[ t_0 = \frac{\bar{T}1 - \bar{T}2}{S_p \sqrt{\frac{1}{n_1} + \frac{1}{n_2}}} \] que sigue una distribución T de Student con \(n_1 + n_2 - 2\); donde \(n_1\) y \(n_2\) son los tamaños de las muestras tomadas en T1 y T2, respectivamente y, \(S_p ^2\) es un estimador de la varianza muestral común, suponiendo que dichas varianzas desconocidas sean iguales, calculándose como \[ S_p ^2 = \frac{(n_1-1)S_1 ^2 + (n_2 - 1)S_2 ^2}{n_1 + n_2 -2} \] con \(S_1^2\) y \(S_2^2\) como las varianzas muestrales de los datos de cada muestra.
Primero, recordemos que \(H_0\) se rechaza si \(|t_0|> t_{\frac{\alpha}{2}}\), por tanto, calculemos \(S_p^2\): \[ S_p^2 = \frac{6*17.4761 + 6*17.2857}{7+7-2} \approx 17.3809 \] de donde tenemos el valor del estadístico:
Sp= sqrt((6*var1 + 6*var2)/12)
t0 = (u1-u2)/(Sp*sqrt(2/7))
c("Sp" = Sp,"t0" = t0)
## Sp t0
## 4.169047 7.820941
\[ t_0 = \frac{78.8571 - 61.4285}{4.1690*0.5345} \approx 7.8214 \] Por otro lado, para un nivel de significancia del 5% y 12 grados de libertad tenemos que \[ t_{(0.025,12)} = 2.1788 \]
En consecuencia, como \(|t_0| = 7.8214 > 2.1788 = t_{\alpha /2}\), se rechaza \(H_0\), por lo que los tratamientos no reportan en promedio el mismo tiempo de cocción.
La hipótesis a plantear es \[ H_0: \sigma_1 ^2 = \sigma_2 ^2 \\ H_a: \sigma_1 ^2 \neq \sigma_2 ^2 \] el cual se lo puede reescribir como \[ H_0 : \frac{\sigma_x^2}{\sigma_y^2} = 1 \\ H_a: \frac{\sigma_x^2}{\sigma_y^2} \neq 1 \] pues, se basa en el siguiente estadístico \[ F_0 = \frac{s_x^2}{s_y^2} \] Asimismo, bajo el supuesto de distribución normal y que \(H_0\) es verdad, el estadístico \(F_0\) sigue una distribución \(F\) con \(n_x - 1\) grados de libertad en el numerador y \(n_y− 1\) grados de libertad en el denominador. Por lo tanto, se rechaza \(H_0\) si \[ F_0 > F_{(\frac{\alpha}{2}, n_x - 1, n_y-1)}:= F_{der} \qquad o \qquad F_0 < F_{(1 -\frac{\alpha}{2}, n_x - 1, n_y-1)} := F_{izq} \]
Entonces, calculemos el estadístico
F0 = var1/var2
F0
## [1] 1.011019
además, apoyándonos de que \(F_{der} = 0.1718\) o \(F_{izq} = 5.8198\) y, al ser \(F_0 = 1.011\), colegimos que \(H_0\) se rechaza; así, se concluye que, estadísticamente, los tratamientos tienen una variabilidad distinta.
Por lo anterior visto, tanto en la prueba de hipótesis para la igualdad de medias como para la igualdad de varianzas, rechazamos las hipótesis nulas; por lo que, no podríamos relacionar ambos tratamientos; aun así, podríamos obtener mejores tratamientos si se utilizarán muestras con más datos.