Capítulo 2: Estadística Descriptiva.


Ejercicio 17

En una empresa que fabrica y vende equipo para fotocopiado utilizan como un indicador importante de la calidad en el servicio posventa, el tiempo de respuesta a solicitudes de apoyo técnico debido a fallas en los equipos. Para problemas mayores, en cierta zona del país se estableció como meta que la respuesta se dé en un máximo de 6 horas hábiles; es decir, de que habla el cliente solicitando apoyo, y que si el problema se clasifica como grave no deben pasar más de 6 horas hábiles para que un técnico acuda a resolver el problema. A continuación se aprecian los tiempos de respuesta en horas para los primeros nueve meses del año (65 datos).

5.0 5.4 7.1 7.0 5.5 4.4 5.4 6.6 7.1 4.2 4.1 3.0 5.7 6.7 6.8 4.7 7.1 3.2 5.7 4.1 5.5 7.9 2.0 5.4 2.9 5.3 7.4 5.1 6.9 7.5 3.2 3.9 5.9 3.6 4.0 2.3 8.9 5.8 5.8 6.4 7.7 3.9 5.8 5.9 1.7 3.2 6.8 7.0 5.4 5.6 4.5 6.5 4.1 7.5 6.8 4.3 5.9 3.1 8.3 5.4 4.7 6.3 6.0 3.1 4.8


a) Calcule las medidas de tendencia central y con base en éstas, ¿cree que se cumple con la meta?


Los códigos que se utilizan son:

datos17 <- c(5.0, 5.4, 7.1, 7.0, 5.5, 4.4, 5.4, 6.6, 7.1, 4.2,
             4.1, 3.0, 5.7, 6.7, 6.8, 4.7, 7.1, 3.2, 5.7, 4.1,
             5.5, 7.9, 2.0, 5.4, 2.9, 5.3, 7.4, 5.1, 6.9, 7.5,
             3.2, 3.9, 5.9, 3.6, 4.0, 2.3, 8.9, 5.8, 5.8, 6.4,
             7.7, 3.9, 5.8, 5.9, 1.7, 3.2, 6.8, 7.0, 5.4, 5.6,
             4.5, 6.5, 4.1, 7.5, 6.8, 4.3, 5.9, 3.1, 8.3, 5.4,
             4.7, 6.3, 6.0, 3.1, 4.8)

Calculemos las medidas de tendencia central:

Media:

mean(datos17)
## [1] 5.366154

Mediana:

median(datos17)
## [1] 5.5

Si solo nos basamos en estos datos se podría afirmar que se cumple con la meta puesto que ambos valores son menores que el máximo de tiempo permitido, que es 6 horas. Sin embargo, no conocemos la dispersión de estos datos. De esta forma pueden existir valores que estén fuera del máximo permitido y tener igual media y moda. En conclusión si solo tomamos en cuenta las medidas de tendencia central y no evaluamos las de variación, nuestras afirmaciones pueden ser erróneas.


b) Aplique la regla empírica, interprete y diga qué tan bien se cumple la meta.


Para aplicar la regla empírica necesitamos los datos de la media y desviación estándar muestrales. Calculemos la desviación estándar muestral:

sd(datos17)
## [1] 1.618475

Así tenemos que:

\[ \bar{x} = 5.366154 \qquad \text{y} \qquad s = 1.618475\]

x <- mean(datos17)
s <- sd(datos17)

Utilizando la regla empírica sabemos que el 68% de los datos de la muestra se encuentra en el intervalo: \[ [\bar{x} - s, \hspace{5pt} \bar{x} + s] \]

c(x-s,x+s)
## [1] 3.747679 6.984629

El 95% de los datos se encuentra en el intervalo

\[ [\bar{x} - 2s, \hspace{5pt} \bar{x} + 2s] \]

c(x-2*s,x+2*s)
## [1] 2.129204 8.603104

El 99.7% de los datos se encuentra en el intervalo

\[ [\bar{x} - 3s, \hspace{5pt} \bar{x} + 3s] \]

c(x-3*s,x+3*s)
## [1]  0.5107286 10.2215790

Analizando estos valores, podemos concluir que la meta no se cumple como es deseado, puesto que en todos los intervalos se sobrepasa el límite permitido de 6 horas.


c) Haga un histograma e interprete sus aspectos más relevantes.


hist(datos17, xlab="Horas", ylab="Frecuencia",col="#CEF6F5")

Del histograma se puede ver que:

  • El proceso está descentrado a la derecha.
  • Existe mucha variación en el proceso puesto que los valores van desde 1.5 hasta 9 aproximadamente
  • La cola izquierda es más grande que la derecha, por tanto existe un sesgo que puede deberse a que pocas solicitudes se responde en menor tiempo. Esto puede deberse a que los trabajadores tardan mucho en responder las inquietudes de los clientes o a que existe mayor cantidad de problemas largos para resolver.

d) A partir del análisis que se ha realizado, ¿qué recomendaciones daría para ayudar a cumplir mejor la meta?


Puesto que los datos que se nos presentan son de horas en las que se da respuesta a un conflicto, lo ideal sería que el pico del proceso se encuentre más a la izquierda. Esto significaría que los problemas se resuleven de manera más eficiente.

Lo óptimo sería que la mayor frecuencia esté en las horas mas bajas e ir decreciendo hasta las horas más grandes, esto sería un servicio óptimo. Por lo tanto, las acciones que se deberían tomar en cuenta para mejorar el proceso y cumplir mejor la meta serían:

  • Tratar en menor tiempo los problemas que no son tan graves.
  • Tratar los problemas más graves entre dos o más empleados, de esta manera se puede reducir el tiempo de respuesta.
  • Implementar guías que sean de fácil acceso para el personal para que puedan responder de manera más rápida.

Ejercicio 18

Los siguientes datos representan las horas caídas de equipos por semana en tres líneas de producción.

SEMANA Línea 1 Línea 2 Línea 3 SEMANA Línea 1 Línea 2 Línea 3
1 7.7 6.6 7.5 14 6.3 6.5 8.5
2 6.8 5.2 8.1 15 7.8 7.7 8.0
3 8.5 7.2 6.2 16 6.7 7.4 7.7
4 8.6 9.2 7.4 17 7.3 6.1 7.5
5 5.7 6.7 8.2 18 5.7 6.2 8.2
6 7.9 6.2 6.0 19 6.2 7.3 7.7
7 8.1 7.1 8.2 20 7.3 6.9 7.0
8 7.6 8.1 8.1 21 5.0 6.1 6.5
9 7.1 6.4 6.7 22 5.0 6.9 6.2
10 7.3 6.3 8.0 23 5.4 8.4 6.0
11 7.8 8.2 8.1 24 7.5 5.0 6.1
12 6.1 8.4 8.1 25 6.0 7.4 5.8
13 6.4 7.4 7.0 . . . .

a) Analice los datos para cada línea y anote las principales características de la distribución de los datos.

Para analizar los datos de cada línea nos guiaremos de sus características más relevantes en la distribución de los datos tales como la media, la mediana, la moda, la variación de los datos y la forma de los mismos.

l1 = c(7.7,6.8,8.5,8.6,5.7,7.9,8.1,7.6,7.1,7.3,7.8,6.1,6.4,6.3,7.8,6.7,7.3,5.7,6.2,7.3,5.0,5.0,5.4,7.5,6.0)

l2 = c(6.6,5.2,7.2,9.2,6.7,6.2,7.1,8.1,6.4,6.3,8.2,8.4,7.4,6.5,7.7,7.4,6.1,6.2,7.3,6.9,6.1,6.9,8.4,5.0,7.4)

l3 = c(7.5,8.1,6.2,7.4,8.2,6.0,8.2,8.1,6.7,8.0,8.1,8.1,7.0,8.5,8.0,7.7,7.5,8.2,7.7,7.0,6.5,6.2,6.0,6.1,5.8)

c("Media" = round(mean(l1),2), "Mediana" = round(median(l1),2), "Min" = min(l1), "Max" = max(l1), "Rango" = max(l1) - min(l1), "DesEst" = round(sd(l1),2))
##   Media Mediana     Min     Max   Rango  DesEst 
##    6.87    7.10    5.00    8.60    3.60    1.05

Por otra parte, la forma en la que se distribuyen los datos de la Línea 1, con su densidad, es la siguiente

hist(l1,main="Línea 1",col = "#58FAF4",freq = F)
lines(density(l1),col = "red", lwd = 3)

Para la Línea 2, tenemos los siguientes resultados

c("Media" = round(mean(l2),2), "Mediana" = round(median(l2),2), "Min" = min(l2), "Max" = max(l2), "Rango" = max(l2) - min(l2), "DesEst" = round(sd(l2),2))
##   Media Mediana     Min     Max   Rango  DesEst 
##     7.0     6.9     5.0     9.2     4.2     1.0
hist(l2,main="Línea 2",col = "#81F781",freq = F)
lines(density(l2),col = "red", lwd = 3)

Finalmente de la Línea 3 obtenemos

c("Media" = round(mean(l3),2), "Mediana" = round(median(l3),2), "Min" = min(l3), "Max" = max(l3), "Rango" = max(l3) - min(l3),"DesEst" = round(sd(l3),2))
##   Media Mediana     Min     Max   Rango  DesEst 
##    7.31    7.50    5.80    8.50    2.70    0.88
hist(l3,main="Línea 3",col = "#F6CEEC",freq = F)
lines(density(l3),col = "red", lwd = 3)

b) Compare las tres líneas, ¿nota alguna diferencia importante?

Con los resultados obtenidos en el literal anterior, podemos notar que las distribuciones de las 3 líneas son muy diferentes en cuanto a cada una de sus características y, sobre todo en la forma en la que se distribuyen el conjunto de datos; aun así, podemos ver que la Línea dos tiene una forma más deseable que las otras dos, pues las líneas 1 y 3 parecen ser bimodales, donde no se pueden apreciar adecudamente el centrado de los datos.


Capítulo 4: Elementos de inferencia estadística


Ejercicio 26

Se tienen dos proveedores de una pieza metálica, cuyo diámetro ideal o valor objetivo es igual a 20.25 cm. Se toman dos muestras de 14 piezas a cada proveedor y los datos obtenidos se muestran a continuación:

Proveedor Diámetros de las piezas de cada proveedor
1 21.38, 20.13, 19.12, 19.85, 20.54, 18.00, 22.24, 21.94, 19.07, 18.60, 21.89, 22.60, 18.10, 19.25
2 21.51, 22.22, 21.49, 21.91, 21.52, 22.06, 21.51, 21.29, 22.71, 22.65, 21.53, 22.22, 21.92, 20.82

a) Pruebe la hipótesis de igualdad de los diámetros de los proveedores en cuanto a sus medias.


datos26_1 <- c(21.38, 20.13, 19.12, 19.85, 20.54, 18.00, 22.24, 21.94, 19.07, 18.60, 21.89, 22.60, 18.10, 19.25)
datos26_2 <- c(21.51, 22.22, 21.49, 21.91, 21.52, 22.06, 21.51, 21.29, 22.71, 22.65, 21.53, 22.22, 21.92, 20.82)

Prueba de Hipótesis

\[ H_0 : \mu_x = \mu_y \\ H_A : \mu_x \neq \mu_y \]

El estadístico de prueba es:

\[ t_0 = \frac{\bar{X}-\bar{Y}}{S_p \sqrt{\frac{1}{n_x}+\frac{1}{n_y}}} \]

el cual sigue una distribución T de Student con

\[ n_x + n_y -2 \] grados de libertad.

Calculemos \[ S_p^2 = \frac{(n_x -1)S_x^2 + (n_y-1)S_y^2}{n_x+n_y-2} \]

Para este ejercicio: \[ n_x = 14 \qquad n_y = 14 \qquad \Rightarrow \qquad n_x + n_y -2 = 26 \]

X <- mean(datos26_1)
Y <- mean(datos26_2)
sdX <- sd(datos26_1)
sdY <- sd(datos26_2)
Sp <- sqrt(((13*sdX^2)+(13*sdY^2))/26)
t_0 <-  (X-Y)/(Sp*sqrt(1/7))

Entonces el valor del estadístico es:

t_0
## [1] -3.626231

Ahora, tenemos que:

\[ t_{(0.025,26)} = 2,055533675 \]

Así, puesto que \[ |t_0| > t_{\alpha /2} \] entonces se rechaza la hipótesis nula. En conclusión, para un nivel del confianza del 95% se puede afirmar que las medias poblacionales no son iguales.


b) Pruebe la hipótesis de igualdad de varianzas.


\[ H_0 : \sigma_x^2 = \sigma_y^2 \\ H_A : \sigma_x^2 \neq \sigma_y^2 \]

El planteamiento se puede reescribir como:

\[ H_0 : \frac{\sigma_x^2}{\sigma_y^2} = 1\\ H_A : \frac{\sigma_x^2}{\sigma_y^2} \neq 1 \]

El estadístico de prueba es:

\[ F_0 = \frac{S_x^2}{S_y^2} \]

el cual sigue una distribución F con \[ n_x -1 \] grados de libertad en el numerador y \[ n_y -1 \] grados de libertad en el denominador.

F0 <- (sdX^2)/(sdY^2)
F0
## [1] 8.975213

Así

\[ F_0 = 8.975213 \]

Ahora, tenemos que:

\[ F_{\alpha/2,n_x-1,n_y-1} = F_{0.025,13,13} = 0,3210236155 \\ F_{1-\alpha/2,n_x-1,n_y-1} = F_{0.975,13,13} = 3,115035629 \]

Entonces, como:

\[ F_0 > F_{\alpha/2,n_x-1,n_y-1} \] entonces se rechaza la hipótesis nula. En conclusión, para un nivel de confianza del 95% se puede afirmar que las varianzas son distintas.


c) Si las especificaciones para el diámetro son 20.25 mm ± 2.25 mm, ¿cuál proveedor produce menos piezas defectuosas?


Grafiquemos los datos:

Proveedor 1

Proveedor 2

Se puede ver que en proveedor 1 produce menos piezas defectuosas.


d) ¿Con cuál proveedor se quedaría usted?


Me quedo con el proveedor 1 porque es el que menos piezas defectuosas produce, además su media es la que más se acerca al óptimo.


Ejercicio 28

Se realiza un estudio para comparar dos tratamientos que se aplicarán a frijoles crudos con el objetivo de reducir el tiempo de cocción. Un tratamiento (T1) es a base de bicarbonato de sodio; mientras que el otro, T2, se realiza con cloruro de sodio o sal común. La variable de respuesta es el tiempo de cocción en minutos. Se hacen siete réplicas. Los datos se muestran en la siguiente tabla:

TRATAMIENTO MINUTOS
T1 76 85 74 78 82 75 82
T2 57 67 55 64 61 63 63

a) Formule la hipótesis para probar la igualdad de medias de los tratamientos.

Llamemos, a la media de T1 \(\mu_1\) y, a la de T2 \(\mu_2\); Sí, planteemos la hipótesis de prueba para la igualdad de las medias de los tratamientos \[ H_0: \mu_1 = \mu_2 \\ H_1: \mu_1 \neq \mu_2 \] Calculemos las medias y las varianza muestrales

T1 = c(76,85, 74, 78, 82, 75, 82)
T2 = c(57,  67, 55, 64, 61, 63, 63)

u1 = mean(T1)
var1 = var(T1)
u2 = mean(T2)
var2 = var(T2)
c("u1" = u1, "var1" = var1, "u2" = u2, "var2" = var2)
##       u1     var1       u2     var2 
## 78.85714 17.47619 61.42857 17.28571

Así, podemos verque en los datos anteriores, las medias muestrales son distintas, pero eso no garantiza que las medias poblacionales sean diferentes. Por ello, es necesario probar la hipótesis de igualdad de medias como, lo cual, usaremos la alternativa bilateral porque no hay ninguna conjetura acerca de cuál centrifugadora puede reportar valores mayores.

b) Anote la fórmula del estadístico de prueba para probar la hipótesis.

El estadístico de prueba adecuado para probar la hipótesis de igualdad de medias está dado por \[ t_0 = \frac{\bar{T}1 - \bar{T}2}{S_p \sqrt{\frac{1}{n_1} + \frac{1}{n_2}}} \] que sigue una distribución T de Student con \(n_1 + n_2 - 2\); donde \(n_1\) y \(n_2\) son los tamaños de las muestras tomadas en T1 y T2, respectivamente y, \(S_p ^2\) es un estimador de la varianza muestral común, suponiendo que dichas varianzas desconocidas sean iguales, calculándose como \[ S_p ^2 = \frac{(n_1-1)S_1 ^2 + (n_2 - 1)S_2 ^2}{n_1 + n_2 -2} \] con \(S_1^2\) y \(S_2^2\) como las varianzas muestrales de los datos de cada muestra.

c) Pruebe la hipótesis a un nivel de significancia de 5%. Para rechazar o no la hipótesis, apóyese tanto en el criterio del valor_p como en el valor crítico de tablas.

Primero, recordemos que \(H_0\) se rechaza si \(|t_0|> t_{\frac{\alpha}{2}}\), por tanto, calculemos \(S_p^2\): \[ S_p^2 = \frac{6*17.4761 + 6*17.2857}{7+7-2} \approx 17.3809 \] de donde tenemos el valor del estadístico:

Sp= sqrt((6*var1 + 6*var2)/12)
t0 = (u1-u2)/(Sp*sqrt(2/7))
c("Sp" = Sp,"t0" = t0)
##       Sp       t0 
## 4.169047 7.820941

\[ t_0 = \frac{78.8571 - 61.4285}{4.1690*0.5345} \approx 7.8214 \] Por otro lado, para un nivel de significancia del 5% y 12 grados de libertad tenemos que \[ t_{(0.025,12)} = 2.1788 \]

En consecuencia, como \(|t_0| = 7.8214 > 2.1788 = t_{\alpha /2}\), se rechaza \(H_0\), por lo que los tratamientos no reportan en promedio el mismo tiempo de cocción.

d) Pruebe la hipótesis de igualdad de varianzas entre tratamientos.

La hipótesis a plantear es \[ H_0: \sigma_1 ^2 = \sigma_2 ^2 \\ H_a: \sigma_1 ^2 \neq \sigma_2 ^2 \] el cual se lo puede reescribir como \[ H_0 : \frac{\sigma_x^2}{\sigma_y^2} = 1 \\ H_a: \frac{\sigma_x^2}{\sigma_y^2} \neq 1 \] pues, se basa en el siguiente estadístico \[ F_0 = \frac{s_x^2}{s_y^2} \] Asimismo, bajo el supuesto de distribución normal y que \(H_0\) es verdad, el estadístico \(F_0\) sigue una distribución \(F\) con \(n_x - 1\) grados de libertad en el numerador y \(n_y− 1\) grados de libertad en el denominador. Por lo tanto, se rechaza \(H_0\) si \[ F_0 > F_{(\frac{\alpha}{2}, n_x - 1, n_y-1)}:= F_{der} \qquad o \qquad F_0 < F_{(1 -\frac{\alpha}{2}, n_x - 1, n_y-1)} := F_{izq} \]

Entonces, calculemos el estadístico

F0 = var1/var2 
F0
## [1] 1.011019

además, apoyándonos de que \(F_{der} = 0.1718\) o \(F_{izq} = 5.8198\) y, al ser \(F_0 = 1.011\), colegimos que \(H_0\) se rechaza; así, se concluye que, estadísticamente, los tratamientos tienen una variabilidad distinta.

e) De acuerdo con el análisis realizado hasta aquí, ¿existe algún tratamiento mejor?

Por lo anterior visto, tanto en la prueba de hipótesis para la igualdad de medias como para la igualdad de varianzas, rechazamos las hipótesis nulas; por lo que, no podríamos relacionar ambos tratamientos; aun así, podríamos obtener mejores tratamientos si se utilizarán muestras con más datos.