Escuela Politécnica Nacional

Control y Aseguramiento de la Calidad

Prueba 28/11/2019


Ejercicio 1

Se ha observado la duración de diez llamadas telefónicas y se ha obtenido

3.5 4.0 7.2 7.0 4.4 4.6 5.9 8.8 4.0 1.0

para contrastar si la duración de una llamada sigue una distribución uniforme (0,10), aplique el contraste de Kolmogorov – Smirnov.

Solución:

Tenemos que el estadístico de contraste \(D_n\) está dado por: \[ D_n= \max_{i=1, \dots, n} \left\{ |F_n (X_{(i)}) - F_0 (X_{(i)}) |, \hspace{3pt} |F_n(X_{(i-1)}) - F_0 (X_{(i)})| \right\} \] Notemos también que: \[ F_n(X_{(i)}) = \frac{i}{n} \]

Así tenemos los siguientes datos:

i \(|F_n (X_{(i)}) - F_0 (X_{(i)}) |\) \(|F_n(X_{(i-1)}) - F_0 (X_{(i)})|\) \(D_{n,i}\)
1 \(| \frac{10}{100} - \frac{10}{100} |\) = \(\frac{0}{100}\) \(|\frac{0}{100}-\frac{10}{100}|\) = \(\frac{10 }{100}\) \(\frac{10}{100}\)
2 \(| \frac{20}{100} - \frac{35}{100} |\) = \(\frac{15}{100}\) \(|\frac{10}{100}-\frac{35}{100}|\) = \(\frac{25 }{100}\) \(\frac{25}{100}\)
3 \(| \frac{30}{100} - \frac{40}{100} |\) = \(\frac{10}{100}\) \(|\frac{20}{100}-\frac{40}{100}|\) = \(\frac{20}{100}\) \(\frac{20}{100}\)
4 \(| \frac{40}{100} - \frac{40}{100} |\) = \(\frac{0}{100}\) \(|\frac{30}{100}-\frac{40}{100}|\) = \(\frac{10}{100}\) \(\frac{10}{100}\)
5 \(| \frac{50}{100} - \frac{44}{100} |\) = \(\frac{6}{100}\) \(|\frac{40}{100}-\frac{44}{100}|\) = \(\frac{4}{100}\) \(\frac{6}{100}\)
6 \(| \frac{60}{100} - \frac{46}{100} |\) = \(\frac{14}{100}\) \(|\frac{50}{100}-\frac{46}{100}|\) = \(\frac{4}{100}\) \(\frac{14}{100}\)
7 \(| \frac{70}{100} - \frac{59}{100} |\) = \(\frac{11}{100}\) \(|\frac{60}{100}-\frac{59}{100}|\) = \(\frac{1}{100}\) \(\frac{11}{100}\)
8 \(| \frac{80}{100} - \frac{70}{100} |\) = \(\frac{10}{100}\) \(|\frac{70}{100}-\frac{70}{100}|\) = \(\frac{0}{100}\) \(\frac{10}{100}\)
9 \(| \frac{90}{100} - \frac{72}{100} |\) = \(\frac{18}{100}\) \(|\frac{80}{100}-\frac{72}{100}|\) = \(\frac{8}{100}\) \(\frac{18}{100}\)
10 \(| \frac{100}{100} - \frac{88}{100} |\) = \(\frac{12}{100}\) \(|\frac{90}{100}-\frac{88}{100}|\) = \(\frac{2}{100}\) \(\frac{12}{100}\)


De donde tenemos que \(D_n=\frac{25}{100}=\frac{1}{4}\), así si tomamos \(\alpha = 0.05\) tenemos que mediante tablas \(D_{n,\alpha}= D_{10,0.05} = 0.40925\) por tanto \(D_n < D_{n, \alpha}\) por tanto no se rechaza \(H_0\) y se puede afirmar con un nivel de significancia del 5% que los datos siguen una distribución Uniforme(0,10).




Ejercicio 2

A partir de los datos del ejercicio anterior verifique si los datos cumplen el supuesto de independencia.

Solución:

Planteando la prueba de hipótesis:

\[ \left\{ \begin{aligned} & H_0= \text{La muestra es aleatoria} \\ & H_1=\text{La muestra no es aleatoria} \\ \end{aligned} \right. \]

a <- c(3.5,4.0,7.2,7.0,4.4,4.6,5.9,8.8,4.0,1.0)
mediana <- median(a)
mediana
## [1] 4.5

Puesto que la mediana de los datos es \(\bar x= \frac{4.4+4.6}{2}=4.5\) podemos obtener las rachas comparando los datos con la mediana. Tenemos que:

3.5 4.0 7.2 7.0 4.4 4.6 5.9 8.8 4.0 1.0
- - + + - + + + - -


De donde tenemos que \(n_+=5\) \(~\) \(n_-=5\) y \(R=5\) con R el número de rachas.

Haciendo uso de tablas \(R_{(n_+,n_-)} = R_{(5,5)} \in [2,10]\). Por tanto no se puede negar que la muestra sea independiente ya que \(R\) pertenece a tal intervalo.




Ejercicio 3

En un almacén se inspeccionan todos los lotes de cierta pieza que se recibe; para ello, se emplean muestras de tamaño 100. Se sabe que el proceso genera 1% de piezas defectuosas y se tiene el criterio de rechazar el lote cuando se encuentran más de tres piezas defectuosas en la muestra. ¿Cuál es la probabilidad de aceptar un lote? ¿Cuál es la probabilidad de que se tengan que inspeccionar 10 lotes antes de rechazar el primero del día?

Solución:

Para este ejercicio llamamos éxito a encontrar una pieza defectuosa en una muestra de tamaño 100. Así, si llamamos a:

X: Número de piezas defectuosas en la muestra

Tenemos que X sigue una distribución Binomial(100, 0.01)

Por lo tanto, la probabilidad de aceptar un lote es:

\[ P(X \leq 3) = P(X = 0) + P(X= 1) + P(X = 2) + P(X = 3) \] de donde,

\[ P(X\leq 3) = \binom{100}{0}(0.01)^0(0.99)^{100} + \binom{100}{1}(0.01) (0.99)^{99} + \binom{100}{2}(0.01)^2 (0.99)^{98} + \binom{100}{3}(0.01)^3 (0.99)^{97}\\ P(X \leq 3) = 0.3660 + 0.3697 + 0.1849 + 0.0609 = 0.9815 \]

Por lo tanto, la probabilidad de aceptar un lote es de 98.15%. Se puede notar que este porcentaje era esperado puesto que cada muestra tiene tamaño 100 y la probabilidad de encontrar una pieza defectuosa es del 1%.

Ahora, llamando:

Y: Número de lotes que hay que inpeccionar hasta rechazar el primero del día.

Tenemos que Y sigue una distribución Geométrica con parámetro \(p=1-P(X \leq 3)=1-0.9815 = 0.0185\)

que es la probabilidad de que se rechace un lote. Por lo tanto la probabilidad de que haya que inspeccionar 10 lotes antes de rechazar el primero del día es:

\[ P(Y = 10) = p q^{10-1} = (0.0185)\cdot (0.9815)^9 = 0.0156 \]

Así, la probabilidad de que se tengan que revisar 10 lotes antes de rechazar el primero del día es del 1.56%




Ejercicio 4

En Kocaoz, S. Samaranayake, V. A. Nanni A. (2005) se presenta una investigación donde se estudian dos tipos de barras de polímero, cuya tensión se refuerza con fibra de vidrio (FRP). Estas barras, en sustitución de las vigas de acero, son utilizadas para reforzar concreto, por lo que su caracterización es importante para fines de diseño, control y optimización para los ingenieros estructurales. Las barras se sometieron a tensión hasta registrarse su ruptura (en Mpa). Los datos para dos tipos de barras se muestran a continuación:

Tipo de Barra Resistencia
A 939 976 1025 1034 1015 1015 1022 815
B 1025 938 1015 983 843 1053 1038 938


Solución:

A <- c(939,976,1025,1034,1015,1015,1022,815)
B <- c(1025,938,1015,983,843,1053,1038,938)

a. Formule la hipótesis para probar la igualdad de medias de los tratamientos y anote la fórmula del estadístico de prueba para demostrar la hipótesis.

El primer paso es calcular la media y varianza muestrales:

\[ \bar{x}_A = \frac{1}{8} \sum_{i=1}^{8}x_{A_i} = 980.125 \\ \bar{x}_B = \frac{1}{8} \sum_{i=1}^{8}x_{B_i} = 979.125 \]

xa <- mean(A)
xb <- mean(B)

\[ s_A^{2}=\frac{1}{7}\sum_{i=1}^{8}(x_{A_i}-\bar{x}_A)^2= 5439.554 \\ s_B^{2}=\frac{1}{7}\sum_{i=1}^{8}(x_{B_i}-\bar{x}_B)^2= 4891.839 \]

va <- var(A)
vb <- var(B)

En este caso no conocemos información previa sobre las varianzas de ambos procesos. Específicamente no conocemos si las varianzas son o no iguales. La prueba de hipótesis para esta afirmación se realizará en el literal c. 

Adelantándonos a la respuesta del literal c, planteamos la prueba de hipótesis suponiendo que las varianzas son iguales.

Comparación de dos medias (varianzas desconocidas suponiendo igualdad):

La prueba de hipótesis es:

\[ H_0: \mu_A=\mu_B \\ H_A: \mu_A \neq \mu_B \]

El estadístico es:

\[ t_0 = \frac{\bar{x}_A-\bar{x}_B}{S_p \sqrt{\frac{1}{n_A}+\frac{1}{n_B}}} \] donde: \[ S_p=\frac{(n_A-1)s_A^2+(n_B-1)s_B^2}{n_A+n_B-2} \]

Calculando:

\[ S_p = \frac{(8-1)*5439.554+(8-1)4891.839}{8+8-2} = 5165.696 \]

Sp <- (7*va+7*vb)/14
Sp
## [1] 5165.696

Luego: \[ t_0 = 0.0003871695 \]

t0 <- (xa-xb)/(Sp*sqrt(1/4))
t0
## [1] 0.0003871695

b. Pruebe la hipótesis a un nivel de significancia de 5%. Para rechazar o no la hipótesis, apóyese tanto en el criterio del valor-p como en el del valor crítico de tablas.

Para un nivel de significancia del 5%, tenemos que:

t14 <- qt(c(0.025,0.975),df=14)
t14
## [1] -2.144787  2.144787
\[ t_{0.025,n_A+n_B-2}=t_{0.025,14}=2.1447 \] Por lo tanto, puesto que: \[ |t_0|< t_{0.025,14}=2.1447 \]

no se rechaza la hipótesis nula, es decir que con un nivel de significancia del 5% se concluye que ambos tipos de barra reportan en promedio la misma resistencia.

Utilizando el valor-p tenemos que:

\[ valor \hspace{3pt} p = 2P(t_{14} \geq |t_0|) = 2*0.50=1 \]

Se tiene entonces que no se rechaza la hipótesis nula puesto que el valor p es mayor que el nivel de significancia. En este caso podemos hacer esta afirmación con un alto grado de seguridad puesto que el valor p es mucho mayor.


c. Pruebe la hipótesis de igualdad de varianzas entre tratamientos.

Planteando la prueba de hipótesis:

\[ H_0: \sigma_A^2 = \sigma_B^2 \\ H_A: \sigma_A^2 \neq \sigma_B^2 \]

El estadístico de prueba es:

\[ F_0 = \frac{s_A^2}{s_B^2}= 1.111965 \]

F0 <- va/vb
F0
## [1] 1.111965

Notemos que:

f77 <- qf(c(0.025,0.975),df1=7,df2=7)
f77
## [1] 0.2002038 4.9949092

\[ F_{\alpha /2, n_A-1, n_B-1} = F_{0.025,7,7}= 4.9949092\\ F_{1-\alpha /2, n_A-1, n_B-1} = F_{0.975,7,7}= 0.2002038 \]

Se tiene entonces que:

\[ F_{0.975,7,7} < F_0 < F_{0.025,7,7} \]

Por lo tanto no se rechaza la hipótesis nula con un nivel de significancia del 5%. Es decir, se concluye que las resistencias de ambos tipos de barra presentan la misma variabilidad.


d. ¿Existe algún tratamiento mejor?

Por lo visto en los literales a y b, sabemos que las resistencias de ambos tipos de barra tienen la misma media y varianza, por lo tanto no existiría un proceso mejor entre los dos tipos de barra. Sin embargo, si se encontrara un tratamiento con un tipo de barra nuevo tal que la varianza sea menor y la media de la resistencia sea igual o mayor que las anteriores, entonces ese tratamiento sería más óptimo para el proceso.




Ejercicio 5

Una característica importante en la calidad de la leche de vaca es la concentración de grasa. En una industria en particular se fijó como estándar mínimo del producto que se recibe directamente de los establos lecheros sea de 3.0%. Por medio de 40 muestreos y evaluaciones en cierta época del año se obtuvo que la media muestral es 3.2 y la desviación muestral es 0.3.

Solución:


a. Estime con una confianza de 90% el contenido promedio de grasa poblacional. ¿Cuál es el error máximo de estimación para la media? ¿Por qué?.

Para obtener el intervalo de confianza para la media \(\mu\) de concentración de grasa en la leche, se tiene el estadístico: \[ t = \frac{\bar{x} - \mu}{s/\sqrt{n}} \] el cual, tiene una distribución T de Student con n-1 grados de libertad. Por tanto, tenemos que:

\[ P\left( -t_{\alpha/2} \leq \frac{\bar{x} - \mu}{s/\sqrt{n}} \leq t_{\alpha/2} \right) = 1 - \alpha \] luego: \[ P\left( \bar{x} - t_{\alpha/2}\frac{s}{\sqrt{n} } \leq \mu \leq \bar{x} + t_{\alpha/2}\frac{s}{\sqrt{n} }\right) = 1- \alpha. \] En este caso, como queremos un intervalo al 90% de confianza, tenemos que \(\alpha = 10\%\), entonces:

t <-  qt(0.05,39,lower.tail = F)
t
## [1] 1.684875

de donde, se tienen los límites del intervalo,

li <- 3.2-(t*0.3)/sqrt(40)
ls <-  3.2+(t*0.3)/sqrt(40)
li
## [1] 3.120079
ls
## [1] 3.279921

Tenemos que: \[ LI = 3.1201 \qquad \qquad LS = 3.2799 \] Así, \[ \mu \in [3.1201 , 3.2799]. \]

Ahora, el error máximo de estimación para la media es:

\[ E = t_{\alpha/2} \frac{s}{\sqrt{n}} \] pues, es lo máximo en que puede diferir la media poblacional ante la media muestral. Calulando dicho valor se tiene:

\[ E = 1.6849 \cdot \frac{0.3}{\sqrt{40}} = 0.0799. \]


b. Si se quiere estimar la media con un error máximo de 0.05, ¿qué tamaño de muestra se requiere?

El error máximo en el ejericio es E=0.05. Notemos que como este error es más pequeño que el obtenido en el literal a, entonces el tamaño de muestra debe ser mayor a 40. Por otro lado, como en principio no conocemos el tamaño de la muestra, asumimos que los datos provienen de una distribución normal, así

\[ n = \left( \frac{Z_{\alpha/2}\,\cdot s}{E} \right)^2 = \left( \frac{1.6449 \, \cdot 0.3 }{0.05} \right)^2 \approx 97.4051 \]

de donde, se tiene que el tamaño de muestra ideal es n=98.


c. Estime con una confianza de 95%, ¿cuál es la desviación estándar poblacional?

Calculemos un intervalo de confianza para la varianza, donde \(\alpha = 0.05\). Bajo el supuesto de que la variable o población de interés tiene una distribución normal con media y varianza desconocidas, el estadístico \[ \chi^2 = \frac{(n-1) \cdot s^2}{\sigma^2} \] tiene esta distribución ji-cuadrada con n-1 grados de libertad. Por tanto, el intervalo de confianza para la varianza está dado por \[ P\left( \chi^2_{1-\alpha/2,n-1} \leq \frac{(n-1)s^2}{\sigma^2} \leq \chi^2_{\alpha/2,n-1} \right) = 1 - \alpha \] luego: \[ P\left( \frac{(n-1)s^2}{\chi^2_{\alpha/2,n-1}} \leq \sigma^2 \leq \frac{(n-1)s^2}{\chi^2_{1-\alpha/2,n-1}} \right) = 1-\alpha. \] Por lo tanto, \[ \sigma^2 \in \left[ \frac{(n-1)s^2}{\chi^2_{\alpha/2,n-1}}, \frac{(n-1)s^2}{\chi^2_{1-\alpha/2,n-1}}\right]. \] Entonces: \[ \sigma \in \left[\sqrt{\frac{(n-1)s^2}{\chi^2_{\alpha/2,n-1}}}, \sqrt{\frac{(n-1)s^2}{\chi^2_{1-\alpha/2,n-1}}}\right]. \] Calculando los valores del ji-cuadrado se obtiene:

X1 <- qchisq(0.025,39,lower.tail = F)
X2 <-  qchisq(0.975,39,lower.tail = F) 
X1
## [1] 58.12006
X2 
## [1] 23.65432

Así los límites del intervalo de confianza son:

liv <-  sqrt((39*0.3^2)/X1)
lsv <-  sqrt((39*0.3^2)/X2)
liv
## [1] 0.2457483
lsv
## [1] 0.3852106

Así, tenemos el intervalo de confianza: \[ \sigma \in [0.2457,0.3852]. \]


d. ¿Qué puede decir acerca de la cantidad mínima y máxima de grasa en la leche? ¿Es posible garantizar con suficiente confianza que la leche tiene más de 3.0% de grasa? Sugerencia: aplique la regla empírica.

Utilizando la regla empírica sabemos que el 99.7% de los datos está en el intervalo: \[ [\bar{x}-3s, \hspace{5pt} \bar{x}+3s] \]

Así, con lo datos del ejericio, este intervalo es:

\[ [2.3, 4.1] \]

Sin embargo, también se conoce que el 68% de los datos están en el intervalo

\[ [\bar{x}-s,\bar{x}+s] = [2.9,3.5] \]

Así se podría garantizar con una confianza del 68% que la leche tiene más de 3% de grasa. Dependiendo del criterio del propietario de la industria, dicho porcentaje de confianza puede ser o no suficiente.




Ejercicio 6

Seleccione solo una de las siguientes opciones para cada pregunta.

6.1) El contraste de Kolmogorov-Smirnov:

A. Si la variable en estudio es continua, se deben hacer intervalos de clase para realizar este contraste.

B. Es válido para contrastar la bondad de ajuste de cualquier distribución continua, excepto la normal.

C. No se puede realizar si la distribución de contraste es discreta.

D. Tiene el inconveniente de que si se necesitan estimar parámetros de la población mediante la muestra, varían los grados de libertad del estadístico de contraste.

La solución es:

C. No se puede realizar si la distribución de contraste es discreta.



6.2) En el siguiente gráfico se representa la potencia de dos contrastes para testar la igualdad de dos medias, en línea discontinua la potencia del contraste \(d_1\) y en línea continua y gruesa la del \(d_2\). Se deduce que:

A. La probabilidad de error de tipo I de \(d_1\) es mayor que la de \(d_2\).

B. \(d_1\) es más potente que \(d_2\).

C. La probabilidad de error de tipo II de \(d_2\) es menor que la de \(d_1\) en algunos casos.

D. \(d_2\) es más potente que \(d_1\)

La solución es:

B. \(d_1\) es más potente que \(d_2\).



6.3) En el contraste de \(H_0: \theta = \theta_0\) frente a \(H_1: \theta = \theta_1\) se obtiene que la probabilidad de error de tipo 2 es 0.10. Entonces se verifica que:

A. \(Potencia(\theta_0)=0.90\)

B. Se acepta la hipótesis nula el 90% de las veces.

C. \(P(aceptar \hspace{3pt} H_0 \hspace{3pt} | \hspace{3pt} \theta = \theta_1)=0.10\)

D. \(P(aceptar \hspace{3pt} H_0 \hspace{3pt} | \hspace{3pt} \theta = \theta_0)=0.90\)

La solución es:

C. \(P(aceptar \hspace{3pt} H_0 \hspace{3pt} | \hspace{3pt} \theta = \theta_1)=0.10\)



6.4) El estimador “varianza muestral” del parámetro “varianza poblacional” de una distribución normal es:

A. un estimador sesgado y consistente.

B. un estimador con error cuadrático cero por ser de la distribución normal.

C. un estimador asintóticamente insesgado pero no es consistente.

D. un estimador insesgado y consistente.

La solución es:

A. un estimador sesgado y consistente.



6.5) La eficacia de un estimador insesgado \(\hat{\theta}_n\) de \(\theta\) viene dada por:

A. \((Sesgo(\hat{\theta}_n))^2 + var(\hat{\theta}_n)\)

B. \(var(\hat{\theta}_n)\)

C. \(1/var(\hat{\theta}_n)\)

D. \(ECM(\hat{\theta}_n)\)

La solución es:

C. \(1/var(\hat{\theta}_n)\)



6.6) Si el p-valor de un contraste es p=0.50, entonces ¿cuál es la mejor conclusión?

A. \(H_0\) es definitivamente falsa.

B. \(H_0\) es definitivamente verdadera.

C. Hay una probabilidad del 50% de que \(H_0\) sea verdadera.

D. Se acepta \(H_0\) porque probablemente sea verdadera.

La solución es:

B. \(H_0\) es definitivamente verdadera.