NOMBRE: Alexander Constante FECHA: 02-diciembre-2019

Corrección Prueba I



1. Se ha observado la duración de diez llamadas telefónicas y se ha obtenido

3.4 4.0 7.2 7.0 4.4 4.6 5.9 8.8 4.0 1.0

para contrastar si la duración de una llamada sigue una distribución uniforme \((0,10)\), aplique el contraste de Kolmogorov – Smirnov.

La prueba de hipótesis a resolver es \[ \begin{aligned} & H_0:La~ muestra~ proviene~de~una~distribución~uniforme\\ & H_1:La~muestra~no~es~de~una~distribución~uniforme \\ \end{aligned} \]

Puesto que \(D_n\) el estadístico de contraste esta dado por \(D_n= \max_{i=1, \dots, n} \left\{ |F_n (X_{(i)}) - F_0 (x) |, |F_n(X_{(i-1)}) - F_0 (X_{(i)})| \right\}\) en la siguiente tabla hallaremos las expresiones necesarias para tal.

i \(|F_n (X_{(i)}) - F_0 (X_{(i)}) |\) \(|F_n(X_{(i-1)}) - F_0 (X_{(i)})|\) \(D_{n,i}\)
1 \(| \frac{10}{100} - \frac{10}{100} |\) = \(\frac{0}{100}\) \(|\frac{0}{100}-\frac{10}{100}|\) = \(\frac{10 }{100}\) \(\frac{10}{100}\)
2 \(| \frac{20}{100} - \frac{35}{100} |\) = \(\frac{15}{100}\) \(|\frac{10}{100}-\frac{35}{100}|\) = \(\frac{25 }{100}\) \(\frac{25}{100}\)
3 \(| \frac{30}{100} - \frac{40}{100} |\) = \(\frac{10}{100}\) \(|\frac{20}{100}-\frac{40}{100}|\) = \(\frac{20}{100}\) \(\frac{20}{100}\)
4 \(| \frac{40}{100} - \frac{40}{100} |\) = \(\frac{0}{100}\) \(|\frac{30}{100}-\frac{40}{100}|\) = \(\frac{10}{100}\) \(\frac{10}{100}\)
5 \(| \frac{50}{100} - \frac{44}{100} |\) = \(\frac{6}{100}\) \(|\frac{40}{100}-\frac{44}{100}|\) = \(\frac{ 4}{100}\) \(\frac{6}{100}\)
6 \(| \frac{60}{100} - \frac{46}{100} |\) = \(\frac{14}{100}\) \(|\frac{50}{100}-\frac{46}{100}|\) = \(\frac{4}{100}\) \(\frac{14}{100}\)
7 \(| \frac{70}{100} - \frac{59}{100} |\) = \(\frac{11}{100}\) \(|\frac{60}{100}-\frac{59}{100}|\) = \(\frac{1}{100}\) \(\frac{11}{100}\)
8 \(| \frac{80}{100} - \frac{70}{100} |\) = \(\frac{10}{100}\) \(|\frac{70}{100}-\frac{70}{100}|\) = \(\frac{0}{100}\) \(\frac{10}{100}\)
9 \(| \frac{90}{100} - \frac{72}{100} |\) = \(\frac{18}{100}\) \(|\frac{80}{100}-\frac{72}{100}|\) = \(\frac{8}{100}\) \(\frac{18}{100}\)
10 \(| \frac{100}{100} - \frac{88}{100} |\) = \(\frac{12}{100}\) \(|\frac{90}{100}-\frac{88}{100}|\) = \(\frac{2}{100}\) \(\frac{12}{100}\)

De donde tenemos que \(D_n=\frac{25}{100}=\frac{1}{4}\), así si tomamos \(\alpha = 0.05\) tenemos que mediante tablas \(D_{n,\alpha}= D_{10,0.05} = 0.40925\) por tanto \(D_n < D_{n, \alpha}\) por tanto no se rechaza \(H_0\) y se puede afirmar con un 5% de confianza que los datos siguen una distribución uniforme en \((0,10)\).




2. A partir de los datos del ejercicio anterior verifique si los datos cumplen el supuesto de independencia.

Planteemos una prueba de hipótesis para verificar la aleatoriedad de los datos

\[ \begin{aligned} & H_0:La~ muestra~ es~ aleatoria \\ & H_1:La~muestra~no~es~aleatoria \\ \end{aligned} \]

a <- c(3.5,4.0,7.2,7.0,4.4,4.6,5.9,8.8,4.0,1.0)
median(a)
## [1] 4.5

Puesto que la mediana de la muestra esta dada por \(\bar x= \frac{4.4+4.6}{2}=4.5\). Podemos obtener las rachas comparando los datos con su mediana:

3.5 4.0 7.2 7.0 4.4 4.6 5.9 8.8 4.0 1.0
- - + + - + + + - -

De donde tenemos que \(n_+=5\) \(~\) \(n_-=5\) y \(R=5\) con R el número de rachas.

Haciendo uso de tablas \(R_{(n_+,n_-)} = R{(5,5)} \in [2,10]\). Por tanto no se puede negar que la muestra sea independiente ya que \(R\) pertenece a tal intervalo.




3. En un almacén se inspeccionan todos los lotes de cierta pieza que se recibe; para ello, se emplean muestras de tamaño 100. Se sabe que el proceso genera \(1\%\) de piezas defectuosas y se tiene el criterio de rechazar el lote cuando se encuentran más de tres piezas defectuosas en la muestra. ¿Cuál es la probabilidad de aceptar un lote? ¿Cuál es la probabilidad de que se tengan que inspeccionar \(10\) lotes antes de rechazar el primero del día?.

– Se realizan \(100\) ensayos independientes con probabilidad constante de \(0.01\) de éxito, por lote. Encontrar más de 3 piezas defectuosas lo denominamos éxito.

Por tanto, tomamos la variable aleatoria discreta \(X\) que sigue una distribución Binomial y, calculemos la probabilidad de aceptar un lote, es decir, la probabilidad de que a lo más 3 piezas defectuosas sean encontradas en la muestra. Así, \[ P(X \leq 3) = P(X = 3) + P(X= 2) + P(X = 1) + P(X = 0) \] de donde, \[ P(X\leq 3) = \binom{100}{3}(0.01)^3 (0.99)^{97} + \binom{100}{2}(0.01)^2 (0.99)^{98} + \binom{100}{1}(0.01) (0.99)^{99} + \binom{100}{0}(0.99)^{100} \\ P(X \leq 3) = 0.0609 + 0.1849 + 0.3697 + 0.3660. \] Por lo tanto, obtenemos que \(P(X\leq 3) = 0.9815\); con lo cual, existe un \(98.15\%\) de aceptar un lote, el cual es un buen porcentaje respecto a que, de las \(100\) observaciones, hay un \(1\%\) de piezas defectuosas.



– Consideremos la variable aleatoria discreta \(Y\) que describe el número de intentos necesarios para lograr un éxito, es decir, que siga una distribución Geométrica.

En este caso, el número de intentos es \(n = 10\) lotes y, por lo visto anteriormente, la probabilidad de aceptar un lote es de \(0.9815\). Así, vamos a calcular la probabilidad de inspeccionar \(10\) lotes antes de rechazar el primero del día, es decir, consideramos la probabilidad de éxito de encontrar un lote no aceptado como \(p = 1-0.9815 = 0.0185\). Así, vamos a hallar la probabilidad de que \(10\) lotes sean acpetados y el onceavo lote sea rechazado \[ P(Y = 11) = p\, q^{11-1} = 0.0185 \, (0.9815)^{10} = 0.0154. \] Con esto, podemos ver que en \(10\) lotes de inspección hay poca probabilidad de no rechazar alguno, o en otras palabras, es muy poco probable de que \(10\) lotes sean aceptados, consecutivamente.




4. En Kocaoz, S. Samaranayake, V. A. Nanni A. (2005) se presenta una investigación donde se estudian dos tipos de barras de polímero, cuya tensión se refuerza con fibra de vidrio (FRP). Estas barras, en sustitución de las vigas de acero, son utilizadas para reforzar concreto, por lo que su caracterización es importante para fines de diseño, control y optimización para los ingenieros estructurales. Las barras se sometieron a tensión hasta registrarse su ruptura (en Mpa). Los datos para dos tipos de barras se muestran a continuación:

Tipo de Barra Resistencia
A 939 976 1025 1034 1015 1015 1022 815
B 1025 938 1015 983 843 1053 1038 938


A <- c(939,976,1025,1034,1015,1015,1022,815)
B <- c(1025,938,1015,983,843,1053,1038,938)
\(\qquad\) a) Formule la hipótesis para probar la igualdad de medias de los tratamientos y anote la fórmula del estadístico de prueba para demostrar la hipótesis.

El primer paso es calcular la media y varianza muestrales:

\[ \bar{x}_A = \frac{1}{8} \sum_{i=1}^{8}x_{A_i} = 980.125 \\ \bar{x}_B = \frac{1}{8} \sum_{i=1}^{8}x_{B_i} = 979.125 \]

xA <- mean(A)
xB <- mean(B)

\[ s_A^{2}=\frac{1}{7}\sum_{i=1}^{8}(x_{A_i}-\bar{x}_A)^2= 5439.554 \\ s_B^{2}=\frac{1}{7}\sum_{i=1}^{8}(x_{B_i}-\bar{x}_B)^2= 4891.839 \]

sA <- var(A)
sB <- var(B)

Como no conocemos información previa sobre las varianzas de ambos procesos; específicamente, no conocemos si las varianzas son o no iguales. La prueba de hipótesis para esta afirmación se realizará en el literal c. 

Adelantándonos a la respuesta del literal c, planteamos la prueba de hipótesis suponiendo que las varianzas son iguales.

Comparación de dos medias (varianzas desconocidas suponiendo igualdad)

La prueba de hipótesis es:

\[ H_0: \mu_A=\mu_B \\ H_A: \mu_A \neq \mu_B \]

El estadístico es:

\[ t_0 = \frac{\bar{x}_A-\bar{x}_B}{S_p \sqrt{\frac{1}{n_A}+\frac{1}{n_B}}} \] donde: \[ S_p=\frac{(n_A-1)s_A^2+(n_B-1)s_B^2}{n_A+n_B-2} \]

Calculando:

\[ S_p = \frac{(8-1)*5439.554+(8-1)4891.839}{8+8-2} = 5165.696 \]

Sp <- (7*sA+7*sB)/14
Sp
## [1] 5165.696

Luego, el valor del estadístico es \(t_0 = 0.0003871695\)

t0 <- (xA-xB)/(Sp*sqrt(1/4))
t0
## [1] 0.0003871695



\(\qquad\) b) Pruebe la hipótesis a un nivel de significancia de \(5\%\). Para rechazar o no la hipótesis, apóyese tanto en el criterio del \(valor-p\) como en el del valor crítico de tablas.

Para un nivel de significancia del \(5\%\), tenemos que:

\[ t_{0.025,n_A+n_B-2}=t_{0.025,14}=2.1447 \] Por lo tanto, puesto que \[ |t_0|< t_{0.025,14}=2.1447 \] NO rechazamos la hipótesis nula, es decir, que con un nivel de significancia del \(5\%\) se concluye que ambos tipos de barra reportan en promedio la misma resistencia.

Utilizando el \(valor-p\) tenemos que:

\[ valor-p = 2\, P(t_{14} \geq |t_0|) = 2*0.50=1 \]

Se tiene entonces que no se rechaza la hipótesis nula puesto que el valor p es mayor que el nivel de significancia. En este caso podemos hacer esta afirmación con un alto grado de seguridad puesto que el \(valor-p\) es mucho mayor.



\(\qquad\) c) Pruebe la hipótesis de igualdad de varianzas entre tratamientos.

Planteando la prueba de hipótesis:

\[ H_0: \sigma_A^2 = \sigma_B^2 \\ H_A: \sigma_A^2 \neq \sigma_B^2 \]

El estadístico de prueba es

\[ F_0 = \frac{s_A^2}{s_B^2}= 1.111965 \]

F0 <- sA/sB
F0
## [1] 1.111965

Notemos que

\[ F_{\alpha /2, n_A-1, n_B-1} = F_{0.025,7,7}= 0.2002038\\ F_{1-\alpha /2, n_A-1, n_B-1} = F_{0.975,7,7}= 4.9949092 \]

Entonces, tenemos que

\[ F_{0.025,7,7} < F_0 < F_{0.975,7,7} \]

En consecuencia, NO rechazamos la hipótesis nula con un nivel de significancia del \(5\%\). Es decir, se concluye que las resistencias de ambos tipos de barra presentan la misma variabilidad.



\(\qquad\) d) ¿Existe algún tratamiento mejor?

En base a los literales a y b, sabemos que las resistencias de ambos tipos de barra tienen la misma media y varianza, por lo tanto, no existiría un proceso mejor entre los dos tipos de barra. Sin embargo, si se encontrara un tratamiento con un tipo de barra nuevo tal que la varianza sea menor y la media de la resistencia sea igual o mayor que las anteriores, entonces ese tratamiento sería más óptimo para el proceso.




5. Una característica importante en la calidad de la leche de vaca es la concentración de grasa. En una industria en particular se fijó como estándar mínimo del producto que se recibe directamente de los establos lecheros sea de \(3.0\%\). Por medio de \(40\) muestreos y evaluaciones en cierta época del año se obtuvo que la media muestral es \(3.2\) y la desviación muestral es \(0.3\).


\(\qquad\) a) Estime con una confianza de \(90\%\) el contenido promedio de grasa poblacional. ¿Cuál es el error máximo de estimación para la media? ¿Por qué?.

Para obtener el intervalo de confianza para la media \(\mu\) de concentración de grasa en la leche, tomamos el siguiente estadístico que involucra al parámetro \(\mu\) \[ t = \frac{\bar{x} - \mu}{s/\sqrt{n}} \] el cual, tiene una distribución \(t-student\) con \((n-1)\) grados de libertad. Por tanto, tenemos la siguiente relación que nos permite obtener un intervalo de confianza \[ P\left( -t_{\alpha/2} \leq \frac{\bar{x} - \mu}{s/\sqrt{n}} \leq t_{\alpha/2} \right) = 1 - \alpha \] que, equivalentemente se tiene \[ P\left( \bar{x} - t_{\alpha/2}\frac{s}{\sqrt{n} } \leq \mu \leq \bar{x} + t_{\alpha/2}\frac{s}{\sqrt{n} }\right) = 1- \alpha. \] En este caso, como queremos un intervalo al \(90\%\) de confianza, tenemos que \(\alpha = 10\%\), a lo cual,

  t = qt(0.05,39,lower.tail = F)
  t
## [1] 1.684875

de donde, se tienen los límites del intervalo,

  LI = 3.2-(t*0.3)/sqrt(40)
  LS = 3.2+(t*0.3)/sqrt(40)
  c("LI" = LI, "LS" = LS)
##       LI       LS 
## 3.120079 3.279921

es decir, \[ LI = 3.1201 \qquad \text{ y } \qquad LS = 3.2799 \] Así, \[ \mu \in [3.1201 , 3.2799]. \]

– Ahora, el error máximo de estimación para la media viene dado por \[ E = t_{\alpha/2} \, \frac{s}{\sqrt{n}} \] pues, es lo máximo en que puede diferir la media \(\mu\),de concentración de grasa, ante la media muestra. Así, el error máximo para la estimación de la media es \[ E = 1.6849\, \frac{0.3}{\sqrt{40}} = 0.0799. \]



\(\qquad\) b) Si se quiere estimar la media con un error máximo de \(0.05\), ¿qué tamaño de muestra se requiere?

En este caso, tenemos que \(E = 0.05\), el cual podemos intuir que, al ser un error más pequeño que el obtenido anteriormente deberíamos tener una muestra más grande que la de 40 dada anteriormente; pues, recordemos que entre más grande sea la muestra, menor será el error para la estimación de la media. Por otro lado, como en principio no conocemos el tamaño de la muestra, asumimos que los datos provienen de una distribución normal, así \[ n = \left( \frac{Z_{\alpha/2}\,\cdot s}{E} \right)^2 = \left( \frac{1.6449 \, \cdot 0.3 }{0.05} \right)^2 \approx 97.4051 \] de donde, se tiene que \(n = 98\) y, como sabemos que a mayor grados de libertad en la distribución \(t-student\) se aproxima muy bien a la distribución Normal, no tenemos que hacer ninguna corrección sobre la muestra obtenida.



\(\qquad\) c) Estime con una confianza de \(95\%\), ¿cuál es la desviación estándar poblacional?

Calculemos un intervalo de confianza para la varianza, donde \(\alpha = 0.05\). Bajo el supuesto de que la variable o población de interés tiene una distribución normal con media y varianza desconocidas, el estadístico \[ \chi^2 = \frac{(n-1)\, \cdot s^2}{\sigma^2} \] tiene esta distribución ji-cuadrada con \(n-1\) grados de libertad. Así, el intervalo de confianza para la varianza está dado por \[ P\left( \chi^2_{1-\alpha/2,n-1} \leq \frac{(n-1)s^2}{\sigma^2} \leq \chi^2_{\alpha/2,n-1} \right) = 1 - \alpha \] que, equivalentemente se tiene que \[ P\left( \frac{(n-1)s^2}{\chi^2_{\alpha/2,n-1}} \leq \sigma^2 \leq \frac{(n-1)s^2}{\chi^2_{1-\alpha/2,n-1}} \right) = 1-\alpha. \] Por lo tanto, \[ \sigma^2 \in \left[ \frac{(n-1)s^2}{\chi^2_{\alpha/2,n-1}}, \frac{(n-1)s^2}{\chi^2_{1-\alpha/2,n-1}}\right]. \] Con esto, calculamos los valores del ji-cuadrado

  X1 = qchisq(0.025,39,lower.tail = F)
  X2 = qchisq(0.975,39,lower.tail = F) 
  c("X_(a/2)" = X1,"X_(1-a/2)" = X2 )
##   X_(a/2) X_(1-a/2) 
##  58.12006  23.65432

a lo cual, se tienen los límites del intervalo,

  LI = (39*0.3^2)/X1
  LS = (39*0.3^2)/X2
  c("LI" = LI, "LS" = LS)
##         LI         LS 
## 0.06039223 0.14838724

Así, tenemos el intervalo a un nivel de confianza del \(95\%\) para la varianza \[ \sigma^2 \in [0.0604,0.1484]. \]



\(\qquad\) d) ¿Qué puede decir acerca de la cantidad mínima y máxima de grasa en la leche? ¿Es posible garantizar con suficiente confianza que la leche tiene más de \(3.0\%\) de grasa? Sugerencia: aplique la regla empírica.

La media de concentración de grasa en la leche debe tener como mínimo una cantidad de \(3.1201\) y como máximo una cantidad de \(3.2799\); además, como el estándar mínimo del producto es del \(3\%\), se tienen las siguientes especificaciones para la concentración de grasa en la leche; \[ [EI,ES] =[3.2-0.03,3.2+0.03] = [3.17,3.23]; \] a lo cual, podemos ver que de acuerdo a lo anterior, se plantea la garantía que contiene más del \(3.0\%\) de concentración de grasa en la leche.

Ahora, por medio de la regla empírica podemos ver cómo la desviación estándar \(s = 0.3\) mide la variabilidad en torno a la media \(\bar{x} = 3.2\) de los datos; así, \[ \bar{x} \pm 3s = 3.2 \pm 3(0.3) \] de donde \[ [LIE,LSE] = [2.3,4.1] \] es decir, \[ [EI,ES]\subseteq [LIE,LSE] \] con lo cual, van a haber productos que se salgan con la especificación estándar mínima del \(3.0\%\), con un nivel de confianza considerable; o visto de otro modo, es posible garantizar que la leche tenga más concentración de grasa que lo establecido.




6. Seleccione solo una de las siguientes opciones para cada pregunta.



El contraste de Kolmogorov-Smirnov

  1. Si la variable en estudio es continua, se deben hacer intervalos de clase para realizar este contraste.

  2. Es válido para contrastar la bondad de ajuste de cualquier distribución continua, excepto de la normal.

  3. No se puede realizar si la distribución contraste es discreta.

  4. Tiene el inconveniente de que si se necesitan estimar parámetros de la población mediante la muestra, varían los grados de libertad del estadístico de contraste.



En el siguiente gráfico se representa la potencia de dos contrastes para testar la igualdad de dos medias, en línea discontinua, la potencia del contraste \(d_1\) y en línea continua y gruesa la del \(d_2\). Se deduce que

  1. La probabilidad de error de tipo I de \(d_1\) es mayor que la de \(d_2\).

  2. \(d_1\) es más potente que \(d_2\).

  3. La probabilidad de error tipo II de \(d_2\) es menor que la de \(d_1\) en algunos casos.

  4. \(d_2\) es más potente que \(d_1\).



En el contraste de \(H: \theta = \theta_0\) frente a \(H_1:\theta = \theta_1\) se tiene que la probabilidad de error de tipo II es \(0.10\). Entonces se verifica que

  1. \(Potencia(\theta_0) = 0.90\).

  2. Se acepta la hipótesis nula el \(90\%\) de las veces.

  3. \(P(aceptar\, H_0 /\theta = \theta_1 ) = 0.10\).

  4. \(P(aceptar\, H_0 /\theta = \theta_0 ) = 0.90\).



El estimador “varianza muestral” del parámetro “varianza poblacional” de una distribución normal es

  1. un estimador sesgado y consistente.

  2. un estimador con error cuadrático cero por ser la distribución normal.

  3. un estimador asintóticamente insesgado pero no es consistente.

  4. un estimador insesgado y consistente.



La eficacia de un estimador insesgado \(\hat{\theta}_n\) de \(\theta\) viene dada por

  1. \((Sesgo(\hat{\theta}_n))^2 + Var(\hat{\theta}_n)\).

  2. \(Var(\hat{\theta}_n)\).

  3. \(1/Var(\hat{\theta}_n)\).

  4. \(ECM(\hat{\theta}_n)\).



Si el \(p-valor\) de un contraste es \(p = 0.50\), entonces cuál es la mejor conclusión

  1. \(H_0\) es definitivamente falsa.

  2. \(H_0\) es definitivamente verdadera.

  3. Hay una probabilidad del \(50\%\) de que \(H_0\) sea verdadera.

  4. Se acepta \(H_0\) porque probablemente sea verdadera.