| NOMBRE: Alexander Constante | FECHA: 02-diciembre-2019 |
|---|
| 3.4 | 4.0 | 7.2 | 7.0 | 4.4 | 4.6 | 5.9 | 8.8 | 4.0 | 1.0 |
|---|
La prueba de hipótesis a resolver es \[ \begin{aligned} & H_0:La~ muestra~ proviene~de~una~distribución~uniforme\\ & H_1:La~muestra~no~es~de~una~distribución~uniforme \\ \end{aligned} \]
Puesto que \(D_n\) el estadístico de contraste esta dado por \(D_n= \max_{i=1, \dots, n} \left\{ |F_n (X_{(i)}) - F_0 (x) |, |F_n(X_{(i-1)}) - F_0 (X_{(i)})| \right\}\) en la siguiente tabla hallaremos las expresiones necesarias para tal.
| i | \(|F_n (X_{(i)}) - F_0 (X_{(i)}) |\) | \(|F_n(X_{(i-1)}) - F_0 (X_{(i)})|\) | \(D_{n,i}\) |
|---|---|---|---|
| 1 | \(| \frac{10}{100} - \frac{10}{100} |\) = \(\frac{0}{100}\) | \(|\frac{0}{100}-\frac{10}{100}|\) = \(\frac{10 }{100}\) | \(\frac{10}{100}\) |
| 2 | \(| \frac{20}{100} - \frac{35}{100} |\) = \(\frac{15}{100}\) | \(|\frac{10}{100}-\frac{35}{100}|\) = \(\frac{25 }{100}\) | \(\frac{25}{100}\) |
| 3 | \(| \frac{30}{100} - \frac{40}{100} |\) = \(\frac{10}{100}\) | \(|\frac{20}{100}-\frac{40}{100}|\) = \(\frac{20}{100}\) | \(\frac{20}{100}\) |
| 4 | \(| \frac{40}{100} - \frac{40}{100} |\) = \(\frac{0}{100}\) | \(|\frac{30}{100}-\frac{40}{100}|\) = \(\frac{10}{100}\) | \(\frac{10}{100}\) |
| 5 | \(| \frac{50}{100} - \frac{44}{100} |\) = \(\frac{6}{100}\) | \(|\frac{40}{100}-\frac{44}{100}|\) = \(\frac{ 4}{100}\) | \(\frac{6}{100}\) |
| 6 | \(| \frac{60}{100} - \frac{46}{100} |\) = \(\frac{14}{100}\) | \(|\frac{50}{100}-\frac{46}{100}|\) = \(\frac{4}{100}\) | \(\frac{14}{100}\) |
| 7 | \(| \frac{70}{100} - \frac{59}{100} |\) = \(\frac{11}{100}\) | \(|\frac{60}{100}-\frac{59}{100}|\) = \(\frac{1}{100}\) | \(\frac{11}{100}\) |
| 8 | \(| \frac{80}{100} - \frac{70}{100} |\) = \(\frac{10}{100}\) | \(|\frac{70}{100}-\frac{70}{100}|\) = \(\frac{0}{100}\) | \(\frac{10}{100}\) |
| 9 | \(| \frac{90}{100} - \frac{72}{100} |\) = \(\frac{18}{100}\) | \(|\frac{80}{100}-\frac{72}{100}|\) = \(\frac{8}{100}\) | \(\frac{18}{100}\) |
| 10 | \(| \frac{100}{100} - \frac{88}{100} |\) = \(\frac{12}{100}\) | \(|\frac{90}{100}-\frac{88}{100}|\) = \(\frac{2}{100}\) | \(\frac{12}{100}\) |
De donde tenemos que \(D_n=\frac{25}{100}=\frac{1}{4}\), así si tomamos \(\alpha = 0.05\) tenemos que mediante tablas \(D_{n,\alpha}= D_{10,0.05} = 0.40925\) por tanto \(D_n < D_{n, \alpha}\) por tanto no se rechaza \(H_0\) y se puede afirmar con un 5% de confianza que los datos siguen una distribución uniforme en \((0,10)\).
Planteemos una prueba de hipótesis para verificar la aleatoriedad de los datos
\[ \begin{aligned} & H_0:La~ muestra~ es~ aleatoria \\ & H_1:La~muestra~no~es~aleatoria \\ \end{aligned} \]
a <- c(3.5,4.0,7.2,7.0,4.4,4.6,5.9,8.8,4.0,1.0)
median(a)
## [1] 4.5
Puesto que la mediana de la muestra esta dada por \(\bar x= \frac{4.4+4.6}{2}=4.5\). Podemos obtener las rachas comparando los datos con su mediana:
| 3.5 | 4.0 | 7.2 | 7.0 | 4.4 | 4.6 | 5.9 | 8.8 | 4.0 | 1.0 |
|---|---|---|---|---|---|---|---|---|---|
| - | - | + | + | - | + | + | + | - | - |
De donde tenemos que \(n_+=5\) \(~\) \(n_-=5\) y \(R=5\) con R el número de rachas.
Haciendo uso de tablas \(R_{(n_+,n_-)} = R{(5,5)} \in [2,10]\). Por tanto no se puede negar que la muestra sea independiente ya que \(R\) pertenece a tal intervalo.
– Se realizan \(100\) ensayos independientes con probabilidad constante de \(0.01\) de éxito, por lote. Encontrar más de 3 piezas defectuosas lo denominamos éxito.
Por tanto, tomamos la variable aleatoria discreta \(X\) que sigue una distribución Binomial y, calculemos la probabilidad de aceptar un lote, es decir, la probabilidad de que a lo más 3 piezas defectuosas sean encontradas en la muestra. Así, \[ P(X \leq 3) = P(X = 3) + P(X= 2) + P(X = 1) + P(X = 0) \] de donde, \[ P(X\leq 3) = \binom{100}{3}(0.01)^3 (0.99)^{97} + \binom{100}{2}(0.01)^2 (0.99)^{98} + \binom{100}{1}(0.01) (0.99)^{99} + \binom{100}{0}(0.99)^{100} \\ P(X \leq 3) = 0.0609 + 0.1849 + 0.3697 + 0.3660. \] Por lo tanto, obtenemos que \(P(X\leq 3) = 0.9815\); con lo cual, existe un \(98.15\%\) de aceptar un lote, el cual es un buen porcentaje respecto a que, de las \(100\) observaciones, hay un \(1\%\) de piezas defectuosas.
– Consideremos la variable aleatoria discreta \(Y\) que describe el número de intentos necesarios para lograr un éxito, es decir, que siga una distribución Geométrica.
En este caso, el número de intentos es \(n = 10\) lotes y, por lo visto anteriormente, la probabilidad de aceptar un lote es de \(0.9815\). Así, vamos a calcular la probabilidad de inspeccionar \(10\) lotes antes de rechazar el primero del día, es decir, consideramos la probabilidad de éxito de encontrar un lote no aceptado como \(p = 1-0.9815 = 0.0185\). Así, vamos a hallar la probabilidad de que \(10\) lotes sean acpetados y el onceavo lote sea rechazado \[ P(Y = 11) = p\, q^{11-1} = 0.0185 \, (0.9815)^{10} = 0.0154. \] Con esto, podemos ver que en \(10\) lotes de inspección hay poca probabilidad de no rechazar alguno, o en otras palabras, es muy poco probable de que \(10\) lotes sean aceptados, consecutivamente.
| Tipo de Barra | Resistencia | |||||||||
|---|---|---|---|---|---|---|---|---|---|---|
| A | 939 | 976 | 1025 | 1034 | 1015 | 1015 | 1022 | 815 | ||
| B | 1025 | 938 | 1015 | 983 | 843 | 1053 | 1038 | 938 |
A <- c(939,976,1025,1034,1015,1015,1022,815)
B <- c(1025,938,1015,983,843,1053,1038,938)
El primer paso es calcular la media y varianza muestrales:
\[ \bar{x}_A = \frac{1}{8} \sum_{i=1}^{8}x_{A_i} = 980.125 \\ \bar{x}_B = \frac{1}{8} \sum_{i=1}^{8}x_{B_i} = 979.125 \]
xA <- mean(A)
xB <- mean(B)
\[ s_A^{2}=\frac{1}{7}\sum_{i=1}^{8}(x_{A_i}-\bar{x}_A)^2= 5439.554 \\ s_B^{2}=\frac{1}{7}\sum_{i=1}^{8}(x_{B_i}-\bar{x}_B)^2= 4891.839 \]
sA <- var(A)
sB <- var(B)
Como no conocemos información previa sobre las varianzas de ambos procesos; específicamente, no conocemos si las varianzas son o no iguales. La prueba de hipótesis para esta afirmación se realizará en el literal c.
Adelantándonos a la respuesta del literal c, planteamos la prueba de hipótesis suponiendo que las varianzas son iguales.
Comparación de dos medias (varianzas desconocidas suponiendo igualdad)
La prueba de hipótesis es:
\[ H_0: \mu_A=\mu_B \\ H_A: \mu_A \neq \mu_B \]
El estadístico es:
\[ t_0 = \frac{\bar{x}_A-\bar{x}_B}{S_p \sqrt{\frac{1}{n_A}+\frac{1}{n_B}}} \] donde: \[ S_p=\frac{(n_A-1)s_A^2+(n_B-1)s_B^2}{n_A+n_B-2} \]
Calculando:
\[ S_p = \frac{(8-1)*5439.554+(8-1)4891.839}{8+8-2} = 5165.696 \]
Sp <- (7*sA+7*sB)/14
Sp
## [1] 5165.696
Luego, el valor del estadístico es \(t_0 = 0.0003871695\)
t0 <- (xA-xB)/(Sp*sqrt(1/4))
t0
## [1] 0.0003871695
Para un nivel de significancia del \(5\%\), tenemos que:
\[ t_{0.025,n_A+n_B-2}=t_{0.025,14}=2.1447 \] Por lo tanto, puesto que \[ |t_0|< t_{0.025,14}=2.1447 \] NO rechazamos la hipótesis nula, es decir, que con un nivel de significancia del \(5\%\) se concluye que ambos tipos de barra reportan en promedio la misma resistencia.
Utilizando el \(valor-p\) tenemos que:
\[ valor-p = 2\, P(t_{14} \geq |t_0|) = 2*0.50=1 \]
Se tiene entonces que no se rechaza la hipótesis nula puesto que el valor p es mayor que el nivel de significancia. En este caso podemos hacer esta afirmación con un alto grado de seguridad puesto que el \(valor-p\) es mucho mayor.
Planteando la prueba de hipótesis:
\[ H_0: \sigma_A^2 = \sigma_B^2 \\ H_A: \sigma_A^2 \neq \sigma_B^2 \]
El estadístico de prueba es
\[ F_0 = \frac{s_A^2}{s_B^2}= 1.111965 \]
F0 <- sA/sB
F0
## [1] 1.111965
Notemos que
\[ F_{\alpha /2, n_A-1, n_B-1} = F_{0.025,7,7}= 0.2002038\\ F_{1-\alpha /2, n_A-1, n_B-1} = F_{0.975,7,7}= 4.9949092 \]
Entonces, tenemos que
\[ F_{0.025,7,7} < F_0 < F_{0.975,7,7} \]
En consecuencia, NO rechazamos la hipótesis nula con un nivel de significancia del \(5\%\). Es decir, se concluye que las resistencias de ambos tipos de barra presentan la misma variabilidad.
En base a los literales a y b, sabemos que las resistencias de ambos tipos de barra tienen la misma media y varianza, por lo tanto, no existiría un proceso mejor entre los dos tipos de barra. Sin embargo, si se encontrara un tratamiento con un tipo de barra nuevo tal que la varianza sea menor y la media de la resistencia sea igual o mayor que las anteriores, entonces ese tratamiento sería más óptimo para el proceso.
Para obtener el intervalo de confianza para la media \(\mu\) de concentración de grasa en la leche, tomamos el siguiente estadístico que involucra al parámetro \(\mu\) \[ t = \frac{\bar{x} - \mu}{s/\sqrt{n}} \] el cual, tiene una distribución \(t-student\) con \((n-1)\) grados de libertad. Por tanto, tenemos la siguiente relación que nos permite obtener un intervalo de confianza \[ P\left( -t_{\alpha/2} \leq \frac{\bar{x} - \mu}{s/\sqrt{n}} \leq t_{\alpha/2} \right) = 1 - \alpha \] que, equivalentemente se tiene \[ P\left( \bar{x} - t_{\alpha/2}\frac{s}{\sqrt{n} } \leq \mu \leq \bar{x} + t_{\alpha/2}\frac{s}{\sqrt{n} }\right) = 1- \alpha. \] En este caso, como queremos un intervalo al \(90\%\) de confianza, tenemos que \(\alpha = 10\%\), a lo cual,
t = qt(0.05,39,lower.tail = F)
t
## [1] 1.684875
de donde, se tienen los límites del intervalo,
LI = 3.2-(t*0.3)/sqrt(40)
LS = 3.2+(t*0.3)/sqrt(40)
c("LI" = LI, "LS" = LS)
## LI LS
## 3.120079 3.279921
es decir, \[
LI = 3.1201 \qquad \text{ y } \qquad
LS = 3.2799
\] Así, \[
\mu \in [3.1201 , 3.2799].
\]
– Ahora, el error máximo de estimación para la media viene dado por \[
E = t_{\alpha/2} \, \frac{s}{\sqrt{n}}
\] pues, es lo máximo en que puede diferir la media \(\mu\),de concentración de grasa, ante la media muestra. Así, el error máximo para la estimación de la media es \[
E = 1.6849\, \frac{0.3}{\sqrt{40}} = 0.0799.
\]
En este caso, tenemos que \(E = 0.05\), el cual podemos intuir que, al ser un error más pequeño que el obtenido anteriormente deberíamos tener una muestra más grande que la de 40 dada anteriormente; pues, recordemos que entre más grande sea la muestra, menor será el error para la estimación de la media. Por otro lado, como en principio no conocemos el tamaño de la muestra, asumimos que los datos provienen de una distribución normal, así \[ n = \left( \frac{Z_{\alpha/2}\,\cdot s}{E} \right)^2 = \left( \frac{1.6449 \, \cdot 0.3 }{0.05} \right)^2 \approx 97.4051 \] de donde, se tiene que \(n = 98\) y, como sabemos que a mayor grados de libertad en la distribución \(t-student\) se aproxima muy bien a la distribución Normal, no tenemos que hacer ninguna corrección sobre la muestra obtenida.
Calculemos un intervalo de confianza para la varianza, donde \(\alpha = 0.05\). Bajo el supuesto de que la variable o población de interés tiene una distribución normal con media y varianza desconocidas, el estadístico \[ \chi^2 = \frac{(n-1)\, \cdot s^2}{\sigma^2} \] tiene esta distribución ji-cuadrada con \(n-1\) grados de libertad. Así, el intervalo de confianza para la varianza está dado por \[ P\left( \chi^2_{1-\alpha/2,n-1} \leq \frac{(n-1)s^2}{\sigma^2} \leq \chi^2_{\alpha/2,n-1} \right) = 1 - \alpha \] que, equivalentemente se tiene que \[ P\left( \frac{(n-1)s^2}{\chi^2_{\alpha/2,n-1}} \leq \sigma^2 \leq \frac{(n-1)s^2}{\chi^2_{1-\alpha/2,n-1}} \right) = 1-\alpha. \] Por lo tanto, \[ \sigma^2 \in \left[ \frac{(n-1)s^2}{\chi^2_{\alpha/2,n-1}}, \frac{(n-1)s^2}{\chi^2_{1-\alpha/2,n-1}}\right]. \] Con esto, calculamos los valores del ji-cuadrado
X1 = qchisq(0.025,39,lower.tail = F)
X2 = qchisq(0.975,39,lower.tail = F)
c("X_(a/2)" = X1,"X_(1-a/2)" = X2 )
## X_(a/2) X_(1-a/2)
## 58.12006 23.65432
a lo cual, se tienen los límites del intervalo,
LI = (39*0.3^2)/X1
LS = (39*0.3^2)/X2
c("LI" = LI, "LS" = LS)
## LI LS
## 0.06039223 0.14838724
Así, tenemos el intervalo a un nivel de confianza del \(95\%\) para la varianza \[ \sigma^2 \in [0.0604,0.1484]. \]
La media de concentración de grasa en la leche debe tener como mínimo una cantidad de \(3.1201\) y como máximo una cantidad de \(3.2799\); además, como el estándar mínimo del producto es del \(3\%\), se tienen las siguientes especificaciones para la concentración de grasa en la leche; \[ [EI,ES] =[3.2-0.03,3.2+0.03] = [3.17,3.23]; \] a lo cual, podemos ver que de acuerdo a lo anterior, se plantea la garantía que contiene más del \(3.0\%\) de concentración de grasa en la leche.
Ahora, por medio de la regla empírica podemos ver cómo la desviación estándar \(s = 0.3\) mide la variabilidad en torno a la media \(\bar{x} = 3.2\) de los datos; así, \[ \bar{x} \pm 3s = 3.2 \pm 3(0.3) \] de donde \[ [LIE,LSE] = [2.3,4.1] \] es decir, \[ [EI,ES]\subseteq [LIE,LSE] \] con lo cual, van a haber productos que se salgan con la especificación estándar mínima del \(3.0\%\), con un nivel de confianza considerable; o visto de otro modo, es posible garantizar que la leche tenga más concentración de grasa que lo establecido.
El contraste de Kolmogorov-Smirnov
Si la variable en estudio es continua, se deben hacer intervalos de clase para realizar este contraste.
Es válido para contrastar la bondad de ajuste de cualquier distribución continua, excepto de la normal.
No se puede realizar si la distribución contraste es discreta.
Tiene el inconveniente de que si se necesitan estimar parámetros de la población mediante la muestra, varían los grados de libertad del estadístico de contraste.
En el siguiente gráfico se representa la potencia de dos contrastes para testar la igualdad de dos medias, en línea discontinua, la potencia del contraste \(d_1\) y en línea continua y gruesa la del \(d_2\). Se deduce que
La probabilidad de error de tipo I de \(d_1\) es mayor que la de \(d_2\).
\(d_1\) es más potente que \(d_2\).
La probabilidad de error tipo II de \(d_2\) es menor que la de \(d_1\) en algunos casos.
\(d_2\) es más potente que \(d_1\).
En el contraste de \(H: \theta = \theta_0\) frente a \(H_1:\theta = \theta_1\) se tiene que la probabilidad de error de tipo II es \(0.10\). Entonces se verifica que
\(Potencia(\theta_0) = 0.90\).
Se acepta la hipótesis nula el \(90\%\) de las veces.
\(P(aceptar\, H_0 /\theta = \theta_1 ) = 0.10\).
\(P(aceptar\, H_0 /\theta = \theta_0 ) = 0.90\).
El estimador “varianza muestral” del parámetro “varianza poblacional” de una distribución normal es
un estimador sesgado y consistente.
un estimador con error cuadrático cero por ser la distribución normal.
un estimador asintóticamente insesgado pero no es consistente.
un estimador insesgado y consistente.
La eficacia de un estimador insesgado \(\hat{\theta}_n\) de \(\theta\) viene dada por
\((Sesgo(\hat{\theta}_n))^2 + Var(\hat{\theta}_n)\).
\(Var(\hat{\theta}_n)\).
\(1/Var(\hat{\theta}_n)\).
\(ECM(\hat{\theta}_n)\).
Si el \(p-valor\) de un contraste es \(p = 0.50\), entonces cuál es la mejor conclusión
\(H_0\) es definitivamente falsa.
\(H_0\) es definitivamente verdadera.
Hay una probabilidad del \(50\%\) de que \(H_0\) sea verdadera.
Se acepta \(H_0\) porque probablemente sea verdadera.