Un artículo publicado en el journal of sports science (1987, Vol. 5 pags 261-271) presentan los resultados de una investigación sobre el nivel de hemoglobina de los jugadores de hockey sobre hielo en la olimpiada de Canadá. Los datos que aparecen en el articulo son los siguientes (en g/dl):
A1<-c(15.3,16,14.4,16.2,16.2,14.9,15.7,15.3,14.6,15.7,16,15,15.7,16.2,14.7,14.8,14.6,15.6,14.5,15.2)
A1
## [1] 15.3 16.0 14.4 16.2 16.2 14.9 15.7 15.3 14.6 15.7 16.0 15.0 15.7 16.2 14.7
## [16] 14.8 14.6 15.6 14.5 15.2
Encontremos un intervalo de confianza del 95% para el nivel promedio de hemoglobina.
Asumamos que la muestra proviene de una distribución normal en donde \(\mu\) y su varianza son desconocidas, por lo cual consideraremos la siguientes expresiones. Se sabe que
\[\frac{\overline{X}-\mu}{\frac{\sigma}{\sqrt{n}}}\sim N(0,1)\] \[\frac{(n-1)S^2}{\sigma^2}\sim t_{(n-1)}\] Y sabemos que el siguiente cociente tiene distribución \(t\) con \((n-1)\) grados de libertad, esto es
\[\frac{\frac{\overline{X}-\mu}{\frac{\sigma}{\sqrt{n}}}}{\sqrt{\frac{(n-1)S^2}{(n-1)\sigma^2}}}\sim t_{(n-1)}\] De donde se obtiene la siguiente expresión
\[\frac{\frac{\overline{X}-\mu}{\frac{\sigma}{\sqrt{n}}}}{\sqrt{\frac{(n-1)S^2}{(n-1)\sigma^2}}}= \frac{\frac{\overline{X}-\mu}{\frac{\sigma}{\sqrt{n}}}}{\frac{S}{\sigma}}= \frac{\overline{X}-\mu}{\frac{S}{\sqrt{n}}}\]
Así, tenemos que \[\frac{\overline{X}-\mu}{\frac{S}{\sqrt{n}}}\sim t_{(n-1)}\]
donde
promedio<- mean(A1)
S1_2<- sum((A1-promedio)^2)/(length(A1)-1)
S1<-sqrt(S1_2)
\[\overline{X}= 15.33 \] \[S=0.6182318\]
Así, un intervalo de confianza del \(95%\) viene dado por \[0.95=(-t_{0.025}< \frac{\overline{X}-\mu}{\frac{S}{\sqrt{20}}}<t_{0.025})\] Despejando \(\mu\) tenemos \[0.95=P(\overline{X}-t_{0.025}*\frac{S}{\sqrt{20}}< \mu<\overline{X}+t_{0.025}*\frac{S}{\sqrt{20}})\] sustituyendo tenemos
t<-qt(0.975,19)
Cinf<-promedio -t*S1/sqrt(20)
Csup<-promedio +t*S1/sqrt(20)
\[(15.0406586,15.6193414)\]
donde este intervalo nos dice que con una confianza del \(95\%\), el valor de \(\mu\) se encuentra en dicho intervalo.
Para poder interpretar los resultados en el inciso anterior necesitamos las hipotesis de la distribución de la muestra, la cual supusimos que era normal.
Se investiga la resistencia a la tensión de ruptura del hilo proporcionado por dos fabricantes. De la experiencia con los procesos de los fabricantes, se sabe que σ1 =5 psi y σ2 =4 psi. Una muestra aleatoria de 20 especímenes de prueba proveniente de cada fabricante arroja como resultados \(\overline{X}_1\)= 88 𝑝𝑠𝑖 𝑦 \(\overline{X}_2\) =91 𝑝𝑠𝑖, respectivamente. Encuentre un intervalo de confianza del 90% para la diferencia entre las medias de la tensión de ruptura. ¿Existe alguna evidencia que apoye la afirmación de que el hilo del fabricante 2 tiene mayor resistencia media?
Tenemos que los promedios tienen distribución normal, además, por las propiedades de la distribución normal, la diferencia de los promedios tiene distribución normal y su esperanza es
\[E[\overline{X}_1-\overline{X}_2]=E[\overline{X}_1]-E[\overline{X}_2]=\mu_1-\mu_2\] y sus varianza es \[Var(\overline{X}_1-\overline{X}_2)=Var(\overline{X}_1)+Var(\overline{X}_2)=\frac{\sigma_1^2}{n}+\frac{\sigma_2^2}{n}=\frac{\sigma_1^2+\sigma_2^2}{n}\]
Así, tenemos que \[\frac{(\overline{X}_1-\overline{X}_2)-(\mu_1-\mu_2)}{\sqrt{\frac{\sigma_1^2+\sigma_2^2}{n}}}\sim N(0,1)\] Así, un intervalo de confianza del 90% viene dado por \[(\overline{X}_1-\overline{X}_2)\pm z_{0.05}\sqrt{\frac{\sigma_1^2+\sigma_2^2}{n}}\] sustitutendo tenemos el intervalo
X2<- 88-91
SE<-sqrt((25+16)/20)
z<-qnorm(0.95,0,1)
Cinf2<-X2-z*SE
Csup2<-X2+z*SE
\[(-5.355072,-0.644928)\] Así, con una confianza del 90%, podemos concluir que el hilo del fabricante 2 tiene mejor resistencia, pues el intervalo es completamente negativo y no contiene al cero.
Cuando \(X_1,X_2,...,X_n\) son variables aleatorias Poisson independientes, cada una con parámetro \(\lambda\), y cuando n es relativamente grande, la media muestral \(\overline{X}\) es aproximadamente normal con media \(\lambda\) y varianza \(\frac{\lambda}{n}\).
Tenemos que la muestra es relativamente grande, así por el \(Teorema \ del \ límite \ central\), tenemos que el estadístico \[\frac{\overline{X}-\lambda}{\sqrt{\frac{\lambda}{n}}}\sim N(0,1)\] tiene distribución aproximadamente normal. Asi un intervalo del \(100(1-\alpha)\%\) para \(\lambda\) viene dado por
\[100(1-\alpha)\%=P(-z_{\frac{\alpha}{2}}<\frac{\overline{X}-\lambda}{\sqrt{\frac{\lambda}{n}}}<z_{\frac{\alpha}{2}})\] \[100(1-\alpha)\%=P(-z_{\frac{\alpha}{2}}\sqrt{\frac{\lambda}{n}}<\overline{X}-\lambda<z_{\frac{\alpha}{2}}\sqrt{\frac{\lambda}{n}})\] \[100(1-\alpha)\%=P(-z_{\frac{\alpha}{2}}\sqrt{\frac{\lambda}{n}}<\overline{X}-\lambda<z_{\frac{\alpha}{2}}\sqrt{\frac{\lambda}{n}})\] \[100(1-\alpha)\%=P(\overline{X}-z_{\frac{\alpha}{2}}\sqrt{\frac{\lambda}{n}}<\lambda<\overline{X}+z_{\frac{\alpha}{2}}\sqrt{\frac{\lambda}{n}})\] Pero, vemos que tenemos el valor de \(\lambda\) en los esxtremos de las desigualdades y no podemos de despejar lambda, por lo cual optamos por sustituir el valor de \(\lambda\) por \(\overline{X}\), así tenemos
\[100(1-\alpha)\%=P(\overline{X}-z_{\frac{\alpha}{2}}\sqrt{\frac{\overline{X}}{n}}<\lambda<\overline{X}+z_{\frac{\alpha}{2}}\sqrt{\frac{\overline{X}}{n}})\]
Un artículo publicado en The engineer (“Redesing for suspect wiring”, junio de 1990) notificó los resultados de una investigación sobre errores de alambrado en aeroplanos comerciales que puede producir información falsa a la tripulación. Es posible que tales errores de alambrado hayan sido responsables del desastre de British Midland Airways en enero de 1989, al provocar que el piloto apagara el monitor equivocado. De 1600 aeroplanos seleccionados al azar, se encontró que 8% tenían errores en el alambrado que podían mostrar la información errónea a la tripulación. Encuentre un intervalo de confianza del 99% para la proporción de aeroplanos que tienen este tipo de errores de alambrado.
Tenemos una muestra de 1600, la cuale s una muestra grande, así, por le \(Teorema\ del\ límite\ central\) tenemos la proporción aproximadamente \[\hat{p} \sim N(p,\frac{p(1-p)}{n})\] Así \[\frac{\hat{p}-p}{\sqrt{\frac{p(1-p)}{n}}}\sim N(0,1)\]
Así, un intervalo del 99% de confianza esta dado por \[99\%=P(\hat{p}-z_{0.005}\sqrt{\frac{p(1-p)}{n}}<p<\hat{p}+z_{0.005}\sqrt{\frac{p(1-p)}{n}})\]
como p está en los extremos de la desigualdad, sustituyamos por \(\hat{p}\) y \(n=1600\), así tenemos
\[99\%=P(\hat{p}-z_{0.005}\sqrt{\frac{\hat{p}(1-\hat{p})}{1600}}<p<\hat{p}+z_{0.005}\sqrt{\frac{\hat{p}(1-\hat{p})}{1600}})\]
por loq ue el intervalo nos queda de la siguiente forma
p<-0.08
SE<-sqrt(p*(1-p)/1600)
z4<-qnorm(0.995,0,1)
Csup4<-p+z4*SE
Cinf4<-p-z4*SE
\[(0.0625299,0.0974701)\] \[(6.25298\%,9.74701\%)\]
Así, con una confianza del 99%, la proporción de aeroplanos que tienen este tipo de errores se encuentran entre 6.25% y 9.74%.
Suponga que se utiliza la información del ejemplo anterior para proporcionar una estimación preliminar de p. ¿De qué tamaño debe de ser la muestra para producir una estimación de p que difiera, con una confianza de 99%, del verdadero valor a lo más en 0.005?
Tenemos que el intervalo es de la forma \[\hat{p}\pm d\] Donde \[d=z_{0.005}\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}\] y esn este caso \(d=0.005\), así,
\[0.005=z_{0.005}\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}\] \[(0.005)^2=z_{0.005}^2\frac{\hat{p}(1-\hat{p})}{n}\] \[n=z_{0.005}^2\frac{\hat{p}(1-\hat{p})}{(0.005)^2}\] sustituyendo tenemos
z2<-z4^2
q<-p*(1-p)
n<- z2*q/(0.005)^2
n
## [1] 19533.14
Por lo cual \(n=19533\).
El experimento de la vacuna para el polio de Salk realizado en 1954 se enfocó a la determinación de la efectividad de la vacuna . Debido a que se creía que sin un grupo de control de niños no habría bases sólidas para evaluar la eficiencia de la vacuna de Salk, ésta fue administrada a un grupo, mientras que a otro se le dio un placebo (visualmente idéntico a la vacuna pero sin ningún efecto). Por razones éticas, y debido a que se sospechaba que el conocimiento de la administración de la vacuna podría tener efectos sobre el diagnóstico subsecuente, el experimento se llevó a cabo con un procedimiento de doble ciego: esto es, ni los sujetos ni los experimentadores sabía quién recibía la vacuna y quién el placebo. Los datos obtenidos de este experimento fueron los siguientes:
\[Grupo\ del \ placebo\ n=201 \ \ \ \ 110\ casos \ de \ polio\] \[Grupo \ de \ la \ vacuna \ n=200\ \ \ \ 33 \ casos\ de \ polio \] #### a) Encuentre un intervalo de confianza bilateral del 95% para la diferencia entre proporciones de niños en los dos grupos quienes contrajeron polio
Como las muestras son grandes, por el \(TLC\) podemos decir que als proporciones tienen, aproximadamente, una distribución normal, así, la difeerencia de porporciones tiene distribución normla y su esperanza es \[E[\hat{p}_1-\hat{p}_2]=E[\hat{p}_1]-E[\hat{p}_2]=p_1-p_2\] Y su varianza es \[Var(\hat{p}_1-\hat{p}_2)=Var(\hat{p}_1)+Var(\hat{p}_2)=\frac{\hat{p}_1(1-\hat{p}_1)}{n_1}+\frac{\hat{p}_2(1-\hat{p}_2)}{n_2}\]
Por lo cual su error estándar es \[\sqrt{\frac{\hat{p}_1(1-\hat{p}_1)}{n_1}+\frac{\hat{p}_2(1-\hat{p}_2)}{n_2}}\]
Así, tenemos \[\frac{(\hat{p}_1-\hat{p}_2)-(p_1-p_2)}{\sqrt{\frac{\hat{p}_1(1-\hat{p}_1)}{n_1}+\frac{\hat{p}_2(1-\hat{p}_2)}{n_2}}}\sim N(0,1)\] La cual es cantidad pivotal para el parámetro \((p_1-p_2)\), por lo cual un intervalo del 95 es de la forma \[(\hat{p}_1-\hat{p}_2)\pm z_{0.025}*\sqrt{\frac{\hat{p}_1(1-\hat{p}_1)}{n_1}+\frac{\hat{p}_2(1-\hat{p}_2)}{n_2}}\] donde \[\hat{p}_1=\frac{110}{201}=0.54726 \ \ \ \ \ \ \ \ \ \ \hat{p}_2=\frac{33}{200}=0.165\]
REsolviendo tenemos el intervalo
p61<-0.54726
p62<-0.165
n1<-201
n2<-200
z6<-qnorm(0.975)
V1<-p61*(1-p61)/n1
V2<-p62*(1-p62)/n2
ES6<-sqrt(V1+V2)
p6<-p61-p62
Cinf6<-p6-z6*ES6
Csup6<-p6+z6*ES6
\[(0.2963442,0.4681758)\] ### 7 Se utilizan dos máquinas para llenar botellas de plástico con detergente para máquinas lavaplatos. Se sabe que las desviaciones estándar de el volumen de llenado son \(\sigma_1\)=0.10 𝑜𝑛𝑧𝑎𝑠 de líquido y \(\sigma_2\) = 0.15 𝑜𝑛𝑧𝑎𝑠 de líquido para las dos máquinas, respectivamente. Se toman dos muestras aleatorias, \(n_1\) = 12 botellas de la máquina 1 y \(n_2\)=10 botellas de la máquina 2. Los volúmenes promedio de llenado son \(\overline{X}_1\) = 30.87 onzas de líquido y \(\overline{X}_2\) = 30.68 onzas de líquido.
Tenemos que un intervalo de de confianza del \(100(1-\alpha)\%\) es de la forma \[(\overline{X}_1-\overline{X}_2)\pm z_{\frac{\alpha}{2}}*\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}}\] donde \[(30.87-30.68)\pm z_{\frac{\alpha}{2}}*\sqrt{\frac{(0.1)^2}{12}+\frac{(0.15)^2}{10}}\]
Así, para un intervalo del 90% tenemos
\[(30.87-30.68)\pm z_{0.05}*\sqrt{\frac{(0.1)^2}{12}+\frac{(0.15)^2}{10}}\] Esto es
x7<-30.87-30.68
V71<-((0.1)^2)/12
V72<-((0.15)^2)/10
SE7<-sqrt(V71+V72)
z7<-qnorm(0.95)
Cinf7<-x7-z7*SE7
Csup7<-x7+z7*SE7
\[(0.0986649,0.2813351)\]
Ahora, para un intervalo del 95% tenemos
z72<-qnorm(0.975)
Cinf72<-x7-z72*SE7
Csup72<-x7+z72*SE7
\[(0.0811676,0.2988324)\]
Así, comparando ambos intervalos tenemos que el intervalo del 90% es más pequeño comparado con el de 95%.
Una máquina produce las varillas de metal utilizadas en el sistema de suspensión de un automóvil. Se toma una muestra aleatoria de 15 varillas y se mide el diámetro. Los datos obtenidos aparecen abajo. Suponga que el diámetro de la varilla tiene una distribución normal.
Tenemos los siguientes datos
A8<-c(8.24,8.23,8.2,8.21,8.2,8.28,8.23,8.26,8.24,8.19,8.25,8.25,8.26,8.23,8.24)
A8
## [1] 8.24 8.23 8.20 8.21 8.20 8.28 8.23 8.26 8.24 8.19 8.25 8.25 8.26 8.23 8.24
Tenemos que \[\frac{(n-1)S^2}{\sigma^2}\sim \LARGE\chi_{(n-1)}^2\] La cual es cantidad pivoltal de \(\sigma^2\), así tenemos que un intervalo de \(100(1-\alpha)\%\) esta dado por
\[100(1-\alpha)\%=P(\chi_{\frac{\alpha}{2}}<\frac{(n-1)S^2}{\sigma^2}<\chi_{1-\frac{\alpha}{2}})\] \[100(1-\alpha)\%=P(\frac{1}{\chi_{1-\frac{\alpha}{2}}}<\frac{\sigma^2}{(n-1)S^2}<\frac{1}{\chi_{\frac{\alpha}{2}}})\]
\[100(1-\alpha)\%=P(\frac{(n-1)S^2}{\chi_{1-\frac{\alpha}{2}}}<\sigma^2<\frac{(n-1)S^2}{\chi_{\frac{\alpha}{2}}})\]
Así, para una confianza del 95% tenemos el intervalo
P8<-mean(A8)
R8<-sum((A8-P8)^2)
xi<-qchisq(0.025,14)
xs<-qchisq(0.975,14)
Cinf81<-R8/xs
Csup81<-R8/xi
\[(3.4304598\times 10^{-4},0.0015918)\]
Ahora, para una confianza del 90% tenemos el intervalo
x2i<-qchisq(0.05,14)
x2s<-qchisq(0.95,14)
Cinf82<-R8/x2s
Csup82<-R8/x2i
\[(3.7830183\times 10^{-4},0.0013636)\] Por ultimo, para una confianza del 99% tenemos el intervalo
x3i<-qchisq(0.005,14)
x3s<-qchisq(0.995,14)
Cinf83<-R8/x3s
Csup83<-R8/x3i
\[(2.8608512\times 10^{-4},0.0021989)\]
Se piensa que la concentración del ingrediente activo de un detergente líquido para ropa, es afectada por el tipo de catalizador utilizado en el proceso de fabricación. Se sabe que la desviación estándar de la concentración activa es de 3 g/l, sin importar el tipo de catalizador utilizado. Se realizan 10 observaciones con cada catalizador, y se obtienen los datos siguientes:
Catalizador 1
A91<- c(57.9, 66.2, 65.4, 65.4, 65.2, 62.6, 67.6, 63.7, 67.2, 71.0)
A91
## [1] 57.9 66.2 65.4 65.4 65.2 62.6 67.6 63.7 67.2 71.0
Catalizador 2
A92<-c(66.4, 71.7, 70.3, 69.3, 64.8, 69.6, 68.6, 69.4, 65.3, 68.8)
A92
## [1] 66.4 71.7 70.3 69.3 64.8 69.6 68.6 69.4 65.3 68.8
Tenemos que un intervalo de \(100(1-\alpha)\%\) viene dado por la expresión
\[(\frac{S_1^2}{S_2^2}\frac{1}{F_{1-\frac{\alpha}{2},(9,9)}},\frac{S_1^2}{S_2^2}\frac{1}{F_{\frac{\alpha}{2},(9,9)}})\] Resolviendo para una confianza del 95% tenemos el intervalo
s1<-mean(A91)
s2<-mean(A92)
S91<-sum((A91-s1)^2)
S92<-sum((A92-s2)^2)
ss<-qf(0.975,9,9)
si<-qf(0.025,9,9)
S9S<-S91/S92
Cinf9<-S9S/ss
Csup9<-S9S/si
Cinf9
## [1] 0.5957779
Csup9
## [1] 9.656743
\[(0.5957779,9.6567426)\] Después de los resultados, podemos concluir que con una confianza del 95% las dos varianzas son iguales.
Un fabricante de refresco, comprar latas de aluminio de un distribuidor externo. Se selecciona una muestra aleatoria de 70 latas de uh envió grande, se prueba la resistencia de cada una aplicando una carga creciente en los lados de la lata hasta que se perfora. De las 70 latas, 52 satisfacen la especificación para la resistencia de perforación.
Tenemos que \[\hat{p}=\frac{52}{70}=0.742858\] Así, por los ejercicios anteriores tenemos que un intervalo del 95% de confianza viene dado de la forma \[\hat{p}\pm z_{0.025}\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}\] Calculando tenemos
p<-52/70
v10<-sqrt(p*(1-p)/70)
z10<-qnorm(0.975,0,1)
Cinf10<-p-z10*v10
Csup10<-p+z10*v10
\[(0.6404715,0.8452428)\] Ahora, para una confianza del 90% tenemos
z102<-qnorm(0.95,0,1)
Cinf102<-p-z102*v10
Csup102<-p+z102*v10
\[(0.6569324,0.8287819)\] Ahora, tenemos que para un intervalo de confianza del 95% viene de la forma \[\hat{p} \pm d\] Donde d es de la forma \[d=z_{0.025}\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}\] Y en este caso, queremos que \[d=0.05\] Igualando tenemos
\[0.05=z_{0.025}\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}\] \[(0.05)^2=z_{0.025}^2\frac{\hat{p}(1-\hat{p})}{n}\] Despejando n tenemos \[n=z_{0.025}^2\frac{\hat{p}(1-\hat{p})}{(0.05)^2}\] calculando tenemos
z103<-qnorm(0.975,0,1)
p3<-p*(1-p)
n3<-(z103^2)*p3/(0.05)^2
Así, tenemos que \[n=293.5188127\] \[n=294\] Ahora, para un intervalo del 90% tenemos que
z104<-qnorm(0.95,0,1)
p4<-p*(1-p)
n4<-(z104^2)*p4/(0.05)^2
n4
## [1] 206.7256
\[n=206.725606\] \[n=207\] Ahora, si calculamos un intervalo del 90% a diario por 300, tenemos una distribucion binomial con \(n=300\) y \(p=0.9\), esto es \[X\sim Bin(300,0.9)\] Así tenemos que la probabilidad de que más de 280 intervalos contengan la verdadera proporción esta dada por \[P(X\geq 280)=1-P(X\leq 280)\] Esto es
w10<-pbinom(280,300,0.9)
prob<-1-w10
prob
## [1] 0.01711813
así, la probabilidad de que más de 280 intervalos contengan en veradero valor de la proporción es de \[P=1.7118\%\] ### 11 Los aceros inoxidables pueden ser susceptibles al agrietamiento de corrosión por tensión bajo ciertas condiciones. Un ingeniero especializado en materias está interesado en determinar la proporción de fallas de aleaciones de acero que son atribuibles al agrietamiento de corrosión por tensión.
como en el caso anterior, para determinas que en intervalo del 95% sea de una distancia \(d=\pm0.05\) tenemos que
\[n=z_{0.025}^2\frac{\hat{p}(1-\hat{p})}{(0.05)^2}\] Donde \(\hat{p}\) puede ser la proporción de una muestra piloto del problema. Ahora, si de una muestra de 100 fallas son ocacionadas por el agrietamiento por corrosión, tenemos que un intervalo del 95% viene dado por
p11<-20/100
v<-sqrt(p11*(1-p11)/100)
z11<-qnorm(0.975,0,1)
Cinf11<-p11-z11*v
Csup11<-p11+z11*v
Así, el intervalo es el siguiente
\[(0.1216014,0.2783986)\] Así, podemos determinar una n para el caso donde \(d=0.05\), esto es
pw<-20/100
z11<-qnorm(0.975,0,1)
p11<-pw*(1-pw)
n11<-(z11^2)*p11/(0.05)^2
\[n=245.8533645\] \[n=246\]