Caso de aplicación

Una planta embotelladora de aguas saborizadas estudia el proceso de llenado en la línea LE#1. En cierto día, se trabajó en el envasado de botellas de 2 litros, sabor multi-fruta. En esta línea trabajan dos turnos, mañana y tarde. En los dos turnos trabajaron operarios y técnicos distintos, con los mismos equipos. Al inicio de cada turno se realizó una revisión y puesta a punto. Se sabe que si el volumen envasado es excesivo, algunas botellas pueden reventarse durante la manipulación. Por otra parte, un volumen inferior le hace perder rigidez a los envases y además podría derivar en reclamos ante defensa del consumidor. Las botellas se empacan en paquetes termo-contraíbles de 12 unidades consecutivas. Para controlar el proceso y determinar si es necesario detener la línea y realizar mantenimiento, se procede habitualmente midiendo el volumen de una pequeña muestra, tomada al azar de la producción de cada día. El costo estimado de obtener cada dato es $200. La Gerencia de planta asume, en todos los casos, un riesgo del 5% de detener la línea para su revisión de forma innecesaria. Se puede asumir, por registros históricos y por el funcionamiento del sistema de control de las máquinas dosificadoras, que la distribución de cada volumen observado es Normal. Se dispone de un archivo anexo de información, en el que se tienen los volúmenes de las 1000 botellas dosificadas en el turno mañana (Población 1) y en el turno tarde (Población 2), para un día de producción. En un contexto real, esta información no estaría disponible ya que no se conoce la información exacta de la dosificación de cada botella. A los propósitos de este trabajo, se considerará que estos datos constituyen las poblaciones de estudio, con parámetros poblacionales fijos y desconocidos, sobre las cuales se realizará un muestreo.

A continuación, se utilizará el software R Studio para el cálculo y resolución de varios de los siguientes puntos a resolver. El código aplicado aparecerá sombreado en gris, e inmediatamente debajo de cada código (chunks) se encontrará el output respectivo de cada uno.


Parte I

A) Se decide tomar muestras de tamaño 12 de la producción de cada turno. En la supervisión se sugiere tomar como muestra un paquete termo-contraíble de 12 botellas envasadas consecutivamente, ¿Es aceptable esta sugerencia? Justificar.

No es aceptable esta sugerencia. Esto sería un error, debido a que si las 12 botellas de la muestra son tomadas del mismo paquete termo-contraible y por ende envasadas consecutivamente, y como el proceso de embotellamiento puede estar sujeto a variaciones a lo largo del tiempo, entonces el hecho de seleccionar las 12 botellas de un mismo paquete generaría que la muestra no sea aleatoria y, por ende, que no sea verdaderamente representativa de la respectiva población. Es decir, que para que la muestra sea verdaderamente aleatoria se deben seleccionar elementos (botellas en este caso) al azar de la población, y con la misma probabilidad de ser seleccionadas, para que asi sea una muestra representativa de la población. Ademas cabe aclarar que debido a que no seria aceptable tomar las 12 botellas de un mismo paquete, estas se deberian ser seleccionadas (al azar) posteriormente al empaquetamiento en los termo-contraibles, debido a que esto ahorraria el costo de tener que reempaquetar el resto de botellas de un paquete con tal de seleccionar una sola para la muestra.

B) A partir de la información disponible, simular la extracción de una muestra aleatoria de n=12 de cada turno y volcar los resultados obtenidos en la siguiente tabla. Explicar brevemente el procedimiento usado para simular la extracción.

Para cada poblacion, Población 1 (Turno Mañana) y Población 2 (Turno Tarde), se utilizará a continuación el mismo procedimiento para simular la extracción de la muestra aleatoria. Siendo ambas poblaciones finitas de N=1000 elementos, estos datos estarán en los respectivos data frames, de estos se tomará las muestras, ambas de tamaños n=12. Esto se hará realizando un muestreo estratificado (aunque el único estrato/grupo homogeneo en los data frames serian los volumenes respectivos de las botellas), estableciendolo mediante strata y luego tomando la muestra con getdata. Se hará con el metodo de muestreo simple aleatorio y sin reposicion (esto es lo que quiere decir srswor), ya que estas son poblaciones finitas. Siendo estas extracciones sin reposición (no habiendo independencia en las mediciones de la muestra), va a haber NCn (numero combinatorio igual a ~1.95*10^27) posibles muestras aleatorias. Y teniendo cualquier elemento la misma probabilidad de ser seleccionado, tal que esta probabilidad será \(P_H(r=1|N=1000; R=1; n=12)=\frac{n}{N}=\frac{12}{1000}=0.012\). Esto es para que no se cometa sesgo en la seleccion de la muestra, y por ende para que la muestra sea verdaderamente aleatoria y repesentativa de la población finita. De este modo, a continuación se realizará la simulación de la extracción.

Para el Turno Mañana:

set.seed(18)
library(readxl)
pobla1 <- read_excel("C:/Users/Ignac/Desktop/Estadistica Aplicada I/R EA 1 (TPs)/TP2/pobla1.xlsx")

library(sampling)
extraccion1<-strata(pobla1, stratanames = NULL, size = 12, method = "srswor")
datos_muestra_1<-getdata(pobla1, extraccion1)
muestra1<-datos_muestra_1$poblacion1
numeros1<-datos_muestra_1$ID_unit

Para el Turno Tarde:

set.seed(13)
pobla2 <- read_excel("C:/Users/Ignac/Desktop/Estadistica Aplicada I/R EA 1 (TPs)/TP2/pobla2.xlsx")

extraccion2<-strata(pobla2, stratanames = NULL, size = 12, method = "srswor")
datos_muestra_2<-getdata(pobla2, extraccion2)
muestra2<-datos_muestra_2$poblacion2
numeros2<-datos_muestra_2$ID_unit

Se completa la siguiente tabla:

tabla<-c(numeros1, muestra1, numeros2, muestra2)
dim(tabla)<-c(12,4)
colnames(tabla)<-c("| Número Botella Turno Mañana |", "| Volumen [lts] Turno Mañana ||", "|| Número Botella Turno Tarde |", "| Volumen [lts] Turno Tarde |")
rownames(tabla)<-c("A", "B", "C", "D", "E", "F", "G", "H", "I", "J", "K", "L")
tabla
##   | Número Botella Turno Mañana | | Volumen [lts] Turno Mañana ||
## A                              32                          1.9706
## B                             148                          1.9038
## C                             185                          1.9605
## D                             444                          1.9511
## E                             464                          1.9782
## F                             681                          2.0034
## G                             682                          1.9530
## H                             818                          1.8775
## I                             833                          1.9711
## J                             838                          1.9208
## K                             971                          1.9763
## L                             996                          1.8695
##   || Número Botella Turno Tarde | | Volumen [lts] Turno Tarde |
## A                             221                        2.0601
## B                             320                        2.0143
## C                             472                        1.9794
## D                             586                        2.0453
## E                             644                        1.9889
## F                             717                        1.9769
## G                             771                        2.0105
## H                             774                        2.0911
## I                             869                        1.9801
## J                             918                        2.1065
## K                             944                        1.9417
## L                             960                        2.1566

Parte II

Para la realización de los puntos siguientes se harán las siguientes estimaciones puntuales de la media, varianza y desvio de cada población, a partir de las dos muestras tomadas anteriormente.

Estimación puntual para la media: \(\overline{X}=\frac{\sum{x_i}}{n}\) Estimación puntual para la varianza: \(S^2=\frac{\sum{(x_i-\overline{x})^2}}{n-1}\) Estimación puntual para el desvio: \(S=\sqrt{\frac{\sum{(x_i-\overline{x})^2}}{n-1}}\)

obs1<-c(mean(muestra1), var(muestra1), sd(muestra1))
dim(obs1)<-c(1, 3)
rownames(obs1)<-c("Turno Mañana:")
colnames(obs1)<-c("Media[lts]", "Varianza[lts^2]", "Desvio[lts]")
obs1
##               Media[lts] Varianza[lts^2] Desvio[lts]
## Turno Mañana:    1.94465     0.001791694   0.0423284

=> \(\overline{X_M}obs=1.9447 lts\), \(S_M^2obs=0.001792 lts^2\) y \(S_Mobs=0.04233 lts\)

obs2<-c(mean(muestra2), var(muestra2), sd(muestra2))
dim(obs2)<-c(1, 3)
rownames(obs2)<-c("Turno Tarde:")
colnames(obs2)<-c("Media[lts]", "Varianza[lts^2]", "Desvio[lts]")
obs2
##              Media[lts] Varianza[lts^2] Desvio[lts]
## Turno Tarde:   2.029283     0.004066343  0.06376789

=> \(\overline{X_T}obs=2.0293 lts\), \(S_T^2obs=0.004066 lts^2\) y \(S_Tobs=0.06377 lts\)

Defino las siguientes VA: \(X_M\): Volumen de agua saborizada en una botella dosfificada del Turno Mañana (población 1). \(X_T\): Volumen de agua saborizada en una botella dosfificada del Turno Tarde (población 2).

Se puede asumir por registros historicos y por el funcionamiento del sistema de control de las máquinas dosificadoras que: \(X_M\)~\(N(\mu_M;\sigma_M^2)\) y \(X_T\)~\(N(\mu_T;\sigma_T^2)\)

Entonces: \(\overline{X_M}\)~\(N(\mu_M;\frac{\sigma_M^2}{n})\) y \(\overline{X_T}\)~\(N(\mu_T;\frac{\sigma_T^2}{n})\)

A) Calcular los límites de confianza del 90% para la dosificación media del turno mañana e indicar el error relativo de la estimación.

Para el Turno Mañana: Tamaño de muestra n=12 por lo tanto los grados de libertad serán \(\upsilon=n-1=11\)

Dado que la varianza es desconocida, se define T con distribución t de Student: \((T=\frac{\overline{X}_M-\mu_M}{\frac{S_M}{\sqrt{n}}})\)~\(t(\upsilon=11)\)

Intervalo de Confianza para la media del Turno Mañana: Nivel de confianza del 90% => \(NC=0.9=1-\alpha\) <=> \(\alpha=0,1\)

\(P(t_{\upsilon;\frac{\alpha}{2}} \leq \frac{\overline{X}_M-\mu_M}{\frac{S_M}{\sqrt{n}}} \leq t_{\upsilon;1-\frac{\alpha}{2}})=NC=0,9\)

siendo el fractil de la t de Student: \(t_{\upsilon;\frac{\alpha}{2}}=-t_{\upsilon;1-\frac{\alpha}{2}}\)

=> \(P(\overline{X_M}obs-t_{\upsilon;1-\frac{\alpha}{2}}*\frac{S_M}{\sqrt{n}} \leq \mu_M \leq \overline{X_M}obs+t_{\upsilon;1-\frac{\alpha}{2}}*\frac{S_M}{\sqrt{n}})=0,9\)

Límite inferior: \(LI=\overline{X_M}-t_{\upsilon;1-\frac{\alpha}{2}}*\frac{S_M}{\sqrt{n}}\) Límite superior: \(LS=\overline{X_M}+t_{\upsilon;1-\frac{\alpha}{2}}*\frac{S_M}{\sqrt{n}}\)

calculo el fractil \(t_{\upsilon;1-\frac{\alpha}{2}}=t_{11;0.95}\):

qt(0.95, df=11)
## [1] 1.795885

=> \(t_{11;0.95}=1.7959\)

Reemplazando valores: \(IC_{90\%}(\mu_M)=[1.9228 ; 1.9667]lts\) Intervalo de Confianza del 90% para la media del Turno Mañana

Calculo el error absoluto: \(E=\frac{LS-LI}{2}=t_{\upsilon;1-\frac{\alpha}{2}}*\frac{S_M}{\sqrt{n}}\) => \(E=0.02195 lts\) Error absoluto de la estimación por intervalo

Calculo el error relativo: \(E_r=\frac{E}{\overline{Xobs}}\) => \(E_r=0.01129\) Error relativo de la estimación por intervalo

B) Desde la gerencia no están del todo convencidos de los resultados de la estimación del punto A, y desean disminuir el error relativo de la estimación del punto A en 25%, y además aumentar el nivel de confianza a 99%. ¿Cómo se debería proceder? ¿Cuál es el costo de mejorar la estimación?

Disminuyo el error relativo calculado anteriormente a un 75% del mismo: \(E_r'=0.75*E_r=0.008468\)

Con un NC’=0.99 se tiene que \(\alpha'=0.01\), entonces: \(E_r'=\frac{t_{\upsilon;1-\frac{\alpha'}{2}}*\frac{S_M}{\sqrt{n}}}{\overline{X_M}obs}\) => \(n=(\frac{t_{\upsilon;1-\frac{\alpha'}{2}}*S_M}{E_r'*\overline{X_M}obs})^2\) Debido a que el tamaño de muestra depende de las dos estimaciones de dos parámetros desconocidos (\(S_M\) y \(\overline{X_M}\)) y los grados de libertad del estadístico t dependen de n, se deberá resolver esta ecuación primero calculando una prueba piloto y despues realizando una iteracion.

Prueba piloto: \(n_0=(\frac{z_{1-\frac{\alpha'}{2}}*S_M}{E_r'*\overline{X_M}})^2\)

Calculo el fractil de la Normal Estandar:

qnorm(0.995)
## [1] 2.575829

=> \(z_{1-\frac{\alpha'}{2}}=z_{0.995}=2.5758\)

=> \(n_0=43.84 \approx44\) => \(\upsilon_0=43\)

Realizo una iteración calculando el fractil de la t con \(\upsilon_0\): \(n_1=(\frac{t_{43;0.995*S_M}}{E_r'*\overline{X_M}obs})^2\) calculo el factil de la t:

qt(0.995, df=43)
## [1] 2.695102

=> \(n_1=47.99 \approx48\) => \(\upsilon_1=47\)

Repito el procedimiento hasta llegar a la convergencia: \(n_2=(\frac{t_{47;0.995*S_M}}{E_r'*\overline{X_M}obs})^2\) calculo el factil de la t:

qt(0.995, df=47)
## [1] 2.684556

=> \(n_2=47.62 \approx48\) => como \(n_1=n_2=48\) obtengo la convergencia

Entonces aproximadamente el tamaño de muestra necesario es n’=48

Se debe proceder aumentando el tamaño de la muestra, seleccionando (n’-n)=36 botellas más de la población del Turno Mañana.

Dado que se tiene un costo estimativo \(200\$\) por cada dato de la muestra (cada botella seleccionada de la población). Entonces el costo de mejorar la estimación será de \((n'-n)*200\$=7200\$\); ya que para la muestra original de n=12, se tenía un costo de \(n*200\$=2400\$\); y para la muestra nueva se tiene un costo de \(n'*200\$=9600\$\).

C) Si a partir de la muestra de 12 botellas tomadas inicialmente para el turno mañana se toma la decisión de detener la producción por haberse desajustado la media de los volúmenes, ¿Cuál es la probabilidad de error? Plantear un test de hipótesis.

Ensayo de hipótesis bilateral: \(H_0)\mu_M=(\mu_0=2 lts)\) ; \(H_{alt})\mu_M \neq (\mu_0=2 lts)\) Condición de rechazo: CR:\([\overline{X_M} \leq \overline{X_{C1}}] o[\overline{X_M} \geq \overline{X_{C2}}]\)

=> \((\frac{\overline{X_M}-\mu_M}{\frac{S_M}{\sqrt{n}}}) \tilde{} t(\upsilon=11)\)

La probabilidad de detener la produccion indebidamente es la probabilidad de error de tipo I (o nivel de significación), por lo tanto: P(detener la producción indebidamente)=\(P([\overline{X_M} \leq \overline{X_{C1}}] o[\overline{X_M} \geq \overline{X_{C2}}]|\mu_M=\mu_0)\)

Entonces para calcular la probabilidad de error a partir de la muestra de 12 botellas, debo calcular el nivel de significación a posteriori o valor P (\(\alpha^\star\)), siendo este el mínimo nivel de significación con el cual se rechaza la hipotesis nula con la muestra dada. Entonces, dado que \(\overline{X_M}obs=1.9447\) es menor que \(\mu_0=2\), lo calculo del siguiente modo: \(P(\overline{X_M} \leq \overline{X_M}obs|\mu_M=\mu_0=2)=\frac{\alpha^\star}{2}\) => \(2*F_t(\frac{\overline{X_M}obs-\mu_0}{\frac{S_M}{\sqrt{n}}}|\upsilon=11)=\alpha^\star=2*F_t(-4.5255|\upsilon=11)\)

calculo \(F_t(-4.5255|\upsilon=11)\):

pt(-4.5255, df=11)
## [1] 0.0004320981

=> \(\alpha^\star=0.00086\) es decir \(0.086\%\) Probabilidad mínima de cometer un error al tomar la decisión de detener la producción del Turno Mañana

Es decir que P(detener la producción indebidamente)$$0.00086

D) En el sector de supervisión de línea realizan esta observación: ‘Durante el turno tarde, las máquinas de la línea estuvieron arrojando sistemáticamente dosificaciones por encima de lo debido’. En base a la muestra tomada, ¿Es posible corroborar esta afirmación?

Para el Turno Tarde: n=12 por lo tanto \(\upsilon=11\)

Ensayo de hipótesis unilateral a cola derecha: \(H_0)\mu_T \leq (\mu_0=2 lts)\) ; \(H_{alt})\mu_T>(\mu_0=2 lts)\) CR: \(\overline{X_T} \geq \overline{X_C}\)

Con un nivel de significación del 5%, osea \(\alpha=0.05\) => \(P(\overline{X_T} \geq \overline{X_C}|\mu_T=\mu_0=2)=\alpha=0.05\)

La condición de rechazo se puede expresar como: CR: \(t_{\upsilon} \geq t_{\upsilon;1-\alpha}\)

Calculo el fractil de la t de Student “observado” a partir del promedio muestral observado: \(t_{\upsilon}obs=\frac{\overline{X_T}obs-\mu_0}{\frac{S_T}{\sqrt{n}}}=1.5916\)

Habiendo calculado anteriormente el fractil \(t_{\upsilon;1-\alpha}=t_{11;0.95}=1.7959\). Se puede ver en el siguiente grafico de la función de densidad de la distribución t con \(\upsilon=11\), el área bajo la curva que representa el valor \(\alpha=0.05\) sombreada en violeta y la representación de la región de rechazo. Ademas, la linea roja de rayas representa la ubicación del fractil \(t_{\upsilon}obs=1.5916\) y permite ver gráficamente que este no se encuentra en la región de rechazo, por lo tanto no se debe rechazar la hipótesis nula:

curve(dt(x, df=11), from = -5, to = 5, main = "Región Crítica del Ensayo", xlab = "t de Student con 11 gl", ylab = "Función de Densidad")
polygon(x = c(1.7959, seq(from = 1.7959, to = 5, 0.01), 5), y = c(0, dt(seq(1.7959, 5, 0.01), df=11), 0), col = "purple")    #REGIÓN CRÍTICA
grid()
abline(v = 1.5916, col = "red", lty = "dashed")    #FRACTIL OBSERVADO

Comparo analíticamente: \(t_{\upsilon}obs=1.5916 < 1.7959=t_{\upsilon;1-\alpha}\) Por lo tanto no rechazo la hipótesis nula.

=> No es posible corroborar que durante el Turno Tarde, las máquinas de la linea estuvieron arrojando sistemáticamente dosificaciones por encima de lo debido, con un nivel de significación del 5%


Parte III

A) Si se asume que la varianza de las dosificaciones del turno mañana se mantuvo estable a lo largo del turno, estimarla con un intervalo de confianza del 95% a partir de los datos de la muestra tomada inicialmente.

Siendo n=12, siendo desconocida la media poblacional entonces \(\upsilon=n-1=11\)

Se tiene que: \((W=\frac{\upsilon*S_M^2}{\sigma_M^2}) \tilde{} \chi^2(\upsilon=11)\)

Intervalo de Confianza para la varianza del Turno Tarde: Nivel de confianza del 95% => \(NC=0.95=1-\alpha\) <=> \(\alpha=0,05\)

\(P(\chi_{\upsilon;\frac{\alpha}{2}}^2 \leq \frac{\upsilon*S_M^2}{\sigma_M^2} \leq \chi_{\upsilon;1-\frac{\alpha}{2}}^2)=NC=0.95\) => \(P(\frac{\upsilon*S_M^2}{\chi_{\upsilon;1-\frac{\alpha}{2}}^2} \leq \sigma_M^2 \leq \frac{\upsilon*S_M^2}{\chi_{\upsilon;\frac{\alpha}{2}}^2})=NC=0.95\)

\(LS=\frac{\upsilon*S_M^2}{\chi_{\upsilon;\frac{\alpha}{2}}^2}\) y \(LI=\frac{\upsilon*S_M^2}{\chi_{\upsilon;1-\frac{\alpha}{2}}^2}\)

Calculo los fractiles de la Chi Cuadrado \(\chi_{\upsilon;\frac{\alpha}{2}}^2=\chi_{11;0.025}^2\) y \(\chi_{\upsilon;1-\frac{\alpha}{2}}^2=\chi_{11;0.975}^2\):

qchisq(0.025, df=11)
## [1] 3.815748
qchisq(0.975, df=11)
## [1] 21.92005

=> \(\chi_{11;0.025}^2=3.8158\) y \(\chi_{11;0.975}^2=21.9201\)

Reemplazando: \(IC_{95\%}(\sigma_M^2)=[0.0008992;0.005165]lts^2\) Intervalo de Confianza del 90% para la varianza del Turno Mañana

B) Con los 12 datos de la muestra observada para el turno tarde, ¿Hay evidencia estadística para afirmar que el desvío estándar es mayor a 0,05 litros? Obtener el nivel de significación a posteriori.

Ensayo de hipótesis unilateral de cola derecha: \(H_0)\sigma_T \leq (\sigma_0=0.05 lts)\) ; \(H_{alt})\sigma_T>(\sigma_0=0.05 lts)\) CR: \(S_T \geq S_C\) La condición de rechazo tambien se puede expresar como: CR: \(S_T^2 \geq S_C^2\)

Se tiene que n=12 y como la media es desconocida \(\upsilon=11\). Se toma un nivel de significación de \(\alpha=0.05\) Tambien se puede expresar la condición de rechazo universal como: CR(universal): \(\alpha^\star \leq \alpha\)

Se sabe que el estimador de la varianza poblaciónal sigue distribución Gamma de la forma: \(S_T^2 \tilde{} \gamma(\alpha=\frac{\upsilon}{2}; \beta=\frac{2*\sigma_T^2}{\upsilon})\)

Calculo entonces el nivel de significación a posteriori (o valor P): \(P(S_T^2 \geq S_C^2|\sigma_T=\sigma_0=0.05)=\alpha^\star\) => \(G_\gamma(S_T^2obs=0.004067|\alpha=\frac{11}{2}=5.5 ; \beta=\frac{2*0.05^2}{11}=0.0004546)=\alpha^\star\)

pgamma(0.004067, shape = 5.5, scale = 0.0004546, lower.tail = FALSE)
## [1] 0.0841051

=> \(\alpha^\star=0.08411\) Nivel de significación a posteriori con n=12

Comparando: \(\alpha^\star=0.08411 > 0.05=\alpha\) Por lo tanto no rechazo la hipotesis nula.

=> No hay evidencia estadística para afirmar que el desvío estándar es mayor a 0.05 litros.

C) Para controlar el desvío de las dosificaciones, el departamento de ingeniería de proceso establece algunas consideraciones: Si el desvío de las dosificaciones se mantiene en 0.05, la probabilidad de detener la producción erróneamente debe ser 0.01. Si el desvío de las dosificaciones aumenta a σ1, la probabilidad de detener la producción aumenta a π1 (en el archivo de información adjunto se encuentran los valores para σ1 y π1). Diseñar el ensayo correspondiente, redactar la regla de decisión, calcular el costo de muestreo y graficar la curva de potencia.

Ensayo de hipótesis unilateral a cola derecha: \(H_0)\sigma \leq (\sigma_0=0.05 lts)\) ; \(H_{alt})\sigma>(\sigma_0=0.05 lts)\) CR: \(S \geq S_C\) CR: \(S^2 \geq S_C^2\)

Siendo \(\alpha=\pi(\sigma_0)=0.05\) con \(\sigma_0=0.05\), y \(\pi(\sigma_1)=0.95=1-\beta(\sigma_1)\) con \(\sigma_1=0.07\). Diseño el ensayo de hipótesis a partir de las siguientes condiciones: \(P(S^2 \geq S_C^2|\sigma=\sigma_0=0.05)=\alpha=0.05\) y \(P(S^2 \geq S_C^2|\sigma=\sigma_1=0.07)=\pi(\sigma_1)=0.95\) => \(1-F_{\chi^2}(\frac{\upsilon*S_C^2}{\sigma_0^2}|\upsilon)=\alpha\) => \(\chi_{\upsilon;1-\alpha}^2=\frac{\upsilon*S_C^2}{\sigma_0^2}\) => \(1-F_{\chi^2}(\frac{\upsilon*S_C^2}{\sigma_1^2}|\upsilon)=\pi(\sigma_1)\) => \(\chi_{\upsilon;1-\pi_1}^2=\frac{\upsilon*S_C^2}{\sigma_1^2}\)

Calculo la relación entre fractiles de la Chi Cuadrado, R>1: \(R=\frac{\chi_{\upsilon;1-\alpha}^2}{\chi_{\upsilon;1-\pi_1}^2}=\frac{\frac{\upsilon*S_C^2}{\sigma_0^2}}{\frac{\upsilon*S_C^2}{\sigma_1^2}}=\frac{\sigma_1^2}{\sigma_0^2}\) =>\(R=\frac{0.07^2}{0.05^2}=1.96\)

Ahora para obtener los grados de libertad \(\upsilon_2\) se aplica la formula siguiente para su calculo aproximado: \(\upsilon_2 \cong \frac{2}{9}*(a+\sqrt{a^2+1})^2\) con \(a=\frac{z_{0.99}+z_{0.95}*3\sqrt{R}}{2*(3\sqrt{R}-1)}\) Calculo los fractiles de la Normal Estandar:

qnorm(0.99)
## [1] 2.326348
qnorm(0.95)
## [1] 1.644854

=> \(a=8.7188\) => \(\upsilon_2 \cong 68\) Por lo tanto \(n_2=69\) Tamaño de muestra del ensayo diseñado

Calculo el S crítico: \(S_C=\sqrt{\frac{\chi_{68;0.99}^2*\sigma_0^2}{\upsilon_2}}\)

Calculo el fractil de la Chi Cuadrado:

qchisq(0.99, df=68)
## [1] 98.0284

Reemplazando: \(S_C=0.06 lts\) Desvío muestral crítico del ensayo diseñado

Regla de Decisión: Se deberá tomar una muestra aleatoria, seleccionando n=69 botellas dosificadas, al azar, de la respectiva población. A partir de esta muestra, se calculará el desvío observado (en litros) y se comparará con un valor crítico de \(S_C\)=0.06 lts. En caso de que el desvío observado este por debajo del desvío crítico (Sobs<0.06 lts) se considerará que el proceso de dosificación esta funcionando bajo las condiciones de variabilidad deseadas. En cambio, si el desvío observado es mayor o igual al desvío crítico (Sobs$$0.06 lts) se detendrá la producción y se revisará el proceso en busca de posibles fallas, con un riesgo máximo del 1% de detener la producción estando esta funcionando correctamente. Es decir, que se tiene un nivel de significación/probabilidad máxima de cometer error de tipo I de 0.01.

El costo de muestreo, con \(n_2=69\), será de \(69*200\$=13800\$\).

La función de potencia se puede expresar a partir de: \(P(S^2 \geq S_C^2=0.06|\sigma)=\pi(\sigma)=G_\gamma(0.06^2|\alpha=\frac{68}{2}=34; \beta=\frac{2*\sigma^2}{68})\) Esto se puede exprezar de una forma más conveniente para gráficarla y es “chicuadradizando” de la siguiente forma: \(\pi(\sigma)=G_{\chi^2}(\frac{68*0.06^2}{\sigma^2}|\upsilon_2=68)\) Función de Potencia para n2=69 Graficando:

curve(pchisq((68%*%(0.06^2)) %/% (x^2), df=68, lower.tail = FALSE  ), from = 0.04, to = 0.09, n = 100000, col = "blue", xlab = "Desvío poblacional", ylab = "Potencia", main = "Curva de Potencia para n2=69")
grid()
points(0.06, 0.5, col = "red", lwd = 4)    #Scrítico=0.06 lts con potencia de 0.5
points(0.05, 0.01, col = "purple", lwd = 4)    #Desvío de 0.05 lts con potencia de 0.01
points(0.07, 0.95, col = "orange", lwd = 4)    #Desvío de 0.07 lts con potencia de 0.95

Puntos en la curva: En violeta \(\pi(\sigma_0=0.05)=\alpha=0.01\) En rojo \(\pi(\sigma=Sc=0.06)=0.5\) En naranja \(\pi(\sigma_1=0.07)=0.95\)

Observar que a medida que aumenta el desvío poblacional verdadero, tambien aumenta la Potencia, es decir, la probabilidad de rechazar la hipótesis nula.

D) Graficar la función de potencia para otro ensayo con el mismo nivel de significación, pero con un tamaño de muestra un 30% menor que el obtenido en C. A partir del gráfico, obtener conclusiones.

Mismo ensayo que el inciso anterior, con el mismo niver de significación de 1%, pero con un tamaño de muestra n3, un 30% menor que n2. => \(n_3=0.7*n_2=48.3 \cong 49\) => \(\upsilon_3=48\)

Calculo el nuevo desvío muestral crítico: \(S_C=\sqrt{\frac{\chi_{48;0.99}^2*\sigma_0^2}{\upsilon_3}}\)

qchisq(0.99, df =48)
## [1] 73.68264

=> \(\chi_{48;0.99}^2=73.6826\) => \(S_C=0.06195\) Desvío muestral crítico para n_3=49

Función de Potencia: \(P(S^2 \geq S_C^2=0.06195|\sigma)=\pi(\sigma)\) => \(\pi(\sigma)=G_{\chi^2}(\frac{48*0.06195^2}{\sigma^2}|\upsilon_3=48)\) Función de Potencia para n3=49 Graficando comparativamente ambas Curvas de Potencia halladas. En azul para n2=69 y en verde para n3=49:

curve(pchisq((68%*%(0.06^2)) %/% (x^2), df=68, lower.tail = FALSE  ), from = 0.04, to = 0.09, n = 100000, col = "blue", xlab = "Desvío poblacional", ylab = "Potencia", main = "Comparación de Curvas de Potencia", sub = "en AZUL para n2=69 y en VERDE para n3=49", col.sub = "brown")    #Curva de Potencia para n2=69
curve(pchisq((48%*%(0.06195^2)) %/% (x^2), df=48, lower.tail = FALSE  ), from = 0.04, to = 0.09, n = 100000, add = TRUE, col = "green")    #Curva de Potencia para n3=49
grid()
points(0.06, 0.5, col = "red", lwd = 4)
points(0.06, 0.38, col = "red", lwd = 4)
points(0.05, 0.01, col = "purple", lwd = 4)    #Desvío de 0.05 lts con potencia de 0.01
points(0.07, 0.95, col = "orange", lwd = 4)
points(0.07, 0.87, col = "orange", lwd = 4)

Observando el gráfico anterior, se ve que ambas curvas se intersecan en el punto violeta \(\pi(\sigma_0=0.05)=\alpha=0.01\), es decir que este es el único punto que pertenece a ambas curvas de potencia, con el desvío poblacional de la hipótesis nula de 0.05 litros. Poniendo de ejemplos la diferencia entre los puntos rojos y naranjas en cada curva, se ve que para valores del desvío poblacional mayores a 0.05 litros, la potencia disminuye al disminuir el tamaño de la muestra (de n2=69 a n3=49). En cambio para valores del desvío menores a 0.05 litros, la potencia aumenta al dismunuir el tamaño de muestra (aunque esto no es legible en este gráfico debido a que sucede a una escala muy pequeña). Es decir que a medida que aumenta el tamaño de muestra, n, el ensayo de hipótesis tiene mayor sensibilidad, osea que la potencia, para un mismo valor del desvío, se incrementa para valores mayores a \(\sigma_0\), los cuales estan en la hipótesis alternativa (es decir que se tomaría una decisión correcta al rechazar la H0). Esto hace que el ensayo sea más “potente” y aumenta la probabilidad de rechazar la hipótesis nula cuando verdaderamente hay un incremento indeseado del desvio poblacional. A su vez, la potencia disminuye para un mismo valor del desvío, si este es menor que \(\sigma_0\), ya que estos valores estan en la hipótesis nula (es decir que se cometería un error al rechazar H0) y por ende disminuye la probabilidad de rechazar la hipótesis nula cuando no hay un incremento indeseado del desvío. Entonces a mayor tamaño de muestra puedo discriminar más facilmente los incrementos del desvío, es decir, que cuando hago un control del proceso con un n mayor, podré detectar lo que quiero ver más facilmente, a expensas de tener un costo mayor por tener que seleccionar más elementos (botellas dosificadas en este caso) de la población correspondiente.


Parte IV

A) Se mantiene la sospecha de que durante el turno tarde hubo un aumento de la media de las dosificaciones, pero esta vez se desea realizar una comparación con la producción del turno mañana. ¿Arrojan los resultados de las muestras tomadas una evidencia concluyente al respecto? Explicar la diferencia entre este ensayo y el realizado en el inciso II) D.

Ensayo de hipótesis de comparación de medias: \(H_0)\mu_T \leq \mu_M\) ; \(H_{alt})\mu_T > \mu_M\)

Defino la diferencia entre medias poblacionales: \(\delta=\mu_T-\mu_M\) Defino la diferencia entre medias muestrales (estimacion de \(\delta\)): \(\hat{\delta}=\overline{X_T}-\overline{X_M}\)

Expreso el ensayo de hiótesis del siguiente modo: \(H_0)(\mu_T-\mu_M=\delta) \leq (\delta_0=0)\) ; \(H_{alt})(\mu_T - \mu_M=\delta)>(\delta_0=0)\) CR: \(\hat{\delta} \geq \hat{\delta_0}\) siendo \(n_T=n_M=12\) => \(\upsilon_T=\upsilon_M=11\) Con \(\alpha=0.05\)

Se realizan muestras independientes, es decir, 12 medidas se toman en una condición (Turno Mañana con operarios y técnicos únicos de este turno) y 12 medidas se toman en otra condición (Turno Tarde con operarios y técnicos únicos de este turno).

No se tiene certezas de si las varianzas de las poblaciones de los turnos son iguales o no. Asique debido a la información de que en ambos turnos se trabaja con los mismos equipos y ademas en ambos se realiza una revisión y puesta a punto al inicio de los mismos, es decir que ambos tienen el mismo mantenimiento, entonces se puede sospechar de que la variabilidad de ambos procesos deberia ser la misma. Por lo tanto se realizará un ensayo de hipótesis comparación de varianzas para detenerminar esta cuestión: \(H_0)\sigma_T^2=\sigma_M^2\) ; \(H_{alt})\sigma_T^2 \neq \sigma_M^2\)

Defino la relación entre varianzas poblacionales: \(\phi^2=\frac{\sigma_T^2}{\sigma_M^2}\) Defino la relación entre varianzas muestrales (estimación de \(\phi^2\)): \(\hat{\phi^2}=\frac{S_T^2}{S_M^2}\)

Expreso el ensayo de hiótesis del siguiente modo: \(H_0)\phi^2=(\phi_0^2=1)\) ; \(H_{alt})\phi^2 \neq (\phi_0^2=1)\) CR: \([\hat{\phi^2} \leq \hat{\phi_{C1}^2}]o[\hat{\phi^2} \geq \hat{\phi_{C2}^2}]\) Con \(\alpha=0.05\)

Se sabe que la siguiente expresión sigue distribución F de Fisher-Snedecor del siguiente modo: \((\frac{\hat{\phi^2}{\phi^2}) \sim F(\upsilon_1=\upsilon_T=11; \upsilon_2=\upsilon_M=11)\)

La condición de rechazo se puede expresar como: CR: \([F_{\upsilon_1;\upsilon_2} \leq F_{\upsilon_1;\upsilon_2;\frac{\alpha}{2}}]o[F_{\upsilon_1;\upsilon_2} \geq F_{\upsilon_1;\upsilon_2;1-\frac{\alpha}{2}}]\)

Se calcula la relación muestral observada y el fractil de la F “observado”: \(\phi^2obs=\frac{S_T^2obs}{S_M^2obs}=2.2695\) => \(F_{\upsilon_1;\upsilon_2}obs=\frac{\hat{\phi^2}}{\phi_0^2}=2.2695\)

Viendo que \(F_{\upsilon_1;\upsilon_2}obs=2.2695>1=\frac{\phi_0^2}{\phi_0^2}\) por lo tanto comparo con \(F_{\upsilon_1;\upsilon_2;1-\frac{\alpha}{2}}=F_{11;11;0.975}\). Para eso calculo este fractil:

qf(0.975, df1 = 11, df2 = 11)
## [1] 3.473699

=> \(F_{\upsilon_1;\upsilon_2}obs=2.2695 < 3.4737=F_{\upsilon_1;\upsilon_2;1-\frac{\alpha}{2}}\) Por lo tanto no rechazo la hipótesis nula.

Se puede observar gráficamente que el fractil “observado”, representado con la linea roja de rayas, no se encuentra dentro de la región crítica, sombreada de marrón (con un área bajo la curva total de \(\alpha=0.05\)):

curve(df(x, df1 = 11, df2 = 11), from = 0, to = 7, main = "Región Crítica del Ensayo", xlab = "F de Fisher-Snedecor con 11 gl1 y 11 gl2", ylab = "Función de Densidad")
polygon(x = c(0, seq(from = 0, to = qf(0.025, df1 = 11, df2 = 11), 0.01), qf(0.025, df1 = 11, df2 = 11)), y = c(0, df(seq(0, qf(0.025, df1 = 11, df2 = 11), 0.01), df1 = 11, df2 = 11), 0), col = "brown")    #mitad de la REGIÓN CRÍTICA
polygon(x = c(3.4737, seq(from = 3.4737, to = 7, 0.01), 7), y = c(0, df(seq(3.4737, 7, 0.01), df1 = 11, df2 = 11), 0), col = "brown")    #mitad de la REGIÓN CRÍTICA
grid()
abline(v = 2.2695, col = "red", lty = "dashed")    #FRACTIL OBSERVADO

Entonces a partir de este resultado estadístico y de la información extraestadística ya mencionada, se acepta que: \(\sigma_T^2=\sigma_M^2\) <=> \(\sigma_T=\sigma_M\)

=> Uso el Modelo Homocedástico Ahora continuo con la comparación de medias: \(H_0)(\mu_T-\mu_M=\delta) \leq (\delta_0=0)\) ; \(H_{alt})(\mu_T - \mu_M=\delta)>(\delta_0=0)\) CR: \(\hat{\delta} \geq \hat{\delta_0}\) \(n=n_T=n_M=12\) y \(?upsilon=\upsilon_T=\upsilon_M=11\)

Calculo la esperanza y la varianza del estimador de la diferencia entre medias: \(E[\hat{\delta}]=E[\overline{X_T}-\overline{X_M}]=\delta\) \(Var[\hat{\delta}]=Var[\overline{X_T}-\overline{X_M}]=\frac{\sigma_T^2}{n}+\frac{\sigma_M^2}{n}\) con \(\sigma_T=\sigma_M=\sigma\) => \(Var[\hat{\delta}]=\frac{2*\sigma^2}{n}\)

Entonces: \(\hat{\delta} \sim N(\mu_{\hat{\delta}}=\delta; \sigma_{\hat{\delta}}^2=\frac{2*\sigma^2}{n})\) Porque \(\hat{\delta}\) es combinación lineal de Normales.

Estimo la varianza poblacional calculando la varianza en Pool (o amalgamada): \(S_{Pool}^2=\frac{\upsilon_T*S_T^2+\upsilon_M*S_M^2}{\upsilon_T+\upsilon_M}\) con \(?upsilon=\upsilon_T=\upsilon_M=11\) => \(S_{Pool}^2=\frac{S_T^2+S_M^2}{2}=0.002929\) => \(S_{Pool}=0.05412\) siendo \(\upsilon_{total}=\upsilon_{T}+\upsilon_{M}=22\)

Entonces: \((\frac{\hat{\delta}-\delta}{\sqrt{\frac{2*S_{Pool}^2}{n}}}) \sim t(\upsilon_{total}=22)\)

Expreso la condición de rechazo: CR: \(t_{\upsilon} \geq t_{\upsilon;1-\alpha}\)

Calculo el fractil de la t “observado”: \(t_{\upsilon}obs=3.829\) Calculo el \(t_{\upsilon;1-\alpha}=t_{22;0.95}\):

qt(0.95, df = 22)
## [1] 1.717144

=> \(t_{\upsilon}obs=3.829>1.7171=t_{\upsilon;1-\alpha}\) Por lo tanto rechazo la hipótesis nula

Se observa gráficamente que el fractil “observado”, representado por la linea roja de rayas, se encuentra en la región de rechazo, sombreada de amarillo (siendo un área bajo la curva de valor \(\alpha=0.05\)):

curve(dt(x, df=22), from = -5, to = 5, main = "Región Crítica del Ensayo", xlab = "t de Student con 22 gl", ylab = "Función de Densidad")
polygon(x = c(1.7171, seq(from = 1.7171, to = 5, 0.01), 5), y = c(0, dt(seq(1.7171, 5, 0.01), df=22), 0), col = "yellow")    #REGIÓN CRÍTICA
grid()
abline(v = 3.829, col = "red", lty = "dashed")    #FRACTIL OBSERVADO

Los resultados sí arrojan evidencia estadística concluyente de que hubo un aumento en la media de las dosificaciones del Turno Tarde, con un nivel de significación del 5%

La diferencia de este punto con el D) de la Parte II es que en este se realiza una comparación estadística entre dos parámetros desconocidos (medias poblacionales en este caso), sin ninguna información sobre los valores poblacionales de estos. En cambio en el D) de la Parte II, se hace una “comparación” pero esta no es una comparación estadística ya que en ese punto se tenia la información explícita del parámetro población (la media poblacional) con el que se estaba “comparando” la media del Turno Tarde ya que se sabía que la media poblacional debia ser 2 litros y se sospechaba de que la media del Turno Tarde estaba por encima de este valor considerado el correcto.

B) Estimar la varianza de las dosificaciones de una jornada (turno mañana y turno tarde) con un intervalo de confianza del 95%, usando la mayor cantidad de información posible de las muestras que dispone. (Nota: asuma que la varianza del turno mañana es la misma que la del turno tarde, independientemente del resultado obtenido en A.)

Se tiene dos muestras de ambas poblaciones, ambas de tamaño \(n_T=n_M=12\) Siendo las medias desconocidas => \(\upsilon_T=\upsilon_M=11\)

Asumo que \(\sigma_T^2=\sigma_M^2=\sigma^2\), por ende estimo la varianza de la jornada completa con la varianza en Pool (o amalgamada) calculada en el inciso anterior: \(S_{Pool}^2=0.002929\) <=> \(S_{Pool}=0.05412\) Y se tiene que \(\upsilon_{total}=22\)

Intervalo de Confianza del 95% para la varianza de una jornada completa: Nivel de confianza del 95% => \(NC=0.95=1-\alpha\) <=> \(\alpha=0,05\)

\(P(\chi_{\upsilon;\frac{\alpha}{2}}^2 \leq \frac{\upsilon_{total}*S_{Pool}^2}{\sigma^2} \leq \chi_{\upsilon;1-\frac{\alpha}{2}}^2)=NC=0.95\) =>\(P(\frac{\upsilon_{total}*S_{Pool}^2}{\chi_{\upsilon;1-\frac{\alpha}{2}}^2} \leq \sigma^2 \leq \frac{\upsilon_{total}*S_{Pool}^2}{\chi_{\upsilon;\frac{\alpha}{2}}^2})=NC=0.95\)

Calculo los fractiles \(\chi_{\upsilon;\frac{\alpha}{2}}^2=\chi_{22;0.025}^2\) y \(\chi_{\upsilon;1-\frac{\alpha}{2}}^2=\chi_{22;0.975}^2\)

qchisq(0.025, df = 22)
## [1] 10.98232
qchisq(0.975, df = 22)
## [1] 36.78071

=> \(\chi_{22;0.025}^2=10.9823\) y \(\chi_{22;0.975}^2=36.7807\)

Entonces, reemplazando \(IC_{95\%}(\sigma^2)=[0.001752 ; 0.005867]lts^2\) Intervalo de COnfianza del 95% para la varianza de una jornada completa

Graficamente se puede observar la distribución Chi Cuadrado de \((\frac{\upsilon_{total}*S_{Pool}^2}{\sigma^2})\), el área bajo la curva del intervalo de confianza de valor 0.95, sombreada en celeste, entre los fractiles de la Chi Cuadrado \(\chi_{22;0.025}^2=10.9823\) y \(\chi_{22;0.975}^2=36.7807\):

curve(dchisq(x, df=22), from = 0, to = 50, main = "Intervalo de Confianza del 95% para la varianza de una jornada completa", xlab = "Chi Cuadrado con 22 gl", ylab = "Función de Densidad")
polygon(x = c(10.9823, seq(from = 10.9823, to = 36.7807, 0.01), 36.7807), y = c(0, dchisq(seq(10.9823, 36.7807, 0.01), df=22), 0), col = "lightblue")
grid()