Probabilidad y Estadística

4.3 Inferencias basadas en IC para Proporciones

Intervalo de Confianza:

\(\hat{p}-z_{\frac{\alpha }{2}}\sqrt{\frac{p(1-p)}{n}}<p<\hat{p}+z_{\frac{\alpha }{2}}\sqrt{\frac{p(1-p)}{n}}\)
Ejemplo:
Una empresa de servicios de internet estima que el 40% de sus clientes posee el servicio de facturación por cargo automático. En una muestra aleatoria de 100 clientes se encontró que 37 de ellos poseen el servicio. Construya un intervalo de confianza del 95% para la verdadera proporción de clientes suscritos al servicio de facturación por cargo automático. ¿El intervalo parece confirmar la afirmación de la empresa o parece refutarla?

Solución
con \(\hat{p}=\frac{x}{n}=\frac{37}{100}=0.37\) y \(z_{\frac{\alpha }{2}}=1.96\) obtenemos
\(0.37-1.96\sqrt{\frac{(0.37)(1-0.37))}{100}}<p<0.37+1.96\sqrt{\frac{(0.37)(1-0.37))}{100}}\)
\(0.275<p<0.465\)

Como el intervalo contiene a 0.40, parece confirmar la afirmación de la empresa.
Solución alterna: uso de tecnología

prop.test(x = 37, n = 100, alternative = "two.sided", p = 0.40, conf.level = 0.95, correct = FALSE)
## 
##  1-sample proportions test without continuity correction
## 
## data:  37 out of 100, null probability 0.4
## X-squared = 0.375, df = 1, p-value = 0.5403
## alternative hypothesis: true p is not equal to 0.4
## 95 percent confidence interval:
##  0.2818236 0.4677947
## sample estimates:
##    p 
## 0.37

4.4 Determinación de tamaños de muestra.

\(n=\frac{z_{\frac{\alpha }{2}}^{2}p(1-p)}{E^{2}}\)

Se presentan dos casos:

Ejemplo
Se realiza un estudio para determinar la proporción de residentes en una ciudad que están a favor de la construcción de una planta de transferencia de basura.

  1. ¿Qué tan grande deber ser la muestra si se requiere una confianza al menos del 95% de que la estimación estará dentro del 0.04 de la proporción real de residentes que están a favor de la construcción de la planta.
    Solución:
    En este caso usamos \(p=0.5\) en la fórmula para obtener:
    \(n=\frac{1.96^{2}(0.5)(0.5)))}{0.04^{2}}=600.25\)
    que redondeamos a \(n\geq 601\)

  2. A falta de información previa se tomó una muestra preliminar de tamaño 40, resultando que 6 residentes estuvieron a favor de la construcción de la planta. ¿Qué tamaño de muestra se necesita para lograr el grado de precisión deseado en el literal anterior?
    Solución:
    Con \(\hat{p}=\frac{6}{40}=0.15\) obtenemos:
    \(n=\frac{1.96^{2}(0.15)(0.85)}{0.04^{2}}=306.13\)
    que redondeamos a \(n\geq 307\)

4.5 Inferencias sobre medias de una población.

Se distinguen algunos casos:

  1. Cuando se conoce \(\sigma\)
    Ejemplo:
    El voltaje de salida de cierto circuito eléctrico se especifica para que sea 130 V con una desviación estándar de 2.1 V. Una muestra aleatoria de 40 lecturas del voltaje de salida del circuito, tomadas de manera independiente, dieron como resultado un voltaje promedio de 128.6 V. Pruebe la hipótesis de que el voltaje de salida es de 130 V contra la alternativa de que es menor que 130 V. Use un nivel de significancia del 5%.
    Solución:
    Existen dos enfoques para una prueba de hipótesis: el enfoque clásico y el enfoque del valor P. Resolveremos este problema por el enfoque clásico. Podemos seguir los siguientes pasos:
    1. Variable de Interés: \(\mu=\) verdadero voltaje de salida del circuito eléctrico.
    2. Hipótesis nula: \(H_{0}:\mu =130\)
    3. Hipótesis alterna: \(H_{a}:\mu < 130\)
    4. Nivel de significancia: \(\alpha=0.05\)
    5. Estadístico de prueba: \(z=\frac{\bar{x}-\mu }{\frac{\sigma }{\sqrt{n}}}\)
    6. Región de rechazo: \(z\leq -1.645\)
    7. Cálculos: \(z=\frac{128.6-130}{\frac{2.1}{\sqrt{40}}}=-4.22\)
    8. Conclusión: Rechazar \(H_{0}\).
      Hay evidencia que el voltaje de salida podría ser menor que 130 V a un nivel de significancia del 5%.
  2. Cuando no se conoce \(\sigma\)
    Ejemplo:
    Un fabricante de pinturas afirma que pueden pintarse un área de 400 ft2 con su producto. Para probar esta afirmación, se selecciona una muestra aleatoria de 10 galones y se pintan 10 áreas idénticas usando el mismo equipo. Los resultados fueron los siguientes (en \(ft^{2}\))
    310 311 412 368 447 376 303 410 365 350
    ¿Los datos representan evidencia suficiente para contradecir la afirmación del fabricante? Haga la prueba a un nivel de significancia del 5% y suponga una población aproximadamente normal.
    Solución:
    1. Variable de Interés: \(\mu=\) verdadera superficie cubierta
    2. Hipótesis nula: \(H_{0}:\mu =400\)
    3. Hipótesis alterna: \(H_{a}:\mu \neq 400\)
    4. Nivel de significancia: \(\alpha=0.05\)
    5. Estadístico de prueba: \(t=\frac{\bar{x}-\mu }{\frac{s }{\sqrt{n}}}\)
    6. Región de rechazo: \(t\leq -2.262\) y \(t\geqslant 2.262\)
    7. Cálculos: \(t=\frac{365.2-400}{\frac{48.417}{\sqrt{10}}}=-2.273\)
    8. Conclusión: Rechazar \(H_{0}\).
      La evidencia sugiere que la superficie promedio cubierta difiere de 400 \(ft^{2}\) a un nivel de significancia del 5%.

4.6 Inferencias sobre medias de dos poblaciónes.

En este caso se distinguen tres situaciones:

Ejemplo:
Se están analizando dos catalizadores para determinar cuánto afectan el rendimiento de un proceso químico. Específicamente, el catalizador 1 se encuentra en uso actualmente, pero el catalizador 2 es aceptable. Puesto que el catalizador 2 es más barato, debería adoptarse siempre que no cambie el rendimiento del proceso. Se corre una prueba en la planta que dio como resultado los datos que se muestran en la siguiente tabla.

Catalizador 1 Catalizador 2 Catalizador 3
91.50 89.19 82.85
94.18 90.95 94.95
92.18 90.46 87.78
95.39 93.21 89.27
91.79 97.19 97.13
89.07 97.04 96.88
94.72 91.07 104.14
89.21 92.75 94.64

¿Debería adoptarse el catalizador 2? Haga una prueba de hipótesis al nivel de significancia del 5%.
Solución:
La priemera pregunta que surge es ¿a cuál de los tres casos corresponde el problema? descartamos el primero, pues desconocemos las varianzas poblacionales, así que debemos decidir si es el caso de varianzas iguales o diferentes. Un método que podems usar es construir BoxPlots para ambas series de datos lo cual nos dará una idea del comportamiento de las varianzas.

El grafico nos permite concluir que podemos asumir igualdad de varianzas. El procedimiento de prueba es el siguiente:

  1. Variable de Interés: \(\mu_{1}-\mu_{2}\) verdadera diferencia de los rendimientos de ambos catalizadores.
  2. Hipótesis nula: \(H_{0}:\mu_{1}-\mu_{2} =0\)
  3. Hipótesis alterna: \(H_{a}:\mu_{1}-\mu_{2} \neq 0\)
  4. Nivel de significancia: \(\alpha=0.05\)
  5. Estadístico de prueba: \(t=\frac{\bar{x_{1}}-\bar{x_{2}} }{S_{p}\sqrt{1/n_{1}+1/n_{2}}}\)
  6. Región de rechazo: \(t\leq -2.145\) y \(t\geqslant 2.145\)
    1. Cálculos: \(t=\frac{92.255-92.7325}{2.7\sqrt{1/8+1/8}}=-0.354\)
    2. Conclusión: No rechazar \(H_{0}\).
      La evidencia sugiere que los rendimientos de los catalizadores son iguales, por lo que debería adoptarse el catalizador 2, a un nivel de significancia del 5%.

Nota: ¿En qué caso no podemos asumir igualdad de varianzas? al comparar el catalizador 1 con el catalizador 3 resultan los Boxplots siguientes

En este caso no podemos asumir igualdad de varianzas.

4.7 Análisis de Varianza.

Módulo a usar: https://drive.google.com/open?id=1pIebRKYqjqBcWOO2IDiIVE3v6A2VK-cEj2dewI7UOeI (lo mejor es descargarlo y no usarlo en linea)

Ejemplo:
Los datos siguientes resultan de un experimento que compara el grado de impurezas para una varilla de acero con tres diferentes mezclas.

Mezcla 1 0.56 1.12 0.90 1.07 0.94
Mezcla 2 0.72 0.69 0.87 0.78 0.91
Mezcla 3 0.62 1.08 1.07 0.99 0.93

¿Parece haber una diferencia significativa en las mezclas con respecto al grado de impurezas?

Parece ser que las mezclas son indistinguibles con respecto al grado de impurezas.

4.8 Inferencias relacionadas a proporciones.

Ejemplo:
Una empresa de servicios de internet estima que el 40% de sus clientes posee el servicio de facturación por cargo automático. En una muestra aleatoria de 100 clientes se encontró que 37 de ellos poseen el servicio. Haga una prueba a un nivel de 0.05 para confirmar la afirmación de la empresa.
Solución:
1. Variable de Interés: \(p=\) verdadera proporción de clientes suscritos al servicio.
2. Hipótesis nula: \(H_{0}:p=0.40\)
3. Hipótesis alterna: \(H_{a}:p\neq 0.40\)
4. Nivel de significancia: \(\alpha=0.05\)
5. Estadístico de prueba: \(z=\frac{\hat{p}-p_{0}}{\sqrt{\frac{p_{0}(1-p_{0})}{n}}}\)
6. Región de rechazo: \(z\leq -1.96\) y \(z\geqslant 1.96\)

  1. Cálculos: \(z=\frac{37/100-0.40}{\sqrt{\frac{0.40(0.60)}{100}}}=-0.61\)
  2. Conclusión: No rechazar \(H_{0}\).
    La evidencia apoya la afirmación de la empresa

4.9 Inferencias relacionadas a dos proporciones.

Ejemplo:
Se utilizan dos tipos diferentes de máquinas de moldeo por inyeción para fabricar una pieza de plástico. una pieza se considera defectuosa si tiene una contracción excesiva o bien es descolorida. Se seleccionan al azar dos muestras, cada una de tamaño 500. Se encuentran 31 piezas defectuosas en la muestra de la máquina A y 23 piezas para la muestra de la máquina B. ¿Ambas máquinas producen la misma fracción de piezas defectuosas? use un nivel de significancia del 5%.
Solución:
1. Variable de Interés: \(p_{1}-p_{2}=\) verdadera diferencia en las proporciones de piezas defectuosas para ambas máquinas.
2. Hipótesis nula: \(H_{0}: p_{1}-p_{2}=0\)
3. Hipótesis alterna: \(H_{a}:p_{1}-p_{2}\neq 0\)
4. Nivel de significancia: \(\alpha=0.05\)
5. Estadístico de prueba: \(z=\frac{\hat{p_{1}}-\hat{p_{2}}}{\sqrt{\frac{\hat{p_{1}}\hat{q_{1}}}{n_1}+\frac{\hat{p_{2}}\hat{q_{2}}}{n_2}}}\)
6. Región de rechazo: \(z\leq -1.96\) y \(z\geqslant 1.96\)

  1. Cálculos: \(z=\frac{31/500-23/500}{\sqrt{\frac{0.062(0.938)}{500}+{\frac{0.046(0.954)}{500}}}}=1.12\)
  2. Conclusión: No rechazar \(H_{0}\).
    La evidencia sugiere que ambas máquinas producen la misma proporción de piezas defectuosas.