A continuacion añadiremos ciertos conceptos que son necesarios para un más rápido comprendimiento de lo que se realizará en esta unidad.
Hipótesis: Una hipótesis estadística es un enunciado o conjetura acerca de los valores de los parámetros de una población.
Trabajaremos con dos tipos de hipótesis:
Hipótesis Nula: Es un enunciado que especifica un valor particular para el parámetro que se estudia. (\(H_o\))
Hipótesis Alterna: es una declaración sobre el cambio de la hipótesis nula que el investigador está interesado en comprobar. (\(H_a\))
Conclusión de una prueba: al realizar una prueba de hipótesis son posibles dos conclusiones: Rechazar \(H_o\)/No rechazar \(H_o\)
Región de Rechazo: (o región crítica) es el conjunto de valores del estadístico de prueba que conducen al rechazo de la hipótesis nula.
Valor Crítico: es la frontera entre la región de rechazo y no rechazo.
Tipos de Pruebas: En general los procedimientos de pruebas que podemos realizar son de tres tipos (\(Z_o\) es el valor crítico)
Prueba de dos colas:
\(H_o:μ = μ_o\)
\(H_a:μ \neq μ_o\)
Prueba de cola superior:
\(H_o:μ = μ_o\)
\(H_a:μ > μ_o\)
Prueba de cola inferior:
\(H_o:μ = μ_o\)
\(H_a:μ < μ_o\)
En este sentido una prueba de hipótesis no es una prueba concluyente y está sujeta a que se cometan dos tipos de errores:
Error tipo I: Rechazar la hipótesis nula, cuando de hecho es verdadera.
\(α\) \(=P\)(\(Error\) \(tipo\) \(I\))\(=P\)(\(rechazar\) \(H_o\)|\(H_o\) \(es\) \(verdadera\))
Error tipo II: No rechazar la hipótesis nula, cuando de hecho es falsa.
\(β\) \(=P\)(\(Error\) \(tipo\) \(II\))\(=P\)(\(no\) \(rechazar\) \(H_o\)|\(H_o\) \(es\) \(falsa\))
Potencia de una prueba: es la probabilidad de rechazar cuando en realidad es falsa.
\(Potencia\) \(= 1-β\) \(= P\)(\(rechazar\) \(H_o\) | \(H_o\) \(es\) \(falsa\))
Inferencias Basadas en una muestra
“Procedimientos de Prueba para la Media Poblacional.”
“Caso I: Una población normal con \(\sigma\) conocida”.
"Supuesto: Población aproximadamente normal y \(\sigma\) conocida. Muestra grande o pequeña. En este caso: \[{\overline{X}}-N(\mu,\frac{\sigma^2}{n})\]
Hipótesis nula: \[H_o:μ = μ_o\] Estadístico de prueba: \[z= \frac{\overline{x}- μ_o}{\sqrt{\sigma/n}}\]
| Hipótesis Alterna | Región de Rechazo |
|---|---|
| \(H_a:μ > μ_o\) | \(Z ≥ Z_\alpha\) |
| \(H_a:μ < μ_o\) | \(Z ≤ -Z_\alpha\) |
| \(H_a:μ ≠ μ_o\) | \(Z ≤ -Z_\frac{\alpha}{2}\) \(ó\) \(Z≥Z_\frac{\alpha}{2}\) |
Ejemplo 1:
El voltaje de salida de cierto circuito eléctrico se especifica para que sea 130 V con una desviación estándar de 2.1 V. Una muestra aleatoria de 40 lecturas del voltaje de salida del circuito, tomadas de manera independiente, dieron como resultado un voltaje promedio de 128.6 V.Pruebe la hipótesis de que el voltaje de salida es de 130 V contra la alternativa de que es menor que 130 V.Use un nivel de significancia del 5%.
SOLUCION:
“Párametro de interés: \(μ=\)voltaje de salida verdadero”
“\(H_o:\) \(μ=130\)”
“\(H_a:\) \(μ<130\)”
“Nivel de significancia (α)=\(0.05\)”
“Estadístico de prueba:” \(z= \frac{\overline{x}- μ_o}{\sqrt\frac{\sigma}{n}}\)
Datos:
\(\overline{x}=128.6\)
\(\mu_o=130\)
\(\sigma=2.1\)
\(n=40\)
Función a utilizar Estadistico de prueba
Argumentos:
mu = 130
n = 40
mean= 128.6
sigma= 2.1
(Estadistico = (mean - mu) / (sigma / sqrt(n)))
## [1] -4.21637
(pValor = 1 - pnorm(Estadistico))
## [1] 0.9999876
alfa=0.05
(zAlfa = qnorm(1- alfa))
## [1] 1.644854
“Conclusión: Rechazar \(H_o\). Hay evidencia que el voltaje de salida podría ser menor que 130V a un nive de significancia del 5%”
“Caso II: Muestra grande con \(\sigma\) desconocida”.
"Supuesto: Tamaño de muestra suficientemente grande para garantizar que: \[{\overline{x}}-N(\mu,\frac{\sigma^2}{n})\]
Hipótesis nula: \[H_o:μ = μ_o\] Estadístico de prueba: \[z= \frac {\overline{x}- μ_o}{\sqrt\frac{s}{n}}\]
| Hipótesis Alterna | Región de Rechazo |
|---|---|
| \(H_a:μ > μ_o\) | \(Z ≥ Z_\alpha\) |
| \(H_a:μ < μ_o\) | \(Z ≤ -Z_\alpha\) |
| \(H_a:μ \neq μ_o\) | \(Z ≤ -Z_\frac{\alpha}{2}\) \(ó\) \(Z≥Z_\frac{\alpha}{2}\) |
Ejemplo 2:
Un laboratorio ofrece frascos de agua oxigenada de \(100cm^3\). Se toma una muestra aleatoria de 144 frascos y se encuentra que el volumen medio en la muestra es de \(101cm^3\) con una desviación estándar de \(4 cm^3\). ¿La evidencia muestral sugiere un aumento en el volumen de agua oxigenada de los frascos? Realice la prueba a un nivel de significancia del 5%.
SOLUCION:
“Párametro de interés: \(μ=\)verdadero volumen de agua oxigenada de los frascos”
“\(H_o:\) \(μ=100\)”
“\(H_a:\) \(μ>100\)”
“Nivel de significancia (α)=\(0.05\)”
"Estadístico de prueba:\(z= \frac{\overline{x}- μ_o}{\sqrt\frac{s}{n}}\)
\(Datos:\)
\(\overline{x}=101\)
\(\mu_o=100\)
\(n=144\)
\(s=4\)
Función a utilizar Estadistico de prueba
Argumentos:
mu = 100
n = 144
mean= 101
sigma= 4
(Estadistico = (mean - mu) / (sigma / sqrt(n)))
## [1] 3
(pValor = 1 - pnorm(Estadistico))
## [1] 0.001349898
alfa=0.05
(zAlfa = qnorm(1- alfa))
## [1] 1.644854
“Conclusión: Rechazar \(H_o\). Hay evidencia que el voltaje de salida podría ser menor que 130V a un nive de significancia del 5%”
“Caso III: Una población normal con \(\sigma\) desconocida y muestra pequeña”.
Hipótesis nula: \[H_o:μ = μ_o\] *Estadístico de prueba: \[t= \frac {\overline{x}- μ_o}{\sqrt\frac{s}{n}}\]
| Hipótesis Alterna | Región de Rechazo |
|---|---|
| \(H_a:μ > μ_o\) | \(t ≥ t_\alpha\) |
| \(H_a:μ < μ_o\) | \(t ≤ -t_\alpha\) |
| \(H_a:μ ≠ μ_o\) | \(t ≤ -t_\frac{\alpha}{2}\) \(ó\) \(t ≥ t_\frac{\alpha}{2}\) |
Ejemplo 3:
Un fabricante de pinturas afirma que puede pintarse un área de \(400 ft^2\) con su producto. Para probar esta afirmación, se selecciona una muestra aleatoria de 10 galones y se pintan 10 áreas idénticas usando el mismo equipo.Los resultados fueron los siguientes (en \(ft^2\))
| 310 | 311 | 412 | 368 | 447 |
|---|---|---|---|---|
| 376 | 303 | 410 | 365 | 350 |
¿Los datos representan evidencia suficiente para contradecir la afirmación del fabricante? Haga la prueba a un nivel de significancia del 5%.
SOLUCION:
“Párametro de interés: \(μ=\)verdadera superficie cubierta con la pintura”
“\(H_o:\) \(μ=400\)”
“\(H_a:\) \(μ\neq400\)”
“Nivel de significancia (α)=\(0.05\)”
Estadístico de prueba: \[t= \frac {\overline{x}- μ_o}{\sqrt\frac{s}{n}}\]
\(Datos:\)
\(\overline{x}=365.2\)
\(\mu_o=400\)
\(s=48.417\)
\(n=10\)
Función a utilizar t.test()
Argumentos:
data<- c(310,311,412,368,447,376,303,410,365,350)
boxplot(data, vertical = TRUE, main="Superficie cubierta por la pintura",col="blue")
areas<-c(310,311,412,368,447,376,303,410,365,350)
t.test(areas, y= NULL, alternative = "two.sided",mu=0,conf.level=0.95)
##
## One Sample t-test
##
## data: areas
## t = 23.853, df = 9, p-value = 1.911e-09
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
## 330.5648 399.8352
## sample estimates:
## mean of x
## 365.2
qt(0.025,9,lower.tail = FALSE)
## [1] 2.262157
“Conclusión: Rechazar \(H_o\). La evidencia sugiere que la superficie cubierta promedio difiere de \(400ft^2\) a un nivel de significancia del 5%”
Inferencias Basadas en dos Muestra
“Procedimientos de Prueba para la Diferencia de Medias.”
“Caso I: Poblaciones Normales con Varianzas Conocidas”.
Hipótesis nula: \[ H_o: μ_1 − μ_2 = \Delta_0 \] Estadístico de prueba: \[z= \frac {\overline{x_1}- \overline{x_2}-\Delta_o}{\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}}}\]
| Hipótesis Alterna | Región de Rechazo |
|---|---|
| \(H_a:μ_1 − μ_2 > ∆_0\) | \(Z ≥ Z_\alpha\) |
| \(H_a:μ_1 − μ_2 < ∆_0\) | \(Z ≤ -Z_\alpha\) |
| \(H_a:μ_1 − μ_2 \neq∆_0\) | \(Z ≤ -Z_\frac{\alpha}{2}\) \(ó\) \(Z ≥ z_\frac{\alpha}{2}\) |
Ejemplo 4:
Un ingeniero químico está interesado en reducir el tiempo de secado de cierto tipo de pintura. Se prueban dos formulaciones. La primera es la formulación tradicional que durante muchos años han usado y cuyo tiempo de secado tiene una desviación estándar de 8 minutos. A esta formulación se le agregará un nuevo ingrediente que se supone reducirá el tiempo de secado sin afectar la variabilidad de estos. Se pintan 10 especímenes con cada una de las formulaciones en orden aleatorio resultando en tiempos promedios de secado de \(\overline{x_1}=121\) minutos y \(\overline{x_2} = 112\) minutos. ¿Qué conclusión puede obtener el ingeniero a cerca de la efectividad del nuevo ingrediente? Use un nivel de significancia de 0.05. Suponga normalidad.
SOLUCION:
“Párametro de interés: \(μ_1 − μ_2=\)verdadera diferencia en los tiempos de secado”
“\(Ho:\) \(μ_1 − μ_2=0\)”
“\(Ha:\) \(μ_1 > μ_2\)”
“Nivel de significancia (α)=\(0.05\)”
"Estadístico de prueba: \[z= \frac {\overline{x_1}- \overline{x_2}-\Delta_o}{\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}}}\]
\(Datos:\)
\(\overline{x_1}=121\)
\(\overline{x_2}=112\)
\(\sigma_1^2=\sigma_2^2=64\)
\(\Delta_o=0\)
\(n_1=n_2= 10\)
n = 10
sigma= 64
mean=9
mu=0
(Estadistico = (mean-mu)/sqrt((sigma / (n))+(sigma / (n))))
## [1] 2.515576
(pValor = 1 - pnorm(Estadistico))
## [1] 0.005941895
alfa=0.05
(zAlfa = qnorm(1- alfa))
## [1] 1.644854
“Conclusión: Rechazar \(H_o\). El ingeniero puede concluir a un nivel de 0.05, que añadir el nuevo ingrediente reduce signficativamente el tiempo de secado”
“Caso II: Poblaciones Normales con Varianzas Desconocidas pero Iguales”.
Hipótesis nula: \[ H_0: μ_1 − μ_2 = \Delta_0 \] Estadístico de prueba: \[t= \frac {\overline{x_1}- \overline{x_2}-\Delta_o}{S_p\sqrt{\frac{1}{n_1}+\frac{2}{n_2}}}\]
| Hipótesis Alterna | Región de Rechazo |
|---|---|
| \(H_a:μ_1 − μ_2 > ∆_0\) | \(t ≥ t_\alpha,v\) |
| \(H_a:μ_1 − μ_2 < ∆_0\) | \(t ≤ -t_\alpha,v\) |
| \(H_a:μ_1 − μ_2 \neq ∆_0\) | \(t ≤ -t_\frac{\alpha}{2},v\) \(ó\) \(t ≥ t_\frac{\alpha}{2},v\) |
Donde: \(S_p^2 =\frac{(n_1−1)s_1^2+(n_2−1)s_2^2}{n_1+n_2−2}\) y \[v=n_1+n_2-2\]
Función a utilizar t.test()
Argumentos:
Ejemplo 5:
El diseñador de una nueva máquina de chapado asegura que su nuevo diseño es más rápido que la máquina que actualmente se usa. Se probaron nueve muestras aleatorias de manera independiente de cada máquina resultando en la siguiente información:
| . | \(Máquina\) \(actual\) | \(Nuevo\) \(diseño\) |
|---|---|---|
| \(n\) | \(9\) | \(9\) |
| \(\overline{x}\) | \(35.22\) | \(31.56\) |
| \(s^2\) | \(24.44\) | \(20.03\) |
A un nivel del 5%, ¿Puede apoyarse la afirmación del diseñador? Suponga poblaciones normales con varianzas iguales.
SOLUCION:
“Párametro de interés: \(μ_1 − μ_2=\)verdadera diferencia en los tiempos de chapado.”
“\(H_o:\) \(μ_1 = μ_2\)”
“\(H_a:\) \(μ_1 > μ_2\)”
“Nivel de significancia \((α)=0.05\)”
"Estadístico de prueba: \(z = \frac{\overline{x1}−\overline{x2}−\Delta_0}{S_p\sqrt{\frac{1}{n_1}+\frac{2}{n_2}}}\)
\(Datos:\)
\(\overline{x_1}= 35.22\)
\(\overline{x_1}= 31.56\)
\(\Delta_0= 0\)
\(S_p= 4.72\)
\(n_1=n_2= 9\)
n_1 <- c(1,2,3,4,5,6,7,8,9)
n_2 <- c(1,2,3,4,5,6,7,8,9)
t.test(n_1,n_2,alternative = "less",mu=3.66,var.equal =FALSE,conf.level=0.05)
##
## Welch Two Sample t-test
##
## data: n_1 and n_2
## t = -2.835, df = 16, p-value = 0.005973
## alternative hypothesis: true difference in means is less than 3.66
## 5 percent confidence interval:
## -Inf -2.253926
## sample estimates:
## mean of x mean of y
## 5 5
qt(0.05,16,lower.tail = FALSE)
## [1] 1.745884
n_1 <- c(1:9)
n_2 <- c(1:9)
boxplot(n_1,n_2, vertical = TRUE, main="Pruebas a las máquinasl",col="green")
“Conclusión: No Rechazar \(H_0\). No se puede apoyar la afirmación del diseñador a un nivel de significancia de 0.05”
“Caso III: Poblaciones Normales con Varianzas Desconocidas y Diferentes”.
Hipótesis nula: \[ H_0: μ1 − μ_2 = ∆_0 \] Estadístico de prueba: \[t= \frac{\overline{x1}−\overline{x2}−\Delta_0}{\sqrt{\frac{s_1^2}{n_1}+\frac{s_2^2}{n_2}}}\]
| Hipótesis Alterna | Región de Rechazo |
|---|---|
| \(H_a:μ_1 − μ_2 > ∆_0\) | \(t ≥ t_\alpha,v\) |
| \(H_a:μ_1 − μ_2 < ∆_0\) | \(t ≤ -t_\alpha,v\) |
| \(H_a:μ_1 − μ_2 \neq ∆_0\) | \(t ≤ -t_\frac{\alpha}{2},v\) \(ó\) \(t ≥ t_\frac{\alpha}{2},v\) |
Donde: \(v =\frac{{(\frac{s_1^2}{n_1}+\frac{s_2^2}{n_2})^2}}{\frac{(s_1^2/n_1)^2}{n_1-1}+\frac{(s_2^2/n_2)^2}{n_2-1}}\) \(grados\) \(de\) \(libertad\)
Ejemplo 6:
Se analizan los contenidos de cajas de cereal llenados por dos líneas de producción diferentes con el objetivo de determinar si existe diferencia entre ellos. Los resultados son los siguientes:
| Observación | Línea 1 | Línea 2 |
|---|---|---|
| 1 | 5.83 | 3.38 |
| 2 | 5.66 | 2.81 |
| 3 | 4.75 | 7.00 |
| 4 | 3.00 | 1.50 |
| 5 | 3.37 | 5.88 |
| 6 | 3.63 | 5.25 |
| 7 | 4.00 | 4.08 |
| 8 | 4.63 | 7.63 |
| 9 | 4.25 | 4.50 |
| 10 | 4.13 | 4.88 |
¿Qué se puede concluir a cerca de los contenidos promedio de ambas líneas de producción? Use \(\alpha = 0.05\)
SOLUCION:
“Párametro de interés: \(μ_1 − μ_2=\)verdadera diferencia en los contenidos de las lineas de produccion”
“\(H_o:\) \(μ_1 - μ_2 =0\)”
“\(H_a:\) \(μ_1 - μ_2 \neq 0\)”
“Nivel de significancia \((α)=0.05\)”
"Estadístico de prueba: \(t= \frac{\overline{x1}−\overline{x2}−\Delta_0}{\sqrt{\frac{s_1^2}{n_1}+\frac{s_2^2}{n_2}}}\)
\(Datos:\)
\(\overline{x_1}= 4.325\)
\(\overline{x_2}= 4.691\)
\(\Delta_0= 0\)
\(S_1^2= 0.847\)
\(S_2^2=3.509\)
\(n_1=n_2= 8\)
Función a utilizar t.test()
Argumentos:
linea_1 <- c(5.83,5.66,4.75,3.00,3.37,3.63,4.00,4.63,4.25,4.13)
linea_2 <- c(3.38,2.81,7.00,1.50,5.88,5.25,4.08,7.63,4.50,4.88)
t.test(linea_1,linea_2,alternative = "two.sided",mu=0,var.equal = FALSE,conf.level=0.95)
##
## Welch Two Sample t-test
##
## data: linea_1 and linea_2
## t = -0.55457, df = 13.105, p-value = 0.5885
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## -1.790635 1.058635
## sample estimates:
## mean of x mean of y
## 4.325 4.691
qt(0.025,13,lower.tail = FALSE)
## [1] 2.160369
linea_1 <- c(5.83,5.66,4.75,3.00,3.37,3.63,4.00,4.63,4.25,4.13)
linea_2 <- c(3.38,2.81,7.00,1.50,5.88,5.25,4.08,7.63,4.50,4.88)
boxplot(linea_1,linea_2, vertical = TRUE, main="Contenido de cajas de cereal",col="red")
“Conclusión: No rechazar \(H_0\). No existe una fuerte evidencia, a un nivel de 0.05, que indique que los contenidos depositados por las líneas difieran.”