Pruebas de Significancia Estadística Paramétrica
La hipótesis es una conjetura educada, posible respuesta o una declaración predictiva que puede ser probada por métodos científicos. Puede suponerse, por ejemplo, que se tienen los salarios de hombres y mujeres de una población, a partir de este hecho es factible formular dos hipótesis: la primera, que los salarios son iguales; la segunda, que no lo son. Así, se tiene una hipótesis nula o 𝐻0, que representa la igualdad, y la hipótesis alternativa o 𝐻1,, que representa la desigualdad , aquí se analizarán las pruebas de significación paramétrica, tales como la prueba T. Esta se desarrollará según el tipo de muestra, ya que puede encontrarse con una sola, dos muestras independientes, dos muestras relacionadas, etc.
Conceptos Previos
Prueba de Hipótesis
Una prueba de hipótesis es un procedimiento basado en evidencias de las muestras y la teoría de las probabilidades usadas para determinar la hipótesis. Es una declaración razonable y no debe ser rechazada, a menos que ésta sea irrazonable.
Tipo de Hipótesis
Existen dos tipos de estadística:
- Hipótesis Nula Ho: Es la que el investigador trata de refutar.
- Hipótesis Alternativa H1: Es la que el investigador quiere probar.
Nivel de Confianza
Es la probabilidad que el intervalo de confianza posea el valor de la variable estadística 1 − 𝛼. En esta región se encuentran los valores compatibles con la hipótesis nula. Si el estadístico de prueba o contraste cae en esta zona, se acepta 𝐻0.
Nivel de Significancia
Es la probabilidad de que el intervalo de confianza no contenga el valor de la variable estadística, se le define como 𝛼. En esta región se encuentran los valores incompatibles con la hipótesis nula. Si el estadístico de prueba o contraste cae en esta zona, se rechaza 𝐻0 y se acepta 𝐻1.El nivel de significancia, entonces, puede considerarse también como la probabilidad de rechazar la hipótesis nula cuando es verdadera.
Tipos de Errores
Al tomar una decision sobre una muestra aleatoria, se pueden cometer 2 errores.
- Error Tipo-I, que es rechazar \(H_0\) siendo verdadera
\[\alpha = P(\text{Error tipo-I}) \]
- Error Tipo-II, que es aceptar \(H_0\) siendo falsa \[\beta = P(\text{Error tipo-II}) \]
Se busca | ||
---|---|---|
Se eligió | \(H_0\) | \(H_1\) |
\(H_0\) | \(1-\alpha\) | Desición correcta |
\(H_1\) | Desición correcta | \(1-\beta\) |
Estadística de Prueba
Es un estadístico que se deriva del estimador puntual del parámetro que se esté probando. En él se basa la decisión de rechazar o no la Hipótesis nula. Por Ejemplo: \[ Z=\frac{\overline{x}-\mu_{0}}{\frac{\sigma}{\sqrt{n}}} \] ## Valor Crítico
Un valor crítico es un punto en la distribución del estadístico de prueba bajo la hipótesis nula que define un conjunto de valores que apoyan el rechazo de 𝐻0 (región crítica). Asimismo, puede considerarse al valor crítico como el límite entre las regiones de aceptación y de rechazo.
Prueba T para una Muestra
Procedimiento:
- Indicar cuál es la hipótesis nula y cuál la alternativa.
Una cola | Dos colas |
---|---|
\(H_{0}:\mu\leq\mu_{0}\) | \(H_{0}:\mu=\mu_{0}\) |
\(H_{1}:\mu>\mu_{0}\) | \(H_{1}:\mu \not= \mu_0\) |
Seleccionar el nivel de significancia.
Indicar el estadístico de prueba.
\[ T_{calculado}=T=\frac{\overline{X}-\mu_0}{\frac{S}{\sqrt{N}}} \] Considerando que tiene 𝜈 = 𝑁 − 1 grados de libertad.
- Indicar la regla de decisión. Región de rechazo:
Prueba de una cola | |
---|---|
\(T>T_{(\alpha,v)} \text{--} T< -T_{(\alpha,v)}\) | \(T>T_{(\frac{\alpha}{2},v)}\text{--}<-T_{(\frac{\alpha}{2},v)}\) |
Hallar el T crítico.
Rechazar o aceptar la hipótesis nula.
Ejemplo: Una cola
Para comprender el procedimiento de una prueba de hipótesis de una cola se usará el siguiente ejemplo:
Una empresa conocida quiere mejorar sus ventas. Los datos de ventas anteriores indican que la venta promedio fue de USD 100 por transacción. Después de capacitar a sus trabajadores, los datos de ventas recientes (tomados de una muestra de 25 vendedores) indican una nueva venta promedio de USD 130, con una desviación estándar de USD 15. ¿Funcionó la capacitación? Realizar una prueba de hipótesis con 𝛼 = 5%.
Solución:
Se obtendrá la respuesta siguiendo los pasos presentados a continuación.
Indicar cuál es la hipótesis nula y cuál la alternativa. 𝐻0: 𝜇 = USD 100 es la venta promedio por transacción;y 𝐻1: 𝜇 > USD100 es el objetivo, aumentar las ventas.
Seleccionar el nivel de significancia. El ejemplo indica que el nivel de significancia es α = 5% = 0.05
Indicar el estadístico de prueba. Como se trata de una población pequeña y se desconoce la desviación, se usará 𝑡 − 𝑆𝑡𝑢𝑑𝑒𝑛𝑡: \[ t=\frac{\overline{X}-\mu}{\frac{S}{\sqrt{N}}} \] Se tiene:
- 𝑁 = 25 (número de observaciones: muestra de vendedores)
- 𝑥̅ = $130 (media muestral)
- 𝜇 = $100 (media de la población)
- 𝑆 = $15 (desviación estándar muestral)
Reemplazando:
\[ T_{calculado}=T=\frac{130-100}{\frac{15}{\sqrt{25}}}=\frac{30}{\frac{15}{5}}=10 \] 4.- Indicar la regla de desición:
Región de rechazo: \[ T>T_{(\alpha,v)}---T<-T_{(\alpha,v)} \] Si el valor calculado del estadístico de prueba queda localizado dentro de la región crítica, se rechazará 𝐻0. En caso contrario, no podrá rechazar 𝐻0.
5.- Hallar el “t” crítico.
N = 25<30, el grado de libetad es \(v\)=25-1=24. Como: \[ T_{crítico})T_{0.05,24}=1.7109 \] La mayoría de los valores deben ser menores a \(T_{crítico}\).
6.- Rechazar o aceptar la hipótesis nula.
Como \(T_{crítico}<T_{calculado}\), entonces se rechaza la hipótesis nula \(H_{0}\)
En R, Primero realizamos los pasos:
Paso 1:
- \(H_0: \mu= USD 100\)
- \(H_1: \mu> USD 100\)
Paso 2:
\(\alpha = 0.05\)
Paso 3: Estadístico de prueba
\[ t=\frac{\overline{X}-\mu}{\frac{S}{\sqrt{n}}} \] En R:
n<-25
media.muestral<-130
media.poblacional<-100
desviacion<-15
T.calculado<-(media.muestral-media.poblacional)/(desviacion/sqrt(n))
paste('El valor del T.calculado es ',T.calculado)
## [1] "El valor del T.calculado es 10"
Paso 4: Regla de desición
Si T.calculado \(\leq\) T.crítico se acepta \(H_{0}\) Si T.calculado > T.crítico se rechaza \(H_{0}\)
Paso 5: Comparar el valor estadístico de la prueba En R:
alpha<-0.05
T.critico<-qt(alpha,n-1,lower.tail = F)
paste("El valor del T.critico es",format(T.critico,digits = 5))
## [1] "El valor del T.critico es 1.7109"
Paso 6: Rechazar o aceptar la Hipótesis nula En R:
if (T.calculado>T.critico){
paste("Se rechaza la hipótesis nula H0.")
}else{paste("Se acepta la hipótesis nula H0.")}
## [1] "Se rechaza la hipótesis nula H0."
Como se rechaza la hipótesis nula podemos decir que: El entrenamiento de venta fue probablemente un éxito.
x<-seq(-11,11, by=0.01)
fx<-dt(x, n-1)
plot(x, fx, main="Distribución t-student,", type="l")
lines(c(T.critico,T.critico),c(0,0.4),col="red",lty=2)
lines(c(T.calculado,T.calculado),c(0,0.4),col="blue")
Es decir, es muy probable que la venta media sea mayor. El entrenamiento de venta fue probablemente un éxito.
Prueba T para dos muestras independientes
- Indicar cuál es la hipótesis nula y cuál la alternativa.
Una cola | Dos colas |
---|---|
\(H_{0}:\mu_{1}\leq\mu_{2}\) | \(H_{0}:\mu_{1}=\mu_{2}\) |
\(H_{1}:\mu_{1}>\mu_{2}\) | \(H_{1}:\mu_{1} \not= \mu_2\) |
Seleccionar el nivel de significancia.
Indicar el estadístico de prueba.
Varianzas iguales | Varianzas diferentes |
---|---|
\(T=\frac{\overline{x_{1}}-\overline{x_{2}}}{S_{x_{1}x_{2}}\sqrt{\frac{1}{N_{1}}+\frac{1}{N_{2}}}}\) | \(T=\frac{\overline{x_{1}}-\overline{x_{2}}}{\sqrt{\frac{s_{1}^{2}}{N_{1}}+\frac{s_{2}^{2}}{N_{2}}}}\) |
\(v=N_{1}+N_{2}-2\) | \(v=\frac{(\frac{S_{1}^{2}}{N_1}+\frac{S_{2}^{2}}{N_2})^2}{\frac{(\frac{S_{1}^{2}}{N_1})^2}{N_1-1}+\frac{(\frac{S_{2}^{2}}{N_2})^2}{N_2-1}}\) |
Considerando que tiene 𝜈 grados de libertad y desviaciones desconocidas`Donde:
* $S_{x_1,x_2}=\sqrt{\frac{(N_1-1)S_{x_1}^{2}+(N_2-1)S_{x_2}^{2}}{N_1+N_2-2}}$
* \(N_1\) es el número de participantes del primer grupo. * \(N_2\) es el número de participantes el segundo grupo. * \(\overline{x_1}\) es la muestra de la primera variable. * \(\overline{x_2}\) es la muestra de la segunda variable.
- Indicar la regla de decisión.
Región de rechazo: {* Prueba de una cola: \(T>T_{(\alpha,v)}---T<-T_{(\alpha,v)}\) * Prueba de cos colas: \(T>T_{(\frac{\alpha}{2},v)}---T<-T_{(\frac{\alpha}{2},v)}\)
Comparar el valor estadístico de la prueba.
Rechazar o aceptar la hipótesis nula.
Ejemplo: Dos colas
Se tienen los pesos de 15 tomates obtenidos con fertilización química y 15 tomates con fertilización orgánica. Realizar una prueba T para analizar si existe diferencia estadística entre las medidas, considerando que las varianzas de ambos son iguales.
Peso (g) Químico | Peso (g) Orgánico |
---|---|
62.48 | 55.28 |
62.98 | 53.2 |
61.2 | 52.4 |
59.89 | 51.23 |
62.76 | 52.3 |
60.98 | 54.3 |
55.79 | 59.3 |
58.38 | 58.7 |
59.4 | 56.7 |
56.09 | 61.2 |
63.28 | 59.3 |
60.89 | 61.3 |
57.21 | 48.6 |
61.3 | 59.3 |
63.4 | 58.6 |
Solución:
Se obtendrá la respuesta siguiendo los pasos indicados. Como se trata de poblaciones distintas, las muestras serán independientes.
- Indicar cuál es la hipótesis nula y cuál la alternativa. \[ H_0:\mu_1=\mu_2 \\ H_1:\mu_1\not=\mu_2 \]
- Seleccionar el nivel de significancia. \[ \alpha =0.05 \] 3.- Indicar el estadístico de prueba.
- \(\overline{x_1}=60.402\)
- \(\overline{x_2}=56.114\)
- \(S_{x_1}^{2}=6.5156\)
- \(S_{x_2}^{2}=15.5397\)
\[ S_{x_1,x_2}=\sqrt{\frac{1}{2}(s_{x_1}^{2}+s_{x_2}^{2})}=3.3208 \\ T_calculado=T=\frac{60.402-56.114}{3.320*\sqrt{\frac{2}{15}}} = 3.5362 \\ v=2N-2=28 \] 4. Indicar la regla de decisión. \[ T_{(0.025,28)}=2.0484 \] Prueba de rechazo: \[ T_{calculado}>T_{(0.025,28)}--T_{calculado}<-T_{(0.025,28)} \] 5. Comparar el valor estadístico de la prueba. \[ 3.5362>2.0484 (Verdadero) \\ 3.5362< -2.0484 (Falso) \] 6. Rechazar o aceptar la hipótesis nula.
Se rechaza la hipótesis nula Ho; es decir, la variable es significativa.
En R: Para el T-student
x<-c(62.48,62.98,61.2,59.89,62.76,60.98,55.79,58.38,59.4,56.09,63.28,60.89,57.21,61.3,63.4)
y<-c(55.28,53.2,52.4,51.23,52.3,54.3,59.3,58.7,56.7,61.2,59.3,61.3,48.6,59.3,58.6)
alpha<-0.05
res<-t.test(x, y,alternative = "two.sided",
mu=0,paired=F,var.equal = T,
conf.level = 1-alpha)
res
##
## Two Sample t-test
##
## data: x and y
## t = 3.5363, df = 28, p-value = 0.001434
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## 1.804139 6.771861
## sample estimates:
## mean of x mean of y
## 60.402 56.114
Grados de Libertad: \[ v=N_1+N_2-2=15+15-2=28 \]
## [1] "El valor de t estadístico es 3.5363"
## [1] "P(T<=t) de dos colas es 0.0014344 (p-value)"
paste('Lo valores críticos son', format(qt(alpha/2,res$parameter,lower.tail = T),digits = 5),
"y",format(qt(alpha/2,res$parameter,lower.tail = F),digits = 5))
## [1] "Lo valores críticos son -2.0484 y 2.0484"
x<-seq(-7,7,by=0.01)
fx2<-dt(x,res$parameter)
valores.criticos<-c(qt(alpha/2,res$parameter),qt(alpha/2,res$parameter,lower.tail = F))
plot(x,fx2,main="Distribución T-Student",type="l")
lines(c(valores.criticos[1],valores.criticos[1]),c(0,0.4),col="red",lty=2)
lines(c(valores.criticos[2],valores.criticos[2]),c(0,0.4),col="red",lty=2)
lines(c(res$statistic,res$statistic),c(0,0.4),col="blue")
Prueba T para Muestras Relacionadas
Procedimiento
1.- Lo primero que debes hacer es indicar cuál es la hipótesis nula e hipótesis alternativa.
Una cola | Dos colas |
---|---|
\(H_{0}:\mu_{1}\leq\mu_{2}\) | \(H_{0}:\mu_{1}=\mu_{2}\) |
\(H_{1}:\mu_{1}>\mu_{2}\) | \(H_{1}:\mu_{1} \not= \mu_2\) |
2.- Luego indicar el nivel de significancia.
3.- Indicar el estadístico de prueba. \[ T_{calculado}=T=\frac{\overline{x_1}-\overline{x_2}}{\frac{S_p}{\sqrt{n}}} \] Donde:
- \(n\) es el tamaño de la muestra (menor a 30).
- \(\overline{x_1}\) es la muestra de la primera variable.
- \(\overline{x_2}\) es la muestra de la segunda variable.
- \(S_D\) es la desviación estándar de la diferencia de las variables.
Además, debe considerar que se tiene \(v=n-1\) grados de libertad.
- Indicar la regla de desición:
Región de rechazo:
Región de rechazo: {* Prueba de una cola: \(T>T_{(\alpha,v)}---T<-T_{(\alpha,v)}\) * Prueba de cos colas: \(T>T_{(\frac{\alpha}{2},v)}---T<-T_{(\frac{\alpha}{2},v)}\)
Comparar el valor estadístico de la prueba.
Rechazar o aceptar la hipótesis nula.
Ejemplo (Dos colas)
Se tiene registrado los pesos de 13 personas en la siguiente tabla (julio y agosto). Realizar una prueba T.
Julio(kg) | Agosto(Kg) |
---|---|
56.7 | 55.7 |
55.8 | 53.8 |
70.5 | 67.5 |
68.2 | 67 |
70.6 | 69.5 |
67.4 | 66.6 |
59.5 | 68.5 |
78.5 | 76.5 |
67.9 | 64.9 |
76.4 | 75.2 |
86.3 | 85.2 |
79.7 | 78.9 |
80.3 | 77.3 |
Solución
Los datos son que \(\alpha\) es 0.05 y \(n\) es 13. El contraste bilateral sería: \[ H_0:\mu_1=\mu_2 \\ H_1:\mu_1\not = \mu_2 \] El estadístico de prueba: \[ t=\frac{\overline{x_1}-\overline{x_2}}{\frac{s_D}{\sqrt{n}}} \] Se hallan dichos valores:
Julio(kg) | Agosto(Kg) | D |
---|---|---|
56.7 | 55.7 | -1 |
55.8 | 53.8 | -2 |
70.5 | 67.5 | -3 |
68.2 | 67 | -1.2 |
70.6 | 69.5 | -1.1 |
67.4 | 66.6 | -0.8 |
59.5 | 68.5 | -1 |
78.5 | 76.5 | -2 |
67.9 | 64.9 | -3 |
76.4 | 75.2 | -1.2 |
86.3 | 85.2 | -1.1 |
79.7 | 78.9 | -0.8 |
80.3 | 77.3 | -3 |
\(\overline{x_1}=70.6\) | \(\overline{x_2}=68.96\) | \(S_D=0.86\) |
Reemplazando eso en el estadístico de prueba: \[ T_{calculado}=T=\frac{70.6-68.69}{\frac{0.86}{\sqrt{13}}} = 6.7866 \] Se hallan los grados de libertad: \[ v=13-1=12 \] Se hallan los valores críticos: \[ T_{crítico}=T_{(\frac{\alpha}{2},v)}=T_{(0.025,12)}=-2.1788 \] Se análiza: \[ T_{calculado}<T_{crítico}(Falso) \\ T_{calculado}>-T_{crítico}(Verdadero) \\ \] Entonces, se rechaza Ho. Por lo tanto, se puede afirmar que existen diferencias estadísticamente significativas entre los pesos del mes de Julio y los pesos del mes de Agosto.
En R:
julio<-c(56.7,55.8,70.5,68.2,70.6,67.4,59.5,78.5,67.9,76.4,86.3,79.7,80.3)
agosto<-c(55.7,53.8,67.5,67,69.5,66.6,58.5,76.5,64.9,75.2,85.2,78.9,77.3)
alpha<-0.05
Se calcula la media:
## [1] "En julio: 70.6 kg."
## [1] "En agosto: 68.9692 Kg."
## Warning: package 'ggpubr' was built under R version 4.0.2
## Loading required package: ggplot2
meses<-rep(c("Julio","Agosto"),each=13)
pesos<-c(julio,agosto)
Data<-data.frame(meses, agosto)
ggboxplot(Data,x="meses", y="pesos",color="meses",
palette=c("darkgreen","coral"),ylab="pesos",xlab="meses")
Como puede verse, el peso medio es mayor en julio. Se calcula la desviación estándar:
## [1] "En julio: 9.47892 Kg."
## [1] "En agosto: 9.4484 Kg."
Se realiza la prueba T de dos colas con las variables “julio” y “agosto”, considerando que se trata de muestras relacionadas (paired=T)
##
## Paired t-test
##
## data: julio and agosto
## t = 6.7865, df = 12, p-value = 1.94e-05
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## 1.107212 2.154327
## sample estimates:
## mean of the differences
## 1.630769
Puede verificarse en la imagen anterior que la hipótesis nula ha sido rechazada; es decir: 𝜇1 ≠ 𝜇2.
## [1] "El valor de n en cada variable es 13"
## [1] "El grado de libertad n-1 es 12"
## [1] "El valor del T estadístico es 6.786534113"
## [1] "P(T<=t) de dos colas es 0.000019398 (p-value)"
paste("Los valores críticos son", format(qt(alpha/2,12,lower.tail = T), digits = 8),
"y",format(qt(alpha/2,12,lower.tail = F),digits = 8))
## [1] "Los valores críticos son -2.1788128 y 2.1788128"
La representación gráfica se realizaría con el siguiente código:
x<-seq(-7,7, by=0.01)
fx<-dt(x,res$parameter)
valores.criticos<-c(qt(alpha/2,12),qt(alpha/2,12,lower.tail = F))
plot(x,fx,main="Distribución T-Student",type="l")
lines(c(valores.criticos[1],valores.criticos[1]),c(0,0.4),col="red",lty=2)
lines(c(valores.criticos[2],valores.criticos[2]),c(0,0.4),col="red",lty=2)
lines(c(res$statistic,res$statistic),c(0,0.4),col="blue")
Prueba Z de una Muestra
Procedimiento
- Indicar cual es la hipótesis nula y la hipótesis alternativa.
Una cola | Dos colas |
---|---|
\(H_{0}:\mu_{1}\leq\mu_{2}\) | \(H_{0}:\mu_{1}=\mu_{2}\) |
\(H_{1}:\mu_{1}>\mu_{2}\) | \(H_{1}:\mu_{1} \not= \mu_2\) |
Indicar el nivel de significancia.
Indicar el estadístico de prueba. Si las poblaciones son normales, las muestras son grandes (> 30) y la desviación estándar poblacional es conocida. Entonces el estadístico del test será: \[ Z_{calculado}=Z=\frac{\overline{x}-\mu_0}{\frac{\sigma}{\sqrt{n}}} \]
Indicar la regla de decisión.
Región de rechazo:
- Prueba de una cola: \(Z>Z_{\alpha}(Z<-Z_{\alpha})\)
- Prueva de dos colas: \(Z>Z_{\alpha/2}---Z<-Z_{\alpha/2}\)
Comparar el valor estadístico de la prueba.
Rechazar o aceptar la hipótesis nula.
Prueba Z de dos muestras.
Procedimiento
- Indicar cual es la hipótesis nula y la hipótesis alternativa.
Una cola | Dos colas |
---|---|
\(H_{0}:\mu_{1}\leq\mu_{2}\) | \(H_{0}:\mu_{1}=\mu_{2}\) |
\(H_{1}:\mu_{1}>\mu_{2}\) | \(H_{1}:\mu_{1} \not= \mu_2\) |
Seleccionar el nivel de significancia.
Indicar el estadístico de prueba. Si las poblaciones son normales, las muestras son grandes (> 30) e independientes y la desviación estándar poblacional es conocida. Entonces el estadístico del test será: \[ Z_{calculado}=Z=\frac{\overline{X_1}-\overline{X_2}}{\sqrt{\frac{\sigma_1^2}{N_1}+\frac{\sigma_2^2}{N_2}}} --> N(0,1) \]
Indicar la regla de decisión.
Región de rechazo:
- Prueba de una cola: \(Z>Z_{\alpha}(Z<-Z_{\alpha})\)
- Prueva de dos colas: \(Z>Z_{\alpha/2}---Z<-Z_{\alpha/2}\)
Comparar el valor estadístico de la prueba.
Rechazar o aceptar la hipótesis nula.
Ejemplos
Ejemlo 1: Prueba Z de dos muestras
El propietario de un negocio observa que existen diferencias entre el monto obtenido de las ventas realizadas por los vendedores hombres y el correspondiente al de las mujeres que laboran en su establecimiento. En una muestra de 40 días encuentra que los hombres vendieron en promedio USD 1400 por días, con desviación estándar USD 200. En una muestra de 50 días encuentra que las mujeres vendieron en promedio 1500 por día, con desviación estándar de $250, con 𝛼 = 0.05. ¿Puede concluirse que el monto de las ventas alcanzado por las mujeres es superior?
Realizar los pasos siguientes:
- Indicar cuál es la hipótesis nula y cuál la alternativa.
𝐻0: 𝑀 ≤ 𝑉 𝐻1: 𝑀 > 𝑉
Donde:
𝑀 es el monto de venta logrado por las mujeres y 𝑉 el monto de venta alcanzado por los varones.
- Seleccionar el nivel de significancia.
𝛼 = 0.05
- Indicar el estadístico de prueba. Distribución normal:
𝑁1 = 50 y 𝑁2 = 40 𝑥̅1 = 1500 y 𝑥̅2 = 1400 𝑆1 = 250 y 𝑆2 = 200
\[ Z_{calculado}=Z=\frac{1500-1400}{\sqrt{\frac{250^2}{50}}+{\frac{200^2}{40}}} = \frac{100}{\sqrt{1000+1250}} = 2.1082 \] 4. Indicar la regla de decisión. Región de rechazo:
𝑍 > 𝑍0.05 o 𝑍 < −𝑍0.05
- Comparar el valor estadístico de la prueba.
𝑍𝑐𝑟í𝑡𝑖𝑐𝑜 = 𝑍0.05 = 1.64
𝑍𝑐𝑎𝑙𝑐𝑢𝑙𝑎𝑑𝑜 > 𝑍𝑐𝑎𝑙𝑐𝑢𝑙𝑎𝑑𝑜 (Verdadero)
𝑍𝑐𝑎𝑙𝑐𝑢𝑙𝑎𝑑𝑜 < −𝑍𝑐𝑎𝑙𝑐𝑢𝑙𝑎𝑑𝑜 (Falso)
- Aceptar o rechazar la hipótesis nula.
Se rechaza la hipótesis nula. Es decir, se concluye que el monto de venta logrado por las mujeres es significativamente superior al que corresponde a los varones.
Ejemplo 2: Prueba Z de una muestra con dos colas
La producción diaria en una planta industrial química registrada durante 𝑛 = 50 días tiene una media muestral de 𝑥̅ = 871 toneladas. Se quiere probar la hipótesis de que el promedio de la producción diaria del producto químico es 𝜇 = 880 toneladas por día, contra la alternativa de que la media es distinta de 880 toneladas diarias. Suponer que se conoce que la desviación estándar de la población es 𝜎 = 21 toneladas diarias. Considerar nivel de significancia del 5 %.
Realizar los pasos siguientes:
- Indicar cuál es la hipótesis nula e hipótesis alternativa.
𝐻0: 𝜇 = 880 toneladas 𝐻1: 𝜇 ≠ 880 toneladas
- Seleccionar el nivel de significancia.
𝛼 = 0.05
- Indicar el estadístico de prueba.
Como 𝑛 = 50 > 30 es una población grande; además, se conoce la desviación estándar 𝜎 = 21 toneladas. Entonces se puede usar el Z-test. \[ Z_{calculado}=Z=\frac{\overline{X}-\overline{\mu_0}}{\frac{\sigma}{\sqrt{n}}} \] 𝜇0 = 880 𝑥̅ = 871 𝜎 = 21 𝑛 = 50 \[ Z_{calculado}=Z=\frac{871-880}{\frac{21}{\sqrt50}} = -3.03046 \] 4. Indicar la regla de decisión.
Región de rechazo: \[ Z_{calculado}>Z_{0.025} --- Z_{calculado}<-<-Z_{0.025} \] Si 𝑍𝑐𝑎𝑙𝑐𝑢𝑙𝑎𝑑𝑜 está fuera de la región de rechazo, seacepta 𝐻0.
Si 𝑍𝑐𝑎𝑙𝑐𝑢𝑙𝑎𝑑𝑜 está dentro de la región de rechazo, se rechaza 𝐻0.
- Comparar el valor estadístico de la prueba. Como 𝑃(𝑍 > 𝑍0.025) = 0.025
Entonces: \[
P(Z>Z_{0.025})=1-P(Z<Z_{0.025})=0.025 \\
P(Z<Z_{0.025})=1-0.025=0.975
\]
Como 𝑃(𝑍 ≤ 𝑍0.025) = 0.975 de la distribución anterior se puede afirmar que: \[ Z_{crítico}=Z_{0.025}=1.96 \] 6. Rechazar o aceptar la hipótesis nula.
−3.03046 > 1.96 (Falso) −3.03046 < −1.96 (Verdadero)
Como se cumple uno de los dos, 𝑍𝑐𝑎𝑙𝑐𝑢𝑙𝑎𝑑𝑜 está dentro de la región de rechazo, es decir, se rechaza 𝐻0 al nivel del 5 %.Por lo tanto, es probable que el promedio de la producción diaria del producto químico sea distinto a 880 toneladas diarias.
En R:
- \(H_0: \mu=880\)
- \(H_1: \mu\not = 880\)
Con un alfa de 0.05.
En R ponemos los otros datos.
mu0<-880
media<-871
desv<-21
N<-50
Z.calculado<-(media-mu0)/(desv/sqrt(N))
paste('El valor del Z-calculado es ',format(Z.calculado,digits = 6))
## [1] "El valor del Z-calculado es -3.03046"
Comparamos el valor estadístico de la prueba:
alpha<-0.05
Z.critico<-qnorm(alpha/2,lower.tail = F)
paste('El valor del T.crítico es', format(Z.critico,digits = 5))
## [1] "El valor del T.crítico es 1.96"
Luego rechazamos y aceptamos la hipótesis nula:
if (Z.calculado<Z.critico || Z.calculado>Z.critico){
paste("Región de rechazo: Se rechaza la hipótesis nula H0.")
}else{
paste('Se acepta la hipótesis nula H0.')
}
## [1] "Región de rechazo: Se rechaza la hipótesis nula H0."
X<-seq(-4,4, by=0.01)
fx2<-dnorm(x,mean=0,sd=1)
plot(x,fx2,main="Distribución Normal",type="l")
lines(c(Z.critico,Z.critico),c(0,0.4),col="red",lty=2)
lines(c(-Z.critico,-Z.critico),c(0,0.4),col="red",lty=2)
lines(c(Z.calculado,Z.calculado),c(0,0.4),col="blue")
Ejemplo 3: Prueba T para Muestras Independientes y Varianzas Diferentes
Una compañía desea comparar el aumento de peso en bebés que consumen su producto contra los que consumen el del competidor. El estudio de una muestra de 40 bebés usada para analizar la primera marca reveló un aumento de peso de 3.2 𝑘𝑔 en los primeros tres meses después de nacidos, con 1.2 𝑘𝑔 de desviación estándar. Otra, de 55 bebés que usan la segunda marca, indica un aumento de 4.2 𝑘𝑔, con desviación estándar de 1.4 𝑘𝑔. Con un nivel de significancia de 0.05, ¿es posible concluir que los bebés que consumieron el producto de la segunda marca ganaron más peso?
Efectuar los pasos siguientes:
- Indicar cuál es la hipótesis nula y cuál la alternativa.
𝐻0: 𝜇1 ≤ 𝜇2
𝐻1: 𝜇1 > 𝜇2
- Seleccionar el nivel de significancia.
𝛼 = 0.05
- Indicar el estadístico de prueba. Para dos muestras, desviación estándar desconocida y no iguales, el estadístico del test será: \[ T_{calculado}=T=\frac{\overline{X_1}-\overline{X_2}}{\sqrt{\frac{S_1^2}{N_1}+\frac{S_2^2}{N_2}}} = \frac{3.2-4.2}{\sqrt{\frac{1.2^2}{40}+\frac{1.4^2}{55}}}=-3.74 \] Considerar que se tiene 𝜈 grados de libertad. Donde: \[ V=\frac{(\frac{S_1^2}{N_1}+\frac{S_2^2}{N_2})^2}{\frac{(\frac{S_1^2}{N_1})^2}{N-1}+\frac{(\frac{S_2^2}{N_2})^2}{N-1}} \\ V=\frac{(\frac{1.2^2}{40}+\frac{1.4^2}{50})^2}{\frac{(\frac{1.2^2}{40})^2}{40-1}+\frac{(\frac{1.4^2}{55})^2}{55-1}} = 90.43 = 90 \]
- Indicar la regla de decisión. Región de rechazo:
𝑇 > 𝑇(𝛼,𝜈) o 𝑇 < −𝑇(𝛼,𝜈)
- Comparar el valor estadístico de la prueba.
𝑁1 = 40 - 𝑁2 = 55 𝑥̅1 = 3.2 - 𝑥̅2 = 4.2 𝑆1 = 1.2 - 𝑆2 = 1.4
𝑇𝑐𝑟í𝑡𝑖𝑐𝑜 = 𝑇(0.05,90) = 1.66
- Rechazar o aceptar la hipótesis nula:
𝑇𝑐𝑎𝑙𝑐𝑢𝑙𝑎𝑑𝑜 > 𝑇𝑐𝑟í𝑡𝑖𝑐𝑜 (Falso)
𝑇𝑐𝑎𝑙𝑐𝑢𝑙𝑎𝑑𝑜 < − 𝑇𝑐𝑟í𝑡𝑖𝑐𝑜 (Verdadero)
Como el valor de 𝑇𝑐𝑎𝑙𝑐𝑢𝑙𝑎𝑑𝑜 = −3.74 cae en la región de rechazo de 𝐻0, se rechaza la posibilidad de que 𝜇1 ≥ 𝜇2 y se acepta que los bebés que consumen la marca 1 ganan menos peso que los que consumen la marca 2 (𝜇1 < 𝜇2).
En R:
N1<-40
N2<-55
S1<-1.2
S2<-1.4
media.muestral1<-3.2
media.muestral2<-4.2
T.calculado<-(media.muestral1-media.muestral2)/sqrt(S1^2/N1+S2^2/N2)
paste('El valor del T.calculado es ',format(T.calculado,digits = 3))
## [1] "El valor del T.calculado es -3.74"
Comparamos el valor estadístico de la prueba.
alpha<-0.05
nu<-(S1^2/N1+S2^2/N2)^2/((S1^2/N1)^2/(N1-1)+(S2^2/N2)^2/(N2-1))
T.critico<-qt(alpha,nu,lower.tail = F)
paste("El valor del T.critico es ",format(T.critico,digits = 3))
## [1] "El valor del T.critico es 1.66"
if (T.calculado<T.critico || T.calculado>-T.critico)
{
paste("Región de rechazo: Se rechaza la hipótesis nula H0.")
}else
{
paste("Se acepta la hipótesis nula H0.")
}
## [1] "Región de rechazo: Se rechaza la hipótesis nula H0."
Ejemplo 4: Función Z.Test () en Prueba de Hipótesis Unilateral
Se tienen dos muestras de 25 personas de dos tipos de sujeto: con entrenamiento especial y sin él. Se sabe que la varianza es de 256. Realizar una prueba de hipótesis de una cola con z.test().
Ingresamos los datos simulados:
Con_Entretanimiento<-c(120,124,94,122,82,110,108,88,98,106,
108,84,82,107,110,104,120,102,116,98,
80,114,132,134,132)
Sin_Entrenamiento<-c(115,118,90,99,108,76,99,94,86,84,
108,90,82,76,112,118,102,98,120,104,
104,80,119,126,122)
Se instala y se llama el paquete PASWR.
res<-z.test(Con_Entretanimiento, sigma.x=sqrt(256),
Sin_Entrenamiento, sigma.y=sqrt(256),
alternative = "greater")
res
##
## Two-sample z-Test
##
## data: Con_Entretanimiento and Sin_Entrenamiento
## z = 1.2816, p-value = 0.09999
## alternative hypothesis: true difference in means is greater than 0
## 95 percent confidence interval:
## -1.643758 Inf
## sample estimates:
## mean of x mean of y
## 107.0 101.2
𝑍𝑐𝑎𝑙𝑐𝑢𝑙𝑎𝑑𝑜 es R, es:
## z
## 1.281631
𝑃(𝑍 ≤ 𝑍𝑐𝑎𝑙𝑐𝑢𝑙𝑎𝑑𝑜) de una cola es:
## [1] 0.09998605
𝑍𝑐𝑟í𝑡𝑖𝑐𝑜 es R, es:
## [1] 1.644854
Se rechaza la hipótesis nula: Este resultado indica que no existe diferencia entre los promedios de las personas con y sin entrenamiento.
Bibliografía´
- Barón, F. (2004) Apuntes de Bioestadística. Málaga, España: Universidad de Málaga.
- Centro de Geociencias. Pruebas de hipótesis para dos muestras.Recuperado el 28 de noviembre de 2018, de http://www.geociencias.unam.mx/~ramon/EstInf/Clase15.pdf.
- Centro de Geociencias. Pruebas de hipótesis para dos muestras. Recuperado el 28 de noviembre de 2018, de http://www.geociencias.unam.mx/~ramon/EstInf/Clase13.pdf.
- Freedman, D., Pisani, R. y Purves, R. (2007). Statistics. Nueva York, Estados Unidos: W. W. Norton & Company.
- Sánchez, A. y Carmona, F. (2005). Estadística Matemática II. Apuntes. Barcelona, España: Universidad de Barcelona
- Schmuller, J. (2017) Statistical Analysis with R. New Jersey, USA: John Wiley & Sons.
- Webster, A. (2000). Estadística aplicada a los negocios y la economía (Tercera edición). Santa Fe de Bogotá, Colombia: Irwin McGraw-Hill.