# A tibble: 6 × 3
id decision gender
<int> <fct> <fct>
1 12 promoted male
2 14 promoted male
3 24 promoted female
4 28 promoted female
5 29 promoted female
6 30 promoted female
Prueba de Hipótesis
Maestría en Gobierno y Políticas Públicas
Diego Solís Delgadillo
\(H_0\): Los hombres y mujeres tienen salarios iguales
\(H_A\): Los hombres tienen salarios superiores a la mujeres
Note
# A tibble: 6 × 3
id decision gender
<int> <fct> <fct>
1 12 promoted male
2 14 promoted male
3 24 promoted female
4 28 promoted female
5 29 promoted female
6 30 promoted female
ggplot(promotions, aes(x = gender, fill = decision)) +
geom_bar() +
labs(x = "Género en el currículum")
Important
# A tibble: 4 × 3
# Groups: gender [2]
gender decision n
<fct> <fct> <int>
1 male not 3
2 male promoted 21
3 female not 10
4 female promoted 14
Tip
Tip
ggplot(promotions_shuffled,
aes(x = gender, fill = decision)) +
geom_bar() +
labs(x = "Género en el currículum")
# A tibble: 4 × 3
# Groups: gender [2]
gender decision n
<fct> <fct> <int>
1 male not 6
2 male promoted 18
3 female not 7
4 female promoted 17
Tip
Tip
Important
\[ p_{h}-p_{m}\]
Important
Ejemplo
\[ \hat{p}_{h}-\hat{p}_{m}= 0.875-0.583=0.292=29.2%\]
Important
Tip
Diferencia de proporciones
Diferencia de proporciones
Cuando tenemos una respuesta categórica entre grupos comparamos proporciones
Donde \(p_1\) es la proporción de la población del grupo 1
Y \(p_2\) es la proporción de la población del grupo 2
Podemos comparar la diferencia entre los grupos \((p_1−p_2)\)
Para referirnos al tamaño de las muestras utilizamos la notación \(n_1\) y \(n_2\)
\[se=\sqrt{\frac{p_1(1-p_1)}{n_1}+\frac{p_2(1-p_2)}{n_2}}\]
\[\hat{p}_1 = \frac{347}{11535}=0.030\] \[\hat{p}_2 = \frac{327}{14035}=0.023\] - La diferencia entre grupos es
\[ (\hat{p}_1-\hat{p}_2)= (0.030-0.023)=0.007\]
\[se=\sqrt{\frac{\hat{p}_1(1-\hat{p}_1)}{n_1}+\frac{\hat{p}_2(1-\hat{p}_2)}{n_2}}\] \(\hat{p}_1=0.030\)
\(\hat{p}_2=0.023\)
\(n_1=11,535\)
\(n_2=14,035\)
\[se=\sqrt{\frac{0.03(1-0.03)}{11,535}+\frac{0.023(1-0.023)}{14,035}}\] \[se=0.002\]
Tip
Significa que la diferencia entre las muestras no siempre sería 0.007 sino que variaría en promedio 0.002
El error estándar nos permite saber qué tan cerca está nuestro estimador del valor poblacional
En este caso nuestra estimación es una diferencia de 0.007
El intervalo de confianza se produce multiplicando el error estándar por la puntuación \(Z\)
\[(\hat{p}_𝟏− \hat{p}_𝟐)\pm Z(se)\] - En el ejemplo del tratamiento, un intervalo al 95% es
\[(0.007)\pm 1.96(0.002)= 0.0039\]
Importante
Comparación de proporciones
Comparación de proporciones
Otra forma de comparar a los grupos es con una prueba de significancia
Partimos de una hipótesis nula donde las proporciones son iguales para los grupos
\(H_0= \hat{p}_1=\hat{p}_2\)
El primer paso para la prueba es crear una proporción agregada
Por ejemplo, el Grupo 1 tiene 20 observaciones con 7 éxitos
\[n_1=20\] \[\hat{p}_1=0.35\]
\[n_2=10\] \[\hat{p}_2=0.5\] \[\hat{p}= \frac{7+5}{20+10}=\frac{12}{30}=0.4\]
\[ se=\sqrt{{\hat{p}(1-\hat{p})}(\frac{1}{n_1}} + \frac{1}{n_2})\] \[ se=\sqrt{{0.4(1-0.4)}(\frac{1}{20}} + \frac{1}{10})=0.24\]
\[ Z= \frac{Estimador- H_0}{se_0}\] \[ Z= \frac{(\hat{p}_1-\hat{p}_2)- 0}{se_0}\]
\[ Z= \frac{(0.35-0.5)- 0}{0.24}=-0.62\]
Tip
Horas de TV | Comportamiento agresivo | Sin comportamiento agresivo | Total |
---|---|---|---|
Menos de 1 hr | 5 | 83 | 88 |
Al menos 1 hr | 154 | 435 | 619 |
\[n_1=88\] \[\hat{p}_1=\frac{5}{88}=0.057\] \[n_2=619\] \[\hat{p}_2=\frac{154}{619}=0.249\]
\[\hat{p}= \frac{5+154}{88+619}=\frac{159}{707}=0.224\]
\[ se=\sqrt{{\hat{p}(1-\hat{p})}(\frac{1}{n_1}} +\frac{1}{n_2}) \] \[ se=\sqrt{{0.224(1-0.224)}(\frac{1}{88}} + \frac{1}{619})=0.047 \]
\[ Z= \frac{(\hat{p}_1-\hat{p}_2)- 0}{se_0}\] \[ Z= \frac{(0.057-0.249)- 0}{0.047}=-4.08\] - Una puntuación de -4.08 es significativa al 99%
prop.test(x=c(5,154), n=c(5+83, 154+435), conf.level = 0.95)
## 5 y 154 son los casos de comportamiento agresivo
## 5 y 83 los casos con menos de una hr de tv
## 154 y 435 los casos con más de una hr
2-sample test for equality of proportions with continuity correction
data: c(5, 154) out of c(5 + 83, 154 + 435)
X-squared = 16.722, df = 1, p-value = 4.329e-05
alternative hypothesis: two.sided
95 percent confidence interval:
-0.2711622 -0.1381217
sample estimates:
prop 1 prop 2
0.05681818 0.26146010
Diferencia de medias
Diferencia de medias
SE(\(\bar{X}_1 - \bar{X}_2\)) = \(\sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}}\)
Tenemos un experimento que quiere ver el efecto de reportar resultados acompañados de un gráfico
Un grupo de tratamiento lee sobre la efectividad de un medicamento con gráficos
Un grupo de control lee sobre la efectividad de un medicamento sin gráficos
Al final hacen una valoración del 1 al 10 sobre la efectividad del medicamento
Grupo | Tamaño de la muestra | Media | Desviación estándar |
---|---|---|---|
Texto y gráfico | 30 | 6.83 | 1.18 |
Solo texto | 31 | 6.13 | 1.43 |
\[se= \sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}}\] \[se= \sqrt{\frac{1.18^2}{30} + \frac{1.43^2}{31}}=0.335\]
El procedimiento es similar al de las proporciones
La diferencia es que utilizamos la puntuación \(t\)
\((\bar{x}_1− \bar{x}_2) \pm t_.025 (se)\)
Los grados de libertad se estiman de la siguiente forma
Donde los grados de libertad son
\[ df= (n_1+n_1−2)\] - En el caso del efecto de las gráficas
\[ df= (30+31−2=59)\] - Con estos datos vamos a la tabla \(t\)
\[(\bar{x}_1− \bar{x}_2) \pm 2 (0.335)\] \[(0.7) \pm 2 (0.335)\] - Límite inferior 0.03 - Limite superior 1.37
Important
\[ t=\frac{(\bar{x}_1− \bar{x}_2)-0}{se}\] - En el ejemplo previo \[\hat{x}_1=6.83\] \[\hat{x}_2=6.13\]
\[ t=\frac{(6.83− 6.13)-0}{0.335}= 2.08\]
# A tibble: 2 × 5
variable sexo statistic p_value sample
<chr> <chr> <dbl> <dbl> <dbl>
1 salario hombre 0.977 0.435 50
2 salario mujer 0.961 0.0934 50
Importante
Importante
Levene's Test for Homogeneity of Variance (center = median)
Df F value Pr(>F)
group 1 28.797 5.384e-07 ***
98
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Welch Two Sample t-test
data: df$salario by df$sexo
t = 2.2736, df = 65.364, p-value = 0.02628
alternative hypothesis: true difference in means between group hombre and group mujer is not equal to 0
95 percent confidence interval:
223.786 3454.008
sample estimates:
mean in group hombre mean in group mujer
13144.41 11305.51