# A tibble: 6 × 3
id decision gender
<int> <fct> <fct>
1 28 promoted female
2 32 promoted female
3 35 promoted female
4 36 not male
5 43 not female
6 47 not female
Pruebas de hipótesis
Estadística para las Ciencias Sociales
Diego Solís Delgadillo
\(H_0\): Los hombres y mujeres tienen salarios iguales⚖️
\(H_A\): Los hombres tienen salarios superiores a la mujeres 🧔⬆️
Note
# A tibble: 6 × 3
id decision gender
<int> <fct> <fct>
1 28 promoted female
2 32 promoted female
3 35 promoted female
4 36 not male
5 43 not female
6 47 not female
ggplot(promotions, aes(x = gender, fill = decision)) +
geom_bar() +
labs(x = "Género en el currículum")
Important
# A tibble: 4 × 3
# Groups: gender [2]
gender decision n
<fct> <fct> <int>
1 male not 3
2 male promoted 21
3 female not 10
4 female promoted 14
Tip
Diferencia sin discriminación
Estimador y ruido
\[ p_{h}-p_{m}\]
¿Qué indica?
Ejemplo
\[ \hat{p}_{h}-\hat{p}_{m}= 0.875-0.583=0.292=29.2%\]
¿Qué es la distribución nula?
Tip
¿Qué implica?
Advertencia
Rechazar una hipótesis nula verdadera (falso positivo).
No rechazar una hipótesis nula falsa (falso negativo).
Error Tipo I
Error Tipo II
Diferencia de proporciones
Notación
\(p_1\) es la proporción de la población del grupo 1
\(p_2\) es la proporción de la población del grupo 2
\((p_1−p_2)\) es la diferencia entre los grupos
\(n_1\) y \(n_2\) son el tamaño de cada muestra
\[se=\sqrt{\frac{p_1(1-p_1)}{n_1}+\frac{p_2(1-p_2)}{n_2}}\]
Grupo tratamiento
Grupo de control
\[\hat{p}_1 = \frac{347}{11535}=0.030\] \[\hat{p}_2 = \frac{327}{14035}=0.023\]
Calculamos la diferencia
📌 La diferencia entre grupos es:
\[ (\hat{p}_1-\hat{p}_2)= (0.030-0.023)=0.007\]
\[se=\sqrt{\frac{\hat{p}_1(1-\hat{p}_1)}{n_1}+\frac{\hat{p}_2(1-\hat{p}_2)}{n_2}}\] \(\hat{p}_1=0.030\)
\(\hat{p}_2=0.023\)
\(n_1=11,535\)
\(n_2=14,035\)
\[se=\sqrt{\frac{0.03(1-0.03)}{11,535}+\frac{0.023(1-0.023)}{14,035}}\] \[se=0.002\]
¿Qué significa?
El error estándar nos permite saber qué tan cerca está nuestro estimador del valor poblacional
En este caso nuestra estimación es una diferencia de 0.007
¿Cómo crear un intervalo de confianza?
El intervalo de confianza se produce multiplicando el error estándar por la puntuación \(Z\)
\[(\hat{p}_𝟏− \hat{p}_𝟐)\pm Z(se)\] - En el ejemplo del tratamiento, un intervalo al 95% es
\[(0.007)\pm 1.96(0.002)= 0.0039\]
Importante
Comparación de proporciones
Comparación de proporciones
Otra forma de comparar a los grupos es con una prueba de significancia
Partimos de una hipótesis nula donde las proporciones son iguales para los grupos
📌 Esto significa no efecto
El primer paso para la prueba es crear una proporción agregada
Por ejemplo, el Grupo 1 tiene 20 observaciones con 7 éxitos:
El Grupo 2 tiene 10 observaciones y 5 éxitos:
Proporción agregada: \(\hat{p} = \frac{7 + 5}{20 + 10} = \frac{12}{30} = 0.4\)
\[ se=\sqrt{{\hat{p}(1-\hat{p})}(\frac{1}{n_1}} + \frac{1}{n_2})\] \[ se=\sqrt{{0.4(1-0.4)}(\frac{1}{20}} + \frac{1}{10})=0.24\]
\[ Z= \frac{Estimador- H_0}{se_0}\] \[ Z= \frac{(\hat{p}_1-\hat{p}_2)- 0}{se_0}\]
\[ Z= \frac{(0.35-0.5)- 0}{0.24}=-0.62\]
Tip
Horas de TV | Comportamiento agresivo | Sin comportamiento agresivo | Total |
---|---|---|---|
Menos de 1 hr | 5 | 83 | 88 |
Al menos 1 hr | 154 | 435 | 619 |
Calculamos las proporciones
📌 Grupo 1 \[n_1=88\] \[\hat{p}_1=\frac{5}{88}=0.057\] 📌 Grupo 2 \[n_2=619\] \[\hat{p}_2=\frac{154}{619}=0.249\]
\[\hat{p}= \frac{5+154}{88+619}=\frac{159}{707}=0.224\]
\[ se=\sqrt{{\hat{p}(1-\hat{p})}(\frac{1}{n_1}} +\frac{1}{n_2}) \] \[ se=\sqrt{{0.224(1-0.224)}(\frac{1}{88}} + \frac{1}{619})=0.047 \]
\[ Z= \frac{(\hat{p}_1-\hat{p}_2)- 0}{se_0}\] \[ Z= \frac{(0.057-0.249)- 0}{0.047}=-4.08\] - Una puntuación de -4.08 es significativa al 99%
prop.test(x=c(5,154), n=c(5+83, 154+435), conf.level = 0.95)
## 5 y 154 son los casos de comportamiento agresivo
## 5 y 83 los casos con menos de una hr de tv
## 154 y 435 los casos con más de una hr
2-sample test for equality of proportions with continuity correction
data: c(5, 154) out of c(5 + 83, 154 + 435)
X-squared = 16.722, df = 1, p-value = 4.329e-05
alternative hypothesis: two.sided
95 percent confidence interval:
-0.2711622 -0.1381217
sample estimates:
prop 1 prop 2
0.05681818 0.26146010
Diferencia de medias
\[se(\bar{x}_1 - \bar{x}_2) = \sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}}\]
Tenemos un experimento que quiere ver el efecto de reportar resultados acompañados de un gráfico
Un grupo de tratamiento lee sobre la efectividad de un medicamento con gráficos
Un grupo de control lee sobre la efectividad de un medicamento sin gráficos
Al final hacen una valoración del 1 al 10 sobre la efectividad del medicamento
Grupo | Tamaño de la muestra | Media | Desviación estándar |
---|---|---|---|
Texto y gráfico | 30 | 6.83 | 1.18 |
Solo texto | 31 | 6.13 | 1.43 |
\[se= \sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}}\] \[se= \sqrt{\frac{1.18^2}{30} + \frac{1.43^2}{31}}=0.335\]
El procedimiento es similar al de las proporciones
La diferencia es que utilizamos la puntuación \(t\)
\((\bar{x}_1− \bar{x}_2) \pm t_.025 (se)\)
Los grados de libertad se estiman de la siguiente forma
Donde los grados de libertad son
\[ df= (n_1+n_1−2)\] - En el caso del efecto de las gráficas
\[ df= (30+31−2=59)\] - Con estos datos vamos a la tabla \(t\)
\[(\bar{x}_1− \bar{x}_2) \pm 2 (0.335)\] \[(0.7) \pm 2 (0.335)\] - Límite inferior 0.03 - Limite superior 1.37
Important
\[ t=\frac{(\bar{x}_1− \bar{x}_2)-0}{se}\] - En el ejemplo previo \[\hat{x}_1=6.83\] \[\hat{x}_2=6.13\]
\[ t=\frac{(6.83− 6.13)-0}{0.335}= 2.08\]