Prueba de Hipótesis

Maestría en Gobierno y Políticas Públicas

Diego Solís Delgadillo

Prueba de hipótesis

  • Consiste en una prueba entre dos hipótesis en competencia
    • Hipótesis nula
    • Hipótesis alternativa
  • La hipótesis nula sostiene que no existe un efecto

Ejemplo hipótesis

\(H_0\): Los hombres y mujeres tienen salarios iguales

\(H_A\): Los hombres tienen salarios superiores a la mujeres

  • Las hipótesis alternativas pueden ser direccionadas o no direccionadas

  • Un estudio quiere saber si hay sesgo en la promoción de trabajadores
    • H1. Se prefieren hombres a mujeres
  • Se les entregó a supervisores de banco resúmenes (cvs) idénticos

Note

  • Solo eran distintos en el sexo de la persona
  • 24 resumenes con nombres de hombre y 24 con nombres de mujeres

La base de datos

  • El paquete moderndive contiene la información
library(moderndive)

promotions %>%
sample_n(size = 6) %>%
arrange(id)
# A tibble: 6 × 3
     id decision gender
  <int> <fct>    <fct> 
1    12 promoted male  
2    14 promoted male  
3    24 promoted female
4    28 promoted female
5    29 promoted female
6    30 promoted female

Visualización de la base

ggplot(promotions, aes(x = gender, fill = decision)) +
geom_bar() +
labs(x = "Género en el currículum")

Comparación entre géneros

Important

  • Menos mujeres fueron promovidas
promotions %>%
group_by(gender, decision) %>%
tally()
# A tibble: 4 × 3
# Groups:   gender [2]
  gender decision     n
  <fct>  <fct>    <int>
1 male   not          3
2 male   promoted    21
3 female not         10
4 female promoted    14

Tip

  • 21 de 24 hombres promovidos (87.5%)
  • 14 de 24 mujeres (58.3%)

  • ¿Es posible haber obtenido este resultado solo por muestreo?

Asignación aleatoria

  • Si no existe discriminación, el genero no debería afectar las posibilidades de promoción
  • ¿Qué pasa si asignamos aleatoriamente el genero de la persona?

Tip

  • moderndive incluye una base con asignación aleatoria

Comparación

ggplot(promotions_shuffled,
aes(x = gender, fill = decision)) +
geom_bar() +
labs(x = "Género en el currículum")

Comparación

  • En la segunda barra (el mundo sin discriminación) las barras son más parecidas
promotions_shuffled %>%
group_by(gender, decision) %>%
tally() 
# A tibble: 4 × 3
# Groups:   gender [2]
  gender decision     n
  <fct>  <fct>    <int>
1 male   not          6
2 male   promoted    18
3 female not          7
4 female promoted    17

Tip

  • 18 de 24 hombres fueron promovidos
  • 17 de 24 mujeres fueron promovidas

Variación muestral

  • En los datos originales hay una diferencia de 29% en las promociones

Tip

  • Si en la población no hubiese discriminación esa diferencia sería igual a 0
    • Un mundo sin discriminación

Important

  • Pero es posible que obtengamos valores distintos a 0 solo por muestreo (por azar)

Prueba de hipótesis

  • En el ejercicio de promociones lo que nos interesa es la diferencia de proporciones

\[ p_{h}-p_{m}\]

  • Comparamos dos hipótesis
    • Hipótesis nula \(H_{0}\)
    • Hipótesis alternativa \(H_{A}\)

Hipótesis nula

Important

  • La hipótesis nula afirma que no existe un efecto o diferencia de interés

Ejemplo

  • \(H_{0}\): Los hombres y mujeres son promovidos por igual
  • \(H_{A}\): Los hombres son promovidos a tasa mayor

Estimador y distribución nula

  • Nuestro estimador es la diferencia observada en los datos

\[ \hat{p}_{h}-\hat{p}_{m}= 0.875-0.583=0.292=29.2%\]

Important

  • La distribución nula es la distribución muestral asumiendo que el valor del parámetro es igual a 0

P-value

  • Es la probabilidad de obtener un estimador dado que \(H_{0}\) es verdadera
  • Si es una probabilidad es muy pequeña rechazamos la hipótesis nula

Nivel de significancia

  • Es el umbral establecido para rechazar \(H_{0}\)
    • Generalmente 95%

Tip

  • Una significancia de 95% implica que solo habría un 5% de obtener los resultados que tenemos dado que \(H_{0}\) es verdadera

Diferencia de proporciones

Diferencia de proporciones

Diferencia de proporciones

  • Cuando tenemos una respuesta categórica entre grupos comparamos proporciones

  • Donde \(p_1\) es la proporción de la población del grupo 1

  • Y \(p_2\) es la proporción de la población del grupo 2

  • Podemos comparar la diferencia entre los grupos \((p_1−p_2)\)

  • Para referirnos al tamaño de las muestras utilizamos la notación \(n_1\) y \(n_2\)

  • La diferencia \((\hat{p}_1−\hat{p}_2)\) entre dos muestras tiene una distribución muestral
  • Donde el error estándar de la diferencia entre dos proporciones es

\[se=\sqrt{\frac{p_1(1-p_1)}{n_1}+\frac{p_2(1-p_2)}{n_2}}\]

Ejemplo 1

  • Queremos observar el efecto de un tratamiento contra el cáncer
  • El grupo que recibe el tratamiento está compuesto por 11,535 personas
  • De ellas 347 murieron de cáncer
  • El grupo 2 está compuesto por 14.035 personas que recibieron el placebo
  • En el grupo de control murieron 327 personas

Ejemplo 1

\[\hat{p}_1 = \frac{347}{11535}=0.030\] \[\hat{p}_2 = \frac{327}{14035}=0.023\] - La diferencia entre grupos es

\[ (\hat{p}_1-\hat{p}_2)= (0.030-0.023)=0.007\]

Calculando el error estándar

\[se=\sqrt{\frac{\hat{p}_1(1-\hat{p}_1)}{n_1}+\frac{\hat{p}_2(1-\hat{p}_2)}{n_2}}\] \(\hat{p}_1=0.030\)

\(\hat{p}_2=0.023\)

\(n_1=11,535\)

\(n_2=14,035\)

Calculando el error estándar

\[se=\sqrt{\frac{0.03(1-0.03)}{11,535}+\frac{0.023(1-0.023)}{14,035}}\] \[se=0.002\]

Tip

Significa que la diferencia entre las muestras no siempre sería 0.007 sino que variaría en promedio 0.002

Intervalo de confianza

  • El error estándar nos permite saber qué tan cerca está nuestro estimador del valor poblacional

  • En este caso nuestra estimación es una diferencia de 0.007

  • El intervalo de confianza se produce multiplicando el error estándar por la puntuación \(Z\)

    • Considerando el nivel de confianza esperado

Intervalo de confianza

\[(\hat{p}_𝟏− \hat{p}_𝟐)\pm Z(se)\] - En el ejemplo del tratamiento, un intervalo al 95% es

\[(0.007)\pm 1.96(0.002)= 0.0039\]

  • Limite superior = 0.0109
  • Limite inferior = 0.0030

Interpretación del intervalo de confianza

  • La proporción de muertes es entre 0.003 y 0.10 superior en el grupo de control
    • En comparación con el grupo de tratamiento
  • El intervalo no contiene 0, significa que los grupos son distintos

Importante

  • Cuando los intervalos contienen el valor de 0 implica que existe la posibilidad de que las proporciones sean iguales

Comparación de proporciones

Comparación de proporciones

Comparación de proporciones

  • Otra forma de comparar a los grupos es con una prueba de significancia

  • Partimos de una hipótesis nula donde las proporciones son iguales para los grupos

\(H_0= \hat{p}_1=\hat{p}_2\)

  • Esto significa no efecto

  • El primer paso para la prueba es crear una proporción agregada

  • Por ejemplo, el Grupo 1 tiene 20 observaciones con 7 éxitos

\[n_1=20\] \[\hat{p}_1=0.35\]

  • El Grupo 2, tiene 10 observaciones y 5 éxitos

\[n_2=10\] \[\hat{p}_2=0.5\] \[\hat{p}= \frac{7+5}{20+10}=\frac{12}{30}=0.4\]

Error estándar

  • En segundo lugar calculamos el error estándar para la hipótesis nula
    • Utilizando la proporción agregada

\[ se=\sqrt{{\hat{p}(1-\hat{p})}(\frac{1}{n_1}} + \frac{1}{n_2})\] \[ se=\sqrt{{0.4(1-0.4)}(\frac{1}{20}} + \frac{1}{10})=0.24\]

Puntuación Z

  • Con la información podemos calcular la puntuación Z

\[ Z= \frac{Estimador- H_0}{se_0}\] \[ Z= \frac{(\hat{p}_1-\hat{p}_2)- 0}{se_0}\]

Puntuación Z

\[ Z= \frac{(0.35-0.5)- 0}{0.24}=-0.62\]

Tabla Z

Tip

  • La probabilidad acumulada a 0.62 es de 76.42
  • Quiere decir que el resultado no es significativo
  • Esta diferencia no sería atípica dada que la \(H_0\) fuese verdadera

Ejemplo 2

  • Un estudio quiere saber si hay relación entre ver televisión y cometer actos violentos
  • El estudio se enfoca en adolescentes
  • Parten de una muestra aleatoria de 707 familias

Ejemplo 2

Horas de TV Comportamiento agresivo Sin comportamiento agresivo Total
Menos de 1 hr 5 83 88
Al menos 1 hr 154 435 619

Ejemplo 2

\[n_1=88\] \[\hat{p}_1=\frac{5}{88}=0.057\] \[n_2=619\] \[\hat{p}_2=\frac{154}{619}=0.249\]

Paso 1: Proporción agregada

  • En primer lugar calculamos la proporción agregada

\[\hat{p}= \frac{5+154}{88+619}=\frac{159}{707}=0.224\]

Paso 2: Error estándar

  • Con la proporción agregada calculamos el error estándar considerando \(H_0\) como verdadera

\[ se=\sqrt{{\hat{p}(1-\hat{p})}(\frac{1}{n_1}} +\frac{1}{n_2}) \] \[ se=\sqrt{{0.224(1-0.224)}(\frac{1}{88}} + \frac{1}{619})=0.047 \]

Paso 3: Estimar puntuación Z

\[ Z= \frac{(\hat{p}_1-\hat{p}_2)- 0}{se_0}\] \[ Z= \frac{(0.057-0.249)- 0}{0.047}=-4.08\] - Una puntuación de -4.08 es significativa al 99%

Diferencia de proporciones en R

prop.test(x=c(5,154), n=c(5+83, 154+435), conf.level = 0.95)

## 5 y 154 son los casos de comportamiento agresivo
## 5 y 83 los casos con menos de una hr de tv
## 154 y 435 los casos con más de una hr

    2-sample test for equality of proportions with continuity correction

data:  c(5, 154) out of c(5 + 83, 154 + 435)
X-squared = 16.722, df = 1, p-value = 4.329e-05
alternative hypothesis: two.sided
95 percent confidence interval:
 -0.2711622 -0.1381217
sample estimates:
    prop 1     prop 2 
0.05681818 0.26146010 

Diferencia de medias

Diferencia de medias

Diferencia de medias

  • Cuando la respuesta es cuantitativa comparamos sus medias
  • Analizamos en qué medida la diferencia entre las medias de la muestra \((\bar{x}_1− \bar{x}_2)\)
  • Representan a la diferencia entre las medias de la población \((\bar{\mu}_1− \bar{\mu}_2)\)

Error estándar

  • El error estándar de la distribución muestral para diferencia de medias es

SE(\(\bar{X}_1 - \bar{X}_2\)) = \(\sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}}\)

  • Donde \(s\) es la desviación estándar y \(n\) el número de observaciones

Ejemplo 3

  • Tenemos un experimento que quiere ver el efecto de reportar resultados acompañados de un gráfico

  • Un grupo de tratamiento lee sobre la efectividad de un medicamento con gráficos

  • Un grupo de control lee sobre la efectividad de un medicamento sin gráficos

  • Al final hacen una valoración del 1 al 10 sobre la efectividad del medicamento

Ejemplo 3

Grupo Tamaño de la muestra Media Desviación estándar
Texto y gráfico 30 6.83 1.18
Solo texto 31 6.13 1.43
  • La diferencia entre las muestras es \((\bar{x}_1− \bar{x}_2)= (6.83)-(6.13)=0.7\)

Calculando el error estándar

\[se= \sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}}\] \[se= \sqrt{\frac{1.18^2}{30} + \frac{1.43^2}{31}}=0.335\]

Intervalo de confianza

  • El procedimiento es similar al de las proporciones

  • La diferencia es que utilizamos la puntuación \(t\)

\((\bar{x}_1− \bar{x}_2) \pm t_.025 (se)\)

Grados de libertad

  • Los grados de libertad se estiman de la siguiente forma

  • Donde los grados de libertad son

\[ df= (n_1+n_1−2)\] - En el caso del efecto de las gráficas

\[ df= (30+31−2=59)\] - Con estos datos vamos a la tabla \(t\)

Tabla t

\[(\bar{x}_1− \bar{x}_2) \pm 2 (0.335)\] \[(0.7) \pm 2 (0.335)\] - Límite inferior 0.03 - Limite superior 1.37

Important

  • Un intervalo de confianza positivo significa que \(\mu_1\) es más grande que \(\mu_2\)
  • Un intervalo de confianza negativo significa que \(\mu_2\) es más grande que \(\mu_1\)

T test con dos muestras

  • Compara si forman parte de la misma distribución
  • Podemos obtener diferentes medias simplemente por muestreo
  • Qué tan atípica serían los valores para los grupos si su media fuese la misma

Prueba t

  • Para poner a prueba si la diferencia es significativa calculamos puntuaciones \(t\)

\[ t=\frac{(\bar{x}_1− \bar{x}_2)-0}{se}\] - En el ejemplo previo \[\hat{x}_1=6.83\] \[\hat{x}_2=6.13\]

Prueba t

\[ t=\frac{(6.83− 6.13)-0}{0.335}= 2.08\]

  • Al revisar la tabla \(t\) vemos que supera el umbral de 95%
  • El resultado es significativo

Normalidad

  • Comparar medias solo tiene sentidos si los datos tienen una distribución normal
  • Si no hay una distribución nomal, la media no representa adecuadamente a los datos

¿Cómo revisar la normalidad?

library (dlookr)
df %>% group_by(sexo) %>% 
  normality(salario)
# A tibble: 2 × 5
  variable sexo   statistic p_value sample
  <chr>    <chr>      <dbl>   <dbl>  <dbl>
1 salario  hombre     0.977  0.435      50
2 salario  mujer      0.961  0.0934     50

Importante

  • p-value alto en ambos grupos indica que están normalmente distribuidas

Tipos de t-test

  • Student’s t-test
  • Welch’s t-test

Importante

  • Para decidir qué prueba necesitamos revisar la varianza de los datos

¿Qué prueba?

  • Student t- test se utiliza cuando las varianzas son similares
  • Welch t-test se utiliza cuando las varianzas son diferentes

¿Cómo saber si las varianzas son similares?

library(car)
leveneTest(salario ~ sexo, df)
Levene's Test for Homogeneity of Variance (center = median)
      Df F value    Pr(>F)    
group  1  28.797 5.384e-07 ***
      98                      
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
  • Si los valores son significativos indica que las varianzas son diferentes
    • Debe utilizarse una prueba Welch

¿Cómo realizar la prueba?

t.test(df$salario~ df$sexo, var.equal=FALSE)

    Welch Two Sample t-test

data:  df$salario by df$sexo
t = 2.2736, df = 65.364, p-value = 0.02628
alternative hypothesis: true difference in means between group hombre and group mujer is not equal to 0
95 percent confidence interval:
  223.786 3454.008
sample estimates:
mean in group hombre  mean in group mujer 
            13144.41             11305.51