Pruebas de hipótesis

Estadística para las Ciencias Sociales

Diego Solís Delgadillo

Prueba de hipótesis

  • Consiste en una prueba entre dos hipótesis en competencia
    • Hipótesis nula
    • Hipótesis alternativa
  • La hipótesis nula sostiene que no existe un efecto

Ejemplo hipótesis

\(H_0\): Los hombres y mujeres tienen salarios iguales⚖️

\(H_A\): Los hombres tienen salarios superiores a la mujeres 🧔⬆️

  • Las hipótesis alternativas pueden ser direccionadas o no direccionadas

  • Un estudio quiere saber si hay sesgo en la promoción de trabajadores
    • H1. Se prefieren hombres a mujeres
  • Se les entregó a supervisores de banco resúmenes (cvs) idénticos

Note

  • Solo eran distintos en el sexo de la persona
  • 24 resumenes con nombres de hombre y 24 con nombres de mujeres

La base de datos

  • El paquete moderndive contiene la información
library(moderndive)

promotions %>%
sample_n(size = 6) %>%
arrange(id)
# A tibble: 6 × 3
     id decision gender
  <int> <fct>    <fct> 
1    28 promoted female
2    32 promoted female
3    35 promoted female
4    36 not      male  
5    43 not      female
6    47 not      female

Visualización de la base

ggplot(promotions, aes(x = gender, fill = decision)) +
geom_bar() +
labs(x = "Género en el currículum")

Comparación entre géneros

Important

  • Menos mujeres fueron promovidas
promotions %>%
group_by(gender, decision) %>%
tally()
# A tibble: 4 × 3
# Groups:   gender [2]
  gender decision     n
  <fct>  <fct>    <int>
1 male   not          3
2 male   promoted    21
3 female not         10
4 female promoted    14

Tip

  • 21 de 24 hombres promovidos (87.5%)
  • 14 de 24 mujeres (58.3%)

  • ¿Es posible haber obtenido este resultado solo por muestreo?

Variación muestral

  • En los datos hay una diferencia de 29% en las promociones

Diferencia sin discriminación

  • Si en la población no hubiese discriminación esa diferencia sería igual a 0
    • Un mundo sin discriminación

Estimador y ruido

  • 📌 Pero es posible que obtengamos valores distintos a 0 solo por muestreo (por azar)

Prueba de hipótesis

  • En el ejercicio de promociones lo que nos interesa es la diferencia de proporciones

\[ p_{h}-p_{m}\]

  • Comparamos dos hipótesis
    • Hipótesis nula \(H_{0}\)
    • Hipótesis alternativa \(H_{A}\)

Hipótesis nula

¿Qué indica?

  • La hipótesis nula afirma que no existe un efecto o diferencia de interés

Ejemplo

  • \(H_{0}\): Los hombres y mujeres son promovidos por igual
  • \(H_{A}\): Los hombres son promovidos a tasa mayor

Estimador y distribución nula

  • Nuestro estimador es la diferencia observada en los datos

\[ \hat{p}_{h}-\hat{p}_{m}= 0.875-0.583=0.292=29.2%\]

¿Qué es la distribución nula?

  • La distribución nula es la distribución muestral asumiendo que el valor del parámetro es igual a 0

P-value

  • Es la probabilidad de obtener un estimador dado que \(H_{0}\) es verdadera

Tip

  • Si es una probabilidad es muy pequeña rechazamos la hipótesis nula

Nivel de significancia

  • Es el umbral establecido para rechazar \(H_{0}\)
    • Generalmente 95%

¿Qué implica?

  • Una significancia de 95% implica que solo habría un 5% de obtener los resultados que tenemos dado que \(H_{0}\) es verdadera

No rechazar \(H_0\) no implica aceptarla

  • No rechazar \(H_0\) no significa que se acepte como verdadera
    • Solo indica que la evidencia disponible no es suficiente para rechazarla con el nivel de significancia establecido.

Advertencia

  • Es un error común interpretar el no rechazo de \(H_0\) como una prueba de su veracidad.

Errores Tipo I y Tipo II

Error Tipo I

Rechazar una hipótesis nula verdadera (falso positivo).

Error Tipo II

No rechazar una hipótesis nula falsa (falso negativo).

Error Tipo I

  • Un juez declara culpable a una persona inocente.
  • Un test da positivo a una persona no infectada

Error Tipo II

  • Un juez declara inocente a una persona culpable.
  • Un test da negativo para una persona que está infectada.

Errores Tipo I y Tipo II

Diferencia de proporciones

Diferencia de proporciones

  • Cuando tenemos una respuesta categórica entre grupos comparamos proporciones

Notación

  • \(p_1\) es la proporción de la población del grupo 1

  • \(p_2\) es la proporción de la población del grupo 2

  • \((p_1−p_2)\) es la diferencia entre los grupos

  • \(n_1\) y \(n_2\) son el tamaño de cada muestra

Error estándar de la diferencia

  • La diferencia \((\hat{p}_1−\hat{p}_2)\) entre dos muestras tiene una distribución muestral
  • Donde el error estándar de la diferencia entre dos proporciones es

\[se=\sqrt{\frac{p_1(1-p_1)}{n_1}+\frac{p_2(1-p_2)}{n_2}}\]

Ejemplo 1

  • Queremos observar el efecto de un tratamiento contra el cáncer 💊

Grupo tratamiento

  • El grupo que recibe el tratamiento está compuesto por 11,535 personas
  • De ellas 347 murieron de cáncer

Grupo de control

  • El grupo 2 está compuesto por 14,035 personas que recibieron el placebo
  • En el grupo de control murieron 327 personas

Ejemplo 1

\[\hat{p}_1 = \frac{347}{11535}=0.030\] \[\hat{p}_2 = \frac{327}{14035}=0.023\]

Calculamos la diferencia

  • La proporción de muertes en el grupo 1 es de 0.030 y en el segundo de 0.023

📌 La diferencia entre grupos es:

\[ (\hat{p}_1-\hat{p}_2)= (0.030-0.023)=0.007\]

Calculando el error estándar

\[se=\sqrt{\frac{\hat{p}_1(1-\hat{p}_1)}{n_1}+\frac{\hat{p}_2(1-\hat{p}_2)}{n_2}}\] \(\hat{p}_1=0.030\)

\(\hat{p}_2=0.023\)

\(n_1=11,535\)

\(n_2=14,035\)

Calculando el error estándar

\[se=\sqrt{\frac{0.03(1-0.03)}{11,535}+\frac{0.023(1-0.023)}{14,035}}\] \[se=0.002\]

¿Qué significa?

  • La diferencia entre las muestras no siempre sería 0.007 sino que variaría en promedio 0.002

Intervalo de confianza

  • El error estándar nos permite saber qué tan cerca está nuestro estimador del valor poblacional

  • En este caso nuestra estimación es una diferencia de 0.007

¿Cómo crear un intervalo de confianza?

  • El intervalo de confianza se produce multiplicando el error estándar por la puntuación \(Z\)

    • Considerando el nivel de confianza esperado

Intervalo de confianza

\[(\hat{p}_𝟏− \hat{p}_𝟐)\pm Z(se)\] - En el ejemplo del tratamiento, un intervalo al 95% es

\[(0.007)\pm 1.96(0.002)= 0.0039\]

  • Limite superior = 0.0109
  • Limite inferior = 0.0030

Interpretación IC

  • La proporción de muertes es entre 0.003 y 0.10 superior en el grupo de control
    • En comparación con el grupo de tratamiento
  • El intervalo no contiene 0, significa que los grupos son distintos

Importante

  • Cuando los intervalos contienen el valor de 0 implica que existe la posibilidad de que las proporciones sean iguales

Comparación de proporciones

Comparación de proporciones

Comparación de proporciones

  • Otra forma de comparar a los grupos es con una prueba de significancia

  • Partimos de una hipótesis nula donde las proporciones son iguales para los grupos

\[H_0= \hat{p}_1=\hat{p}_2\]

📌 Esto significa no efecto

Paso 1. Proporción agregada

  • El primer paso para la prueba es crear una proporción agregada

  • Por ejemplo, el Grupo 1 tiene 20 observaciones con 7 éxitos:

    • \(n_1 = 20\)
    • \(\hat{p}_1 = 0.35\)
  • El Grupo 2 tiene 10 observaciones y 5 éxitos:

    • \(n_2 = 10\)
    • \(\hat{p}_2 = 0.5\)
  • Proporción agregada: \(\hat{p} = \frac{7 + 5}{20 + 10} = \frac{12}{30} = 0.4\)

Paso 2: Error estándar

  • En segundo lugar calculamos el error estándar para la hipótesis nula
    • Utilizando la proporción agregada

\[ se=\sqrt{{\hat{p}(1-\hat{p})}(\frac{1}{n_1}} + \frac{1}{n_2})\] \[ se=\sqrt{{0.4(1-0.4)}(\frac{1}{20}} + \frac{1}{10})=0.24\]

Paso 3: Puntuación Z

  • Con la información podemos calcular la puntuación Z

\[ Z= \frac{Estimador- H_0}{se_0}\] \[ Z= \frac{(\hat{p}_1-\hat{p}_2)- 0}{se_0}\]

\[ Z= \frac{(0.35-0.5)- 0}{0.24}=-0.62\]

Tabla Z

Tip

  • La probabilidad acumulada a 0.62 es de 76.42
  • Quiere decir que el resultado no es significativo
  • Esta diferencia no sería atípica dada que la \(H_0\) fuese verdadera

Ejemplo 2

  • 📺 Un estudio quiere saber si hay relación entre ver televisión y cometer actos violentos
    • El estudio se enfoca en adolescentes
    • Parten de una muestra aleatoria de 707 familias

Ejemplo 2

Horas de TV Comportamiento agresivo Sin comportamiento agresivo Total
Menos de 1 hr 5 83 88
Al menos 1 hr 154 435 619

Ejemplo 2

Calculamos las proporciones

📌 Grupo 1 \[n_1=88\] \[\hat{p}_1=\frac{5}{88}=0.057\] 📌 Grupo 2 \[n_2=619\] \[\hat{p}_2=\frac{154}{619}=0.249\]

Paso 1: Proporción agregada

  • En primer lugar calculamos la proporción agregada

\[\hat{p}= \frac{5+154}{88+619}=\frac{159}{707}=0.224\]

Paso 2: Error estándar

  • Con la proporción agregada calculamos el error estándar considerando \(H_0\) como verdadera

\[ se=\sqrt{{\hat{p}(1-\hat{p})}(\frac{1}{n_1}} +\frac{1}{n_2}) \] \[ se=\sqrt{{0.224(1-0.224)}(\frac{1}{88}} + \frac{1}{619})=0.047 \]

Paso 3: Estimar puntuación Z

\[ Z= \frac{(\hat{p}_1-\hat{p}_2)- 0}{se_0}\] \[ Z= \frac{(0.057-0.249)- 0}{0.047}=-4.08\] - Una puntuación de -4.08 es significativa al 99%

Diferencia de proporciones en R

prop.test(x=c(5,154), n=c(5+83, 154+435), conf.level = 0.95)

## 5 y 154 son los casos de comportamiento agresivo
## 5 y 83 los casos con menos de una hr de tv
## 154 y 435 los casos con más de una hr

    2-sample test for equality of proportions with continuity correction

data:  c(5, 154) out of c(5 + 83, 154 + 435)
X-squared = 16.722, df = 1, p-value = 4.329e-05
alternative hypothesis: two.sided
95 percent confidence interval:
 -0.2711622 -0.1381217
sample estimates:
    prop 1     prop 2 
0.05681818 0.26146010 

Diferencia de medias

Diferencia de medias

  • Cuando la respuesta es cuantitativa comparamos sus medias
  • Analizamos en qué medida la diferencia entre las medias de la muestra \((\bar{x}_1− \bar{x}_2)\)
  • Representan a la diferencia entre las medias de la población \((\bar{\mu}_1− \bar{\mu}_2)\)

Error estándar

  • El error estándar de la distribución muestral para diferencia de medias es

\[se(\bar{x}_1 - \bar{x}_2) = \sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}}\]

  • Donde \(s\) es la desviación estándar y \(n\) el número de observaciones

Ejemplo 3

  • Tenemos un experimento que quiere ver el efecto de reportar resultados acompañados de un gráfico

  • Un grupo de tratamiento lee sobre la efectividad de un medicamento con gráficos

  • Un grupo de control lee sobre la efectividad de un medicamento sin gráficos

  • Al final hacen una valoración del 1 al 10 sobre la efectividad del medicamento

Ejemplo 3

Grupo Tamaño de la muestra Media Desviación estándar
Texto y gráfico 30 6.83 1.18
Solo texto 31 6.13 1.43
  • La diferencia entre las muestras es \((\bar{x}_1− \bar{x}_2)= (6.83)-(6.13)=0.7\)

Calculando el error estándar

\[se= \sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}}\] \[se= \sqrt{\frac{1.18^2}{30} + \frac{1.43^2}{31}}=0.335\]

Intervalo de confianza

  • El procedimiento es similar al de las proporciones

  • La diferencia es que utilizamos la puntuación \(t\)

\((\bar{x}_1− \bar{x}_2) \pm t_.025 (se)\)

Grados de libertad

  • Los grados de libertad se estiman de la siguiente forma

  • Donde los grados de libertad son

\[ df= (n_1+n_1−2)\] - En el caso del efecto de las gráficas

\[ df= (30+31−2=59)\] - Con estos datos vamos a la tabla \(t\)

Tabla t

\[(\bar{x}_1− \bar{x}_2) \pm 2 (0.335)\] \[(0.7) \pm 2 (0.335)\] - Límite inferior 0.03 - Limite superior 1.37

Important

  • Un intervalo de confianza positivo significa que \(\mu_1\) es más grande que \(\mu_2\)
  • Un intervalo de confianza negativo significa que \(\mu_2\) es más grande que \(\mu_1\)

T test con dos muestras

  • Compara si forman parte de la misma distribución
  • Podemos obtener diferentes medias simplemente por muestreo
  • Qué tan atípica serían los valores para los grupos si su media fuese la misma

Prueba t

  • Para poner a prueba si la diferencia es significativa calculamos puntuaciones \(t\)

\[ t=\frac{(\bar{x}_1− \bar{x}_2)-0}{se}\] - En el ejemplo previo \[\hat{x}_1=6.83\] \[\hat{x}_2=6.13\]

Prueba t

\[ t=\frac{(6.83− 6.13)-0}{0.335}= 2.08\]

  • Al revisar la tabla \(t\) vemos que supera el umbral de 95%
  • El resultado es significativo