s08-prueba-de-hipotesis-colsan

Pruebas de hipótesis

Estadística para las Ciencias Sociales

Diego Solís Delgadillo

Prueba de hipótesis

Consiste en una prueba entre dos hipótesis en competencia
- Hipótesis nula
- Hipótesis alternativa
La hipótesis nula sostiene que no existe un efecto

Ejemplo hipótesis

\(H_0\): Los hombres y mujeres tienen salarios iguales⚖️

\(H_A\): Los hombres tienen salarios superiores a la mujeres 🧔⬆️

Las hipótesis alternativas pueden ser direccionadas o no direccionadas

Un estudio quiere saber si hay sesgo en la promoción de trabajadores
- H1. Se prefieren hombres a mujeres
Se les entregó a supervisores de banco resúmenes (cvs) idénticos

Note

Solo eran distintos en el sexo de la persona
24 resumenes con nombres de hombre y 24 con nombres de mujeres

La base de datos

El paquete moderndive contiene la información

library(moderndive)

promotions %>%
sample_n(size = 6) %>%
arrange(id)

# A tibble: 6 × 3
     id decision gender
  <int> <fct>    <fct> 
1    28 promoted female
2    32 promoted female
3    35 promoted female
4    36 not      male  
5    43 not      female
6    47 not      female

Visualización de la base

ggplot(promotions, aes(x = gender, fill = decision)) +
geom_bar() +
labs(x = "Género en el currículum")

Comparación entre géneros

Important

Menos mujeres fueron promovidas

promotions %>%
group_by(gender, decision) %>%
tally()

# A tibble: 4 × 3
# Groups:   gender [2]
  gender decision     n
  <fct>  <fct>    <int>
1 male   not          3
2 male   promoted    21
3 female not         10
4 female promoted    14

Tip

21 de 24 hombres promovidos (87.5%)
14 de 24 mujeres (58.3%)

¿Es posible haber obtenido este resultado solo por muestreo?

Variación muestral

En los datos hay una diferencia de 29% en las promociones

Diferencia sin discriminación

Si en la población no hubiese discriminación esa diferencia sería igual a 0
- Un mundo sin discriminación

Estimador y ruido

📌 Pero es posible que obtengamos valores distintos a 0 solo por muestreo (por azar)

Prueba de hipótesis

En el ejercicio de promociones lo que nos interesa es la diferencia de proporciones

\[ p_{h}-p_{m}\]

Comparamos dos hipótesis
- Hipótesis nula \(H_{0}\)
- Hipótesis alternativa \(H_{A}\)

Hipótesis nula

¿Qué indica?

La hipótesis nula afirma que no existe un efecto o diferencia de interés

Ejemplo

\(H_{0}\): Los hombres y mujeres son promovidos por igual
\(H_{A}\): Los hombres son promovidos a tasa mayor

Estimador y distribución nula

Nuestro estimador es la diferencia observada en los datos

\[ \hat{p}_{h}-\hat{p}_{m}= 0.875-0.583=0.292=29.2%\]

¿Qué es la distribución nula?

La distribución nula es la distribución muestral asumiendo que el valor del parámetro es igual a 0

P-value

Es la probabilidad de obtener un estimador dado que \(H_{0}\) es verdadera

Tip

Si es una probabilidad es muy pequeña rechazamos la hipótesis nula

Nivel de significancia

Es el umbral establecido para rechazar \(H_{0}\)
- Generalmente 95%

¿Qué implica?

Una significancia de 95% implica que solo habría un 5% de obtener los resultados que tenemos dado que \(H_{0}\) es verdadera

No rechazar \(H_0\) no implica aceptarla

No rechazar \(H_0\) no significa que se acepte como verdadera
- Solo indica que la evidencia disponible no es suficiente para rechazarla con el nivel de significancia establecido.

Advertencia

Es un error común interpretar el no rechazo de \(H_0\) como una prueba de su veracidad.

Errores Tipo I y Tipo II

Error Tipo I

Rechazar una hipótesis nula verdadera (falso positivo).

Error Tipo II

No rechazar una hipótesis nula falsa (falso negativo).

Error Tipo I

Un juez declara culpable a una persona inocente.
Un test da positivo a una persona no infectada

Error Tipo II

Un juez declara inocente a una persona culpable.
Un test da negativo para una persona que está infectada.

Errores Tipo I y Tipo II

Diferencia de proporciones

Cuando tenemos una respuesta categórica entre grupos comparamos proporciones

Notación

\(p_1\) es la proporción de la población del grupo 1
\(p_2\) es la proporción de la población del grupo 2
\((p_1−p_2)\) es la diferencia entre los grupos
\(n_1\) y \(n_2\) son el tamaño de cada muestra

Error estándar de la diferencia

La diferencia \((\hat{p}_1−\hat{p}_2)\) entre dos muestras tiene una distribución muestral
Donde el error estándar de la diferencia entre dos proporciones es

\[se=\sqrt{\frac{p_1(1-p_1)}{n_1}+\frac{p_2(1-p_2)}{n_2}}\]

Ejemplo 1

Queremos observar el efecto de un tratamiento contra el cáncer 💊

Grupo tratamiento

El grupo que recibe el tratamiento está compuesto por 11,535 personas
De ellas 347 murieron de cáncer

Grupo de control

El grupo 2 está compuesto por 14,035 personas que recibieron el placebo
En el grupo de control murieron 327 personas

Ejemplo 1

\[\hat{p}_1 = \frac{347}{11535}=0.030\] \[\hat{p}_2 = \frac{327}{14035}=0.023\]

Calculamos la diferencia

La proporción de muertes en el grupo 1 es de 0.030 y en el segundo de 0.023

📌 La diferencia entre grupos es:

\[ (\hat{p}_1-\hat{p}_2)= (0.030-0.023)=0.007\]

Calculando el error estándar

\[se=\sqrt{\frac{\hat{p}_1(1-\hat{p}_1)}{n_1}+\frac{\hat{p}_2(1-\hat{p}_2)}{n_2}}\] \(\hat{p}_1=0.030\)

\(\hat{p}_2=0.023\)

\(n_1=11,535\)

\(n_2=14,035\)

Calculando el error estándar

\[se=\sqrt{\frac{0.03(1-0.03)}{11,535}+\frac{0.023(1-0.023)}{14,035}}\] \[se=0.002\]

¿Qué significa?

La diferencia entre las muestras no siempre sería 0.007 sino que variaría en promedio 0.002

Intervalo de confianza

El error estándar nos permite saber qué tan cerca está nuestro estimador del valor poblacional
En este caso nuestra estimación es una diferencia de 0.007

¿Cómo crear un intervalo de confianza?

El intervalo de confianza se produce multiplicando el error estándar por la puntuación \(Z\)
- Considerando el nivel de confianza esperado

Intervalo de confianza

\[(\hat{p}_𝟏− \hat{p}_𝟐)\pm Z(se)\] - En el ejemplo del tratamiento, un intervalo al 95% es

\[(0.007)\pm 1.96(0.002)= 0.0039\]

Limite superior = 0.0109
Limite inferior = 0.0030

Interpretación IC

La proporción de muertes es entre 0.003 y 0.10 superior en el grupo de control
- En comparación con el grupo de tratamiento
El intervalo no contiene 0, significa que los grupos son distintos

Importante

Cuando los intervalos contienen el valor de 0 implica que existe la posibilidad de que las proporciones sean iguales

Comparación de proporciones

Otra forma de comparar a los grupos es con una prueba de significancia
Partimos de una hipótesis nula donde las proporciones son iguales para los grupos

\[H_0= \hat{p}_1=\hat{p}_2\]

📌 Esto significa no efecto

Paso 1. Proporción agregada

El primer paso para la prueba es crear una proporción agregada
Por ejemplo, el Grupo 1 tiene 20 observaciones con 7 éxitos:
- \(n_1 = 20\)
- \(\hat{p}_1 = 0.35\)
El Grupo 2 tiene 10 observaciones y 5 éxitos:
- \(n_2 = 10\)
- \(\hat{p}_2 = 0.5\)
Proporción agregada: \(\hat{p} = \frac{7 + 5}{20 + 10} = \frac{12}{30} = 0.4\)

Paso 2: Error estándar

En segundo lugar calculamos el error estándar para la hipótesis nula
- Utilizando la proporción agregada

\[ se=\sqrt{{\hat{p}(1-\hat{p})}(\frac{1}{n_1}} + \frac{1}{n_2})\] \[ se=\sqrt{{0.4(1-0.4)}(\frac{1}{20}} + \frac{1}{10})=0.24\]

Paso 3: Puntuación Z

Con la información podemos calcular la puntuación Z

\[ Z= \frac{Estimador- H_0}{se_0}\] \[ Z= \frac{(\hat{p}_1-\hat{p}_2)- 0}{se_0}\]

\[ Z= \frac{(0.35-0.5)- 0}{0.24}=-0.62\]

Tabla Z

Tip

La probabilidad acumulada a 0.62 es de 76.42
Quiere decir que el resultado no es significativo
Esta diferencia no sería atípica dada que la \(H_0\) fuese verdadera

Ejemplo 2

📺 Un estudio quiere saber si hay relación entre ver televisión y cometer actos violentos
- El estudio se enfoca en adolescentes
- Parten de una muestra aleatoria de 707 familias

Ejemplo 2

Horas de TV	Comportamiento agresivo	Sin comportamiento agresivo	Total
Menos de 1 hr	5	83	88
Al menos 1 hr	154	435	619

Ejemplo 2

Calculamos las proporciones

📌 Grupo 1 \[n_1=88\] \[\hat{p}_1=\frac{5}{88}=0.057\] 📌 Grupo 2 \[n_2=619\] \[\hat{p}_2=\frac{154}{619}=0.249\]

Paso 1: Proporción agregada

En primer lugar calculamos la proporción agregada

\[\hat{p}= \frac{5+154}{88+619}=\frac{159}{707}=0.224\]

Paso 2: Error estándar

Con la proporción agregada calculamos el error estándar considerando \(H_0\) como verdadera

\[ se=\sqrt{{\hat{p}(1-\hat{p})}(\frac{1}{n_1}} +\frac{1}{n_2}) \] \[ se=\sqrt{{0.224(1-0.224)}(\frac{1}{88}} + \frac{1}{619})=0.047 \]

Paso 3: Estimar puntuación Z

\[ Z= \frac{(\hat{p}_1-\hat{p}_2)- 0}{se_0}\] \[ Z= \frac{(0.057-0.249)- 0}{0.047}=-4.08\] - Una puntuación de -4.08 es significativa al 99%

Diferencia de proporciones en R

prop.test(x=c(5,154), n=c(5+83, 154+435), conf.level = 0.95)

## 5 y 154 son los casos de comportamiento agresivo
## 5 y 83 los casos con menos de una hr de tv
## 154 y 435 los casos con más de una hr


    2-sample test for equality of proportions with continuity correction

data:  c(5, 154) out of c(5 + 83, 154 + 435)
X-squared = 16.722, df = 1, p-value = 4.329e-05
alternative hypothesis: two.sided
95 percent confidence interval:
 -0.2711622 -0.1381217
sample estimates:
    prop 1     prop 2 
0.05681818 0.26146010

Diferencia de medias

Cuando la respuesta es cuantitativa comparamos sus medias
Analizamos en qué medida la diferencia entre las medias de la muestra \((\bar{x}_1− \bar{x}_2)\)
Representan a la diferencia entre las medias de la población \((\bar{\mu}_1− \bar{\mu}_2)\)

Error estándar

El error estándar de la distribución muestral para diferencia de medias es

\[se(\bar{x}_1 - \bar{x}_2) = \sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}}\]

Donde \(s\) es la desviación estándar y \(n\) el número de observaciones

Ejemplo 3

Tenemos un experimento que quiere ver el efecto de reportar resultados acompañados de un gráfico
Un grupo de tratamiento lee sobre la efectividad de un medicamento con gráficos
Un grupo de control lee sobre la efectividad de un medicamento sin gráficos
Al final hacen una valoración del 1 al 10 sobre la efectividad del medicamento

Ejemplo 3

Grupo	Tamaño de la muestra	Media	Desviación estándar
Texto y gráfico	30	6.83	1.18
Solo texto	31	6.13	1.43

La diferencia entre las muestras es \((\bar{x}_1− \bar{x}_2)= (6.83)-(6.13)=0.7\)

Calculando el error estándar

\[se= \sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}}\] \[se= \sqrt{\frac{1.18^2}{30} + \frac{1.43^2}{31}}=0.335\]

Intervalo de confianza

El procedimiento es similar al de las proporciones
La diferencia es que utilizamos la puntuación \(t\)

\((\bar{x}_1− \bar{x}_2) \pm t_.025 (se)\)

Grados de libertad

Los grados de libertad se estiman de la siguiente forma
Donde los grados de libertad son

\[ df= (n_1+n_1−2)\] - En el caso del efecto de las gráficas

\[ df= (30+31−2=59)\] - Con estos datos vamos a la tabla \(t\)

Tabla t

\[(\bar{x}_1− \bar{x}_2) \pm 2 (0.335)\] \[(0.7) \pm 2 (0.335)\] - Límite inferior 0.03 - Limite superior 1.37

Important

Un intervalo de confianza positivo significa que \(\mu_1\) es más grande que \(\mu_2\)
Un intervalo de confianza negativo significa que \(\mu_2\) es más grande que \(\mu_1\)

T test con dos muestras

Compara si forman parte de la misma distribución
Podemos obtener diferentes medias simplemente por muestreo
Qué tan atípica serían los valores para los grupos si su media fuese la misma

Prueba t

Para poner a prueba si la diferencia es significativa calculamos puntuaciones \(t\)

\[ t=\frac{(\bar{x}_1− \bar{x}_2)-0}{se}\] - En el ejemplo previo \[\hat{x}_1=6.83\] \[\hat{x}_2=6.13\]

Prueba t

\[ t=\frac{(6.83− 6.13)-0}{0.335}= 2.08\]

Al revisar la tabla \(t\) vemos que supera el umbral de 95%
El resultado es significativo