Pareo (Matching)

Cuándo no usar asignación aleatoria?

Necesitamos resultados inmediatos
Existe la posibilidad de que sea ilegal
Cuando es un evento del pasado
Cuando se trata de un fenómeno universal en curso

Pasado: efectos de un régimen político

Fenómeno universal: cambio climático, normas sociales

Por qué usar pareo (matching)

Reduce dependencia del modelo

Imbalance → dependencia del modelo → discreción del investigador → sesgo

Podemos comparar manzanas con manzanas

\[ \color{white}{\beta_0 \text{E}^2} \text{Outcome} = \beta_0 + \beta_1 \text{Education} + \beta_2 \text{Treatment} \color{white}{\beta_0 \text{E}^2} \]

\[ \color{white}{\beta_0 \text{E}^2} \text{Outcome} = \beta_0 + \beta_1 \text{Education} + \beta_2 \text{Treatment} \color{white}{\beta_0 \text{E}^2} \]

\[ \text{Outcome} = \beta_0 + \beta_1 \text{Education} + \beta_2 \text{Education}^2 + \beta_3 \text{Treatment} \]

\[ \color{white}{\beta_0 \text{E}^2} \]

\[ \color{white}{\beta_0 \text{E}^2} \text{Outcome} = \beta_0 + \beta_1 \text{Education} + \beta_2 \text{Treatment} \color{white}{\beta_0 \text{E}^2} \] ]

\[ \text{Outcome} = \beta_0 + \beta_1 \text{Education} + \beta_2 \text{Education}^2 + \beta_3 \text{Treatment} \]

Cómo sabemos que podemos remover esos puntos?

Proceso para hacer pareo (matching)

Pre-procesamiento
Hacer algo para adivinar o modelar la asignación al tratamiento.
Estimación
Usar los nuevos datos para construir el modelo, calcular la diferencia de mediasm etc.

Diferentes métodos para hacer el pareo

Nearest neighbor matching (NN)

Mahalanobis distance / Euclidean distance

Propensity score matching (PSM)
Inverse probability weighting (IPW)
…y muchos otros métodos que no cubriremos aquí

Nearest neighbor matching

Encontrar observaciones no tratadas que están cerca/similar a observaciones tratadas basandonos en confounders
Hay muchas formas (matemáticas para medir esa distancia)
Pero la distancia euclideana es la más común

https://www.cnbc.com/2020/02/05/70percent-chance-of-recession-in-next-six-months-study-from-mit-and-state-street-finds.html

Problemas potenciales con pareo ó matching

Nearest neighbor matching puede ser un poco egosísta

Si analizamos la figura anterior podemos ver que no solo se tiran muchas observaciones y lo ideal sería no deshacernos de tantas.

Solución: no tirar todo!

Propensity Score

Usamos un modelo para predecir la asignación al tratamiento

Ej: Logistic, probit regression, machine learning, etc.

Este sería, por ejemplo, un modelo logit:

\[\operatorname{log} \frac{p_\text{Tratado}}{1 - p_\text{Tratado}} = \beta_0 + \beta_1 \text{Educación} + \beta_2 \text{Edad}\]

\[\operatorname{log} \frac{p_\text{Manual}}{1 - p_\text{Manual}} = \beta_0 + \beta_1 \text{MPG}\]

# A tibble: 2 × 5
  term        estimate std.error statistic p.value
  <chr>          <dbl>     <dbl>     <dbl>   <dbl>
1 (Intercept)   -6.60      2.35      -2.81 0.00498
2 mpg            0.307     0.115      2.67 0.00751

# A tibble: 2 × 5
  term        estimate std.error statistic p.value
  <chr>          <dbl>     <dbl>     <dbl>   <dbl>
1 (Intercept)  0.00136     2.35      -2.81 0.00498
2 mpg          1.36        0.115      2.67 0.00751

Modelo1. LogOdds, difícil de interpretar

Modelo 2. e^β; centrado alrededor de 1: 1.5 -> 50% más probable

Ahora predecimos todos los valores de MPG y encontramos la probabilidad predicha de transmisión manual

augment(model_transmission, data = mtcars, type.predict = "response") %>% 
  select(mpg, am, .fitted)

# A tibble: 32 × 3
     mpg    am .fitted
   <dbl> <dbl>   <dbl>
 1  21       1  0.461 
 2  21       1  0.461 
 3  22.8     1  0.598 
 4  21.4     0  0.492 
 5  18.7     0  0.297 
 6  18.1     0  0.260 
 7  14.3     0  0.0986
 8  24.4     0  0.708 
 9  22.8     0  0.598 
10  19.2     0  0.330 
# ℹ 22 more rows

Fila 7 tiene muy poca probabilidad de ser manual

Fila 8 es MUY PROBABLEMENTE manual

Propensity Score Matching

Es un método muy popular
Pero hat razones matemáticas importantes para concluir que hacer matching no es necesariamente bueno para propósitos de identificación
Propensity scores son valuables siempre y cuando no los usemos para hacer matching

Liga a artículo de King y Nielsen

https://gking.harvard.edu/files/gking/files/pan1900011_rev.pdf

Un método más: Ponderación (Weighting)

Hacemos algunas observaciones más importantes que otras

	Young	Middle	Old
Population	30%	40%	30%
Sample	60%	30%	10%

	Young	Middle	Old
Population	30%	40%	30%
Sample	60%	30%	10%
Weight	30 / 60 0.5	40 / 30 1.333	30 / 10 3

Se multiplican los pesos por los valores promedio para ajustar por importancia.

Inverse Probability Weighting

Usamos los propensity scores para “ponderar” observaciones de acuerdo a que tan raras sean

Las observaciones con una probabilidad alta de tratamiento que no lo son (y viceversa) tienen mayor peso

\[ \frac{\text{Treatment}}{\text{Propensity}} + \frac{1 - \text{Treatment}}{1 - \text{Propensity}} \]