El modelo contrafáctico de la inferencia causal
La expresión “correlación no es causalidad” debe ser uno de los mantras más celebres en las ciencias sociales y en cualquier disciplina en la que nos auxiliamos de técnicas de análisis estadístico con el objetivo de determinar si la evidencia es consistente o no con una hipótesis determinada.
El término correlación debe entenderse en un sentido amplio, pues el mantra se refiere a cualquier estadístico que cuantifique la medida en que dos variables están asociadas. Esto incluye, además del coeficiente de correlación de Pearson, otra medidas como la pendiente en regresión simple, los estadísticos tau y lambda o la diferencia de medias.
Supongamos una teoría que implica que la variable de tratamiento \(D\) tiene un efecto causal sobre la variable de resultado \(Y\): \[D \rightarrow Y.\] Digamos que en una muestra se toman mediciones de ambas variables y se observa que la media de \(Y\) es distinta para los distintos valores de \(D\). Es en este contexto que, con toda seguridad, alguien exclamará que “correlación no es causalidad”, dando a entender que de ese hecho no se puede concluir que existe una asociación de naturaleza causal entre ambas variables. Tal vez sea más preciso decir que la correlación no es evidencia suficiente de una relación causal. Pero esa es la idea.
¿Pero por qué es así? En ocasiones, se esgrime un razonamiento intuitivo del tipo “existen otras causas que podrían influir en \(Y\)”. Esto es bastante vago y, muy especialmente, da pocas luces sobre qué sería considerado entonces evidencia convincente de causalidad.
Una respuesta más sólida es proporcionada por el modelo contrafáctico de la inferencia causal, también conocido como modelo de estados potenciales. El modelo contrafáctico es en la actualidad el enfoque más aceptado para abordar los desafíos que enfrenta la investigación orientada a contrastar empíricamente hipótesis causales o evaluar el impacto de una intervención.
A continuación expondremos los aspectos fundamentales del modelo, valiéndonos de técnicas de simulación para ilustrarlo.
En el caso más simple, la variable de tratamiento tiene dos valores, \(D \in \lbrace 0, 1 \rbrace\), de forma tal que \(D=1\) para las unidades en el grupo de tratamiento y \(D=0\) para las unidades en el grupo de control. La variable de resultado observada \(Y\) es numérica.
A esto se debe agregar la variable aleatoria \(Y^D\), que representa los estados potenciales del resultado. Cualquier unidad \(i\) podría estar en el grupo de tratamiento o en el grupo de control. La variable de estado potencial \(Y^1\) es el conjunto de los valores posibles en el resultado para cada una de las unidades, de encontrarse en el grupo de tratamiento. La variable de estado potencial \(Y^0\) es el conjunto de resultados posibles para cada una de las unidades, de encontrarse en el grupo de control.
El efecto causal de \(D\) sobre \(Y\) en la unidad \(i\) es definido como la diferencia entre los estados potenciales: \[\delta_i = y_i^1 -y_i^0.\] El efecto del tratamiento en la unidad \(i\) es la diferencia entre el valor del resultado si \(i\) estuviese en el grupo de tratamiento y el valor del resultado si \(i\) estuviese en el grupo de control.
El problema es que, o bien la unidad \(i\) está en el grupo de tratamiento, o bien está en el grupo de control. Si está en el grupo de tratamiento, entonces el resultado observado es \(y_i^1\); si está en el grupo de control, el resultado observado es \(y_i^0\). El efecto del tratamiento en la unidad no se puede calcular porque se necesitan los dos estados potenciales del resultado. Pero el resultado observado \(y_i\) sólo nos informa de uno de ellos, dependiendo de si \(i\) está en el grupo de tratamiento o el grupo de control. Esto queda manifiesto en la siguiente ecuación para la variable de resultado observada en la unidad \(i\): \[y_i = d_i y_i^1 + \left(1 - d_i \right) y_i^0.\]
La imposibilidad de observar conjuntamente \(y_i^1\) y \(y_i^0\) es lo que se conoce como el problema fundamental de la inferencia causal.
El enfoque estadístico para la estimación del efecto causal consiste en concentrarse en la población, en vez de en una unidad específica. Entonces, la cantidad de interés es el efecto medio del tratamiento, que es la diferencia entre el valor esperado de los estados potenciales. \[ \begin{aligned} \mathrm{E} \left[\delta \right] & = \mathrm{E} \left[Y ^1 - Y^0 \right] \\ & = \mathrm{E} \left[Y ^1 \right] - \mathrm{E} \left[Y^0 \right]. \end{aligned} \]
El efecto medio del tratamiento se puede definir para subpoblaciones. Por ejemplo, el efecto medio del tratamiento en las unidades en tratamiento es \[ \begin{aligned} \mathrm{E} \left[\delta \mid D=1 \right] & = \mathrm{E} \left[Y ^1 - Y^0 \mid D=1 \right] \\ & = \mathrm{E} \left[Y ^1 \mid D=1 \right] - \mathrm{E} \left[Y^0 \mid D=1 \right], \end{aligned} \] mientras que el efecto medio del tratamiento en las unidades en control es \[ \begin{aligned} \mathrm{E} \left[\delta \mid D=0 \right] & = \mathrm{E} \left[Y ^1 - Y^0 \mid D=0 \right] \\ & = \mathrm{E} \left[Y ^1 \mid D=0 \right] - \mathrm{E} \left[Y^0 \mid D=0 \right]. \end{aligned} \]
Nótese que, en principio, el efecto del tratamiento para ambos grupos puede ser distinto.
Como una población se compone de unidades en tratamiento y en control, el efecto medio del tratamiento se puede definir como la suma ponderada del efecto medio para estas dos subpoblaciones. Si \(\pi\) es la proporción de la población en el grupo de tratamiento, entonces, \[\begin{align*} \mathrm{E} \left[\delta \right] & = \pi \mathrm{E} \big[\delta \mid D=1 \big] + (1 - \pi) \mathrm{E} \left[\delta \mid D=0 \right] \\ & = \pi \lbrace \mathrm{E} \left[Y^1 \mid D=1 \right] - \mathrm{E} \left[Y^0 \mid D=1 \right] \rbrace \\ & + (1 - \pi) \lbrace \mathrm{E} \left[Y^1 \mid D=0 \right] - \mathrm{E} \left[Y^0 \mid D=0 \right] \rbrace \end{align*}\]
De esta ecuación se desprende que el efecto medio del tratamiento es una función de cinco cantidades. De ellas, tres son observables:
– \(\mathrm{E} \left[Y^1 \mid D=1 \right]\) es observable como el valor esperado del resultado en el grupo de tratamiento, \(\mathrm{E} \left[Y \mid D=1 \right]\);
– \(\mathrm{E} \left[Y^0 \mid D=0 \right]\) es observable como el valor esperado del resultado en el grupo de control, \(\mathrm{E} \left[Y \mid D=0 \right]\), y
– \(\pi\) es observable como \(\mathrm{E} \left[D \right]\).
En cambio, las otras dos cantidades son imposibles de observar directamente en los datos:
– \(\mathrm{E} \left[Y^0 \mid D=1 \right]\) es el valor esperado de \(Y\) en el grupo de tratamiento, en el caso de que el grupo no hubiese estado expuesto al tratamiento, mientras que
– \(\mathrm{E} \left[Y^1 \mid D=0 \right]\) es el valor esperado de \(Y\) en el grupo de control, en el caso de que el grupo hubiese recibido tratamiento.
Es por ello que se las llama contrafácticas. Sin embargo, sin estas dos cantidades no se puede estimar el efecto medio del tratamiento.
Así, el modelo de los estados potenciales pone de manifiesto que el reto al estimar el efecto medio del tratamiento consiste en hacerse de información que, en sentido estricto, no puede ser obtenida de las observaciones.
A diferencia de la inferencia estadística, los problemas de inferencia causal no se resuelven con el proceso de selección de la muestra o con el tamaño de la muestra. Aún asumiendo una muestra probabilística infinita de una población infinita, las cantidades contrafácticas continuarían siendo un problema para calcular \(\mathrm{E} \left[\delta \right]\).
Este tipo de problemas son conocidos como problemas de identificación. Los problemas de identificación del efecto causal sólo pueden ser enfrentados recurriendo a supuestos adicionales. El grado en que estos supuestos son más o manos convincentes depende de las características del diseño de investigación, cuya principal tarea consiste en hacer uso de la información observable para suplementar las cantidades contrafácticas, no observables.
El diseño de investigación más simple es estimar el efecto causal con la diferencia entre el valor esperado del resultado en el grupo de tratamiento y el valor esperado del resultado para el grupo de control; es decir \[\begin{align*} \hat{\delta}_N & = \mathrm{E} \left[Y \mid D = 1 \right] - \left[Y \mid D = 0 \right] \\ & = \mathrm{E} \left[Y^1 \mid D = 1 \right] - \left[Y^0 \mid D = 0 \right]. \end{align*}\]
Esta diferencia de medias es conocida como el estimador inocente, y no puede tomarse como un estimador válido del efecto del causal de \(D\) sobre \(Y\).
Para ver por qué, consideremos primero el efecto medio del tratamiento entre las unidades en tratamiento, que en la mayoría de las aplicaciones es la cantidad de interés. Recuérdese que este efecto es \(\mathrm{E} \left[\delta \mid D = 1 \right] = \mathrm{E} \left[Y^1 \mid D = 1 \right] - \left[Y^0 \mid D = 1 \right]\). Para expresar el estimador inocente en términos de este efecto, se suma en ambos lados de la igualdad \(\left[Y^0 \mid D = 1 \right]\) y después se resta, también en ambos lados \(\left[Y^0 \mid D = 0 \right]\), como se hace a continuación (se invierten los términos para tener el estimador inocente del lado izquierdo):
\[\begin{align*} \mathrm{E} \left[Y^1 \mid D = 1 \right] - \left[Y^0 \mid D = 1 \right] & = \mathrm{E} \left[\delta \mid D = 1 \right]\\ \mathrm{E} \left[Y^1 \mid D = 1 \right] & = \mathrm{E} \left[\delta \mid D = 1 \right] + \mathrm{E} \left[Y^0 \mid D = 1 \right]\\ \mathrm{E} \left[Y^1 \mid D = 1 \right] - \mathrm{E} \left[Y^0 \mid D = 0 \right] & = \mathrm{E} \left[\delta \mid D = 1 \right] + \mathrm{E} \left[Y^0 \mid D = 1 \right] - \mathrm{E} \left[Y^0 \mid D = 0 \right] \\ \hat{\delta}_N & = \underbrace{\mathrm{E} \left[\delta \mid D = 1 \right]}_{\text{efecto causal}}\\ & + \underbrace{\mathrm{E} \left[Y^0 \mid D = 1 \right] - \mathrm{E} \left[Y^0 \mid D = 0 \right]} _{\text{sesgo línea base}} \end{align*}\]
La diferencia en las medias de los valores observados para los dos grupos es una cifra, digamos que 12.7. Como se desprende de la ecuación, esa cifra contiene el verdadero efecto causal en el grupo de tratamiento, \(\left[\delta \mid D = 1 \right]\), pero también contiene una cantidad dada por \(\mathrm{E} \left[Y^0 \mid D = 1 \right] - \mathrm{E} \left[Y^0 \mid D = 0 \right]\), y no hay forma de determinar qué parte del 12.7 corresponde a cada uno de estos dos términos.
La cantidad \(\mathrm{E} \left[Y^0 \mid D = 1 \right] - \mathrm{E} \left[Y^0 \mid D = 0 \right]\) representa la diferencia en el valor esperado del resultado para el grupo de tratamiento y el grupo de control, en el caso de que ninguno de los dos grupos se hubiese expuesto al tratamiento.
¿Qué pasa si usamos el estimador inocente para estimar el efecto total? Aplicando la misma lógica que antes a \(\mathrm{E} \left[\delta \right] = \pi \mathrm{E} \big[\delta \mid D=1 \big] + (1 - \pi) \mathrm{E} \left[\delta \mid D=0 \right]\), se obtiene
\[\begin{align*} \hat{\delta}_N = & \mathrm{E} \left[Y^1 \mid D = 1 \right] - \left[Y^0 \mid D = 0 \right] \\ = & \underbrace{\mathrm{E} \left[\delta \right]}_{\text{efecto causal}} \\ & + \underbrace{\mathrm{E} \left[Y^0 \mid D = 1 \right] - \mathrm{E} \left[Y^0 \mid D = 0 \right]} _{\text{sesgo línea base}} \\ & + \underbrace{ \left(1 - \pi \right) \lbrace \mathrm{E} \left[\delta \mid D = 1 \right] - \mathrm{E} \left[\delta \mid D = 0 \right] \rbrace.}_{\text{sesgo por efecto diferencial}} \end{align*}\]
Si se usa la diferencia de la media del resultado observado entre los grupos como el estimador del efecto medio del tratamiento, el resultado obtenido contiene, como antes, al verdadero efecto causal más las diferencias en el resultado esperado en ausencia del tratamiento. Pero, adicionalmente, se suma el término \(\mathrm{E} \left[\delta \mid D = 1 \right] - \mathrm{E} \left[\delta \mid D = 0 \right]\) que corresponde a la diferencia del efecto medio del tratamiento para los dos grupos.
Así, al tomar la diferencia en las medias del resultado observado en una muestra determinada, cabe esperar el resultado sea distinto al verdadero efecto del tratamiento. Pero, a la vista de lo anterior, una parte de esta diferencia no es atribuible al error muestral. Es un problema de la fórmula utilizada para medir el efecto causal (el estimador).
A menos que se den condiciones muy específicas, la media del estimador inocente no es igual al verdadero efecto del tratamiento. Es por eso que se dice del estimador inocente que es un estimador sesgado del verdadero efecto del tratamiento (que es la forma en la que el modelo contrafáctico expresa el mantra “correlación no es causalidad”).
¿Cuáles son las “condiciones muy específicas” bajo las cuáles la diferencia de medias se puede tomar como un estimador insesgado? Todos los diseños de investigación tienen que resolver de alguna forma el problema de la ausencia de información para las cantidades contrafácticas. Las condiciones bajos las cuales el diseño proporciona un estimador insesgado del efecto causal son llamadas condiciones de identificación.
En la mayoría de los casos, las condiciones de identificación tienen que ver con el mecanismo de asignación del tratamiento, ya sea en la población, o bien en las unidades de la muestra analizada.
Por “mecanismo de asignación” nos referimos a la respuesta a la pregunta ¿por qué algunas unidades se encuentran en el grupo de tratamiento y otras en el grupo de control? ¿Qué características de las unidades llevan a que algunas pertenezcan a un grupo y otras al otro? Supongamos que el mecanismo de asignación es tal que el valor esperado de ambos resultados potenciales es independiente con respecto a la condición de tratamiento: \[\left(Y^0, Y^1 \right) \perp D.\]
En tal situación, se dice que la asignación del tratamiento es ignorable. Si la ignorabilidad se satisface, el valor esperado de cada uno de los estados potenciales es el mismo al margen de si las unidades se encuentran en el grupo de tratamiento o en el grupo de control. Entonces \(\mathrm{E} \left[Y^1 \mid D = 1\right] = \mathrm{E} \left[Y^1\right]\) y \(\mathrm{E} \left[Y^0 \mid D = 0\right] = \mathrm{E} \left[Y^0\right]\). De esto se sigue que \[ \begin{aligned} \mathrm{E} \left[ Y^1 \mid D = 1 \right] - \mathrm{E} \left[ Y^0 \mid D = 0 \right] = \mathrm{E} \left[ Y^1 \right] - \mathrm{E} \left[ Y^0 \right] = \mathrm{E} \left[ \delta \right], \end{aligned} \] de modo que la diferencia de medias para los valores observados del resultado es un estimador insesgado del efecto causal. O sea que, bajo el supuesto de ignorabilidad, resulta que correlación sí es causalidad. Siendo así, entonces, lo crucial es hasta qué punto estamos dispuestos a aceptar que dicha condición se satisface, y eso depende del diseño de investigación.
En el caso del diseño experimental, la ignorabilidad es incontrovertible. En un experimento, el equipo de investigación define de manera aleatoria qué unidades son asignadas al grupo de tratamiento y qué unidades son asignadas al grupo de control. Cuando el mecanismo de asignación del tratamiento es aleatorio, la condición de ignorabilidad queda satisfecha y la diferencia del promedio en la variable de resultado es un estimador insesgado del efecto causal.
En cambio, en los estudios observacionales (es decir, los no experimentales) la condición de ignorabilidad es insostenible para la diferencia de medias. El mecanismo de asignación del tratamiento normalmente no será aleatorio, y algunas de las características de las unidades que se asocian con la condición de tratamiento podrían estar asociadas también con el valor esperado de los estados potenciales. En tal caso, la validez de los resultados es vulnerable a la posibilidad de ser afectados por alguna de las dos fuentes de sesgo (línea base y efecto diferencial).
Así, en los estudios observacionales el diseño de investigación para la inferencia causal consiste en la selección de una subpoblación para la que, dada una determinada técnica de análisis, el supuesto de ignorabilidad sea plausible, y la asociación empírica entre \(D\) y \(Y\) sea aceptada como evidencia de la relación causal \(D \rightarrow Y\).
En la siguiente sección utilizaremos el paquete foreach.
install.packages("foreach")
Vamos a simular primero un proceso generador de datos en el que no se satisface la condición de ignorabilidad. Por ejemplo, supongamos que se quiere probar el impacto de un programa de capacitación (\(D\)) sobre la productividad (\(Y\)) de un grupo de trabajadores.
Para ello, pensemos en un grupo de 500 sujetos que se distinguen entre sí por una característica \(X\). Esta característica no sólo influye en el valor de la variable de respuesta \(Y\), sino que además la probabilidad de que cada sujeto se encuentre en el grupo de tratamiento es una función del valor de \(X\).
Por ejemplo, digamos que \(X\) representa los niveles de motivación. Si la participación es voluntaria, entonces es más probable que quienes participen en el programa sean a la vez los trabajadores más motivados. Pero también podría ser el caso que los trabajadores más motivados tienden a ser más productivos que los menos motivados, aún sin presentarse a la capacitación. Si este fuera el caso, se tendría que \(\mathrm{E} \left[Y^1 \mid D = 0 \right] > \mathrm{E} \left[Y^0 \mid D = 0 \right]\).
Este proceso es simulado en el siguiente código.
X <- rnorm(200) # Característica de 200 sujetos, X ~ N(0, 1)
## Probabilidad de asignación: función de X
probs <- 1 / (1 + exp(-2*X))
cond <- c(1, 0) # Condición de tratamiento
## Asignar a cada i un valor D = 0,1 con probabilidad probs
library("foreach")
D <- foreach(i=1:200) %do%
sample(cond, p = c(probs[i], 1 - probs[i]), size = 1, replace = TRUE)
D <- as.integer(D) # Convierte resultado en números enteros
El vector X
representa una característica que distingue a los sujetos entre sí. El valor que recibe en cada observación proviene de una variable aleatoria con distribución normal estándar.
El vector probs
contiene la probabilidad de cada sujeto de ser asignado al grupo de tratamiento, siguiendo la función logística \[\Pr \left(D=1 \mid X \right) = p = \frac{1}{1 + e^{-2X}}.\] La asignación del tratamiento se realiza con la función foreach()
. A cada sujeto se le asigna un valor de 1 con probabilidad \(p\) y un valor de 0 con probabilidad \(1 - p\).
Vemos ahora como queda la distribución de los grupos de tratamiento y de control resultante.
table(D)
## D
## 0 1
## 98 102
Ahora digamos que el verdadero efecto del tratamiento es \(\mathrm{E} \left[\delta \right] = 2\). Al mismo tiempo, la característica \(X\), que determina la condición de tratamiento de los individuos, también influye en el valor del resultado.
e <- rnorm(200, mean = 0, sd= .5) # error aleatorio
## El valor del resultado es una función de D y Y
Y <- 6 + (2 * D) + (1.5 * X) + e
El vector e
representa el efecto conjunto de las otras características de los sujetos que influyen sistemáticamente en el valor de \(Y\) (de las que se asumen que no están correlacionadas con la condición de tratamiento), así como la parte del valor de \(Y\) atribuible al azar.
Ahora intentamos estimar el efecto del tratamiento con la diferencia de la media de \(Y\) entre los grupos definidos por el valor de \(D\):
media.y1<- mean(Y[D == 1]) # Media de Y en grupo de tratamiento
media.y0 <- mean(Y[D == 0]) # Media de Y en grupo de control
media.y1 - media.y0 # estimador inocente
## [1] 3.901015
El resultado está considerablemente lejos del verdadero valor del efecto causal.
Ahora pensemos que la variable de resultado tiene la misma relación con \(X\) y con \(D\) que antes, pero el proceso de asignación del tratamiento es aleatorio, como en un diseño experimental. En el siguiente código, cada sujeto es asignado al tratamiento con probabilidad de 1/2.
D.r <- sample(cond, size = 200, replace = TRUE)
table(D.r)
## D.r
## 0 1
## 88 112
Ahora, replicamos exactamente la misma regla para el valor de \(Y\) que en el primer proceso, con los mismos vectores X
y e
, de modo que la única diferencia está en el mecanismo usado para la asignación del tratamiento. A continuación se toma la diferencia de medias.
Y.r <- 6 + (2 * D.r) + (1.5 * X) + e
mean(Y.r[D.r == 1]) - mean(Y.r[D.r == 0])
## [1] 1.997016
El resultado está considerablemente más cerca del verdadero valor del efecto causal.
Se puede mostrar que en el primer caso buena parte de la diferencia con respecto al verdadero efecto del tratamiento es atribuible al sesgo del estimador, mientras que en el segundo (con el diseño experimental) la diferencia es atribuible al azar.
Para ello, vamos a replicar mil veces el proceso de asignación del tratamiento para después tomar la diferencia de medias. A continuación, calcularemos el promedio de las estimaciones.
Comenzamos con el proceso de asignación del tratamiento que depende de la característica en el vector X
. El comando puede tardar un poco en ejecutarse, dependiendo de cada equipo.
my.fun <- function(){
D <- foreach(i=1:200) %do%
sample(cond, p = c(probs[i], 1 - probs[i]), size = 1, replace = TRUE)
D <- as.integer(D)
Y <- 6 + (2 * D) + (1.5 * X) + e
mean(Y[D == 1]) - mean(Y[D == 0])
}
dist <- replicate(1000, my.fun( ))
El vector dist
contiene la diferencia de medias tomada en cada una de las mil réplicas del proceso. A continuación, generamos un histograma para hacernos una idea de la distribución de los resultados y obtenemos la media.
hist(dist, freq = F, breaks = "FD")
mean(dist)
## [1] 3.750836
La media del estimador sigue estando a una distancia considerable del verdadero valor del parámetro.
Ahora replicaremos mil veces el proceso de asignación aleatoria del tratamiento.
my.fun <- function(){
D.r <- sample(cond, size = 200, replace = TRUE) # asignación aleatoria
Y.r <- 6 + (2 * D.r) + (1.5 * X) + e
mean(Y.r[D.r == 1]) - mean(Y.r[D.r == 0])
}
dist.r <- replicate(1000, my.fun( ))
De manera similar, obtenemos el histograma y la media del vector dist.r
, que contiene la diferencia de medias tomada en cada una de las mil réplicas del proceso.
hist(dist.r, freq = F, breaks = "FD")
mean(dist.r)
## [1] 1.994089
En este caso, la media de las estimaciones es prácticamente idéntica al verdadero valor del efecto causal, lo que deja claro que el sesgo del estimador es una función del mecanismo de asignación.
Cuando contestamos a la pregunta de por qué “correlación no es causalidad”, recurriendo al modelo contrafáctico obtenemos mucho más que lo que el manta sugiere. En primer lugar, el modelo nos da una respuesta matizada: la asociación empírica entre las variables \(D\) y \(Y\) no es evidencia suficiente de que estén relacionadas causalmente, a menos que el mecanismo de asignación del tratamiento sea ignorable. Únicamente cuando los estados potenciales del resultado son independientes con respecto a la condición de tratamiento de las unidades, deja de ser un problema el hecho de que la estimación del efecto causal requiere de cantidades contrafácticas no observables.
Si no se sostiene la condición de ignorabilidad, la diferencia entre el valor verdadero del efecto causal y la estimación no obedece exclusivamente al error estadístico. Como se demostró aquí, cuando el proceso de asignación del tratamiento no es ignorable, la media del estimador es distinta al parámetro, y es en ese sentido que se dice que el estimador es sesgado. En cambio, cuando la asignación es ignorable, el sesgo del estimador desaparece y toda la diferencia observada en una aplicación específica con respecto al verdadero efecto casual es atribuible al azar.
El grado en que se sostiene la ignorabilidad no es una propiedad del estimador, sino del diseño de investigación. En los experimentos aleatorios, la ignorabilidad está incorporada en el propio diseño, de modo que su cumplimiento no es disputable. En los estudios observacionales, en cambio, el grado en que el supuesto de ignorabilidad resulta plausible es una función de la subpoblación seleccionada y la técnica utilizada para analizar la información.
La formulación original del modelo contrafáctico se atribuye a Neyman (1990[1923], 1935). Su formalización y difusión actuales se deben a Rubin (1974; 1977) y a Holland (1986). Manski (1995) hace una distinción clara de los problemas de identificación con respecto de los propios de la inferencia estadística.
El modelo es expuesto en las secciones introductorias de diversos textos relacionados con inferencia causal, por ejemplo Angrist y Pischke (2009), Gangl (2010), Heckman (2005), Hernán y Robins (2020), Imbens y Rubin (2015), Keele (2015) y Pearl (2009). Aquí sigo de cerca la exposición y la notación de Morgan y Winship (2007).