Siguiendo a Gary King, Michael Tomz and Jason Wittenberg en su documento Making the Most of Statistical Analyses: Improving Interpretation and Presentation, publicado en American Journal of Political Science, Apr. 2000, Vol. 44, No. 2, pp. 347-361, la idea es crear una simulación de los resultados de cualquier modelo estadístico y con ellos presentar visualizaciones que presenten el coeficiente estimado, pero también la incertidumbre asociada, con el objeto de hacer más comprensibles los modelos a los lectores.
Veamos un ejemplo ajustando un modelo de regresión lineal multivariada, y desarrollado en R.
Los datos se tomaron de la encuesta sobre Educación Financiera de 2018, asociada a la Gran Encuesta Integrada de Hogares de ese mismo año, y realizada por el DANE (Colombia).
El modelo es:
\[\begin{multline} \begin{aligned} IngresoTotal = & \beta_0 + \beta_1hombre + \beta_2edad +\\ & \beta_3Medellin + \beta_4Bogota + \beta_5EFBaja + \\ & \beta_6EFMedia + \beta_7gastosMenores + \beta_8gastosMayores + \\ & \beta_9anosEducacion + \varepsilon \end{aligned} \end{multline}\]
Dónde edad y años de educación son variables numéricas discretas, y las restantes dummy: hombre, como su nombre indica tiene como individuo de referencia a una mujer; Medellín y Bogotá tienen a Cali como ciudad de referencia; EF Baja y Media tienen que ver con el nivel de Educación Financiera y se referencian respecto a un alto nivel de educación financiera; y, finalmente, Gastos Menores y Mayores se referencian respecto a aquellos que gastan lo mismo que ganan.
En la Tabla 1 se presentan los resultados.
Se conocen los valores estimados y la matriz de varianza:
point_estimate <- coef(mod1)
variance_covariance <- vcov(mod1)
Se toman \(n = 5000\) muestras de una distribución normal multivariada con media igual al valor estimado y varianza igual a la matriz de varianza generada por el modelo.
Se obtiene como resultado la simulación de n muestras de tamaño uno de los coeficientes, con las cuales se puede representar la distribución de dichos coeficientes de las maneras usuales:
Los coeficientes tienden a tener una distribución normal. Se presentan con líneas rojas el intervalo de confianza con un \(95\)% de probabilidad.
Teniendo la distribución de cada coeficiente, se procede a simular el mismo número de veces el valor de salida Y = IngresoTotal.
Por ejemplo, para una mujer de Cali, de 30 años, con sólo 11 años de educación, lo usual sería presentar: $1,215,502
Pero puede presentarse su distribución.
O una opción que entienden los no conocedores de la estadística:
Intuitivamente se entiende el punto como el valor esperado, pero que se puede desplazar por la barra horizontal.
El valor esperado tiene una menor dispersión:
Lo deseable es simular, por ejemplo, para todas las edades de interés, según \(11\) ó \(16\) años de educación y generar el siguiente gráfico:
Se observará que se obtiene un gráfico semejante al de visualizar el resultado del modelo lineal, con sus bandas de nivel de confianza, lo cual es usado comúnmente hoy en día, pero no en el año 2000. El beneficio es que las bandas no presentan el nivel de confianza como se entiende en la estadística clásica, sino la probabilidad de que se posicione entre uno y otro valor, tal como lo entienden los usuarios.
Para mi es como un antecedente de las visualizaciones actuales, pero con la ventaja de las simulaciones de Montecarlo. Como dicen los autores, podría haberse realizado mediante bootstrap o modelos bayesianos. Todas estas técnicas acercan el mensaje emitido al mensaje recibido por parte del público lector de los resultados, haciendo la comunicación más efectiva.