Introducción a Datos Faltantes

Martín Alonso Rondón Sepúlveda

Introducción


La pérdida de información es un desafío en investigación. Muchos aspectos pueden provocar su ausencia, las cuales se pueden presentar en diferentes etapas del estudio como en el reclutamiento, la implementación y el seguimiento 1 2.


En el reclutamiento: Abandono antes de la asignación, condiciones experimentales o cambios de opinión que llevan a los potenciales participantes a perder interés en el estudio.

Introducción


En la implementación, cuestionarios mal diseñados o preguntas complejas o difíciles que pueden herir la sensibilidad de los participantes, pueden generar desinterés o evasión para responderlas. Cuestionarios muy largos, pueden resultar abrumadores y disminuyen la tasa de respuesta. En estudios longitudinales, el seguimiento puede verse afectado, ya que algunos participantes abandonan el estudio o se pierde el contacto con ellos 1.

Introducción


Otros aspectos que contribuyen a la pérdida de información incluyen las características de la medición, las condiciones de recopilación de datos, la gestión de estos y, en ocasiones, factores aleatorios. Estos elementos complejizan la obtención de datos completos y precisos, que son esenciales para garantizar la validez y confiabilidad de los resultados de la investigación 1.

Introducción


Se recomienda discutir técnicas analíticas que aborden la pérdida de datos, describiendo patrones y distribuciones de datos faltantes, y documentando cómo afectaron el análisis original. Se sugiere que el manejo de datos faltantes sea parte de todo análisis, usando técnicas como eliminación de datos, imputación y estimación de modelos1.

Introducción


Mcknight et al (2007) 1 destacan que la mayoría de la literatura sobre datos faltantes se enfoca en el tratamiento estadístico. Recomiendan explorar las causas de los datos faltantes, evaluar su impacto en la confiabilidad y validez del estudio, y considerar opciones para manejar los valores faltantes.

Introducción


La pérdida de datos puede afectar tanto la validez de los instrumentos como la interpretación y generalización de los resultados. Abordar este problema puede mejorar la investigación y su impacto a largo plazo. Las soluciones incluyen usar la información disponible o trabajar solo con datos completos, pero este último enfoque puede sesgar las estimaciones y aumentar el error de muestreo al reducir el tamaño de la muestra.

Introducción


Si la pérdida de datos es aleatoria y no excesiva, eliminar observaciones puede no distorsionar significativamente los resultados. Sin embargo, cuando no se cumplen estos supuestos, se prefieren metodologías más avanzadas, como la imputación1.


Patrón de Datos Faltantes


Describe la ubicación de los valores faltantes en una matriz de datos. Si al ordenar la matriz se observa una forma escalonada, se tiene un patrón monótono. Otros patrones que pueden aparecer son:

  • Sólo una variable tiene datos faltantes (Patrón Univariado)

  • Dos variables tienen valores faltantes excluyentes entre sí
    (Patrón Bivariado Excluyente)

  • Los valores faltantes no siguen ningún patrón
    (Patrón No Estructurado).

Patrón de Datos Faltantes

1


Mecanismos de perdida de los datos faltantes


Existen tres mecanismos de perdida por los datos faltantes: Perdidos Completamente al Azar (MCAR), Perdidos al Azar (MAR) y Perdidos No Al Azar (NMAR)1.


Mecanismos de perdida de los datos faltantes


MCAR implica que los valores faltantes no dependen de los valores observados ni de los valores faltantes, es decir, no hay diferencias sistemáticas entre estos. Los valores observados provienen de una submuestra aleatoria. Este mecanismo puede verificarse con la prueba de Little y es el más estricto de los tres1.

Mecanismos de perdida de los datos faltantes


MAR implica que los datos faltan en función de los valores observados, pero no de los valores faltantes. La ausencia de datos en una variable puede explicarse por otras variables observadas. Sin embargo, MAR no puede probarse con los datos disponibles. MCAR y MAR juntos corresponden a la suposición ignorable de Rubin1 2.

Mecanismos de perdida de los datos faltantes


NMAR ocurre cuando los datos faltantes dependen tanto de los observados como de los faltantes, por lo que las asociaciones observadas no explican completamente la ausencia de datos. NMAR es un mecanismo no ignorable, y los análisis estándar no son adecuados para este caso1 2.

Ignorabilidad


La ignorabilidad se refiere a la necesidad de modelar el mecanismo de datos faltantes al estimar parámetros. Si los datos son MAR y el proceso de datos faltantes no afecta la estimación, entonces el mecanismo es ignorable. Para datos NMAR, el mecanismo debe modelarse para obtener estimaciones precisas.

Ignorabilidad


Por ejemplo, en un modelo para predecir el peso, el color de pelo sería un factor ignorable, pero el género no. Si una persona no responde a una encuesta porque desea evitar compartir cierta información, los datos son NMAR; si la falta de respuesta es accidental, como al ignorar la encuesta, los datos son MAR.


Discriminación entre mecanismos


Si hay relación entre los datos observados (Yobs) y la ausencia de datos (R), no puede ser MCAR. Sin embargo, no podemos distinguir entre MAR y NMAR sin acceso a los datos faltantes. Por ello, diferenciar entre MAR y NMAR es subjetivo y se basa en lógica más que en pruebas directas Allison (2002)1 y Rubin (1976)2


Discriminación entre mecanismos


Sistema de Clasificación propuesto por Rubin (1976)
Mecanismo Variables Individuos Tiempo
MCAR Sujetos omiten respuestas de manera aleatoria Faltan datos del sujeto de manera aleatoria Los sujetos no se presentan aleatoriamente a la sesión de recopilación de datos
MAR Los sujetos omiten respuestas que son atribuibles a otras respuestas Faltan datos del sujeto pero están relacionados con datos demográficos disponibles Los sujetos que se desempeñaron mal en la sesión anterior no se presentan en la siguiente
NMAR El sujeto no responde a los ítems incriminatorios Faltan datos del sujeto pero están relacionados con datos demográficos no medidos Los sujetos a los que le va mal al momento de la sesión, no se presentan

Diagnóstico de los Valores Faltantes

Antes de aplicar cualquier método, es crucial diagnosticar la naturaleza de los valores faltantes, para ver si son MCAR, MAR o NMAR


Procedimiento de Diagnóstico


- Gráficos de diagnóstico: Se pueden usar gráficos de densidad o gráficos de calor para visualizar la distribución de los valores faltantes. Estos gráficos permiten identificar patrones de valores faltantes, como si una variable tiene más datos faltantes en ciertas categorías.


- Mapas de calor de datos faltantes: Proveen una visión global de dónde se concentran los datos faltantes. El paquete naniar en R, por ejemplo, permite crear gráficos sencillos que muestran la estructura de los valores faltantes en las variables.


Importancia del diagnóstico

Si los valores faltantes son completamente aleatorios (MCAR), la pérdida de datos puede ser manejada mediante eliminación de casos o imputación. Sin embargo, si los valores faltantes son NMAR, las técnicas de imputación pueden producir sesgos significativos si no se ajustan correctamente los modelos.



Procedimientos para el Tratamiento de Datos Faltantes


1. Eliminación de Casos con Valores Faltantes


  • Eliminación por lista: Es el enfoque más conservador y elimina cualquier fila de datos que tenga al menos un valor faltante. Si bien garantiza que solo se usan casos completos, puede reducir drásticamente el tamaño de la muestra si hay muchos valores faltantes, afectando la potencia del análisis.

Procedimientos para el Tratamiento de Datos Faltantes


  • Eliminación por pares: Este método utiliza toda la información disponible para cada análisis individual, en lugar de eliminar completamente una fila con datos faltantes. Permite el uso de más datos, pero puede generar diferentes tamaños de muestra para diferentes análisis, lo cual puede dificultar la interpretación de los resultados.


Procedimientos para el Tratamiento de Datos Faltantes


2. Imputación Simple


Técnica que reemplaza los valores faltantes con un solo valor estimado.

Procedimientos para el Tratamiento de Datos Faltantes


  • Imputación con la media o mediana

Este método sustituye los valores faltantes con la media (para datos numéricos) o la mediana. Si bien es fácil de implementar, puede subestimar la varianza en los datos, ya que todos los valores faltantes se reemplazan con el mismo valor.

Procedimientos para el Tratamiento de Datos Faltantes


  • Imputación por moda

Para variables categóricas, se puede reemplazar el valor faltante por la categoría más frecuente. Este método tiene limitaciones similares a la imputación con la media, ya que no captura la variabilidad entre los datos.

Procedimientos para el Tratamiento de Datos Faltantes


  • Hot Deck

Imputación donde los valores faltantes son reemplazados con valores observados de casos similares en la base de datos. Este método es preferido en ciertos estudios de encuestas porque tiende a mantener la variabilidad original de los datos.

Procedimientos para el Tratamiento de Datos Faltantes


3. Imputación Múltiple (IM)


Es una técnica avanzada que ofrece una solución más robusta frente a la incertidumbre de los valores faltantes. Implica tres pasos principales:

Pasos para realizar IM


Paso 1. Imputación: Se crean varias bases de datos imputadas con diferentes valores estimados para los valores faltantes, generando una variabilidad entre ellas.


Paso 2. Análisis: Cada conjunto de datos imputado se analiza por separado usando los mismos procedimientos estadísticos.


Pasos para realizar IM


Paso 3. Combinación de Resultados: Los resultados de los análisis separados se combinan en una única estimación final, que tiene en cuenta la incertidumbre derivada de los valores faltantes.


Procedimientos para el Tratamiento de Datos Faltantes


4. Máxima Verosimilitud (Maximum Likelihood, ML)


Enfoque paramétrico que estima los parámetros del modelo estadístico usando toda la información disponible. ML ajusta el modelo sin la necesidad de imputar los datos faltantes, basándose en la suposición de que los datos son MAR. Es común en métodos como el análisis de ecuaciones estructurales (SEM), ya que puede trabajar directamente con los datos incompletos, bajo el supuesto de MAR.


4. Máxima Verosimilitud


  • Ventajas: Es eficiente y no requiere crear múltiples conjuntos de datos. Además, es menos susceptible a producir sesgos significativos si los datos faltantes son MAR.

  • Limitaciones: Puede ser complejo de implementar, y si los datos son NMAR, los resultados pueden ser sesgados.


Procedimientos para el Tratamiento de Datos Faltantes


5. Algoritmo EM (Expectation-Maximization)


El algoritmo Expectation-Maximization (EM) es un método iterativo que estima los parámetros y valores faltantes simultáneamente:

5. Algoritmo EM (Expectation-Maximization)


1. Etapa de Expectativa (E): Calcula la probabilidad esperada de los datos faltantes, dadas las estimaciones actuales de los parámetros.


2. Etapa de Maximización (M): Actualiza las estimaciones de los parámetros basándose en los datos observados y los valores imputados de la etapa E.


5. Algoritmo EM (Expectation-Maximization)


Este proceso se repite hasta que las estimaciones convergen. El EM es útil cuando se está lidiando con modelos multivariados, pero al igual que ML, es más apropiado cuando los datos faltantes son MAR.


Procedimientos para el Tratamiento de Datos Faltantes


6. Método MCMC (Cadenas de Markov Monte Carlo)


El método de Monte Carlo basado en cadenas de Markov es una técnica más flexible que puede manejar situaciones complejas de datos faltantes, incluso cuando las distribuciones no son normales. Utiliza un proceso de muestreo de Gibbs para generar imputaciones que respetan las correlaciones entre las variables.


El enfoque MCMC es ideal cuando se trata de bases de datos grandes con múltiples variables interrelacionadas, ya que permite una mayor flexibilidad en la modelización de las relaciones entre los datos faltantes y observados.


Procedimientos para el Tratamiento de Datos Faltantes


7. Ponderación


Estrategia utilizada, sobre todo en encuestas. Aquí, los casos se ponderan para compensar los valores faltantes. Si un grupo de la muestra tiene más probabilidades de tener datos faltantes, los casos de ese grupo pueden recibir mayor peso en el análisis. Es especialmente útil cuando los datos faltantes no son aleatorios (NMAR) y las ponderaciones pueden ajustarse según el patrón observado de los datos faltantes.


Referencias

  • Dong, Y., & Peng, C. Y. (2013). Principled missing data methods for researchers.
  • Allison, P. D. (2002). Missing data. Thousand Oaks, CA: Sage.
  • Rubin, D. (1976). Inference and missing data. Biometrika, 63, 581–592. SpringerPlus, 2(1), 222.
  • Schafer, J. L., & Graham, J. W. (2002). Missing data: Our view of the state of the art. Psychological Methods, 7(2), 147–177.
  • Graham, J. W. (2009). Missing data analysis: Making it work in the real world. Annual Review of Psychology, 60 (1), 549-576.

Referencias

  • McKnight, P. E., McKnight, K. M., Sidani, S., & Figueredo, A. J. (2007). Missing data: A gentle introduction. Guilford Publications
  • Little, R. J., & Rubin, D. B. (2019). Statistical analysis with missing data. John Wiley & Sons.
  • Rubin, D. B. (1987). Multiple imputation for nonresponse in surveys. Wiley.
  • Little, R. J. (1988). A test of missing completely at random for multivariate data with missing values. Journal of the American Statistical Association, 83 (404), 1198-1202.

Referencias

  • Schafer, J. L. (1997). Analysis of incomplete multivariate data. Chapman and Hall/CRC.
  • Heckman, J. J. (1979). Sample selection bias as a specification error. Econometrica, 47 (1), 153-161.