La pérdida de información es un desafío en investigación. Muchos aspectos pueden provocar su ausencia, las cuales se pueden presentar en diferentes etapas del estudio como en el reclutamiento, la implementación y el seguimiento 1 2.
En el reclutamiento: Abandono antes de la asignación, condiciones experimentales o cambios de opinión que llevan a los potenciales participantes a perder interés en el estudio.
En la implementación, cuestionarios mal diseñados o preguntas complejas o difíciles que pueden herir la sensibilidad de los participantes, pueden generar desinterés o evasión para responderlas. Cuestionarios muy largos, pueden resultar abrumadores y disminuyen la tasa de respuesta. En estudios longitudinales, el seguimiento puede verse afectado, ya que algunos participantes abandonan el estudio o se pierde el contacto con ellos 1.
Otros aspectos que contribuyen a la pérdida de información incluyen las características de la medición, las condiciones de recopilación de datos, la gestión de estos y, en ocasiones, factores aleatorios. Estos elementos complejizan la obtención de datos completos y precisos, que son esenciales para garantizar la validez y confiabilidad de los resultados de la investigación 1.
Se recomienda discutir técnicas analíticas que aborden la pérdida de datos, describiendo patrones y distribuciones de datos faltantes, y documentando cómo afectaron el análisis original. Se sugiere que el manejo de datos faltantes sea parte de todo análisis, usando técnicas como eliminación de datos, imputación y estimación de modelos1.
Mcknight et al (2007) 1 destacan que la mayoría de la literatura sobre datos faltantes se enfoca en el tratamiento estadístico. Recomiendan explorar las causas de los datos faltantes, evaluar su impacto en la confiabilidad y validez del estudio, y considerar opciones para manejar los valores faltantes.
La pérdida de datos puede afectar tanto la validez de los instrumentos como la interpretación y generalización de los resultados. Abordar este problema puede mejorar la investigación y su impacto a largo plazo. Las soluciones incluyen usar la información disponible o trabajar solo con datos completos, pero este último enfoque puede sesgar las estimaciones y aumentar el error de muestreo al reducir el tamaño de la muestra.
Si la pérdida de datos es aleatoria y no excesiva, eliminar observaciones puede no distorsionar significativamente los resultados. Sin embargo, cuando no se cumplen estos supuestos, se prefieren metodologías más avanzadas, como la imputación1.
Describe la ubicación de los valores faltantes en una matriz de datos. Si al ordenar la matriz se observa una forma escalonada, se tiene un patrón monótono. Otros patrones que pueden aparecer son:
Sólo una variable tiene datos faltantes (Patrón Univariado)
Dos variables tienen valores faltantes excluyentes entre sí
(Patrón Bivariado Excluyente)
Los valores faltantes no siguen ningún patrón
(Patrón No Estructurado).
1
Existen tres mecanismos de perdida por los datos faltantes: Perdidos Completamente al Azar (MCAR), Perdidos al Azar (MAR) y Perdidos No Al Azar (NMAR)1.
MCAR implica que los valores faltantes no dependen de los valores observados ni de los valores faltantes, es decir, no hay diferencias sistemáticas entre estos. Los valores observados provienen de una submuestra aleatoria. Este mecanismo puede verificarse con la prueba de Little y es el más estricto de los tres1.
MAR implica que los datos faltan en función de los valores observados, pero no de los valores faltantes. La ausencia de datos en una variable puede explicarse por otras variables observadas. Sin embargo, MAR no puede probarse con los datos disponibles. MCAR y MAR juntos corresponden a la suposición ignorable de Rubin1 2.
NMAR ocurre cuando los datos faltantes dependen tanto de los observados como de los faltantes, por lo que las asociaciones observadas no explican completamente la ausencia de datos. NMAR es un mecanismo no ignorable, y los análisis estándar no son adecuados para este caso1 2.
La ignorabilidad se refiere a la necesidad de modelar el mecanismo de datos faltantes al estimar parámetros. Si los datos son MAR y el proceso de datos faltantes no afecta la estimación, entonces el mecanismo es ignorable. Para datos NMAR, el mecanismo debe modelarse para obtener estimaciones precisas.
Por ejemplo, en un modelo para predecir el peso, el color de pelo sería un factor ignorable, pero el género no. Si una persona no responde a una encuesta porque desea evitar compartir cierta información, los datos son NMAR; si la falta de respuesta es accidental, como al ignorar la encuesta, los datos son MAR.
Si hay relación entre los datos observados (Yobs) y la ausencia de datos (R), no puede ser MCAR. Sin embargo, no podemos distinguir entre MAR y NMAR sin acceso a los datos faltantes. Por ello, diferenciar entre MAR y NMAR es subjetivo y se basa en lógica más que en pruebas directas Allison (2002)1 y Rubin (1976)2
Mecanismo | Variables | Individuos | Tiempo |
---|---|---|---|
MCAR | Sujetos omiten respuestas de manera aleatoria | Faltan datos del sujeto de manera aleatoria | Los sujetos no se presentan aleatoriamente a la sesión de recopilación de datos |
MAR | Los sujetos omiten respuestas que son atribuibles a otras respuestas | Faltan datos del sujeto pero están relacionados con datos demográficos disponibles | Los sujetos que se desempeñaron mal en la sesión anterior no se presentan en la siguiente |
NMAR | El sujeto no responde a los ítems incriminatorios | Faltan datos del sujeto pero están relacionados con datos demográficos no medidos | Los sujetos a los que le va mal al momento de la sesión, no se presentan |
Antes de aplicar cualquier método, es crucial diagnosticar la naturaleza de los valores faltantes, para ver si son MCAR, MAR o NMAR
- Gráficos de diagnóstico: Se pueden usar gráficos de densidad o gráficos de calor para visualizar la distribución de los valores faltantes. Estos gráficos permiten identificar patrones de valores faltantes, como si una variable tiene más datos faltantes en ciertas categorías.
- Mapas de calor de datos faltantes: Proveen una visión global de dónde se concentran los datos faltantes. El paquete naniar
en R, por ejemplo, permite crear gráficos sencillos que muestran la estructura de los valores faltantes en las variables.
Si los valores faltantes son completamente aleatorios (MCAR), la pérdida de datos puede ser manejada mediante eliminación de casos o imputación. Sin embargo, si los valores faltantes son NMAR, las técnicas de imputación pueden producir sesgos significativos si no se ajustan correctamente los modelos.
1. Eliminación de Casos con Valores Faltantes
2. Imputación Simple
Técnica que reemplaza los valores faltantes con un solo valor estimado.
Este método sustituye los valores faltantes con la media (para datos numéricos) o la mediana. Si bien es fácil de implementar, puede subestimar la varianza en los datos, ya que todos los valores faltantes se reemplazan con el mismo valor.
Para variables categóricas, se puede reemplazar el valor faltante por la categoría más frecuente. Este método tiene limitaciones similares a la imputación con la media, ya que no captura la variabilidad entre los datos.
Imputación donde los valores faltantes son reemplazados con valores observados de casos similares en la base de datos. Este método es preferido en ciertos estudios de encuestas porque tiende a mantener la variabilidad original de los datos.
3. Imputación Múltiple (IM)
Es una técnica avanzada que ofrece una solución más robusta frente a la incertidumbre de los valores faltantes. Implica tres pasos principales:
Paso 1. Imputación: Se crean varias bases de datos imputadas con diferentes valores estimados para los valores faltantes, generando una variabilidad entre ellas.
Paso 2. Análisis: Cada conjunto de datos imputado se analiza por separado usando los mismos procedimientos estadísticos.
Paso 3. Combinación de Resultados: Los resultados de los análisis separados se combinan en una única estimación final, que tiene en cuenta la incertidumbre derivada de los valores faltantes.
4. Máxima Verosimilitud (Maximum Likelihood, ML)
Enfoque paramétrico que estima los parámetros del modelo estadístico usando toda la información disponible. ML ajusta el modelo sin la necesidad de imputar los datos faltantes, basándose en la suposición de que los datos son MAR. Es común en métodos como el análisis de ecuaciones estructurales (SEM), ya que puede trabajar directamente con los datos incompletos, bajo el supuesto de MAR.
4. Máxima Verosimilitud
Ventajas: Es eficiente y no requiere crear múltiples conjuntos de datos. Además, es menos susceptible a producir sesgos significativos si los datos faltantes son MAR.
Limitaciones: Puede ser complejo de implementar, y si los datos son NMAR, los resultados pueden ser sesgados.
5. Algoritmo EM (Expectation-Maximization)
El algoritmo Expectation-Maximization (EM) es un método iterativo que estima los parámetros y valores faltantes simultáneamente:
1. Etapa de Expectativa (E): Calcula la probabilidad esperada de los datos faltantes, dadas las estimaciones actuales de los parámetros.
2. Etapa de Maximización (M): Actualiza las estimaciones de los parámetros basándose en los datos observados y los valores imputados de la etapa E.
Este proceso se repite hasta que las estimaciones convergen. El EM es útil cuando se está lidiando con modelos multivariados, pero al igual que ML, es más apropiado cuando los datos faltantes son MAR.
6. Método MCMC (Cadenas de Markov Monte Carlo)
El método de Monte Carlo basado en cadenas de Markov es una técnica más flexible que puede manejar situaciones complejas de datos faltantes, incluso cuando las distribuciones no son normales. Utiliza un proceso de muestreo de Gibbs para generar imputaciones que respetan las correlaciones entre las variables.
El enfoque MCMC es ideal cuando se trata de bases de datos grandes con múltiples variables interrelacionadas, ya que permite una mayor flexibilidad en la modelización de las relaciones entre los datos faltantes y observados.
7. Ponderación
Estrategia utilizada, sobre todo en encuestas. Aquí, los casos se ponderan para compensar los valores faltantes. Si un grupo de la muestra tiene más probabilidades de tener datos faltantes, los casos de ese grupo pueden recibir mayor peso en el análisis. Es especialmente útil cuando los datos faltantes no son aleatorios (NMAR) y las ponderaciones pueden ajustarse según el patrón observado de los datos faltantes.