Técnicas de Muestreo
Especialidad en Estadística Aplicada
Proyecto Final - Datos Faltantes
Introducción
Un patrón de datos faltantes describe la configuración de valores ausentes y observados en un conjunto de datos. Sin embargo, es importante no confundir este patrón con el mecanismo que produce la ausencia de dichos datos, es decir cual es la relación entre la ausencia de datos y las variables en la matriz de datos. Así el patrón indica en dónde faltan datos, mientras el mecanismo describe porqué faltan estos datos (Enders, s. f.). El Análisis Exploratorio de Datos (EDA, por sus siglas en inglés) evalua si en nuestro conjunto de datos existen patrones asociados a la ausencia de datos. En la literatura diversos autores han descrito diversos patrones observados en conjuntos de datos (Little y Rubin 2019). Este proyecto final tiene como objetivo explorar los mecanismos que ocasionan datos faltantes y ocupar la base de datos PLANEA para ilustrarlos.
Datos Faltantes
Sea \(Y = (y_{ij})\) denotando una matriz de datos rectangular \((nxK)\) con datos completos, con \(i\) renglones \(y_i = (y_{i1}, ..., y_{iK})\), donde \(y_{ij}\) es el valor de la variable \(Y_i\) para la unidad \(i\). Con datos ausentes definimos una matriz indicadora de valores faltantes, \(M = (m_{ij})\), tal que \(m_{ij} = 1\) si \(y_{ij}\) es un dato faltante, y \(m_{ij} = 0\) si \(y_{ij}\) es un dato observado. Así la matriz \(M\) define el patrón de datos faltantes. Sin embargo, en ocasiones también puede ser útil usar códigos diferentes para indicar la presencia de tipos diferentes de datos faltantes. Por ejemplo, \(m_{ij} = 1\) para una unidad de no respuesta debido a falta de contacto, \(m_{ij} = 2\) para una unidad de respuesta que no quiso responder, y \(m_{ij} = 3\) para una unidad que no quiso responder una pregunta en particular. En el caso de un ensayo clínico podríamos considerar \(m_{ij} = 1\) como un dato faltante porque el ensayo terminó, \(m_{ij} = 2\) para el \(i-esimo\) participante que dejo el ensayo por efectos colaterales, y \(m_{ij} = 3\) para un \(i-esimo\) participante que no pudo contactarse.
En la Figura 1 se observan los diferentes patrones de datos faltantes los cuales se describen a continuación.
Patrón univariado. El inciso \(a\) de la Figura 1 muestra la ausencia univariada de datos. Este tipo de patrones se observa en el diseño de experimentos. Por ejemplo, en el contexto de experimentos de agricultura, en los cuales la unidad experimental es una parcela. En la que, se cultiva cierto número de semillas en condiciones ambientales balanceadas y se espera que todas germinen. Cuando los datos están completos los factores en el diseño son ortogonales. Sin embargo, en algunas condiciones algunas unidades falta, ya que no germinaron o se registraron incorrectamente. Como resultado se obtiene un patrón donde \(Y_K\) es incompleta y \(Y_1,...,Y_{K-1}\) se observan sin problema. En el caso de la Figura 1b el patrón es similar, pero los datos faltantes se encuentran en más de una variable.
Patrón monótono. Se observa en los estudios longitudinales (Ver Figura 1c) en los que una vez que faltan los datos de un participante, las siguientes mediciones también están ausentes cuando por ejemplo hay muerte experimental. En este caso las variables se pueden organizar de tal forma que todos los \(Y_{j+1},...,Y_K\) son datos faltantes para todas las unidades donde \(Y_j\) está ausente, para todo \(j=1,...,K-1\)
Patrón general. Se encuentran datos faltantes en cualquier lugar del conjunto de datos (Ver Figura 1d). Un ejemplo de este patrón son las unidades de no respuesta en un grupo de entrevistados, a los cuales se les administra un cuestionario, y un subconjunto de los entrevistados no responde completamente al cuestionario, porque no lo contactaron, se rehusó o por alguna otra razón. En este caso, los ítems de la encuesta son las variables incompletas y las mediciones completas son aquellas que se registraron previamente o fueron completadas por el entrevistador.
Patrón de variable latente. A veces puede ser útil considerar los datos faltantes como variables latentes y aplicar algunas estrategias para estimar los parámetros. por ejemplo, en la Figura 1 inciso f, donde \(X = (X_1, X_2)\) representan dos variables latentes que están por completo ausentes, y \(Y=(Y_1, Y_2, Y_3, Y_4)\) un conjunto de variables completamente observadas. El análisis de factores puede verse como una análisis de regresión multivariado de Y sobre el patrón de X.
Patrón subidentificado. En este caso los datos dan poco soporte para la estimación. Este patrón se observa cuando la combinación de variables categóricas no tiene participantes o es muy baja.
En el caso de la Figura 1e se observa la ausencia de datos porque se unieron conjuntos de datos, que no se recolectaron al mismo tiempo o que provienen de fuentes diferentes.
En cualquier caso, los datos faltantes pueden ser un problema para el análisis de datos, ya que pueden sesgar los resultados y reducir la precisión de las inferencias.
Mecanismos que producen datos faltantes
Estos pueden venir de dos formas: faltantes por diseño y faltantes no intencionales.
- Faltantes por diseño: Planeados dentro del diseño de la encuesta, son más fáciles de integrar en los análisis y los factores de ponderación. Ejemplo: Si un encuestado indica que no está empleado, se le omiten preguntas sobre responsabilidades laborales. También puede ocurrir si las encuestas usan lógica aleatoria para asignar preguntas o módulos.
- Faltantes no intencionales: Surgen por razones no planificadas y pueden generar sesgo si no se manejan adecuadamente. Ejemplo: Cuando los participantes abandonan la encuesta o se niegan a responder ciertas preguntas.
El estudio de los datos faltantes no intencionales es de particular interés ya que el tratamiento de estos datos depende fuertemente de los mecanismos que producen su ausencia. Rubin (1976) formalizó la teoría para el tratamiento de los datos faltantes al considerarlos una variable aleatoria y asignarlos a una distribución. En la sección anterior definimos la matriz M, como la matriz indicadora de los datos faltantes. Por simplicidad asumimos que los renglones \((y_i, m_i)\) son independientes y se distribuyen idénticamente sobre \(i\). El mecanismo de ausencia está caracterizado por una distribución condicional de \(m_i\) dado \(y_i\), es decir \(f_M|Y(m_i|y_i,\phi)\), donde \(\phi\) denota un parámetro desconocido que vincula los datos con las variables indicadoras y permite conocer la probabilidad global de tener datos faltantes. Si la ausencia es independiente de los valores de los datos, faltantes u observados, es decir, para toda \(i\) y cualquier valor de \(y_i,y_i^*\), en la muestra de espacio de Y,
\[ f_{M|Y}(m_i|y_i,\phi) = f_{M|Y}(m_i|y_i^*,\phi) \]
se denomina a los datos como faltantes completamente al azar (MCAR). Así se establece que la probabilidad de observar datos faltantes es independiente de los datos observados y faltantes en el conjunto de datos.
Si \(y_{(0)i}\) denota los componentes de \(y_i\) que son observados para la unidad \(i\), y \(y_{(1)i}\) denota le componente de \(y_i\) que están ausentes para la misma unidad. Un supuesto menos restrictivo que MCAR es que la ausencia depende de \(y_i\) solo a través de los componentes \(y_{(0)i}\), esto es si para toda \(i\) y cualquiera valores distintos \((y_{(1)i}, y^*_{(1)i})\) de componentes ausentes en el espacio muestral de \(y_{(1)}\),
\[ f_{M|Y}(m_i|y_{(0)i}, y^*_{(1)i}\phi) = f_{M|Y}(m_i|y_{(0)i}, y^*_{(1)i},\phi) \]
En este caso el mecanismo de ausencia se conoce como missing at random (MAR). Es importante señalar que aquí se considera que el mecanismo es puramente al azar después de condicionar o controlar los datos observados. Es decir, dos participantes con perfiles de puntajes observados debe tener la misma probabilidad de tener datos faltantes, mientras dos participantes con perfiles de puntajes observados deberá tener una tasa diferente de datos faltantes.
El mecanismo se llama missing not at random (MNAR) si la distribución de \(m_i\), depende de los componentes ausentes de \(y_i\). Así, dos participantes con perfiles idénticos de datos observados no tendrán la misma probabilidad de tener datos faltantes. Asimismo, podría ser que la ausencia de esta información reflejara información adicional a la observada. Esto puede resultar en que las variables tienen distribuciones diferentes, por lo que la imputación se hace más difícil.
En términos prácticos es importante identificar el mecanismo que produce la ausencia de datos, ya que solo así podemos determinar el tratamiento más adecuado.
Datos Faltantes en la Prueba PLANEA
Selección de Muestra Aleatoria
La base de datos corresponde a la aplicación 2017 del Plan Nacional para la Evaluación de los Aprendizajes (PLANEA) de Educación Media Superior, la cual se encuentra disponible en: https://www.inee.edu.mx/evaluaciones/planea/media-superior-ciclo-2016-2017/. Esta base está conformada por 117,700 registros y 761 variables que evalúan aprendizajes clave en Lenguaje y Comunicación, y Matemáticas. Para el Análisis de Datos se consideraron únicamente las siguientes secciones del cuestionario:
Sección 1. Datos Generales
- Reactivos del 1 al 3
Sección 4. Características Personales.
Reactivos del 13 al 20
Reactivos del 34 al 48
Así como las variables:
Alumno. Variable numérica que corresponde al identificador del alumno.
Ent. Variable de texto que indica la entidad Federativa de donde proviene el alumno.
Admon. Variable de texto que corresponde al tipo de Administración de la escuela.
Sost. Variable de texto que corresponde al tipo de sostenimiento.
Sexo. Variable numérica que corresponde al sexo del estudiante.
Edad. Variable numérica con la edad del estudiante en años cumplidos.
PV1LYC Valor plausible 1 de Lenguaje y Comunicación.
PV1MAT Valor plausible 1 de Matemáticas.
Y se obtuvo una muestra aleatoria de 10,000 registros.
Descripción de datos faltantes.
Evaluamos la presencia de datos faltantes (MD) y encontramos que el \(95.89\%\) de los registros está completo, es decir el \(4.11\%\) de los registros tiene al menos un MD. En cuanto a las variables observamos que el 87.5% de la variables tiene datos faltantes, y que la mayoría de estos se encuentran en diferentes combinaciones de los ítems en las Secciones 1 y 4 del cuestionario. En cuanto a las nuevas variables PV1LYC y PV1MAT observamos que los datos se encuentran completos para todos los participantes. En estas secciones se observa una ausencia de respuesta cercana al 1.2% para cada uno de los reactivos. Llama la atención que la mayor cantidad de MD se encuentra en los reactivos MA.3 (1.9%), MA.2 (1.6%), MA.1( 1.6%) y M.47 (1.48%). En estos reactivos se indaga el estado civil de los participantes, sí alguno de sus padres habla una lengua indígena, y si se les dificulta pensar correctamente al tomar una decisión de prisa. Esto puede resultar de que en el contexto de los estudiantes estas preguntas son confusas o inconsistentes con el objetivo planteado para la aplicación del instrumento.
En términos de las combinaciones de MD observamos que hay 64 combinaciones diferentes donde las más prevalentes son aquellas en las que los participantes omitieron responder a las Secciones 1 y 4 del cuestionario (n=105) y aquellas donde se saltaron los reactivos del M.1 al M.3 que corresponde a 40 registros.
A fin de evaluar si los factores produjeron patrones diferentes en los MD se realizaron gráficas para cada factor. En los cuales se observa la proporción de datos faltantes para cada nivel del factor, así como el número total de datos faltantes. Existen ligeras diferencias entre hombres y mujeres, al parecer los hombres tienen una mayor cantidad de MD que las mujeres. En cuanto al tipo de administración se observan menos MD en las escuelas que tienen administración particular. Lo cual es consistente cuando se evalúa la variable sustento que tiene una mayor cantidad de MD en el nivel público. En cuanto a la edad, se observa una mayor cantidad de MD en los grupos de edad de 17 y 18 años.
En relación con el factor Entidad los patrones difieren entre estados. Por ejemplo, Baja California, Guerrero, Jalisco, Morelos y Querétaro tienen un mayor número de MD, asimismo para estos estados se observa que las variables correspondientes a las secciones 1 y 4 del cuestionario conformar la mayoría de los MD. Mientras que en otros estados la distribución de MD se centra solo en algunos reactivos (ver Aguascalientes, Campeche, Chiapas, Chihuahua, Hidalgo, Sinaloa y Tabasco).
Las diferencias descritas en la distribución de datos faltantes podría sugerir que personas con ciertas características prefirieron no responder a ciertas preguntas, por lo que se trata de datos del tipo MAR (missing at random) o MNAR (missing not at random).
Para evaluar el impacto que tendría eliminar los MD en los análisis subsiguientes se realizaron dos análisis de correlación de Spearman uno con datos completos y otra utilizando el método “pairwise.complete.obs” en donde se eliminan solo los datos faltantes de las dos variables que se están comparando. Se puede suponer que si las correlaciones producen coeficientes de correlación muy diferentes conservar los datos completos producirá resultados sesgados.
Como se puede observar las matrices de correlaciones de ambos análisis no parecer diferir entre ellas. Lo que sugiere que eliminar los datos no generará un gran impacto en el análisis. Adicionalmente, (schafer1999?) (ver para una discusión más amplia (madley-dowd2019?) ) sugiere que cuando hay una porcentaje menor al 5% de datos faltantes, no se observan mejoras importantes al realizar imputación múltiple. Por lo que procederemos a realizar el análisis descriptivo y el escalamiento multidimensional con datos completos.