Introducción

El Análisis Exploratorio de Datos (AED) es la primera etapa al llevar a cabo un estudio de datos para poder realizar la limpieza de la base de datos y poder identificar posibles errores, valores atípicos y relaciones entre las variables.

Metodología

La metodología empleada es la autodidacta, desarrollando casos prácticos haciendo uso de herramientas de acceso libre y datos abiertos, a través de la manipulación del lenguaje R y el entorno de desarrollo RStudio. Esto generá una investigación reproducible para poder ser empleada en análisis posteriores o para poder ser replicada por otras personas. El análisis se presenta por medio de un documento en RMarkdown.

Análisis exploratorio de datos

El flujo de trabajo para realizar el EDA consiste de:

  1. Realizar un análisis descriptivo de las variables.
  2. Re-ajustar los tipos de las variables.
  3. Detección y tratamiento de datos ausentes.
  4. Identificación de datos atípicos y su tratamiento.
  5. Realizar un examen numérico y gráfico de las relaciones entre las variables analizadas para determinar el grado de correlación entre ellas.

Para la realización del caso práctico se considera la base de datos diarios de concentración de contaminantes registrados en las estaciones de control de la calidad del aire de la Junta de Castilla y León.

Análisis descriptivo

Se descarga la base que se encuentra en el portal de datos abiertos: datos.gob.es. Una vez descargada la base se ubica en el directorio de trabajo del entrono de desarrollo.

Para iniciar la exploración de la información se utilizan funciones de estadística descriptiva para explorar la estructura de la base de datos y comenzar a desarrollar la narrativa sobre las variables de las que se compone el estudio. Asímismo, se complementan las estadísticas más relevantes con las represantaciones gráficas para identificar la forma de la distribución de los datos.

Conforme se modifique la base de datos original, se debe realizar un análisis descriptivo para comprobar el efecto que producen sobre los datos los cambios aplicados en cada nueva etapa del AED.

Ajuste de los tipos de variables

Tras cargar los datos en el entorno de trabajo otra comprobación importante es verificar que cada variable se ha almacenado con el tipo de valor que corresponde. Las variables habituales son:

  • numérica
  • caracter
  • categórica
  • lógica o booleana
  • fecha

Cuando se encuentran variables donde el tipo de dato no se corresponde con la naturaleza del valor que contiene, se pueden recodificar con las funciones de coerción de tipos de datos.

Detección y tratamiento de datos ausentes

Detección

Los datos ausentes son tratados en R como NA. La presencia de esta situación se debe a fallos en la captura de los datos o debido a la imposibilidad para obtener cierta medida u observación. Para evitar problemas en el análisis estadístico o la generación de gráficas es necesario detectar y aplicar algún tipo de tratamiento a estos valores.

Tratamiento

Algunas maneras de tratar con valores ausentes son:

  • Rellenar los valores con la media, mediana o el valor más frecuente de la variable.
  • Completar los valores que faltan por el valor que esté directamente antes o después en la fila o columna.
  • Completar todos los datos faltantes con \(0\), si se trata de valores numéricos.
  • Eliminar las filas que presenten valores ausentes, siempre y cuando el conjunto de datos sea lo suficientemente grande y no se pierde información relevante al eliminar esas filas.
  • Eliminar las variables que presentan un porcentaje mayor del \(50 \%\) de datos ausentes.

La mejor manera de abordar el tratamiento de valores ausentes, depende del tipo de dato, del tratamiento posterior de los mismos o de la causa de la falta de esos valores.

El tratamiento de datos ausentes pueden modificar los resultados al disminuir el tamaño muestral o introducir un sesgo,

Detección y tratamiento de valores atípicos (outliers)

Una observación atípica es significativamente distinta del resto de datos que presenta una variable. Es necesario detectarlas y tratarlas para poder disminuir su influencia en los análisis posteriores o, en casos muy extremos, eliminarlas del conjunto de datos.

Análisis de correlación entre variables

La correlación determina la relación lineal entre dos o más variables. Esto no quiere decir, que una correlación entre variables indique una relación causa-efecto. La correlación se mide a través del coeficiente de correlación r que oscila entre \(-1\) y \(1\). No existe relación entre las variables, es decir, son independientes, cuando el coeficiente es \(0\).

Conclusión

El Análisis Exploratorio de Datos o AED permite explorar los datos de forma preliminar y dar una visualización interactiva de datos. Se trata de un proceso fundamental para el entendimiento básico de los datos y las relaciones que existen entre ellos. Es un proceso de organizar y preparar los datos, detectar fallos en el diseño y recogida de los mismos, el tratamiento y evaluación de los datos ausentes, la identificación de los casos atípicos y la posible relación que puedan existir entre las variables. Es importante aplicar estos métodos para que los análisis estadísticos aplicados a esos datos sean altamente fiables.