UNIDAD 1

Análisis descriptivo bivariado y AED con Quarto

Jaime Gaviria, profesor Dpto Ciencias básicas

Universidad de Antioquia, Facultad Nacional de Salud Pública

2024-09-27

Agenda clase 27 septiembre

  1. Primera parte: Análisis descriptivos bivariados (8 a 9:15):

    • b. Dos cuantitativas: medidas de correlación y gráficos de dispersión.

    • c. Una cuantitativa vs una cualitativa: medidas de resumen por grupos y gráficos.

  2. Segunda parte: Análisis Exploratorio de Datos (AED) (9:30 a 11):

    1. Identificación de outliers y manejo.

    2. Datos faltantes: ejemplo de manejo de una variable con datos atípicos.

      1. Discusión artículo sobre imputación múltiple (Van Buuren and Groothuis-Oudshoorn 2011).

      2. Introducción a la librería mice: ejemplo de imputación de datos faltantes.

Análisis bivariado II: dos variables cuantitativas

Ejemplo motivación: existe una relación entre la frecuencia cardíaca y el ejercicio?.

Fuente: R4epi

Variable predictora vs respuesta?

Fuente: R4Epi

Coeficiente de correlación de Pearson

La ecuación del coeficiente de correlación de Pearson es:

\[r = \frac{\sum\limits_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum\limits_{i=1}^{n} (x_i - \bar{x})^2} \sqrt{\sum\limits_{i=1}^{n} (y_i - \bar{y})^2}} \]

Donde:

- \(r\) es el coeficiente de correlación de Pearson.

- \(x_i\) y \(y_i\) son los valores de las variables x e y , respectivamente.

- \(\bar{x}\) y \(\bar{y}\) son las medias de las variables x e y , respectivamente.

- n es el número de pares de datos.

Este coeficiente mide la fuerza y dirección de la relación lineal entre dos variables.

Valores del coeficiente de correlación (Fuente: R4Epi)

Gráfico de dispersión y tipos de relaciones

Fuente: Madariaga, D. F. C., Rodríguez, J. L. G., Lozano, M. R., & Vallejo, E. H. C. (2013). Aplicación de la regresión lineal en un problema de pobreza. Interacción, 12, 73-84.

Librería Corrplot

Corrplot website

Ejemplo 1

Realizar el análisis bivariado de las variables sociodemográficas que son cuantitativas:

  • DiasIncapacidad

  • DiasHospitalizacion

  • AñosEstudio

  • TiempoEvolucion

  • TabaquismoPaquetes

Análisis bivariado III: Una cuantitativa vs una cualitativa

Estrategia de análisis:

  1. Obtener las medidas de resumen para la variable cuantitativa para cada categoría de la variable cualitativa.

  2. Obtener gráficos descriptivos para la variable cuantitativa vs la cualitativa:

    1. Gráfico de cajas y bigotes (boxplot).

    2. Histogramas de frecuencias por cada categoría.

Ejemplo 2

Realizar un análisis bivariado de los dias de incapacidad por las siguiente variables:

  • Sexo

  • Eps

Plan de análisis:

  1. Obtener las medidas de resumen para de los días de incapacidad para cada categoría de Sexo y Eps.

  2. Realizar el gráfico de cajas y bigotes de los dias de incapacidad vs Sexo y Eps.

Descanso

Segunda parte: Análisis Exploratorio de Datos (AED)

  • El Análisis Exploratorio de Datos (AED) es un enfoque en estadística que se utiliza para resumir las características principales de un conjunto de datos mediante métodos visuales.

  • El AED tiene como objetivo principal proporcionar una comprensión inicial de los datos antes de aplicar modelos estadísticos más complejos ((Pett 2015) [Tukey (1977)](Cleveland 1993)).

Componentes e importancia del Análisis Exploratorio de Datos

Componentes del AED

  1. Visualización de Datos:
    • Gráficos: histogramas, diagramas de caja, diagramas de dispersión y gráficos de barras.
  2. Resumen Estadístico:
    • Medidas descriptivas: media, mediana, moda, varianza y desviación estándar.
  3. Identificación de Valores Atípicos:
    • El AED permite detectar valores atípicos.
  4. Relaciones entre Variables:
    • Explorar correlaciones y relaciones entre diferentes variables, mediante matrices de correlación y análisis de regresión.

Importancia del AED

  • Comprensión Inicial: Proporciona una visión general que ayuda a formular hipótesis y preguntas para análisis posteriores.
  • Preparación de Datos: Facilita la limpieza y transformación de datos antes del modelado.
  • Detección de Problemas: Ayuda a identificar problemas en los datos, como faltantes o errores, que podrían afectar el análisis posterior.

Outliers: definición, importancia e identificación

Definición: un valor atípico es un dato que no sigue la tendencia de los datos (Utts and Heckard 2014). Principales causas:

  • Variabilidad natural de los datos.

  • Errores de medición, digitación,

  • Fenómenos excepcionales.

Tipos de outliers (Pett 2015):

  • Univariados: Casos extremos para una sola variable (ej: niño con un puntaje atípico de fatiga).

  • Multivariados: combinación inusual de dos o mas variables con valores extremos (ej: adolecente de 16 años con cuatro hijos).

Gráfico de cajas y bigotes (Box plot)

Los gráficos de caja (Boxplot) son una forma visual de identificar outliers de una variable (Utts and Heckard 2014).

Componentes de un boxplot:

Estructura de un boxplot (Fuente: https://epirhandbook.com)

Estructura de un boxplot (Fuente: https://epirhandbook.com)

Boxplot con ggplot2

Estructura general de un boxplot en ggplot2:

  • ggplot(data = )+ ## Especificar el nombre del dataframe

  • geom_boxplot(mapping = aes(y = ))+ ## Especificar el tipo de gráfico y la variable cuantitativa

  • labs(title = ““) ## Agregar títiulo y otras mejoras

Ejemplo 3: Gráfico de cajas y bigotes para la variable DiasIncapacidad del conjunto datos2

pacman::p_load(
here,
dplyr,        
ggplot2
)
load(here("PRESENTACIONES", "WS_SEPT25.RData")) 
## Cargar espacio de trabajo
datos2 %>%
  ggplot()+
  geom_boxplot(mapping = aes(y=DiasIncapacidad))+
  labs(title = "Boxplot Dias de incapacidad")

Estructura de un Boxplot en ggplot2 por grupos

  • ggplot(data = mapping = aes(y = , x = , fill = )) +

  • geom_boxplot()+

  • labs(title = ““)

Ejemplo 4: Boxplot en ggplot2 por grupos

Comparar el puntaje de salud General de los pacientes por:

  • Sexo

  • Ocupación

datos2 %>%
ggplot()+
geom_boxplot(
  mapping = aes(y=SaludGeneral,x=Sexo,fill=Sexo))+
labs(title = "Boxplot Ptje Salud Gral por sexo")

Ejercicio estudiantes: Comparar el Puntaje de SaludMental por Sexo y Ocupacion.

AED II: Datos faltantes

  1. Discusión artículo sobre imputación múltiple (Van Buuren and Groothuis-Oudshoorn 2011).

  2. Introducción a la librería mice: ejemplo de imputación de datos faltantes.

Preguntas sobre el artículo

  1. Porqué consideran que la presencia de datos faltantes es un reto en la investigación epidemiológica?.

  2. Cuáles son los pasos principales usados por la librería MICE para imputar datos faltantes?.

Comparación entre métodos de imputación

Característica Métodos Clásicos Métodos de Imputación Múltiple
Estimaciones Única Múltiples
Sesgo Puede ser alto Generalmente bajo
Inferencias estadísticas Inferencias menos confiables Inferencias más robustas
Manejo de datos faltantes

Limitado a:

  • Eliminación:list-wise, pairwise deletiono

  • Imputación simple (sustitución media, regresión, etc)

Flexible y adaptativo:

  • Joint modeling (JM),

  • Fully conditional specifi cation (FCS)= Multivariate Imputation by Chained Equations (MICE).

Fuente: elaboración propia adaptado de (Kline 2023) y (Van Buuren and Groothuis-Oudshoorn 2011).

Pasos principales de la imputación múltiple

Fuente: Van Buuren & Groothuis-Oudshoorn (2011)

Fuente: Rainfall trends over a North Atlantic small island in the period 1937/1938–2016/2017 and an early climate teleconnection

Etapa I: Imputación múltiple con MICE

Argumentos importantes de la función mice():

  • data: nombre de la base de datos a imputar.

  • m: # de imputaciones múltiples (defecto=5)

  • method: método de imputación (defecto= Predictive mean matching).

  • maxit: # máximo de iteraciones (defecto=5).

  • seed: # entero que indica la “semilla” usada por el generador de “números aleatorios”.

Diferencia entre el número de imputaciones e iteraciones

1. Imputaciones:

  • Es el número de conjuntos de datos completos a generar para imputar los datos faltantes.
  • Ejemplo: Con 5 imputaciones, se crearán 5 conjuntos de datos diferentes con valores imputados.

2. Iteraciones:

  • Es el número de rondas de imputación que el algoritmo pasa por cada conjunto de datos imputado. MICE trabaja actualizando iterativamente los valores imputados.
  • Ejemplo: Con 10 iteraciones 10, MICE realizará 10 rondas de actualización para cada uno de los conjuntos imputados.

Resumen

  • Número de Imputaciones: Cuántos conjuntos de datos completos deseas crear.
  • Número de Iteraciones: Cuántas veces actualizará el algoritmo de imputación los conjuntos de datos para refinar los valores.

Etapa 1: imputación múltiple del dataset nhanes


 iter imp variable
  1   1  bmi  hyp  chl
  1   2  bmi  hyp  chl
  1   3  bmi  hyp  chl
  1   4  bmi  hyp  chl
  1   5  bmi  hyp  chl
  2   1  bmi  hyp  chl
  2   2  bmi  hyp  chl
  2   3  bmi  hyp  chl
  2   4  bmi  hyp  chl
  2   5  bmi  hyp  chl
  3   1  bmi  hyp  chl
  3   2  bmi  hyp  chl
  3   3  bmi  hyp  chl
  3   4  bmi  hyp  chl
  3   5  bmi  hyp  chl
  4   1  bmi  hyp  chl
  4   2  bmi  hyp  chl
  4   3  bmi  hyp  chl
  4   4  bmi  hyp  chl
  4   5  bmi  hyp  chl
  5   1  bmi  hyp  chl
  5   2  bmi  hyp  chl
  5   3  bmi  hyp  chl
  5   4  bmi  hyp  chl
  5   5  bmi  hyp  chl
Class: mids
Number of multiple imputations:  5 
Imputation methods:
  age   bmi   hyp   chl 
   "" "pmm" "pmm" "pmm" 
PredictorMatrix:
    age bmi hyp chl
age   0   1   1   1
bmi   1   0   1   1
hyp   1   1   0   1
chl   1   1   1   0

Diagnóstico de las imputaciones

Es importante inspeccionar que los valores de las variables imputadas sigan los valores plausibles. Una forma en el paquete mice es con la función siguiente:

stripplot(imputacion)

Por ejemplo: la variable hyp (hipertensión) es dicotómica: 1=no, 2=si. Lueego un valor imputado diferente no sería plausible y correcto!

Etapa 2: Análisis de los datos imputados

Suponga que interesa analizar la relación entre el colesterol y el IMC (bmi) mediante un modelo de regresion simple usando los resultados de las m=5 imputaciones de la etapa 1.

Solución: función with()

fit1<-with(imputacion,lm(bmi~chl))

Etapa 3: Ponderación

La última etapa consiste en combinar (pool) los resultados de la etapa anterior para el estadístico de interés (ej: coeficiente r).

summary(pool(fit1)) ## Se obtiene un solo modelo de regresión
         term    estimate  std.error statistic       df      p.value
1 (Intercept) 20.63518098 4.34555192  4.748575 15.64788 0.0002312571
2         chl  0.03084513 0.02224758  1.386449 14.71911 0.1862529533

Lecturas recomendadas

Referencias

Cleveland, William S. 1993. Visualizing Data. Hobart press.
Kline, Rex. 2023. Principles and Practice of Structural Equation Modeling. 5th ed. New York: Guilford Press.
Pett, Marjorie A. 2015. Nonparametric Statistics for Health Care Research: Statistics for Small Samples and Unusual Distributions. Sage Publications.
Tukey, John Wilder. 1977. “Exploratory Data Analysis.” Reading/Addison-Wesley.
Utts, Jessica, and Robert Heckard. 2014. Mind on Statistics. Cengage.
Van Buuren, Stef, and Karin Groothuis-Oudshoorn. 2011. “Mice: Multivariate Imputation by Chained Equations in r.” Journal of Statistical Software 45: 1–67.