Análisis descriptivo bivariado y AED con Quarto
Universidad de Antioquia, Facultad Nacional de Salud Pública
2024-09-27
Primera parte: Análisis descriptivos bivariados (8 a 9:15):
b. Dos cuantitativas: medidas de correlación y gráficos de dispersión.
c. Una cuantitativa vs una cualitativa: medidas de resumen por grupos y gráficos.
Segunda parte: Análisis Exploratorio de Datos (AED) (9:30 a 11):
Identificación de outliers y manejo.
Datos faltantes: ejemplo de manejo de una variable con datos atípicos.
Discusión artículo sobre imputación múltiple (Van Buuren and Groothuis-Oudshoorn 2011).
Introducción a la librería mice: ejemplo de imputación de datos faltantes.
Ejemplo motivación: existe una relación entre la frecuencia cardíaca y el ejercicio?.
Fuente: R4epi
Fuente: R4Epi
La ecuación del coeficiente de correlación de Pearson es:
\[r = \frac{\sum\limits_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum\limits_{i=1}^{n} (x_i - \bar{x})^2} \sqrt{\sum\limits_{i=1}^{n} (y_i - \bar{y})^2}} \]
Donde:
- \(r\) es el coeficiente de correlación de Pearson.
- \(x_i\) y \(y_i\) son los valores de las variables x e y , respectivamente.
- \(\bar{x}\) y \(\bar{y}\) son las medias de las variables x e y , respectivamente.
- n es el número de pares de datos.
Este coeficiente mide la fuerza y dirección de la relación lineal entre dos variables.
Valores del coeficiente de correlación (Fuente: R4Epi)
Fuente: Madariaga, D. F. C., Rodríguez, J. L. G., Lozano, M. R., & Vallejo, E. H. C. (2013). Aplicación de la regresión lineal en un problema de pobreza. Interacción, 12, 73-84.
Realizar el análisis bivariado de las variables sociodemográficas que son cuantitativas:
DiasIncapacidad
DiasHospitalizacion
AñosEstudio
TiempoEvolucion
TabaquismoPaquetes
Estrategia de análisis:
Obtener las medidas de resumen para la variable cuantitativa para cada categoría de la variable cualitativa.
Obtener gráficos descriptivos para la variable cuantitativa vs la cualitativa:
Gráfico de cajas y bigotes (boxplot).
Histogramas de frecuencias por cada categoría.
Realizar un análisis bivariado de los dias de incapacidad por las siguiente variables:
Sexo
Eps
Plan de análisis:
Obtener las medidas de resumen para de los días de incapacidad para cada categoría de Sexo y Eps.
Realizar el gráfico de cajas y bigotes de los dias de incapacidad vs Sexo y Eps.
El Análisis Exploratorio de Datos (AED) es un enfoque en estadística que se utiliza para resumir las características principales de un conjunto de datos mediante métodos visuales.
El AED tiene como objetivo principal proporcionar una comprensión inicial de los datos antes de aplicar modelos estadísticos más complejos ((Pett 2015) [Tukey (1977)](Cleveland 1993)).
Componentes del AED
Importancia del AED
Definición: un valor atípico es un dato que no sigue la tendencia de los datos (Utts and Heckard 2014). Principales causas:
Variabilidad natural de los datos.
Errores de medición, digitación,
Fenómenos excepcionales.
Tipos de outliers (Pett 2015):
Univariados: Casos extremos para una sola variable (ej: niño con un puntaje atípico de fatiga).
Multivariados: combinación inusual de dos o mas variables con valores extremos (ej: adolecente de 16 años con cuatro hijos).
Los gráficos de caja (Boxplot) son una forma visual de identificar outliers de una variable (Utts and Heckard 2014).
Componentes de un boxplot:
Estructura general de un boxplot en ggplot2:
ggplot(data = )+ ## Especificar el nombre del dataframe
geom_boxplot(mapping = aes(y = ))+ ## Especificar el tipo de gráfico y la variable cuantitativa
labs(title = ““) ## Agregar títiulo y otras mejoras
ggplot(data = mapping = aes(y = , x = , fill = )) +
geom_boxplot()+
labs(title = ““)
Comparar el puntaje de salud General de los pacientes por:
Sexo
Ocupación
Ejercicio estudiantes: Comparar el Puntaje de SaludMental por Sexo y Ocupacion.
Discusión artículo sobre imputación múltiple (Van Buuren and Groothuis-Oudshoorn 2011).
Introducción a la librería mice: ejemplo de imputación de datos faltantes.
Porqué consideran que la presencia de datos faltantes es un reto en la investigación epidemiológica?.
Cuáles son los pasos principales usados por la librería MICE para imputar datos faltantes?.
| Característica | Métodos Clásicos | Métodos de Imputación Múltiple |
|---|---|---|
| Estimaciones | Única | Múltiples |
| Sesgo | Puede ser alto | Generalmente bajo |
| Inferencias estadísticas | Inferencias menos confiables | Inferencias más robustas |
| Manejo de datos faltantes | Limitado a:
|
Flexible y adaptativo:
|
Fuente: elaboración propia adaptado de (Kline 2023) y (Van Buuren and Groothuis-Oudshoorn 2011).
Argumentos importantes de la función mice():
data: nombre de la base de datos a imputar.
m: # de imputaciones múltiples (defecto=5)
method: método de imputación (defecto= Predictive mean matching).
maxit: # máximo de iteraciones (defecto=5).
seed: # entero que indica la “semilla” usada por el generador de “números aleatorios”.
1. Imputaciones:
2. Iteraciones:
iter imp variable
1 1 bmi hyp chl
1 2 bmi hyp chl
1 3 bmi hyp chl
1 4 bmi hyp chl
1 5 bmi hyp chl
2 1 bmi hyp chl
2 2 bmi hyp chl
2 3 bmi hyp chl
2 4 bmi hyp chl
2 5 bmi hyp chl
3 1 bmi hyp chl
3 2 bmi hyp chl
3 3 bmi hyp chl
3 4 bmi hyp chl
3 5 bmi hyp chl
4 1 bmi hyp chl
4 2 bmi hyp chl
4 3 bmi hyp chl
4 4 bmi hyp chl
4 5 bmi hyp chl
5 1 bmi hyp chl
5 2 bmi hyp chl
5 3 bmi hyp chl
5 4 bmi hyp chl
5 5 bmi hyp chl
Class: mids
Number of multiple imputations: 5
Imputation methods:
age bmi hyp chl
"" "pmm" "pmm" "pmm"
PredictorMatrix:
age bmi hyp chl
age 0 1 1 1
bmi 1 0 1 1
hyp 1 1 0 1
chl 1 1 1 0
Es importante inspeccionar que los valores de las variables imputadas sigan los valores plausibles. Una forma en el paquete mice es con la función siguiente:
Por ejemplo: la variable hyp (hipertensión) es dicotómica: 1=no, 2=si. Lueego un valor imputado diferente no sería plausible y correcto!
Suponga que interesa analizar la relación entre el colesterol y el IMC (bmi) mediante un modelo de regresion simple usando los resultados de las m=5 imputaciones de la etapa 1.
Solución: función with()
La última etapa consiste en combinar (pool) los resultados de la etapa anterior para el estadístico de interés (ej: coeficiente r).