UNIDAD 1

Análisis descriptivo univariado y bivariado con Quarto

Jaime Gaviria, profesor Dpto Ciencias básicas

Universidad de Antioquia, Facultad Nacional de Salud Pública

2024-09-25

Agenda de la clase

Revisión lecturas sugeridas.
Repaso clase anterior:
- Análisis descriptivos univariados.
Análisis descriptivos II (Descriptivos bivariados):
- a. Dos cualitativas: Tablas de frecuencias cruzadas y gráficos.
- b. Dos cuantitativas: medidas de correlación y gráficos de dispersión.
- c. Una cuantitativa vs una cualitativa: medidas de resumen por grupos y gráficos.

Revisión lecturas sugeridas

**Lectura 1**:Mind on statistics (Utts & Heckard): Capítulo 2, secciones 2.3 a 2.7.
**Lectura 2**: Enlaces manual onlineR4Epi: Capítulos 18 a 24.

Repaso

Razones para realizar un análisis descriptivo

Utilizar el análisis descriptivo para descubrir errores en nuestros datos.
Nos ayuda a comprender la distribución de valores en nuestras variables.
Sirve como punto de partida para comprender las relaciones entre nuestras variables.

Esquema Resumen tipos análisis

Tomado de R4Epi — Tipos de análisis descriptivos por tipo de variable (Fuente: <https://www.r4epi.com/introduction-to-descriptive-analysis>)

Análisis descriptivos univariados

Opción 1: Usar funciones base del R: table(), plot(), … etc
Opción 2 (recomendada): Usar una librería especializada (ej: gmodels, janitor, gtsummary)

La función tbl_summary (gtsummary)

tbl_summary

Uso de tbl_summary con variables cualitativas

datos2 %>% 
  select(Sexo,Ocupacion,Eps) %>% 
  tbl_summary()

Characteristic	N = 366 ¹
Sexo
Femenino	334 (91%)
Masculino	32 (8.7%)
Ocupacion
Obrero	36 (9.8%)
Empleado	15 (4.1%)
Sin remuneración	38 (10%)
Cuello blanco	15 (4.1%)
Jubilado	174 (48%)
Independiente	88 (24%)
Eps
Comfenalco	125 (34%)
NuevaEPS	241 (66%)
¹ n (%)

Análisis descriptivos bivariados

Análisis bivariado I: dos variables cualitativas ¹

Preguntas:

De acuerdo con las lecturas qué tipos de análisis descriptivos se implementan cuanto se tienen dos variables cualitativas?.
Es relevante el nivel de medida en la comparación de las dos variables?.
Por qué se dice en el libro online R4Epi lo siguiente?: “Generally speaking, there is no good way to describe the relationship between a continuous predictor and a categorical outcome… So, when your outcome is categorical, the predictor must also be categorical. Therefore, any continuous predictor variables must be collapsed into categories before conducting bivariate analysis when your outcome is categorical. The best categories are those that have scientific or clinical meaning”.

Ejemplo (Continuación): Análisis descriptivos bivariados Calidad de vida

Con el conjunto datos2 obtenga la distribución de frecuencias entre las siguientes variables:

Eps vs Sexo
Ocupacion vs Sexo
Ocupacion vs Eps

Preguntas:

Cuáles son los análisis descriptivos básicos para este tipo de análisis bivariados?.
Qué librerías sugiere el sitio web R4Epi para este tipo de análisis?.
A parte de las distribuciones de frecuencias, que otros análisis estadísticos son de uso frecuente en el ámbito epidemiológico?.
Que infuencia tiene la presencia de datos faltantes en estos análisis?. Cómo es el manejo que se da en el ejemplo 1 del capítulo 24?.

Librerías recomendadas en R para tablas descriptivas

Aunque existen muchas librerías en R para realizar tablas, las siguientes son algunas de las recomendadas (Fuente: perplexity IA):

janitor::tabyl es ideal para quienes buscan simplicidad y un formato limpio.
gmodels::CrossTable es útil para usuarios que prefieren un enfoque más tradicional.
gtsummary::tbl_cross es la mejor opción para aquellos que desean integrar sus análisis en informes más complejos o utilizar características avanzadas.

Comparación librerías

Característica	janitor::tabyl	gmodels::CrossTable	gtsummary::tbl_cross
Formato de Salida	Genera un dataframe “tidy” que es fácil de manipular y exportar.	Muestra resultados en un formato más tradicional, similar a la tabla base de R.	Produce tablas que se integran bien con RMarkdown y pueden ser convertidas a objetos `gt` para personalización avanzada.
Cálculo de Porcentajes	Muestra automáticamente conteos y porcentajes, pero no incluye porcentajes acumulativos.	Presenta proporciones claramente, pero sin opción de acumulación.	Permite agregar estadísticas descriptivas y resúmenes, aunque no se centra exclusivamente en porcentajes.
Manejo de Datos Faltantes	Indica el porcentaje de datos no faltantes.	No destaca explícitamente los valores faltantes.	Puede incluir estadísticas sobre datos faltantes si se configura adecuadamente.
Opciones Avanzadas	Limitado en términos de configuraciones avanzadas para análisis complejos.	Proporciona opciones básicas sin personalización extensiva.	Ofrece funciones adicionales como `add_overall` para incluir estadísticas generales y soporte para modelos estadísticos.

Ejemplos y ejercicios análisis descriptivos bivariados

Vaya al tutorial estudiantes y resuelva la tercera sección del tutorial

Gráficos descriptivos: ggplot2

Razones para utilizar ggplot2

Flexibilidad: Permite crear una gran variedad de gráficos, desde diagramas de dispersión hasta gráficos de líneas y boxplots, adaptándose a diferentes tipos de datos y análisis.
Facilidad de Personalización: ggplot2 permite personalizar casi todos los aspectos del gráfico, incluyendo colores, temas, etiquetas y escalas, lo que facilita la creación de visualizaciones atractivas y informativas.
Integración con Otros Paquetes: Funciona bien con otros paquetes del tidyverse, como dplyr para manipulación de datos y tidyr para el manejo de datos en formato largo o ancho.

Fundamentos de ggplot2

Características de la sintaxis en ggplot2:

Comienza con el comando ggplot() como punto de partida - esto “abre” el ggplot y permite agregar las funciones subsecuentes con +.
Añade capas “geom” - estas funciones visualizan los datos como geometrías (formas). Todas estas funciones comienzan con geom_ como prefijo.
Añade elementos de diseño al gráfico: etiquetas de ejes, título, fuentes, tamaños, esquemas de color, leyendas.

Geometrías principales:

Histogramas - geom_histogram()
Gráficos de barras - geom_bar() o geom_col()
Gráficos de caja - geom_boxplot()
Puntos (por ejemplo, gráficos de dispersión) - geom_point()
Gráficos de líneas - geom_line() o geom_path()
Líneas de tendencia - geom_smooth()

Preparación de los datos

Estructura de datos

El estado de sus datos afectará a la función de trazado que utilice:

Si tus datos son observaciones en bruto con una fila por observación, es probable que utilices geom_bar().
Si sus datos ya están agregados en recuentos o proporciones, es probable que utilices geom_col().

Ejemplo: Primeros pasos con ggplot2

Use los datos del data frame trial (gtsummary) para representar gráficamente la distribución de frecuencias entre la respuesta al tratamiento y los dos tipos de drogas.

Paso 1: Estructura de los datos

apply(trial,2,class)

        trt         age      marker       stage       grade    response 
"character" "character" "character" "character" "character" "character" 
      death     ttdeath 
"character" "character"

### Consultar el tipo de variables

### Cargar paquetes
pacman::p_load(
  dplyr, ## sintaxis pipe y mutate
  forcats, ## Convertir a factor con fct_relevel
  ggplot2 ## Para gráficos
)

### Convertir las variables trt y response en factor
trial2 <-trial %>%
  mutate(
    trt_cat=fct_relevel(trt),
    response_cat=case_when(
      response==0 ~ "No",
      response==1 ~ "Sí",
      is.na(response) ~ NA_character_
    ),
    response_cat=fct_relevel(response_cat)
    )

Paso 2: Gráfico de barras

trial2 %>%
ggplot() + 
  geom_bar(aes(x = trt_cat, fill =response_cat), width = 0.7) +
  theme_minimal()+
  theme(legend.position = "right") +
  labs(title = "Gráfico de barras apiladas",
       x = "Tratamiento")

Ejercicio

Usar las funciones anteriores para el análisis bivariado descriptivo entre las variables Sexo, Eps y Ocupacion mediante:

Tablas de frecuencias cruzadas.
Gráficos descriptivos bivariados.

Análisis bivariado II: dos variables cuantitativas

Ejemplo motivación: existe una relación entre la frecuencia cardíaca y el ejercicio?.

Fuente: R4epi

Variable predictora vs respuesta?

Fuente: R4Epi

Coeficiente de correlación de Pearson

La ecuación del coeficiente de correlación de Pearson es:

\[r = \frac{\sum\limits_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum\limits_{i=1}^{n} (x_i - \bar{x})^2} \sqrt{\sum\limits_{i=1}^{n} (y_i - \bar{y})^2}} \]

Donde:

- \(r\) es el coeficiente de correlación de Pearson.

- \(x_i\) y \(y_i\) son los valores de las variables x e y , respectivamente.

- \(\bar{x}\) y \(\bar{y}\) son las medias de las variables x e y , respectivamente.

- n es el número de pares de datos.

Este coeficiente mide la fuerza y dirección de la relación lineal entre dos variables.

Valores del coeficiente de correlación (Fuente: R4Epi)

Gráfico de dispersión y tipos de relaciones

Fuente: Madariaga, D. F. C., Rodríguez, J. L. G., Lozano, M. R., & Vallejo, E. H. C. (2013). Aplicación de la regresión lineal en un problema de pobreza. Interacción, 12, 73-84.

Librería Corrplot

Corrplot website

Ejemplo

Realizar el análisis bivariado de las variables sociodemográficas que son cuantitativas:

DiasIncapacidad
DiasHospitalizacion
AñosEstudio
TiempoEvolucion
TabaquismoPaquetes

Análisis bivariado III: Una cuantitativa vs una cualitativa

Estrategia de análisis:

Obtener las medidas de resumen para la variable cuantitativa para cada categoría de la variable cualitativa.
Obtener gráficos descriptivos para la variable cuantitativa vs la cualitativa:
1. Gráfico de cajas y bigotes (boxplot).
2. Histogramas de frecuencias por cada categoría.

Ejemplo 3

Realizar un análisis bivariado del puntaje de dias de incapacidad por las siguiente variables:

Sexo
Eps

Plan de análisis:

Obtener las medidas de resumen para de los días de incapacidad para cada categoría de Sexo y Eps.
Realizar el gráfico de cajas y bigotes de los dias de incapacidad vs Sexo y Eps.