trt age marker stage grade response
"character" "character" "character" "character" "character" "character"
death ttdeath
"character" "character"
Análisis descriptivo univariado y bivariado con Quarto
Universidad de Antioquia, Facultad Nacional de Salud Pública
2024-09-25
Revisión lecturas sugeridas.
Repaso clase anterior:
Análisis descriptivos II (Descriptivos bivariados):
a. Dos cualitativas: Tablas de frecuencias cruzadas y gráficos.
b. Dos cuantitativas: medidas de correlación y gráficos de dispersión.
c. Una cuantitativa vs una cualitativa: medidas de resumen por grupos y gráficos.
**Lectura 1**:Mind on statistics (Utts & Heckard): Capítulo 2, secciones 2.3 a 2.7.
**Lectura 2**: Enlaces manual onlineR4Epi: Capítulos 18 a 24.
Utilizar el análisis descriptivo para descubrir errores en nuestros datos.
Nos ayuda a comprender la distribución de valores en nuestras variables.
Sirve como punto de partida para comprender las relaciones entre nuestras variables.
Opción 1: Usar funciones base del R: table(), plot(), … etc
Opción 2 (recomendada): Usar una librería especializada (ej: gmodels, janitor, gtsummary)
Characteristic |
N = 366 1 |
|---|---|
| Sexo | |
| Femenino | 334 (91%) |
| Masculino | 32 (8.7%) |
| Ocupacion | |
| Obrero | 36 (9.8%) |
| Empleado | 15 (4.1%) |
| Sin remuneración | 38 (10%) |
| Cuello blanco | 15 (4.1%) |
| Jubilado | 174 (48%) |
| Independiente | 88 (24%) |
| Eps | |
| Comfenalco | 125 (34%) |
| NuevaEPS | 241 (66%) |
| 1
n (%) |
|
Preguntas:
De acuerdo con las lecturas qué tipos de análisis descriptivos se implementan cuanto se tienen dos variables cualitativas?.
Es relevante el nivel de medida en la comparación de las dos variables?.
Por qué se dice en el libro online R4Epi lo siguiente?: “Generally speaking, there is no good way to describe the relationship between a continuous predictor and a categorical outcome… So, when your outcome is categorical, the predictor must also be categorical. Therefore, any continuous predictor variables must be collapsed into categories before conducting bivariate analysis when your outcome is categorical. The best categories are those that have scientific or clinical meaning”.
Con el conjunto datos2 obtenga la distribución de frecuencias entre las siguientes variables:
Eps vs Sexo
Ocupacion vs Sexo
Ocupacion vs Eps
Preguntas:
Cuáles son los análisis descriptivos básicos para este tipo de análisis bivariados?.
Qué librerías sugiere el sitio web R4Epi para este tipo de análisis?.
A parte de las distribuciones de frecuencias, que otros análisis estadísticos son de uso frecuente en el ámbito epidemiológico?.
Que infuencia tiene la presencia de datos faltantes en estos análisis?. Cómo es el manejo que se da en el ejemplo 1 del capítulo 24?.
Aunque existen muchas librerías en R para realizar tablas, las siguientes son algunas de las recomendadas (Fuente: perplexity IA):
janitor::tabyl es ideal para quienes buscan simplicidad y un formato limpio.
gmodels::CrossTable es útil para usuarios que prefieren un enfoque más tradicional.
gtsummary::tbl_cross es la mejor opción para aquellos que desean integrar sus análisis en informes más complejos o utilizar características avanzadas.
| Característica | janitor::tabyl | gmodels::CrossTable | gtsummary::tbl_cross |
|---|---|---|---|
| Formato de Salida | Genera un dataframe “tidy” que es fácil de manipular y exportar. | Muestra resultados en un formato más tradicional, similar a la tabla base de R. | Produce tablas que se integran bien con RMarkdown y pueden ser convertidas a objetos gt para personalización avanzada. |
| Cálculo de Porcentajes | Muestra automáticamente conteos y porcentajes, pero no incluye porcentajes acumulativos. | Presenta proporciones claramente, pero sin opción de acumulación. | Permite agregar estadísticas descriptivas y resúmenes, aunque no se centra exclusivamente en porcentajes. |
| Manejo de Datos Faltantes | Indica el porcentaje de datos no faltantes. | No destaca explícitamente los valores faltantes. | Puede incluir estadísticas sobre datos faltantes si se configura adecuadamente. |
| Opciones Avanzadas | Limitado en términos de configuraciones avanzadas para análisis complejos. | Proporciona opciones básicas sin personalización extensiva. | Ofrece funciones adicionales como add_overall para incluir estadísticas generales y soporte para modelos estadísticos. |
Vaya al tutorial estudiantes y resuelva la tercera sección del tutorial
Razones para utilizar ggplot2
Flexibilidad: Permite crear una gran variedad de gráficos, desde diagramas de dispersión hasta gráficos de líneas y boxplots, adaptándose a diferentes tipos de datos y análisis.
Facilidad de Personalización: ggplot2 permite personalizar casi todos los aspectos del gráfico, incluyendo colores, temas, etiquetas y escalas, lo que facilita la creación de visualizaciones atractivas y informativas.
Integración con Otros Paquetes: Funciona bien con otros paquetes del tidyverse, como dplyr para manipulación de datos y tidyr para el manejo de datos en formato largo o ancho.
Características de la sintaxis en ggplot2:
Comienza con el comando ggplot() como punto de partida - esto “abre” el ggplot y permite agregar las funciones subsecuentes con +.
Añade capas “geom” - estas funciones visualizan los datos como geometrías (formas). Todas estas funciones comienzan con geom_ como prefijo.
Añade elementos de diseño al gráfico: etiquetas de ejes, título, fuentes, tamaños, esquemas de color, leyendas.
Geometrías principales:
Histogramas - geom_histogram()
Gráficos de barras - geom_bar() o geom_col()
Gráficos de caja - geom_boxplot()
Puntos (por ejemplo, gráficos de dispersión) - geom_point()
Gráficos de líneas - geom_line() o geom_path()
Líneas de tendencia - geom_smooth()
El estado de sus datos afectará a la función de trazado que utilice:
Si tus datos son observaciones en bruto con una fila por observación, es probable que utilices geom_bar().
Si sus datos ya están agregados en recuentos o proporciones, es probable que utilices geom_col().
Use los datos del data frame trial (gtsummary) para representar gráficamente la distribución de frecuencias entre la respuesta al tratamiento y los dos tipos de drogas.
trt age marker stage grade response
"character" "character" "character" "character" "character" "character"
death ttdeath
"character" "character"
### Cargar paquetes
pacman::p_load(
dplyr, ## sintaxis pipe y mutate
forcats, ## Convertir a factor con fct_relevel
ggplot2 ## Para gráficos
)
### Convertir las variables trt y response en factor
trial2 <-trial %>%
mutate(
trt_cat=fct_relevel(trt),
response_cat=case_when(
response==0 ~ "No",
response==1 ~ "Sí",
is.na(response) ~ NA_character_
),
response_cat=fct_relevel(response_cat)
)Usar las funciones anteriores para el análisis bivariado descriptivo entre las variables Sexo, Eps y Ocupacion mediante:
Tablas de frecuencias cruzadas.
Gráficos descriptivos bivariados.
Ejemplo motivación: existe una relación entre la frecuencia cardíaca y el ejercicio?.
Fuente: R4epi
Fuente: R4Epi
La ecuación del coeficiente de correlación de Pearson es:
\[r = \frac{\sum\limits_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum\limits_{i=1}^{n} (x_i - \bar{x})^2} \sqrt{\sum\limits_{i=1}^{n} (y_i - \bar{y})^2}} \]
Donde:
- \(r\) es el coeficiente de correlación de Pearson.
- \(x_i\) y \(y_i\) son los valores de las variables x e y , respectivamente.
- \(\bar{x}\) y \(\bar{y}\) son las medias de las variables x e y , respectivamente.
- n es el número de pares de datos.
Este coeficiente mide la fuerza y dirección de la relación lineal entre dos variables.
Valores del coeficiente de correlación (Fuente: R4Epi)
Realizar el análisis bivariado de las variables sociodemográficas que son cuantitativas:
DiasIncapacidad
DiasHospitalizacion
AñosEstudio
TiempoEvolucion
TabaquismoPaquetes
Estrategia de análisis:
Obtener las medidas de resumen para la variable cuantitativa para cada categoría de la variable cualitativa.
Obtener gráficos descriptivos para la variable cuantitativa vs la cualitativa:
Gráfico de cajas y bigotes (boxplot).
Histogramas de frecuencias por cada categoría.
Realizar un análisis bivariado del puntaje de dias de incapacidad por las siguiente variables:
Sexo
Eps
Plan de análisis:
Obtener las medidas de resumen para de los días de incapacidad para cada categoría de Sexo y Eps.
Realizar el gráfico de cajas y bigotes de los dias de incapacidad vs Sexo y Eps.