Diseño de un Estudio de Casos y Controles

En un estudio de casos y controles, identificamos un grupo de personas con el desenlace de interés (casos) y otro grupo sin el desenlace (controles). Luego, evaluamos y comparamos las exposiciones previas entre ambos grupos para explorar asociaciones.

Ejemplo de Planteamiento

  • Pregunta de Investigación: ¿La hipertensión está asociada con un mayor riesgo de desarrollar diabetes?

  • Casos: Personas con diagnóstico de diabetes.

  • Controles: Personas sin diagnóstico de diabetes.

  • Exposición de interés: Hipertensión.

  • Covariables: Edad, IMC, actividad física, nivel educativo, hábito de fumar.

Planteamiento del Estudio

  1. Objetivo del Estudio:

    • Evaluar si la hipertensión aumenta el riesgo de diabetes.
  2. Pregunta de Investigación:

    • ¿Es más probable que las personas con hipertensión desarrollen diabetes que aquellas sin hipertensión?
  3. Variables:

    • Dependiente: Diabetes (Casos: Sí; Controles: No).

    • Independiente: Hipertensión (Sí/No).

    • Covariables: Edad, IMC, actividad física, nivel educativo, hábito de fumar.

Próximos Pasos

Este documento aborda el análisis de un estudio de casos y controles para explorar la asociación entre hipertensión y diabetes. Iniciaremos con:

Descargamos el data frame: https://colab.research.google.com/drive/1BPtDSgzEfWKysUBdbb2UFubOwQecEb8X?usp=sharing#scrollTo=Y6l8GwkV2dssestudio_casos_controles_errores.xlsx

lo guardamos como un objeto (datos)

1. Limpieza de una base de datos con errores intencionados. 

2. Exploración descriptiva de las variables. 

3. Análisis bivariado y multivariado mediante regresión logística.

# Instalar paquetes necesarios (si aún no están instalados)
#install.packages("readxl")
# install.packages("tidyverse")
# install.packages("janitor")
# install.packages("gtsummary")

# Cargar librerías
library(readxl)
library(tidyverse)
library(janitor)
library(gtsummary)
library(dlookr)
# Leer la base de datos desde Excel
#archivo <- "estudio_casos_controles_errores.xlsx"
library(readxl)
library(readxl)

estudio_casos_controles_errores <- read_excel("/Users/jesushernandez/Downloads/estudio_casos_controles_errores.xlsx")


#datos <- read_excel(archivo)

datos<-estudio_casos_controles_errores

# Visualizar las primeras filas
#head(datos)

Paso 2: Limpieza de la Base de Datos

En este paso, utilizaremos las funciones de janitor y dplyr para:

  1. Limpiar nombres de columnas.

  2. Corregir inconsistencias en valores categóricos.

# Limpiar nombres de columnas
datos <- datos %>% clean_names()

names(datos)
[1] "id"                       "diabetes"                 "edad"                     "sexo"                    
[5] "imc"                      "hipertension"             "actividad_fisica_min_sem" "fumador"                 
[9] "nivel_educativo"         
# Corregir inconsistencias en valores categóricos
datos <- datos %>%
  mutate(
    sexo = str_to_title(trimws(sexo)),  # Título (primera letra en mayúscula)
    fumador = str_to_lower(trimws(fumador)),  # Minúscula
    hipertension = str_to_lower(trimws(hipertension)),  # Minúscula
    nivel_educativo = str_to_title(trimws(nivel_educativo))  # Título
  )

# Visualizar los datos limpios
head(datos)
sapply(datos, unique)
$id
  [1]   1   2   3   4   5   6   7   8   9  10  11  12  13  14  15  16  17  18  19  20  21  22  23  24  25  26  27  28  29  30  31  32
 [33]  33  34  35  36  37  38  39  40  41  42  43  44  45  46  47  48  49  50  51  52  53  54  55  56  57  58  59  60  61  62  63  64
 [65]  65  66  67  68  69  70  71  72  73  74  75  76  77  78  79  80  81  82  83  84  85  86  87  88  89  90  91  92  93  94  95  96
 [97]  97  98  99 100

$diabetes
[1] "Sí" "No"

$edad
 [1] 75 32 58 64 68 47 49 72 52 63 62 79 77 39 76 55 44 66 46 34 33 50 69 78 37 71 65 51 60 57 42 70 35 30 41 40 43 48 45 73 74 36 56
[44] 31 67 53 59 54 38 61

$sexo
[1] "Masculino" "Femenino" 

$imc
  [1] 25.8 30.4 30.9 29.7 18.6 39.7 38.0 23.0 24.8 37.9 39.6 24.0 30.6 35.8 27.0 34.2 22.0 31.4 37.1 20.2 27.7 22.9 28.2 30.3 20.5
 [26] 24.9 38.4 30.7 28.3 34.7 34.5 19.5 33.7 36.5 22.1 35.3 24.7 25.1 32.8 20.9 37.6 33.5 28.0 27.9 34.9 20.3 31.0 36.0 25.7 34.6
 [51] 30.8 37.0 36.2 38.1 21.3 21.5 27.1 27.6 21.1 22.8 28.6 35.9 18.7 38.5 33.9 26.6 32.9 19.1 32.2 19.2 28.7 30.2 19.9 32.5 39.9
 [76] 35.0 20.7 32.7 19.6 35.5 35.4 23.9 25.5 35.6 21.4 26.5 33.0 32.0 23.1 38.8 33.6 30.0 23.6 34.0 24.1 35.7 39.2 19.7 28.4 24.3
[101] 30.1 25.4 37.4 22.2 30.5 36.6 19.4 18.8 28.1 33.1 32.1 22.7 29.6 21.7 24.4 26.0 23.5 31.6 37.2 31.1 39.8 32.4 19.3 29.9 21.8
[126] 39.3 34.8 34.1 38.7 21.0 31.3 26.1 39.0 31.5 36.7

$hipertension
[1] "no" "sí" "si"

$actividad_fisica_min_sem
  [1] 207 295 126 264 208 258 180 259 179 205 199  29  24  38 152  32 115 111 201 113  72   0 225  30 276  23  18  60 123  19 116 153
 [33]   6  71  93  10 248 174 191  42 234  15 118  49  33 253 231 290  63 268  26 297 143  45 292 142 289 213   8 245 256 278 288  94
 [65] 214 282 228 101 141 262 155 242  84 190 284  66 212  47 296 122 136  68 286  91   2 162  59   9 250 154 139  85  86  98  43  37
 [97]   7  97 216  74  58  16  56 137 121 246 272 124 105 188 267 170 151 100 275 172 133  96 112 217 215  11 178   3 132  52  75 138
[129] 125  20  27  80 127  67 108 119 281 202   5  51 240 144

$fumador
[1] "no" "sí"

$nivel_educativo
[1] "Primaria"      "Secundaria"    "Universitario"

limpieza para evitar que se repitan elementos u homogenizarlos:

# Limpieza y homogenización de datos categóricos
datos <- datos %>%
  mutate(
    # Homogeneizar valores en `fumador`
    hipertension = case_when(
      hipertension %in% c("sí", "Sí", "SÍ", "si") ~ "Sí",
      hipertension %in% c("no", "No", "NO") ~ "No",
      TRUE ~ NA_character_
    ))

sapply(datos, unique)
$id
  [1]   1   2   3   4   5   6   7   8   9  10  11  12  13  14  15  16  17  18  19  20  21  22  23  24  25  26  27  28  29  30  31  32
 [33]  33  34  35  36  37  38  39  40  41  42  43  44  45  46  47  48  49  50  51  52  53  54  55  56  57  58  59  60  61  62  63  64
 [65]  65  66  67  68  69  70  71  72  73  74  75  76  77  78  79  80  81  82  83  84  85  86  87  88  89  90  91  92  93  94  95  96
 [97]  97  98  99 100

$diabetes
[1] "Sí" "No"

$edad
 [1] 75 32 58 64 68 47 49 72 52 63 62 79 77 39 76 55 44 66 46 34 33 50 69 78 37 71 65 51 60 57 42 70 35 30 41 40 43 48 45 73 74 36 56
[44] 31 67 53 59 54 38 61

$sexo
[1] "Masculino" "Femenino" 

$imc
  [1] 25.8 30.4 30.9 29.7 18.6 39.7 38.0 23.0 24.8 37.9 39.6 24.0 30.6 35.8 27.0 34.2 22.0 31.4 37.1 20.2 27.7 22.9 28.2 30.3 20.5
 [26] 24.9 38.4 30.7 28.3 34.7 34.5 19.5 33.7 36.5 22.1 35.3 24.7 25.1 32.8 20.9 37.6 33.5 28.0 27.9 34.9 20.3 31.0 36.0 25.7 34.6
 [51] 30.8 37.0 36.2 38.1 21.3 21.5 27.1 27.6 21.1 22.8 28.6 35.9 18.7 38.5 33.9 26.6 32.9 19.1 32.2 19.2 28.7 30.2 19.9 32.5 39.9
 [76] 35.0 20.7 32.7 19.6 35.5 35.4 23.9 25.5 35.6 21.4 26.5 33.0 32.0 23.1 38.8 33.6 30.0 23.6 34.0 24.1 35.7 39.2 19.7 28.4 24.3
[101] 30.1 25.4 37.4 22.2 30.5 36.6 19.4 18.8 28.1 33.1 32.1 22.7 29.6 21.7 24.4 26.0 23.5 31.6 37.2 31.1 39.8 32.4 19.3 29.9 21.8
[126] 39.3 34.8 34.1 38.7 21.0 31.3 26.1 39.0 31.5 36.7

$hipertension
[1] "No" "Sí"

$actividad_fisica_min_sem
  [1] 207 295 126 264 208 258 180 259 179 205 199  29  24  38 152  32 115 111 201 113  72   0 225  30 276  23  18  60 123  19 116 153
 [33]   6  71  93  10 248 174 191  42 234  15 118  49  33 253 231 290  63 268  26 297 143  45 292 142 289 213   8 245 256 278 288  94
 [65] 214 282 228 101 141 262 155 242  84 190 284  66 212  47 296 122 136  68 286  91   2 162  59   9 250 154 139  85  86  98  43  37
 [97]   7  97 216  74  58  16  56 137 121 246 272 124 105 188 267 170 151 100 275 172 133  96 112 217 215  11 178   3 132  52  75 138
[129] 125  20  27  80 127  67 108 119 281 202   5  51 240 144

$fumador
[1] "no" "sí"

$nivel_educativo
[1] "Primaria"      "Secundaria"    "Universitario"

Paso 3: Exploración de Datos (EDA)

Resumen Estadístico de Variables Cuantitativas

podemos usar los paquetes, dlookr, gtsummary o simbplemete con base R:

# Resumen estadístico
datos %>%
  select_if(is.numeric) %>%
  summary()
       id              edad            imc        actividad_fisica_min_sem
 Min.   :  1.00   Min.   :30.00   Min.   :18.60   Min.   :  0.0           
 1st Qu.: 25.75   1st Qu.:45.00   1st Qu.:24.38   1st Qu.: 71.0           
 Median : 50.50   Median :56.50   Median :30.30   Median :140.0           
 Mean   : 50.50   Mean   :55.81   Mean   :29.53   Mean   :145.5           
 3rd Qu.: 75.25   3rd Qu.:68.00   3rd Qu.:34.70   3rd Qu.:214.2           
 Max.   :100.00   Max.   :79.00   Max.   :39.90   Max.   :297.0           

como lo harías con dlookr?

datos %>% describe()
datos %>% normality()
datos %>% plot_normality()

Distribución de Casos y Controles

# Frecuencia de diabetes
datos %>%
  count(diabetes) %>%
  mutate(porcentaje = n / sum(n) * 100)
# Gráfico de barras
datos %>%
  ggplot(aes(x = diabetes, fill = diabetes)) +
  geom_bar() +
  labs(title = "Distribución de Casos y Controles", x = "Diabetes", y = "Frecuencia") +
  theme_minimal()

Paso 4: Análisis Bivariado (Odds Ratios)

Usaremos tablas de contingencia para calcular las Odds Ratios de hipertensión.

# Tabla de contingencia

datos2 <- datos %>%
  mutate(
    diabetes = factor(diabetes, levels = c("Sí", "No")),  # Diabetes: "si" primero
    hipertension = factor(hipertension, levels = c("Sí", "No"))  # Hipertensión: "si" primero
  )

tabla_contingencia <- datos2 %>%
  count(diabetes, hipertension) %>%
  pivot_wider(names_from = hipertension, values_from = n, values_fill = 0)

tabla_contingencia
# Calcular Odds Ratio manualmente
odds_ratio <- (tabla_contingencia$Sí[1] * tabla_contingencia$No[2]) /
              (tabla_contingencia$Sí[2] * tabla_contingencia$No[1])


# Extraer valores de la tabla
a <- tabla_contingencia$Sí[1]  # Diabetes "Sí" e Hipertensión "Sí"
b <- tabla_contingencia$No[1]  # Diabetes "Sí" e Hipertensión "No"
c <- tabla_contingencia$Sí[2]  # Diabetes "No" e Hipertensión "Sí"
d <- tabla_contingencia$No[2]  # Diabetes "No" e Hipertensión "No"

# Calcular Odds Ratio
odds_ratio <- (a * d) / (b * c)

cat("Odds Ratio de hipertensión asociada a diabetes:", round(odds_ratio, 2))
Odds Ratio de hipertensión asociada a diabetes: 1.33

Determinar IC 95% a a los OR

# Logaritmo natural del OR
ln_or <- log(odds_ratio)

# Varianza del log(OR)
var_ln_or <- (1 / a) + (1 / b) + (1 / c) + (1 / d)

# Intervalo de confianza del 95%
z <- 1.96  # Valor crítico para 95%
se_ln_or <- sqrt(var_ln_or)  # Error estándar del log(OR)

# Límites inferior y superior del IC
ic_lower <- exp(ln_or - z * se_ln_or)
ic_upper <- exp(ln_or + z * se_ln_or)

# Imprimir resultados
cat("OR =", round(odds_ratio, 2), "\n","IC95%:", round(ic_lower, 2), "-", round(ic_upper, 2), "\n")
OR = 1.33 
 IC95%: 0.76 - 2.32 

Interpretación del Odds Ratio

  • OR>1: La hipertensión es más probable en personas con diabetes.

  • OR=1 : No hay asociación entre diabetes e hipertensión.

  • OR<1: La hipertensión es menos probable en personas con diabetes.

  • Frecuencias (a,b,c,d):

    • Se extraen directamente de la tabla de contingencia calculada con pivot_wider.
  • Odds Ratio (odds_ratio):

    • El cálculo del OR ya está realizado.
  • Logaritmo Natural del OR (ln_or):

    • Utilizamos log(odds_ratio) para calcular el logaritmo natural del OR.
  • Varianza del log(OR) (var_ln_or):

    • Fórmula:

  • Intervalo de Confianza:

    • Límite inferior:

    • Límite superior:

Interpretación del Resultado

  • El resultado de R=1.33 con un intervalo de confianza al 95% (C95%: 0.76 - 2.32) puede interpretarse de la siguiente manera:

    1. Valor del Odds Ratio (OR)

    • OR=1.33 (OR=>1)

      • Indica que las personas con diabetes tienen 1.33 veces más probabilidades de tener hipertensión en comparación con las personas sin diabetes.

      • Sin embargo, este valor debe evaluarse junto con el intervalo de confianza para determinar si la asociación es estadísticamente significativa.

    2. Intervalo de Confianza al 95% (IC95%)

    • IC95%=[0.76, 2.32]:

      • Este intervalo significa que, con un 95% de confianza, el verdadero Odds Ratio podría estar entre 0.76 y 2.32.

      • Incluye el valor 1, lo que implica que la asociación no es estadísticamente significativa(es posible que no haya diferencia real en las probabilidades de hipertensión entre personas con y sin diabetes).

Interpretación Práctica:

  • Existe una posible asociación positiva entre diabetes e hipertensión (OR=1.33), pero esta asociación no es estadísticamente significativa según el IC95%=[0.76, 2.32].

  • Más datos o estudios adicionales serían necesarios para confirmar esta relación.

nrow(datos)
[1] 120
