Diseño de un Estudio de Casos y Controles
En un estudio de casos y controles, identificamos un grupo de
personas con el desenlace de interés (casos) y otro grupo sin el
desenlace (controles). Luego, evaluamos y comparamos las exposiciones
previas entre ambos grupos para explorar asociaciones.
Ejemplo de Planteamiento
Pregunta de Investigación: ¿La hipertensión está
asociada con un mayor riesgo de desarrollar diabetes?
Casos: Personas con diagnóstico de
diabetes.
Controles: Personas sin diagnóstico de
diabetes.
Exposición de interés: Hipertensión.
Covariables: Edad, IMC, actividad física, nivel
educativo, hábito de fumar.
Planteamiento del Estudio
Objetivo del Estudio:
- Evaluar si la hipertensión aumenta el riesgo de diabetes.
Pregunta de Investigación:
- ¿Es más probable que las personas con hipertensión desarrollen
diabetes que aquellas sin hipertensión?
Variables:
Dependiente: Diabetes (Casos: Sí; Controles:
No).
Independiente: Hipertensión (Sí/No).
Covariables: Edad, IMC, actividad física, nivel educativo, hábito
de fumar.
Próximos Pasos
Limpieza de la base de datos simulada.
Exploración descriptiva (EDA) de las características de casos y
controles.
Análisis bivariado (Odds Ratio para hipertensión).
Ajustes multivariados usando regresión logística.
Este documento aborda el análisis de un estudio de casos y controles
para explorar la asociación entre hipertensión y diabetes. Iniciaremos
con:
Descargamos el data frame: https://colab.research.google.com/drive/1BPtDSgzEfWKysUBdbb2UFubOwQecEb8X?usp=sharing#scrollTo=Y6l8GwkV2dssestudio_casos_controles_errores.xlsx
lo guardamos como un objeto (datos)
1. Limpieza de una base de datos con errores
intencionados.
2. Exploración descriptiva de las variables.
3. Análisis bivariado y multivariado mediante regresión
logística.
# Instalar paquetes necesarios (si aún no están instalados)
#install.packages("readxl")
# install.packages("tidyverse")
# install.packages("janitor")
# install.packages("gtsummary")
# Cargar librerías
library(readxl)
library(tidyverse)
library(janitor)
library(gtsummary)
library(dlookr)
# Leer la base de datos desde Excel
#archivo <- "estudio_casos_controles_errores.xlsx"
library(readxl)
library(readxl)
estudio_casos_controles_errores <- read_excel("/Users/jesushernandez/Downloads/estudio_casos_controles_errores.xlsx")
#datos <- read_excel(archivo)
datos<-estudio_casos_controles_errores
# Visualizar las primeras filas
#head(datos)
Paso 2: Limpieza de la Base de Datos
En este paso, utilizaremos las funciones
de janitor y dplyr para:
Limpiar nombres de columnas.
Corregir inconsistencias en valores categóricos.
# Limpiar nombres de columnas
datos <- datos %>% clean_names()
names(datos)
[1] "id" "diabetes" "edad" "sexo"
[5] "imc" "hipertension" "actividad_fisica_min_sem" "fumador"
[9] "nivel_educativo"
# Corregir inconsistencias en valores categóricos
datos <- datos %>%
mutate(
sexo = str_to_title(trimws(sexo)), # Título (primera letra en mayúscula)
fumador = str_to_lower(trimws(fumador)), # Minúscula
hipertension = str_to_lower(trimws(hipertension)), # Minúscula
nivel_educativo = str_to_title(trimws(nivel_educativo)) # Título
)
# Visualizar los datos limpios
head(datos)
sapply(datos, unique)
$id
[1] 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32
[33] 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64
[65] 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96
[97] 97 98 99 100
$diabetes
[1] "Sí" "No"
$edad
[1] 75 32 58 64 68 47 49 72 52 63 62 79 77 39 76 55 44 66 46 34 33 50 69 78 37 71 65 51 60 57 42 70 35 30 41 40 43 48 45 73 74 36 56
[44] 31 67 53 59 54 38 61
$sexo
[1] "Masculino" "Femenino"
$imc
[1] 25.8 30.4 30.9 29.7 18.6 39.7 38.0 23.0 24.8 37.9 39.6 24.0 30.6 35.8 27.0 34.2 22.0 31.4 37.1 20.2 27.7 22.9 28.2 30.3 20.5
[26] 24.9 38.4 30.7 28.3 34.7 34.5 19.5 33.7 36.5 22.1 35.3 24.7 25.1 32.8 20.9 37.6 33.5 28.0 27.9 34.9 20.3 31.0 36.0 25.7 34.6
[51] 30.8 37.0 36.2 38.1 21.3 21.5 27.1 27.6 21.1 22.8 28.6 35.9 18.7 38.5 33.9 26.6 32.9 19.1 32.2 19.2 28.7 30.2 19.9 32.5 39.9
[76] 35.0 20.7 32.7 19.6 35.5 35.4 23.9 25.5 35.6 21.4 26.5 33.0 32.0 23.1 38.8 33.6 30.0 23.6 34.0 24.1 35.7 39.2 19.7 28.4 24.3
[101] 30.1 25.4 37.4 22.2 30.5 36.6 19.4 18.8 28.1 33.1 32.1 22.7 29.6 21.7 24.4 26.0 23.5 31.6 37.2 31.1 39.8 32.4 19.3 29.9 21.8
[126] 39.3 34.8 34.1 38.7 21.0 31.3 26.1 39.0 31.5 36.7
$hipertension
[1] "no" "sí" "si"
$actividad_fisica_min_sem
[1] 207 295 126 264 208 258 180 259 179 205 199 29 24 38 152 32 115 111 201 113 72 0 225 30 276 23 18 60 123 19 116 153
[33] 6 71 93 10 248 174 191 42 234 15 118 49 33 253 231 290 63 268 26 297 143 45 292 142 289 213 8 245 256 278 288 94
[65] 214 282 228 101 141 262 155 242 84 190 284 66 212 47 296 122 136 68 286 91 2 162 59 9 250 154 139 85 86 98 43 37
[97] 7 97 216 74 58 16 56 137 121 246 272 124 105 188 267 170 151 100 275 172 133 96 112 217 215 11 178 3 132 52 75 138
[129] 125 20 27 80 127 67 108 119 281 202 5 51 240 144
$fumador
[1] "no" "sí"
$nivel_educativo
[1] "Primaria" "Secundaria" "Universitario"
limpieza para evitar que se repitan elementos u homogenizarlos:
# Limpieza y homogenización de datos categóricos
datos <- datos %>%
mutate(
# Homogeneizar valores en `fumador`
hipertension = case_when(
hipertension %in% c("sí", "Sí", "SÍ", "si") ~ "Sí",
hipertension %in% c("no", "No", "NO") ~ "No",
TRUE ~ NA_character_
))
sapply(datos, unique)
$id
[1] 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32
[33] 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64
[65] 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96
[97] 97 98 99 100
$diabetes
[1] "Sí" "No"
$edad
[1] 75 32 58 64 68 47 49 72 52 63 62 79 77 39 76 55 44 66 46 34 33 50 69 78 37 71 65 51 60 57 42 70 35 30 41 40 43 48 45 73 74 36 56
[44] 31 67 53 59 54 38 61
$sexo
[1] "Masculino" "Femenino"
$imc
[1] 25.8 30.4 30.9 29.7 18.6 39.7 38.0 23.0 24.8 37.9 39.6 24.0 30.6 35.8 27.0 34.2 22.0 31.4 37.1 20.2 27.7 22.9 28.2 30.3 20.5
[26] 24.9 38.4 30.7 28.3 34.7 34.5 19.5 33.7 36.5 22.1 35.3 24.7 25.1 32.8 20.9 37.6 33.5 28.0 27.9 34.9 20.3 31.0 36.0 25.7 34.6
[51] 30.8 37.0 36.2 38.1 21.3 21.5 27.1 27.6 21.1 22.8 28.6 35.9 18.7 38.5 33.9 26.6 32.9 19.1 32.2 19.2 28.7 30.2 19.9 32.5 39.9
[76] 35.0 20.7 32.7 19.6 35.5 35.4 23.9 25.5 35.6 21.4 26.5 33.0 32.0 23.1 38.8 33.6 30.0 23.6 34.0 24.1 35.7 39.2 19.7 28.4 24.3
[101] 30.1 25.4 37.4 22.2 30.5 36.6 19.4 18.8 28.1 33.1 32.1 22.7 29.6 21.7 24.4 26.0 23.5 31.6 37.2 31.1 39.8 32.4 19.3 29.9 21.8
[126] 39.3 34.8 34.1 38.7 21.0 31.3 26.1 39.0 31.5 36.7
$hipertension
[1] "No" "Sí"
$actividad_fisica_min_sem
[1] 207 295 126 264 208 258 180 259 179 205 199 29 24 38 152 32 115 111 201 113 72 0 225 30 276 23 18 60 123 19 116 153
[33] 6 71 93 10 248 174 191 42 234 15 118 49 33 253 231 290 63 268 26 297 143 45 292 142 289 213 8 245 256 278 288 94
[65] 214 282 228 101 141 262 155 242 84 190 284 66 212 47 296 122 136 68 286 91 2 162 59 9 250 154 139 85 86 98 43 37
[97] 7 97 216 74 58 16 56 137 121 246 272 124 105 188 267 170 151 100 275 172 133 96 112 217 215 11 178 3 132 52 75 138
[129] 125 20 27 80 127 67 108 119 281 202 5 51 240 144
$fumador
[1] "no" "sí"
$nivel_educativo
[1] "Primaria" "Secundaria" "Universitario"
Paso 3: Exploración de Datos (EDA)
Resumen Estadístico de Variables Cuantitativas
podemos usar los paquetes, dlookr, gtsummary o
simbplemete con base R:
# Resumen estadístico
datos %>%
select_if(is.numeric) %>%
summary()
id edad imc actividad_fisica_min_sem
Min. : 1.00 Min. :30.00 Min. :18.60 Min. : 0.0
1st Qu.: 25.75 1st Qu.:45.00 1st Qu.:24.38 1st Qu.: 71.0
Median : 50.50 Median :56.50 Median :30.30 Median :140.0
Mean : 50.50 Mean :55.81 Mean :29.53 Mean :145.5
3rd Qu.: 75.25 3rd Qu.:68.00 3rd Qu.:34.70 3rd Qu.:214.2
Max. :100.00 Max. :79.00 Max. :39.90 Max. :297.0
como lo harías con dlookr?
datos %>% describe()
datos %>% normality()
datos %>% plot_normality()




Distribución de Casos y Controles
# Frecuencia de diabetes
datos %>%
count(diabetes) %>%
mutate(porcentaje = n / sum(n) * 100)
# Gráfico de barras
datos %>%
ggplot(aes(x = diabetes, fill = diabetes)) +
geom_bar() +
labs(title = "Distribución de Casos y Controles", x = "Diabetes", y = "Frecuencia") +
theme_minimal()

Paso 4: Análisis Bivariado (Odds Ratios)
Usaremos tablas de contingencia para calcular las Odds Ratios de
hipertensión.
# Tabla de contingencia
datos2 <- datos %>%
mutate(
diabetes = factor(diabetes, levels = c("Sí", "No")), # Diabetes: "si" primero
hipertension = factor(hipertension, levels = c("Sí", "No")) # Hipertensión: "si" primero
)
tabla_contingencia <- datos2 %>%
count(diabetes, hipertension) %>%
pivot_wider(names_from = hipertension, values_from = n, values_fill = 0)
tabla_contingencia
# Calcular Odds Ratio manualmente
odds_ratio <- (tabla_contingencia$Sí[1] * tabla_contingencia$No[2]) /
(tabla_contingencia$Sí[2] * tabla_contingencia$No[1])
# Extraer valores de la tabla
a <- tabla_contingencia$Sí[1] # Diabetes "Sí" e Hipertensión "Sí"
b <- tabla_contingencia$No[1] # Diabetes "Sí" e Hipertensión "No"
c <- tabla_contingencia$Sí[2] # Diabetes "No" e Hipertensión "Sí"
d <- tabla_contingencia$No[2] # Diabetes "No" e Hipertensión "No"
# Calcular Odds Ratio
odds_ratio <- (a * d) / (b * c)
cat("Odds Ratio de hipertensión asociada a diabetes:", round(odds_ratio, 2))
Odds Ratio de hipertensión asociada a diabetes: 1.33
Determinar IC 95% a a los OR
# Logaritmo natural del OR
ln_or <- log(odds_ratio)
# Varianza del log(OR)
var_ln_or <- (1 / a) + (1 / b) + (1 / c) + (1 / d)
# Intervalo de confianza del 95%
z <- 1.96 # Valor crítico para 95%
se_ln_or <- sqrt(var_ln_or) # Error estándar del log(OR)
# Límites inferior y superior del IC
ic_lower <- exp(ln_or - z * se_ln_or)
ic_upper <- exp(ln_or + z * se_ln_or)
# Imprimir resultados
cat("OR =", round(odds_ratio, 2), "\n","IC95%:", round(ic_lower, 2), "-", round(ic_upper, 2), "\n")
OR = 1.33
IC95%: 0.76 - 2.32
Interpretación del Odds Ratio
OR>1: La hipertensión es más probable en personas con
diabetes.
OR=1 : No hay asociación entre diabetes e hipertensión.
OR<1: La hipertensión es menos probable en personas con
diabetes.
Interpretación del Resultado
Interpretación Práctica:
Existe una posible asociación positiva entre diabetes e
hipertensión (OR=1.33), pero esta asociación no es estadísticamente
significativa según el IC95%=[0.76, 2.32].
Más datos o estudios adicionales serían necesarios para confirmar
esta relación.
nrow(datos)
[1] 120
