El bajo peso al nacer, definido como por un peso al nacer inferior a
2500 gr., ha sido una preocupación de los médicos durante años debido a
que tanto las tasas de mortalidad como la de nacimientos defectuosos son
muy altas para los niños con bajo peso al nacer. El comportamiento de la
mujer durante el embarazo (incluyendo la dieta, los hábitos tabáquicos y
los cuidados prenatales) pueden alterar las chances de un parto de un
niño con bajo peso. Los datos que se presentan en este ejercicio
corresponden a 189 nacimientos de los cuales 59 han resultado en niños
con bajo peso. El objetivo de este ejercicio es determinar cuáles de las
variables presentes en la base de datos que se adjunta son factores de
riesgo de bajo peso al nacer.
library(RJSONIO)
library(epiR)
library(haven)
library(dplyr)
Levanto data
base_nacimientos <- read_sav("./LOWBWT.sav")%>%
mutate(
LOW= as.factor(LOW),
RACE= as.factor(RACE),
SMOKE= as.factor(SMOKE),
PTL= as.factor(PTL),
HT= as.factor(HT),
UI= as.factor(UI),
FTV= as.factor(FTV)
)
# Función para calcular RR y OR
calculate_rr_or <- function(data, exposure_col) {
# Expuestos
exposed <- filter(data, !!sym(exposure_col) == 1)
risk_exposed <- sum(exposed$LOW == 1) / nrow(exposed)
# No expuestos
non_exposed <- filter(data, !!sym(exposure_col) == 0)
risk_non_exposed <- sum(non_exposed$LOW == 1) / nrow(non_exposed)
# Riesgo Relativo
RR <- risk_exposed / risk_non_exposed
# Odds Ratio
odds_exposed <- risk_exposed / (1 - risk_exposed)
odds_non_exposed <- risk_non_exposed / (1 - risk_non_exposed)
OR <- odds_exposed / odds_non_exposed
return(list("Riesgo Relativo" = RR, "Odds Ratio" = OR))
}
# Variables dicotómicas a analizar
variables_dicotomicas <- c("SMOKE", "HT", "UI")
results <- data.frame()
for (var in variables_dicotomicas) {
result <- calculate_rr_or(base_nacimientos, var)
results <- rbind(results, data.frame(Variable = var, RR = result[["Riesgo Relativo"]], OR = result[["Odds Ratio"]]))
}
print(results)
## Variable RR OR
## 1 SMOKE 1.607642 2.021944
## 2 HT 1.985577 3.365385
## 3 UI 1.788889 2.577778
-Calcular el riesgo relativo y los odds ratio de la variable
dependiente con cada una las variables dicotómicas. Analizar los
resultados.
SMOKE: las madres que fumaron durante el embarazo
tienen un riesgo 1.6 veces mayor de tener un hijo con
bajo peso al nacer en comparación con las madres que no fumaron. El odds
ratio de 2.02 indica que las madres que fumaron durante
el embarazo tienen más del doble de probabilidades de tener un hijo con
bajo peso al nacer en comparación con las que no fumaron.
HT: las madres con antecedentes de hipertensión
arterial tienen un riesgo casi 2 veces mayor de tener
un hijo con bajo peso al nacer en comparación con las madres sin
antecedentes de hipertensión. El odds ratio de 3.37
indica que las madres con antecedentes de hipertensión tienen más del
triple de probabilidades de tener un hijo con bajo peso al nacer.
UI: las madres con irritabilidad uterina tienen un
riesgo 1.79 veces mayor de tener un hijo con bajo peso
al nacer en comparación con las madres sin irritabilidad uterina. El
odds ratio de 2.58 indica que las madres con
irritabilidad uterina tienen más de 2.5 veces más probabilidades de
tener un hijo con bajo peso al nacer.
Cuál es la definición de odds ratio? Qué información suministra y de
qué manera puede calcularse utilizando la regresión logística?
Odds Ratio (OR)
El Odds Ratio (OR) es una medida de asociación que
indica cuánto más (o menos) probable es un evento dado la presencia (o
ausencia) de cierta condición. Información que suministra: El OR
suministra una comparación de las odds (probabilidades) de un evento
entre dos grupos. Un OR de: - 1 sugiere que la
condición no afecta la probabilidad del evento. - >
1 indica que la condición aumenta la probabilidad del evento. -
< 1 indica que la condición disminuye la
probabilidad del evento.
En la regresión logística, el exponente del
coeficiente de una variable (exp(coeficiente)) es el OR asociado con un
incremento de una unidad en esa variable, manteniendo constantes las
demás variables.
Calculo de los Odds ratio de cada una de las variables predictoras
disponibles con la variable dependiente? Comentar
modelo_logit <- glm(LOW ~ AGE + LWT + RACE + SMOKE + PTL + HT + UI + FTV,
family = binomial(link = "logit"), data = base_nacimientos)
# Calcular los odds ratio
odds_ratio <- exp(coef(modelo_logit))
# Mostrar los odds ratio
print(odds_ratio)
## (Intercept) AGE LWT RACE2 RACE3 SMOKE1
## 2.456198e+00 9.618513e-01 9.847621e-01 3.035773e+00 1.953761e+00 2.028524e+00
## PTL1 PTL2 PTL3 HT1 UI1 FTV1
## 6.456179e+00 1.628221e+00 1.793530e-07 6.078369e+00 2.210117e+00 5.712966e-01
## FTV2 FTV3 FTV4 FTV6
## 9.218192e-01 3.013492e+00 3.975350e-01 2.463609e-06
- AGE (Edad de la madre): OR =
0.9618: Por cada año adicional en la edad de la madre, las odds
de tener un bebé con bajo peso disminuyen aproximadamente en un 3.82%
(100 * (1 - 0.9618)), manteniendo constantes las otras variables.
- LWT (Peso de la madre al inicio del embarazo):
OR = 0.9848: Por cada libra adicional en el peso de la
madre al inicio del embarazo, las odds de tener un bebé con bajo peso
disminuyen aproximadamente en un 1.52% (100 * (1 - 0.9848)), manteniendo
todo lo demás constante.
- RACE2 (Raza Black): OR = 3.0358:
Si la madre es de raza negra tiene aproximadamente 3.03 veces las odds
de tener un bebé con bajo peso comparado con una madre de raza blanca,
manteniendo constantes las otras variables.
- RACE3 (Raza Other): OR = 1.9538:
Si la madre pertenece a otra raza diferente a blanca o negra tiene
aproximadamente 1.95 veces las odds de tener un bebé con bajo peso
comparado con una madre de raza blanca, manteniendo constantes las otras
variables.
- SMOKE1 (Fumó durante el embarazo): OR =
2.0285: Las madres que fumaron durante el embarazo tienen
aproximadamente 2.03 veces las odds de tener un bebé con bajo peso
comparado con aquellas que no fumaron, manteniendo todo lo demás
constante.
- PTL1 (Un embarazo prematuro anterior): OR =
6.4562: Las madres con un antecedente de embarazo prematuro
tienen aproximadamente 6.46 veces las odds de tener un bebé con bajo
peso, comparado con las madres sin dicho antecedente, manteniendo
constantes las otras variables.
Los OR nos proporcionan una forma cuantitativa de determinar cuánto
más probable es un evento en un grupo en comparación con otro. En el
contexto de este estudio, estos OR proporcionan una medida del riesgo
relativo de tener un bebé con bajo peso dado diferentes factores.
-Realizaré una regresión logística múltiple, seleccionando los
mejores predictores entre las variables independientes disponibles,
utilizando un método de selección automática.
modelo_completo <- glm(LOW ~ AGE + LWT + RACE + SMOKE + PTL + HT + UI + FTV,
data = base_nacimientos, family = binomial)
modelo_optimizado <- step(modelo_completo, direction = "both")
## Start: AIC=220.6
## LOW ~ AGE + LWT + RACE + SMOKE + PTL + HT + UI + FTV
##
## Df Deviance AIC
## - FTV 5 192.45 214.45
## - AGE 1 189.58 219.58
## <none> 188.60 220.60
## - SMOKE 1 191.20 221.20
## - RACE 2 193.23 221.23
## - UI 1 191.32 221.32
## - LWT 1 193.13 223.13
## - HT 1 194.72 224.72
## - PTL 3 202.21 228.21
##
## Step: AIC=214.45
## LOW ~ AGE + LWT + RACE + SMOKE + PTL + HT + UI
##
## Df Deviance AIC
## - AGE 1 193.59 213.59
## <none> 192.45 214.45
## - UI 1 195.67 215.67
## - RACE 2 197.91 215.91
## - SMOKE 1 196.91 216.91
## - LWT 1 198.05 218.05
## - HT 1 199.64 219.64
## - PTL 3 203.95 219.95
## + FTV 5 188.60 220.60
##
## Step: AIC=213.59
## LOW ~ LWT + RACE + SMOKE + PTL + HT + UI
##
## Df Deviance AIC
## <none> 193.59 213.59
## + AGE 1 192.45 214.45
## - UI 1 197.17 215.17
## - RACE 2 200.27 216.27
## - SMOKE 1 198.40 216.40
## - PTL 3 204.22 218.22
## - LWT 1 200.29 218.29
## - HT 1 200.94 218.94
## + FTV 5 189.58 219.58
summary(modelo_optimizado)
##
## Call:
## glm(formula = LOW ~ LWT + RACE + SMOKE + PTL + HT + UI, family = binomial,
## data = base_nacimientos)
##
## Deviance Residuals:
## Min 1Q Median 3Q Max
## -1.8644 -0.7707 -0.5171 0.9271 2.2084
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) 0.030369 0.986202 0.031 0.97543
## LWT -0.017173 0.007121 -2.412 0.01588 *
## RACE2 1.248872 0.535197 2.333 0.01962 *
## RACE3 0.796707 0.447359 1.781 0.07493 .
## SMOKE1 0.885373 0.409389 2.163 0.03057 *
## PTL1 1.457868 0.507406 2.873 0.00406 **
## PTL2 0.273850 0.980762 0.279 0.78007
## PTL3 -14.744564 882.743533 -0.017 0.98667
## HT1 1.898206 0.717535 2.645 0.00816 **
## UI1 0.894205 0.469649 1.904 0.05691 .
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 234.67 on 188 degrees of freedom
## Residual deviance: 193.59 on 179 degrees of freedom
## AIC: 213.59
##
## Number of Fisher Scoring iterations: 13
A partir de la regresión logística múltiple realizada sobre las
variables, se obtuvieron los siguientes resultados:
- La variable LWT tiene un coeficiente negativo, lo
que sugiere que a medida que aumenta el peso de la madre en el último
periodo menstrual, disminuye el log-odds de tener un bebé con bajo peso
al nacer.
- RACE2 y RACE3 indican que, en
comparación con la raza de referencia (White), ser de raza Black o Other
aumenta el log-odds de tener un bebé con bajo peso al nacer.
- Fumar durante el embarazo (SMOKE1) aumenta el
log-odds de tener un bebé con bajo peso al nacer.
- Tener antecedentes de embarazos prematuros (PTL1)
también aumenta el riesgo.
- Tener antecedentes de hipertensión arterial (HT1)
aumenta considerablemente el log-odds de dar a luz a un bebé con bajo
peso.
- Es importante notar que PTL3 no es significativo y
tiene un error estándar muy grande, lo que sugiere que es posible que no
haya suficientes datos para hacer una estimación precisa para esa
categoría.
-Según el modelo obtenido, cabe preguntarse cuáles son los
principales factores de riesgo del bajo peso y cuál es la magnitud de su
efecto?
Basándonos en la significancia estadística y los coeficientes, los
principales factores de riesgo para el bajo peso al nacer y la magnitud
de su efecto son los siguientes:
Coeficiente (Estimación) para Antecedentes de embarazos
prematuros (PTL1): 1.457868. Tener un antecedente de embarazo
prematuro (PTL1) aumenta considerablemente el log-odds (logaritmo de las
odds) de dar a luz a un bebé con bajo peso al nacer. En términos de
odds, se puede decir que las odds de tener un bebé con bajo peso al
nacer son aproximadamente exp(1.457868) ≈ 4.29 veces
mayores para las madres con un antecedente de embarazo prematuro en
comparación con aquellas que no tienen antecedentes.
Coeficiente (Estimación) para Antecedentes de hipertensión
arterial (HT1): 1.898206. Tener antecedentes de hipertensión
arterial incrementa significativamente el log-odds de tener un bebé con
bajo peso al nacer. Las odds de tener un bebé con bajo peso para madres
con antecedentes de hipertensión son aproximadamente
exp(1.898206) ≈ 6.68 veces mayores en comparación con
madres sin tales antecedentes.
Coeficiente (Estimación) para Raza (RACE2):
1.248872. Las madres de raza negra (en comparación con las de
raza blanca, que es la categoría de referencia) tienen un mayor log-odds
de dar a luz a un bebé con bajo peso. Las odds son aproximadamente
exp(1.248872) ≈ 3.49 veces mayores para las madres de raza
negra.
Coeficiente (Estimación) para Fumó durante el embarazo
(SMOKE1): 0.885373. Fumar durante el embarazo también aumenta
el log-odds de tener un bebé con bajo peso al nacer. Las odds de tener
un bebé con bajo peso para madres fumadoras durante el embarazo son
aproximadamente exp(0.885373) ≈ 2.42 veces mayores en
comparación con las no fumadoras.
Coeficiente (Estimación) para Peso de la madre en el último
periodo menstrual (LWT): -0.017173. Aunque el efecto es más
sutil que los otros factores mencionados, un aumento en el peso de la
madre disminuye el log-odds de tener un bebé con bajo peso al nacer.
Esto sugiere que un mayor peso al final del ciclo menstrual puede estar
asociado con un menor riesgo de bajo peso al nacer.
Cuáles son los supuestos necesarios para definir la prueba
inferencial de los estimadores de los parámetros?
Supuestos para la Prueba Inferencial de los Estimadores de los
Parámetros
Para llevar a cabo pruebas inferenciales en el contexto de regresión
logística es necesario que se cumplan ciertos supuestos. Estos supuestos
aseguran que las pruebas y estimaciones son válidas. A continuación se
describen los principales supuestos:
- Linealidad: La relación entre las variables
independientes y la variable dependiente debe ser lineal. En el caso de
la regresión logística, la relación es entre las variables
independientes y el logaritmo de odds de la variable dependiente.
- Independencia: Las observaciones deben ser
independientes entre sí. Esto generalmente se satisface con un diseño de
muestreo adecuado.
- Ausencia de multicolinealidad: Las variables
independientes no deben estar altamente correlacionadas entre sí. Esto
porque la multicolinealidad puede hacer que los estimadores no sean
únicos y por lo tanto los p-values asociados pueden no ser válidos.
- Ausencia de valores extremos: Los valores extremos
o atípicos pueden afectar significativamente los estimadores y las
pruebas inferenciales. Es fundamental verificar y, si es necesario,
tratar estos valores antes del análisis.
- Especificación correcta del modelo: El modelo debe
estar especificado correctamente, es decir, debe incluir todas las
variables relevantes y no incluir variables irrelevantes.
Al no cumplirse estos supuestos, las pruebas inferenciales pueden no
ser válidas y podríamos llegar a conclusiones incorrectas sobre la
relación entre las variables independientes y la dependiente.
Porcentaje de casos bien predichos por el modelo.
# Calcular porcentaje de casos bien predichos
predichos <- ifelse(predict(modelo_optimizado, type = "response") > 0.5, 1, 0)
tabla <- table(base_nacimientos$LOW, predichos)
accuracy <- sum(diag(tabla)) / sum(tabla) * 100
print(paste("Porcentaje de casos bien predichos:", accuracy))
## [1] "Porcentaje de casos bien predichos: 75.6613756613757"
