El bajo peso al nacer, definido como por un peso al nacer inferior a 2500 gr., ha sido una preocupación de los médicos durante años debido a que tanto las tasas de mortalidad como la de nacimientos defectuosos son muy altas para los niños con bajo peso al nacer. El comportamiento de la mujer durante el embarazo (incluyendo la dieta, los hábitos tabáquicos y los cuidados prenatales) pueden alterar las chances de un parto de un niño con bajo peso. Los datos que se presentan en este ejercicio corresponden a 189 nacimientos de los cuales 59 han resultado en niños con bajo peso. El objetivo de este ejercicio es determinar cuáles de las variables presentes en la base de datos que se adjunta son factores de riesgo de bajo peso al nacer.

library(RJSONIO)
library(epiR)
library(haven)
library(dplyr)

Levanto data

base_nacimientos <- read_sav("./LOWBWT.sav")%>%
  mutate(
    LOW= as.factor(LOW),
    RACE= as.factor(RACE),
    SMOKE= as.factor(SMOKE),
    PTL= as.factor(PTL),
    HT= as.factor(HT),
    UI= as.factor(UI),
    FTV= as.factor(FTV)
  )
# Función para calcular RR y OR
calculate_rr_or <- function(data, exposure_col) {
  
  # Expuestos
  exposed <- filter(data, !!sym(exposure_col) == 1)
  risk_exposed <- sum(exposed$LOW == 1) / nrow(exposed)
  
  # No expuestos
  non_exposed <- filter(data, !!sym(exposure_col) == 0)
  risk_non_exposed <- sum(non_exposed$LOW == 1) / nrow(non_exposed)
  
  # Riesgo Relativo
  RR <- risk_exposed / risk_non_exposed
  
  # Odds Ratio
  odds_exposed <- risk_exposed / (1 - risk_exposed)
  odds_non_exposed <- risk_non_exposed / (1 - risk_non_exposed)
  OR <- odds_exposed / odds_non_exposed
  
  return(list("Riesgo Relativo" = RR, "Odds Ratio" = OR))
}

# Variables dicotómicas a analizar
variables_dicotomicas <- c("SMOKE", "HT", "UI")
results <- data.frame()

for (var in variables_dicotomicas) {
  result <- calculate_rr_or(base_nacimientos, var)
  results <- rbind(results, data.frame(Variable = var, RR = result[["Riesgo Relativo"]], OR = result[["Odds Ratio"]]))
}

print(results)
##   Variable       RR       OR
## 1    SMOKE 1.607642 2.021944
## 2       HT 1.985577 3.365385
## 3       UI 1.788889 2.577778

-Calcular el riesgo relativo y los odds ratio de la variable dependiente con cada una las variables dicotómicas. Analizar los resultados.

SMOKE: las madres que fumaron durante el embarazo tienen un riesgo 1.6 veces mayor de tener un hijo con bajo peso al nacer en comparación con las madres que no fumaron. El odds ratio de 2.02 indica que las madres que fumaron durante el embarazo tienen más del doble de probabilidades de tener un hijo con bajo peso al nacer en comparación con las que no fumaron.

HT: las madres con antecedentes de hipertensión arterial tienen un riesgo casi 2 veces mayor de tener un hijo con bajo peso al nacer en comparación con las madres sin antecedentes de hipertensión. El odds ratio de 3.37 indica que las madres con antecedentes de hipertensión tienen más del triple de probabilidades de tener un hijo con bajo peso al nacer.

UI: las madres con irritabilidad uterina tienen un riesgo 1.79 veces mayor de tener un hijo con bajo peso al nacer en comparación con las madres sin irritabilidad uterina. El odds ratio de 2.58 indica que las madres con irritabilidad uterina tienen más de 2.5 veces más probabilidades de tener un hijo con bajo peso al nacer.

Cuál es la definición de odds ratio? Qué información suministra y de qué manera puede calcularse utilizando la regresión logística?

Odds Ratio (OR)

El Odds Ratio (OR) es una medida de asociación que indica cuánto más (o menos) probable es un evento dado la presencia (o ausencia) de cierta condición. Información que suministra: El OR suministra una comparación de las odds (probabilidades) de un evento entre dos grupos. Un OR de: - 1 sugiere que la condición no afecta la probabilidad del evento. - > 1 indica que la condición aumenta la probabilidad del evento. - < 1 indica que la condición disminuye la probabilidad del evento.

En la regresión logística, el exponente del coeficiente de una variable (exp(coeficiente)) es el OR asociado con un incremento de una unidad en esa variable, manteniendo constantes las demás variables.

Calculo de los Odds ratio de cada una de las variables predictoras disponibles con la variable dependiente? Comentar

modelo_logit <- glm(LOW ~ AGE + LWT + RACE + SMOKE + PTL + HT + UI + FTV, 
                   family = binomial(link = "logit"), data = base_nacimientos)

# Calcular los odds ratio
odds_ratio <- exp(coef(modelo_logit))

# Mostrar los odds ratio
print(odds_ratio)
##  (Intercept)          AGE          LWT        RACE2        RACE3       SMOKE1 
## 2.456198e+00 9.618513e-01 9.847621e-01 3.035773e+00 1.953761e+00 2.028524e+00 
##         PTL1         PTL2         PTL3          HT1          UI1         FTV1 
## 6.456179e+00 1.628221e+00 1.793530e-07 6.078369e+00 2.210117e+00 5.712966e-01 
##         FTV2         FTV3         FTV4         FTV6 
## 9.218192e-01 3.013492e+00 3.975350e-01 2.463609e-06
  1. AGE (Edad de la madre): OR = 0.9618: Por cada año adicional en la edad de la madre, las odds de tener un bebé con bajo peso disminuyen aproximadamente en un 3.82% (100 * (1 - 0.9618)), manteniendo constantes las otras variables.
  2. LWT (Peso de la madre al inicio del embarazo): OR = 0.9848: Por cada libra adicional en el peso de la madre al inicio del embarazo, las odds de tener un bebé con bajo peso disminuyen aproximadamente en un 1.52% (100 * (1 - 0.9848)), manteniendo todo lo demás constante.
  3. RACE2 (Raza Black): OR = 3.0358: Si la madre es de raza negra tiene aproximadamente 3.03 veces las odds de tener un bebé con bajo peso comparado con una madre de raza blanca, manteniendo constantes las otras variables.
  4. RACE3 (Raza Other): OR = 1.9538: Si la madre pertenece a otra raza diferente a blanca o negra tiene aproximadamente 1.95 veces las odds de tener un bebé con bajo peso comparado con una madre de raza blanca, manteniendo constantes las otras variables.
  5. SMOKE1 (Fumó durante el embarazo): OR = 2.0285: Las madres que fumaron durante el embarazo tienen aproximadamente 2.03 veces las odds de tener un bebé con bajo peso comparado con aquellas que no fumaron, manteniendo todo lo demás constante.
  6. PTL1 (Un embarazo prematuro anterior): OR = 6.4562: Las madres con un antecedente de embarazo prematuro tienen aproximadamente 6.46 veces las odds de tener un bebé con bajo peso, comparado con las madres sin dicho antecedente, manteniendo constantes las otras variables.

Los OR nos proporcionan una forma cuantitativa de determinar cuánto más probable es un evento en un grupo en comparación con otro. En el contexto de este estudio, estos OR proporcionan una medida del riesgo relativo de tener un bebé con bajo peso dado diferentes factores.

-Realizaré una regresión logística múltiple, seleccionando los mejores predictores entre las variables independientes disponibles, utilizando un método de selección automática.

modelo_completo <- glm(LOW ~ AGE + LWT + RACE + SMOKE + PTL + HT + UI + FTV, 
                       data = base_nacimientos, family = binomial)


modelo_optimizado <- step(modelo_completo, direction = "both")
## Start:  AIC=220.6
## LOW ~ AGE + LWT + RACE + SMOKE + PTL + HT + UI + FTV
## 
##         Df Deviance    AIC
## - FTV    5   192.45 214.45
## - AGE    1   189.58 219.58
## <none>       188.60 220.60
## - SMOKE  1   191.20 221.20
## - RACE   2   193.23 221.23
## - UI     1   191.32 221.32
## - LWT    1   193.13 223.13
## - HT     1   194.72 224.72
## - PTL    3   202.21 228.21
## 
## Step:  AIC=214.45
## LOW ~ AGE + LWT + RACE + SMOKE + PTL + HT + UI
## 
##         Df Deviance    AIC
## - AGE    1   193.59 213.59
## <none>       192.45 214.45
## - UI     1   195.67 215.67
## - RACE   2   197.91 215.91
## - SMOKE  1   196.91 216.91
## - LWT    1   198.05 218.05
## - HT     1   199.64 219.64
## - PTL    3   203.95 219.95
## + FTV    5   188.60 220.60
## 
## Step:  AIC=213.59
## LOW ~ LWT + RACE + SMOKE + PTL + HT + UI
## 
##         Df Deviance    AIC
## <none>       193.59 213.59
## + AGE    1   192.45 214.45
## - UI     1   197.17 215.17
## - RACE   2   200.27 216.27
## - SMOKE  1   198.40 216.40
## - PTL    3   204.22 218.22
## - LWT    1   200.29 218.29
## - HT     1   200.94 218.94
## + FTV    5   189.58 219.58
summary(modelo_optimizado)
## 
## Call:
## glm(formula = LOW ~ LWT + RACE + SMOKE + PTL + HT + UI, family = binomial, 
##     data = base_nacimientos)
## 
## Deviance Residuals: 
##     Min       1Q   Median       3Q      Max  
## -1.8644  -0.7707  -0.5171   0.9271   2.2084  
## 
## Coefficients:
##               Estimate Std. Error z value Pr(>|z|)   
## (Intercept)   0.030369   0.986202   0.031  0.97543   
## LWT          -0.017173   0.007121  -2.412  0.01588 * 
## RACE2         1.248872   0.535197   2.333  0.01962 * 
## RACE3         0.796707   0.447359   1.781  0.07493 . 
## SMOKE1        0.885373   0.409389   2.163  0.03057 * 
## PTL1          1.457868   0.507406   2.873  0.00406 **
## PTL2          0.273850   0.980762   0.279  0.78007   
## PTL3        -14.744564 882.743533  -0.017  0.98667   
## HT1           1.898206   0.717535   2.645  0.00816 **
## UI1           0.894205   0.469649   1.904  0.05691 . 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 234.67  on 188  degrees of freedom
## Residual deviance: 193.59  on 179  degrees of freedom
## AIC: 213.59
## 
## Number of Fisher Scoring iterations: 13

A partir de la regresión logística múltiple realizada sobre las variables, se obtuvieron los siguientes resultados:

  1. La variable LWT tiene un coeficiente negativo, lo que sugiere que a medida que aumenta el peso de la madre en el último periodo menstrual, disminuye el log-odds de tener un bebé con bajo peso al nacer.
  2. RACE2 y RACE3 indican que, en comparación con la raza de referencia (White), ser de raza Black o Other aumenta el log-odds de tener un bebé con bajo peso al nacer.
  3. Fumar durante el embarazo (SMOKE1) aumenta el log-odds de tener un bebé con bajo peso al nacer.
  4. Tener antecedentes de embarazos prematuros (PTL1) también aumenta el riesgo.
  5. Tener antecedentes de hipertensión arterial (HT1) aumenta considerablemente el log-odds de dar a luz a un bebé con bajo peso.
  6. Es importante notar que PTL3 no es significativo y tiene un error estándar muy grande, lo que sugiere que es posible que no haya suficientes datos para hacer una estimación precisa para esa categoría.

-Según el modelo obtenido, cabe preguntarse cuáles son los principales factores de riesgo del bajo peso y cuál es la magnitud de su efecto?

Basándonos en la significancia estadística y los coeficientes, los principales factores de riesgo para el bajo peso al nacer y la magnitud de su efecto son los siguientes:

Coeficiente (Estimación) para Antecedentes de embarazos prematuros (PTL1): 1.457868. Tener un antecedente de embarazo prematuro (PTL1) aumenta considerablemente el log-odds (logaritmo de las odds) de dar a luz a un bebé con bajo peso al nacer. En términos de odds, se puede decir que las odds de tener un bebé con bajo peso al nacer son aproximadamente exp(1.457868) ≈ 4.29 veces mayores para las madres con un antecedente de embarazo prematuro en comparación con aquellas que no tienen antecedentes.

Coeficiente (Estimación) para Antecedentes de hipertensión arterial (HT1): 1.898206. Tener antecedentes de hipertensión arterial incrementa significativamente el log-odds de tener un bebé con bajo peso al nacer. Las odds de tener un bebé con bajo peso para madres con antecedentes de hipertensión son aproximadamente exp(1.898206) ≈ 6.68 veces mayores en comparación con madres sin tales antecedentes.

Coeficiente (Estimación) para Raza (RACE2): 1.248872. Las madres de raza negra (en comparación con las de raza blanca, que es la categoría de referencia) tienen un mayor log-odds de dar a luz a un bebé con bajo peso. Las odds son aproximadamente exp(1.248872) ≈ 3.49 veces mayores para las madres de raza negra.

Coeficiente (Estimación) para Fumó durante el embarazo (SMOKE1): 0.885373. Fumar durante el embarazo también aumenta el log-odds de tener un bebé con bajo peso al nacer. Las odds de tener un bebé con bajo peso para madres fumadoras durante el embarazo son aproximadamente exp(0.885373) ≈ 2.42 veces mayores en comparación con las no fumadoras.

Coeficiente (Estimación) para Peso de la madre en el último periodo menstrual (LWT): -0.017173. Aunque el efecto es más sutil que los otros factores mencionados, un aumento en el peso de la madre disminuye el log-odds de tener un bebé con bajo peso al nacer. Esto sugiere que un mayor peso al final del ciclo menstrual puede estar asociado con un menor riesgo de bajo peso al nacer.

Cuáles son los supuestos necesarios para definir la prueba inferencial de los estimadores de los parámetros?

Supuestos para la Prueba Inferencial de los Estimadores de los Parámetros

Para llevar a cabo pruebas inferenciales en el contexto de regresión logística es necesario que se cumplan ciertos supuestos. Estos supuestos aseguran que las pruebas y estimaciones son válidas. A continuación se describen los principales supuestos:

  1. Linealidad: La relación entre las variables independientes y la variable dependiente debe ser lineal. En el caso de la regresión logística, la relación es entre las variables independientes y el logaritmo de odds de la variable dependiente.
  2. Independencia: Las observaciones deben ser independientes entre sí. Esto generalmente se satisface con un diseño de muestreo adecuado.
  3. Ausencia de multicolinealidad: Las variables independientes no deben estar altamente correlacionadas entre sí. Esto porque la multicolinealidad puede hacer que los estimadores no sean únicos y por lo tanto los p-values asociados pueden no ser válidos.
  4. Ausencia de valores extremos: Los valores extremos o atípicos pueden afectar significativamente los estimadores y las pruebas inferenciales. Es fundamental verificar y, si es necesario, tratar estos valores antes del análisis.
  5. Especificación correcta del modelo: El modelo debe estar especificado correctamente, es decir, debe incluir todas las variables relevantes y no incluir variables irrelevantes.

Al no cumplirse estos supuestos, las pruebas inferenciales pueden no ser válidas y podríamos llegar a conclusiones incorrectas sobre la relación entre las variables independientes y la dependiente.

Porcentaje de casos bien predichos por el modelo.

# Calcular porcentaje de casos bien predichos
predichos <- ifelse(predict(modelo_optimizado, type = "response") > 0.5, 1, 0)
tabla <- table(base_nacimientos$LOW, predichos)
accuracy <- sum(diag(tabla)) / sum(tabla) * 100
print(paste("Porcentaje de casos bien predichos:", accuracy))
## [1] "Porcentaje de casos bien predichos: 75.6613756613757"
