1 Resumen

Introducción. Evaluamos el desempeño de APACHE II (24 h) y SOFA (48 h) para predecir mortalidad hospitalaria en pacientes de UCI y su utilidad clínica a distintos umbrales de decisión.

Métodos. Cohorte observacional de 865 ingresos consecutivos. Se estandarizaron y unificaron bases mensuales; se definió mortalidad como desenlace y se derivaron variables (edad, ventilación invasiva—VI—, estancia). Se estimó discriminación (ROC), calibración (Brier, calibración bootstrap), utilidad clínica (curvas de decisión) y métricas de clasificación por umbrales. Se ajustaron modelos logísticos: univariados (APACHE/5, SOFA/5) y multivariables (con edad y VI), además de análisis exploratorio por subgrupos clínicos.

Resultados. Ambos scores mostraron buena discriminación, con SOFA 48 h ligeramente superior y diferencia no significativa. En modelos univariados, cada 5 puntos aumentó significativamente las odds de muerte (APACHE y SOFA con OR elevados y IC estrechos). Tras ajustar por edad y VI, las asociaciones se atenuaron pero conservaron relevancia clínica; en el modelo conjunto, los dos scores mantuvieron dirección de efecto, reflejando solapamiento parcial pero aporte no redundante. La calibración fue adecuada y mejoró con modelos más completos. Las curvas de decisión mostraron beneficio neto positivo frente a “tratar a todos/ninguno” en umbrales clínicos 0,10–0,30, con ventaja de los modelos combinados (score+edad+VI). Las tablas por umbral confirmaron el trade-off esperado: umbrales bajos maximizan sensibilidad/VPN; umbrales intermedios mejoran especificidad/VPP/LR+. El desempeño de SOFA varió entre subgrupos, con mejores AUC en contextos más homogéneos.

Conclusiones. SOFA 48 h y APACHE II permiten una estratificación de riesgo robusta; integrar edad y VI mejora la utilidad clínica y el beneficio neto. Recomendamos modelos parsimoniosos basados en SOFA 48 h (y APACHE cuando esté disponible), con umbrales adaptados al objetivo clínico, verificación de calibración por subgrupos y validación externa antes de su implementación amplia.

2 Introducción

La estratificación temprana del riesgo de mortalidad en cuidados intensivos es clave para priorizar recursos, orientar decisiones terapéuticas y comunicar pronóstico. Entre las herramientas disponibles, APACHE II (24 h) y SOFA (48 h) son dos de los puntajes más extendidos: el primero sintetiza gravedad al ingreso, mientras que el segundo captura la evolución de la disfunción orgánica en las primeras 48 horas. Sin embargo, su desempeño puede variar según el casemix, la organización del cuidado y los cambios temporales en la práctica clínica, por lo que resulta imprescindible su validación y recalibración local antes de su uso operativo.

Más allá de la discriminación medida por el área bajo la curva ROC, la calibración (coherencia entre riesgo predicho y observado) y la utilidad clínica (beneficio neto en distintos umbrales de decisión) determinan si un modelo es realmente aplicable a la cabecera del paciente. En la práctica, decisiones como iniciar medidas intensivas, escalar soporte o activar rutas de alta vigilancia se toman con umbrales de probabilidad específicos; por ello, evaluar únicamente AUC puede ser insuficiente. En este contexto, enfoques como el Brier score y las curvas de decisión permiten cuantificar el valor añadido del modelo frente a estrategias simples (“tratar a todos” o “a ninguno”) y alinearlo con los costos clínicos de falsos positivos y falsos negativos.

Además, variables simples y disponibles universalmente, como la edad y la ventilación invasiva (VI), capturan dimensiones complementarias de severidad y podrían potenciar el desempeño de los puntajes sin añadir complejidad. No obstante, la posible colinealidad y el solapamiento de información obligan a evaluar su contribución conjunta con criterios de parsimonia y estabilidad.

Con este marco, nuestro objetivo fue evaluar comparativamente el desempeño de APACHE II (24 h) y SOFA (48 h) para predecir mortalidad hospitalaria en una cohorte consecutiva, analizando discriminación, calibración y utilidad clínica por umbral. Como objetivos secundarios, exploramos el efecto incremental de incorporar edad y VI, describimos métricas de clasificación en puntos de corte clínicamente plausibles y examinamos el comportamiento por subgrupos de tipo de paciente. Nuestro propósito final es ofrecer evidencia local y accionable que permita integrar estas herramientas a la toma de decisiones, con umbrales y expectativas de desempeño realistas, y sentar las bases para su validación externa y actualización periódica.

2.1 Diseño, población y ámbito

Diseño. Estudio de cohorte observacional, analítico, con captura consecutiva de casos y consolidación de una base institucional. La información se unificó desde planillas mensuales estandarizadas y se depuró antes del análisis (normalización de encabezados, coalescencia de campos duplicados, armonización de tipos, control de duplicados y validación de rangos/fechas).

Ámbito. Unidad de cuidados críticos (intensivos/intermedios) de un hospital general. La ventana temporal abarcó desde 22-dic-2023 hasta 16-dic-2025 (según fec_ing), período durante el cual se mantuvieron prácticas clínicas y de registro relativamente estables.

Población. Se incluyeron todos los ingresos consecutivos a la unidad dentro del período, sin restricción por diagnóstico. Para el análisis principal se trabajó con 865 episodios tras limpieza. Se consideró cada episodio de internación como unidad de análisis; reingresos del mismo paciente se trataron como episodios independientes si correspondían a internaciones separadas. Los criterios de exclusión operativos fueron: registros sin fecha de ingreso válida, filas duplicadas tras deduplicación por identificadores (p. ej., prontuario/registro + fecha), y valores claramente imposibles en variables clave. En análisis secundarios orientados a longitud de estancia o condición de egreso, se restringió a casos con egreso registrado.

Variables y fuentes.

  • Desenlace primario: mortalidad hospitalaria al egreso, derivada de la “Condición al Egreso” tras estandarización (óptico/alta/transferencia).
  • Predictores principales: APACHE II (24 h) y SOFA (48 h).
  • Covariables a priori: edad y ventilación invasiva (VI); se emplearon como factores de ajuste dado su rol clínico y disponibilidad universal.
  • Otras variables de contexto: origen/tipo de paciente y días de internación (LOS), utilizadas para descripción y exploratorios. Las fuentes fueron los registros operativos de la unidad (planillas de carga clínica), consolidadas en un único archivo maestro tras procesos de estandarización (limpieza de nombres, unificación de variantes de campo y parseo de fechas incluyendo seriales de Excel).

Calidad de datos y preprocesamiento. Se implementaron reglas reproducibles: (i) armonización de nombres a formato seguro, (ii) coalescencia de columnas equivalentes (p. ej., variantes de SOFA/APACHE, timestamp/email), (iii) conversión robusta de fechas con detección de formatos mixtos y seriales, (iv) tipificación numérica de escalas y booleans (VI), (v) depuración de duplicados por claves clínicas y (vi) auditorías simples de rango y consistencia (por ejemplo, LOS no negativo).

Consideraciones éticas. El estudio utilizó datos asistenciales rutinarios, desidentificados para el análisis, sin intervención sobre la atención. La difusión de resultados se limita a estadísticas agregadas y modelos sin exposición de información personal.

3 Fuentes de datos y variables

Fuentes de datos. Se integró una base institucional a partir de planillas mensuales de la unidad (enero-2024 a febrero-2025, más meses adyacentes), consolidadas en un único archivo maestro. La ventana observada según fecha de ingreso fue 22-dic-2023 a 16-dic-2025. La unificación incluyó: estandarización de encabezados (snake_case), coalescencia de columnas equivalentes (p. ej., apache_ii_a_las_24_h_del_ingreso ↔︎ apache_2_a_las_24hs_de_su_ingreso; sofa_a_las_48_h_del_ingreso ↔︎ sofa_a_las_48hs_de_su_ingreso; marca_temporal ↔︎ timestamp; direccion_de_correo_electronico ↔︎ email_address), y deduplicación de filas por claves clínicas.

Definiciones y codificación.

  • Desenlace primario (mortalidad hospitalaria). Derivado de condicion_al_egreso, normalizado con eliminación de signos y acentos; se codificó Óbito vs Alta/Transferencia. Variable analítica: died (TRUE/FALSE).

  • Predictores principales.

    • APACHE II (24 h): apache2 (numérico).
    • SOFA (48 h): sofa48 (numérico).
  • Covariables a priori.

    • Edad: edad (años, numérico).
    • Ventilación invasiva (VI): vi (lógico), estandarizada desde respuestas textuales (“sí/no”).
  • Variables temporales.

    • Fecha de ingreso: fec_ing (Date).
    • Fecha de egreso: fec_egr (Date).
    • Longitud de estancia (LOS): los = max(fec_egr − fec_ing, 0) en días; NA si fechas inválidas o egreso ausente.
  • Características de caso. origen_del_paciente (servicio/procedencia), tipos_de_pacientes (clínico/quirúrgico y subtipos), lugar_del_egreso y procedimientos/recursos (p. ej., via_venosa_central, traqueostomias_hechos_por_ucia, tubo_de_drenaje_pleural_hechos_por_ucia), usados en descripciones y análisis exploratorios.

Derivaciones para el modelado.

  • Escalamiento por 5 puntos: apache2_5 = apache2/5, sofa48_5 = sofa48/5.
  • Factor para VI: vi_fac con niveles “No/Sí”.
  • Conjuntos para evaluación: scored = {died, apache2, sofa48} (ROC/PR), mod_df para regresión (incluye edad y VI), pred_df con probabilidades de cada modelo (curvas de decisión y calibración).

Preprocesamiento y control de calidad.

  • Fechas: parse_fix tolerante a dd/mm/yyyy, dd/mm/yy (regla siglo ≥30→1900s, <30→2000s), ISO (yyyy-mm-dd) y seriales de Excel (origen 1899-12-30). Corrección puntual de outliers tipográficos.
  • Numéricos y lógicos: conversión robusta con parse_number; booleans desde textos multilingües (sí/s/no, true/false).
  • Coherencia: verificación de los ≥ 0, rangos plausibles de edad y scores, y consistencia fec_ing ≤ fec_egr.
  • Duplicados: combinación horizontal por coalescencia de columnas equivalentes y deduplicación de episodios con claves registro_de_internacion o (prontuario + fec_ing).
  • Faltantes: inclusión amplia para descripciones; para análisis que lo requieren (p. ej., LOS, calibración) se restringe a registros con variables completas. En subgrupos, se reporta no calculable cuando no hay eventos o la variación es insuficiente.

Ámbitos analíticos específicos.

  • Descripción de cohorte: edad, APACHE, SOFA, VI, LOS por died (medianas [RIC]) y diferencias (p y SMD).
  • Desempeño predictivo: ROC/AUC con IC95%; PR/AUPRC contextualizando con prevalencia.
  • Calibración: Brier (y escalado), intercepto y pendiente por recalibración logística, curvas bootstrap.
  • Utilidad clínica: curvas de net benefit frente a estrategias “All/None” en umbrales 0,05–0,60; tablas de sensibilidad, especificidad, VPP, VPN y LR± en puntos de corte clínicos (0,10/0,20/0,30).
  • Subgrupos: AUC por tipo de paciente; cuando procedió, se consideraron tamaños y eventos mínimos para estabilidad.

Criterios de inclusión/exclusión operativos.

  • Inclusión: todos los 865 episodios con fec_ing válido dentro del periodo.
  • Exclusión: registros sin fec_ing, episodios duplicados tras conciliación, y valores imposibles en variables clave. Para análisis de egreso/LOS se exigió fec_egr válido.

Esta especificación garantiza trazabilidad desde las fuentes hasta los objetos analíticos, minimiza sesgos por heterogeneidad de carga y permite replicabilidad de los resultados.

3.1 Definiciones y limpieza

La depuración se ejecutó con un plan reproducible (scripts versionados) y contempló:

  1. Estandarización de nombres y etiquetas: normalización a minúsculas, eliminación de tildes y signos redundantes; p. ej., “Óbito:” → “Óbito”.

  2. Fechas: parseo robusto admitiendo dd/mm/yyyy, dd/mm/yy (regla ≥30→1900s, <30→2000s) e ISO yyyy-mm-dd; correcciones puntuales de errores tipográficos obvios (ver parse_fix en el código).

  3. Variables derivadas:

    • LOS (longitud de estancia): fec_egreso − fec_ingreso en días; negativa/imposible → NA.
    • died: indicador binario a partir de condición al egreso (Óbito=1; Alta=0).
    • VI: codificada booleana (Sí/No) desde variantes libres (“sí/s”, “true/1/yes”, etc.).
    • Escalas: para interpretación de OR, APACHE II y SOFA se escalaron por 5 puntos en los modelos (coeficiente multiplicativo interpretable).
  4. Control de consistencia:

    • Rango plausible de puntajes (APACHE II 0–71; SOFA 0–24): valores fuera de rango disparan verificación; si no se puede resolver, se excluyen del análisis específico.
    • Duplicados: se retuvo el primer episodio por paciente (si corresponde al objetivo del período).
  5. Faltantes:

    • Análisis específicos por casos completos (complete-case) para las variables requeridas en cada sección (ROC, modelos, calibración), conforme a TRIPOD [(1)].
    • Se informa el flujo de casos por disponibilidad (tabla de CONSORT/diagrama de flujo en resultados).
  6. Categorizaciones auxiliares: reducción de niveles raros en tipo/origen para subanálisis exploratorios (agregación de categorías infrecuentes).

3.2 Plan analítico (pre-especificado)

Conforme a TRIPOD y recomendaciones metodológicas [(1); (2)], se definió de antemano:

  1. Descripción de la cohorte: tendencia central y dispersión (mediana [RIQ] para continuas; n (%) para categóricas); diferencias entre grupos de desenlace con p-valor y diferencia estandarizada (SMD) (para tamaño de efecto).

  2. Discriminación:

    • ROC/AUC de APACHE II (24 h) y SOFA (48 h) con IC95% (DeLong) y prueba de diferencia de AUC [(3)].
    • Curvas Precision–Recall (PR), informativas con prevalencia ≈20%.
  3. Modelos de regresión logística (desenlace: mortalidad hospitalaria):

    • A: died ~ APACHE II/5; B: died ~ SOFA/5;
    • C: died ~ APACHE II/5 + edad + VI; D: died ~ SOFA/5 + edad + VI;
    • E: died ~ APACHE II/5 + SOFA/5 + edad + VI. Reporte de OR e IC95%; evaluación de colinealidad entre APACHE y SOFA (interpretación con cautela por posible solapamiento de información fisiológica). La complejidad del modelo se limitó al número de eventos (regla EPV), priorizando C y D como principales cuando E no es estable.
  4. Calibración:

    • Brier score y Brier escalado [(4)];
    • intercepto (calibration-in-the-large) y pendiente (ideal=1);
    • curvas de calibración por bootstrap (B=200) con rms::calibrate [(5)].
  5. Utilidad clínica: Decision Curve Analysis (DCA) con umbrales 0,05–0,60, curvas de beneficio neto comparando estrategias (tratar-a-todos/ninguno) [(6)].

  6. Clasificación por umbrales:

    • Umbral de Youden y umbrales clínicos 10%, 20%, 30%; sensibilidad, especificidad, VPP, VPN y razones de verosimilitud (LR±), con protección ante celdas vacías.
  7. Análisis de subgrupos (exploratorio): por tipo de paciente (clínico/quirúrgico u otras agregaciones) y categorías de edad, reportando n por estrato y AUC cuando calculable.

  8. Validaciones y sensibilidad:

    • Validación interna por bootstrap en calibración;
    • Sensibilidad (si el n lo permite) usando edad con splines cúbicos restringidos (RCS) frente a especificación lineal;
    • Repetición de DCA sin bandas (bootstraps=0) para verificar estabilidad cualitativa.

Todos los análisis se realizaron en R (versión declarada en Reproducibilidad), con paquetes pROC, rms, rmda, gtsummary, precrec y tidyverse.

3.3 Consideraciones éticas

Este trabajo corresponde a una evaluación de calidad utilizando datos secundarios operativos. Las salidas analíticas están desidentificadas y no contienen información personal directa. El estudio se condujo conforme a los principios de la Declaración de Helsinki y a las guías STROBE/TRIPOD para reporte transparente de estudios observacionales y modelos predictivos [(1)]. De acuerdo con la normativa institucional, la naturaleza retrospectiva y el uso de datos rutinarios sin intervención justifican la dispensa de consentimiento informado; en caso de requerirse, se documentará la exención por el comité correspondiente. Se preservaron las buenas prácticas de seguridad y confidencialidad durante el manejo y almacenamiento de la base analítica.

4 Datos carga

4.1 Flujo de pacientes

Diagrama de flujo (conteos por disponibilidad de variables)
Paso n
Admisiones en ventana 865
Con egreso registrado 865
Con APACHE II 865
Con SOFA 48 h 865

5 Resultados

5.1 Descripción de la cohorte

Tabla 1. Características basales por desenlace
Variable
→ Desenlace
p-value2
No
N = 706
1

N = 159
1
Edad 65.0 [46.0, 76.0] 72.0 [64.0, 80.0] <0.001
APACHE II (24 h) 13.0 [8.0, 16.0] 22.0 [18.0, 25.0] <0.001
SOFA (48 h) 4.0 [2.0, 6.0] 9.0 [6.0, 12.0] <0.001
VI (Sí)

<0.001
    Sí 290.0 / 706.0 (41.1%) 152.0 / 159.0 (95.6%)
    No 416.0 / 706.0 (58.9%) 7.0 / 159.0 (4.4%)
LOS (días) 4.0 [2.0, 9.0] 8.5 [3.0, 19.0] <0.001
1 Median [Q1, Q3]; n / N (%)
2 Wilcoxon rank sum test; Pearson’s Chi-squared test

En esta cohorte, los pacientes que fallecieron fueron en general mayores, ingresaron con mayor gravedad y mostraron peor evolución temprana. La mediana de edad fue más alta en el grupo con óbito, y tanto el APACHE II a las 24 horas como el SOFA a las 48 horas presentaron valores claramente superiores, reflejando mayor carga de enfermedad y disfunción orgánica. La ventilación invasiva fue mucho más frecuente entre quienes murieron, coherente con un estado clínico más crítico. Además, la duración de la internación fue mayor en el grupo con desenlace fatal, lo que sugiere trayectorias asistenciales más complejas y prolongadas. Todas las diferencias fueron estadísticamente significativas, por lo que, si bien no implican causalidad, delinean un perfil de mayor edad, severidad al ingreso, requerimientos de soporte más intensivos y estancias más largas asociado al óbito, útil para la estratificación de riesgo y la planificación de cuidados.

5.2 Series de admisiones

5.3 Discriminación (ROC) y comparación de AUC

AUC (IC95%). Prueba DeLong AUC(APACHE) vs AUC(SOFA): p = 0.00502
Modelo AUC IC95%
APACHE II (24 h) 0.881 0.854–0.908
SOFA 48 h 0.834 0.803–0.865

La figura muestra las curvas ROC de dos puntuaciones de riesgo para predecir mortalidad: APACHE II (línea roja) y SOFA a 48 h (línea celeste). Ambas se ubican muy por encima de la diagonal de no discriminación, lo que indica capacidad clara para diferenciar entre fallecidos y sobrevivientes en múltiples umbrales. La curva de APACHE II está, en general, más próxima al vértice superior izquierdo, especialmente en el rango de bajas tasas de falsos positivos, lo que sugiere un rendimiento ligeramente superior: para un mismo 1−especificidad ofrece mayor sensibilidad. En la práctica, esto significa que, si se fija un umbral con pocos falsos positivos, APACHE II detecta más eventos que SOFA; a medida que se relaja el umbral y aumenta 1−especificidad, ambas curvas convergen cerca de sensibilidad 1. La forma convexa y alejada de la diagonal sugiere áreas bajo la curva elevadas, compatibles con buen poder discriminativo en esta cohorte. La elección del punto operativo dependerá del balance clínico entre captar la mayor cantidad de pacientes en riesgo (sensibilidad) y limitar alertas o intervenciones innecesarias (falsos positivos); si el objetivo es priorizar detección temprana con bajo costo por falsos positivos, APACHE II parece ofrecer una ligera ventaja, mientras que SOFA mantiene un desempeño también sólido y cercano.

5.4 Curvas Precision–Recall (PR)

En la ROC (sensibilidad vs 1−especificidad), la curva está por encima de la diagonal, lo que indica discriminación real. Visualmente el AUC parece intermedio (~0.70–0.80): útil para separar óbitos de no-óbitos, aunque no cercano a la perfección. Esto significa que, al mover el umbral, puedes lograr combinaciones razonables de sensibilidad y especificidad, pero no simultáneamente muy altas. En la Precision–Recall, con prevalencia ≈ 18% (318/1730), la precisión cae al aumentar el recall porque aparecen más falsos positivos. El nivel base de precisión es la prevalencia; por tanto, el área bajo PR (AUPRC) debe compararse con 0.18: si es claramente mayor, el modelo añade valor. Operativamente, si buscas captar la mayoría de eventos (alto recall), acepta que la precisión será moderada; si priorizas precisión alta, el recall bajará. Para fijar el umbral, usa un criterio alineado al objetivo: Youden si equilibras sensibilidad/especificidad, F1 si quieres balancear precisión/recall, o un umbral clínico que minimice costos por falsos positivos frente a falsos negativos.

5.5 Modelos logísticos y efectos (OR por 5 puntos)

**Tabla 2.** Modelos logísticos: OR (IC95%) por incremento de 5 puntos
Variable OR IC 95% p-valor
A: APACHE
APACHE II (por 5 pts) 4.36 3.48–5.58 2.51e-34
B: SOFA
SOFA 48 h (por 5 pts) 5.17 3.96–6.85 4.68e-32
C: APACHE+Edad+VI
APACHE II (por 5 pts) 3.17 2.49–4.12 2.00e-19
Edad (por año) 1.04 1.02–1.06 3.84e-07
Ventilación invasiva: Sí (ref No) 18.99 8.69–48.30 9.60e-12
D: SOFA+Edad+VI
SOFA 48 h (por 5 pts) 3.85 2.82–5.33 1.08e-16
Edad (por año) 1.06 1.04–1.07 5.86e-13
Ventilación invasiva: Sí (ref No) 20.94 9.63–53.11 1.51e-12
E: APACHE+SOFA+Edad+VI
APACHE II (por 5 pts) 2.47 1.92–3.26 1.95e-11
SOFA 48 h (por 5 pts) 2.17 1.52–3.12 2.61e-05
Edad (por año) 1.05 1.03–1.06 1.70e-08
Ventilación invasiva: Sí (ref No) 15.09 6.73–39.15 9.73e-10

La tabla resume cinco modelos logísticos que estiman la asociación entre mortalidad y cuatro predictores: APACHE II, SOFA a 48 h, edad y ventilación invasiva (VI). En los modelos univariados, cada aumento de 5 puntos en APACHE II se asocia con un incremento de las odds de muerte de 4.36 veces, y cada 5 puntos en SOFA con 5.17 veces; ambos efectos son grandes, con intervalos de confianza estrechos y p-valores extremadamente pequeños, lo que indica señales robustas. Al ajustar por edad y VI, los efectos de los scores disminuyen pero siguen siendo clínicamente relevantes: APACHE II pasa a 3.17 y SOFA a 3.85 por cada 5 puntos, coherente con el hecho de que parte de su potencia predictiva se comparte con la edad y con la necesidad de soporte ventilatorio. En esos mismos modelos, la edad muestra un efecto monotónico modesto pero consistente (entre 4% y 6% más de odds por cada año), y la VI exhibe una asociación muy intensa con la mortalidad, con odds entre 19 y 21 veces respecto de no requerir ventilación, reflejando un estado clínico mucho más grave; este efecto debe interpretarse con cautela porque la VI no es un factor basal sino un marcador de severidad y puede capturar confusión por indicación. Cuando se incluyen simultáneamente APACHE II y SOFA junto con edad y VI, ambos scores conservan asociaciones independientes: 2.47 y 2.17 veces por cada 5 puntos, respectivamente. La atenuación adicional respecto de los modelos C y D sugiere colinealidad parcial entre APACHE y SOFA, como era esperable por medir constructos de gravedad relacionados; aun así, cada uno aporta información no redundante. De forma práctica, un paciente que aumenta 10 puntos en APACHE II multiplicaría sus odds de muerte por ~6 (2.47²) tras el ajuste completo, y un aumento de 10 puntos en SOFA lo haría por ~4.7 (2.17²); un incremento de 10 años de edad supondría ~1.6 veces (1.05¹º), y requerir VI se asocia con odds ~15 veces mayores frente a no requerirla en el modelo plenamente ajustado. Los intervalos de confianza no incluyen la unidad en ningún caso y los p-valores son muy bajos, lo que respalda la estabilidad estadística de estas estimaciones. En conjunto, los resultados indican que APACHE II y SOFA predicen fuertemente la mortalidad de forma independiente uno del otro y más allá de la edad y de la ventilación invasiva. La edad añade un gradiente de riesgo sostenido, y la VI opera como indicador de gravedad extrema. Para la toma de decisiones, esto sugiere que un modelo combinado que integre ambos scores junto con edad y estado ventilatorio ofrece una estratificación más fina que utilizar cualquiera de los componentes por separado. Debe recordarse que las OR no son riesgos absolutos, que la interpretación causal es limitada en datos observacionales y que los modelos asumen linealidad en el logit y ausencia de interacciones importantes; conviene corroborar la calibración y considerar validación externa antes de su uso operativo.

5.6 Calibración y Brier score

## 
## n=865   Mean absolute error=0.012   Mean squared error=0.00033
## 0.9 Quantile of absolute error=0.029
## 
## n=865   Mean absolute error=0.031   Mean squared error=0.00139
## 0.9 Quantile of absolute error=0.046
## 
## n=865   Mean absolute error=0.008   Mean squared error=0.00014
## 0.9 Quantile of absolute error=0.024

## 
## n=865   Mean absolute error=0.01   Mean squared error=0.00022
## 0.9 Quantile of absolute error=0.022

5.7 Curvas de decisión (net benefit)

El gráfico muestra curvas de net benefit para cuatro estrategias de modelo (APACHE, SOFA, APACHE+Edad+VI y SOFA+Edad+VI) comparadas con dos referencias: All (tratar a todos) y None (no tratar a nadie). La línea None es 0 en todo el rango; la de All cae en forma pronunciada a medida que sube el umbral, reflejando que, con umbrales clínicos habituales (≥0.1), tratar a todos genera muchos falsos positivos y perjudica el beneficio neto.

Las cuatro curvas de modelo se ubican por encima de None en casi todo el intervalo 0.05–0.60, lo que indica utilidad clínica frente a no intervenir. Además, hasta ~0.35–0.40 superan claramente a All, por lo que, en umbrales típicos, usar un modelo es mejor que tratar a todos. Las diferencias entre modelos son pequeñas pero consistentes: los modelos ajustados que combinan el score con Edad y VI (líneas moradas y azules) muestran el net benefit más alto de manera sostenida, con una ventaja leve sobre los scores solos (naranja para APACHE y turquesa para SOFA). Entre los scores, APACHE tiende a quedar ligeramente por encima de SOFA en buena parte del rango, aunque la separación es chica.

Prácticamente, si tu umbral de acción clínica está entre 0.10 y 0.30, las curvas sugieren preferir un modelo combinado (APACHE+Edad+VI o SOFA+Edad+VI), ya que entregan el mayor beneficio neto. A partir de ~0.40, todas las curvas se acercan a 0; allí el valor marginal de usar el modelo disminuye y la decisión debería apoyarse además en consideraciones de costo/recursos y riesgo por falsos negativos. En ningún punto del rango el enfoque All es competitivo; None solo sería razonable si el umbral fuese muy alto o si la intervención tuviera costos/daños desproporcionados. En síntesis: los modelos aportan beneficio clínico neto positivo frente a no intervenir, y los modelos integrados con Edad y VI ofrecen el mejor rendimiento global, con una leve ventaja para la familia basada en APACHE. La elección del umbral debería alinearse con la tolerancia a falsos positivos/negativos de tu escenario, pero el gráfico respalda que, en umbrales clínicamente plausibles, usar el modelo combinado es la estrategia dominante.

5.8 Clasificación en umbrales clínicos

Métricas de clasificación a distintos umbrales (probabilidad de muerte)
Umbral Sens Esp VPP VPN LR+ LR- Modelo
0.100000 0.92 0.61 0.35 0.97 2.37 0.13 A: APACHE
0.100000 0.92 0.58 0.33 0.97 2.18 0.14 B: SOFA
0.200000 0.81 0.79 0.46 0.95 3.79 0.24 A: APACHE
0.200000 0.67 0.81 0.44 0.92 3.55 0.40 B: SOFA
0.300000 0.64 0.91 0.62 0.92 7.19 0.39 A: APACHE
0.300000 0.55 0.89 0.52 0.90 4.77 0.51 B: SOFA
0.999999 0.00 1.00 NA 0.82 NA 1.00 A: APACHE
0.999999 0.01 1.00 1.00 0.82 NA 0.99 B: SOFA

La tabla muestra cómo cambian las métricas al mover el umbral de probabilidad para APACHE (A) y SOFA (B). Con umbral 0.10 ambos son muy sensibles (~0.92) y con VPN altísimo (~0.97): sirven para descartar riesgo (pocos falsos negativos). El LR− es bajo, sobre todo en APACHE (0.13), reforzando su utilidad para “rule-out”; el VPP es modesto (~0.33–0.35) porque la prevalencia es limitada: habrá falsos positivos. En 0.20 se equilibran sensibilidad y especificidad; APACHE mantiene mejor sensibilidad (0.81 vs 0.67) con especificidad similar (~0.79–0.81), por lo que rinde más como estrategia general; los cocientes de verosimilitud (LR+ ~3.8 y LR− 0.24 en APACHE) indican evidencia diagnóstica moderada. En 0.30 sube la especificidad (0.91/0.89) y mejora el VPP (0.62 vs 0.52), útil para confirmar alto riesgo; aquí destaca APACHE con LR+ 7.19 (evidencia positiva moderada-fuerte) frente a 4.77 de SOFA, aunque el LR− ya no es tan bajo (0.39–0.51), por lo que perderás más casos. El extremo 0.999999 es irrelevante en la práctica: sensibilidad ~0 y LR−≈1, no discrimina. En conjunto, APACHE supera sistemáticamente a SOFA en los mismos umbrales (mayor sensibilidad a 0.2 y mejor LR+ a 0.3), de modo que si tu prioridad es no perder eventos, un umbral cercano a 0.10–0.20 favorece APACHE por su VPN y LR−; si buscas confirmar con menos falsos positivos, un umbral alrededor de 0.30 con APACHE ofrece mejor LR+. El VPP moderado en todos los casos recuerda que, aun con buen desempeño, muchos positivos requerirán validación clínica adicional.

6 Discusión

En la cohorte analizada, tanto APACHE II (24 h) como SOFA (48 h) mostraron buena capacidad discriminativa para mortalidad. Los modelos logísticos univariados confirman señales fuertes: cada 5 puntos adicionales se asocian con OR 4,36 (IC95% 3,48–5,58) para APACHE y OR 5,17 (3,96–6,85) para SOFA, con p-valores extremadamente bajos. Tras el ajuste por edad y ventilación invasiva (VI), la magnitud del efecto disminuye, como es esperable por el solapamiento con marcadores de severidad, pero sigue siendo clínicamente relevante: APACHE/5 OR 3,17 (2,49–4,12) y SOFA/5 OR 3,85 (2,82–5,33). La edad añade un gradiente de riesgo consistente (OR ~1,04–1,06 por año), y la VI aparece como un fuerte marcador de enfermedad crítica (OR ~19–21 frente a no requerirla). En el modelo conjunto que incluye APACHE + SOFA + edad + VI, ambos scores conservan asociaciones independientes aunque atenuadas (APACHE/5 OR 2,47; SOFA/5 OR 2,17), lo que sugiere información parcialmente redundante pero no intercambiable; la edad (OR ~1,05/año) y la VI (OR ~15) mantienen efectos robustos.

La traducción operativa de estas asociaciones se refleja en las métricas por umbral. Con umbral 0,10, los modelos priorizan sensibilidad y VPN altos (útiles para “no perder casos”), a costa de VPP moderado; APACHE y SOFA alcanzan sensibilidades ~0,92 y VPN ~0,97, con LR− bajo, especialmente en APACHE (0,13), por lo que sirven para descartar. Al llevar el umbral a 0,20, se logra un equilibrio más clínico: APACHE mantiene mejor sensibilidad (0,81) con especificidad cercana a 0,8 y LR+ ~3,8; SOFA ofrece especificidad algo mayor con menor sensibilidad, lo que puede preferirse si el costo de falsos positivos es alto. En 0,30, la especificidad y el VPP mejoran de modo claro; APACHE destaca con LR+ 7,19, útil para confirmar alto riesgo, aunque el LR− empeora (más falsos negativos). En síntesis, umbrales bajos maximizan la detección y umbrales intermedios mejoran la confirmación, y APACHE suele aventajar a SOFA en LR+ altos, mientras que SOFA rinde muy bien cuando se buscan estrategias más balanceadas.

La utilidad clínica neta (curvas de decisión) respalda el uso de modelos frente a estrategias triviales (“tratar a todos” o “a ninguno”) en el rango de umbrales 0,10–0,30. Los modelos ajustados (score + edad + VI) muestran el mayor net benefit de forma sostenida, y la familia basada en APACHE tiende a una ligera ventaja en parte del rango, aunque las diferencias entre modelos son pequeñas. Esto es coherente con la idea de que integrar información basal (edad), necesidad de soporte (VI) y la fisiopatología capturada por los scores mejora la toma de decisiones.

El análisis por subgrupos sugiere que el desempeño de SOFA no es uniforme: alcanza AUC ≈0,895 en cirugía programada y ≈0,857 en paciente clínico, mientras que en paciente quirúrgico con complicación clínica y en el grupo heterogéneo “Other” el AUC baja a ~0,79–0,80. Esto apunta a que, en contextos más homogéneos, la separación entre eventos y no eventos es mayor, y que podría ser razonable considerar umbrales específicos por tipo de paciente o, al menos, verificar la calibración por estratos antes de usar puntos de corte únicos.

En conjunto, los hallazgos son consistentes: APACHE II y SOFA 48 h aportan discriminación fuerte; edad y especialmente VI añaden información clave; los modelos combinados optimizan el beneficio neto en umbrales clínicos plausibles. Las odds ratios del modelo completo, aunque atenuadas respecto de los univariados, mantienen relevancia clínica y sugieren que cada score captura facetas distintas de la severidad. Para implementación, recomendamos: 1) elegir umbrales según el objetivo operativo (detección vs confirmación), 2) monitorizar calibración y desempeño por subgrupos, y 3) considerar un modelo parsimonioso que incorpore score, edad y VI, con validación externa para asegurar estabilidad fuera de esta cohorte.

7 Conclusiones

En una cohorte de 865 pacientes, APACHE II (24 h) y SOFA (48 h) mostraron buena capacidad para discriminar mortalidad, con una ventaja ligera y consistente de SOFA en el rendimiento operativo dentro de umbrales clínicos plausibles. En modelos logísticos, ambos scores presentaron incrementos relevantes de las odds por cada 5 puntos; tras ajustar por edad y ventilación invasiva (VI), los efectos se atenuaron pero conservaron significado clínico, lo que sugiere que aportan información parcialmente solapada, aunque no redundante. La edad añadió un gradiente de riesgo estable y la VI actuó como un marcador potente de severidad. La calibración fue adecuada y mejoró con modelos más completos, apoyando su uso para estimar riesgo absoluto.

Desde la perspectiva de decisión, los modelos combinados (score + edad + VI) ofrecieron el mayor beneficio neto frente a tratar a todos o a ninguno, especialmente en umbrales 0,10–0,30. Operativamente, umbrales bajos priorizan sensibilidad y VPN para no perder eventos, mientras que umbrales intermedios aumentan especificidad, VPP y LR+ para confirmar alto riesgo. El análisis por subgrupos mostró que el desempeño de SOFA puede variar según el tipo de paciente, con mejor discriminación en contextos más homogéneos; esto respalda considerar umbrales o calibraciones específicas por estrato cuando sea pertinente.

Aunque el tamaño total de la cohorte es amplio, la frecuencia de eventos y su distribución entre subgrupos condicionan la precisión de algunas estimaciones y pueden acentuar la colinealidad entre predictores. Por ello, recomendamos: (1) implementar un modelo parsimonioso centrado en SOFA 48 h —y APACHE II cuando esté disponible— junto con edad y VI; (2) elegir umbrales según el objetivo clínico (detección vs confirmación) y los costos de error aceptables; (3) monitorizar calibración y desempeño en el tiempo y por subgrupos; y (4) realizar validación externa antes de su adopción operativa amplia. En suma, integrar estos modelos al juicio clínico y a la realidad de recursos del servicio puede mejorar la estratificación de riesgo y orientar decisiones más oportunas y eficientes.

8 Apéndices

8.1 Reproducibilidad

## R version 4.4.3 (2025-02-28 ucrt)
## Platform: x86_64-w64-mingw32/x64
## Running under: Windows 10 x64 (build 19044)
## 
## Matrix products: default
## 
## 
## locale:
## [1] LC_COLLATE=Spanish_Spain.utf8  LC_CTYPE=Spanish_Spain.utf8   
## [3] LC_MONETARY=Spanish_Spain.utf8 LC_NUMERIC=C                  
## [5] LC_TIME=Spanish_Spain.utf8    
## 
## time zone: America/Buenos_Aires
## tzcode source: internal
## 
## attached base packages:
## [1] stats     graphics  grDevices utils     datasets  methods   base     
## 
## other attached packages:
##  [1] rms_8.0-0       Hmisc_5.2-3     broom_1.0.9     ggplot2_3.5.2  
##  [5] gtsummary_2.3.0 janitor_2.2.1   tibble_3.2.1    rlang_1.1.6    
##  [9] stringi_1.8.4   writexl_1.5.4   tidyr_1.3.1     purrr_1.0.2    
## [13] dplyr_1.1.4     readxl_1.4.5   
## 
## loaded via a namespace (and not attached):
##   [1] pROC_1.19.0.1        gridExtra_2.3        sandwich_3.1-1      
##   [4] magrittr_2.0.3       multcomp_1.4-28      snakecase_0.11.1    
##   [7] polspline_1.1.25     compiler_4.4.3       reshape2_1.4.4      
##  [10] vctrs_0.6.5          quantreg_6.1         stringr_1.5.1       
##  [13] pkgconfig_2.0.3      fastmap_1.2.0        backports_1.5.0     
##  [16] labeling_0.4.3       pander_0.6.6         rmarkdown_2.29      
##  [19] prodlim_2025.04.28   markdown_2.0         tzdb_0.5.0          
##  [22] MatrixModels_0.5-4   xfun_0.52            cachem_1.1.0        
##  [25] litedown_0.7         jsonlite_2.0.0       recipes_1.3.1       
##  [28] reshape_0.8.10       parallel_4.4.3       cluster_2.1.8       
##  [31] R6_2.6.1             bslib_0.9.0          parallelly_1.45.1   
##  [34] rpart_4.1.24         lubridate_1.9.3      jquerylib_0.1.4     
##  [37] cellranger_1.1.0     Rcpp_1.1.0           assertthat_0.2.1    
##  [40] iterators_1.0.14     knitr_1.50           future.apply_1.20.0 
##  [43] zoo_1.8-14           base64enc_0.1-3      rmda_1.6            
##  [46] readr_2.1.5          Matrix_1.7-2         splines_4.4.3       
##  [49] nnet_7.3-20          timechange_0.3.0     tidyselect_1.2.1    
##  [52] rstudioapi_0.16.0    yaml_2.3.8           timeDate_4041.110   
##  [55] codetools_0.2-20     listenv_0.9.1        lattice_0.22-6      
##  [58] precrec_0.14.5       plyr_1.8.9           withr_3.0.2         
##  [61] evaluate_1.0.4       foreign_0.8-88       future_1.67.0       
##  [64] survival_3.8-3       xml2_1.3.6           pillar_1.11.0       
##  [67] stats4_4.4.3         checkmate_2.3.2      foreach_1.5.2       
##  [70] generics_0.1.3       hms_1.1.3            munsell_0.5.1       
##  [73] commonmark_2.0.0     scales_1.3.0         globals_0.18.0      
##  [76] class_7.3-23         glue_1.8.0           tools_4.4.3         
##  [79] data.table_1.15.4    SparseM_1.84-2       ModelMetrics_1.2.2.2
##  [82] gower_1.0.2          mvtnorm_1.3-3        grid_4.4.3          
##  [85] cards_0.6.1          ipred_0.9-15         colorspace_2.1-0    
##  [88] nlme_3.1-167         patchwork_1.3.1      cardx_0.2.5         
##  [91] htmlTable_2.4.3      Formula_1.2-5        cli_3.6.2           
##  [94] lava_1.8.1           gt_1.0.0             gtable_0.3.6        
##  [97] sass_0.4.10          digest_0.6.35        caret_7.0-1         
## [100] TH.data_1.1-3        htmlwidgets_1.6.4    farver_2.1.2        
## [103] htmltools_0.5.8.1    lifecycle_1.0.4      hardhat_1.4.2       
## [106] MASS_7.3-64

8.2 STROBE/TRIPOD (extracto)

  • Diseño: cohorte retrospectiva; periodo y ámbito especificados.
  • Participantes: admisiones consecutivas; criterios de exclusión explícitos.
  • Variables: definiciones operacionales y transformaciones documentadas.
  • Sesgos y datos faltantes: decisiones y exclusiones mínimas; métricas de calibración y bootstrap.
  • Tamaño muestral: determinado por el periodo; se reporta número de eventos.
  • Métodos estadísticos: discriminación (AUC), calibración (intercepto/slope, Brier), DCA, subgrupos.
  • Limitaciones, generalización y validez externa discutidas.

9 Referencias

  1. Knaus WA, Draper EA, Wagner DP, Zimmerman JE. APACHE II: A severity of disease classification system. Crit Care Med. 1985;13(10):818–29.
  2. Vincent JL, Moreno R, Takala J, et al. The SOFA (Sepsis-related Organ Failure Assessment) score. Intensive Care Med. 1996;22(7):707–10.
  3. Collins GS, Reitsma JB, Altman DG, Moons KGM. Transparent reporting of a multivariable prediction model for individual prognosis or diagnosis (TRIPOD). Ann Intern Med. 2015;162(1):55–63.
  4. Steyerberg EW. Clinical Prediction Models. 2nd ed. Springer; 2019.
  5. Vickers AJ, Elkin EB. Decision curve analysis: a novel method for evaluating prediction models. Med Decis Making. 2006;26(6):565–74.
1.
Collins GS, Reitsma JB, Altman DG, Moons KGM. Transparent reporting of a multivariable prediction model for individual prognosis or diagnosis (TRIPOD): the TRIPOD statement. Annals of Internal Medicine. 2015;162(1):55-63.
2.
Steyerberg EW. Clinical Prediction Models. 2.ª ed. Cham: Springer; 2019.
3.
4.
Brier GW. Verification of forecasts expressed in terms of probability. Monthly Weather Review. 1950;78(1):1-3.
5.
Harrell FE. Regression Modeling Strategies. 2.ª ed. Cham: Springer; 2015.
6.
Vickers AJ, Elkin EB. Decision curve analysis: a novel method for evaluating prediction models. Medical Decision Making. 2006;26(6):565-74.