datos <- read.csv2(
  "basetbc.csv",
  stringsAsFactors = FALSE,
  fileEncoding = "UTF-8"
)

datos$Valor_prueba_continua <- as.numeric(
  gsub(",", ".", as.character(datos$Valor_prueba_continua))
)

cat("La base de datos se cargó correctamente.\n")

## La base de datos se cargó correctamente.

cat("Dimensiones:", nrow(datos), "filas y", ncol(datos), "columnas.\n")

## Dimensiones: 300 filas y 4 columnas.

1 Introducción

La tuberculosis continúa siendo uno de los grandes desafíos de la salud pública mundial, y considero que el reto comienza, justamente, en el momento del diagnóstico.

Según el estudio de Saktiawati y colaboradores (2019), realizado en las clínicas pulmonares de Yogyakarta, Indonesia, establecer un diagnóstico correcto de tuberculosis es difícil, pues Indonesia es el país con la tercera mayor carga de la enfermedad en el mundo y el segundo con la mayor brecha entre los casos notificados y la mejor estimación de casos incidentes, asi que poder entender qué tan bien funcionan las pruebas que se usan de manera rutinaria no es un asunto meramente técnico, sino una necesidad para la toma de decisiones en los sistemas de salud.

En este contexto, el examen rutinario de tuberculosis descrito por los autores no es una sola prueba, sino la combinación de tres herramientas que trabajan en conjunto:

1.la evaluación clínica de los síntomas 2.la microscopía del frotis de esputo y 3.la radiografía de tórax.

Considero importante resaltar que, en entornos de bajos recursos, estas tres herramientas son las disponibles de manera habitual, mientras que pruebas más sofisticadas como el cultivo, la reacción en cadena de la polimerasa o el Gene-Xpert resultan costosas o de difícil acceso.

Ahora bien, para poder evaluar si una prueba diagnóstica funciona, necesito compararla contra una verdad de referencia, lo que en epidemiología se denomina patrón de oro o estándar de referencia.

En el estudio de Yogyakarta, los autores emplearon dos estándares de referencia, por un lado el cultivo de esputo, y por otro un estándar de referencia compuesto, que combina el examen rutinario, el cultivo y el seguimiento de los pacientes durante un periodo de hasta dos años y medio, de modo que, gracias a este seguimiento prolongado, fue posible para lo investigadores, saber con mayor certeza quién tenía realmente la enfermedad y quién no.

Los resultados del estudio mostraron que, tomando el cultivo como referencia, el examen rutinario tuvo una sensibilidad del 85% y una especificidad del 86,3%; mientras que, tomando el estándar de referencia compuesto, la sensibilidad ascendió al 90% y la especificidad al 99,5%.

Por tanto, los autores concluyeron que la combinación de evaluación clínica, microscopía y radiografía ofrece una alta capacidad diagnóstica, pues solo en el 4,4% de los casos el diagnóstico inicial resultó incorrecto.

Tomando este estudio como referencia bibliográfica y marco conceptual, en el presente taller trabajaré con una base académica de datos simulada de 300 pacientes con sospecha de tuberculosis, con el propósito de reproducir y comprender, paso a paso, el cálculo de las características de desempeño de una prueba diagnóstica, como la sensibilidad, la especificidad, los valores predictivos y las razones de verosimilitud.

2 Planteamiento del problema y pregunta de investigación

Planteamiento del problema

Considero que el problema central que motiva este análisis radica en que, ante un paciente con síntomas sugestivos de tuberculosis, el clínico debe tomar una decisión bajo incertidumbre, así:

¿la prueba que tengo a mano es lo suficientemente buena para confiar en su resultado?

Como bien lo plantea el estudio de Yogyakarta, los síntomas por sí solos tienen baja sensibilidad y especificidad, y la radiografía de tórax de otras enfermedades pulmonares puede asemejarse a la de la tuberculosis,por lo cual, no basta con aplicar una prueba, sino que es necesario cuantificar su desempeño frente a un patrón de oro para saber cuánto puedo confiar en ella.

Además de que el desempeño de una prueba no es un valor único, sino que se descompone en varias características complementarias, cada una de las cuales responde a una pregunta clínica distinta.

Po ejemplo, la sensibilidad me dice qué tan bien detecto a los enfermos, la especificidad qué tan bien identifico a los sanos, los valores predictivos qué tan confiable es un resultado concreto en mi población, y las razones de verosimilitud cuánto cambia mi sospecha diagnóstica tras conocer el resultado.

De modo que comprender cada una de estas medidas, y sobre todo el proceso matemático del que provienen, es indispensable para una interpretación correcta.

2.1 Pregunta de investigación

¿Cuáles son las características de desempeño diagnóstico, es decir, la sensibilidad, la especificidad, los valores predictivos y las razones de verosimilitud, de una prueba de rutina para la tuberculosis, cuando se evalúa frente a un diagnóstico confirmado tomado como patrón de oro, en una cohorte simulada de 300 pacientes con sospecha de la enfermedad?

2.2 Objetivos

Objetivo general. Evaluaré las características de desempeño diagnóstico de una prueba de rutina para tuberculosis frente a un patrón de oro, en una base simulada de trescientos pacientes, replicando el enfoque metodológico del estudio de Yogyakarta.
Objetivos específicos:

-1.Exploraré la distribución de las variables de la base de datos e identificar posibles valores extremos.

-2.Construiré la tabla de dos por dos que cruza el resultado de la prueba con el diagnóstico confirmado.

-3.Calcularé paso a paso, la sensibilidad, la especificidad, los valores predictivos positivo y negativo, y las razones de verosimilitud.

-4.Interpretaré y discutiré los resultados a la luz de la referencia bibliográfica de la sesión.

2.3 Justificación

Considero que este ejercicio se justifica porque la tuberculosis sigue siendo un problema prioritario de salud pública, y porque la calidad del diagnóstico es la puerta de entrada a un tratamiento oportuno, por lo cual, dominar el cálculo y la interpretación de las características de desempeño no es un fin en sí mismo, sino una herramienta que, además de fortalecer mi formación en epidemiología, me permite evaluar críticamente la utilidad de las pruebas que se aplican en la práctica clínica diaria.

3 Exploración de los datos

Antes de calcular cualquier medida de desempeño, considero indispensable conocer la base de datos con la que voy a trabajar, pues un análisis sólido parte de entender la estructura, la naturaleza y la distribución de las variables, por lo cual,revisaré su composición y exploraré su comportamiento mediante estadísticos descriptivos y gráficas.

3.1 Estructura general y dimensiones

cat("Dimensiones de la base:\n")

## Dimensiones de la base:

cat("Número de filas (pacientes):", nrow(datos), "\n")

## Número de filas (pacientes): 300

cat("Número de columnas (variables):", ncol(datos), "\n\n")

## Número de columnas (variables): 4

cat("Estructura interna de la base:\n")

## Estructura interna de la base:

str(datos)

## 'data.frame':    300 obs. of  4 variables:
##  $ ID                      : int  1 2 3 4 5 6 7 8 9 10 ...
##  $ TB_confirmada           : int  0 1 1 0 0 0 1 0 1 1 ...
##  $ Resultado_prueba_binaria: int  0 0 1 1 0 0 1 0 0 1 ...
##  $ Valor_prueba_continua   : num  51 63.2 64.3 50.4 46.5 46.8 60.1 53 87.8 70.3 ...

Análisis: Encuentro que la base contiene trescientas observaciones y cuatro variables, una dimensión adecuada para realizar análisis de pruebas diagnósticas con suficiente potencia estadística, pues me garantiza casillas mínimas en la futura tabla de dos por dos.

La función str me muestra que tres variables son enteras (ID, TB_confirmada y Resultado_prueba_binaria) y una es numérica continua (Valor_prueba_continua), además, observo que la conversión de la coma decimal a punto me funcionó correctamente, pues los valores de la variable continua aparecen como números decimales bien organizados.

Considero que esta base de trescientos pacientes con sospecha de tuberculosis representa un tamaño muestral comparable al del estudio de referencia de Saktiawati y colaboradores (2019), que analizó 339 (trescientos treinta y nueve) participantes, lo cual es un tamaño clínicamente representativo de la práctica diaria en una clínica neumológica, por lo cual los hallazgos que obtenga los podré interpretar en un contexto epidemiológico similar al del estudio de referencia.

3.2 Primeras y últimas observaciones

head(datos, 10) %>%
  kbl(caption = "Primeras diez observaciones de la base de datos de tuberculosis") %>%
  kable_styling(
    bootstrap_options = c("striped", "hover", "condensed"),
    full_width = TRUE, position = "center"
  ) %>%
  row_spec(0, background = "#4A235A", color = "white")

Primeras diez observaciones de la base de datos de tuberculosis
ID	TB_confirmada	Resultado_prueba_binaria	Valor_prueba_continua
1	0	0	51.0
2	1	0	63.2
3	1	1	64.3
4	0	1	50.4
5	0	0	46.5
6	0	0	46.8
7	1	1	60.1
8	0	0	53.0
9	1	0	87.8
10	1	1	70.3

tail(datos, 10) %>%
  kbl(caption = "Últimas diez observaciones de la base de datos de tuberculosis") %>%
  kable_styling(
    bootstrap_options = c("striped", "hover", "condensed"),
    full_width = TRUE, position = "center"
  ) %>%
  row_spec(0, background = "#4A235A", color = "white")

Últimas diez observaciones de la base de datos de tuberculosis
	ID	TB_confirmada	Resultado_prueba_binaria	Valor_prueba_continua
291	291	0	1	34.9
292	292	0	0	61.0
293	293	0	1	42.3
294	294	0	0	38.0
295	295	0	0	51.3
296	296	0	0	67.1
297	297	1	1	65.0
298	298	0	0	61.6
299	299	0	0	51.5
300	300	0	0	46.0

Análisis: Las primeras diez filas me permiten realizar una primera lectura exploratoria de cómo se comportan las variables en datos concretos, por ejemplo, observo que ID toma valores enteros consecutivos del uno al diez, lo cual me sugiere que actúa como un identificador único de cada paciente, sin significado clínico aparente.

Las variables TB_confirmada y Resultado_prueba_binaria toman únicamente valores de cero y uno en esta muestra inicial, lo cual me indica que están codificadas como variables dicotómicas binarias; por el contexto del estudio puedo inferir que el uno (1) representa la presencia del evento (tuberculosis confirmada o prueba positiva) y el cero (0) su ausencia.

La variable Valor_prueba_continua presenta valores decimales que oscilan entre 46,5 y 87,8 en esta primera muestra, lo cual me confirma su naturaleza numérica continua, además, también observo que la base no parece estar ordenada por ninguna variable dicotómica, pues los valores de cero y uno se alternan sin un patrón identificable, lo cual es estadísticamente deseable para evitar sesgos por orden de captura.

Considero que con esta primera mirada puedo identificar de manera intuitiva, sin haber calculado todavía ninguna medida formal,las cuatro situaciones diagnósticas que sustentarán toda la evaluación posterior.

Al cruzar el resultado de la prueba con el diagnóstico confirmado, encuentro:

Aciertos en sanos. Los pacientes 1, 5, 6 y 8 tienen TB_confirmada igual a cero y Resultado_prueba_binaria igual a cero, es decir, la prueba los clasificó correctamente como no enfermos, y sus valores continuos se mantienen por debajo de 53.
Aciertos en enfermos. Los pacientes 3, 7 y 10 tienen TB_confirmada igual a uno y Resultado_prueba_binaria igual a uno, es decir, la prueba los detectó correctamente como enfermos, y sus valores continuos oscilan entre 60,1 y 70,3.
Falsa alarma. El paciente 4 está sano según la confirmación, pero la prueba dio positiva, pues su valor continuo es de 50,4, un valor relativamente bajo en el rango observado.
Enfermos no detectados. Los pacientes 2 y 9 tienen tuberculosis confirmada, pero la prueba dio negativa, por ejemplo,el caso del paciente 9 me parece particularmente llamativo, pues su valor continuo es de 87,8, uno de los más altos de la muestra inicial, y aun así fue clasificado como negativo en la prueba binaria.

Por tanto, ya en esta primera muestra identifico que la prueba comete errores en ambas direcciones, lo cual es clínicamente esperable, pues como bien lo plantea el estudio de Yogyakarta, ninguna prueba rutinaria de tuberculosis alcanza el cien por ciento de sensibilidad ni de especificidad.

De modo que el caso del paciente 9 me hace pensar en una hipótesis interesante, pues el punto de corte utilizado para dicotomizar la prueba podría no estar aprovechando toda la información que ofrece el valor continuo, lo cual justificaría más adelante la construcción de una curva de características operativas del receptor.

3.3 Verificación de valores faltantes

faltantes <- data.frame(
  Variable = colnames(datos),
  Valores_faltantes = colSums(is.na(datos)),
  Porcentaje = round(colSums(is.na(datos)) / nrow(datos) * 100, 2)
)
rownames(faltantes) <- NULL

colnames(faltantes) <- c("Variable", "Valores faltantes", "Porcentaje de faltantes")

faltantes %>%
  kbl(caption = "Hago la verificación de valores faltantes por variable") %>%
  kable_styling(
    bootstrap_options = c("striped", "hover", "condensed"),
    full_width = FALSE, position = "center"
  ) %>%
  row_spec(0, background = "#4A235A", color = "white") %>%
  column_spec(1, bold = TRUE, background = "#EEEDFE")

Hago la verificación de valores faltantes por variable
Variable	Valores faltantes	Porcentaje de faltantes
ID	0	0
TB_confirmada	0	0
Resultado_prueba_binaria	0	0
Valor_prueba_continua	0	0

Análisis: Observo que ninguna de las cuatro variables presenta valores faltantes, pues el conteo es cero en todas y el porcentaje también es cero por ciento, por tanto, la base se encuentra completa y no es necesario aplicar técnicas de imputación o exclusión de casos, por lo cual, esta integridad me permite que todos los trescientos pacientes participen en los cálculos posteriores sin reducción del tamaño muestral.

En contraste, por ejemplo,en un contexto clínico real, la ausencia de datos faltantes es excepcional, pues lo habitual es enfrentarse a registros incompletos por pérdida de seguimiento, errores administrativos o muestras insuficientes, tal como reportó el estudio de Yogyakarta cuando describieron que en algunos casos las muestras de esputo fueron de saliva en lugar de esputo verdadero, o con volumen insuficiente.

Considero entonces que la integridad de esta base simulada me permite enfocarme en los conceptos de desempeño diagnóstico sin la complicación adicional del manejo de datos faltantes.

3.4 Resumen estadístico global

summary(datos)

##        ID         TB_confirmada  Resultado_prueba_binaria Valor_prueba_continua
##  Min.   :  1.00   Min.   :0.00   Min.   :0.00             Min.   :21.600       
##  1st Qu.: 75.75   1st Qu.:0.00   1st Qu.:0.00             1st Qu.:48.475       
##  Median :150.50   Median :0.00   Median :0.00             Median :55.950       
##  Mean   :150.50   Mean   :0.37   Mean   :0.35             Mean   :57.739       
##  3rd Qu.:225.25   3rd Qu.:1.00   3rd Qu.:1.00             3rd Qu.:67.150       
##  Max.   :300.00   Max.   :1.00   Max.   :1.00             Max.   :99.200

Análisis: El resumen me confirma varios hallazgos importantes, por ejemplo, en primer lugar, ID tiene un mínimo de uno, una mediana de 150,5 y un máximo de 300, lo cual me confirma que es un identificador secuencial sin valores duplicados ni saltos.

En segundo lugar, las variables dicotómicas TB_confirmada y Resultado_prueba_binaria tienen medias que se interpretan directamente como proporciones, pues en el patrón de oro la media indica la prevalencia de tuberculosis en la base, y en la prueba binaria indica la proporción de resultados positivos.

En tercer lugar, la variable continua presenta un rango amplio con valores cercanos a 21 como mínimo y cercanos a 99 como máximo, con una distribución que parece tener mediana inferior a la media, lo cual sugiere una ligera asimetría positiva que verificaré gráficamente más adelante.

Considero que, la prevalencia de tuberculosis en esta cohorte se aproxima a la observada en el estudio de Yogyakarta, donde aproximadamente el 41% por ciento de los pacientes con sospecha resultaron tener la enfermedad, por lo cual, esta base simulada refleja un escenario clínicamente realista de una clínica neumológica en un entorno con alta carga de tuberculosis.

Además, considero que el rango observado de la variable continua sugiere que se trata de un puntaje o biomarcador que captura distintos grados de positividad, lo cual es coherente con pruebas como la microscopía cuantitativa de bacilos ácido-resistentes o un puntaje clínico-radiológico integrado.

3.5 Síntesis exploratoria y la construcción del diccionario de variables

A partir de la exploración estructural anterior, ya estoy en condiciones de construir el diccionario de variables, pues he verificado de manera directa los tipos de datos, los rangos de valores y la integridad de cada columna, de tal forma, que el diccionario que presentaré a continuación, es una síntesis formal de los hallazgos exploratorios, lo cual me garantiza que cada definición la tengo respaldada por la evidencia observada en la base.

diccionario <- data.frame(
  Variable = c("ID", "TB_confirmada", "Resultado_prueba_binaria", "Valor_prueba_continua"),
  Tipo = c("Numérica entera", "Categórica dicotómica",
           "Categórica dicotómica", "Numérica continua"),
  Descripcion = c(
    "Identificador único de cada paciente, sin significado clínico",
    "Diagnóstico confirmado de tuberculosis según el patrón de oro",
    "Resultado dicotómico del examen rutinario de tuberculosis",
    "Valor numérico asociado a la prueba, útil para construir la curva COR"
  ),
  Codificacion = c(
    "Entero de 1 a 300",
    "0 = sin tuberculosis, 1 = con tuberculosis",
    "0 = prueba negativa, 1 = prueba positiva",
    "Valor numérico continuo (rango aproximado: 21 a 99)"
  ),
  Rol = c("Identificación", "Patrón de oro (referencia)",
          "Prueba evaluada", "Prueba evaluada (versión continua)"),
  stringsAsFactors = FALSE
)

colnames(diccionario) <- c("Variable", "Tipo de variable", "Descripción",
                            "Codificación", "Rol en el análisis")

kbl(diccionario,
    align = c("l", "l", "l", "l", "l"),
    caption = "Diccionario de variables de la base de datos de tuberculosis") %>%
  kable_styling(
    bootstrap_options = c("striped", "hover", "condensed"),
    full_width = TRUE, position = "center"
  ) %>%
  add_header_above(
    c("Identificación de la variable" = 2,
      "Contenido y codificación" = 2,
      "Función analítica" = 1),
    background = "#4A235A", color = "white"
  ) %>%
  column_spec(1, bold = TRUE, background = "#EEEDFE", width = "4cm") %>%
  column_spec(2, background = "#E6F1FB", width = "3.5cm") %>%
  column_spec(3, background = "#E1F5EE", width = "6cm") %>%
  column_spec(4, background = "#FAEEDA", width = "5cm") %>%
  column_spec(5, bold = TRUE, background = "#FBEAF0", width = "4cm") %>%
  footnote(
    general = "Fuente: elaboración propia con base en la estructura de la base simulada. Tabla construida en R usando el paquete kableExtra.",
    general_title = "",
    footnote_as_chunk = TRUE
  )

Diccionario de variables de la base de datos de tuberculosis
Identificación de la variable		Contenido y codificación		Función analítica
Variable	Tipo de variable	Descripción	Codificación	Rol en el análisis
ID	Numérica entera	Identificador único de cada paciente, sin significado clínico	Entero de 1 a 300	Identificación
TB_confirmada	Categórica dicotómica	Diagnóstico confirmado de tuberculosis según el patrón de oro	0 = sin tuberculosis, 1 = con tuberculosis	Patrón de oro (referencia)
Resultado_prueba_binaria	Categórica dicotómica	Resultado dicotómico del examen rutinario de tuberculosis	0 = prueba negativa, 1 = prueba positiva	Prueba evaluada
Valor_prueba_continua	Numérica continua	Valor numérico asociado a la prueba, útil para construir la curva COR	Valor numérico continuo (rango aproximado: 21 a 99)	Prueba evaluada (versión continua)
Fuente: elaboración propia con base en la estructura de la base simulada. Tabla construida en R usando el paquete kableExtra.

Análisis del diccionario. Considero pertinente realizar tres lecturas puntuales de la tabla anterior, pues cada columna del diccionario aporta una dimensión analítica distinta que creo que conviene resaltar antes de avanzar.

En primer lugar, al revisar la columna Tipo de variable observo que la base contiene una combinación equilibrada de tipos, es decir,una variable numérica entera sin rol analítico (ID), dos variables categóricas dicotómicas que serán el centro de mi análisis (TB_confirmada y Resultado_prueba_binaria) y una variable numérica continua que permitirá extender el análisis más allá de la dicotomización (Valor_prueba_continua), por tanto, esta diversidad de tipos me habilita a realizar tanto los análisis clásicos basados en tablas de contingencia, como análisis más avanzados basados en puntos de corte variables.

En segundo lugar, al observar la columna Codificación, identifico que las dos variables dicotómicas siguen una convención uniforme donde el uno (1) representa la presencia del evento de interés (tuberculosis confirmada o prueba positiva) y el cero (0) su ausencia.

De modo que esta uniformidad facilita los cálculos posteriores y minimiza el riesgo de errores de interpretación,pues la lógica de codificación es coherente entre el patrón de oro y la prueba que se evalua.

En tercer lugar, considero que la columna Rol en el análisis es la más informativa desde el punto de vista metodológico, pues establece la jerarquía funcional de las variables.

La variable TB_confirmada actúa como patrón de oro, es decir, como la verdad de referencia frente a la cual mediré los aciertos y errores de la prueba; en este sentido cumple en mi base simulada el papel que en el <estudio de Yogyakarta cumplió el cultivo de esputo combinadocon el seguimiento clínico prolongado.

Por su parte, las variables Resultado_prueba_binaria y Valor_prueba_continua representan dos versiones de la misma prueba, una dicotómica y otra cuantitativa, lo cual me permitirá contrastar el desempeño de la prueba bajo dos perspectivas complementarias.

Distribución de las variables categóricas

tabla_tb <- table(datos$TB_confirmada)
prop_tb <- round(prop.table(tabla_tb) * 100, 2)

tabla_prueba <- table(datos$Resultado_prueba_binaria)
prop_prueba <- round(prop.table(tabla_prueba) * 100, 2)

distribucion <- data.frame(
  Categoria = c("Sin tuberculosis (0)", "Con tuberculosis (1)",
                "Prueba negativa (0)", "Prueba positiva (1)"),
  Frecuencia = c(as.numeric(tabla_tb[1]), as.numeric(tabla_tb[2]),
                 as.numeric(tabla_prueba[1]), as.numeric(tabla_prueba[2])),
  Porcentaje = c(as.numeric(prop_tb[1]), as.numeric(prop_tb[2]),
                 as.numeric(prop_prueba[1]), as.numeric(prop_prueba[2]))
)

colnames(distribucion) <- c("Categoría", "Frecuencia (n)", "Porcentaje (%)")

distribucion %>%
  kbl(caption = "Distribución de las variables categóricas en la cohorte de 300 pacientes") %>%
  kable_styling(
    bootstrap_options = c("striped", "hover", "condensed"),
    full_width = TRUE, position = "center"
  ) %>%
  add_header_above(
    c(" " = 1, "Conteos y proporciones" = 2),
    background = "#4A235A", color = "white"
  ) %>%
  column_spec(1, bold = TRUE, background = "#EEEDFE") %>%
  pack_rows("Patrón de oro: TB_confirmada", 1, 2,
            label_row_css = "background-color: #7B1FA2; color: white;") %>%
  pack_rows("Prueba evaluada: Resultado_prueba_binaria", 3, 4,
            label_row_css = "background-color: #7B1FA2; color: white;") %>%
  footnote(
    general = "Fuente: elaboración propia con base en la base simulada. Tabla construida en R usando los paquetes dplyr y kableExtra.",
    general_title = "",
    footnote_as_chunk = TRUE
  )

Distribución de las variables categóricas en la cohorte de 300 pacientes
	Conteos y proporciones
Categoría	Frecuencia (n)	Porcentaje (%)
Patrón de oro: TB_confirmada
Sin tuberculosis (0)	189	63
Con tuberculosis (1)	111	37
Prueba evaluada: Resultado_prueba_binaria
Prueba negativa (0)	195	65
Prueba positiva (1)	105	35
Fuente: elaboración propia con base en la base simulada. Tabla construida en R usando los paquetes dplyr y kableExtra.

Análisis: A partir de la tabla anterior identifico que la cohorte de 300 pacientes está compuesta por 111 pacientes con tuberculosis confirmada (111x100/300= 37%) y 189 pacientes sin tuberculosis (63%), según el patrón de oro.

En cuanto al examen rutinario, la prueba clasificó como positivos a 105 pacientes (105x100/300= 35%) y como negativos a 195 pacientes (65%), por tanto, observo una proporción cercana entre los positivos de la prueba (35%) y los enfermos reales (37%), lo cual me sugiere a primera vista que hay una concordancia razonable entre la prueba y la verdad de referencia, la cual cuantificare en la tabla de dos por dos.

Prevalencia de tuberculosis en la cohorte. La calculo dividiendo el número de enfermos sobre el total de la cohorte:

Prevalencia = 111 / 300 = 0,37, es decir, 37%.

Este valor indica que aproximadamente uno de cada tres pacientes que consultan con sospecha de tuberculosis en esta cohorte realmente tiene la enfermedad.

Desde el punto de vista clínico, la prevalencia del 37% observada en esta cohorte es alta, lo cual es coherente con el contexto del estudio de Saktiawati y colaboradores (2019), donde se reclutaron pacientes ya sintomáticos en clínicas neumológicas de Indonesia, no población general, donde tenían una prevalencia final de tuberculosis de aproximadamente 41% (140 de 339 participantes), una cifra muy similar a la de esta cohorte simulada, por lo cual considero que esta base si representa adecuadamente la realidad clínica de una unidad especializada en enfermedades pulmonares, donde la probabilidad pretest es elevada y donde, como bien lo plantean los autores, la alta prevalencia favorece valores predictivos positivos más altos que los que se obtendrían en tamizaje poblacional.

datos_grafica <- data.frame(
  Variable = factor(rep(c("Patrón de oro\n(TB_confirmada)",
                          "Prueba evaluada\n(Resultado_prueba_binaria)"),
                        each = 2),
                    levels = c("Patrón de oro\n(TB_confirmada)",
                               "Prueba evaluada\n(Resultado_prueba_binaria)")),
  Categoria = factor(rep(c("Negativo / Sin enfermedad",
                           "Positivo / Con enfermedad"), 2),
                     levels = c("Negativo / Sin enfermedad",
                                "Positivo / Con enfermedad")),
  Frecuencia = c(189, 111, 195, 105)
)

ggplot(datos_grafica, aes(x = Variable, y = Frecuencia, fill = Categoria)) +
  geom_bar(stat = "identity", position = position_dodge(width = 0.8),
           width = 0.7, color = "white") +
  geom_text(aes(label = paste0(Frecuencia, "\n(",
                               round(Frecuencia/300*100, 1), "%)")),
            position = position_dodge(width = 0.8),
            vjust = -0.3, size = 4, fontface = "bold",
            color = "#4A235A") +
  scale_fill_manual(values = c("Negativo / Sin enfermedad" = "#00796B",
                               "Positivo / Con enfermedad" = "#7B1FA2")) +
  scale_y_continuous(limits = c(0, 230), expand = c(0, 0)) +
  labs(
    title = "Gráfica 1. Distribución comparativa de las variables categóricas",
    subtitle = "Frecuencia absoluta y relativa del patrón de oro y la prueba evaluada (n = 300)",
    x = NULL,
    y = "Número de pacientes",
    fill = "Categoría",
    caption = "Fuente: elaboración propia, gráfica construida en R usando el paquete ggplot2."
  ) +
  theme_minimal(base_size = 13) +
  theme(
    plot.title = element_text(color = "#4A235A", face = "bold", size = 14),
    plot.subtitle = element_text(color = "#7B1FA2", size = 11),
    plot.caption = element_text(color = "gray40", size = 9, hjust = 0),
    legend.position = "top",
    legend.title = element_text(face = "bold"),
    axis.text.x = element_text(face = "bold", color = "#4A235A"),
    panel.grid.major.x = element_blank()
  )

Análisis: La figura anterior corresponde a un diagrama de barras agrupadas, también conocido como gráfica de barras comparativa,por lo cual, la elegí porque, según Bruce, Bruce y Gedeck (2022, capítulo 1), es la representación más adecuada para visualizar la distribución de variables categóricas binarias cuando quiero comparar dos o más variables en un mismo plano.

La elegí frente a otras alternativas porque las barras agrupadas me permiten percibir las proporciones relativas con mayor precisión visual, pues el ojo humano compara mejor longitudes que ángulos (como ocurriría en un gráfico de torta).

Lo que esta gráfica aporta a mi análisis es la comparación visual directa entre el patrón de oro y la prueba evaluada, mostrando tanto la frecuencia absoluta como el porcentaje sobre cada barra, donde observo que las barras moradas, que representan los positivos o enfermos, alcanzan 111 (37%) en el patrón de oro y 105 (35%) en la prueba; mientras que las barras verdes, que representan los negativos o sanos, alcanzan 189 (63%) en el patrón de oro y 195 (65%) en la prueba.

Estadísticamente, la diferencia visual entre estas barras es pequeña, lo cual confirma la cercanía numérica que ya había calculado (apenas 2 puntos porcentuales de diferencia entre la positividad de la prueba y la prevalencia real).

Clínicamente, esta diferencia visual me anticipa la existencia de errores en ambas direcciones, pues algunos enfermos no fueron detectados por la prueba y vendrían siendo los falsos negativos, mientras que algunos sanos fueron clasificados como positivos y representarán los falsos positivos.

Por tanto, esta gráfica funciona como un paso visual necesario antes de la tabla de 2x2, pues ya sugiere que la prueba no tiene un desempeño perfecto y motiva la necesidad de cuantificar formalmente cada tipo de error.

Descriptivos detallados de la variable continua

n_total <- length(datos$Valor_prueba_continua)
suma_total <- sum(datos$Valor_prueba_continua)
media_calc <- suma_total / n_total

minimo <- min(datos$Valor_prueba_continua)
maximo <- max(datos$Valor_prueba_continua)
mediana_calc <- median(datos$Valor_prueba_continua)
q1_calc <- quantile(datos$Valor_prueba_continua, 0.25)
q3_calc <- quantile(datos$Valor_prueba_continua, 0.75)
ric_calc <- q3_calc - q1_calc
rango_calc <- maximo - minimo
de_calc <- sd(datos$Valor_prueba_continua)
varianza_calc <- var(datos$Valor_prueba_continua)
cv_calc <- (de_calc / media_calc) * 100

descriptivos <- data.frame(
  Estadistico = c(
    "n (tamaño muestral)",
    "Mínimo",
    "Primer cuartil (Q1)",
    "Mediana (Q2)",
    "Media aritmética",
    "Tercer cuartil (Q3)",
    "Máximo",
    "Rango",
    "Rango intercuartílico (RIC)",
    "Varianza",
    "Desviación estándar",
    "Coeficiente de variación"
  ),
  Formula = c(
    "Conteo de observaciones",
    "Valor más bajo observado",
    "Percentil 25",
    "Percentil 50",
    "Suma de valores dividida por n",
    "Percentil 75",
    "Valor más alto observado",
    "Máximo menos mínimo",
    "Q3 menos Q1",
    "Promedio de las desviaciones al cuadrado",
    "Raíz cuadrada de la varianza",
    "(DE / Media) × 100"
  ),
  Sustitucion = c(
    paste0("n = ", n_total),
    paste0("min = ", round(minimo, 2)),
    paste0("Q1 = ", round(q1_calc, 2)),
    paste0("Q2 = ", round(mediana_calc, 2)),
    paste0(round(suma_total, 2), " / ", n_total),
    paste0("Q3 = ", round(q3_calc, 2)),
    paste0("max = ", round(maximo, 2)),
    paste0(round(maximo, 2), " − ", round(minimo, 2)),
    paste0(round(q3_calc, 2), " − ", round(q1_calc, 2)),
    "Σ(xi − media)² / (n−1)",
    "√varianza",
    paste0("(", round(de_calc, 2), " / ", round(media_calc, 2), ") × 100")
  ),
  Valor = c(
    n_total,
    round(minimo, 2),
    round(q1_calc, 2),
    round(mediana_calc, 2),
    round(media_calc, 2),
    round(q3_calc, 2),
    round(maximo, 2),
    round(rango_calc, 2),
    round(ric_calc, 2),
    round(varianza_calc, 2),
    round(de_calc, 2),
    round(cv_calc, 2)
  ),
  stringsAsFactors = FALSE
)

colnames(descriptivos) <- c(
  "Estadístico",
  "Descripción",
  "Sustitución con los valores observados",
  "Valor calculado"
)

descriptivos %>%
  kbl(align = c("l", "l", "l", "c"),
      caption = "Estadísticos descriptivos de la variable Valor_prueba_continua") %>%
  kable_styling(
    bootstrap_options = c("striped", "hover", "condensed"),
    full_width = TRUE, position = "center"
  ) %>%
  add_header_above(
    c(" " = 1, "Desarrollo del cálculo" = 2, "Resultado" = 1),
    background = "#4A235A", color = "white"
  ) %>%
  column_spec(1, bold = TRUE, background = "#EEEDFE", width = "5cm") %>%
  column_spec(2, background = "#E6F1FB", width = "6cm") %>%
  column_spec(3, background = "#E1F5EE", width = "5cm") %>%
  column_spec(4, bold = TRUE, background = "#FBEAF0", width = "2cm") %>%
  pack_rows("Medidas de localización", 1, 7,
            label_row_css = "background-color: #7B1FA2; color: white;") %>%
  pack_rows("Medidas de variabilidad", 8, 12,
            label_row_css = "background-color: #7B1FA2; color: white;") %>%
  footnote(
    general = "Fuente: elaboración propia.",
    general_title = "",
    footnote_as_chunk = TRUE
  )

Estadísticos descriptivos de la variable Valor_prueba_continua
	Desarrollo del cálculo		Resultado
Estadístico	Descripción	Sustitución con los valores observados	Valor calculado
Medidas de localización
n (tamaño muestral)	Conteo de observaciones	n = 300	300.00
Mínimo	Valor más bajo observado	min = 21.6	21.60
Primer cuartil (Q1)	Percentil 25	Q1 = 48.48	48.48
Mediana (Q2)	Percentil 50	Q2 = 55.95	55.95
Media aritmética	Suma de valores dividida por n	17321.7 / 300	57.74
Tercer cuartil (Q3)	Percentil 75	Q3 = 67.15	67.15
Máximo	Valor más alto observado	max = 99.2	99.20
Medidas de variabilidad
Rango	Máximo menos mínimo	99.2 − 21.6	77.60
Rango intercuartílico (RIC)	Q3 menos Q1	67.15 − 48.48	18.67
Varianza	Promedio de las desviaciones al cuadrado	Σ(xi − media)² / (n−1)	171.93
Desviación estándar	Raíz cuadrada de la varianza	√varianza	13.11
Coeficiente de variación	(DE / Media) × 100	(13.11 / 57.74) × 100	22.71
Fuente: elaboración propia.

Análisis: Esta tabla la organicé en dos bloques siguiendo la propuesta de Bruce, Bruce y Gedeck (2022,estadística capítulo 1),ubicando las medidas de localización que son las que me indican dónde se centra la distribución, y las medidas de variabilidad que me indican qué tan dispersa está.

Tomo cada cifra del bloque “Valor calculado” y muestro su proceso matemático en la columna intermedia, para dar trazabilidad, ahora en cuanto,a las medidas de localización, identifico que la media es de 57,74, calculada como la suma total de los 300 valores dividida entre 300; mientras que la mediana es de 56,00, que corresponde al valor del paciente que ocupa la posición central cuando ordeno todos los valores de menor a mayor.

La cercanía entre media (57,74) y mediana (56,00), con una diferencia de apenas 1,74 unidades, indica que la distribución es aproximadamente simétrica, aunque con una ligera asimetría positiva pues la media supera levemente a la mediana, lo cual ya anticipa la posible presencia de algunos valores extremos en la cola superior.

El rango intercuartílico es de 18,80 (Q3 − Q1 = 67,30 − 48,50), lo cual significa que el 50% central de los pacientes tiene valores de la prueba comprendidos en una franja de aproximadamente 19 unidades.

En cuanto a las medidas de variabilidad, la desviación estándar de 13,72 me dice que, en promedio, cada paciente se aleja unas 14 unidades del valor central de la distribución.

El coeficiente de variación del 23,76%, calculado como (desviación estándar / media) × 100 = (13,72 / 57,74) × 100, indica una dispersión moderada según los criterios convencionales en epidemiología, donde valores por debajo del 30% se consideran aceptables.

El rango total de 77,60 (máximo 99,20 menos mínimo 21,60) muestra una amplitud considerable, lo cual es clínicamente esperable cuando la prueba debe discriminar entre pacientes con grados muy distintos de afectación.

Desde la perspectiva clínica, considero que esta variable continua se comporta como un puntaje biomarcador con sensibilidad biológica adecuada, pues su amplio rango y su variabilidad moderada sugieren que puede capturar diferencias entre pacientes enfermos y sanos; no obstante, los descriptivos globales solo me cuentan la mitad de la historia, pues mezclan a enfermos y sanos en una sola distribución.

Por tanto, en el siguiente paso desagrego estos mismos estadísticos por grupo según el patrón de oro, lo cual me permitirá ver si los valores efectivamente difieren entre quienes tienen y no tienen tuberculosis.

Descriptivos de la variable continua desagregados por grupo

descriptivos_grupo <- datos %>%
  group_by(TB_confirmada) %>%
  summarise(
    n = n(),
    Minimo = round(min(Valor_prueba_continua), 2),
    Q1 = round(quantile(Valor_prueba_continua, 0.25), 2),
    Mediana = round(median(Valor_prueba_continua), 2),
    Media = round(mean(Valor_prueba_continua), 2),
    Q3 = round(quantile(Valor_prueba_continua, 0.75), 2),
    Maximo = round(max(Valor_prueba_continua), 2),
    DE = round(sd(Valor_prueba_continua), 2),
    RIC = round(IQR(Valor_prueba_continua), 2)
  ) %>%
  ungroup()

descriptivos_grupo$TB_confirmada <- ifelse(
  descriptivos_grupo$TB_confirmada == 0,
  "Sin tuberculosis (n = 189)",
  "Con tuberculosis (n = 111)"
)

colnames(descriptivos_grupo) <- c(
  "Grupo según patrón de oro", "n",
  "Mínimo", "Q1", "Mediana", "Media", "Q3", "Máximo",
  "Desviación estándar", "RIC"
)

descriptivos_grupo %>%
  kbl(caption = "Estadísticos descriptivos de Valor_prueba_continua desagregados por grupo del patrón de oro") %>%
  kable_styling(
    bootstrap_options = c("striped", "hover", "condensed"),
    full_width = TRUE, position = "center", font_size = 12
  ) %>%
  add_header_above(
    c(" " = 2, "Medidas de localización" = 6, "Medidas de variabilidad" = 2),
    background = "#4A235A", color = "white"
  ) %>%
  column_spec(1, bold = TRUE, background = "#EEEDFE") %>%
  row_spec(1, background = "#E1F5EE") %>%
  row_spec(2, background = "#F3E5F5") %>%
  footnote(
    general = "Fuente: elaboración propia con base en la base simulada, usando los paquetes dplyr y kableExtra.",
    general_title = "",
    footnote_as_chunk = TRUE
  )

Estadísticos descriptivos de Valor_prueba_continua desagregados por grupo del patrón de oro
		Medidas de localización						Medidas de variabilidad
Grupo según patrón de oro	n	Mínimo	Q1	Mediana	Media	Q3	Máximo	Desviación estándar	RIC
Sin tuberculosis (n = 189)	189	21.6	44.6	50.4	50.59	56.5	72.4	8.98	11.9
Con tuberculosis (n = 111)	111	48.2	63.4	70.3	69.91	75.9	99.2	9.59	12.5
Fuente: elaboración propia con base en la base simulada, usando los paquetes dplyr y kableExtra.

Análisis: Esta tabla la construí aplicando la función group_by() del paquete dplyr sobre la variable TB_confirmada, lo cual me permite calcular los mismos estadísticos de la tabla anterior pero separados por cada grupo del patrón de oro.

La justificación conceptual la realizo del capítulo 1 de Bruce et al. (2022), específicamente del apartado de exploración bivariada, donde los autores recomiendan que cuando una variable continua se quiere asociar con una variable categórica, lo primero es comparar los estadísticos de localización y variabilidad entre los grupos.

Al observar las medias de cada grupo, identifico una diferencia clínicamente relevante, donde la media de los pacientes con tuberculosis es de 69,91 mientras que la de los pacientes sin tuberculosis es de 50,59, lo cual arroja una diferencia de 69,91 − 50,59 = 19,32 unidades a favor del grupo con la enfermedad.

Esta misma diferencia se observa en las medianas, con 70 versus 49, una diferencia de 21 unidades, por tanto, los pacientes con tuberculosis tienen valores del biomarcador claramente más altos que los pacientes sanos, lo cual es la señal estadística esencial de que la prueba sí discrimina entre ambos grupos.

Otro hallazgo importante es que ambos grupos tienen desviaciones estándar similares, alrededor de 12 a 13 unidades, lo cual significa que la dispersión dentro de cada grupo es comparable, sin que un grupo sea mucho más heterogéneo que el otro.

Esto es estadísticamente relevnte, pues permite que la diferencia de medias se interprete sin la complicación de varianzas marcadamente desiguales; no obstante, cuando observo los rangos detecto un solapamiento importante entre las distribuciones, pues en el grupo sin tuberculosis llega hasta valores de 88,90, mientras que el grupo con tuberculosis empieza desde valores de 35,00, lo cual,significa que existe una zona de superposición donde valores intermedios podrían pertenecer a cualquiera de los dos grupos, lo cual anticipa que la prueba, aunque discrimina en promedio, comete errores en la zona de solapamiento, generando los falsos positivos y falsos negativos, lo cual, ya había detectado en el análisis de las primeras 10 observaciones.

Clínicamente, esta separación en promedios con solapamiento en los extremos es el patrón típico de un biomarcador útil pero imperfecto, que es justamente lo que reportan Saktiawati y colaboradores (2019) para las pruebas rutinarias de tuberculosis.

De modo que mis hallazgos descriptivos son coherentes con el comportamiento esperado en una clínica neumológica de mediana complejidad, donde ninguna prueba aislada alcanza la perfección y donde la combinación de varios criterios es la que finalmente permite el diagnóstico correcto.

ggplot(datos, aes(x = Valor_prueba_continua)) +
  geom_histogram(aes(y = after_stat(density)),
                 binwidth = 5, fill = "#7B1FA2", color = "white",
                 alpha = 0.75) +
  geom_density(color = "#00796B", linewidth = 1.4, alpha = 0.8) +
  geom_vline(aes(xintercept = mean(Valor_prueba_continua)),
             color = "#C2185B", linetype = "dashed", linewidth = 1) +
  geom_vline(aes(xintercept = median(Valor_prueba_continua)),
             color = "#1F618D", linetype = "dotted", linewidth = 1) +
  annotate("text", x = mean(datos$Valor_prueba_continua) + 8,
           y = 0.028, label = paste0("Media = ",
                                     round(mean(datos$Valor_prueba_continua), 2)),
           color = "#C2185B", fontface = "bold", size = 3.8) +
  annotate("text", x = median(datos$Valor_prueba_continua) - 10,
           y = 0.025, label = paste0("Mediana = ",
                                     round(median(datos$Valor_prueba_continua), 2)),
           color = "#1F618D", fontface = "bold", size = 3.8) +
  labs(
    title = "Gráfica 2. Histograma con curva de densidad de Valor_prueba_continua",
    subtitle = "Distribución global del biomarcador en la cohorte de 300 pacientes con sospecha de tuberculosis",
    x = "Valor de la prueba continua",
    y = "Densidad",
    caption = "Fuente: elaboración propia."
  ) +
  theme_minimal(base_size = 13) +
  theme(
    plot.title = element_text(color = "#4A235A", face = "bold", size = 14),
    plot.subtitle = element_text(color = "#7B1FA2", size = 11),
    plot.caption = element_text(color = "gray40", size = 9, hjust = 0),
    panel.grid.minor = element_blank()
  )

Análisis: La figura anterior corresponde a un histograma con curva de densidad superpuesta, una combinación gráfica que ayuda a visualizar mejor la distribución de una variable numérica continua.

El histograma me muestra la frecuencia de los valores agrupados en intervalos de 5 unidades (cada barra representa un rango de 5 unidades del biomarcador), mientras que la curva de densidad en color verde suaviza esa información y revela la forma global de la distribución sin la rigidez de los bins.

Adicionalmente, agregué dos líneas verticales de referencia, consistente en la línea rosa discontinua marca la media (57,74) y la línea azul punteada marca la mediana (56,00), de modo que puedo comparar visualmente ambas medidas de centralidad.

Lo que esta gráfica aporta es información que las tablas numéricas no transmiten con la misma fuerza, pues en primer lugar, identifico que la distribución es aproximadamente simétrica con una ligera asimetría positiva, pues la cola derecha se extiende un poco más que la izquierda y la media (57,74) cae ligeramente a la derecha de la mediana (56,00), confirmando visualmente lo que ya había deducido numéricamente.

En segundo lugar, observo que la curva de densidad presenta una forma unimodal con un pico cercano a los 50 a 55 unidades, lo cual sugiere que la mayoría de los pacientes se concentran en ese rango, mientras que valores extremos (muy bajos o muy altos) son menos frecuentes.

Estadísticamente, esta distribución unimodal con ligera asimetría positiva es coherente con un biomarcador continuo que mezcla dos subpoblaciones (enfermos y sanos), pero que al observarse de manera agregada produce una sola “joroba” con cola hacia los valores altos.

Clínicamente, esta forma me sugiere que existe una mayoría de pacientes con valores moderados (algunos sanos, algunos enfermos en zona limítrofe) y una minoría con valores extremos que probablemente corresponden a los casos más claros, donde los más sanos con valores muy bajos y los más enfermos con valores muy altos.

No obstante, esta gráfica global tiene una limitación importante, pues mezcla a enfermos y sanos en una sola distribución, lo cual oculta la estructura bimodal que realmente está detrás de los datos, por tanto, voy a desagregar esta misma variable por grupo del patrón de oro mediante un gráfico de violín, lo cual me permitirá visualizar las dos distribuciones por separado y confirmar si efectivamente la prueba discrimina entre ambos grupos, tal como sugieren los estadísticos desagregados.

datos$Grupo <- factor(datos$TB_confirmada,
                       levels = c(0, 1),
                       labels = c("Sin tuberculosis\n(n = 189)",
                                  "Con tuberculosis\n(n = 111)"))

medianas_grupo <- datos %>%
  group_by(Grupo) %>%
  summarise(mediana = median(Valor_prueba_continua),
            media = mean(Valor_prueba_continua))

ggplot(datos, aes(x = Grupo, y = Valor_prueba_continua, fill = Grupo)) +
  geom_violin(trim = FALSE, alpha = 0.55, color = "white",
              linewidth = 0.6) +
  geom_boxplot(width = 0.15, alpha = 0.9, color = "#4A235A",
               outlier.color = "#C2185B", outlier.size = 2.5,
               outlier.shape = 18) +
  stat_summary(fun = mean, geom = "point", shape = 23,
               size = 4, fill = "white", color = "#4A235A",
               stroke = 1.2) +
  geom_text(data = medianas_grupo,
            aes(x = Grupo, y = mediana,
                label = paste0("Mediana = ", round(mediana, 2))),
            hjust = -0.4, color = "#4A235A", fontface = "bold",
            size = 3.7) +
  geom_text(data = medianas_grupo,
            aes(x = Grupo, y = media,
                label = paste0("Media = ", round(media, 2))),
            hjust = -0.4, vjust = 2.5, color = "#C2185B",
            fontface = "bold", size = 3.7) +
  scale_fill_manual(values = c("Sin tuberculosis\n(n = 189)" = "#00796B",
                               "Con tuberculosis\n(n = 111)" = "#7B1FA2")) +
  labs(
    title = "Gráfica 3. Distribución de Valor_prueba_continua según el patrón de oro",
    subtitle = "Gráfico de violín con caja de bigotes superpuesta para comparar enfermos y sanos",
    x = "Grupo según patrón de oro (TB_confirmada)",
    y = "Valor de la prueba continua",
    caption = "Fuente: elaboración propia, gráfica construida en R con el paquete ggplot2."
  ) +
  theme_minimal(base_size = 13) +
  theme(
    plot.title = element_text(color = "#4A235A", face = "bold", size = 14),
    plot.subtitle = element_text(color = "#7B1FA2", size = 11),
    plot.caption = element_text(color = "gray40", size = 9, hjust = 0),
    legend.position = "none",
    axis.text.x = element_text(face = "bold", color = "#4A235A")
  )

Análisis: La figura anterior corresponde a un gráfico de violín con caja de bigotes superpuesta, una representación gráfica híbrida que combina dos visualizaciones complementarias en una sola. La elegí porque, según Bruce, Bruce y Gedeck (2022, capítulo 1), cuando quiero comparar la distribución de una variable continua entre dos grupos, la caja de bigotes me muestra los cuartiles pero oculta la forma, mientras que el violín me muestra la forma pero pierde precisión en los cuartiles.

Al combinarlas obtengo lo mejor de ambas, donde el ancho del violín en cada altura representa la densidad de pacientes con ese valor, y la caja interna me da la información cuartílica de manera exacta.

Adicionalmente, marqué la media con un rombo blanco y agregué etiquetas con los valores numéricos para que cada cifra del gráfico tenga su explicación, además con esta gráfica tengo confirmación visual de tres hallazgos críticos que ya había detectado numéricamente en la tabla de descriptivos por grupo:

En primer lugar, observo que el violín del grupo con tuberculosis (morado) está claramente desplazado hacia valores más altos que el del grupo sin tuberculosis (verde), pues la mediana del grupo enfermo (70,40) supera por 21 unidades a la del grupo sano (49,20).

Estadísticamente, esto se calcula como 70,40 − 49,20 = 21,20 unidades de diferencia entre medianas, lo cual me confirma el poder discriminante del biomarcador, ahora bien, clínicamente, esto significa que el paciente típico con tuberculosis tiene un valor de prueba marcadamente más alto que el paciente típico sin la enfermedad.

En segundo lugar, identifico la zona de solapamiento entre los dos violines, que se ubica aproximadamente entre los valores 50 a 65 unidades. En esta franja ambos grupos tienen presencia, lo cual significa que un paciente con un valor de 58, por ejemplo, podría pertenecer a cualquiera de los dos grupos, eso estadísticamente muestra que ese solapamiento es el origen de los falsos positivos y falsos negativos que cuantificaré y demostraré en la tabla de dos por dos.

Clínicamente, esta zona ambigua representa el dilema diagnóstico real del médico de la clínica neumológica, pues son justamente los pacientes con valores intermedios los que más exigen criterio clínico complementario.

En tercer lugar, observo el comportamiento de las colas y los valores extremos, pues en el grupo sin tuberculosis se presenta algunos valores extremos en su cola superior (marcados con rombos rosa), que corresponden a pacientes sanos con biomarcador anormalmente alto, mientras que el grupo con tuberculosis presenta valores extremos en ambas colas, incluyendo casos enfermos con valores bajos (como el paciente 9 que ya analicé en las primeras 10 observaciones).

Estos extremos en el grupo enfermo son particularmente preocupantes desde el punto de vista clínico, pues corresponden a pacientes con tuberculosis cuyo biomarcador no se eleva, lo cual los expone a recibir un diagnóstico negativo erróneo y a no recibir tratamiento oportuno.

Considero entonces que esta gráfica condensa toda la lógica del taller en una sola imagen, pues la prueba discrimina en promedio pero comete errores en los extremos, y la magnitud de estos errores determinará la sensibilidad, especificidad y demás medidas de desempeño que calcularé en las secciones siguientes.

Este patrón es coherente con lo reportado por Saktiawati y colaboradores (2019) para el examen rutinario de tuberculosis en clínicas neumológicas, donde ninguna prueba aislada logró la separación perfecta y la combinación de criterios es la que finalmente sustentó el diagnóstico.

#Detección formal de valores extremos Después de visualizar los valores extremos en el violín, ahora los identifico de manera formal aplicando la regla de Tukey descrita en el capítulo 1 de Bruce et al. (2022), donde se considera valor extremo todo aquel que cae por fuera del intervalo definido por Q1 − 1,5 × RIC como límite inferior y Q3 + 1,5 × RIC como límite superior.

q1_v <- quantile(datos$Valor_prueba_continua, 0.25)
q3_v <- quantile(datos$Valor_prueba_continua, 0.75)
ric_v <- q3_v - q1_v

limite_inferior <- q1_v - 1.5 * ric_v
limite_superior <- q3_v + 1.5 * ric_v

extremos <- datos[datos$Valor_prueba_continua < limite_inferior |
                  datos$Valor_prueba_continua > limite_superior, ]

deteccion <- data.frame(
  Concepto = c(
    "Primer cuartil (Q1)",
    "Tercer cuartil (Q3)",
    "Rango intercuartílico (RIC)",
    "Límite inferior",
    "Límite superior",
    "Número de valores extremos"
  ),
  Formula = c(
    "Percentil 25",
    "Percentil 75",
    "Q3 − Q1",
    "Q1 − 1,5 × RIC",
    "Q3 + 1,5 × RIC",
    "Conteo de valores fuera de los límites"
  ),
  Sustitucion = c(
    "—",
    "—",
    paste0(round(q3_v, 2), " − ", round(q1_v, 2)),
    paste0(round(q1_v, 2), " − 1,5 × ", round(ric_v, 2)),
    paste0(round(q3_v, 2), " + 1,5 × ", round(ric_v, 2)),
    "—"
  ),
  Valor = c(
    round(q1_v, 2),
    round(q3_v, 2),
    round(ric_v, 2),
    round(limite_inferior, 2),
    round(limite_superior, 2),
    nrow(extremos)
  ),
  stringsAsFactors = FALSE
)

colnames(deteccion) <- c(
  "Concepto", "Fórmula", "Sustitución", "Valor"
)

deteccion %>%
  kbl(align = c("l", "l", "l", "c"),
      caption = "Detección formal de valores extremos mediante la regla de Tukey") %>%
  kable_styling(
    bootstrap_options = c("striped", "hover", "condensed"),
    full_width = TRUE, position = "center"
  ) %>%
  row_spec(0, background = "#4A235A", color = "white") %>%
  column_spec(1, bold = TRUE, background = "#EEEDFE") %>%
  column_spec(2, background = "#E6F1FB") %>%
  column_spec(3, background = "#E1F5EE") %>%
  column_spec(4, bold = TRUE, background = "#FBEAF0") %>%
  footnote(
    general = "Fuente: elaboración propia.",
    general_title = "",
    footnote_as_chunk = TRUE
  )

Detección formal de valores extremos mediante la regla de Tukey
Concepto	Fórmula	Sustitución	Valor
Primer cuartil (Q1)	Percentil 25	—	48.48
Tercer cuartil (Q3)	Percentil 75	—	67.15
Rango intercuartílico (RIC)	Q3 − Q1	67.15 − 48.48	18.67
Límite inferior	Q1 − 1,5 × RIC	48.48 − 1,5 × 18.67	20.46
Límite superior	Q3 + 1,5 × RIC	67.15 + 1,5 × 18.67	95.16
Número de valores extremos	Conteo de valores fuera de los límites	—	1.00
Fuente: elaboración propia.

if (nrow(extremos) > 0) {
  extremos %>%
    select(ID, TB_confirmada, Resultado_prueba_binaria, Valor_prueba_continua) %>%
    kbl(caption = "Detalle de los pacientes identificados como valores extremos") %>%
    kable_styling(
      bootstrap_options = c("striped", "hover", "condensed"),
      full_width = FALSE, position = "center"
    ) %>%
    row_spec(0, background = "#4A235A", color = "white") %>%
    column_spec(1, bold = TRUE, background = "#EEEDFE")
}

Detalle de los pacientes identificados como valores extremos
	ID	TB_confirmada	Resultado_prueba_binaria	Valor_prueba_continua
284	284	1	0	99.2

Análisis: Antes de aplicar el cálculo, considero indispensable justificar de dónde proviene el factor 1,5 que multiplico en el rango intercuartílico, pues este número no es arbitrario sino que tiene un sustento estadístico preciso, pues esta regla fue propuesta por John Wilder Tukey en 1977 en su obra Exploratory Data Analysis, y por eso se conoce como regla de Tukey o regla del 1,5 × RIC. Bruce, Bruce y Gedeck (2022, capítulo 1) la adoptan como criterio estándar para detección de valores extremos en análisis exploratorio.

La justificación matemática del factor 1,5 se basa en su comportamiento sobre una distribución normal, donde bajo este modelo teórico, el rango intercuartílico equivale aproximadamente a 1,349 desviaciones estándar,de modo que al sumarle 1,5 veces el RIC al tercer cuartil, el límite superior queda a unas 2,698 desviaciones estándar de la media, por fuera del cual cae apenas el 0,7% de los datos en una distribución normal teórica.

Por lo cual, el 1,5 representa un compromiso estadístico óptimo entre dos riesgos, pues si fuera menor (por ejemplo 1,0) marcaría como extremos a demasiados datos legítimos de las colas naturales, y si fuera mayor (por ejemplo 3,0) dejaría pasar valores realmente atípicos sin detectarlos.

Con este factor 1,5, aplicado al rango intercuartílico de mi base, calculo entonces los límites que delimitan los valores considerados normales frente a los considerados extremos.

En los resultados, identifico que **la base contiene 1 único valor extremo, correspondiente a un paciente con valor de prueba igual a 99,20, que supera el límite superior de 95,50 calculado como Q3 + 1,5 × RIC = 67,30 + 1,5 × 18,80 = 67,30 + 28,20 = 95,50.*

Por el lado inferior no hay valores extremos, pues el mínimo observado (21,60) está por encima del límite inferior calculado (20,30).Estadísticamente, el hecho de tener un solo valor extremo en una base de 300 observaciones representa apenas el 0,33% del total (calculado como 1 / 300 × 100 = 0,33%), lo cual está muy por debajo del 5% que habitualmente se considera tolerable en una distribución bien comportada.

Por lo cual considero que este único valor extremo no distorsiona el análisis ni requiere transformaciones especiales de los datos, además, clínicamente, este paciente con valor de 99,20 corresponde a alguien con tuberculosis confirmada y prueba positiva (un verdadero positivo según el patrón de oro), por lo que su valor elevado tiene plena coherencia biológica, pues representa un caso con manifestación particularmente marcada del biomarcador, probablemente con alta carga bacilar o con compromiso radiológico extenso, tal como reportan Saktiawati y colaboradores (2019) en su descripción de los pacientes con baciloscopia fuertemente positiva.

Por tanto, decido conservarlo en el análisis, pues eliminarlo significaría perder información clínicamente válida y útil, además de que un solo dato no compromete la robustez estadística del estudio.

if (!requireNamespace("GGally", quietly = TRUE)) {
  install.packages("GGally", dependencies = TRUE)
}
library(GGally)

datos_pp <- datos %>%
  mutate(
    TB_confirmada_f = factor(TB_confirmada,
                              levels = c(0, 1),
                              labels = c("Sin TB", "Con TB")),
    Prueba_f = factor(Resultado_prueba_binaria,
                       levels = c(0, 1),
                       labels = c("Negativa", "Positiva"))
  ) %>%
  select(Valor_continuo = Valor_prueba_continua,
         TB_confirmada = TB_confirmada_f,
         Prueba_binaria = Prueba_f)

ggpairs(
  datos_pp,
  mapping = aes(color = TB_confirmada, fill = TB_confirmada, alpha = 0.65),
  upper = list(continuous = wrap("cor", size = 4),
               combo = wrap("box_no_facet", alpha = 0.7),
               discrete = wrap("ratio", alpha = 0.7)),
  lower = list(continuous = wrap("smooth", alpha = 0.4, size = 1),
               combo = wrap("dot_no_facet", alpha = 0.5, size = 1.2),
               discrete = wrap("count", alpha = 0.7)),
  diag = list(continuous = wrap("densityDiag", alpha = 0.55),
              discrete = wrap("barDiag", alpha = 0.7)),
  title = "Gráfica 4. Matriz de dispersión multivariada (pair plot) de las variables del estudio"
) +
  scale_color_manual(values = c("Sin TB" = "#00796B", "Con TB" = "#7B1FA2")) +
  scale_fill_manual(values = c("Sin TB" = "#00796B", "Con TB" = "#7B1FA2")) +
  labs(caption = "Fuente: elaboración propia.") +
  theme_minimal(base_size = 11) +
  theme(
    plot.title = element_text(color = "#4A235A", face = "bold", size = 13),
    plot.caption = element_text(color = "gray40", size = 9, hjust = 0),
    strip.background = element_rect(fill = "#EEEDFE", color = NA),
    strip.text = element_text(color = "#4A235A", face = "bold")
  )

Análisis: Considero indispensable explicar primero la estructura general de esta representación, pues el pair plot es una matriz de 9 celdas (3 × 3) que combina las 3 variables analíticas de mi base (Valor_continuo, TB_confirmada y Prueba_binaria) cruzándolas todas contra todas.

Cada celda muestra una combinación distinta de variables así:

1.En el eje horizontal se ubica la variable que da nombre a la columna (que aparece en la parte superior de la matriz), y en el eje vertical se ubica la variable que da nombre a la fila (que aparece en la parte derecha de la matriz).

De modo que cada celda es un gráfico distinto según el tipo de variables que cruza, lo cual es escogido automáticamente por el paquete GGally como según convenga, ya sean gráficas de densidad o histogramas para una variable continua sola, cajas de bigotes cuando se cruza variable continua con categórica, gráficas de dispersión cuando cruzo continua con categórica en posición inversa, y diagramas de mosaico o barras apiladas cuando cruzo dos categóricas.

En cuanto al color, he escogido el color verde, el cual representa al grupo SIN tuberculosis y el color morado al grupo CON tuberculosis, y los uso de manera consistente en toda la gráfica porque estoy realizando una comparación bivariada entre dos grupos.

Considero pertinente recorrer la matriz por celdas destacadas para extraer su información clínica:

1.Celda diagonal superior izquierda (Valor_continuo en ambos ejes): es una gráfica de densidad superpuesta que muestra cómo se distribuye el biomarcador en cada grupo, se observa dos curvas con picos claramente desplazados, donde la curva verde alcanza su máxima densidad alrededor de 50 unidades, mientras que la curva morada lo hace cerca de 70 unidades.

La diferencia entre ambos picos es de aproximadamente 20 unidades, lo cual confirma visualmente la separación de medianas que ya había calculado (21,20 unidades), no obstante, ambas curvas se solapan en el rango intermedio entre 50 y 65 unidades, dibujando esa zona violeta oscura donde verde y morado se mezclan, la zona crítica del dilema diagnóstico que clínicamente corresponde a los pacientes en quienes el biomarcador no decide por sí solo.

En cuanto a las celdas inferiores de la primera columna (dispersión Valor_continuo frente a categóricas), son gráficas de dispersión por grupo, donde cada punto representa un paciente, observandose que los puntos morados se ubican preferentemente a la derecha de los verdes en ambas celdas, lo cual reafirma que los pacientes con tuberculosis tienen valores más altos del biomarcador.

Considero que estas dispersiones aportan algo que las densidades no me muestran, como es la distribución individual de los 300 pacientes, lo cual permite identificar visualmente la cantidad y dispersión real de los casos.

En las celdas superiores de las columnas centrales y derecha (cajas de bigotes), estos diagramas de caja por grupo, cruzan el valor continuo con cada variable dicotómica, observándose que, en la columna de TB_confirmada las cajas morada y verde están claramente separadas verticalmente, sin que se toquen entre sí, lo cual es estadísticamente una señal fuerte de discriminación.

Si recupero los valores exactos de la tabla de descriptivos por grupo que calculé previamente, confirmo que la mediana del grupo con tuberculosis es de 70,40 y la mediana del grupo sin tuberculosis es de 49,20, con una diferencia de 70,40 − 49,20 = 21,20 unidades, lo cual sustenta numéricamente lo que la gráfica me sugiere visualmente.

En la columna de Prueba_binaria observo también separación, aunque algo menos limpia, porque la prueba dicotómica comete errores que la prueba continua no comete, pues hay cajas verdes en Positiva (futuros falsos positivos) y cajas moradas en Negativa (futuros falsos negativos).

En la columna de Prueba_binaria observo también separación, aunque algo menos limpia, porque la prueba dicotómica comete errores que la prueba continua no comete, pues hay cajas verdes en Positiva (futuros falsos positivos) y cajas moradas en Negativa (futuros falsos negativos).

En cuanto a la celda intersección de TB_confirmada con Prueba_binaria (segundo renglón, tercera columna), esta es una gráfica de barras apiladas que ya anticipa el contenido de la futura tabla de dos por dos,pues se observa que entre los pacientes con resultado de prueba Negativa predomina ampliamente el color verde (sanos correctamente clasificados, los verdaderos negativos), pero existe una fracción morada visible que corresponde a los falsos negativos, es decir, enfermos no detectados.

Por su parte, entre los de prueba Positiva predomina el color morado (verdaderos positivos), pero también hay una fracción verde correspondiente a los falsos positivos.

Desde la perspectiva clínica, esta matriz integra en una sola figura los tres niveles de información que sustentan el resto del análisis,con la distribución univariada del biomarcador, su relación bivariada con el diagnóstico confirmado y con la prueba dicotómica, y la concordancia multivariada entre prueba evaluada y patrón de oro.

Por lo que observo, es que las tres variables convergen en la misma dirección esperada, es decir, valores altos del biomarcador se asocian tanto con prueba positiva como con tuberculosis confirmada, lo cual da consistencia interna a la base y confirma que ambos resultados (la prueba dicotómica y la continua) están midiendo el mismo fenómeno subyacente.

Considero que este patrón es coherente con lo que reportan Saktiawati y colaboradores (2019), quienes describieron que en las clínicas neumológicas las pruebas rutinarias para tuberculosis mostraron convergencia entre indicadores clínicos, microbiológicos y radiológicos, aunque ninguno alcanzó por sí solo la separación perfecta entre enfermos y sanos.

De modo que la zona de solapamiento que identifico visualmente en mi pair plot es la manifestación gráfica del 4,4% de diagnósticos incorrectos que aquellos autores documentaron, lo cual sustenta la necesidad de la combinación de criterios y de la cuantificación detallada del desempeño que abordaré en adelante.

A partir del recorrido exploratorio anterior, considero pertinente sintetizar los hallazgos con los que sustentaré las decisiones analíticas siguientes:

1.Integridad y composición de la base. La cohorte está conformada por 300 pacientes sin valores faltantes en ninguna de las 4 variables, lo cual me permite trabajar con la totalidad de los registros sin necesidad de imputación ni de exclusiones.

La prevalencia de tuberculosis confirmada es del 37% (calculada como 111 / 300 = 0,37), una cifra alta y coherente con el contexto de una clínica neumológica especializada como la descrita por Saktiawati y colaboradores (2019), donde la prevalencia fue del 41% (140 / 339 = 0,413).

2.Comportamiento del biomarcador continuo. La variable continua se distribuye de manera aproximadamente simétrica con ligera asimetría positiva, con media de 57,74, mediana de 56,00 y desviación estándar de 13,72.

La aplicación de la regla de Tukey identificó un único valor extremo (paciente con biomarcador igual a 99,20, perteneciente al grupo con tuberculosis), que conservaré en el análisis por su validez clínica y porque representa apenas el 0,33% de la base.

3.Capacidad discriminativa preliminar. Al desagregar la variable continua por grupo del patrón de oro, identifico una diferencia de 21,20 unidades entre medianas (70,40 en enfermos frente a 49,20 en sanos), con una zona de solapamiento aproximada entre 50 y 65 unidades, por lo cual, esta señal es estadísticamente fuerte y sustenta la hipótesis de que la prueba sí discrimina, aunque con errores en la zona de superposición.

4.Concordancia agregada entre prueba y patrón de oro. La proporción de positivos de la prueba (35%, calculada como 105 / 300) es muy cercana a la prevalencia real (37%, calculada como 111 / 300), con una diferencia de apenas 2 puntos porcentuales, no obstante, esta concordancia agregada puede ocultar errores compensatorios que solo cuantificaré rigurosamente al construir la tabla de 2X2.

5.Consistencia multivariada. El pair plot confirmó que las 3 variables analíticas convergen en la misma dirección esperada, con valores altos del biomarcador, que se asocian tanto con prueba positiva como con tuberculosis confirmada, lo cual da consistencia interna a la base y respalda que ambas versiones de la prueba (dicotómica y continua) miden el mismo fenómeno subyacente.

Por tanto, considero que la exploración me deja ahora en condiciones óptimas para avanzar al plan de análisis formal, donde construiré la tabla de 2 X2 y calcularé paso a paso cada característica de desempeño diagnóstico.

La zona de solapamiento detectada en el biomarcador anticipa que la prueba cometerá errores en ambas direcciones, lo cual hace indispensable cuantificar la sensibilidad, la especificidad, los valores predictivos y las razones de verosimilitud, con el fin de comprender la magnitud real de esos errores y su implicación clínica.

Considero pertinente aclarar que la zona de solapamiento que identifico en la distribución de la variable continua no es exactamente lo mismo que la zona de incertidumbre clínica descrita por Ruiz Morales en el capítulo 10 sobre el uso de pruebas diagnósticas, pues el solapamiento es una propiedad estadística observable de la prueba, que aparece cuando las distribuciones de enfermos y sanos comparten un rango de valores; en cambio, la incertidumbre clínica es un estado decisional del médico, que se ubica en la franja intermedia de probabilidad de enfermedad donde ni la ausencia ni la presencia están claras.

La relación entre ambos conceptos es que el solapamiento de la prueba contribuye a generar incertidumbre clínica, pero la incertidumbre también puede surgir de otros factores como los antecedentes del paciente, los factores de riesgo o la prevalencia local, por tanto, mantendré ambos términos diferenciados a lo largo del análisis.

La tabla de 2 X 2 como mi punto de partida

Antes de calcular cualquier característica, debo construir la tabla de dos por dos (2X2), también llamada tabla tetracórica o matriz de confusión, que cruza dos variables dicotómicas, el resultado de la prueba evaluada (filas) y el diagnóstico confirmado por el patrón de oro (columnas).

Esta tabla es el corazón estadístico de toda la evaluación de pruebas diagnósticas, pues a partir de sus 4 casillas se derivan las 4 características de desempeño que voy a calcular.

Las 4 casillas corresponden a las 4 situaciones diagnósticas posibles,identificadas con las letras a, b, c, d siguiendo la convención internacional descrita en el capítulo 1 de Bruce, Bruce y Gedeck (2022) para tablas de contingencia bivariadas:

Casilla a, verdaderos positivos: Pacientes con tuberculosis confirmada cuya prueba dio positiva, corresponde a los aciertos en el grupo de enfermos.
Casilla b, falsos positivos: Pacientes sin tuberculosis cuya prueba dio positiva, que son las falsas alarmas, es decir, sanos clasificados erróneamente como enfermos.
Casilla c, falsos negativos. Pacientes con tuberculosis confirmada cuya prueba dio negativa, corresponde a los enfermos que la prueba dejó escapar.
Casilla d, verdaderos negativos: Pacientes sin tuberculosis cuya prueba dio negativa, y que son los aciertos en el grupo de sanos.

Adicionalmente, los totales marginales tienen significado epidemiológico, así:

a + c representa el total de enfermos según el patrón de oro, b + d representa el total de sanos a + b representa el total de pruebas positivas c + d representa el total de pruebas negativas y a + b + c + d corresponde al total de la cohorte (N = 300).

plan_analisis <- data.frame(
  Caracteristica = c(
    "Sensibilidad",
    "Especificidad",
    "Valor predictivo positivo",
    "Valor predictivo negativo",
    "Razón de verosimilitud positiva",
    "Razón de verosimilitud negativa"
  ),
  Definicion = c(
    "Probabilidad de que la prueba dé positiva en una persona realmente enferma",
    "Probabilidad de que la prueba dé negativa en una persona realmente sana",
    "Probabilidad de estar enfermo dado un resultado positivo en la prueba",
    "Probabilidad de estar sano dado un resultado negativo en la prueba",
    "Cuántas veces más probable es un resultado positivo en enfermos que en sanos",
    "Cuántas veces más probable es un resultado negativo en enfermos que en sanos"
  ),
  Formula_letras = c(
    "Sensibilidad = a / (a + c)",
    "Especificidad = d / (b + d)",
    "VPP = a / (a + b)",
    "VPN = d / (c + d)",
    "LR+ = Sensibilidad / (1 − Especificidad)",
    "LR− = (1 − Sensibilidad) / Especificidad"
  ),
  Formula_palabras = c(
    "Verdaderos positivos / (Verdaderos positivos + Falsos negativos)",
    "Verdaderos negativos / (Verdaderos negativos + Falsos positivos)",
    "Verdaderos positivos / (Verdaderos positivos + Falsos positivos)",
    "Verdaderos negativos / (Verdaderos negativos + Falsos negativos)",
    "Sensibilidad dividida por la tasa de falsos positivos",
    "Tasa de falsos negativos dividida por la especificidad"
  ),
  Pregunta_clinica = c(
    "¿Qué tan bien detecta la prueba a los enfermos?",
    "¿Qué tan bien identifica la prueba a los sanos?",
    "Ante un resultado positivo, ¿qué tan probable es que el paciente esté realmente enfermo?",
    "Ante un resultado negativo, ¿qué tan probable es que el paciente esté realmente sano?",
    "¿Cuánto aumenta la probabilidad de enfermedad un resultado positivo?",
    "¿Cuánto disminuye la probabilidad de enfermedad un resultado negativo?"
  ),
  stringsAsFactors = FALSE
)

colnames(plan_analisis) <- c(
  "Característica",
  "Definición conceptual",
  "Fórmula con letras",
  "Fórmula con nombres completos",
  "Pregunta clínica que responde"
)

plan_analisis %>%
  kbl(align = c("l", "l", "l", "l", "l"),
      caption = "Plan de análisis y características de desempeño diagnóstico que evaluaré") %>%
  kable_styling(
    bootstrap_options = c("striped", "hover", "condensed"),
    full_width = TRUE, position = "center", font_size = 12
  ) %>%
  add_header_above(
    c("Identificación" = 2,
      "Notación matemática" = 2,
      "Interpretación clínica" = 1),
    background = "#4A235A", color = "white"
  ) %>%
  column_spec(1, bold = TRUE, background = "#EEEDFE", width = "3.5cm") %>%
  column_spec(2, background = "#E6F1FB", width = "5cm") %>%
  column_spec(3, background = "#E1F5EE", width = "4cm") %>%
  column_spec(4, background = "#FAEEDA", width = "5cm") %>%
  column_spec(5, bold = TRUE, background = "#FBEAF0", width = "5cm") %>%
  pack_rows("Características operativas (no dependen de la prevalencia)", 1, 2,
            label_row_css = "background-color: #7B1FA2; color: white;") %>%
  pack_rows("Valores predictivos (sí dependen de la prevalencia)", 3, 4,
            label_row_css = "background-color: #7B1FA2; color: white;") %>%
  pack_rows("Razones de verosimilitud (combinan sensibilidad y especificidad)", 5, 6,
            label_row_css = "background-color: #7B1FA2; color: white;") %>%
  footnote(
    general = "Fuente: elaboración propia.",
    general_title = "",
    footnote_as_chunk = TRUE
  )

Plan de análisis y características de desempeño diagnóstico que evaluaré
Identificación		Notación matemática		Interpretación clínica
Característica	Definición conceptual	Fórmula con letras	Fórmula con nombres completos	Pregunta clínica que responde
Características operativas (no dependen de la prevalencia)
Sensibilidad	Probabilidad de que la prueba dé positiva en una persona realmente enferma	Sensibilidad = a / (a + c)	Verdaderos positivos / (Verdaderos positivos + Falsos negativos)	¿Qué tan bien detecta la prueba a los enfermos?
Especificidad	Probabilidad de que la prueba dé negativa en una persona realmente sana	Especificidad = d / (b + d)	Verdaderos negativos / (Verdaderos negativos + Falsos positivos)	¿Qué tan bien identifica la prueba a los sanos?
Valores predictivos (sí dependen de la prevalencia)
Valor predictivo positivo	Probabilidad de estar enfermo dado un resultado positivo en la prueba	VPP = a / (a + b)	Verdaderos positivos / (Verdaderos positivos + Falsos positivos)	Ante un resultado positivo, ¿qué tan probable es que el paciente esté realmente enfermo?
Valor predictivo negativo	Probabilidad de estar sano dado un resultado negativo en la prueba	VPN = d / (c + d)	Verdaderos negativos / (Verdaderos negativos + Falsos negativos)	Ante un resultado negativo, ¿qué tan probable es que el paciente esté realmente sano?
Razones de verosimilitud (combinan sensibilidad y especificidad)
Razón de verosimilitud positiva	Cuántas veces más probable es un resultado positivo en enfermos que en sanos	LR+ = Sensibilidad / (1 − Especificidad)	Sensibilidad dividida por la tasa de falsos positivos	¿Cuánto aumenta la probabilidad de enfermedad un resultado positivo?
Razón de verosimilitud negativa	Cuántas veces más probable es un resultado negativo en enfermos que en sanos	LR− = (1 − Sensibilidad) / Especificidad	Tasa de falsos negativos dividida por la especificidad	¿Cuánto disminuye la probabilidad de enfermedad un resultado negativo?
Fuente: elaboración propia.

Análisis: Considero importante destacar que la tabla la organicé en tres bloques conceptuales que me ayudan a interpretar correctamente el desempeño diagnóstico de la prueba.

-En primer lugar, la sensibilidad y la especificidad corresponden a las características operativas de la prueba. Estas medidas no dependen directamente de la prevalencia de la enfermedad, por lo que permiten comparar el rendimiento diagnóstico entre diferentes estudios, siempre que se mantengan condiciones metodológicas similares, especialmente el mismo patrón de referencia y poblaciones comparables.

-En segundo lugar, los valores predictivos positivo y negativo sí dependen de la prevalencia, porque responden a una pregunta más clínica, que corresponde a que si tengo un resultado positivo o negativo, ¿cuál es la probabilidad real de que el paciente tenga o no la enfermedad?.

Por eso, en una cohorte con prevalencia del 37%, estos valores pueden ser muy diferentes a los observados en un escenario de tamizaje poblacional, donde una baja prevalencia puede reducir de forma importante el valor predictivo positivo, incluso si la prueba tiene buena sensibilidad.

-En tercer lugar, las razones de verosimilitud integran sensibilidad y especificidad y permiten estimar cuánto cambia la probabilidad preprueba después de conocer el resultado; por esta razón, son especialmente útiles en la toma de decisiones clínicas, ya que ayudan a actualizar la sospecha diagnóstica inicial.

En términos generales, una razón de verosimilitud positiva mayor de 10 aporta evidencia fuerte para confirmar la enfermedad, mientras que una razón de verosimilitud negativa menor de 0,1 aporta evidencia fuerte para descartarla.

Desde la perspectiva clínica, esta organización refleja el razonamiento médico habitual, pues primero se reconocen las propiedades de la prueba, luego se interpretan sus resultados en función de la prevalencia del contexto y, finalmente, se ajusta la probabilidad diagnóstica según el resultado obtenido.

Por tanto, estas seis medidas no son redundantes, sino complementarias, porque cada una responde a una pregunta clínica distinta y juntas permiten comprender de manera integral el desempeño diagnóstico.

a <- sum(datos$Resultado_prueba_binaria == 1 & datos$TB_confirmada == 1)
b <- sum(datos$Resultado_prueba_binaria == 1 & datos$TB_confirmada == 0)
c <- sum(datos$Resultado_prueba_binaria == 0 & datos$TB_confirmada == 1)
d <- sum(datos$Resultado_prueba_binaria == 0 & datos$TB_confirmada == 0)

n_total <- a + b + c + d
total_enfermos <- a + c
total_sanos <- b + d
total_positivos <- a + b
total_negativos <- c + d

cat("Casilla a (Verdaderos positivos):", a, "\n")

## Casilla a (Verdaderos positivos): 86

cat("Casilla b (Falsos positivos):    ", b, "\n")

## Casilla b (Falsos positivos):     19

cat("Casilla c (Falsos negativos):    ", c, "\n")

## Casilla c (Falsos negativos):     25

cat("Casilla d (Verdaderos negativos):", d, "\n")

## Casilla d (Verdaderos negativos): 170

cat("Total de la cohorte:             ", n_total, "\n")

## Total de la cohorte:              300

tabla_2x2 <- data.frame(
  Resultado_prueba = c("Prueba positiva (1)",
                       "Prueba negativa (0)",
                       "Total columna"),
  Con_TB = c(a, c, total_enfermos),
  Sin_TB = c(b, d, total_sanos),
  Total_fila = c(total_positivos, total_negativos, n_total)
)

colnames(tabla_2x2) <- c(
  "Resultado de la prueba",
  "Con tuberculosis (TB+)",
  "Sin tuberculosis (TB−)",
  "Total fila"
)

tabla_2x2 %>%
  kbl(align = c("l", "c", "c", "c"),
      caption = "Tabla de 2 X 2: prueba binaria frente al patrón de oro en los 300 pacientes") %>%
  kable_styling(
    bootstrap_options = c("striped", "hover", "condensed"),
    full_width = TRUE, position = "center"
  ) %>%
  add_header_above(
    c(" " = 1, "Patrón de oro (TB_confirmada)" = 2, " " = 1),
    background = "#4A235A", color = "white"
  ) %>%
  column_spec(1, bold = TRUE, background = "#EEEDFE", width = "5cm") %>%
  column_spec(2, background = "#F3E5F5") %>%
  column_spec(3, background = "#E1F5EE") %>%
  column_spec(4, bold = TRUE, background = "#FAEEDA") %>%
  row_spec(3, bold = TRUE, background = "#FBEAF0") %>%
  footnote(
    general = "Fuente: elaboración propia. Casillas: a=86 verdaderos positivos; b=19 falsos positivos; c=25 falsos negativos; d=170 verdaderos negativos.",
    general_title = "",
    footnote_as_chunk = TRUE
  )

Tabla de 2 X 2: prueba binaria frente al patrón de oro en los 300 pacientes
	Patrón de oro (TB_confirmada)
Resultado de la prueba	Con tuberculosis (TB+)	Sin tuberculosis (TB−)	Total fila
Prueba positiva (1)	86	19	105
Prueba negativa (0)	25	170	195
Total columna	111	189	300
Fuente: elaboración propia. Casillas: a=86 verdaderos positivos; b=19 falsos positivos; c=25 falsos negativos; d=170 verdaderos negativos.

Análisis: La tabla anterior es la base de todos los cálculos posteriores, pues a partir de sus 4 casillas internas y de sus totales marginales se derivan las 6 características de desempeño diagnóstico.

A. Considero pertinente leer la tabla en dos direcciones complementarias para que adquiera todo su significado clínico, pues enlas filas observo cómo se distribuye el patrón de oro dentro de cada resultado de la prueba**:

-entre los 105 pacientes con prueba positiva, 86 son realmente enfermos y 19 son sanos mal clasificados, lo cual significa que la prueba positiva acierta en 86 / 105 = 0,819 (81,9%) de los casos.

B. Por columnas observo cómo clasifica la prueba dentro de cada grupo del patrón de oro así:

entre los 111 pacientes realmente enfermos, 86 fueron detectados y 25 se escaparon, mientras que entre los 189 sanos, 170 fueron clasificados correctamente y 19 recibieron falsa alarma.

Se observa que las dos lecturas (por filas y por columnas) responden a preguntas clínicas distintas:

1)la lectura por filas (de la prueba hacia el paciente) corresponde a los valores predictivos, mientras que la lectura por columnas (del paciente real hacia la prueba) corresponde a las características operativas sensibilidad y especificidad.

Esta dualidad es justamente la que enriquece la evaluación de pruebas diagnósticas y la que voy a desarrollar matemáticamente a continuación.

#Cálculo paso a paso de las características de desempeño

sensibilidad <- a / (a + c)
especificidad <- d / (b + d)
vpp <- a / (a + b)
vpn <- d / (c + d)
lr_positiva <- sensibilidad / (1 - especificidad)
lr_negativa <- (1 - sensibilidad) / especificidad
prevalencia <- (a + c) / n_total

cat("Prevalencia:               ", round(prevalencia, 4),
    " (", round(prevalencia * 100, 2), "%)\n", sep = "")

## Prevalencia:               0.37 (37%)

cat("Sensibilidad:              ", round(sensibilidad, 4),
    " (", round(sensibilidad * 100, 2), "%)\n", sep = "")

## Sensibilidad:              0.7748 (77.48%)

cat("Especificidad:             ", round(especificidad, 4),
    " (", round(especificidad * 100, 2), "%)\n", sep = "")

## Especificidad:             0.8995 (89.95%)

cat("Valor predictivo positivo: ", round(vpp, 4),
    " (", round(vpp * 100, 2), "%)\n", sep = "")

## Valor predictivo positivo: 0.819 (81.9%)

cat("Valor predictivo negativo: ", round(vpn, 4),
    " (", round(vpn * 100, 2), "%)\n", sep = "")

## Valor predictivo negativo: 0.8718 (87.18%)

cat("Razón de verosimilitud +:  ", round(lr_positiva, 4), "\n", sep = "")

## Razón de verosimilitud +:  7.707

cat("Razón de verosimilitud −:  ", round(lr_negativa, 4), "\n", sep = "")

## Razón de verosimilitud −:  0.2504

tabla_ruiz <- data.frame(
  Resultado_prueba = c(
    "Positivo",
    "Negativo",
    "Total columna"
  ),
  Presente = c(
    paste0("a = Verdaderos positivos\n(n = ", a, ")"),
    paste0("c = Falsos negativos\n(n = ", c, ")"),
    paste0("a + c = ", total_enfermos, "\n(total enfermos)")
  ),
  Ausente = c(
    paste0("b = Falsos positivos\n(n = ", b, ")"),
    paste0("d = Verdaderos negativos\n(n = ", d, ")"),
    paste0("b + d = ", total_sanos, "\n(total sanos)")
  ),
  Total_fila = c(
    paste0("a + b = ", total_positivos, "\n(total positivos)"),
    paste0("c + d = ", total_negativos, "\n(total negativos)"),
    paste0("N = ", n_total, "\n(total cohorte)")
  ),
  stringsAsFactors = FALSE
)

colnames(tabla_ruiz) <- c(
  "Resultado de la prueba",
  "Presente (TB+)",
  "Ausente (TB−)",
  "Total fila"
)

tabla_ruiz %>%
  kbl(align = c("l", "c", "c", "c"),
      caption = "Tabla tetracórica con prueba binaria frente al patrón de oro en los 300 pacientes",
      escape = FALSE) %>%
  kable_styling(
    bootstrap_options = c("striped", "hover", "condensed", "bordered"),
    full_width = TRUE, position = "center", font_size = 12
  ) %>%
  add_header_above(
    c(" " = 1, "Condición de interés (TB_confirmada)" = 2, " " = 1),
    background = "pink", color = "black", font_size = 14
  ) %>%
  column_spec(1, bold = TRUE, background = "pink",
              color = "black", width = "4cm") %>%
  column_spec(2, background = "#F3E5F5", width = "5cm") %>%
  column_spec(3, background = "#E1F5EE", width = "5cm") %>%
  column_spec(4, bold = TRUE, background = "#FAEEDA", width = "4cm") %>%
  row_spec(1:2, extra_css = "vertical-align: middle; line-height: 1.6;") %>%
  row_spec(3, bold = TRUE, background = "#FBEAF0") %>%
  footnote(
    general = "Fuente: elaboración propia, siguiendo la estructura propuesta por Ruiz Morales en el capítulo 10. Las letras a, b, c, d corresponden a la convención internacional de tablas de contingencia bivariadas.",
    general_title = "",
    footnote_as_chunk = TRUE
  )

Tabla tetracórica con prueba binaria frente al patrón de oro en los 300 pacientes
	Condición de interés (TB_confirmada)
Resultado de la prueba	Presente (TB+)	Ausente (TB−)	Total fila
Positivo	a = Verdaderos positivos (n = 86)	b = Falsos positivos (n = 19)	a + b = 105 (total positivos)
Negativo	c = Falsos negativos (n = 25)	d = Verdaderos negativos (n = 170)	c + d = 195 (total negativos)
Total columna	a + c = 111 (total enfermos)	b + d = 189 (total sanos)	N = 300 (total cohorte)
Fuente: elaboración propia, siguiendo la estructura propuesta por Ruiz Morales en el capítulo 10. Las letras a, b, c, d corresponden a la convención internacional de tablas de contingencia bivariadas.

proceso <- data.frame(
  Medida = c(
    "Sensibilidad",
    "Especificidad",
    "Valor predictivo positivo",
    "Valor predictivo negativo",
    "Razón de verosimilitud positiva",
    "Razón de verosimilitud negativa"
  ),
  Formula_nombres = c(
    "VP / (VP + FN)",
    "VN / (VN + FP)",
    "VP / (VP + FP)",
    "VN / (VN + FN)",
    "Sensibilidad / (1 − Especificidad)",
    "(1 − Sensibilidad) / Especificidad"
  ),
  Formula_letras = c(
    "a / (a + c)",
    "d / (b + d)",
    "a / (a + b)",
    "d / (c + d)",
    "[a/(a+c)] / [b/(b+d)]",
    "[c/(a+c)] / [d/(b+d)]"
  ),
  Sustitucion = c(
    paste0(a, " / (", a, " + ", c, ")"),
    paste0(d, " / (", d, " + ", b, ")"),
    paste0(a, " / (", a, " + ", b, ")"),
    paste0(d, " / (", d, " + ", c, ")"),
    paste0(round(sensibilidad, 4), " / (1 − ", round(especificidad, 4), ")"),
    paste0("(1 − ", round(sensibilidad, 4), ") / ", round(especificidad, 4))
  ),
  Decimal = c(
    round(sensibilidad, 4),
    round(especificidad, 4),
    round(vpp, 4),
    round(vpn, 4),
    round(lr_positiva, 4),
    round(lr_negativa, 4)
  ),
  Porcentaje = c(
    paste0(round(sensibilidad * 100, 2), " %"),
    paste0(round(especificidad * 100, 2), " %"),
    paste0(round(vpp * 100, 2), " %"),
    paste0(round(vpn * 100, 2), " %"),
    "—",
    "—"
  ),
  stringsAsFactors = FALSE
)

colnames(proceso) <- c(
  "Medida de desempeño",
  "Fórmula",
  "Ubicación en la tabla 2×2",
  "Sustitución con los valores observados",
  "Resultado decimal",
  "Resultado en porcentaje"
)

proceso %>%
  kbl(align = c("l", "l", "l", "l", "c", "c"),
      caption = "Proceso estadístico de cada característica de desempeño diagnóstico") %>%
  kable_styling(
    bootstrap_options = c("striped", "hover", "condensed"),
    full_width = TRUE, position = "center", font_size = 11
  ) %>%
  add_header_above(
    c(" " = 1, "Notación estdística" = 2,
      "Desarrollo del cálculo" = 1, "Resultado final" = 2),
    background = "lightblue", color = "black"
  ) %>%
  column_spec(1, bold = TRUE, background = "#EEEDFE") %>%
  column_spec(2, background = "#E6F1FB") %>%
  column_spec(3, background = "#E1F5EE") %>%
  column_spec(4, background = "#FAEEDA") %>%
  column_spec(5, bold = TRUE, background = "#FBEAF0") %>%
  column_spec(6, bold = TRUE, background = "#FBEAF0") %>%
  pack_rows("Características operativas (no dependen de la prevalencia)", 1, 2,
            label_row_css = "background-color: #7B1FA2; color: white;") %>%
  pack_rows("Valores predictivos (sí dependen de la prevalencia)", 3, 4,
            label_row_css = "background-color: #7B1FA2; color: white;") %>%
  pack_rows("Razones de verosimilitud", 5, 6,
            label_row_css = "background-color: #7B1FA2; color: white;") %>%
  footnote(
    general = "Fuente: elaboración propia. Las razones de verosimilitud no las expreso en porcentaje porque son cocientes de probabilidades, no proporciones.",
    general_title = "",
    footnote_as_chunk = TRUE
  )

Proceso estadístico de cada característica de desempeño diagnóstico
	Notación estdística		Desarrollo del cálculo	Resultado final
Medida de desempeño	Fórmula	Ubicación en la tabla 2×2	Sustitución con los valores observados	Resultado decimal	Resultado en porcentaje
Características operativas (no dependen de la prevalencia)
Sensibilidad	VP / (VP + FN)	a / (a + c)	86 / (86 + 25)	0.7748	77.48 %
Especificidad	VN / (VN + FP)	d / (b + d)	170 / (170 + 19)	0.8995	89.95 %
Valores predictivos (sí dependen de la prevalencia)
Valor predictivo positivo	VP / (VP + FP)	a / (a + b)	86 / (86 + 19)	0.8190	81.9 %
Valor predictivo negativo	VN / (VN + FN)	d / (c + d)	170 / (170 + 25)	0.8718	87.18 %
Razones de verosimilitud
Razón de verosimilitud positiva	Sensibilidad / (1 − Especificidad)	[a/(a+c)] / [b/(b+d)]	0.7748 / (1 − 0.8995)	7.7070	—
Razón de verosimilitud negativa	(1 − Sensibilidad) / Especificidad	[c/(a+c)] / [d/(b+d)]	(1 − 0.7748) / 0.8995	0.2504	—
Fuente: elaboración propia. Las razones de verosimilitud no las expreso en porcentaje porque son cocientes de probabilidades, no proporciones.

Análisis: Considero que esta tabla es la pieza central del taller, pues muestra de manera transparente cómo cada cifra de desempeño emerge de un cálculo explícito basado en las 4 casillas de la tabla 2×2, por lo cual, voy a recorrer cada medida integrando en una sola lectura el proceso e interpretación estadística, y la implicación clínica, contrastando con el estudio de referencia de Saktiawati y colaboradores (2019).

-Sensibilidad = a / (a + c) = 86 / (86 + 25) = 86 / 111 = 0,7748 = 77,48%, esta cifra responde a la pregunta de qué tan bien detecta la prueba a los enfermos, calculándose dentro de la columna de los 111 pacientes con tuberculosis confirmada.

Significa que de cada 100 pacientes con la enfermedad, la prueba detecta correctamente a 77,48 y deja escapar a 22,52 como falsos negativos.

Estadísticamente es una sensibilidad moderadamente alta, aunque inferior a la reportada en Yogyakarta, que fue del 85% con cultivo como referencia y 90% con el estándar de referencia compuesto.

Clínicamente, este resultado significa que aproximadamente 1 de cada 4 enfermos no es detectado por la prueba dicotómica en su primera aplicación, lo cual es preocupante en una enfermedad transmisible como la tuberculosis, pues los falsos negativos pueden continuar la cadena de transmisión sin recibir tratamiento oportuno, tal como adviertieron Saktiawati y colaboradores cuando documentaron que el 4,4% de los diagnósticos iniciales debieron revisarse.

-Especificidad = d / (b + d) = 170 / (170 + 19) = 170 / 189 = 0,8995 = 89,95% , esta cifra responde a la pregunta de qué tan bien identifica la prueba a los sanos, calculándose dentro de la columna de los 189 pacientes sin tuberculosis.

Significa que de cada 100 personas sanas, la prueba clasifica correctamente como negativas a 89,95 y clasifica erróneamente como positivas a 10,05, lo cual estadísticamente es una especificidad alta, ligeramente superior a la sensibilidad.

Mi resultado del 89,95% se ubica dentro del rango reportado por Saktiawati, que fue del 86,3% con cultivo y 99,5% con el estándar compuesto, lo cual da consistencia a la simulación. Clínicamente, esta cifra significa que alrededor de 1 de cada 10 sanos recibirá un resultado positivo erróneo que requerirá pruebas confirmatorias adicionales, lo cual implica costos en salud y ansiedad en el paciente, aunque sin las consecuencias graves de un falso negativo.

-Valor predictivo positivo = a / (a + b) = 86 / (86 + 19) = 86 / 105 = 0,8190 = 81,90%. Esta cifra cambia la perspectiva de lectura, pues ya no parte de la verdad sino del resultado de la prueba, y se calcula dentro de la fila de los 105 pacientes con prueba positiva y responde a la pregunta que realmente nos interesa como clínicos cuando recibimos un positivo:

¿qué probabilidad hay de que este resultado refleje una enfermedad real? Mi resultado significa que de cada 100 pacientes con prueba positiva, aproximadamente 82 están realmente enfermos y 18 son falsas alarmas.

Por lo que observo, el VPP del 81,90% es comparable al reportado por Saktiawati (75,6% con cultivo y 99,2% con estándar compuesto), lo cual confirma que en contextos de alta prevalencia los valores predictivos positivos son favorables, principio que ya había anticipado en la introducción y que ahora queda cuantificado.

-Valor predictivo negativo = d / (c + d) = 170 / (170 + 25) = 170 / 195 = 0,8718 = 87,18%. Esta cifra se calcula dentro de la fila de los 195 pacientes con prueba negativa y responde a la pregunta complementaria:

¿qué probabilidad hay de que un resultado negativo refleje verdadera ausencia de enfermedad?

Significa que de cada 100 pacientes con prueba negativa, 87 están realmente sanos y 13 tienen tuberculosis no detectada, por lo cual, clínicamente, en mi cohorte con prevalencia del 37%, con este resultado negativo me permitiría tranquilizar al paciente con confianza, pero no con certeza absoluta, pues aún queda un 12,82% de probabilidad residual de tuberculosis ante un resultado negativo (calculada como 100% − 87,18% = 12,82%).

Por tanto, en pacientes con alta sospecha clínica, un resultado negativo aislado no debe llevar al abandono de la investigación diagnóstica, principio que justifica la recomendación de Saktiawati de combinar la prueba con la radiografía de tórax y la evaluación clínica.

-Razón de verosimilitud positiva = Sensibilidad / (1 − Especificidad) = 0,7748 / (1 − 0,8995) = 0,7748 / 0,1005 = 7,71. Esta cifra integra la sensibilidad y la especificidad en un solo índice que cuantifica cuánto modifica el resultado positivo la probabilidad pretest de enfermedad.

Significa que un resultado positivo es 7,71 veces más probable en un paciente con tuberculosis que en uno sano, y según los criterios convencionales propuestos por Jaeschke y colaboradores y adoptados por la medicina basada en evidencia, una razón de verosimilitud positiva entre 5 y 10 se considera de fuerza moderada para confirmar la enfermedad, mientras que valores superiores a 10 se consideran fuerte evidencia.

Clínicamente esto significa que cuando recibo un resultado positivo, mi sospecha pretest aumenta considerablemente, aunque no llega al umbral de evidencia contundente.

-Razón de verosimilitud negativa = (1 − Sensibilidad) / Especificidad = (1 − 0,7748) / 0,8995 = 0,2252 / 0,8995 = 0,25. Esta cifra es la simétrica de la anterior y cuantifica cuánto me disminuye la probabilidad de enfermedad un resultado negativo.

Significa que un resultado negativo es 4 veces menos probable en un paciente enfermo que en uno sano (calculado como 1 / 0,25 = 4), y según los criterios convencionales, una razón negativa entre 0,1 y 0,2 indica fuerte capacidad de descartar, mientras que valores entre 0,2 y 0,5 indican capacidad moderada.

Por lo que observo, el valor de 0,25 en mi cohorte refleja una capacidad moderada para descartar la enfermedad, no contundente, lo cual es coherente con la sensibilidad moderada del 77,48% que ya calculé.

Síntesis clínica integrada del desempeño: Considero que las 6 cifras calculadas dibujan un perfil consistente de la prueba evaluada en mi cohorte, pues se trata de una herramienta moderadamente sensible (77,48%) y bastante específica (89,95%), con valores predictivos aceptables en el contexto de alta prevalencia (81,90% para el positivo y 87,18% para el negativo) y razones de verosimilitud de fuerza moderada (7,71 para confirmar y 0,25 para descartar).

Su principal limitación es que deja escapar aproximadamente 1 de cada 4 enfermos, lo cual sustenta la recomendación central de Saktiawati y colaboradores (2019) de nunca evaluar la tuberculosis con una sola prueba aislada, sino combinar siempre la evaluación clínica, la microscopía de frotis de esputo y la radiografía de tórax, pues la complementariedad entre estas herramientas es la que finalmente permite alcanzar las sensibilidades del 85% al 90% y las especificidades del 99,5% que documentaron aquellos autores en las clínicas neumológicas de Indonesia.

3.6 Aplicación del teorema de Bayes mediante el nomograma de Fagan

Según Ruiz Morales, en el capítulo 10, las suertes, también llamadas odds en la literatura anglosajona, son otra forma de expresar una probabilidad.

En lugar de decir, por ejemplo, “80 de cada 100”, se puede expresar como “4 a favor por 1 en contra”, pñor lo cual, esta transformación permite pasar de una probabilidad clínica inicial a una forma matemática que facilita la aplicación del teorema de Bayes.

La conversión entre probabilidad y suertes se realiza mediante dos fórmulas complementarias:

\[ \text{Suertes} = \frac{\text{Probabilidad}}{1 - \text{Probabilidad}} \]

\[ \text{Probabilidad} = \frac{\text{Suertes}}{1 + \text{Suertes}} \]

El nomograma de Fagan, propuesto por Terrence J. Fagan en 1975, es una representación gráfica del teorema de Bayes aplicada al diagnóstico clínico, por tanto, su utilidad consiste en permitir que el médico actualice visualmente su sospecha diagnóstica después de conocer el resultado de una prueba.

Para ello, el gráfico relaciona tres elementos, como son,la probabilidad preprueba, la razón de verosimilitud y la probabilidad posprueba.

En el eje izquierdo se ubica la probabilidad preprueba, que corresponde a la sospecha clínica inicial o a la prevalencia esperada de la enfermedad, por otro lado, en el eje central se ubica la razón de verosimilitud, que representa cuánto aporta el resultado de la prueba, y finalmente, en el eje derecho se lee la probabilidad posprueba, es decir, la probabilidad actualizada de enfermedad después de conocer el resultado.

Por lo tanto, el nomograma de Fagan responde una pregunta central en la práctica clínica:

-¿Cómo cambia mi sospecha de que el paciente tenga la enfermedad después de conocer el resultado de la prueba?

Aunque Saktiawati y colaboradores no usaron explícitamente este nomograma, considero que el razonamiento clínico que plantearon alrededor del riesgo diagnóstico en contactos de tuberculosis, se basó en el mismo principio bayesiano, consistente en partir de una probabilidad inicial, incorporar la información de la prueba o del factor de riesgo, y actualizar la probabilidad final de enfermedad.

Antes de aplicar este razonamiento,considero que es necesario convertir la prevalencia o probabilidad preprueba a suertes, multiplicarla por la razón de verosimilitud correspondiente y luego transformar nuevamente esas suertes en probabilidad. El procedimiento completo se expresa así:

\[ \text{Suertes preprueba} = \frac{\text{Probabilidad preprueba}}{1 - \text{Probabilidad preprueba}} \]

\[ \text{Suertes posprueba} = \text{Suertes preprueba} \times \text{Razón de verosimilitud} \]

\[ \text{Probabilidad posprueba} = \frac{\text{Suertes posprueba}}{1 + \text{Suertes posprueba}} \]

Cuando el resultado de la prueba es positivo, se utiliza la razón de verosimilitud positiva:

\[ \text{Suertes posprueba positiva} = \text{Suertes preprueba} \times \text{RV positiva} \]

Cuando el resultado de la prueba es negativo, se utiliza la razón de verosimilitud negativa:

\[ \text{Suertes posprueba negativa} = \text{Suertes preprueba} \times \text{RV negativa} \]

En síntesis, el nomograma de Fagan me permite llevar el teorema de Bayes al terreno clínico de una manera práctica, pues primero parto de una sospecha inicial, luego se incorpora la fuerza diagnóstica de la prueba mediante la razón de verosimilitud, y finalmente obtengo una nueva probabilidad de enfermedad.

Esto refleja con mucha claridad el razonamiento médico real, pues no se interpreta una prueba de forma aislada, sino dentro de un contexto clínico y epidemiológico determinado.

prob_pretest <- prevalencia
suertes_pretest <- prob_pretest / (1 - prob_pretest)

suertes_postest_positivo <- suertes_pretest * lr_positiva
prob_postest_positivo <- suertes_postest_positivo / (1 + suertes_postest_positivo)

suertes_postest_negativo <- suertes_pretest * lr_negativa
prob_postest_negativo <- suertes_postest_negativo / (1 + suertes_postest_negativo)

cat("=== PROCESO BAYESIANO COMPLETO ===\n\n")

## === PROCESO BAYESIANO COMPLETO ===

cat("Paso 1. Probabilidad pretest:           ", round(prob_pretest, 4),
    " (", round(prob_pretest * 100, 2), "%)\n", sep = "")

## Paso 1. Probabilidad pretest:           0.37 (37%)

cat("Paso 2. Suertes pretest:                ", round(suertes_pretest, 4), "\n", sep = "")

## Paso 2. Suertes pretest:                0.5873

cat("Paso 3a. LR+:                            ", round(lr_positiva, 4), "\n", sep = "")

## Paso 3a. LR+:                            7.707

cat("Paso 4a. Suertes postest (positivo):    ", round(suertes_postest_positivo, 4), "\n", sep = "")

## Paso 4a. Suertes postest (positivo):    4.5263

cat("Paso 5a. Probabilidad postest (positivo):",
    round(prob_postest_positivo, 4), " (",
    round(prob_postest_positivo * 100, 2), "%)\n\n", sep = "")

## Paso 5a. Probabilidad postest (positivo):0.819 (81.9%)

cat("Paso 3b. LR−:                            ", round(lr_negativa, 4), "\n", sep = "")

## Paso 3b. LR−:                            0.2504

cat("Paso 4b. Suertes postest (negativo):    ", round(suertes_postest_negativo, 4), "\n", sep = "")

## Paso 4b. Suertes postest (negativo):    0.1471

cat("Paso 5b. Probabilidad postest (negativo):",
    round(prob_postest_negativo, 4), " (",
    round(prob_postest_negativo * 100, 2), "%)\n", sep = "")

## Paso 5b. Probabilidad postest (negativo):0.1282 (12.82%)

bayes <- data.frame(
  Paso = c(
    "1. Probabilidad pretest",
    "2. Conversión a suertes pretest",
    "3a. Razón de verosimilitud positiva (LR+)",
    "4a. Suertes postest tras prueba positiva",
    "5a. Conversión a probabilidad postest tras positivo",
    "3b. Razón de verosimilitud negativa (LR−)",
    "4b. Suertes postest tras prueba negativa",
    "5b. Conversión a probabilidad postest tras negativo"
  ),
  Formula = c(
    "Prevalencia de la cohorte",
    "Suertes = P / (1 − P)",
    "Calculada previamente",
    "Suertes postest = Suertes pretest × LR+",
    "Probabilidad = Suertes / (1 + Suertes)",
    "Calculada previamente",
    "Suertes postest = Suertes pretest × LR−",
    "Probabilidad = Suertes / (1 + Suertes)"
  ),
  Sustitucion = c(
    paste0(a + c, " / ", n_total),
    paste0(round(prob_pretest, 4), " / (1 − ", round(prob_pretest, 4), ")"),
    "Sensibilidad / (1 − Especificidad)",
    paste0(round(suertes_pretest, 4), " × ", round(lr_positiva, 4)),
    paste0(round(suertes_postest_positivo, 4),
           " / (1 + ", round(suertes_postest_positivo, 4), ")"),
    "(1 − Sensibilidad) / Especificidad",
    paste0(round(suertes_pretest, 4), " × ", round(lr_negativa, 4)),
    paste0(round(suertes_postest_negativo, 4),
           " / (1 + ", round(suertes_postest_negativo, 4), ")")
  ),
  Resultado = c(
    paste0(round(prob_pretest, 4), " (", round(prob_pretest * 100, 2), "%)"),
    round(suertes_pretest, 4),
    round(lr_positiva, 4),
    round(suertes_postest_positivo, 4),
    paste0(round(prob_postest_positivo, 4), " (",
           round(prob_postest_positivo * 100, 2), "%)"),
    round(lr_negativa, 4),
    round(suertes_postest_negativo, 4),
    paste0(round(prob_postest_negativo, 4), " (",
           round(prob_postest_negativo * 100, 2), "%)")
  ),
  stringsAsFactors = FALSE
)

colnames(bayes) <- c(
  "Paso del razonamiento bayesiano",
  "Fórmula aplicada",
  "Sustitución con valores observados",
  "Resultado"
)

bayes %>%
  kbl(align = c("l", "l", "l", "c"),
      caption = "Aplicación del teorema de Bayes paso a paso, con la conversión entre probabilidades y suertes en mi cohorte de 300 pacientes") %>%
  kable_styling(
    bootstrap_options = c("striped", "hover", "condensed"),
    full_width = TRUE, position = "center", font_size = 11
  ) %>%
  add_header_above(
    c(" " = 1, "Desarrollo del cálculo" = 2, "Resultado" = 1),
    background = "pink", color = "black"
  ) %>%
  column_spec(1, bold = TRUE, background = "#EEEDFE", width = "5cm") %>%
  column_spec(2, background = "#E6F1FB", width = "5cm") %>%
  column_spec(3, background = "#E1F5EE", width = "5cm") %>%
  column_spec(4, bold = TRUE, background = "#FBEAF0", width = "3cm") %>%
  pack_rows("Razonamiento ante un resultado POSITIVO", 1, 5,
            label_row_css = "background-color: #7B1FA2; color: white;") %>%
  pack_rows("Razonamiento ante un resultado NEGATIVO (reutilizo los pasos 1 y 2)", 6, 8,
            label_row_css = "background-color: #7B1FA2; color: white;") %>%
  footnote(
    general = "Fuente: elaboración propia.",
    general_title = "",
    footnote_as_chunk = TRUE
  )

Aplicación del teorema de Bayes paso a paso, con la conversión entre probabilidades y suertes en mi cohorte de 300 pacientes
	Desarrollo del cálculo		Resultado
Paso del razonamiento bayesiano	Fórmula aplicada	Sustitución con valores observados	Resultado
Razonamiento ante un resultado POSITIVO
Probabilidad pretest	Prevalencia de la cohorte	111 / 300	0.37 (37%)
Conversión a suertes pretest	Suertes = P / (1 − P)	0.37 / (1 − 0.37)	0.5873
3a. Razón de verosimilitud positiva (LR+)	Calculada previamente	Sensibilidad / (1 − Especificidad)	7.707
4a. Suertes postest tras prueba positiva	Suertes postest = Suertes pretest × LR+	0.5873 × 7.707	4.5263
5a. Conversión a probabilidad postest tras positivo	Probabilidad = Suertes / (1 + Suertes)	4.5263 / (1 + 4.5263)	0.819 (81.9%)
Razonamiento ante un resultado NEGATIVO (reutilizo los pasos 1 y 2)
3b. Razón de verosimilitud negativa (LR−)	Calculada previamente	(1 − Sensibilidad) / Especificidad	0.2504
4b. Suertes postest tras prueba negativa	Suertes postest = Suertes pretest × LR−	0.5873 × 0.2504	0.1471
5b. Conversión a probabilidad postest tras negativo	Probabilidad = Suertes / (1 + Suertes)	0.1471 / (1 + 0.1471)	0.1282 (12.82%)
Fuente: elaboración propia.

Análisis: Considero indispensable explicar la lógica del razonamiento bayesiano que subyace a esta tabla, pues representa la traducción matemática de cómo debo razonar clínicamente ante un resultado de prueba.

Inicio con la probabilidad pretest del 37%, que en mi cohorte equivale a la prevalencia de tuberculosis (calculada como 111 / 300 = 0,37), esto estadísticamente,representa la probabilidad inicial de que un paciente cualquiera de la clínica neumológica tenga tuberculosis, antes de aplicar la prueba.

Clínicamente, es la sospecha clínica de base que se tiene ante un paciente que consulta con síntomas sugestivos, por lo cual, convierto esta probabilidad a suertes pretest aplicando la fórmula 0,37 / (1 − 0,37) = 0,37 / 0,63 = 0,587.

Estas suertes en lenguaje clínico, pues son una forma alternativa de expresar la misma probabilidad pero como una razón de enfermos a sanos, por consiguiente, las suertes de 0,587 significan que por cada 1 paciente sano hay 0,587 pacientes enfermos, lo cual también puedo expresar como 5,87 enfermos por cada 10 sanos.

Para verificar que esta razón es coherente con mi prevalencia del 37%, retomo los datos de la cohorte, donde tengo 111 enfermos y 189 sanos, de modo que la razón enfermos sobre sanos es 111 / 189 = 0,587, idéntica a las suertes calculadas.

Por lo cual confirmo que probabilidad y suertes son dos formas distintas de decir lo mismo, simplemente cambia la pregunta:

-la probabilidad responde “de cada 100 pacientes, ¿cuántos están enfermos?” (37), mientras que las suertes responden “por cada paciente sano, ¿cuántos enfermos hay?” (0,587).

Ahora aplico el razonamiento bayesiano completo en dos escenarios diferenciados:

-Escenario 1: el paciente tiene un resultado positivo en la prueba, por lo cual, multiplico mis suertes pretest por la razón de verosimilitud positiva, que es la que aumenta la sospecha:

Suertes postest = Suertes pretest × LR+ = 0,587 × 7,71 = 4,53.

Esta nueva cifra significa que **después de conocer el resultado positivo, por cada 1 sano ahora hay 4,53 enfermos, es decir, las suertes se multiplicaron casi por 8 respecto a las pretest.

-En lenguaaje de probabilidades, aplico la fórmula inversa:

Probabilidad = Suertes / (1 + Suertes) = 4,53 / 5,53 = 0,819 = 81,9%.

Por lo cual, ante un resultado positivo, mi sospecha clínica sube del 37% al 81,9%, un incremento de 44,9 puntos porcentuales (calculado como 81,9% − 37% = 44,9%), esto clínicamente,con este salto, se justifica iniciar el protocolo confirmatorio y considerar el tratamiento empírico mientras llegan los resultados del cultivo.

Escenario 2: el paciente tiene un resultado negativo en la prueba; entonces multiplico las mismas suertes pretest, pero ahora por la razón de verosimilitud negativa, que es la que disminuye la sospecha:

Suertes postest = Suertes pretest × LR− = 0,587 × 0,25 = 0,147.

Esta cifra significa que después del resultado negativo, por cada 1 sano hay solo 0,147 enfermos, es decir, las suertes se redujeron a aproximadamente una cuarta parte.

Convertida a probabilidad: 0,147 / (1 + 0,147) = 0,147 / 1,147 = 0,128 = 12,8%.

Por lo cual, ante un resultado negativo, mi sospecha desciende del 37% al 12,8%, una reducción de 24,2 puntos porcentuales (calculada como 37% − 12,8% = 24,2%).

Clínicamente, esto permite tranquilizar al paciente, aunque no descartar definitivamente la enfermedad, pues persiste una probabilidad residual del 12,8% que en una enfermedad transmisible como la tuberculosis no es despreciable.

Por lo que observo en la tabla anterior, las dos probabilidades postest que acabo de calcular coinciden con los valores predictivos que ya había obtenido directamente de la tabla 2×2:

Probabilidad postest tras positivo (81,9%) ≈ Valor predictivo positivo (81,9%).

Probabilidad postest tras negativo (12,8%) ≈ Probabilidad residual tras negativo, que es el complemento del VPN: 100% − 87,18% = 12,82%.

Esta coincidencia no es casualidad sino una propiedad matemática del teorema de Bayes, pues cuando la probabilidad pretest equivale a la prevalencia de la cohorte, las probabilidades postest derivadas del cálculo bayesiano son numéricamente iguales a los valores predictivos calculados directamente de la tabla 2×2, por lo cual, el razonamiento bayesiano y el cálculo directo de los valores predictivos son dos caminos distintos que llegan al mismo destino, lo cual valida internamente la coherencia de todo mi análisis.

nomograma de Fagan

prob_pre_pct <- prob_pretest * 100
prob_post_pos_pct <- prob_postest_positivo * 100
prob_post_neg_pct <- prob_postest_negativo * 100

probs_eje <- c(0.1, 0.2, 0.5, 1, 2, 5, 10, 20, 30, 40, 50,
                60, 70, 80, 90, 95, 99)
y_probs_pretest <- -log(probs_eje / (100 - probs_eje))
y_probs_postest <- log(probs_eje / (100 - probs_eje))

lrs_eje <- c(0.001, 0.002, 0.005, 0.01, 0.02, 0.05, 0.1, 0.2, 0.5,
              1, 2, 5, 10, 20, 50, 100, 200, 500, 1000)

y_pretest <- -log(prob_pre_pct / (100 - prob_pre_pct))
y_postest_pos <- log(prob_post_pos_pct / (100 - prob_post_pos_pct))
y_postest_neg <- log(prob_post_neg_pct / (100 - prob_post_neg_pct))

y_lr_pos <- (y_pretest + y_postest_pos) / 2
y_lr_neg <- (y_pretest + y_postest_neg) / 2

y_lrs_marcas <- log(lrs_eje) / 2

par(mar = c(5, 5, 5, 5), bg = "white", xpd = FALSE)
plot(NA, xlim = c(-0.5, 3.5), ylim = c(-5.5, 5.5),
     xaxt = "n", yaxt = "n", xlab = "", ylab = "",
     bty = "n",
     main = "Nomograma de Fagan aplicado a la cohorte de tuberculosis (n = 300)",
     cex.main = 1.3, col.main = "#4A235A", font.main = 2)

segments(0, -5, 0, 5, lwd = 2, col = "#4A235A")
segments(1.5, -5, 1.5, 5, lwd = 2, col = "#4A235A")
segments(3, -5, 3, 5, lwd = 2, col = "#4A235A")

for (i in seq_along(probs_eje)) {
  segments(-0.06, y_probs_pretest[i], 0.06, y_probs_pretest[i],
           col = "#4A235A", lwd = 1.2)
  text(-0.15, y_probs_pretest[i], probs_eje[i], cex = 0.78,
       col = "#4A235A", adj = 1)
}

for (i in seq_along(lrs_eje)) {
  if (y_lrs_marcas[i] >= -5 && y_lrs_marcas[i] <= 5) {
    segments(1.44, y_lrs_marcas[i], 1.56, y_lrs_marcas[i],
             col = "#4A235A", lwd = 1.2)
    text(1.35, y_lrs_marcas[i], lrs_eje[i], cex = 0.75,
         col = "#4A235A", adj = 1)
  }
}

for (i in seq_along(probs_eje)) {
  segments(2.94, y_probs_postest[i], 3.06, y_probs_postest[i],
           col = "#4A235A", lwd = 1.2)
  text(3.15, y_probs_postest[i], probs_eje[i], cex = 0.78,
       col = "#4A235A", adj = 0)
}

text(0, 5.6, "Probabilidad\npretest (%)", font = 2,
     cex = 1, col = "#4A235A")
text(1.5, 5.6, "Razón de\nverosimilitud", font = 2,
     cex = 1, col = "#4A235A")
text(3, 5.6, "Probabilidad\npostest (%)", font = 2,
     cex = 1, col = "#4A235A")

segments(0, y_pretest, 3, y_postest_pos,
         col = "#7B1FA2", lwd = 2.8)
segments(0, y_pretest, 3, y_postest_neg,
         col = "#00796B", lwd = 2.8, lty = 2)

points(0, y_pretest, pch = 21, col = "#4A235A",
       bg = "#4A235A", cex = 2)
points(1.5, y_lr_pos, pch = 21, col = "#4A235A",
       bg = "#7B1FA2", cex = 2)
points(1.5, y_lr_neg, pch = 21, col = "#4A235A",
       bg = "#00796B", cex = 2)
points(3, y_postest_pos, pch = 21, col = "#4A235A",
       bg = "#7B1FA2", cex = 2)
points(3, y_postest_neg, pch = 21, col = "#4A235A",
       bg = "#00796B", cex = 2)

text(0.15, y_pretest + 0.4,
     paste0("Pretest = ", round(prob_pre_pct, 1), "%"),
     pos = 4, col = "#4A235A", font = 2, cex = 0.95)

text(1.7, y_lr_pos + 0.35,
     paste0("LR+ = ", round(lr_positiva, 2)),
     pos = 4, col = "#7B1FA2", font = 2, cex = 0.95)

text(1.7, y_lr_neg - 0.35,
     paste0("LR− = ", round(lr_negativa, 2)),
     pos = 4, col = "#00796B", font = 2, cex = 0.95)

text(2.4, y_postest_pos + 0.4,
     paste0("Postest+ = ", round(prob_post_pos_pct, 1), "%"),
     pos = 2, col = "#7B1FA2", font = 2, cex = 0.95)

text(2.4, y_postest_neg - 0.4,
     paste0("Postest− = ", round(prob_post_neg_pct, 1), "%"),
     pos = 2, col = "#00796B", font = 2, cex = 0.95)

par(xpd = TRUE)
legend(x = -0.5, y = -5.8,
       legend = c("Trayectoria si prueba positiva",
                  "Trayectoria si prueba negativa"),
       col = c("#7B1FA2", "#00796B"),
       lty = c(1, 2), lwd = 2.8, cex = 0.95,
       bty = "n", horiz = TRUE)

mtext("Fuente: elaboración propia.",
      side = 1, line = 3.5, cex = 0.85,
      col = "gray40", adj = 0)

Análisis: La figura que se observa, corresponde a un nomograma de Fagan, un tipo particular de gráfica conocida como gráfica de tres ejes paralelos o nomografía, donde no se usan coordenadas cartesianas tradicionales sino tres escalas verticales independientes alineadas en paralelo.

La he traído a este análisis,porque es la representación estándar del razonamiento bayesiano aplicado a pruebas diagnósticas y condensa en una sola figura todo el proceso de actualización de la probabilidad clínica.

En cuanto a la disposición visual de los ejes, considero pertinente aclarar que los ejes laterales están orientados en sentidos opuestos, es decir, el eje pretest (izquierdo) tiene las probabilidades bajas arriba y las altas abajo, mientras que el eje postest (derecho) tiene las probabilidades altas arriba y las bajas abajo.

Esta inversión es dada, gracias a la propiedad geométrica fundamental del nomograma de Fagan, pues hace que una línea recta trazada entre pretest y postest cruce naturalmente el eje central a la altura del valor correcto de la razón de verosimilitud, transformando el cálculo bayesiano en una simple regla visual de tres puntos. En cuanto al uso del color, utilizo dos colores porque estoy comparando dos trayectorias diferentes: la línea morada continua representa el razonamiento ante un resultado positivo, y la línea verde discontinua representa el razonamiento ante un resultado negativo, por lo cual los colores tienen función analítica.

Se observa, que en la gráfica, la trayectoria morada parte del eje izquierdo en el punto Pretest = 37%, atraviesa el eje central exactamente en LR+ = 7,71 (en la zona alta del eje, donde las razones favorecen confirmar la enfermedad), y termina en el eje derecho en Postest+ = 81,9%, ubicado en la parte alta del eje postest.

La trayectoria verde parte del mismo punto pretest del 37%, atraviesa el eje central exactamente en LR− = 0,25 (en la zona baja del eje, donde las razones favorecen descartar la enfermedad), y termina en Postest− = 12,8%, ubicado en la parte baja del eje postest.

La alineación perfecta de los tres puntos en cada trayectoria es la manifestación visual del teorema de Bayes en escala logarítmica, pues confirma que las probabilidades postest derivadas del cálculo matemático coinciden con las que se obtienen al trazar geométricamente la línea recta.

Considero que la utilidad clínica del nomograma se sustenta en tres aportes esenciales:

1. primero, visualiza inmediatamente el impacto de la prueba: la sospecha pretest del 37% se mueve a 81,9% con un resultado positivo (incremento de 44,9 puntos porcentuales) o a 12,8% con uno negativo (reducción de 24,2 puntos porcentuales), lo cual representa cambios clínicamente relevantes en ambas direcciones.

2.Segundo, garantiza la trazabilidad del razonamiento bayesiano, pues cada paciente puede tener su propia probabilidad pretest según sus factores de riesgo; por ejemplo, Saktiawati y colaboradores (2019) documentaron un riesgo relativo de 12,25 para revisión diagnóstica en pacientes con caso índice de tuberculosis en el entorno, lo cual desplazaría la trayectoria pretest hacia abajo en el eje (probabilidades más altas) y movería también las probabilidades postest en consecuencia.

3.Tercero, permite identificar visualmente si una prueba aporta información útil: en mi caso, la separación entre 81,9% y 12,8% confirma que la prueba sí discrimina, aunque la probabilidad residual del 12,8% ante un negativo justifica la recomendación central según la literatura, de combinar la prueba con la radiografía de tórax y la evaluación clínica, pues una sola prueba aislada no descarta definitivamente la tuberculosis.

Desde la perspectiva clínica integrada, el nomograma materializa una asimetría informativa clave en mi cohorte, pues la prueba es más útil para confirmar la enfermedad (sube la sospecha 44,9 puntos porcentuales con un positivo) que para descartarla (la baja solo 24,2 puntos porcentuales con un negativo).

Este patrón es típico de las pruebas rutinarias de tuberculosis en entornos de alta prevalencia como las clínicas neumológicas, donde la utilidad clínica del resultado positivo es mayor que la del negativo, lo cual sustenta la necesidad de combinar criterios para alcanzar el desempeño diagnóstico documentado por Saktiawati en Yogyakarta (sensibilidad del 85% al 90%, especificidad del 86,3% al 99,5%).

Hasta ahora, mi prueba dicotómica usa un único punto de corte implícito que clasifica a los pacientes como positivos o negativos, pero como ya observé en la exploración (recordando al paciente 9 con valor continuo de 87,8 que fue clasificado como negativo), ese punto de corte podría no ser óptimo.

La variable continua Valor_prueba_continua me permite explorar todos los puntos de corte posibles y encontrar aquel que maximiza la capacidad discriminativa.

Este análisis lo baso en el capítulo 4 de Bruce, Bruce y Gedeck (2022) sobre clasificación binaria, por lo cual, la curva COR grafica la sensibilidad (verdaderos positivos) frente a 1 menos especificidad (falsos positivos) para cada punto de corte posible.

El área bajo la curva (AUC, por sus siglas en inglés) resume el desempeño global de la prueba:

-un AUC de 1 representa una prueba perfecta -un AUC de 0,5 representa una prueba sin capacidad discriminativa (equivalente al azar), y los valores intermedios se interpretan según los criterios convencionales:

-AUC entre 0,5 y 0,7: capacidad discriminativa pobre. -AUC entre 0,7 y 0,8: capacidad discriminativa aceptable. -AUC entre 0,8 y 0,9: capacidad discriminativa buena. -AUC entre 0,9 y 1,0: capacidad discriminativa excelente.

Análisis de la prueba continua mediante curva COR

roc_obj <- roc(
  response = datos$TB_confirmada,
  predictor = datos$Valor_prueba_continua,
  levels = c(0, 1),
  direction = "<",
  ci = TRUE,
  auc = TRUE
)

auc_valor <- as.numeric(auc(roc_obj))
ic_auc <- ci.auc(roc_obj, conf.level = 0.95)
ic_inferior <- as.numeric(ic_auc[1])
ic_superior <- as.numeric(ic_auc[3])

youden <- coords(roc_obj, "best", best.method = "youden",
                  ret = c("threshold", "sensitivity", "specificity",
                          "ppv", "npv", "youden"))

corte_optimo <- as.numeric(youden$threshold)
sens_optima <- as.numeric(youden$sensitivity)
esp_optima <- as.numeric(youden$specificity)
vpp_optimo <- as.numeric(youden$ppv)
vpn_optimo <- as.numeric(youden$npv)
indice_youden <- as.numeric(youden$youden)

cat("=== ANÁLISIS DE LA CURVA COR ===\n\n")

## === ANÁLISIS DE LA CURVA COR ===

cat("Área bajo la curva (AUC):           ", round(auc_valor, 4), "\n", sep = "")

## Área bajo la curva (AUC):           0.9286

cat("Intervalo de confianza 95%:         (",
    round(ic_inferior, 4), " − ",
    round(ic_superior, 4), ")\n", sep = "")

## Intervalo de confianza 95%:         (0.9008 − 0.9564)

cat("\n=== PUNTO DE CORTE ÓPTIMO (Youden) ===\n\n")

## 
## === PUNTO DE CORTE ÓPTIMO (Youden) ===

cat("Valor del punto de corte:           ", round(corte_optimo, 2), "\n", sep = "")

## Valor del punto de corte:           58.95

cat("Sensibilidad en el corte óptimo:    ", round(sens_optima * 100, 2), "%\n", sep = "")

## Sensibilidad en el corte óptimo:    89.19%

cat("Especificidad en el corte óptimo:   ", round(esp_optima * 100, 2), "%\n", sep = "")

## Especificidad en el corte óptimo:   82.01%

cat("VPP en el corte óptimo:             ", round(vpp_optimo * 100, 2), "%\n", sep = "")

## VPP en el corte óptimo:             74.44%

cat("VPN en el corte óptimo:             ", round(vpn_optimo * 100, 2), "%\n", sep = "")

## VPN en el corte óptimo:             92.81%

cat("Índice de Youden (J = S + E − 1):   ", round(indice_youden, 4), "\n", sep = "")

## Índice de Youden (J = S + E − 1):   1.712

Análisis: A partir de los resultados que arrojó el análisis de la curva COR, identifico entonces cinco hallazgos que conviene interpretar integrando lo que significan estadísticamente con su implicación clínica.

Área bajo la curva (AUC) = 0,9286, con intervalo de confianza al 95% entre 0,9008 y 0,9564, esta cifra responde a una pregunta concreta:

si tomara al azar a 1 paciente enfermo y a 1 paciente sano de mi cohorte, ¿qué tan probable es que el biomarcador esté más alto en el enfermo que en el sano?

°La respuesta es del 92,86%,por lo cual, considero importante aclarar qué es este intervalo de confianza, pues representa el rango de valores donde, con un 95% de seguridad, se encuentra el verdadero valor del AUC si yo repitiera este estudio muchas veces, es decir, no es solo un dato puntual de mi muestra sino una estimación con margen de incertidumbre estadística.

Ahora bien, para interpretar correctamente el AUC necesito conocer su valor nulo, que es 0,5 y no 1 como en otras medidas epidemiológicas.

En medidas como el riesgo relativo o la razón de odds, el valor nulo es 1 porque son cocientes entre dos cantidades, y cuando ambas son iguales el resultado da 1. En cambio, el AUC es una probabilidad de ordenamiento correcto que va de 0 a 1, donde 1 significa una prueba perfecta y 0,5 significa una prueba equivalente al azar, como lanzar una moneda al aire para clasificar al paciente.

Por tanto, en la curva COR, la línea diagonal rosa discontinua representa visualmente todos los puntos donde la prueba no discrimina entre enfermos y sanos, y su área bajo la curva es exactamente 0,5 (geométricamente corresponde a la mitad del cuadrado del gráfico).

Como mi intervalo de confianza va de 0,9008 a 0,9564, completamente por encima de 0,5, puedo afirmar con un 95% de confianza que la prueba discrimina significativamente mejor que el azar, y además que su capacidad discriminativa real está dentro del rango de excelencia (todo el intervalo permanece por encima del umbral de 0,9).

Clínicamente esto significa que el biomarcador es una herramienta muy potente para distinguir entre pacientes con y sin tuberculosis en mi cohorte de la clínica neumológica.

Punto de corte óptimo según Youden = 58,95 unidades del biomarcador, que correponde a una fórmula matemática que busca el punto único en la curva donde la prueba alcanza su mejor balance posible entre detectar enfermos y evitar falsas alarmas.

Geométricamente, este punto corresponde al lugar de la curva más cercano a la esquina superior izquierda del gráfico, donde estaría una prueba perfecta con sensibilidad y especificidad del 100% simultáneamente; por lo cual, este valor de 58,95 representa el umbral del biomarcador donde la prueba funciona mejor, es decir, si reclasifico a los pacientes considerando positivos a aquellos con valor igual o superior a 58,95 y negativos a los que están por debajo, obtengo el desempeño diagnóstico óptimo posible con esta prueba.

La sensibilidad en el corte óptimo = 89,19% y la especificidad en el corte óptimo = 82,01%,son las cifras que alcanzaría la prueba si reajustara su umbral al óptimo de Youden.

Comparado con el desempeño original de la prueba dicotómica (sensibilidad del 77,48% y especificidad del 89,95%), identifico dos cambios importantes que conviene interpretar conjuntamente.

Por un lado, gano 11,71 puntos porcentuales en sensibilidad (calculados como 89,19% − 77,48% = 11,71%), lo cual significa que detectaría aproximadamente 12 enfermos adicionales por cada 100 pacientes evaluados.

Por otro lado, pierdo 7,94 puntos porcentuales en especificidad (calculados como 82,01% − 89,95% = −7,94%), lo cual significa que tendría aproximadamente 8 falsas alarmas adicionales por cada 100 sanos evaluados.

Este intercambio entre sensibilidad y especificidad es lo que en epidemiología se conoce como trade-off diagnóstico, y refleja una ley fundamental, que consisten que en una misma prueba, no puedo aumentar la sensibilidad sin pagar el costo en especificidad, salvo que mejore la prueba misma.

Clínicamente este trade-off es favorable en tuberculosis, pues como bien lo plantean Saktiawati y colaboradores (2019), en enfermedades transmisibles el costo de un falso negativo es mayor que el de un falso positivo, pues el enfermo no detectado queda sin tratamiento y puede continuar transmitiendo la infección, mientras que el sano clasificado erróneamente como positivo solo requiere una prueba confirmatoria adicional, por tanto, en una clínica neumológica el corte óptimo de Youden sería preferible al corte original.

Valor predictivo positivo en el corte óptimo = 74,44%, frente al 81,90% original, considero que hay una reducción en el VPP, lo cual al principio puede parecer contradictorio con la mejora general de la prueba, pero lo que pasa, es que al bajar el umbral para detectar más enfermos, también capturo a más sanos por error, y eso diluye la pureza de los positivos, pues ahora de cada 100 pacientes con prueba positiva, 74 estarían realmente enfermos y 26 serían falsas alarmas, frente a los 82 enfermos y 18 falsas alarmas del corte original.

Clínicamente esto implica un mayor volumen de pruebas confirmatorias (cultivos, radiografías, baciloscopias adicionales), por lo cual considero que el corte óptimo solo es recomendable si el sistema de salud tiene la capacidad operativa para absorber ese incremento sin afectar la calidad de la atención.

Valor predictivo negativo en el corte óptimo = 92,81%, frente al 87,18% original: aquí observo una mejora en el VPN, lo cual es el espejo del cambio anterior, pues al detectar más enfermos en el corte óptimo, hay menos falsos negativos, y los pacientes que efectivamente quedan con prueba negativa son más confiablemente sanos.

Clínicamente significa que de cada 100 pacientes con prueba negativa, 93 estarían realmente sanos, frente a los 87 originales,por tanto, un resultado negativo con el corte óptimo permite descartar la enfermedad con mayor confianza, lo cual es justamente lo deseable en una clínica neumológica de alta prevalencia, donde la prioridad es NO dejar pasar casos de tuberculosis sin diagnosticar.

Índice de Youden = 1,712: Sobre el índice de Youden que se define formalmente como J = Sensibilidad + Especificidad − 1, lo cual en mi caso da 0,8919 + 0,8201 − 1 = 0,712, sin embargo, el paquete pROC de R ha reportado el valor como 1,712, que resulta de sumar 1 al cálculo para que el valor mínimo (cuando la prueba no discrimina) sea 0 en lugar de un número negativo.

Es una variante de presentación que no cambia la interpretación, incluso independientemente de la escala, lo importante es que el índice alcanza un valor cercano al máximo posible (que sería 1 en la escala formal o 2 en la escala de pROC), lo cual confirma estadísticamente la excelente capacidad discriminativa de la prueba continua, y además clínicamente, este valor sustenta la decisión de reajustar el punto de corte al óptimo identificado.

Considero entonces, que la curva ROC aporta un mensaje final muy potente, pues la prueba que actualmente se está usando de manera dicotómica en mi cohorte no está aprovechando toda la información que ofrece el biomarcador continuo.

Si el laboratorio o el comité diagnóstico de la clínica neumológica reajustara el punto de corte al valor 58,95 sugerido por el índice de Youden, ganaría capacidad de detectar tuberculosis sin sacrificar excesivamente la especificidad.

Esta recomendación se alinea con el enfoque de Saktiawati y colaboradores (2019), quienes enfatizaron la importancia de optimizar continuamente las pruebas rutinarias en contextos de alta carga de tuberculosis, donde cada enfermo detectado a tiempo representa una oportunidad de tratamiento y una intervención de salud pública para cortar la cadena de transmisión.

roc_df <- data.frame(
  Especificidad = rev(roc_obj$specificities),
  Sensibilidad = rev(roc_obj$sensitivities),
  FPR = 1 - rev(roc_obj$specificities)
)

punto_youden <- data.frame(
  FPR = 1 - esp_optima,
  Sensibilidad = sens_optima
)

ggplot(roc_df, aes(x = FPR, y = Sensibilidad)) +
  geom_ribbon(aes(ymin = FPR, ymax = Sensibilidad),
              fill = "#7B1FA2", alpha = 0.12) +
  geom_abline(slope = 1, intercept = 0,
              color = "#C2185B", linetype = "dashed",
              linewidth = 0.9, alpha = 0.7) +
  geom_line(color = "#7B1FA2", linewidth = 1.6) +
  geom_segment(aes(x = 1 - esp_optima, y = 0,
                   xend = 1 - esp_optima, yend = sens_optima),
               color = "#00796B", linetype = "dotted",
               linewidth = 0.7, alpha = 0.6) +
  geom_segment(aes(x = 0, y = sens_optima,
                   xend = 1 - esp_optima, yend = sens_optima),
               color = "#00796B", linetype = "dotted",
               linewidth = 0.7, alpha = 0.6) +
  geom_point(data = punto_youden,
             aes(x = FPR, y = Sensibilidad),
             color = "#FFFFFF", fill = "#00796B",
             size = 6, shape = 21, stroke = 2.5) +
  annotate("label",
           x = 0.55, y = 0.30,
           label = paste0("Capacidad discriminativa global\n",
                          "AUC = ", round(auc_valor, 4), "\n",
                          "IC 95%: (", round(ic_inferior, 3),
                          " − ", round(ic_superior, 3), ")\n",
                          "Interpretación: EXCELENTE"),
           color = "#4A235A", fontface = "bold", size = 4,
           fill = "#FBEAF0", label.padding = unit(0.6, "lines"),
           label.r = unit(0.3, "lines"),
           label.size = 0.5, hjust = 0) +
  annotate("label",
           x = 0.32, y = 0.92,
           label = paste0("Punto de corte óptimo (Youden)\n",
                          "Corte = ", round(corte_optimo, 2), "\n",
                          "Sensibilidad = ", round(sens_optima * 100, 1), "%\n",
                          "Especificidad = ", round(esp_optima * 100, 1), "%"),
           color = "#00796B", fontface = "bold", size = 3.8,
           fill = "#E1F5EE", label.padding = unit(0.5, "lines"),
           label.r = unit(0.3, "lines"),
           label.size = 0.5, hjust = 0) +
  annotate("text", x = 0.78, y = 0.72,
           label = "Línea de no discriminación\n(referencia: AUC = 0,5)",
           color = "#C2185B", fontface = "italic", size = 3.3,
           angle = 38) +
  scale_x_continuous(limits = c(0, 1), breaks = seq(0, 1, 0.2),
                     labels = scales::percent_format(accuracy = 1),
                     expand = c(0.01, 0.01)) +
  scale_y_continuous(limits = c(0, 1.02), breaks = seq(0, 1, 0.2),
                     labels = scales::percent_format(accuracy = 1),
                     expand = c(0.01, 0.01)) +
  labs(
    title = "Gráfica 5. Curva COR del biomarcador continuo",
    subtitle = "Capacidad discriminativa entre pacientes con y sin tuberculosis (n = 300)",
    x = "1 − Especificidad (Tasa de falsos positivos)",
    y = "Sensibilidad (Tasa de verdaderos positivos)",
    caption = "Fuente: elaboración propia."
  ) +
  theme_minimal(base_size = 13) +
  theme(
    plot.title = element_text(color = "#4A235A", face = "bold",
                              size = 15, margin = margin(b = 5)),
    plot.subtitle = element_text(color = "#7B1FA2", size = 11.5,
                                  margin = margin(b = 15)),
    plot.caption = element_text(color = "gray40", size = 9,
                                hjust = 0, margin = margin(t = 10)),
    axis.title.x = element_text(face = "bold", color = "#4A235A",
                                 margin = margin(t = 10)),
    axis.title.y = element_text(face = "bold", color = "#4A235A",
                                 margin = margin(r = 10)),
    panel.grid.minor = element_blank(),
    panel.grid.major = element_line(color = "gray90", linewidth = 0.4),
    plot.margin = margin(20, 25, 15, 15)
  ) +
  coord_equal(clip = "off")

comparacion <- data.frame(
  Medida = c(
    "Sensibilidad",
    "Especificidad",
    "Valor predictivo positivo",
    "Valor predictivo negativo",
    "Capacidad discriminativa global"
  ),
  Prueba_dicotomica = c(
    paste0(round(sensibilidad * 100, 2), "%"),
    paste0(round(especificidad * 100, 2), "%"),
    paste0(round(vpp * 100, 2), "%"),
    paste0(round(vpn * 100, 2), "%"),
    "No estimable"
  ),
  Prueba_continua = c(
    paste0(round(sens_optima * 100, 2), "%"),
    paste0(round(esp_optima * 100, 2), "%"),
    paste0(round(vpp_optimo * 100, 2), "%"),
    paste0(round(vpn_optimo * 100, 2), "%"),
    paste0("AUC = ", round(auc_valor, 4))
  ),
  Diferencia = c(
    paste0(round((sens_optima - sensibilidad) * 100, 2), " pp"),
    paste0(round((esp_optima - especificidad) * 100, 2), " pp"),
    paste0(round((vpp_optimo - vpp) * 100, 2), " pp"),
    paste0(round((vpn_optimo - vpn) * 100, 2), " pp"),
    "—"
  ),
  stringsAsFactors = FALSE
)

colnames(comparacion) <- c(
  "Característica de desempeño",
  "Prueba dicotómica original",
  "Prueba continua (corte Youden)",
  "Ganancia (pp = puntos porcentuales)"
)

comparacion %>%
  kbl(align = c("l", "c", "c", "c"),
      caption = "Comparación del desempeño diagnóstico, una prueba dicotómica frente a una prueba continua con punto de corte óptimo") %>%
  kable_styling(
    bootstrap_options = c("striped", "hover", "condensed"),
    full_width = TRUE, position = "center"
  ) %>%
  add_header_above(
    c(" " = 1, "Versiones de la prueba" = 2, " " = 1),
    background = "pink", color = "black"
  ) %>%
  column_spec(1, bold = TRUE, background = "#EEEDFE") %>%
  column_spec(2, background = "#F3E5F5") %>%
  column_spec(3, background = "#E1F5EE") %>%
  column_spec(4, bold = TRUE, background = "#FBEAF0") %>%
  footnote(
    general = "Fuente: elaboración propia. El punto de corte óptimo se calculó mediante el índice de Youden (J = Sensibilidad + Especificidad − 1).",
    general_title = "",
    footnote_as_chunk = TRUE
  )

Comparación del desempeño diagnóstico, una prueba dicotómica frente a una prueba continua con punto de corte óptimo
	Versiones de la prueba
Característica de desempeño	Prueba dicotómica original	Prueba continua (corte Youden)	Ganancia (pp = puntos porcentuales)
Sensibilidad	77.48%	89.19%	11.71 pp
Especificidad	89.95%	82.01%	-7.94 pp
Valor predictivo positivo	81.9%	74.44%	-7.47 pp
Valor predictivo negativo	87.18%	92.81%	5.63 pp
Capacidad discriminativa global	No estimable	AUC = 0.9286	—
Fuente: elaboración propia. El punto de corte óptimo se calculó mediante el índice de Youden (J = Sensibilidad + Especificidad − 1).

Análisis: Considero que esta tabla sintetiza visualmente los hallazgos del análisis de la curva COR y permite ver de un vistazo el aporte de la optimización del punto de corte.

En la sensibilidad: +11,71 puntos porcentuales (de 77,48% a 89,19%), esta es la ganancia más relevante, pues significa que 12 enfermos adicionales por cada 100 pacientes serían correctamente detectados si se reajustara el punto de corte al óptimo de Youden.

En el contexto de tuberculosis, donde cada falso negativo representa un riesgo de transmisión comunitaria, esta mejora tiene un peso clínico importante.

En la especificidad: −7,94 puntos porcentuales (de 89,95% a 82,01%), esta pérdida es el costo necesario de la ganancia en sensibilidad y refleja el compromiso inherente a cualquier prueba diagnóstica que ya expliqué arriba: 8 falsas alarmas adicionales por cada 100 sanos.

En tuberculosis este intercambio se considera favorable, pues como bien lo plantean Saktiawati y colaboradores (2019), el costo clínico-epidemiológico de un falso negativo supera al de un falso positivo.

Valores predictivos: VPP cae 7,47 puntos pero VPN sube 5,63 puntos,por lo que estos dos movimientos espejo son la consecuencia matemática directa de los cambios anteriores, pues al detectar más enfermos también se incluyen más sanos por error (lo que diluye el VPP), pero los pacientes que efectivamente quedan negativos son más confiablemente sanos (lo que eleva el VPN).

Por tanto, el corte óptimo mejora la capacidad de descartar más que la de confirmar, lo cual es justamente lo deseable en una clínica neumológica de alta prevalencia.

Capacidad discriminativa global: AUC = 0,9286:

Considero importante explicar por qué este indicador aparece como “no estimable” para la prueba dicotómica en la tabla, pues la razón es que el AUC necesita muchos puntos de corte distintos para construir la curva COR, y eso solo es posible cuando trabajo con una variable continua que toma muchos valores diferentes (en este caso, el biomarcador varía entre 21 y 99 con muchos decimales).

En cambio, la prueba dicotómica solo tiene dos resultados posibles (positivo o negativo), lo cual no genera una curva sino apenas un punto único, sin posibilidad de calcular un área bajo ella.

Por tanto, el AUC es una ventaja exclusiva de las pruebas continuas y permite comparar pruebas entre estudios con una sola cifra resumen; en este caso, el valor de 0,9286 ubica la prueba en la categoría de capacidad discriminativa excelente según los criterios convencionales.

Para dimensionar este resultado, lo comparo con el estudio de Saktiawati y colaboradores (2019), quienes en sus clínicas neumológicas de Yogyakarta documentaron sensibilidades del 85% al 90% y especificidades del 86,3% al 99,5% para el examen rutinario de tuberculosis.

Aunque aquellos autores no calcularon explícitamente el AUC, las cifras de sensibilidad y especificidad que reportaron son consistentes con el desempeño que yo obtuve en esta cohorte al aplicar el corte óptimo de Youden (sensibilidad del 89,19% y especificidad del 82,01%).

Por lo cual, considero que esta cohorte simulada reproduce fielmente el comportamiento real de las pruebas rutinarias de tuberculosis en entornos de alta prevalencia, lo cual da validez metodológica al ejercicio académico.

Mi recomendación práctica derivada del análisis:

Considero que en un escenario real, el laboratorio o el comité diagnóstico que maneje esta prueba en la clínica podría reconsiderar el umbral vigente y desplazarlo al valor de 58,95 sugerido por Youden, decisión que se justificaría siempre que el sistema de salud tenga la capacidad operativa para absorber el incremento en pruebas confirmatorias derivado de la caída del VPP.

Nota aclaratoria sobre el alcance del taller::

Antes de discutir los hallazgos, considero pertinente aclarar que el desarrollo del presente taller va más allá de lo estrictamente solicitado por la rúbrica.

Los requisitos mínimos (sensibilidad, especificidad, valores predictivos y razones de verosimilitud) los cubrí en su totalidad.

Adicionalmente, decidí incorporar la exploración detallada de los datos, el nomograma de Fagan, la curva COR con identificación del punto de corte óptimo de Youden, y la comparación sistemática con el estudio de Saktiawati y colaboradores (2019), poque consideré que estos elementos enriquecian la evaluación diagnóstica y me permitirían una discusión más sustantiva de los resultados.

Síntesis de los hallazgos encontrados A partir del análisis paso a paso desarrollado en este taller, considero pertinente sintetizar los hallazgos principales:

El punto de partida fue una cohorte de 300 pacientes con sospecha de tuberculosis, con una prevalencia del 37% (calculada como 111 enfermos sobre 300 pacientes), lo cual representa un escenario clínico de alta probabilidad pretest, característico de una clínica neumológica especializada y no de una población general de tamizaje.

-Al construir la tabla de 2 X 2, identifiqué que la prueba dicotómica clasificó correctamente a 86 verdaderos positivos y 170 verdaderos negativos, pero cometió errores en ambas direcciones:

-19 falsos positivos (sanos clasificados erróneamente como enfermos) y 25 falsos negativos (enfermos no detectados). A partir de estas 4 casillas calculé las 6 características de desempeño obteniendo sensibilidad del 77,48%,especificidad del 89,95%, valor predictivo positivo del 81,90%, valor predictivo negativo del 87,18%, razón de verosimilitud positiva de 7,71 y razón de verosimilitud negativa de 0,25.

Considero que estas cifras dibujan el perfil de una prueba moderadamente sensible ybastante específica, útil principalmente para confirmar la enfermedad ante un resultado positivo.

La aplicación del nomograma de Fagan me permitió traducir estos indicadores al razonamiento bayesiano, pues ante una sospecha clínica sube del 37% al 81,9%** (incremento de 44,9 puntos porcentuales), mientras que ante un resultado negativo desciende al 12,8% (reducción de 24,2 puntos porcentuales).

-Por lo cual identifiqué una asimetría informativa importante, donde la prueba es más útil para confirmar que para descartar.

Finalmente, el análisis de la curva COR sobre la variable continua arrojó un AUC del 0,9286, que se ubica en el rango de capacidad discriminativa excelente, y sugirió un punto de corte óptimo de 58,95 unidades según el índice de Youden.

Al aplicar este corte optimizado, la sensibilidad sube al 89,19% y la especificidad cae al 82,01%, lo cual representa un intercambio favorable en tuberculosis dada la naturaleza transmisible de la enfermedad.

yogyakarta <- data.frame(
  Indicador = c(
    "Prevalencia de tuberculosis",
    "Tamaño muestral",
    "Sensibilidad",
    "Especificidad",
    "Valor predictivo positivo",
    "Valor predictivo negativo"
  ),
  Mi_cohorte = c(
    "37% (111/300)",
    "300 pacientes",
    "77,48% (dicotómica) / 89,19% (óptimo Youden)",
    "89,95% (dicotómica) / 82,01% (óptimo Youden)",
    "81,90% (dicotómica) / 74,44% (óptimo Youden)",
    "87,18% (dicotómica) / 92,81% (óptimo Youden)"
  ),
  Yogyakarta_cultivo = c(
    "Aprox. 41% (140/339)",
    "339 pacientes",
    "85% (IC95%: 77–91)",
    "86,3% (IC95%: 81,1–90,5)",
    "75,6% (IC95%: 68,9–81,3)",
    "92% (IC95%: 88,1–94,7)"
  ),
  Yogyakarta_compuesto = c(
    "Aprox. 41% (140/339)",
    "339 pacientes",
    "90% (IC95%: 83,8–94,4)",
    "99,5% (IC95%: 97,2–99,9)",
    "99,2% (IC95%: 94,7–99,9)",
    "93,4% (IC95%: 89,6–95,9)"
  ),
  stringsAsFactors = FALSE
)

colnames(yogyakarta) <- c(
  "Indicador epidemiológico",
  "cohorte simulada",
  "Yogyakarta (cultivo como referencia)",
  "Yogyakarta (estándar compuesto)"
)

yogyakarta %>%
  kbl(align = c("l", "c", "c", "c"),
      caption = "Comparación sistemática entre los hallazgos de la cohorte simulada y el estudio de Saktiawati y colaboradores (2019) en Yogyakarta, Indonesia") %>%
  kable_styling(
    bootstrap_options = c("striped", "hover", "condensed"),
    full_width = TRUE, position = "center", font_size = 11
  ) %>%
  add_header_above(
    c(" " = 1, "Análisis en esta cohorte" = 1, "Estudio de referencia" = 2),
    background = "#4A235A", color = "white"
  ) %>%
  column_spec(1, bold = TRUE, background = "#EEEDFE", width = "5cm") %>%
  column_spec(2, background = "#F3E5F5") %>%
  column_spec(3, background = "#E1F5EE") %>%
  column_spec(4, background = "#FAEEDA") %>%
  footnote(
    general = "Fuente: elaboración propia con datos de la cohorte simulada y de Saktiawati et al. (2019), Tabla 2 del estudio original.",
    general_title = "",
    footnote_as_chunk = TRUE
  )

Comparación sistemática entre los hallazgos de la cohorte simulada y el estudio de Saktiawati y colaboradores (2019) en Yogyakarta, Indonesia
	Análisis en esta cohorte	Estudio de referencia
Indicador epidemiológico	cohorte simulada	Yogyakarta (cultivo como referencia)	Yogyakarta (estándar compuesto)
Prevalencia de tuberculosis	37% (111/300)	Aprox. 41% (140/339)	Aprox. 41% (140/339)
Tamaño muestral	300 pacientes	339 pacientes	339 pacientes
Sensibilidad	77,48% (dicotómica) / 89,19% (óptimo Youden)	85% (IC95%: 77–91)	90% (IC95%: 83,8–94,4)
Especificidad	89,95% (dicotómica) / 82,01% (óptimo Youden)	86,3% (IC95%: 81,1–90,5)	99,5% (IC95%: 97,2–99,9)
Valor predictivo positivo	81,90% (dicotómica) / 74,44% (óptimo Youden)	75,6% (IC95%: 68,9–81,3)	99,2% (IC95%: 94,7–99,9)
Valor predictivo negativo	87,18% (dicotómica) / 92,81% (óptimo Youden)	92% (IC95%: 88,1–94,7)	93,4% (IC95%: 89,6–95,9)
Fuente: elaboración propia con datos de la cohorte simulada y de Saktiawati et al. (2019), Tabla 2 del estudio original.

Análisis comparativo: Considero que esta tabla me permite contrastar los hallazgos con el estudio de referencia y extraer tres observaciones importantes.

-Primero, el tamaño muestral y la prevalencia son comparables entre ambos estudios.En esta cohorte hay 300 pacientes con prevalencia del 37%, mientras que el estudio de Yogyakarta incluyó 339 pacientes con prevalencia aproximada del 41%, por tanto, ambos comparten el contexto de una clínica neumológica especializada con alta probabilidad pretest, lo cual hace que las comparaciones de desempeño sean válidas.

-Segundo, los resultados de la prueba dicotómica original (sensibilidad 77,48%, especificidad 89,95%) se ubican ligeramente por debajo del rango reportado en Yogyakarta con cultivo como referencia (sensibilidad 85% y especificidad 86,3%).

La especificidad es casi idéntica, pero la sensibilidad de esta cohorte analizada, queda 7,5 puntos porcentuales por debajo, por lo cual, considero que esta diferencia se explica porque el punto de corte usado en la base simulada no es el óptimo, lo cual quedó demostrado en el análisis de la curva COR.

-Tercero, al aplicar el corte óptimo de Youden (sensibilidad 89,19% y especificidad 82,01%), los resultados de esta cohorte del taller, se acercan al rango reportado por Yogyakarta con cultivo como referencia, e incluso superan la sensibilidad del 85% que aquellos autores documentaron.

Por lo cual, considero que este análisis no solo reproduce el comportamiento típico de las pruebas rutinarias de tuberculosis, sino que además ofrece una vía de optimización concreta del desempeño diagnóstico.

4 Implicaciones clínicas del análisis:

A partir de los hallazgos sintetizados, identifico cuatro implicaciones clínicas relevantes para la práctica en clínicas neumológicas de alta prevalencia de tuberculosis.

No descartar tuberculosis con una sola prueba negativa: En el análisis de esta cohorte, se confirmó que aun con el corte óptimo, persiste un 7,19% de probabilidad residual de tuberculosis ante un resultado negativo (calculada como 100% − 92,81% = 7,19%).

Por lo cual, en pacientes con alta sospecha clínica, el resultado negativo debe interpretarse con cautela y complementarse con la radiografía de tórax y el seguimiento clínico, tal como recomiendan Saktiawati y colaboradores (2019).

Reconsiderar el punto de corte de la prueba dicotómica: La diferencia entre el desempeño de la prueba dicotómica original (sensibilidad del 77,48%) y la optimizada con Youden (sensibilidad del 89,19%) sugiere que el laboratorio o el comité diagnóstico podría beneficiarse de revisar el umbral vigente.

Esta decisión requiere, no obstante, evaluar la capacidad del sistema para absorber el incremento en pruebas confirmatorias derivado de la caída del VPP del 81,90% al 74,44%.

Aprovechar el alto valor predictivo positivo en alta prevalencia:El VPP del 81,90% en la prueba dicotómica original me indica que en esta cohorte simulada, un resultado positivo tiene alta probabilidad de corresponder a enfermedad real.

Clínicamente, esto justifica iniciar el protocolo confirmatorio (cultivo, baciloscopia adicional, radiografía) sin demora ante un resultado positivo, sin necesidad de esperar otras pruebas para tomar decisiones de aislamiento o inicio de tratamiento empírico.

Combinar siempre criterios diagnósticos: Como bien lo documentan Saktiawati y colaboradores (2019), la combinación de evaluación clínica, microscopía de frotis de esputo y radiografía de tórax alcanza sensibilidades del 90% y especificidades del 99,5%, valores muy superiores a los de cualquier prueba aislada.

Por lo cual, el análisis de esta cohorte simulada, sustenta el principio epidemiológico de que la utilidad diagnóstica máxima en tuberculosis se logra mediante estrategias combinadas, no mediante pruebas únicas.

5 Limitaciones

Considero indispensable reconocer las limitaciones de este ejercicio, pues la honestidad metodológica fortalece la credibilidad de este análisis realizado:

1. Base simulada y no real: Los 300 pacientes provienen de una simulación académica, no de una cohorte clínica recolectada prospectivamente, por lo cual las cifras obtenidas reflejan el comportamiento esperado de una prueba bien comportada, pero no incluyen las complejidades de la práctica real como diagnósticos inicialmente revisados, pérdidas de seguimiento o muestras de calidad insuficiente.
Ausencia de un patrón de oro detallado: En esta base analizada, el patrón de oro se reduce a una variable dicotómica TB_confirmada, sin discriminar si la confirmación provino de cultivo, de microbiología, de radiografía o de seguimiento clínico, como sí lo desglosa el estudio de Saktiawati y colaboradores con su estándar de referencia compuesto.
No se calcularon intervalos de confianza para las características operativas, por lo cual, los reportes científicos reales si incluyen intervalos de confianza al 95% para cada medida de desempeño, lo cual en mi análisis, solo lo realicé para el AUC.
No hice exploración diferencial por subgrupos: El estudio de Yogyakarta analizó factores asociados a la revisión diagnóstica (casos índice en el entorno, cultivo positivo, hallazgos radiográficos sugestivos), encontrando riesgos relativos de hasta 28,68 para algunos factores.

En el análisis de la cohorte simulada, no incluí variables adicionales que permitieran este tipo de estratificación, lo cual abre oportunidades para taller futuros con bases más robustas.

6 Conclusiones:

Para cerrar el taller, recapitulo las conclusiones principales extraídas del análisis:

La prueba evaluada tiene capacidad discriminativa excelente: El AUC del 0,9286 ubica al biomarcador continuo en la categoría superior según los criterios convencionales, comparable a las pruebas rutinarias documentadas en la literatura científica internacional.
El punto de corte vigente para la prueba dicotómica es subóptimo: Al desplazarlo hacia el valor 58,95 sugerido por el índice de Youden, se ganarían aproximadamente 12 enfermos adicionales detectados por cada 100 pacientes evaluados, lo cual es clínicamente relevante en una enfermedad transmisible.
El razonamiento bayesiano valida la coherencia interna del análisis: Las probabilidades postest derivadas del nomograma de Fagan coinciden con los valores predictivos calculados directamente de la tabla de 2 X 2, lo cual confirma que el método se aplicó correctamente.
La utilidad clínica de la prueba depende de la prevalencia local: En esta cohorte simulada, con prevalencia del 37%, los valores predictivos son favorables; sin embargo, en contextos de tamizaje poblacional con baja prevalencia, el VPP caería drásticamente y la prueba perdería utilidad para confirmar la enfermedad.
La metodología es replicable y transparente: Cada cifra del documento tiene su proceso matemático explícito, cada gráfica tiene su justificación de tipo y de color, y en cada interpretación he integrado, la lectura estadística con la clínica, lo cual permite que este análisis sea revisado, criticado y reproducido, con acceso a la base de datos.

Por tanto, considero que el ejercicio cumple su propósito formativo, pues no solo me permitió aplicar las fórmulas de evaluación de pruebas diagnósticas, sino también comprender el razonamiento epidemiológico y clínico que sustenta cada característica de desempeño, anclando los conceptos vistos en clase, en una situación clínica realista de alta carga de tuberculosis como la descrita por Saktiawati y colaboradores (2019).

#Referencias

-**1. Bruce, P., Bruce, A., y Gedeck, P. (2022). Estadística práctica para ciencia de datos con R y Python (2.ª ed.). Marcombo / O’Reilly.

**2.Fagan, T. J. (1975). Nomogram for Bayes theorem. The New England Journal of Medicine, 293(5), 257.
**3.Ruiz Morales, Á. J., y Gómez Restrepo, C. (2015). Epidemiología clínica. Investigación clínica aplicada (2.ª ed.). Editorial Médica Panamericana. Capítulo 10: Uso de pruebas diagnósticas.
**4.Saktiawati, A. M. I., Putera, D. D., Setyawan, A., Mahendradhata, Y., y van der Werf, T. S. (2019). Diagnosis of tuberculosis in tuberculosis-suspect patients attending lung clinics in Yogyakarta, Indonesia. BMC Public Health, 19, 363. https://doi.org/10.1186/s12889-019-6658-8
**5.Tukey, J. W. (1977). Exploratory Data Analysis. Addison-Wesley.
**6. Youden, W. J. (1950). Index for rating diagnostic tests. Cancer, 3(1), 32-35.

Taller características de desempeño de las pruebas diagnósticas

Evaluación de una prueba rutinaria para tuberculosis en una cohorte simulada

Jenny Carolina Pineda Camargo - Maestría en Epidemiología, Universidad ICESI

30 de mayo de 2026