library(readxl)
base_analisis_R <- read_excel("C:/Users/diana/OneDrive - PUJ Cali/Proyecto Tesis DR/base_analisis_R.xlsx", 
    col_types = c("numeric", "text", "numeric", 
        "date", "text", "date", "text", "numeric", 
        "text", "text", "text", "text", "text", 
        "text", "text", "text", "text", "text", 
        "text", "text", "text", "text", "text", 
        "text", "text", "text", "text", "text", 
        "text", "text", "text", "text", "text", 
        "text", "text", "text", "date", "text", 
        "text", "text", "text", "text", "text", 
        "text", "text", "text", "text", "text", 
        "text", "text", "text", "text", "text", 
        "text", "text", "text", "text", "text", 
        "text", "text"))
View(base_analisis_R)

DESCRIPTIVO UNIVARIADO

El dataset cuenta con 10102 registros y 59 atributos. De los cuales una variable edad es numerica y las demás son categóricas. Adicionalmente, se cuenta con 3 variables que contienen fechas (Fecha de inicio de sintomas. fecha de inicio de tratamiento y fecha de egreso del programa.)

En cuanto a la edad, la media y mediana es de 50 años con un maximo de 109 años y un minimo de menor de 1 año o meses de edad.

df <- as.data.frame(base_analisis_R)

hist(x = df$AÑO, main = "Histograma de casos", 
     xlab = "Año", ylab = "Frecuencia",
     col = "purple")

tabla40=table(df$AÑO)
tabla40

## 
## 2016 2017 2018 2019 2020 2021 2022 
## 1311 1364 1334 1534 1253 1498 1808

prop.table(tabla40)*100

## 
##     2016     2017     2018     2019     2020     2021     2022 
## 12.97763 13.50228 13.20531 15.18511 12.40348 14.82875 17.89745

año <- c(1311, 1364, 1334, 1534, 1253, 1498, 1808)
casos<- c(2016, 2017, 2018, 2019, 2020, 2021, 2022)


plot(casos, año, type = "o", col="seagreen2")

mean(tabla40)

## [1] 1443.143

sd(tabla40)

## [1] 189.8143

library(scales)

## 
## Attaching package: 'scales'

## The following objects are masked from 'package:psych':
## 
##     alpha, rescale

## The following object is masked from 'package:purrr':
## 
##     discard

## The following object is masked from 'package:readr':
## 
##     col_factor

g = ggplot(df, aes(AÑO, fill=SEXO) ) +
  labs(title = "Casos por año y Sexo")+ylab("") +
  theme(plot.title = element_text(size = rel(2), colour = "blue"))

g+geom_bar(position="dodge") + scale_fill_manual(values = alpha(c("pink", "blue", "green", "grey"), 1)) +
  theme(axis.title.x = element_text(face="bold", size=7))

boxplot(df$EDAD~base_analisis_R$AÑO,
main = "Figura 1. Distribución de edad en pacientes con TB por año",
ylab="edad", 
xlab = "Año", las=1,
col=c("#960200","#ee964b"))

pl <- ggplot(df, aes(x=EDAD))
pl + geom_histogram()

## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

pl2 <- pl + geom_histogram(binwidth = 0.1, col='black', fill='green', alpha=0.4)
pl2

Las variables categoricas se analizan en tablas:

# Tabla de frecuencias de categoricas
tabla1=table(df$SEXO)
tabla1

## 
##    F    M 
## 3415 6687

prop.table(tabla1)*100

## 
##        F        M 
## 33.80519 66.19481

El 66.2% de los pacientes que ingresaron al programa de TB entre 2016 y 2022 son hombres (6.687), el porcentaje restante corresponde a mujeres.

#base_analisis_R$INGRESO_TTO <- toupper(base_analisis_R$INGRESO_TTO)
#df$INGRESO_TTO<- str_replace(df$INGRESO_TTO, "si","SI")
tabla2=table(df$INGRESO_TTO)
tabla2

## 
##   NO   SI 
##  433 9669

prop.table(tabla2)*100

## 
##       NO       SI 
##  4.28628 95.71372

El 95.7% de las personas que ingresaron al programa iniciaron tratamiento tetraconjugado. Del procentaje restante de quienes no iniciaron tratamiento el 72% fallecieron o el diagnostico fue postmortem y el 14.3% se descarto la tuberculosis como enfermedad causante del cuadro clínico.En el 8% no alcanzaron a iniciar tratamiento porque corresponden a pérdidas en el seguimiento.

## 
##                       DESCARTADO    EXCLUIDO DE LA COHORTE POR RR 
##                       14.3187067                        0.6928406 
## FALLECIDO DURANTE EL TRATAMIENTO                          FRACASO 
##                       72.9792148                        0.6928406 
##                      NO EVALUADO        PERDIDA EN EL SEGUIMIENTO 
##                        1.1547344                        8.3140878 
##            TRATAMIENTO TERMINADO 
##                        1.8475751

tabla4=table(df$`PERTENENCIA_ETNICA`)
prop.table(tabla4)*100

## 
##                      INDIGENA NEGRO, MULATO, AFROCOLOMBIANO 
##                    1.51455157                    0.81172045 
##                          OTRO                    PALENQUERO 
##                   97.46584835                    0.00989903 
##                        RAIZAL                 ROOM (GITANO) 
##                    0.06929321                    0.12868739

En cuanto a la pertenencia étnica se encuenrtra que la mayoria corresponde a indigenas 1.5%, seguido de problacion afrocolombiana 0.8% y ROOM 0.12%. El 97.4% no se autorreconoce como parte de una etnia. Dentro de los pacientes pertenecientes a etnia indigena se encuentra que los pueblos mas frecuentes son: Embera y Embera-Katío con el 45% de la representación de los pueblos indígenas.

ETNIA <- subset(df, df$`PERTENENCIA_ETNICA` == "INDIGENA")
#ETNIA <- chartr("ÁÉÍÓÚ", "AEIOU", toupper(ETNIA))
tabla5=table(ETNIA$PUEBLO_INDIGENA)
prop.table(tabla5)*100

## 
##      ACHAGUA          AWA         BARI         BORA     CARAPANA      CHIMILA 
##    0.6535948    0.6535948    1.9607843    0.6535948    1.9607843    0.6535948 
##        CUBEO       EMBERA EMBERA-CHAMI EMBERA KATIO EMBERA KATÍO      GUANACA 
##    0.6535948   21.5686275    1.3071895    2.6143791    8.4967320    0.6535948 
##    GUAYABERO      HUITOTO         INGA    KURRIPACO       MAKUNA       MIRAÑA 
##    1.9607843    0.6535948    5.2287582    1.3071895    0.6535948    0.6535948 
##      MUINANE           NA        NUKAK        PASTO       PIAROA        PIJAO 
##    0.6535948   27.4509804    1.3071895    0.6535948    0.6535948    2.6143791 
##   PIRATAPUYO      PUINAVE      SIKUANI     TANIMUKA       TIKUNA      TSIRIPU 
##    0.6535948    1.9607843    1.3071895    0.6535948    2.6143791    0.6535948 
##       TUCANO       UITOTO       WAUNAN        WAYUU        YUKPA 
##    1.9607843    0.6535948    0.6535948    2.6143791    0.6535948

tabla4=table(df$trabajador_salud)
tabla4

## 
##   NO   SI 
## 9898  204

prop.table(tabla4)*100

## 
##        NO        SI 
## 97.980598  2.019402

En cuanto a los grupos poblacionales especiales se encuentra que:

Hay 135 personas que refieren discapacidad lo que corresponde al 1.33%. Hay 79 personas que refieren desplazamiento forzado lo que corresponde al 0.78%. Hay 523 personas reportadas como migrantes lo que corresponde al 5.2%. Hay 339 personas reportadas como migrantes lo que corresponde al 3.4%. Hay 20 mujeres reportadas como gestantes lo que corresponde al 0.6% del total de mujeres. Hay 541 personas reportadas como habitantes de calle lo que corresponde al 5.4%. Hay 14 personas reportadas como poblacion en protección por parte de ICBF, lo que corresponde al 0.14%. Hay 339 personas reportadas como migrantes lo que corresponde al 3.4%. Hay 11 personas reportadas como poblacion psiquiatrica lo que corresponde al 0.11%. Hay 16 personas reportadas como victimas de la violencia por conflicto armado lo que corresponde al 0.16%. Hay 204 personas reportadas como trabajadores de la salud lo que corresponde al 2%. No se reportan personas madres comunitarias ni desmovilzados dentro de los grupos poblacionales.

c1=ggplot(df,aes(x=gp_discapa)) + geom_bar() + theme_gray()
c2=ggplot(df,aes(x= gp_desplaz)) + geom_bar() + theme_gray()
c3=ggplot(df,aes(x=gp_migrant)) + geom_bar() + theme_gray()
ggarrange(c1,c2,c3, labels = c("A", "B","C"), ncol = 3, nrow = 1)

c4=ggplot(df,aes(x=gp_carcela)) + geom_bar() + theme_gray()
c5=ggplot(df,aes(x=gp_gestan)) + geom_bar() + theme_gray()
c6=ggplot(df,aes(x=gp_indigen)) + geom_bar() + theme_gray()
ggarrange(c4,c5,c6, labels = c("D", "E", "F"), ncol = 3, nrow = 1)

c7=ggplot(df,aes(x=gp_pobicbf)) + geom_bar() + theme_gray()
c8=ggplot(df,aes(x=gp_mad_com)) + geom_bar() + theme_gray()
c9=ggplot(df,aes(x=gp_desmovi)) + geom_bar() + theme_gray()
ggarrange(c7,c8,c9, labels = c("G", "H", "I"), ncol = 3, nrow = 1)

c10=ggplot(df,aes(x=gp_psiquia)) + geom_bar() + theme_gray()
c11=ggplot(df,aes(x=gp_vic_vio)) + geom_bar() + theme_gray()
c12=ggplot(df,aes(x=trabajador_salud)) + geom_bar() + theme_gray()
ggarrange(c10,c11,c12, labels = c("J", "K", "L"), ncol = 3, nrow = 1)

df$LOC_RES<- str_replace(df$LOC_RES, "Antonio Nariño","15")
df$LOC_RES<- str_replace(df$LOC_RES, "Barrios Unidos","12")
df$LOC_RES<- str_replace(df$LOC_RES, "Bosa","7")
df$LOC_RES<- str_replace(df$LOC_RES, "Chapinero","2")
df$LOC_RES<- str_replace(df$LOC_RES, "Ciudad Bolivar","19")
df$LOC_RES<- str_replace(df$LOC_RES, "Engativa","10")
df$LOC_RES<- str_replace(df$LOC_RES, "Fontibon","9")
df$LOC_RES<- str_replace(df$LOC_RES, "Fuera de Bogota","FDB")
df$LOC_RES<- str_replace(df$LOC_RES, "Kennedy","8")
df$LOC_RES<- str_replace(df$LOC_RES, "La Candelaria","17")
df$LOC_RES<- str_replace(df$LOC_RES, "Los Martires","14")
df$LOC_RES<- str_replace(df$LOC_RES, "Puente Aranda","16")
df$LOC_RES<- str_replace(df$LOC_RES, "Rafael Uribe Uribe","18")
df$LOC_RES<- str_replace(df$LOC_RES, "San Cristobal","4")
df$LOC_RES<- str_replace(df$LOC_RES, "Santafe","3")
df$LOC_RES<- str_replace(df$LOC_RES, "Suba","11")
df$LOC_RES<- str_replace(df$LOC_RES, "Teusaquillo","13")
df$LOC_RES<- str_replace(df$LOC_RES, "Tunjuelito","6")
df$LOC_RES<- str_replace(df$LOC_RES, "Usaquen","1")
df$LOC_RES<- str_replace(df$LOC_RES, "Usme","5")
df$LOC_RES<- str_replace(df$LOC_RES, "Sumapaz","20")

ggplot(df, aes(x = LOC_RES)) +                      #1
  #geom_bar() +                                             #2
  geom_bar(width=0.4, colour="red", fill="skyblue") +       #2 
  
  labs(x="localidad residencia",y= "Frecuencia")  +              #3               
  ylim(c(0,3000)) +                               #4
  #xlim(c(0,300)) +                              #4
  ggtitle("Casos por localidad de residencia")  +               #5
  
  # theme_bw() +                                 #6
  theme_bw(base_size = 22) +                     #6
  #coord_flip() +                                #7
  
  geom_text(aes(label=..count..), stat='count',  #8
            position=position_dodge(0.8), 
            vjust=-0.4, 
            size=4.0
            ) + 
  scale_y_continuous(labels = scales::number_format()) +
  theme_classic() + 
  theme(axis.text.x = element_text(angle = 90, vjust=0.5, size = 8), 
        panel.grid.minor = element_blank()) #9

## Scale for y is already present.
## Adding another scale for y, which will replace the existing scale.

## Warning: The dot-dot notation (`..count..`) was deprecated in ggplot2 3.4.0.
## ℹ Please use `after_stat(count)` instead.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.

En cuanto a la localidad de residencia, se encuentra que el 19.2% (n=1938 casos) pese a ser diagnosticados en Bogotá residen fuera de la ciudad, el 80.8 % de los casos restantes (n=8164) residen en su mayoria en la localidad de Suba 12%, Kennedy 11.8%, seguido de Engativa 9%, Ciudad Bolivar 8.2%, Rafael uribe Uribe 8.1% y Bosa 7%. En estas localidades se concentra la mayor cantidad de pacientes adscritos al programa de tuberculosis de los ultimos 7 años.

df$LOC_DX<- str_replace(df$LOC_DX, "Antonio Nariño","15")
df$LOC_DX<- str_replace(df$LOC_DX, "Barrios Unidos","12")
df$LOC_DX<- str_replace(df$LOC_DX, "Bosa","7")
df$LOC_DX<- str_replace(df$LOC_DX, "Chapinero","2")
df$LOC_DX<- str_replace(df$LOC_DX, "Ciudad Bolivar","19")
df$LOC_DX<- str_replace(df$LOC_DX, "Engativa","10")
df$LOC_DX<- str_replace(df$LOC_DX, "Fontibon","9")
df$LOC_DX<- str_replace(df$LOC_DX, "Kennedy","8")
df$LOC_DX<- str_replace(df$LOC_DX, "La Candelaria","17")
df$LOC_DX<- str_replace(df$LOC_DX, "Los Martires","14")
df$LOC_DX<- str_replace(df$LOC_DX, "Puente Aranda","16")
df$LOC_DX<- str_replace(df$LOC_DX, "Rafael Uribe Uribe","18")
df$LOC_DX<- str_replace(df$LOC_DX, "San Cristobal","4")
df$LOC_DX<- str_replace(df$LOC_DX, "Santafe","3")
df$LOC_DX<- str_replace(df$LOC_DX, "Suba","11")
df$LOC_DX<- str_replace(df$LOC_DX, "Teusaquillo","13")
df$LOC_DX<- str_replace(df$LOC_DX, "Tunjuelito","6")
df$LOC_DX<- str_replace(df$LOC_DX, "Usaquen","1")
df$LOC_DX<- str_replace(df$LOC_DX, "Usme","5")

ggplot(df, aes(x = LOC_DX)) +                      #1
  #geom_bar() +                                             #2
  geom_bar(width=0.4, colour="red", fill="skyblue") +       #2 
  
  labs(x="localidad DX",y= "Frecuencia")  +              #3               
  ylim(c(0,1200)) +                               #4
  #xlim(c(0,300)) +                              #4
              #5
  
  # theme_bw() +                                 #6
  theme_bw(base_size = 22) +                     #6
  #coord_flip() +                                #7
  
  geom_text(aes(label=..count..), stat='count',  #8
            position=position_dodge(0.8), 
            vjust=-0.4, 
            size=4.0
            ) + 
  facet_wrap(~"Variable Localidad DX")+ 
 theme_classic() + 
  theme(axis.text.x = element_text(angle = 90, vjust=0.5, size = 8), 
        panel.grid.minor = element_blank())

## Warning: Removed 2 rows containing missing values or values outside the scale range
## (`geom_bar()`).

## Warning: Removed 2 rows containing missing values or values outside the scale range
## (`geom_text()`).

En relación con la localidad de diagnóstico se evidencia que los casos son diagnosticados en su mayoria en IPS de la Subred Norte la cual concentra el 34.7% de los casos diagnosticados en el distrito. Esto se debe a la oferta de servicios por parte de los prestadores de servicios de salud en Bogotá, se concentra en las localidades de chapinero 12.6%, Usaquen 12% y Teusaquillo 10.07%. La tercera localidad con mayor número de casos diagnosticados que no pertenece a la subred Norte es los Martires con 11.3% y la cuarta localidad es San Cristóbal con 9.4%, seguido de Kennedy con 8%, esto se debe a que en estas localidades se encuentran instituciones de alta complejidad con buena capacidad de diagnostico para TB.

df$REGIMEN_AFILIACION<- str_replace(df$REGIMEN_AFILIACION, "C - CONTRIBUTIVO","C")
df$REGIMEN_AFILIACION<- str_replace(df$REGIMEN_AFILIACION, "E - ESPECIAL","E")
df$REGIMEN_AFILIACION<- str_replace(df$REGIMEN_AFILIACION, "N - NO ASEGURADO","N")
df$REGIMEN_AFILIACION<- str_replace(df$REGIMEN_AFILIACION, "P - EXCEPCION","P")
df$REGIMEN_AFILIACION<- str_replace(df$REGIMEN_AFILIACION, "S - SUBSIDIADO","S")

pie(table(df$REGIMEN_AFILIACION), col=c("blue", "grey", "green", "yellow", "orange", "violet"), main="Distribucion de casos por tipo de aseguramiento")

Se observa que el 55.4% de los pacientes diagnosticados en Bogotá pertenecen al regimen contributivo (n=5599), seguido del regimen subsidiado con 30.6% (n=3088), en el 6.6% los pacientes no se encuentran asegurados al sistema de salud (n=669), en el 5.1% pertenecen a regimenes especiales (n=516) y en el 2.3% a regimen de excepción (n=230).

tabla6=table(df$REGIMEN_AFILIACION)
tabla6

## 
##    C    E    N    P    S 
## 5599  516  669  230 3088

prop.table(tabla6)*100

## 
##         C         E         N         P         S 
## 55.424668  5.107899  6.622451  2.276777 30.568204

pie(table(df$TIPO_TB), col=c("blue", "violet"), main="Distribucion de casos por tipo de TB")

Con relación al tipo de TB, se encuentra que el 69% de los casos confirmados en el distrito son TB pulmonares (n=6940) mientras que el 31% corresponden a formas extrapulmonares.

tabla7=table(df$TIPO_TB)
tabla7

## 
## EXTRAPULMONAR      PULMONAR 
##          3162          6940

prop.table(tabla7)*100

## 
## EXTRAPULMONAR      PULMONAR 
##      31.30073      68.69927

De las formas extrapulmonares, la localización anatómica mas frecuente es pleural 32.4% (n=1023), seguida de meningea 26.8% (n=848), ganglionar 11.6% (n=366) principalmente.

df$LOCALIZACION_EXTRA<- str_replace(df$LOCALIZACION_EXTRA, "Vejiga","Genitourinaria")
tabla8=table(df$LOCALIZACION_EXTRA)
tabla8

## 
##        Cutanea     Ganglionar Genitourinaria     Intestinal       Laringea 
##             49            366             83             82              1 
##       Meningea             NA Osteoarticular           Otro    Pericardica 
##            848           6940            209            223            111 
##     Peritoneal        Pleural          Renal 
##            148           1023             19

prop.table(tabla8)*100

## 
##        Cutanea     Ganglionar Genitourinaria     Intestinal       Laringea 
##     0.48505246     3.62304494     0.82161948     0.81172045     0.00989903 
##       Meningea             NA Osteoarticular           Otro    Pericardica 
##     8.39437735    68.69926747     2.06889725     2.20748367     1.09879232 
##     Peritoneal        Pleural          Renal 
##     1.46505642    10.12670758     0.18808157

df$CONDICION_INGRESO<- str_replace(df$CONDICION_INGRESO, "OTROS PREVIAMENTE TRATADOS","OPT")
df$CONDICION_INGRESO<- str_replace(df$CONDICION_INGRESO, "REINGRESO TRAS FRACASO","RTF")
df$CONDICION_INGRESO<- str_replace(df$CONDICION_INGRESO, "REINGRESO TRAS PERDIDA EN EL SEGUIMIENTO","RTPS")
df$CONDICION_INGRESO<- str_replace(df$CONDICION_INGRESO, "REINGRESO TRAS RECAIDA","RTR")


barplot(table(df$CONDICION_INGRESO), col=c("orange","blue", "yellow", "red", "green", "cyan", "grey"), main="Distribucion de condiciones de ingreso al programa de los pacientes con TB" )

El 934.% de los casos corresponden a casos nuevos, mientras que el 3.1% son previamente tratados de los que no se tiene traza de los tratamientos previos recibidos. Por otro lado, el 2.2% de los casos corresponden a recuperados tras perdida en el seguimiento, 1.06% reingresos por recaídas y 0.25% reingreso tras fracaso del tratamiento.

tabla9=table(df$CONDICION_INGRESO)
tabla9

## 
##    NUEVO      OPT REMITIDO      RTF     RTPS      RTR 
##     9437      317        1       25      214      108

prop.table(tabla9)*100

## 
##       NUEVO         OPT    REMITIDO         RTF        RTPS         RTR 
## 93.41714512  3.13799248  0.00989903  0.24747575  2.11839240  1.06909523

Asi mismo, en cuanto a la realización de pruebas de laboratorio para el Diagnostico de la TB se encuentra que en el 54% las baciloscopias fueron negativas y en el 30.7% estas tuvieron un resultado positivo, por otro lado no se realizaron en el 14% de los casos y en el 1.3% no se cuenta con información de si se realizó esta prueba.

df$RESULTADO_BK_RECOD<- str_replace(df$RESULTADO_BK_RECOD, "NO REALIZADO","NR")
tabla10=table(df$RESULTADO_BK_RECOD)
tabla10

## 
## NEGATIVO       NR POSITIVO       SD 
##     5451     1410     3108      133

prop.table(tabla10)*100

## 
##  NEGATIVO        NR  POSITIVO        SD 
## 53.959612 13.957632 30.766185  1.316571

En cuanto a la realización de pruebas de laboratorio para el Diagnostico de la TB se encuentra que en el 30.54% de los casos cuenta con cultivo negativo para micobacterias, mientras que en el 41.3% tuvieron un resultado positivo, por otro lado no se realizó cultivo en el 22.5% de los casos y en el 5.7% no se cuenta con información de si se realizó esta prueba.

df$RESULTADO_CULTIVO_RECOD<- str_replace(df$RESULTADO_CULTIVO_RECOD, "NO REALIZADO","NR")
tabla11=table(df$RESULTADO_CULTIVO_RECOD)
tabla11

## 
## NEGATIVO       NR POSITIVO       SD 
##     3085     2268     4172      577

prop.table(tabla11)*100

## 
## NEGATIVO       NR POSITIVO       SD 
## 30.53851 22.45100 41.29875  5.71174

Con relación a pruebas moleculares para micobacterias, se encuentra que en el 45.3% de los casos cuenta con prueba molecular positiva, mientras que en el 15.1% tuvieron un resultado negativo, por otro lado no se realizó esta prueba al paciente en el 0.44% de los casos y en el 39.2% no se cuenta con información de si se realizó o no esta prueba. Al respecto, es importante mencionar que a partir del año 2020 se modificaron los algoritmos diagnosticos para tuberculosis en nuestro país, debido a las limitantes en sensibilidad que representan las baciloscopias y los cultivos en medio solido. A partir de ese año, se implementaron las pruebas moleculares y los cultivos en medio líquido, con el fin de disminuir los tiempos de diagnostico de la enfermedad y garantizar tratamientos oportunos con una buena adherencia por parte de los pacientes.

df$RESULTADO_PRUEBA_MOL_RECOD<- str_replace(df$RESULTADO_PRUEBA_MOL_RECOD, "NO REALIZADO","NR")
df$RESULTADO_PRUEBA_MOL_RECOD<- str_replace(df$RESULTADO_PRUEBA_MOL_RECOD, "NO INTERPRETABLE","NI")
tabla12=table(df$RESULTADO_PRUEBA_MOL_RECOD)
tabla12

## 
## NEGATIVO       NI       NR POSITIVO       SD 
##     1525        4       45     4571     3957

prop.table(tabla12)*100

## 
##    NEGATIVO          NI          NR    POSITIVO          SD 
## 15.09602059  0.03959612  0.44545635 45.24846565 39.17046129

Con relacion a la identificación de resistencias se encuentra que la prueba de susceptibilidad a farmacos se le practicó al 48.2% de los pacientes (n= 4.867). Es importante mencionar que esta prueba se priorizaba a personas que cumplian criterios específicos, por tal razón el porcentaje de no realización es del 51.8%. No obstante, con los nuevos algoritmos diagnosticos se realizan de manera simultanea la prueba molecular y la detección de genes de resistencia.

df$PRUEBA_SUSCEPTIBILIDAD_FARMACOS<- str_replace(df$PRUEBA_SUSCEPTIBILIDAD_FARMACOS, "NO REALIZADA","NR")
df$PRUEBA_SUSCEPTIBILIDAD_FARMACOS<- str_replace(df$PRUEBA_SUSCEPTIBILIDAD_FARMACOS, "PCR EN TIEMPO REAL","PCR-TR")

tabla13=table(df$PRUEBA_SUSCEPTIBILIDAD_FARMACOS)
tabla13

## 
## BACTEC MGIT        LIPA          NR      PCR-TR 
##         271         971        5235        3625

prop.table(tabla13)*100

## 
## BACTEC MGIT        LIPA          NR      PCR-TR 
##    2.682637    9.611958   51.821422   35.883983

De las 4.867 pruebas de resistencia realizadas, no se encontró resistencia en el 48.5% de los casos. De los tipos de resistencia mas frecuentes en el distrito se encuentran: monoresistencia isoniacida 52%, seguido de resistencia a rifampicina 32%, multidrogorresistencia 11.9%, y en menor proporcion se encuentran otro tipo de monorresistencias y polirresistencias.

df$FARMACORRESISTENCIA<- str_replace(df$FARMACORRESISTENCIA, "NO REALIZADA","NR")
tabla14=table(df$FARMACORRESISTENCIA)
tabla14

## 
##      Isoniacida             MDR Monoresistencia         Ninguna              NR 
##              88              20               5            4898            5036 
##  Poliresistente              RR 
##               1              54

prop.table(tabla14)*100

## 
##      Isoniacida             MDR Monoresistencia         Ninguna              NR 
##      0.87111463      0.19798060      0.04949515     48.48544843     49.85151455 
##  Poliresistente              RR 
##      0.00989903      0.53454761

La condición de egreso de los pacientes adscritos al programa de TB del distrito en los ultimos 7 años, el 61% corresponde a curaciones (para el caso de TB pulmonar) y tratamientos finalizados, es decir el exito programático.En el 21.5% el paciente falleció durante el tratamiento o el diagnostico de TB, se realizó post mortem. El 5.2% de los pacientes se descartaron, esto sucede cuando se identifican que se trata de micobacterias no tuberculosas. La perdida de seguimiento en los ultimos 7 años para el distrito corresponde al 7.3%. En el 3% corresponde a no evaluados, esto se da porque no fue posible identificar si el paciente logró terminar su tratamiento de manera exitosa, por lo general corresponde a pacientes que residen fuera de Bogotá y no se obtiene realimentación del ente territorial. En menor proporción se encuentran los fracasos terapeuticos 0.6% y exclusiones por resistencias a medicamentos de primera linea para TB 0.92%.

df$CONDICION_EGRESO<- str_replace(df$CONDICION_EGRESO, "EXCLUIDO DE LA COHORTE POR RR","EXCLUIDO RR")
df$CONDICION_EGRESO<- str_replace(df$CONDICION_EGRESO, "FALLECIDO DURANTE EL TRATAMIENTO","FALLECIDO")
df$CONDICION_EGRESO<- str_replace(df$CONDICION_EGRESO, "TRATAMIENTO TERMINADO","TTO TERMINADO")
df$CONDICION_EGRESO<- str_replace(df$CONDICION_EGRESO, "PERDIDA EN EL SEGUIMIENTO","PERDIDA")
tabla15=table(df$CONDICION_EGRESO)
tabla15

## 
##        CURADO    DESCARTADO   EXCLUIDO RR     FALLECIDO       FRACASO 
##          1422           526            93          2172            61 
##   NO EVALUADO       PERDIDA TTO TERMINADO 
##           309           738          4781

prop.table(tabla15)*100

## 
##        CURADO    DESCARTADO   EXCLUIDO RR     FALLECIDO       FRACASO 
##    14.0764205     5.2068897     0.9206098    21.5006929     0.6038408 
##   NO EVALUADO       PERDIDA TTO TERMINADO 
##     3.0588002     7.3054841    47.3272619

Se encuentra que el 19.7% de los pacientes presentan coinfección con VIH, mientras que en el 74.7% no presentan coinfección y en el 5.6 es desconocido, esto puede deberse a que el paciente fallece o no accede a realizarse las pruebas colaborativas entre TB y VIH.

coinfeccion <- subset(df, df$CONDICION_VIH == "POSITIVO")
tabla16=table(df$CONDICION_VIH)
tabla16

## 
## DESCONOCIDO    NEGATIVO    POSITIVO 
##         561        7545        1996

prop.table(tabla16)*100

## 
## DESCONOCIDO    NEGATIVO    POSITIVO 
##    5.553356   74.688181   19.758464

De los pacientes con coinfección se encuentra que el 77% esta recibiendo terapia antiretroviral, el 21.7 no la recibe y en el 1.1% no se cuenta con esta información.

coinfeccion$RECIBE_TAR <- toupper(coinfeccion$RECIBE_TAR)
tabla17=table(coinfeccion$RECIBE_TAR)
tabla17

## 
##   NO   SD   SI 
##  420   86 1490

prop.table(tabla17)*100

## 
##        NO        SD        SI 
## 21.042084  4.308617 74.649299

En cuanto a las comorbilidades de los pacientes que ingresaron al programa de TB en los ultimos 7 años, se encuentra que:

Hay 33 personas que refieren alcoholismo lo que corresponde al 0.3%. Hay 562 personas que presentan cancer lo que corresponde al 5.6%. Hay 22 personas reportadas con antecedente de enfermedades cardiovasculares lo que corresponde al 0.2%. Hay 124 personas reportadas como consumidoras de SPA lo que corresponde al 1.2%. Hay 100 personas cursando con COVID-19 de forma simultánea, lo que corresponde al 0.99%. Hay 1760 personas reportadas con Desnutrición lo que corresponde al 17.4%. Hay 906 personas reportadas con Diabetes, lo que corresponde al 9%. Hay 11 personas reportadas con enfermedades mentales (no se incluye adicciones), lo que corresponde al 0.11%. Hay 255 personas reportadas con enfermedades autoinmunes, lo que corresponde al 2.5%. Hay 162 personas reportadas con enfermedad hepatica, lo que corresponde al 1.6%. Hay 883 personas reportadas con enfermedad renal, lo que corresponde al 8.7%. Hay 1082 personas reportadas con Enfermedad Pulmonar Obstructiva Cronica (EPOC), lo que corresponde al 10.7%. Hay 137 personas cursando con silicosis, lo que corresponde al 0.99%. Hay 79 personas cursando con tabaquismo, lo que corresponde al 0.80%. Se encuentran 1087 personas con hipotiroidismo, lo que corresponde al 10.76% Se encuentran 1074 personas con otras comorbilidades reportadas, lo que corresponde al 10.63%

#tabla30=table(df$Hipotiroidismo)
#tabla30
#prop.table(tabla30)*100

c13=ggplot(df,aes(x=Alcoholismo)) + geom_bar() + theme_gray()
c14=ggplot(df,aes(x=Cancer)) + geom_bar() + theme_gray()
c15=ggplot(df,aes(x=Cardiovascular)) + geom_bar() + theme_gray()
ggarrange(c13,c14,c15, labels = c("M", "N", "O"), ncol = 3, nrow = 1)

c16=ggplot(df,aes(x=Consumidor_SPA)) + geom_bar() + theme_gray()
c17=ggplot(df,aes(x=`Covid-19`)) + geom_bar() + theme_gray()
c18=ggplot(df,aes(x=Desnutricion)) + geom_bar() + theme_gray()
ggarrange(c16,c17,c18, labels = c("P", "Q", "R"), ncol = 3, nrow = 1)

c19=ggplot(df,aes(x=Diabetes)) + geom_bar() + theme_gray()
c20=ggplot(df,aes(x=Enf_Mental)) + geom_bar() + theme_gray()
c21=ggplot(df,aes(x=Enf_Autoinmune)) + geom_bar() + theme_gray()
ggarrange(c19,c20,c21, labels = c("S", "T", "U"), ncol = 3, nrow = 1)

c22=ggplot(df,aes(x=Enf_Hepatica)) + geom_bar() + theme_gray()
c23=ggplot(df,aes(x=Enf_Renal)) + geom_bar() + theme_gray()
c24=ggplot(df,aes(x=EPOC)) + geom_bar() + theme_gray()
ggarrange(c22,c23,c24, labels = c("V", "W", "X"), ncol = 3, nrow = 1)

c25=ggplot(df,aes(x=Hipotiroidismo)) + geom_bar() + theme_gray()
c26=ggplot(df,aes(x=Otra_Enf)) + geom_bar() + theme_gray()
c27=ggplot(df,aes(x=Silicosis)) + geom_bar() + theme_gray()
ggarrange(c25, c26, c27,  labels = c("Y", "Z", "AA"), ncol = 3, nrow = 1)

c28=ggplot(df,aes(x=Tabaquismo)) + geom_bar() + theme_gray()
ggarrange(c28, labels = c("AB"), ncol = 1, nrow = 1)

En cuanto a la modalidad de tratamiento, esta variable se comenzó a diligenciar por parte del programa de TB desde el año 2020 (año pandemico dadas las dinamicas que esto generó a la atención de pacientes desde el sistema de salud); por esta razón el 55% de los registros no cuenta con esta información. No obstante, para los ultimos dos años el TDO en IPS representa el 34% de las modalidades tratamiento seguido del TDO hospitalario 7.8% y TDO virtual 1.33%

df$MODALIDAD_TDO<- str_replace(df$MODALIDAD_TDO, "TDO VIRTUAL","VIRTUAL")
df$MODALIDAD_TDO<- str_replace(df$MODALIDAD_TDO, "TDO COMUNITARIO","COMUNITARIO")
df$MODALIDAD_TDO<- str_replace(df$MODALIDAD_TDO, "TDO DOMICILIARIO","DOMICILIARIO")
df$MODALIDAD_TDO<- str_replace(df$MODALIDAD_TDO, "TDO EN IPS","IPS")
df$MODALIDAD_TDO<- str_replace(df$MODALIDAD_TDO, "TDO HOSPITALARIO","HOSPITALARIO")
df$MODALIDAD_TDO <- toupper(df$MODALIDAD_TDO)

tabla18=table(df$MODALIDAD_TDO)
tabla18

## 
##              IPS      NO EVALUADO  TDO COMUNITARIO TDO DOMICILIARIO 
##               68             5572               67               56 
##       TDO EN IPS TDO HOSPITALARIO      TDO VIRTUAL 
##             3413              791              135

prop.table(tabla18)*100

## 
##              IPS      NO EVALUADO  TDO COMUNITARIO TDO DOMICILIARIO 
##        0.6731340       55.1573946        0.6632350        0.5543457 
##       TDO EN IPS TDO HOSPITALARIO      TDO VIRTUAL 
##       33.7853890        7.8301326        1.3363690

En el 22.1% de los casos los pacientes no reciben ningun tipo de subsidio, seguido de no aplica a subsisdio 20.9%. De quienes si reciben algun tipo de apoyo el mas frecuente es el subsidio alimentario 0.92%, seguido d eotros subsidios 0.5%.

df$PROGRAMAS_PROTECC_SOCIAL<- str_replace(df$PROGRAMAS_PROTECC_SOCIAL, "Cuenta con varios subsidios de apoyo","Varios")
df$PROGRAMAS_PROTECC_SOCIAL<- str_replace(df$PROGRAMAS_PROTECC_SOCIAL, "Subsidio alimentario","Alimentario")
df$PROGRAMAS_PROTECC_SOCIAL<- str_replace(df$PROGRAMAS_PROTECC_SOCIAL, "Subsidio de transporte","Transporte")
df$PROGRAMAS_PROTECC_SOCIAL<- str_replace(df$PROGRAMAS_PROTECC_SOCIAL, "Subsidio educativo","Educativo")
df$PROGRAMAS_PROTECC_SOCIAL<- str_replace(df$PROGRAMAS_PROTECC_SOCIAL, "No aplica a subsidios","NA")
df$PROGRAMAS_PROTECC_SOCIAL<- str_replace(df$PROGRAMAS_PROTECC_SOCIAL, "No recibe ninguno","Ninguno")
df$PROGRAMAS_PROTECC_SOCIAL<- str_replace(df$PROGRAMAS_PROTECC_SOCIAL, "Subsidio de desempleo","Desempleo")
df$PROGRAMAS_PROTECC_SOCIAL<- str_replace(df$PROGRAMAS_PROTECC_SOCIAL, "Subsidio monetario","Monetario")

#base_analisis_R$MODALIDAD_TDO <- toupper(base_analisis_R$MODALIDAD_TDO)
tabla19=table(df$PROGRAMAS_PROTECC_SOCIAL)
tabla19

## 
##          Alimentario            Desempleo            Educativo 
##                   93                    3                    7 
##            Monetario                   NA              Ninguno 
##                   25                 2110                 2238 
##          No evaluado Subsidio de vivienda           Transporte 
##                 5543                   30                    2 
##               Varios 
##                   51

prop.table(tabla19)*100

## 
##          Alimentario            Desempleo            Educativo 
##           0.92060978           0.02969709           0.06929321 
##            Monetario                   NA              Ninguno 
##           0.24747575          20.88695308          22.15402891 
##          No evaluado Subsidio de vivienda           Transporte 
##          54.87032271           0.29697090           0.01979806 
##               Varios 
##           0.50485052

En cuanto a las reacciones adversas al tratamiento tetraconjugado, se describen un total de 49, de las cuales las reacciones graves son las mas frecuentes con 0.41%, seguido de moderadas 0.39%. Lo que permite deducir que estos medicamentos son bastantes seguros ya que el 98.9% no reportó ningun tipo de reacción.

df$REACCIONES_ADVERSAS_TTO<- str_replace(df$REACCIONES_ADVERSAS_TTO, "Moderado","Moderada")
df$REACCIONES_ADVERSAS_TTO<- str_replace(df$REACCIONES_ADVERSAS_TTO, "leve","Leve")

tabla20=table(df$REACCIONES_ADVERSAS_TTO)
tabla20

## 
##    Grave     Leve Moderada  Ninguna       SD 
##       19       12       18     4520     5533

prop.table(tabla20)*100

## 
##      Grave       Leve   Moderada    Ninguna         SD 
##  0.1880816  0.1187884  0.1781825 44.7436151 54.7713324

eL 98.9% de los pacientes diagnosticados se captaron a través de Busqueda Activa Institucional. El 0.92% por busqueda activa derivada del trabajador de la salud y en menor proporción se reporta durante el estudio de contactos 0.08% y remitido por el CNE 0.02%.

df$METODOLOGIA_CAPTACION<- str_replace(df$METODOLOGIA_CAPTACION, "Busqueda trabajador salud","BTS")
df$METODOLOGIA_CAPTACION<- str_replace(df$METODOLOGIA_CAPTACION, "Durante estudio de contactos","Contactos")
df$METODOLOGIA_CAPTACION<- str_replace(df$METODOLOGIA_CAPTACION, "Remitido por CNE","CNE")

tabla21=table(df$METODOLOGIA_CAPTACION)
tabla21

## 
##       BAI      BTS.       CNE Contactos        SD 
##      4512        42         1         4      5543

prop.table(tabla21)*100

## 
##         BAI        BTS.         CNE   Contactos          SD 
## 44.66442289  0.41575926  0.00989903  0.03959612 54.87032271

##ANALISIS BIVARIADO

Se realiza cruce con la variable objetivo y las variables de la base de datos con el fin de identificar posibles relaciones entre ellas.

t1 <- table1::table1(~INGRESO_TTO + SEXO + EDAD + REGIMEN_AFILIACION + TIPO_TB + CONDICION_INGRESO + CONDICION_VIH + RESULTADO_BK_RECOD + RESULTADO_CULTIVO_RECOD + RESULTADO_PRUEBA_MOL_RECOD + PRUEBA_SUSCEPTIBILIDAD_FARMACOS + FARMACORRESISTENCIA + Alcoholismo + Cancer + Cardiovascular + Consumidor_SPA  + Desnutricion + Diabetes + Enf_Mental + Enf_Autoinmune + Enf_Hepatica + Enf_Renal + EPOC + Silicosis + Tabaquismo + Hipotiroidismo + Otra_Enf + MODALIDAD_TDO + PROGRAMAS_PROTECC_SOCIAL + REACCIONES_ADVERSAS_TTO + METODOLOGIA_CAPTACION +PERTENENCIA_ETNICA + gp_discapa + gp_desplaz + gp_migrant + gp_carcela + gp_gestan + gp_indigen + gp_pobicbf + gp_psiquia + gp_vic_vio + trabajador_salud + gp_otros + LOC_RES + LOC_DX + LOCALIZACION_EXTRA | CONDICION_EGRESO, data = df )
t1

	CURADO (N=1422)	DESCARTADO (N=526)	EXCLUIDO RR (N=93)	FALLECIDO (N=2172)	FRACASO (N=61)	NO EVALUADO (N=309)	PERDIDA (N=738)	TTO TERMINADO (N=4781)	Overall (N=10102)
INGRESO_TTO
SI	1422 (100%)	464 (88.2%)	90 (96.8%)	1856 (85.5%)	58 (95.1%)	304 (98.4%)	702 (95.1%)	4773 (99.8%)	9669 (95.7%)
NO	0 (0%)	62 (11.8%)	3 (3.2%)	316 (14.5%)	3 (4.9%)	5 (1.6%)	36 (4.9%)	8 (0.2%)	433 (4.3%)
SEXO
F	572 (40.2%)	176 (33.5%)	30 (32.3%)	603 (27.8%)	20 (32.8%)	73 (23.6%)	200 (27.1%)	1741 (36.4%)	3415 (33.8%)
M	850 (59.8%)	350 (66.5%)	63 (67.7%)	1569 (72.2%)	41 (67.2%)	236 (76.4%)	538 (72.9%)	3040 (63.6%)	6687 (66.2%)
EDAD
Mean (SD)	53.0 (21.4)	47.2 (20.6)	53.0 (22.7)	57.5 (21.0)	51.2 (21.1)	44.7 (20.2)	40.8 (18.0)	48.3 (21.7)	50.3 (21.6)
Median [Min, Max]	56.0 [0, 97.0]	45.0 [0, 94.0]	56.0 [7.00, 100]	61.0 [0, 109]	51.0 [1.00, 90.0]	40.0 [0, 99.0]	36.0 [0, 91.0]	47.0 [0, 98.0]	50.0 [0, 109]
REGIMEN_AFILIACION
C	838 (58.9%)	303 (57.6%)	45 (48.4%)	1077 (49.6%)	31 (50.8%)	130 (42.1%)	224 (30.4%)	2951 (61.7%)	5599 (55.4%)
E	75 (5.3%)	16 (3.0%)	3 (3.2%)	79 (3.6%)	2 (3.3%)	26 (8.4%)	28 (3.8%)	287 (6.0%)	516 (5.1%)
N	55 (3.9%)	29 (5.5%)	4 (4.3%)	174 (8.0%)	5 (8.2%)	41 (13.3%)	134 (18.2%)	227 (4.7%)	669 (6.6%)
P	73 (5.1%)	10 (1.9%)	0 (0%)	35 (1.6%)	2 (3.3%)	8 (2.6%)	7 (0.9%)	95 (2.0%)	230 (2.3%)
S	381 (26.8%)	168 (31.9%)	41 (44.1%)	807 (37.2%)	21 (34.4%)	104 (33.7%)	345 (46.7%)	1221 (25.5%)	3088 (30.6%)
TIPO_TB
EXTRAPULMONAR	4 (0.3%)	234 (44.5%)	21 (22.6%)	726 (33.4%)	12 (19.7%)	114 (36.9%)	171 (23.2%)	1880 (39.3%)	3162 (31.3%)
PULMONAR	1418 (99.7%)	292 (55.5%)	72 (77.4%)	1446 (66.6%)	49 (80.3%)	195 (63.1%)	567 (76.8%)	2901 (60.7%)	6940 (68.7%)
CONDICION_INGRESO
NUEVO	1356 (95.4%)	505 (96.0%)	68 (73.1%)	2052 (94.5%)	53 (86.9%)	283 (91.6%)	588 (79.7%)	4532 (94.8%)	9437 (93.4%)
OPT	31 (2.2%)	19 (3.6%)	10 (10.8%)	59 (2.7%)	5 (8.2%)	14 (4.5%)	48 (6.5%)	131 (2.7%)	317 (3.1%)
RTF	3 (0.2%)	0 (0%)	6 (6.5%)	3 (0.1%)	0 (0%)	1 (0.3%)	6 (0.8%)	6 (0.1%)	25 (0.2%)
RTPS	22 (1.5%)	1 (0.2%)	6 (6.5%)	32 (1.5%)	0 (0%)	10 (3.2%)	82 (11.1%)	61 (1.3%)	214 (2.1%)
RTR	10 (0.7%)	1 (0.2%)	3 (3.2%)	25 (1.2%)	3 (4.9%)	1 (0.3%)	14 (1.9%)	51 (1.1%)	108 (1.1%)
REMITIDO	0 (0%)	0 (0%)	0 (0%)	1 (0.0%)	0 (0%)	0 (0%)	0 (0%)	0 (0%)	1 (0.0%)
CONDICION_VIH
DESCONOCIDO	30 (2.1%)	51 (9.7%)	5 (5.4%)	266 (12.2%)	0 (0%)	21 (6.8%)	54 (7.3%)	134 (2.8%)	561 (5.6%)
NEGATIVO	1293 (90.9%)	298 (56.7%)	65 (69.9%)	1296 (59.7%)	52 (85.2%)	211 (68.3%)	445 (60.3%)	3885 (81.3%)	7545 (74.7%)
POSITIVO	99 (7.0%)	177 (33.7%)	23 (24.7%)	610 (28.1%)	9 (14.8%)	77 (24.9%)	239 (32.4%)	762 (15.9%)	1996 (19.8%)
RESULTADO_BK_RECOD
NEGATIVO	517 (36.4%)	378 (71.9%)	45 (48.4%)	1237 (57.0%)	22 (36.1%)	152 (49.2%)	378 (51.2%)	2722 (56.9%)	5451 (54.0%)
NR	74 (5.2%)	94 (17.9%)	3 (3.2%)	325 (15.0%)	6 (9.8%)	45 (14.6%)	64 (8.7%)	799 (16.7%)	1410 (14.0%)
POSITIVO	828 (58.2%)	39 (7.4%)	45 (48.4%)	582 (26.8%)	31 (50.8%)	93 (30.1%)	289 (39.2%)	1201 (25.1%)	3108 (30.8%)
SD	3 (0.2%)	15 (2.9%)	0 (0%)	28 (1.3%)	2 (3.3%)	19 (6.1%)	7 (0.9%)	59 (1.2%)	133 (1.3%)
RESULTADO_CULTIVO_RECOD
NEGATIVO	313 (22.0%)	320 (60.8%)	8 (8.6%)	682 (31.4%)	9 (14.8%)	91 (29.4%)	226 (30.6%)	1436 (30.0%)	3085 (30.5%)
NR	249 (17.5%)	94 (17.9%)	17 (18.3%)	517 (23.8%)	6 (9.8%)	71 (23.0%)	134 (18.2%)	1180 (24.7%)	2268 (22.5%)
POSITIVO	799 (56.2%)	61 (11.6%)	68 (73.1%)	844 (38.9%)	46 (75.4%)	114 (36.9%)	338 (45.8%)	1902 (39.8%)	4172 (41.3%)
SD	61 (4.3%)	51 (9.7%)	0 (0%)	129 (5.9%)	0 (0%)	33 (10.7%)	40 (5.4%)	263 (5.5%)	577 (5.7%)
RESULTADO_PRUEBA_MOL_RECOD
NEGATIVO	74 (5.2%)	311 (59.1%)	3 (3.2%)	335 (15.4%)	4 (6.6%)	54 (17.5%)	92 (12.5%)	652 (13.6%)	1525 (15.1%)
NR	4 (0.3%)	0 (0%)	0 (0%)	17 (0.8%)	0 (0%)	0 (0%)	3 (0.4%)	21 (0.4%)	45 (0.4%)
POSITIVO	747 (52.5%)	43 (8.2%)	60 (64.5%)	962 (44.3%)	56 (91.8%)	141 (45.6%)	379 (51.4%)	2183 (45.7%)	4571 (45.2%)
SD	597 (42.0%)	171 (32.5%)	30 (32.3%)	856 (39.4%)	1 (1.6%)	114 (36.9%)	264 (35.8%)	1924 (40.2%)	3957 (39.2%)
NI	0 (0%)	1 (0.2%)	0 (0%)	2 (0.1%)	0 (0%)	0 (0%)	0 (0%)	1 (0.0%)	4 (0.0%)
PRUEBA_SUSCEPTIBILIDAD_FARMACOS
BACTEC MGIT	48 (3.4%)	0 (0%)	24 (25.8%)	39 (1.8%)	4 (6.6%)	10 (3.2%)	13 (1.8%)	133 (2.8%)	271 (2.7%)
LIPA	189 (13.3%)	3 (0.6%)	29 (31.2%)	209 (9.6%)	7 (11.5%)	13 (4.2%)	99 (13.4%)	422 (8.8%)	971 (9.6%)
NR	670 (47.1%)	361 (68.6%)	8 (8.6%)	1160 (53.4%)	1 (1.6%)	154 (49.8%)	321 (43.5%)	2560 (53.5%)	5235 (51.8%)
PCR-TR	515 (36.2%)	162 (30.8%)	32 (34.4%)	764 (35.2%)	49 (80.3%)	132 (42.7%)	305 (41.3%)	1666 (34.8%)	3625 (35.9%)
FARMACORRESISTENCIA
Isoniacida	2 (0.1%)	0 (0%)	47 (50.5%)	7 (0.3%)	25 (41.0%)	0 (0%)	1 (0.1%)	6 (0.1%)	88 (0.9%)
Monoresistencia	2 (0.1%)	0 (0%)	1 (1.1%)	0 (0%)	0 (0%)	0 (0%)	1 (0.1%)	1 (0.0%)	5 (0.0%)
Ninguna	778 (54.7%)	165 (31.4%)	4 (4.3%)	1040 (47.9%)	8 (13.1%)	167 (54.0%)	421 (57.0%)	2315 (48.4%)	4898 (48.5%)
NR	639 (44.9%)	361 (68.6%)	0 (0%)	1121 (51.6%)	1 (1.6%)	142 (46.0%)	313 (42.4%)	2459 (51.4%)	5036 (49.9%)
RR	1 (0.1%)	0 (0%)	26 (28.0%)	3 (0.1%)	22 (36.1%)	0 (0%)	2 (0.3%)	0 (0%)	54 (0.5%)
MDR	0 (0%)	0 (0%)	14 (15.1%)	1 (0.0%)	5 (8.2%)	0 (0%)	0 (0%)	0 (0%)	20 (0.2%)
Poliresistente	0 (0%)	0 (0%)	1 (1.1%)	0 (0%)	0 (0%)	0 (0%)	0 (0%)	0 (0%)	1 (0.0%)
Alcoholismo
NO	1417 (99.6%)	521 (99.0%)	92 (98.9%)	2165 (99.7%)	61 (100%)	309 (100%)	734 (99.5%)	4770 (99.8%)	10069 (99.7%)
SI	5 (0.4%)	5 (1.0%)	1 (1.1%)	7 (0.3%)	0 (0%)	0 (0%)	4 (0.5%)	11 (0.2%)	33 (0.3%)
Cancer
NO	1373 (96.6%)	473 (89.9%)	92 (98.9%)	2006 (92.4%)	58 (95.1%)	291 (94.2%)	710 (96.2%)	4537 (94.9%)	9540 (94.4%)
SI	49 (3.4%)	53 (10.1%)	1 (1.1%)	166 (7.6%)	3 (4.9%)	18 (5.8%)	28 (3.8%)	244 (5.1%)	562 (5.6%)
Cardiovascular
NO	1415 (99.5%)	526 (100%)	91 (97.8%)	2167 (99.8%)	61 (100%)	309 (100%)	738 (100%)	4773 (99.8%)	10080 (99.8%)
SI	7 (0.5%)	0 (0%)	2 (2.2%)	5 (0.2%)	0 (0%)	0 (0%)	0 (0%)	8 (0.2%)	22 (0.2%)
Consumidor_SPA
NO	1415 (99.5%)	518 (98.5%)	90 (96.8%)	2146 (98.8%)	60 (98.4%)	304 (98.4%)	689 (93.4%)	4756 (99.5%)	9978 (98.8%)
SI	7 (0.5%)	8 (1.5%)	3 (3.2%)	26 (1.2%)	1 (1.6%)	5 (1.6%)	49 (6.6%)	25 (0.5%)	124 (1.2%)
Desnutricion
NO	1249 (87.8%)	396 (75.3%)	83 (89.2%)	1689 (77.8%)	47 (77.0%)	256 (82.8%)	576 (78.0%)	4046 (84.6%)	8342 (82.6%)
SI	173 (12.2%)	130 (24.7%)	10 (10.8%)	483 (22.2%)	14 (23.0%)	53 (17.2%)	162 (22.0%)	735 (15.4%)	1760 (17.4%)
Diabetes
NO	1283 (90.2%)	480 (91.3%)	88 (94.6%)	1939 (89.3%)	53 (86.9%)	288 (93.2%)	698 (94.6%)	4367 (91.3%)	9196 (91.0%)
SI	139 (9.8%)	46 (8.7%)	5 (5.4%)	233 (10.7%)	8 (13.1%)	21 (6.8%)	40 (5.4%)	414 (8.7%)	906 (9.0%)
Enf_Mental
NO	1422 (100%)	526 (100%)	93 (100%)	2168 (99.8%)	61 (100%)	309 (100%)	734 (99.5%)	4778 (99.9%)	10091 (99.9%)
SI	0 (0%)	0 (0%)	0 (0%)	4 (0.2%)	0 (0%)	0 (0%)	4 (0.5%)	3 (0.1%)	11 (0.1%)
Enf_Autoinmune
NO	1408 (99.0%)	501 (95.2%)	92 (98.9%)	2113 (97.3%)	61 (100%)	299 (96.8%)	723 (98.0%)	4650 (97.3%)	9847 (97.5%)
SI	14 (1.0%)	25 (4.8%)	1 (1.1%)	59 (2.7%)	0 (0%)	10 (3.2%)	15 (2.0%)	131 (2.7%)	255 (2.5%)
Enf_Hepatica
NO	1407 (98.9%)	515 (97.9%)	92 (98.9%)	2110 (97.1%)	61 (100%)	306 (99.0%)	728 (98.6%)	4721 (98.7%)	9940 (98.4%)
SI	15 (1.1%)	11 (2.1%)	1 (1.1%)	62 (2.9%)	0 (0%)	3 (1.0%)	10 (1.4%)	60 (1.3%)	162 (1.6%)
Enf_Renal
NO	1326 (93.2%)	482 (91.6%)	89 (95.7%)	1935 (89.1%)	53 (86.9%)	289 (93.5%)	707 (95.8%)	4405 (92.1%)	9286 (91.9%)
SI	96 (6.8%)	44 (8.4%)	4 (4.3%)	237 (10.9%)	8 (13.1%)	20 (6.5%)	31 (4.2%)	376 (7.9%)	816 (8.1%)
EPOC
NO	1294 (91.0%)	460 (87.5%)	88 (94.6%)	1855 (85.4%)	50 (82.0%)	280 (90.6%)	692 (93.8%)	4301 (90.0%)	9020 (89.3%)
SI	128 (9.0%)	66 (12.5%)	5 (5.4%)	317 (14.6%)	11 (18.0%)	29 (9.4%)	46 (6.2%)	480 (10.0%)	1082 (10.7%)
Silicosis
NO	1398 (98.3%)	519 (98.7%)	93 (100%)	2147 (98.8%)	60 (98.4%)	302 (97.7%)	731 (99.1%)	4715 (98.6%)	9965 (98.6%)
SI	24 (1.7%)	7 (1.3%)	0 (0%)	25 (1.2%)	1 (1.6%)	7 (2.3%)	7 (0.9%)	66 (1.4%)	137 (1.4%)
Tabaquismo
NO	1418 (99.7%)	515 (97.9%)	92 (98.9%)	2159 (99.4%)	60 (98.4%)	305 (98.7%)	726 (98.4%)	4748 (99.3%)	10023 (99.2%)
SI	4 (0.3%)	11 (2.1%)	1 (1.1%)	13 (0.6%)	1 (1.6%)	4 (1.3%)	12 (1.6%)	33 (0.7%)	79 (0.8%)
Hipotiroidismo
NO	1270 (89.3%)	459 (87.3%)	88 (94.6%)	1901 (87.5%)	50 (82.0%)	273 (88.3%)	667 (90.4%)	4307 (90.1%)	9015 (89.2%)
SI	152 (10.7%)	67 (12.7%)	5 (5.4%)	271 (12.5%)	11 (18.0%)	36 (11.7%)	71 (9.6%)	474 (9.9%)	1087 (10.8%)
Otra_Enf
NO	1292 (90.9%)	508 (96.6%)	68 (73.1%)	1853 (85.3%)	61 (100%)	283 (91.6%)	658 (89.2%)	4305 (90.0%)	9028 (89.4%)
SI	130 (9.1%)	18 (3.4%)	25 (26.9%)	319 (14.7%)	0 (0%)	26 (8.4%)	80 (10.8%)	476 (10.0%)	1074 (10.6%)
MODALIDAD_TDO
IPS	19 (1.3%)	6 (1.1%)	0 (0%)	4 (0.2%)	0 (0%)	3 (1.0%)	3 (0.4%)	33 (0.7%)	68 (0.7%)
NO EVALUADO	883 (62.1%)	120 (22.8%)	92 (98.9%)	1250 (57.6%)	2 (3.3%)	120 (38.8%)	396 (53.7%)	2709 (56.7%)	5572 (55.2%)
TDO COMUNITARIO	7 (0.5%)	1 (0.2%)	0 (0%)	4 (0.2%)	0 (0%)	2 (0.6%)	6 (0.8%)	47 (1.0%)	67 (0.7%)
TDO DOMICILIARIO	7 (0.5%)	4 (0.8%)	0 (0%)	8 (0.4%)	1 (1.6%)	2 (0.6%)	3 (0.4%)	31 (0.6%)	56 (0.6%)
TDO EN IPS	457 (32.1%)	246 (46.8%)	1 (1.1%)	494 (22.7%)	37 (60.7%)	128 (41.4%)	271 (36.7%)	1779 (37.2%)	3413 (33.8%)
TDO HOSPITALARIO	24 (1.7%)	142 (27.0%)	0 (0%)	406 (18.7%)	19 (31.1%)	47 (15.2%)	51 (6.9%)	102 (2.1%)	791 (7.8%)
TDO VIRTUAL	25 (1.8%)	7 (1.3%)	0 (0%)	6 (0.3%)	2 (3.3%)	7 (2.3%)	8 (1.1%)	80 (1.7%)	135 (1.3%)
PROGRAMAS_PROTECC_SOCIAL
Alimentario	21 (1.5%)	1 (0.2%)	0 (0%)	6 (0.3%)	2 (3.3%)	1 (0.3%)	14 (1.9%)	48 (1.0%)	93 (0.9%)
Educativo	1 (0.1%)	0 (0%)	0 (0%)	0 (0%)	0 (0%)	0 (0%)	0 (0%)	6 (0.1%)	7 (0.1%)
Monetario	2 (0.1%)	3 (0.6%)	0 (0%)	0 (0%)	0 (0%)	1 (0.3%)	2 (0.3%)	17 (0.4%)	25 (0.2%)
NA	301 (21.2%)	192 (36.5%)	1 (1.1%)	435 (20.0%)	35 (57.4%)	95 (30.7%)	145 (19.6%)	906 (19.0%)	2110 (20.9%)
Ninguno	203 (14.3%)	220 (41.8%)	0 (0%)	485 (22.3%)	19 (31.1%)	87 (28.2%)	173 (23.4%)	1051 (22.0%)	2238 (22.2%)
No evaluado	883 (62.1%)	109 (20.7%)	92 (98.9%)	1239 (57.0%)	2 (3.3%)	118 (38.2%)	391 (53.0%)	2709 (56.7%)	5543 (54.9%)
Subsidio de vivienda	4 (0.3%)	0 (0%)	0 (0%)	2 (0.1%)	1 (1.6%)	1 (0.3%)	4 (0.5%)	18 (0.4%)	30 (0.3%)
Varios	7 (0.5%)	1 (0.2%)	0 (0%)	5 (0.2%)	2 (3.3%)	6 (1.9%)	9 (1.2%)	21 (0.4%)	51 (0.5%)
Desempleo	0 (0%)	0 (0%)	0 (0%)	0 (0%)	0 (0%)	0 (0%)	0 (0%)	3 (0.1%)	3 (0.0%)
Transporte	0 (0%)	0 (0%)	0 (0%)	0 (0%)	0 (0%)	0 (0%)	0 (0%)	2 (0.0%)	2 (0.0%)
REACCIONES_ADVERSAS_TTO
Grave	2 (0.1%)	2 (0.4%)	0 (0%)	5 (0.2%)	0 (0%)	1 (0.3%)	3 (0.4%)	6 (0.1%)	19 (0.2%)
Leve	2 (0.1%)	0 (0%)	0 (0%)	2 (0.1%)	0 (0%)	0 (0%)	1 (0.1%)	7 (0.1%)	12 (0.1%)
Ninguna	535 (37.6%)	414 (78.7%)	1 (1.1%)	927 (42.7%)	59 (96.7%)	190 (61.5%)	341 (46.2%)	2053 (42.9%)	4520 (44.7%)
SD	883 (62.1%)	109 (20.7%)	92 (98.9%)	1235 (56.9%)	2 (3.3%)	118 (38.2%)	389 (52.7%)	2705 (56.6%)	5533 (54.8%)
Moderada	0 (0%)	1 (0.2%)	0 (0%)	3 (0.1%)	0 (0%)	0 (0%)	4 (0.5%)	10 (0.2%)	18 (0.2%)
METODOLOGIA_CAPTACION
BAI	537 (37.8%)	411 (78.1%)	1 (1.1%)	924 (42.5%)	59 (96.7%)	191 (61.8%)	346 (46.9%)	2043 (42.7%)	4512 (44.7%)
BTS.	2 (0.1%)	5 (1.0%)	0 (0%)	8 (0.4%)	0 (0%)	0 (0%)	1 (0.1%)	26 (0.5%)	42 (0.4%)
SD	883 (62.1%)	109 (20.7%)	92 (98.9%)	1239 (57.0%)	2 (3.3%)	118 (38.2%)	391 (53.0%)	2709 (56.7%)	5543 (54.9%)
Contactos	0 (0%)	1 (0.2%)	0 (0%)	0 (0%)	0 (0%)	0 (0%)	0 (0%)	3 (0.1%)	4 (0.0%)
CNE	0 (0%)	0 (0%)	0 (0%)	1 (0.0%)	0 (0%)	0 (0%)	0 (0%)	0 (0%)	1 (0.0%)
PERTENENCIA_ETNICA
INDIGENA	13 (0.9%)	2 (0.4%)	1 (1.1%)	36 (1.7%)	1 (1.6%)	13 (4.2%)	22 (3.0%)	65 (1.4%)	153 (1.5%)
NEGRO, MULATO, AFROCOLOMBIANO	8 (0.6%)	2 (0.4%)	3 (3.2%)	13 (0.6%)	1 (1.6%)	5 (1.6%)	12 (1.6%)	38 (0.8%)	82 (0.8%)
OTRO	1400 (98.5%)	520 (98.9%)	89 (95.7%)	2120 (97.6%)	59 (96.7%)	291 (94.2%)	702 (95.1%)	4665 (97.6%)	9846 (97.5%)
ROOM (GITANO)	1 (0.1%)	1 (0.2%)	0 (0%)	2 (0.1%)	0 (0%)	0 (0%)	1 (0.1%)	8 (0.2%)	13 (0.1%)
RAIZAL	0 (0%)	1 (0.2%)	0 (0%)	1 (0.0%)	0 (0%)	0 (0%)	1 (0.1%)	4 (0.1%)	7 (0.1%)
PALENQUERO	0 (0%)	0 (0%)	0 (0%)	0 (0%)	0 (0%)	0 (0%)	0 (0%)	1 (0.0%)	1 (0.0%)
gp_discapa
NO	1407 (98.9%)	518 (98.5%)	91 (97.8%)	2133 (98.2%)	61 (100%)	305 (98.7%)	733 (99.3%)	4719 (98.7%)	9967 (98.7%)
SI	15 (1.1%)	8 (1.5%)	2 (2.2%)	39 (1.8%)	0 (0%)	4 (1.3%)	5 (0.7%)	62 (1.3%)	135 (1.3%)
gp_desplaz
NO	1409 (99.1%)	525 (99.8%)	91 (97.8%)	2160 (99.4%)	60 (98.4%)	303 (98.1%)	722 (97.8%)	4753 (99.4%)	10023 (99.2%)
SI	13 (0.9%)	1 (0.2%)	2 (2.2%)	12 (0.6%)	1 (1.6%)	6 (1.9%)	16 (2.2%)	28 (0.6%)	79 (0.8%)
gp_migrant
NO	1366 (96.1%)	489 (93.0%)	91 (97.8%)	2065 (95.1%)	56 (91.8%)	266 (86.1%)	663 (89.8%)	4583 (95.9%)	9579 (94.8%)
SI	56 (3.9%)	37 (7.0%)	2 (2.2%)	107 (4.9%)	5 (8.2%)	43 (13.9%)	75 (10.2%)	198 (4.1%)	523 (5.2%)
gp_carcela
NO	1321 (92.9%)	519 (98.7%)	92 (98.9%)	2144 (98.7%)	59 (96.7%)	300 (97.1%)	706 (95.7%)	4622 (96.7%)	9763 (96.6%)
SI	101 (7.1%)	7 (1.3%)	1 (1.1%)	28 (1.3%)	2 (3.3%)	9 (2.9%)	32 (4.3%)	159 (3.3%)	339 (3.4%)
gp_gestan
NO	1417 (99.6%)	526 (100%)	93 (100%)	2170 (99.9%)	61 (100%)	307 (99.4%)	734 (99.5%)	4774 (99.9%)	10082 (99.8%)
SI	5 (0.4%)	0 (0%)	0 (0%)	2 (0.1%)	0 (0%)	2 (0.6%)	4 (0.5%)	7 (0.1%)	20 (0.2%)
gp_indigen
NO	1374 (96.6%)	512 (97.3%)	80 (86.0%)	2038 (93.8%)	56 (91.8%)	302 (97.7%)	534 (72.4%)	4665 (97.6%)	9561 (94.6%)
SI	48 (3.4%)	14 (2.7%)	13 (14.0%)	134 (6.2%)	5 (8.2%)	7 (2.3%)	204 (27.6%)	116 (2.4%)	541 (5.4%)
gp_pobicbf
NO	1420 (99.9%)	525 (99.8%)	93 (100%)	2170 (99.9%)	61 (100%)	309 (100%)	736 (99.7%)	4774 (99.9%)	10088 (99.9%)
SI	2 (0.1%)	1 (0.2%)	0 (0%)	2 (0.1%)	0 (0%)	0 (0%)	2 (0.3%)	7 (0.1%)	14 (0.1%)
gp_psiquia
NO	1422 (100%)	526 (100%)	93 (100%)	2168 (99.8%)	61 (100%)	309 (100%)	734 (99.5%)	4778 (99.9%)	10091 (99.9%)
SI	0 (0%)	0 (0%)	0 (0%)	4 (0.2%)	0 (0%)	0 (0%)	4 (0.5%)	3 (0.1%)	11 (0.1%)
gp_vic_vio
NO	1421 (99.9%)	526 (100%)	93 (100%)	2169 (99.9%)	61 (100%)	308 (99.7%)	734 (99.5%)	4774 (99.9%)	10086 (99.8%)
SI	1 (0.1%)	0 (0%)	0 (0%)	3 (0.1%)	0 (0%)	1 (0.3%)	4 (0.5%)	7 (0.1%)	16 (0.2%)
trabajador_salud
NO	1397 (98.2%)	515 (97.9%)	88 (94.6%)	2163 (99.6%)	59 (96.7%)	306 (99.0%)	730 (98.9%)	4640 (97.1%)	9898 (98.0%)
SI	25 (1.8%)	11 (2.1%)	5 (5.4%)	9 (0.4%)	2 (3.3%)	3 (1.0%)	8 (1.1%)	141 (2.9%)	204 (2.0%)
gp_otros
NO	176 (12.4%)	50 (9.5%)	9 (9.7%)	234 (10.8%)	10 (16.4%)	52 (16.8%)	247 (33.5%)	433 (9.1%)	1211 (12.0%)
SI	1246 (87.6%)	476 (90.5%)	84 (90.3%)	1938 (89.2%)	51 (83.6%)	257 (83.2%)	491 (66.5%)	4348 (90.9%)	8891 (88.0%)
LOC_RES
1	48 (3.4%)	29 (5.5%)	7 (7.5%)	61 (2.8%)	2 (3.3%)	14 (4.5%)	17 (2.3%)	217 (4.5%)	395 (3.9%)
10	113 (7.9%)	38 (7.2%)	11 (11.8%)	138 (6.4%)	3 (4.9%)	19 (6.1%)	55 (7.5%)	359 (7.5%)	736 (7.3%)
11	155 (10.9%)	64 (12.2%)	3 (3.2%)	194 (8.9%)	6 (9.8%)	27 (8.7%)	54 (7.3%)	487 (10.2%)	990 (9.8%)
12	29 (2.0%)	15 (2.9%)	1 (1.1%)	29 (1.3%)	0 (0%)	7 (2.3%)	10 (1.4%)	81 (1.7%)	172 (1.7%)
13	10 (0.7%)	5 (1.0%)	1 (1.1%)	32 (1.5%)	2 (3.3%)	4 (1.3%)	6 (0.8%)	73 (1.5%)	133 (1.3%)
14	32 (2.3%)	6 (1.1%)	5 (5.4%)	55 (2.5%)	4 (6.6%)	6 (1.9%)	44 (6.0%)	100 (2.1%)	252 (2.5%)
15	8 (0.6%)	9 (1.7%)	2 (2.2%)	42 (1.9%)	0 (0%)	2 (0.6%)	24 (3.3%)	62 (1.3%)	149 (1.5%)
16	96 (6.8%)	14 (2.7%)	3 (3.2%)	70 (3.2%)	1 (1.6%)	6 (1.9%)	28 (3.8%)	143 (3.0%)	361 (3.6%)
17	6 (0.4%)	1 (0.2%)	2 (2.2%)	12 (0.6%)	0 (0%)	1 (0.3%)	4 (0.5%)	14 (0.3%)	40 (0.4%)
18	129 (9.1%)	14 (2.7%)	7 (7.5%)	115 (5.3%)	2 (3.3%)	7 (2.3%)	39 (5.3%)	347 (7.3%)	660 (6.5%)
19	80 (5.6%)	35 (6.7%)	7 (7.5%)	141 (6.5%)	2 (3.3%)	10 (3.2%)	71 (9.6%)	321 (6.7%)	667 (6.6%)
2	17 (1.2%)	9 (1.7%)	2 (2.2%)	31 (1.4%)	0 (0%)	4 (1.3%)	14 (1.9%)	61 (1.3%)	138 (1.4%)
3	39 (2.7%)	9 (1.7%)	5 (5.4%)	59 (2.7%)	0 (0%)	13 (4.2%)	45 (6.1%)	118 (2.5%)	288 (2.9%)
4	59 (4.1%)	25 (4.8%)	6 (6.5%)	119 (5.5%)	1 (1.6%)	8 (2.6%)	25 (3.4%)	250 (5.2%)	493 (4.9%)
5	36 (2.5%)	14 (2.7%)	2 (2.2%)	90 (4.1%)	0 (0%)	2 (0.6%)	20 (2.7%)	171 (3.6%)	335 (3.3%)
6	18 (1.3%)	8 (1.5%)	0 (0%)	55 (2.5%)	0 (0%)	2 (0.6%)	19 (2.6%)	102 (2.1%)	204 (2.0%)
7	118 (8.3%)	30 (5.7%)	3 (3.2%)	93 (4.3%)	4 (6.6%)	7 (2.3%)	36 (4.9%)	286 (6.0%)	577 (5.7%)
8	164 (11.5%)	53 (10.1%)	5 (5.4%)	171 (7.9%)	6 (9.8%)	20 (6.5%)	59 (8.0%)	426 (8.9%)	904 (8.9%)
9	84 (5.9%)	20 (3.8%)	3 (3.2%)	48 (2.2%)	3 (4.9%)	7 (2.3%)	10 (1.4%)	145 (3.0%)	320 (3.2%)
FDB	152 (10.7%)	111 (21.1%)	13 (14.0%)	509 (23.4%)	19 (31.1%)	131 (42.4%)	82 (11.1%)	925 (19.3%)	1942 (19.2%)
Sin Dato	29 (2.0%)	17 (3.2%)	5 (5.4%)	105 (4.8%)	6 (9.8%)	12 (3.9%)	75 (10.2%)	93 (1.9%)	342 (3.4%)
20	0 (0%)	0 (0%)	0 (0%)	3 (0.1%)	0 (0%)	0 (0%)	1 (0.1%)	0 (0%)	4 (0.0%)
LOC_DX
1	105 (7.4%)	121 (23.0%)	8 (8.6%)	225 (10.4%)	12 (19.7%)	42 (13.6%)	68 (9.2%)	630 (13.2%)	1211 (12.0%)
10	69 (4.9%)	22 (4.2%)	4 (4.3%)	65 (3.0%)	0 (0%)	14 (4.5%)	38 (5.1%)	159 (3.3%)	371 (3.7%)
11	101 (7.1%)	16 (3.0%)	2 (2.2%)	75 (3.5%)	1 (1.6%)	12 (3.9%)	19 (2.6%)	212 (4.4%)	438 (4.3%)
12	57 (4.0%)	9 (1.7%)	1 (1.1%)	77 (3.5%)	4 (6.6%)	7 (2.3%)	32 (4.3%)	186 (3.9%)	373 (3.7%)
13	103 (7.2%)	68 (12.9%)	9 (9.7%)	215 (9.9%)	5 (8.2%)	38 (12.3%)	26 (3.5%)	553 (11.6%)	1017 (10.1%)
14	117 (8.2%)	48 (9.1%)	9 (9.7%)	302 (13.9%)	4 (6.6%)	34 (11.0%)	74 (10.0%)	555 (11.6%)	1143 (11.3%)
15	75 (5.3%)	17 (3.2%)	10 (10.8%)	202 (9.3%)	2 (3.3%)	22 (7.1%)	135 (18.3%)	312 (6.5%)	775 (7.7%)
16	78 (5.5%)	4 (0.8%)	2 (2.2%)	5 (0.2%)	0 (0%)	1 (0.3%)	13 (1.8%)	49 (1.0%)	152 (1.5%)
17	5 (0.4%)	0 (0%)	0 (0%)	0 (0%)	0 (0%)	0 (0%)	2 (0.3%)	2 (0.0%)	9 (0.1%)
18	96 (6.8%)	25 (4.8%)	4 (4.3%)	104 (4.8%)	2 (3.3%)	4 (1.3%)	31 (4.2%)	320 (6.7%)	586 (5.8%)
19	35 (2.5%)	7 (1.3%)	6 (6.5%)	65 (3.0%)	0 (0%)	0 (0%)	35 (4.7%)	81 (1.7%)	229 (2.3%)
2	141 (9.9%)	75 (14.3%)	16 (17.2%)	234 (10.8%)	8 (13.1%)	65 (21.0%)	56 (7.6%)	678 (14.2%)	1273 (12.6%)
3	16 (1.1%)	2 (0.4%)	2 (2.2%)	13 (0.6%)	0 (0%)	1 (0.3%)	25 (3.4%)	35 (0.7%)	94 (0.9%)
4	98 (6.9%)	32 (6.1%)	7 (7.5%)	260 (12.0%)	10 (16.4%)	38 (12.3%)	58 (7.9%)	448 (9.4%)	951 (9.4%)
5	6 (0.4%)	0 (0%)	0 (0%)	1 (0.0%)	0 (0%)	0 (0%)	2 (0.3%)	14 (0.3%)	23 (0.2%)
6	39 (2.7%)	22 (4.2%)	9 (9.7%)	122 (5.6%)	0 (0%)	1 (0.3%)	33 (4.5%)	135 (2.8%)	361 (3.6%)
7	48 (3.4%)	1 (0.2%)	0 (0%)	5 (0.2%)	0 (0%)	1 (0.3%)	11 (1.5%)	36 (0.8%)	102 (1.0%)
8	162 (11.4%)	54 (10.3%)	3 (3.2%)	179 (8.2%)	7 (11.5%)	20 (6.5%)	63 (8.5%)	318 (6.7%)	806 (8.0%)
9	66 (4.6%)	3 (0.6%)	1 (1.1%)	18 (0.8%)	6 (9.8%)	9 (2.9%)	15 (2.0%)	51 (1.1%)	169 (1.7%)
Sin Dato	5 (0.4%)	0 (0%)	0 (0%)	5 (0.2%)	0 (0%)	0 (0%)	2 (0.3%)	7 (0.1%)	19 (0.2%)
LOCALIZACION_EXTRA
Genitourinaria	1 (0.1%)	0 (0%)	0 (0%)	7 (0.3%)	1 (1.6%)	4 (1.3%)	0 (0%)	70 (1.5%)	83 (0.8%)
NA	1418 (99.7%)	292 (55.5%)	72 (77.4%)	1446 (66.6%)	49 (80.3%)	195 (63.1%)	567 (76.8%)	2901 (60.7%)	6940 (68.7%)
Pleural	3 (0.2%)	51 (9.7%)	5 (5.4%)	182 (8.4%)	1 (1.6%)	36 (11.7%)	46 (6.2%)	699 (14.6%)	1023 (10.1%)
Cutanea	0 (0%)	7 (1.3%)	0 (0%)	5 (0.2%)	0 (0%)	1 (0.3%)	3 (0.4%)	33 (0.7%)	49 (0.5%)
Ganglionar	0 (0%)	13 (2.5%)	5 (5.4%)	42 (1.9%)	2 (3.3%)	12 (3.9%)	34 (4.6%)	258 (5.4%)	366 (3.6%)
Intestinal	0 (0%)	4 (0.8%)	1 (1.1%)	26 (1.2%)	1 (1.6%)	2 (0.6%)	2 (0.3%)	46 (1.0%)	82 (0.8%)
Meningea	0 (0%)	134 (25.5%)	4 (4.3%)	315 (14.5%)	4 (6.6%)	35 (11.3%)	52 (7.0%)	304 (6.4%)	848 (8.4%)
Osteoarticular	0 (0%)	3 (0.6%)	3 (3.2%)	21 (1.0%)	1 (1.6%)	17 (5.5%)	13 (1.8%)	151 (3.2%)	209 (2.1%)
Otro	0 (0%)	12 (2.3%)	1 (1.1%)	62 (2.9%)	2 (3.3%)	3 (1.0%)	8 (1.1%)	135 (2.8%)	223 (2.2%)
Pericardica	0 (0%)	3 (0.6%)	0 (0%)	19 (0.9%)	0 (0%)	3 (1.0%)	6 (0.8%)	80 (1.7%)	111 (1.1%)
Peritoneal	0 (0%)	6 (1.1%)	2 (2.2%)	44 (2.0%)	0 (0%)	1 (0.3%)	5 (0.7%)	90 (1.9%)	148 (1.5%)
Renal	0 (0%)	1 (0.2%)	0 (0%)	2 (0.1%)	0 (0%)	0 (0%)	2 (0.3%)	14 (0.3%)	19 (0.2%)
Laringea	0 (0%)	0 (0%)	0 (0%)	1 (0.0%)	0 (0%)	0 (0%)	0 (0%)	0 (0%)	1 (0.0%)

Para el grupo de perdida de seguimiento se encuentra un total de 739 pacientes entre 2016 y 2022. De los cuales el 95.1% lograron ingresar al programa distrital de tuberculosis, es decir que iniciaron tratamiento. Al comparar estos resultados con las otras condiciones de egreso se encuentran porcentajes similares a excepción de los fallecidos, los cuales varios de ellos el diagnostico de TB se realiza postmortem por lo tanto no hay inicio de tratamiento. Con relación a la variable sexo, en los pacientes con pérdida de seguimiento se evidencia que el 72.9% corresponde a hombres, un porcentaje ligeramente mayor al compararlo con otras condiciones de egreso (66.2%), este comportamiento se observa también en los fallecidos durante el tratamiento 72.2% y no evaluados 76.4%.
En cuanto a la edad, se evidencia que de forma general los pacientes enferman de TB sobre los 50 años (media y mediana) no obstante para el grupo de perdida de seguimiento, la mediana se ubica sobre los 36 años con una media de 41 años. Es decir, las personas mas jóvenes son quienes no tienen adherencia al tratamiento. A su vez, frente al régimen de afiliación al SGSSS, se encuentra que el régimen subsidiado es donde se concentra la población que no tiene adherencia al tratamiento de TB 46.7%, respecto al total de condiciones de egreso 30.6%. De igual manera, las personas sin aseguramiento al SGSSS tienen un porcentaje mayor de perdida de seguimiento 18.2% respecto a las otras condiciones de egreso 6.6%. Así mismo, este grupo presenta el menor porcentaje de pacientes afiliados al régimen contributivo 30.4%, respecto al total de condiciones de egreso 55.4%, lo que demuestra que las EAPB realizan acciones de seguimiento a su población afiliada diagnosticada para generar adherencia terapéutica. Al analizar el tipo de tuberculosis se identifica que las formas pulmonares predominan en las perdidas de seguimiento 76.8%, respecto a las otras condiciones de egreso 68.7%. Este comportamiento se observa también en los fracasos 80.3% y las exclusiones por farmacorresistencia 77.4%. Respecto a las formas extrapulmonares, se evidencia una ligera diferencia en la localización anatómica para el grupo de perdida de seguimiento tipo de TB ganglionar 4.6% frente a las demás condiciones de egreso 3.6%. En cuanto a la condición de ingreso al programa de TB, para los pacientes con perdida de seguimiento, se encuentra que el 11.1% corresponden a reingresos por perdida de seguimiento frente a 2.1 de otras condiciones de egreso y el 6.5% a otros previamente tratados versus 3.1% de las otras condiciones de egreso, es decir que quienes ya han estado en tratamiento para TB y no tuvieron adherencia, es mas probable que vuelvan a tener perdida de seguimiento en futuros tratamientos. Se identifica frente a la coinfección con VIH que los pacientes que presentan coinfección en el grupo de perdida de seguimiento es mayor 32.4%, que en el resto de condiciones de egreso 19.8% a excepción de los casos descartados 33.7%. Frente a las prueba diagnosticas de baciloscopia, cultivo y prueba molecular, se observa un porcentaje ligeramente mayor para positividad en estas pruebas que entre el grupo de perdida de seguimiento y las otras condiciones de egreso (baciloscopia positiva 39.2% vs 30.8%, Cultivo 45.8% vs 41.3%, prueba molecular 51.4% vs 45.2%) En la prueba de susceptibilidad a farmacos no se evidencian mayores diferencias entre el tipo de prueba realizada al grupo de perdida de seguimiento y las otras condiciones de egreso.Lo mismo sucede con los tipos de farmacorresistencia, es importante aclarar que los casos de TB farmacorresistente, el seguimiento se realiza en una base de datos diferente a la de TB sensible. Por tanto, las perdidas de seguimiento de casos con TB resistente no son evaluados en el presente proyecto. Dentro de las comorbilidades se evidenció mayor porcentaje para el grupo de perdida de seguimiento frente a las otras condiciones de egreso en las siguientes: Consumidor_SPA 6.6% vs 2.1%, Enf_mental 0.5% vs 0.1%, Desnutrición 22% vs 17.4%, Tabaquismo 1.6% vs 0.8% y alcoholismo 0.5% vs 0.3%. En cuanto a la modalidad del tratamiento directamente observado (TDO), el 37.1% de los pacientes que tienen perdida de seguimiento lo realizan en la modalidad supervisión en IPS, un poco mayor frente a las demás condiciones de egreso 34.5%. Dentro de los programas de protección social se evidencia que las personas con perdida de seguimiento tuvieron acceso a subsidio alimentario en 1.9% mayor, frente al resto de condiciones de egreso 0.9% a excepción de pacientes con fracaso en el tratamiento 3.3%. En cuanto a la descripción de reacciones adversas de los pacientes al tratamiento tetraconjugado, se evidencia un mayor porcentaje de reacciones graves (0.4%) y moderadas (0.5%), frente a pacientes de otras condiciones de egreso (0.2% respectivamente). Frente a la metodologia de captación no se evidencian diferencias entre los pacientes con perdidas de seguimiento frente a las demas condiciones de egreso. Dentro de la pertenencia étnica se identifica que los indígenas 3% y afrocolombianos 1.6%, presentan un mayor porcentaje en perdida de seguimiento frente a las demás condiciones de egreso (1.5% y 0.8%, respectivamente). En los indígenas este porcentaje solamente se supera para el grupo de no evaluados 4.2%, dado que regresan a sus comunidades. Mientras que en los afrocolombianos, se reporta un mayor porcentaje frente al grupo de excluidos por Farmacorresistencia y es igual el porcentaje frente al grupo de no evaluados y fracasos. Se evidencia un mayor porcentaje de perdida de seguimiento en las siguientes poblaciones especiales frente a las demás condiciones de egreso: desplazados 2.2% vs 0.8%, migrantes 10.2% vs 5.2%, carcelarios 4.3% vs 3.4%, habitantes de calle 27.6% vs 5.4%, población ICBF 0.3% vs 0.1%, población psiquiátrica 0.5% vs 0.1%, víctima de la violencia de conflicto armado 0.5% vs 0.2% y gestantes 0.5% vs 0.2% Dentro de las localidades de residencia de los pacientes, se evidencia una mayor perdida de seguimiento para quienes residen en las siguientes localidades en comparación con las otras condiciones de egreso: Antonio Nariño 3.3% vs 1.5%, ciudad bolivar 9.6% vs 6.6%, Los mártires 6% vs 2.5%, Santa fe 6.1% vs 2.9% y tunjuelito 2.6% vs 2%; los casos sin dato 10.2% vs 3.4% que pueden corresponder a habitantes de calle o población flotante. Dentro de las localidades de diagnóstico de los pacientes, se evidencia una mayor pérdida de seguimiento para quienes son diagnosticados en IPS ubicadas en las siguientes localidades en comparación con las otras condiciones de egreso: Antonio Nariño 18.3% vs 7.7%, Barrios Unidos 4.3% vs 3.7%, Engativá 5.1% vs 3.7%, Santa fe 3.4% vs 0.9% y Tunjuelito 4.5% vs 3.6%.

loc_ajuste <- subset(base_analisis_R)
loc_ajuste

## # A tibble: 10,102 × 60
##       ID TRIMESTRE   AÑO FECHA_INI_SINT      INGRESO_TTO `FECHA INI_TTO`    
##    <dbl> <chr>     <dbl> <dttm>              <chr>       <dttm>             
##  1     1 I          2022 2021-12-29 00:00:00 SI          2022-01-04 00:00:00
##  2     2 I          2022 2021-12-31 00:00:00 SI          2022-01-08 00:00:00
##  3     3 I          2022 2022-01-04 00:00:00 SI          2022-01-10 00:00:00
##  4     4 I          2022 2022-01-09 00:00:00 SI          2022-01-11 00:00:00
##  5     5 I          2022 2021-01-13 00:00:00 SI          2022-01-13 00:00:00
##  6     6 I          2022 2021-12-26 00:00:00 SI          2022-01-03 00:00:00
##  7     7 I          2022 2021-12-15 00:00:00 SI          2022-01-03 00:00:00
##  8     8 I          2022 2021-12-10 00:00:00 SI          2022-01-07 00:00:00
##  9     9 I          2022 2019-05-24 00:00:00 SI          2022-01-03 00:00:00
## 10    10 I          2022 2021-12-10 00:00:00 NO          1899-12-31 00:00:00
## # ℹ 10,092 more rows
## # ℹ 54 more variables: SEXO <chr>, EDAD <dbl>, PERTENENCIA_ETNICA <chr>,
## #   PUEBLO_INDIGENA <chr>, gp_discapa <chr>, gp_desplaz <chr>,
## #   gp_migrant <chr>, gp_carcela <chr>, gp_gestan <chr>, sem_ges_ <chr>,
## #   gp_indigen <chr>, gp_pobicbf <chr>, gp_mad_com <chr>, gp_desmovi <chr>,
## #   gp_psiquia <chr>, gp_vic_vio <chr>, gp_otros <chr>, trabajador_salud <chr>,
## #   LOC_RES <chr>, LOC_DX <chr>, REGIMEN_AFILIACION <chr>, TIPO_TB <chr>, …

loc_ajuste$LOC_RES<- str_replace(loc_ajuste$LOC_RES, "Antonio Nariño","CO")
loc_ajuste$LOC_RES<- str_replace(loc_ajuste$LOC_RES, "Barrios Unidos","NORTE")
loc_ajuste$LOC_RES<- str_replace(loc_ajuste$LOC_RES, "Bosa","SO")
loc_ajuste$LOC_RES<- str_replace(loc_ajuste$LOC_RES, "Chapinero","NORTE")
loc_ajuste$LOC_RES<- str_replace(loc_ajuste$LOC_RES, "Ciudad Bolivar","SUR")
loc_ajuste$LOC_RES<- str_replace(loc_ajuste$LOC_RES, "Engativa","NORTE")
loc_ajuste$LOC_RES<- str_replace(loc_ajuste$LOC_RES, "Fontibon","SO")
loc_ajuste$LOC_RES<- str_replace(loc_ajuste$LOC_RES, "Fuera de Bogota","FDB")
loc_ajuste$LOC_RES<- str_replace(loc_ajuste$LOC_RES, "Kennedy","SO")
loc_ajuste$LOC_RES<- str_replace(loc_ajuste$LOC_RES, "La Candelaria","CO")
loc_ajuste$LOC_RES<- str_replace(loc_ajuste$LOC_RES, "Los Martires","CO")
loc_ajuste$LOC_RES<- str_replace(loc_ajuste$LOC_RES, "Puente Aranda","SO")
loc_ajuste$LOC_RES<- str_replace(loc_ajuste$LOC_RES, "Rafael Uribe Uribe","CO")
loc_ajuste$LOC_RES<- str_replace(loc_ajuste$LOC_RES, "San Cristobal","CO")
loc_ajuste$LOC_RES<- str_replace(loc_ajuste$LOC_RES, "Santafe","CO")
loc_ajuste$LOC_RES<- str_replace(loc_ajuste$LOC_RES, "Suba","NORTE")
loc_ajuste$LOC_RES<- str_replace(loc_ajuste$LOC_RES, "Teusaquillo","NORTE")
loc_ajuste$LOC_RES<- str_replace(loc_ajuste$LOC_RES, "Tunjuelito","SUR")
loc_ajuste$LOC_RES<- str_replace(loc_ajuste$LOC_RES, "Usaquen","NORTE")
loc_ajuste$LOC_RES<- str_replace(loc_ajuste$LOC_RES, "Usme","SUR")
loc_ajuste$LOC_RES<- str_replace(loc_ajuste$LOC_RES, "Sumapaz","SUR")

loc_ajuste$LOC_DX<- str_replace(loc_ajuste$LOC_DX, "Antonio Nariño","CO")
loc_ajuste$LOC_DX<- str_replace(loc_ajuste$LOC_DX, "Barrios Unidos","NORTE")
loc_ajuste$LOC_DX<- str_replace(loc_ajuste$LOC_DX, "Bosa","SO")
loc_ajuste$LOC_DX<- str_replace(loc_ajuste$LOC_DX, "Chapinero","NORTE")
loc_ajuste$LOC_DX<- str_replace(loc_ajuste$LOC_DX, "Ciudad Bolivar","SUR")
loc_ajuste$LOC_DX<- str_replace(loc_ajuste$LOC_DX, "Engativa","NORTE")
loc_ajuste$LOC_DX<- str_replace(loc_ajuste$LOC_DX, "Fontibon","SO")
loc_ajuste$LOC_DX<- str_replace(loc_ajuste$LOC_DX, "Kennedy","SO")
loc_ajuste$LOC_DX<- str_replace(loc_ajuste$LOC_DX, "La Candelaria","CO")
loc_ajuste$LOC_DX<- str_replace(loc_ajuste$LOC_DX, "Los Martires","CO")
loc_ajuste$LOC_DX<- str_replace(loc_ajuste$LOC_DX, "Puente Aranda","SO")
loc_ajuste$LOC_DX<- str_replace(loc_ajuste$LOC_DX, "Rafael Uribe Uribe","CO")
loc_ajuste$LOC_DX<- str_replace(loc_ajuste$LOC_DX, "San Cristobal","CO")
loc_ajuste$LOC_DX<- str_replace(loc_ajuste$LOC_DX, "Santafe","CO")
loc_ajuste$LOC_DX<- str_replace(loc_ajuste$LOC_DX, "Suba","NORTE")
loc_ajuste$LOC_DX<- str_replace(loc_ajuste$LOC_DX, "Teusaquillo","NORTE")
loc_ajuste$LOC_DX<- str_replace(loc_ajuste$LOC_DX, "Tunjuelito","SUR")
loc_ajuste$LOC_DX<- str_replace(loc_ajuste$LOC_DX, "Usaquen","NORTE")
loc_ajuste$LOC_DX<- str_replace(loc_ajuste$LOC_DX, "Usme","SUR")

t1 <- table1::table1(~INGRESO_TTO + SEXO + EDAD + REGIMEN_AFILIACION + TIPO_TB + CONDICION_INGRESO + CONDICION_VIH + RESULTADO_BK_RECOD + RESULTADO_CULTIVO_RECOD + RESULTADO_PRUEBA_MOL_RECOD + PRUEBA_SUSCEPTIBILIDAD_FARMACOS + FARMACORRESISTENCIA + Alcoholismo + Cancer + Cardiovascular + Consumidor_SPA  + Desnutricion + Diabetes + Enf_Mental + Enf_Autoinmune + Enf_Hepatica + Enf_Renal + EPOC + Silicosis + Tabaquismo + Hipotiroidismo + Otra_Enf + MODALIDAD_TDO + PROGRAMAS_PROTECC_SOCIAL + REACCIONES_ADVERSAS_TTO + METODOLOGIA_CAPTACION +PERTENENCIA_ETNICA + gp_discapa + gp_desplaz + gp_migrant + gp_carcela + gp_gestan + gp_indigen + gp_pobicbf + gp_psiquia + gp_vic_vio + trabajador_salud + gp_otros + LOC_RES + LOC_DX + LOCALIZACION_EXTRA | PERDIDA_SEGUIMIENTO, data = loc_ajuste)
t1

	NO (N=9364)	SI (N=738)	Overall (N=10102)
INGRESO_TTO
NO	397 (4.2%)	36 (4.9%)	433 (4.3%)
SI	8967 (95.8%)	702 (95.1%)	9669 (95.7%)
SEXO
F	3215 (34.3%)	200 (27.1%)	3415 (33.8%)
M	6149 (65.7%)	538 (72.9%)	6687 (66.2%)
EDAD
Mean (SD)	51.0 (21.7)	40.8 (18.0)	50.3 (21.6)
Median [Min, Max]	52.0 [0, 109]	36.0 [0, 91.0]	50.0 [0, 109]
REGIMEN_AFILIACION
C - CONTRIBUTIVO	5375 (57.4%)	224 (30.4%)	5599 (55.4%)
E - ESPECIAL	488 (5.2%)	28 (3.8%)	516 (5.1%)
N - NO ASEGURADO	535 (5.7%)	134 (18.2%)	669 (6.6%)
P - EXCEPCION	223 (2.4%)	7 (0.9%)	230 (2.3%)
S - SUBSIDIADO	2743 (29.3%)	345 (46.7%)	3088 (30.6%)
TIPO_TB
EXTRAPULMONAR	2991 (31.9%)	171 (23.2%)	3162 (31.3%)
PULMONAR	6373 (68.1%)	567 (76.8%)	6940 (68.7%)
CONDICION_INGRESO
NUEVO	8849 (94.5%)	588 (79.7%)	9437 (93.4%)
OTROS PREVIAMENTE TRATADOS	269 (2.9%)	48 (6.5%)	317 (3.1%)
REINGRESO TRAS FRACASO	19 (0.2%)	6 (0.8%)	25 (0.2%)
REINGRESO TRAS PERDIDA EN EL SEGUIMIENTO	132 (1.4%)	82 (11.1%)	214 (2.1%)
REINGRESO TRAS RECAIDA	94 (1.0%)	14 (1.9%)	108 (1.1%)
REMITIDO	1 (0.0%)	0 (0%)	1 (0.0%)
CONDICION_VIH
DESCONOCIDO	507 (5.4%)	54 (7.3%)	561 (5.6%)
NEGATIVO	7100 (75.8%)	445 (60.3%)	7545 (74.7%)
POSITIVO	1757 (18.8%)	239 (32.4%)	1996 (19.8%)
RESULTADO_BK_RECOD
NEGATIVO	5073 (54.2%)	378 (51.2%)	5451 (54.0%)
NO REALIZADO	1346 (14.4%)	64 (8.7%)	1410 (14.0%)
POSITIVO	2819 (30.1%)	289 (39.2%)	3108 (30.8%)
SD	126 (1.3%)	7 (0.9%)	133 (1.3%)
RESULTADO_CULTIVO_RECOD
NEGATIVO	2859 (30.5%)	226 (30.6%)	3085 (30.5%)
NO REALIZADO	2134 (22.8%)	134 (18.2%)	2268 (22.5%)
POSITIVO	3834 (40.9%)	338 (45.8%)	4172 (41.3%)
SD	537 (5.7%)	40 (5.4%)	577 (5.7%)
RESULTADO_PRUEBA_MOL_RECOD
NEGATIVO	1433 (15.3%)	92 (12.5%)	1525 (15.1%)
NO INTERPRETABLE	4 (0.0%)	0 (0%)	4 (0.0%)
NO REALIZADO	42 (0.4%)	3 (0.4%)	45 (0.4%)
POSITIVO	4192 (44.8%)	379 (51.4%)	4571 (45.2%)
SD	3693 (39.4%)	264 (35.8%)	3957 (39.2%)
PRUEBA_SUSCEPTIBILIDAD_FARMACOS
BACTEC MGIT	258 (2.8%)	13 (1.8%)	271 (2.7%)
LIPA	872 (9.3%)	99 (13.4%)	971 (9.6%)
NO REALIZADA	4914 (52.5%)	321 (43.5%)	5235 (51.8%)
PCR EN TIEMPO REAL	3320 (35.5%)	305 (41.3%)	3625 (35.9%)
FARMACORRESISTENCIA
Isoniacida	87 (0.9%)	1 (0.1%)	88 (0.9%)
MDR	20 (0.2%)	0 (0%)	20 (0.2%)
Monoresistencia	4 (0.0%)	1 (0.1%)	5 (0.0%)
Ninguna	4477 (47.8%)	421 (57.0%)	4898 (48.5%)
NO REALIZADA	4723 (50.4%)	313 (42.4%)	5036 (49.9%)
Poliresistente	1 (0.0%)	0 (0%)	1 (0.0%)
RR	52 (0.6%)	2 (0.3%)	54 (0.5%)
Alcoholismo
NO	9335 (99.7%)	734 (99.5%)	10069 (99.7%)
SI	29 (0.3%)	4 (0.5%)	33 (0.3%)
Cancer
NO	8830 (94.3%)	710 (96.2%)	9540 (94.4%)
SI	534 (5.7%)	28 (3.8%)	562 (5.6%)
Cardiovascular
NO	9342 (99.8%)	738 (100%)	10080 (99.8%)
SI	22 (0.2%)	0 (0%)	22 (0.2%)
Consumidor_SPA
NO	9289 (99.2%)	689 (93.4%)	9978 (98.8%)
SI	75 (0.8%)	49 (6.6%)	124 (1.2%)
Desnutricion
NO	7766 (82.9%)	576 (78.0%)	8342 (82.6%)
SI	1598 (17.1%)	162 (22.0%)	1760 (17.4%)
Diabetes
NO	8498 (90.8%)	698 (94.6%)	9196 (91.0%)
SI	866 (9.2%)	40 (5.4%)	906 (9.0%)
Enf_Mental
NO	9357 (99.9%)	734 (99.5%)	10091 (99.9%)
SI	7 (0.1%)	4 (0.5%)	11 (0.1%)
Enf_Autoinmune
NO	9124 (97.4%)	723 (98.0%)	9847 (97.5%)
SI	240 (2.6%)	15 (2.0%)	255 (2.5%)
Enf_Hepatica
NO	9212 (98.4%)	728 (98.6%)	9940 (98.4%)
SI	152 (1.6%)	10 (1.4%)	162 (1.6%)
Enf_Renal
NO	8579 (91.6%)	707 (95.8%)	9286 (91.9%)
SI	785 (8.4%)	31 (4.2%)	816 (8.1%)
EPOC
NO	8328 (88.9%)	692 (93.8%)	9020 (89.3%)
SI	1036 (11.1%)	46 (6.2%)	1082 (10.7%)
Silicosis
NO	9234 (98.6%)	731 (99.1%)	9965 (98.6%)
SI	130 (1.4%)	7 (0.9%)	137 (1.4%)
Tabaquismo
NO	9297 (99.3%)	726 (98.4%)	10023 (99.2%)
SI	67 (0.7%)	12 (1.6%)	79 (0.8%)
Hipotiroidismo
NO	8348 (89.2%)	667 (90.4%)	9015 (89.2%)
SI	1016 (10.9%)	71 (9.6%)	1087 (10.8%)
Otra_Enf
NO	8370 (89.4%)	658 (89.2%)	9028 (89.4%)
SI	994 (10.6%)	80 (10.8%)	1074 (10.6%)
MODALIDAD_TDO
No evaluado	5176 (55.3%)	396 (53.7%)	5572 (55.2%)
TDO comunitario	61 (0.7%)	6 (0.8%)	67 (0.7%)
TDO domiciliario	53 (0.6%)	3 (0.4%)	56 (0.6%)
TDO en IPS	3142 (33.6%)	271 (36.7%)	3413 (33.8%)
TDO EN IPS	65 (0.7%)	3 (0.4%)	68 (0.7%)
TDO hospitalario	740 (7.9%)	51 (6.9%)	791 (7.8%)
TDO virtual	127 (1.4%)	8 (1.1%)	135 (1.3%)
PROGRAMAS_PROTECC_SOCIAL
Cuenta con varios subsidios de apoyo	42 (0.4%)	9 (1.2%)	51 (0.5%)
No aplica a subsidios	1965 (21.0%)	145 (19.6%)	2110 (20.9%)
No evaluado	5152 (55.0%)	391 (53.0%)	5543 (54.9%)
No recibe ninguno	2065 (22.1%)	173 (23.4%)	2238 (22.2%)
Subsidio alimentario	79 (0.8%)	14 (1.9%)	93 (0.9%)
Subsidio de desempleo	3 (0.0%)	0 (0%)	3 (0.0%)
Subsidio de transporte	2 (0.0%)	0 (0%)	2 (0.0%)
Subsidio de vivienda	26 (0.3%)	4 (0.5%)	30 (0.3%)
Subsidio educativo	7 (0.1%)	0 (0%)	7 (0.1%)
Subsidio monetario	23 (0.2%)	2 (0.3%)	25 (0.2%)
REACCIONES_ADVERSAS_TTO
Grave	16 (0.2%)	3 (0.4%)	19 (0.2%)
Leve	11 (0.1%)	1 (0.1%)	12 (0.1%)
Moderada	14 (0.1%)	4 (0.5%)	18 (0.2%)
Ninguna	4179 (44.6%)	341 (46.2%)	4520 (44.7%)
SD	5144 (54.9%)	389 (52.7%)	5533 (54.8%)
METODOLOGIA_CAPTACION
BAI	4166 (44.5%)	346 (46.9%)	4512 (44.7%)
Busqueda trabajador salud.	41 (0.4%)	1 (0.1%)	42 (0.4%)
Durante estudio de contactos	4 (0.0%)	0 (0%)	4 (0.0%)
Remitido por CNE	1 (0.0%)	0 (0%)	1 (0.0%)
SD	5152 (55.0%)	391 (53.0%)	5543 (54.9%)
PERTENENCIA_ETNICA
INDIGENA	131 (1.4%)	22 (3.0%)	153 (1.5%)
NEGRO, MULATO, AFROCOLOMBIANO	70 (0.7%)	12 (1.6%)	82 (0.8%)
OTRO	9144 (97.7%)	702 (95.1%)	9846 (97.5%)
PALENQUERO	1 (0.0%)	0 (0%)	1 (0.0%)
RAIZAL	6 (0.1%)	1 (0.1%)	7 (0.1%)
ROOM (GITANO)	12 (0.1%)	1 (0.1%)	13 (0.1%)
gp_discapa
NO	9234 (98.6%)	733 (99.3%)	9967 (98.7%)
SI	130 (1.4%)	5 (0.7%)	135 (1.3%)
gp_desplaz
NO	9301 (99.3%)	722 (97.8%)	10023 (99.2%)
SI	63 (0.7%)	16 (2.2%)	79 (0.8%)
gp_migrant
NO	8916 (95.2%)	663 (89.8%)	9579 (94.8%)
SI	448 (4.8%)	75 (10.2%)	523 (5.2%)
gp_carcela
NO	9057 (96.7%)	706 (95.7%)	9763 (96.6%)
SI	307 (3.3%)	32 (4.3%)	339 (3.4%)
gp_gestan
NO	9348 (99.8%)	734 (99.5%)	10082 (99.8%)
SI	16 (0.2%)	4 (0.5%)	20 (0.2%)
gp_indigen
NO	9027 (96.4%)	534 (72.4%)	9561 (94.6%)
SI	337 (3.6%)	204 (27.6%)	541 (5.4%)
gp_pobicbf
NO	9352 (99.9%)	736 (99.7%)	10088 (99.9%)
SI	12 (0.1%)	2 (0.3%)	14 (0.1%)
gp_psiquia
NO	9357 (99.9%)	734 (99.5%)	10091 (99.9%)
SI	7 (0.1%)	4 (0.5%)	11 (0.1%)
gp_vic_vio
NO	9352 (99.9%)	734 (99.5%)	10086 (99.8%)
SI	12 (0.1%)	4 (0.5%)	16 (0.2%)
trabajador_salud
NO	9168 (97.9%)	730 (98.9%)	9898 (98.0%)
SI	196 (2.1%)	8 (1.1%)	204 (2.0%)
gp_otros
NO	964 (10.3%)	247 (33.5%)	1211 (12.0%)
SI	8400 (89.7%)	491 (66.5%)	8891 (88.0%)
LOC_RES
CO	1701 (18.2%)	181 (24.5%)	1882 (18.6%)
FDB	1860 (19.9%)	82 (11.1%)	1942 (19.2%)
NORTE	2408 (25.7%)	156 (21.1%)	2564 (25.4%)
Sin Dato	267 (2.9%)	75 (10.2%)	342 (3.4%)
SO	2029 (21.7%)	133 (18.0%)	2162 (21.4%)
SUR	1099 (11.7%)	111 (15.0%)	1210 (12.0%)
LOC_DX
CO	3233 (34.5%)	325 (44.0%)	3558 (35.2%)
NORTE	4444 (47.5%)	239 (32.4%)	4683 (46.4%)
Sin Dato	17 (0.2%)	2 (0.3%)	19 (0.2%)
SO	1127 (12.0%)	102 (13.8%)	1229 (12.2%)
SUR	543 (5.8%)	70 (9.5%)	613 (6.1%)
LOCALIZACION_EXTRA
Cutanea	46 (0.5%)	3 (0.4%)	49 (0.5%)
Ganglionar	332 (3.5%)	34 (4.6%)	366 (3.6%)
Genitourinaria	82 (0.9%)	0 (0%)	82 (0.8%)
Intestinal	80 (0.9%)	2 (0.3%)	82 (0.8%)
Laringea	1 (0.0%)	0 (0%)	1 (0.0%)
Meningea	796 (8.5%)	52 (7.0%)	848 (8.4%)
NA	6373 (68.1%)	567 (76.8%)	6940 (68.7%)
Osteoarticular	196 (2.1%)	13 (1.8%)	209 (2.1%)
Otro	215 (2.3%)	8 (1.1%)	223 (2.2%)
Pericardica	105 (1.1%)	6 (0.8%)	111 (1.1%)
Peritoneal	143 (1.5%)	5 (0.7%)	148 (1.5%)
Pleural	977 (10.4%)	46 (6.2%)	1023 (10.1%)
Renal	17 (0.2%)	2 (0.3%)	19 (0.2%)
Vejiga	1 (0.0%)	0 (0%)	1 (0.0%)

Seleccion de variables

df2<- loc_ajuste[,c("ID", "SEXO", "EDAD", "PERTENENCIA_ETNICA", "gp_discapa", "gp_desplaz", "gp_migrant", "gp_carcela", "gp_gestan", "gp_indigen", "gp_pobicbf", "gp_psiquia", "LOC_RES", "LOC_DX", "REGIMEN_AFILIACION", "TIPO_TB", "LOCALIZACION_EXTRA", "CONDICION_INGRESO", "RESULTADO_BK_RECOD", "RESULTADO_PRUEBA_MOL_RECOD", "PRUEBA_SUSCEPTIBILIDAD_FARMACOS", "CONDICION_VIH", "Alcoholismo", "Consumidor_SPA", "Desnutricion", "Enf_Mental","Tabaquismo", "PROGRAMAS_PROTECC_SOCIAL", "REACCIONES_ADVERSAS_TTO", "CONDICION_EGRESO", "PERDIDA_SEGUIMIENTO")]
bivariado<-as.data.frame(df2)
head(bivariado, 5)

##   ID SEXO EDAD PERTENENCIA_ETNICA gp_discapa gp_desplaz gp_migrant gp_carcela
## 1  1    M   25               OTRO         NO         NO         NO         SI
## 2  2    M   66               OTRO         NO         NO         NO         NO
## 3  3    M   38               OTRO         NO         NO         NO         NO
## 4  4    M   67               OTRO         NO         NO         NO         NO
## 5  5    F   25               OTRO         NO         NO         NO         NO
##   gp_gestan gp_indigen gp_pobicbf gp_psiquia LOC_RES LOC_DX REGIMEN_AFILIACION
## 1        NO         NO         NO         NO     FDB     SO      P - EXCEPCION
## 2        NO         NO         NO         NO      SO     SO     S - SUBSIDIADO
## 3        NO         NO         NO         NO      SO     SO     S - SUBSIDIADO
## 4        NO         NO         NO         NO      SO     SO     S - SUBSIDIADO
## 5        NO         NO         NO         NO      SO     SO     S - SUBSIDIADO
##    TIPO_TB LOCALIZACION_EXTRA          CONDICION_INGRESO RESULTADO_BK_RECOD
## 1 PULMONAR                 NA                      NUEVO           POSITIVO
## 2 PULMONAR                 NA OTROS PREVIAMENTE TRATADOS           POSITIVO
## 3 PULMONAR                 NA                      NUEVO           POSITIVO
## 4 PULMONAR                 NA                      NUEVO           POSITIVO
## 5 PULMONAR                 NA                      NUEVO           POSITIVO
##   RESULTADO_PRUEBA_MOL_RECOD PRUEBA_SUSCEPTIBILIDAD_FARMACOS CONDICION_VIH
## 1                   POSITIVO              PCR EN TIEMPO REAL      NEGATIVO
## 2                   POSITIVO              PCR EN TIEMPO REAL      NEGATIVO
## 3                   POSITIVO              PCR EN TIEMPO REAL      NEGATIVO
## 4                   POSITIVO              PCR EN TIEMPO REAL      NEGATIVO
## 5                   POSITIVO              PCR EN TIEMPO REAL      NEGATIVO
##   Alcoholismo Consumidor_SPA Desnutricion Enf_Mental Tabaquismo
## 1          NO             NO           NO         NO         NO
## 2          NO             NO           NO         NO         NO
## 3          NO             NO           SI         NO         NO
## 4          NO             NO           NO         NO         SI
## 5          NO             NO           NO         NO         NO
##   PROGRAMAS_PROTECC_SOCIAL REACCIONES_ADVERSAS_TTO
## 1    No aplica a subsidios                 Ninguna
## 2        No recibe ninguno                 Ninguna
## 3        No recibe ninguno                 Ninguna
## 4        No recibe ninguno                 Ninguna
## 5        No recibe ninguno                 Ninguna
##                   CONDICION_EGRESO PERDIDA_SEGUIMIENTO
## 1 FALLECIDO DURANTE EL TRATAMIENTO                  NO
## 2                           CURADO                  NO
## 3                           CURADO                  NO
## 4            TRATAMIENTO TERMINADO                  NO
## 5                           CURADO                  NO

DESCRIPTIVO BIVARIADO

Se contrasta la variable perdida de seguimiento con la variable cuantitativa EDAD:

g1=ggplot(data = bivariado, aes(x = PERDIDA_SEGUIMIENTO, y = EDAD)) +
  geom_boxplot(fill = "#D0D1E6", colour = "black")+geom_jitter(width = 0.3,size = 0.8)
ggarrange(g1, labels = c("A"),ncol = 2, nrow = 1)

Se comprueba normalidad para la variable Edad, se encuentra que cumple criterio de normalidad acorde con p valor el cual tiene significacion estadistica.

library("nortest")
lillie.test(x=bivariado$EDAD)

## 
##  Lilliefors (Kolmogorov-Smirnov) normality test
## 
## data:  bivariado$EDAD
## D = 0.068519, p-value < 2.2e-16

Se procede a realizar comparación de medias en la variable Edad con la prueba T de student para los grupos con perdida de seguimienro y sin perida de seguimiento

SIN_PSEG <- subset(bivariado$EDAD, bivariado$PERDIDA_SEGUIMIENTO == "NO")
PSEG <-subset(bivariado$EDAD, bivariado$PERDIDA_SEGUIMIENTO == "SI")

test <- t.test(SIN_PSEG,PSEG)
print (test)

## 
##  Welch Two Sample t-test
## 
## data:  SIN_PSEG and PSEG
## t = 14.612, df = 915.26, p-value < 2.2e-16
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##   8.848816 11.594613
## sample estimates:
## mean of x mean of y 
##  51.00491  40.78320

Se encuentra diferencia estadística, es decir que la media de la edad del grupo con perdida de seguimiento es diferente de las otras condiciones de egreso y tiene significancia estadística

t2 <- table1::table1(~EDAD | PERDIDA_SEGUIMIENTO, data = bivariado )
t2

	NO (N=9364)	SI (N=738)	Overall (N=10102)
EDAD
Mean (SD)	51.0 (21.7)	40.8 (18.0)	50.3 (21.6)
Median [Min, Max]	52.0 [0, 109]	36.0 [0, 91.0]	50.0 [0, 109]

Se generan tablas de contingencia para las variables categoricas:

Perdida seguimiento vs Sexo

v1 = table(df2$PERDIDA_SEGUIMIENTO, df2$SEXO)
rownames(v1) <- c("SI", "NO")
colnames(v1) <- c("M", "H") 
addmargins(v1)

##      
##           M     H   Sum
##   SI   3215  6149  9364
##   NO    200   538   738
##   Sum  3415  6687 10102

PlotXTabs2(data=df2,x=SEXO,y=PERDIDA_SEGUIMIENTO)

chisq.test(v1)

## 
##  Pearson's Chi-squared test with Yates' continuity correction
## 
## data:  v1
## X-squared = 15.673, df = 1, p-value = 7.528e-05

fisher.test(v1)

## 
##  Fisher's Exact Test for Count Data
## 
## data:  v1
## p-value = 5.209e-05
## alternative hypothesis: true odds ratio is not equal to 1
## 95 percent confidence interval:
##  1.186556 1.672031
## sample estimates:
## odds ratio 
##   1.406419

assocstats(v1)

##                     X^2 df   P(> X^2)
## Likelihood Ratio 16.553  1 4.7313e-05
## Pearson          15.995  1 6.3513e-05
## 
## Phi-Coefficient   : 0.04 
## Contingency Coeff.: 0.04 
## Cramer's V        : 0.04

En este caso, el valor de p de Chi cuadrado es significante (p-value = 7.528e-05) por lo tanto se rechaza hipotesis nula y se acepta hipotesis alterna, donde se evidencia que la edad influye en la perdida de seguimiento de los pacientes. Los índice de Cramer y Phi: 0.04 determinan una asociación pequeña entre las variables.

Perdida seguimiento vs Regimen de Afiliacion

v2 = table(df2$PERDIDA_SEGUIMIENTO, df2$REGIMEN_AFILIACION)
rownames(v2) <- c("SI", "NO")
colnames(v2) <- c("C", "E", "N", "P", "S")              
addmargins(v2)

##      
##           C     E     N     P     S   Sum
##   SI   5375   488   535   223  2743  9364
##   NO    224    28   134     7   345   738
##   Sum  5599   516   669   230  3088 10102

PlotXTabs2(data=df,x=REGIMEN_AFILIACION,y=PERDIDA_SEGUIMIENTO)

chisq.test(v2)

## 
##  Pearson's Chi-squared test
## 
## data:  v2
## X-squared = 327.3, df = 4, p-value < 2.2e-16

#fisher.test(v2)
assocstats(v2)

##                     X^2 df P(> X^2)
## Likelihood Ratio 289.22  4        0
## Pearson          327.30  4        0
## 
## Phi-Coefficient   : NA 
## Contingency Coeff.: 0.177 
## Cramer's V        : 0.18

En este caso, el valor de p de Chi cuadrado es significante (p-value < 2.2e-16) por lo tanto se rechaza hipotesis nula y se acepta hipotesis alterna, donde se evidencia que el regimen de afiliacion influye en la perdida de seguimiento de los pacientes. El índice de Cramer (0.18) determina una asociación pequeña entre las variables.

Perdida seguimiento vs Tipo Tuberculosis

v3 = table(df2$PERDIDA_SEGUIMIENTO, df2$TIPO_TB)
rownames(v3) <- c("SI", "NO")
colnames(v3) <- c("EXTRAPULMONAR", "PULMONAR")              
addmargins(v3)

##      
##       EXTRAPULMONAR PULMONAR   Sum
##   SI           2991     6373  9364
##   NO            171      567   738
##   Sum          3162     6940 10102

PlotXTabs2(data=df2,x=TIPO_TB,y=PERDIDA_SEGUIMIENTO)

chisq.test(v3)

## 
##  Pearson's Chi-squared test with Yates' continuity correction
## 
## data:  v3
## X-squared = 24.066, df = 1, p-value = 9.308e-07

#fisher.test(v3)
assocstats(v3)

##                     X^2 df   P(> X^2)
## Likelihood Ratio 25.759  1 3.8684e-07
## Pearson          24.472  1 7.5381e-07
## 
## Phi-Coefficient   : 0.049 
## Contingency Coeff.: 0.049 
## Cramer's V        : 0.049

En este caso, el valor de p de Chi cuadrado es significante (p-value < 2.2e-16) por lo tanto se rechaza hipotesis nula y se acepta hipotesis alterna, donde se evidencia que el tipo de tuberculosis influye en la perdida de seguimiento de los pacientes. El índice de Cramer (0.19) determina una asociación pequeña entre las variables.

Perdida seguimiento vs coinfeccion VIH

v5 = table(df2$PERDIDA_SEGUIMIENTO, df2$CONDICION_VIH)
rownames(v5) <- c("SI", "NO")
colnames(v5) <- c("DESCONOCIDO", "NEGATIVO", "POSITIVO" )              
addmargins(v5)

##      
##       DESCONOCIDO NEGATIVO POSITIVO   Sum
##   SI          507     7100     1757  9364
##   NO           54      445      239   738
##   Sum         561     7545     1996 10102

PlotXTabs2(data=df2,x=CONDICION_VIH,y=PERDIDA_SEGUIMIENTO)

chisq.test(v5)

## 
##  Pearson's Chi-squared test
## 
## data:  v5
## X-squared = 90.773, df = 2, p-value < 2.2e-16

fisher.test(v5)

## 
##  Fisher's Exact Test for Count Data
## 
## data:  v5
## p-value < 2.2e-16
## alternative hypothesis: two.sided

assocstats(v5)

##                     X^2 df P(> X^2)
## Likelihood Ratio 82.199  2        0
## Pearson          90.773  2        0
## 
## Phi-Coefficient   : NA 
## Contingency Coeff.: 0.094 
## Cramer's V        : 0.095

En este caso, el valor de p de Chi cuadrado es significante (p-value < 2.2e-16) por lo tanto se rechaza hipotesis nula y se acepta hipotesis alterna, donde se evidencia que la condición de VIH influye en la perdida de seguimiento de los pacientes. El índice de Cramer (0.095) determina una asociación pequeña entre las variables.

Perdida seguimiento vs Resultado BK

v6 = table(df2$PERDIDA_SEGUIMIENTO, df2$RESULTADO_BK_RECOD)
rownames(v6) <- c("SI", "NO")
colnames(v6) <- c("NEGATIVO", "NR", "POSITIVO", "SD" )              
addmargins(v6)

##      
##       NEGATIVO    NR POSITIVO    SD   Sum
##   SI      5073  1346     2819   126  9364
##   NO       378    64      289     7   738
##   Sum     5451  1410     3108   133 10102

PlotXTabs2(data=df2,x=RESULTADO_BK_RECOD,y=PERDIDA_SEGUIMIENTO)

chisq.test(v6)

## 
##  Pearson's Chi-squared test
## 
## data:  v6
## X-squared = 36.095, df = 3, p-value = 7.151e-08

fisher.test(v6)

## 
##  Fisher's Exact Test for Count Data
## 
## data:  v6
## p-value = 4.821e-08
## alternative hypothesis: two.sided

assocstats(v6)

##                     X^2 df   P(> X^2)
## Likelihood Ratio 37.162  3 4.2513e-08
## Pearson          36.095  3 7.1507e-08
## 
## Phi-Coefficient   : NA 
## Contingency Coeff.: 0.06 
## Cramer's V        : 0.06

En este caso, el valor de p de Chi cuadrado es significante (p-value = 7.151e-08) por lo tanto se rechaza hipotesis nula y se acepta hipotesis alterna, donde se evidencia que el resultado de la baciloscopia influye en la perdida de seguimiento de los pacientes. El índice de Cramer (0.06) determina una asociación pequeña entre las variables

Perdida seguimiento vs Resultado Prueba Molecular

v7 = table(df2$PERDIDA_SEGUIMIENTO, df2$RESULTADO_PRUEBA_MOL_RECOD)
rownames(v7) <- c("SI", "NO")
colnames(v7) <- c("NEGATIVO", "NI", "NR", "POSITIVO", "SD" )              
addmargins(v7)

##      
##       NEGATIVO    NI    NR POSITIVO    SD   Sum
##   SI      1433     4    42     4192  3693  9364
##   NO        92     0     3      379   264   738
##   Sum     1525     4    45     4571  3957 10102

PlotXTabs2(data=df,x=RESULTADO_PRUEBA_MOL_RECOD,y=PERDIDA_SEGUIMIENTO)

chisq.test(v7)

## Warning in chisq.test(v7): Chi-squared approximation may be incorrect

## 
##  Pearson's Chi-squared test
## 
## data:  v7
## X-squared = 12.898, df = 4, p-value = 0.01178

fisher.test(v7)

## 
##  Fisher's Exact Test for Count Data
## 
## data:  v7
## p-value = 0.01209
## alternative hypothesis: two.sided

assocstats(v7)

##                     X^2 df P(> X^2)
## Likelihood Ratio 13.216  4 0.010269
## Pearson          12.898  4 0.011783
## 
## Phi-Coefficient   : NA 
## Contingency Coeff.: 0.036 
## Cramer's V        : 0.036

En este caso, el valor de p de Chi cuadrado es significante (p-value = 0.01178) por lo tanto se rechaza hipotesis nula y se acepta hipotesis alterna, donde se evidencia que el resultado de la prueba molecular influye en la perdida de seguimiento de los pacientes. El índice de Cramer (0.036) determina una asociación muy pequeña entre las variables cercana a cero.

Perdida seguimiento vs Resultado Prueba Susceptibilidad a farmacos

v8 = table(df$PERDIDA_SEGUIMIENTO, df2$PRUEBA_SUSCEPTIBILIDAD_FARMACOS)
rownames(v8) <- c("SI", "NO")
colnames(v8) <- c("BACTEC MGIT", "LIPA", "NR", "PCR-TR")              
addmargins(v8)

##      
##       BACTEC MGIT  LIPA    NR PCR-TR   Sum
##   SI          258   872  4914   3320  9364
##   NO           13    99   321    305   738
##   Sum         271   971  5235   3625 10102

PlotXTabs2(data=df,x=PRUEBA_SUSCEPTIBILIDAD_FARMACOS,y=PERDIDA_SEGUIMIENTO)

chisq.test(v8)

## 
##  Pearson's Chi-squared test
## 
## data:  v8
## X-squared = 31.72, df = 3, p-value = 5.994e-07

fisher.test(v8)

## 
##  Fisher's Exact Test for Count Data
## 
## data:  v8
## p-value = 8.089e-07
## alternative hypothesis: two.sided

assocstats(v8)

##                     X^2 df   P(> X^2)
## Likelihood Ratio 31.112  3 8.0526e-07
## Pearson          31.720  3 5.9944e-07
## 
## Phi-Coefficient   : NA 
## Contingency Coeff.: 0.056 
## Cramer's V        : 0.056

En este caso, el valor de p de Chi cuadrado es significante (p-value = 5.994e-07) por lo tanto se rechaza hipotesis nula y se acepta hipotesis alterna, donde se evidencia que el resultado de la prueba de susceptibilidad a farmacos influye en la perdida de seguimiento de los pacientes. El índice de Cramer (0.056) determina una asociación muy pequeña entre las variables cercana a cero.

Perdida seguimiento vs Condición de ingreso

v9 = table(df$PERDIDA_SEGUIMIENTO, df$CONDICION_INGRESO)
rownames(v9) <- c("SI", "NO")
colnames(v9) <- c("NUEVO", "OPT", "RTF", "RTPS", "RTR", "REMITIDO")              
addmargins(v9)

##      
##       NUEVO   OPT   RTF  RTPS   RTR REMITIDO   Sum
##   SI   8849   269     1    19   132       94  9364
##   NO    588    48     0     6    82       14   738
##   Sum  9437   317     1    25   214      108 10102

PlotXTabs2(data=df,x=CONDICION_INGRESO,y=PERDIDA_SEGUIMIENTO)

chisq.test(v9)

## Warning in chisq.test(v9): Chi-squared approximation may be incorrect

## 
##  Pearson's Chi-squared test
## 
## data:  v9
## X-squared = 364.25, df = 5, p-value < 2.2e-16

#fisher.test(v9)
assocstats(v9)

##                     X^2 df P(> X^2)
## Likelihood Ratio 214.69  5        0
## Pearson          364.25  5        0
## 
## Phi-Coefficient   : NA 
## Contingency Coeff.: 0.187 
## Cramer's V        : 0.19

En este caso, el valor de p de Chi cuadrado no es significante (p-value < 2.2e-16) por lo tanto se acepta hipotesis nula y se rechaza hipotesis alterna, donde se evidencia que la condicion de ingreso influye en la perdida de seguimiento de los pacientes. El índice de Cramer (0.19) determina que hay una asociación pequeña entre las variables.

Perdida seguimiento vs Comorbilidad Alcoholismo

v10 = table(df2$PERDIDA_SEGUIMIENTO, df2$Alcoholismo)
rownames(v10) <- c("SI", "NO")
colnames(v10) <- c("SI", "NO")              
addmargins(v10)

##      
##          SI    NO   Sum
##   SI   9335    29  9364
##   NO    734     4   738
##   Sum 10069    33 10102

PlotXTabs2(data=df2,x=Alcoholismo,y=PERDIDA_SEGUIMIENTO)

chisq.test(v10)

## Warning in chisq.test(v10): Chi-squared approximation may be incorrect

## 
##  Pearson's Chi-squared test with Yates' continuity correction
## 
## data:  v10
## X-squared = 0.53261, df = 1, p-value = 0.4655

fisher.test(v10)

## 
##  Fisher's Exact Test for Count Data
## 
## data:  v10
## p-value = 0.2999
## alternative hypothesis: true odds ratio is not equal to 1
## 95 percent confidence interval:
##  0.4468427 5.0148811
## sample estimates:
## odds ratio 
##   1.754077

assocstats(v10)

##                      X^2 df P(> X^2)
## Likelihood Ratio 0.96001  1  0.32718
## Pearson          1.13385  1  0.28696
## 
## Phi-Coefficient   : 0.011 
## Contingency Coeff.: 0.011 
## Cramer's V        : 0.011

En este caso, el valor de p de Chi cuadrado no es significante (p-value = 0.4655) por lo tanto se acepta hipotesis nula y se rechaza hipotesis alterna, donde se evidencia que el alcoholismo no influye en la perdida de seguimiento de los pacientes. Los índices de Cramer y Phi (0.0011) determinan que no hay asociación entre las variables.

Perdida seguimiento vs Comorbilidad Consumo de SPA

v11 = table(df2$PERDIDA_SEGUIMIENTO, df2$Consumidor_SPA)
rownames(v11) <- c("SI", "NO")
colnames(v11) <- c("SI", "NO")              
addmargins(v11)

##      
##          SI    NO   Sum
##   SI   9289    75  9364
##   NO    689    49   738
##   Sum  9978   124 10102

PlotXTabs2(data=df2,x=Consumidor_SPA,y=PERDIDA_SEGUIMIENTO)

chisq.test(v11)

## 
##  Pearson's Chi-squared test with Yates' continuity correction
## 
## data:  v11
## X-squared = 187.56, df = 1, p-value < 2.2e-16

fisher.test(v11)

## 
##  Fisher's Exact Test for Count Data
## 
## data:  v11
## p-value < 2.2e-16
## alternative hypothesis: true odds ratio is not equal to 1
## 95 percent confidence interval:
##   5.961162 12.902703
## sample estimates:
## odds ratio 
##   8.804641

assocstats(v11)

##                     X^2 df P(> X^2)
## Likelihood Ratio 103.79  1        0
## Pearson          192.35  1        0
## 
## Phi-Coefficient   : 0.138 
## Contingency Coeff.: 0.137 
## Cramer's V        : 0.138

En este caso, el valor de p de Chi cuadrado es significante (p-value < 2.2e-16) por lo tanto se rechaza hipotesis nula y se acepta hipotesis alterna, donde se evidencia que el consumo de SPA influye en la perdida de seguimiento de los pacientes. Los índice de Cramer y Phi (0.138) determinan que hay una asociación pequeña entre las variables.

Perdida seguimiento vs Comorbilidad Desnutricion

v12 = table(df2$PERDIDA_SEGUIMIENTO, df2$Desnutricion)
rownames(v12) <- c("SI", "NO")
colnames(v12) <- c("SI", "NO")              
addmargins(v12)

##      
##          SI    NO   Sum
##   SI   7766  1598  9364
##   NO    576   162   738
##   Sum  8342  1760 10102

PlotXTabs2(data=df2,x=Desnutricion,y=PERDIDA_SEGUIMIENTO)

chisq.test(v12)

## 
##  Pearson's Chi-squared test with Yates' continuity correction
## 
## data:  v12
## X-squared = 11.014, df = 1, p-value = 0.0009044

fisher.test(v12)

## 
##  Fisher's Exact Test for Count Data
## 
## data:  v12
## p-value = 0.001035
## alternative hypothesis: true odds ratio is not equal to 1
## 95 percent confidence interval:
##  1.131576 1.644059
## sample estimates:
## odds ratio 
##   1.366779

assocstats(v12)

##                     X^2 df   P(> X^2)
## Likelihood Ratio 10.722  1 0.00105886
## Pearson          11.351  1 0.00075417
## 
## Phi-Coefficient   : 0.034 
## Contingency Coeff.: 0.034 
## Cramer's V        : 0.034

En este caso, el valor de p de Chi cuadrado no es significante (p-value = 0.0009044) por lo tanto se acepta hipotesis nula y se rechaza hipotesis alterna, donde se evidencia que la desnutrición influye en la perdida de seguimiento de los pacientes. Los índices de Cramer y Phi (0.034) determinan que hay una asociación muy pequeña entre las variables.

Perdida seguimiento vs Comorbilidad Enfermedad mental

v13 = table(df2$PERDIDA_SEGUIMIENTO, df2$Enf_Mental)
rownames(v13) <- c("SI", "NO")
colnames(v13) <- c("SI", "NO")              
addmargins(v13)

##      
##          SI    NO   Sum
##   SI   9357     7  9364
##   NO    734     4   738
##   Sum 10091    11 10102

PlotXTabs2(data=df2,x=Enf_Mental,y=PERDIDA_SEGUIMIENTO)

chisq.test(v13)

## Warning in chisq.test(v13): Chi-squared approximation may be incorrect

## 
##  Pearson's Chi-squared test with Yates' continuity correction
## 
## data:  v13
## X-squared = 9.7711, df = 1, p-value = 0.001773

fisher.test(v13)

## 
##  Fisher's Exact Test for Count Data
## 
## data:  v13
## p-value = 0.006154
## alternative hypothesis: true odds ratio is not equal to 1
## 95 percent confidence interval:
##   1.559432 28.722543
## sample estimates:
## odds ratio 
##    7.28147

assocstats(v13)

##                      X^2 df   P(> X^2)
## Likelihood Ratio  7.5888  1 0.00587326
## Pearson          13.7309  1 0.00021096
## 
## Phi-Coefficient   : 0.037 
## Contingency Coeff.: 0.037 
## Cramer's V        : 0.037

En este caso, el valor de p de Chi cuadrado no es significante (p-value = 0.001773) por lo tanto se acepta hipotesis nula y se rechaza hipotesis alterna, donde se evidencia que la presencia de una enfermedad mental influye en la perdida de seguimiento de los pacientes. Los índice de Cramer y Phi (0.037) determinan que hay una asociación muy pequeña entre las variables.

Perdida seguimiento vs Comorbilidad Tabaquismo

v14 = table(df2$PERDIDA_SEGUIMIENTO, df2$Tabaquismo)
rownames(v14) <- c("SI", "NO")
colnames(v14) <- c("SI", "NO")              
addmargins(v14)

##      
##          SI    NO   Sum
##   SI   9297    67  9364
##   NO    726    12   738
##   Sum 10023    79 10102

PlotXTabs2(data=df2,x=Tabaquismo,y=PERDIDA_SEGUIMIENTO)

chisq.test(v14)

## 
##  Pearson's Chi-squared test with Yates' continuity correction
## 
## data:  v14
## X-squared = 6.1828, df = 1, p-value = 0.0129

fisher.test(v14)

## 
##  Fisher's Exact Test for Count Data
## 
## data:  v14
## p-value = 0.0141
## alternative hypothesis: true odds ratio is not equal to 1
## 95 percent confidence interval:
##  1.12366 4.30042
## sample estimates:
## odds ratio 
##   2.293191

assocstats(v14)

##                     X^2 df  P(> X^2)
## Likelihood Ratio 5.7136  1 0.0168344
## Pearson          7.3092  1 0.0068602
## 
## Phi-Coefficient   : 0.027 
## Contingency Coeff.: 0.027 
## Cramer's V        : 0.027

En este caso, el valor de p de Chi cuadrado no es significante (p-value = 0.0129) por lo tanto se acepta hipotesis nula y se rechaza hipotesis alterna, donde se evidencia que la presencia de tabaquismo influye en la perdida de seguimiento de los pacientes. Los índices de Cramer Y Phi (0.027) determinan que hay una asociación muy pequeña entre las variables.

Perdida seguimiento vs Programas de proteccion social

v15 = table(df$PERDIDA_SEGUIMIENTO, df$PROGRAMAS_PROTECC_SOCIAL)
rownames(v15) <- c("SI", "NO")
colnames(v15) <- c("Varios", "No evaluado", "Alimentario", "Transporte", "Educativo", "NA", "Ninguno", "Desempleo", "Vivienda", "Monetario")              
addmargins(v15)

##      
##       Varios No evaluado Alimentario Transporte Educativo    NA Ninguno
##   SI      79           3           7         23      1965  2065    5152
##   NO      14           0           0          2       145   173     391
##   Sum     93           3           7         25      2110  2238    5543
##      
##       Desempleo Vivienda Monetario   Sum
##   SI         26        2        42  9364
##   NO          4        0         9   738
##   Sum        30        2        51 10102

PlotXTabs2(data=df,x=PROGRAMAS_PROTECC_SOCIAL,y=PERDIDA_SEGUIMIENTO)

chisq.test(v15)

## Warning in chisq.test(v15): Chi-squared approximation may be incorrect

## 
##  Pearson's Chi-squared test
## 
## data:  v15
## X-squared = 20.572, df = 9, p-value = 0.01469

#fisher.test(v15)
assocstats(v15)

##                     X^2 df P(> X^2)
## Likelihood Ratio 17.250  9 0.044936
## Pearson          20.572  9 0.014692
## 
## Phi-Coefficient   : NA 
## Contingency Coeff.: 0.045 
## Cramer's V        : 0.045

En este caso, el valor de p de Chi cuadrado es significante (p-value = 0.01469) por lo tanto se rechaza hipotesis nula y se acepta hipotesis alterna, donde se evidencia que el pertenecer a un programa de proteccion social influye en la perdida de seguimiento de los pacientes. El índice de Cramer (0.045) determina que hay una asociación muy pequeña entre las variables.

Perdida seguimiento vs Reacciones adversas

v16 = table(df$PERDIDA_SEGUIMIENTO, df$REACCIONES_ADVERSAS_TTO)
rownames(v16) <- c("SI", "NO")
colnames(v16) <- c("Grave", "Leve", "Moderada", "Ninguna", "SD")              
addmargins(v16)

##      
##       Grave  Leve Moderada Ninguna    SD   Sum
##   SI     16    11       14    4179  5144  9364
##   NO      3     1        4     341   389   738
##   Sum    19    12       18    4520  5533 10102

PlotXTabs2(data=df,x=REACCIONES_ADVERSAS_TTO,y=PERDIDA_SEGUIMIENTO)

chisq.test(v16)

## Warning in chisq.test(v16): Chi-squared approximation may be incorrect

## 
##  Pearson's Chi-squared test
## 
## data:  v16
## X-squared = 8.9509, df = 4, p-value = 0.06234

fisher.test(v16)

## 
##  Fisher's Exact Test for Count Data
## 
## data:  v16
## p-value = 0.05222
## alternative hypothesis: two.sided

assocstats(v16)

##                     X^2 df P(> X^2)
## Likelihood Ratio 6.5593  4 0.161091
## Pearson          8.9509  4 0.062339
## 
## Phi-Coefficient   : NA 
## Contingency Coeff.: 0.03 
## Cramer's V        : 0.03

En este caso, el valor de p de Chi cuadrado no es significante (p-value = 0.06234) por lo tanto se acepta hipotesis nula y se rechaza hipotesis alterna, donde se evidencia que las reacciones adversas a tratamiento no influyen en la perdida de seguimiento de los pacientes. Los índices de Cramer Y Phi (0.03) determinan que hay una asociación muy pequeña entre las variables.

Perdida seguimiento vs Pertenencia étnica

df2$PERTENENCIA_ETNICA<- str_replace(df2$PERTENENCIA_ETNICA, "NEGRO, MULATO, AFROCOLOMBIANO","AFRO")
df2$PERTENENCIA_ETNICA<- str_replace(df2$PERTENENCIA_ETNICA, "ROOM (GITANO)","ROOM")

v17 = table(df2$PERDIDA_SEGUIMIENTO, df2$PERTENENCIA_ETNICA)
rownames(v17) <- c("SI", "NO")
colnames(v17) <- c("INDIGENA", "AFRO", "OTRO", "PALENQUERO", "RAIZAL", "ROOM")              
addmargins(v17)

##      
##       INDIGENA  AFRO  OTRO PALENQUERO RAIZAL  ROOM   Sum
##   SI        70   131  9144          1      6    12  9364
##   NO        12    22   702          0      1     1   738
##   Sum       82   153  9846          1      7    13 10102

PlotXTabs2(data=df2,x=PERTENENCIA_ETNICA,y=PERDIDA_SEGUIMIENTO)

chisq.test(v17)

## Warning in chisq.test(v17): Chi-squared approximation may be incorrect

## 
##  Pearson's Chi-squared test
## 
## data:  v17
## X-squared = 18.843, df = 5, p-value = 0.002056

fisher.test(v17)

## 
##  Fisher's Exact Test for Count Data
## 
## data:  v17
## p-value = 0.002105
## alternative hypothesis: two.sided

assocstats(v17)

##                     X^2 df  P(> X^2)
## Likelihood Ratio 15.148  5 0.0097472
## Pearson          18.843  5 0.0020561
## 
## Phi-Coefficient   : NA 
## Contingency Coeff.: 0.043 
## Cramer's V        : 0.043

En este caso, el valor de p de Chi cuadrado es significante (p-value = 0.002056) por lo tanto se rechaza hipotesis nula y se acepta hipotesis alterna, donde se evidencia que tener alguna pertenencia étnica influye en la perdida de seguimiento de los pacientes. El índice de Cramer (0.043) determina que hay una asociación muy pequeña entre las variables.

Perdida seguimiento vs Grupo poblacional:discapacidad

v18 = table(df2$PERDIDA_SEGUIMIENTO, df2$gp_discapa)
rownames(v18) <- c("SI", "NO")
colnames(v18) <- c("SI", "NO")              
addmargins(v18)

##      
##          SI    NO   Sum
##   SI   9234   130  9364
##   NO    733     5   738
##   Sum  9967   135 10102

PlotXTabs2(data=df2,x=gp_discapa,y=PERDIDA_SEGUIMIENTO)

chisq.test(v18)

## 
##  Pearson's Chi-squared test with Yates' continuity correction
## 
## data:  v18
## X-squared = 2.1099, df = 1, p-value = 0.1464

fisher.test(v18)

## 
##  Fisher's Exact Test for Count Data
## 
## data:  v18
## p-value = 0.1315
## alternative hypothesis: true odds ratio is not equal to 1
## 95 percent confidence interval:
##  0.1542437 1.1654710
## sample estimates:
## odds ratio 
##  0.4845686

assocstats(v18)

##                     X^2 df P(> X^2)
## Likelihood Ratio 3.1534  1  0.07577
## Pearson          2.6212  1  0.10544
## 
## Phi-Coefficient   : 0.016 
## Contingency Coeff.: 0.016 
## Cramer's V        : 0.016

En este caso, el valor de p de Chi cuadrado no es significante (p-value = 0.1464) por lo tanto se acepta hipotesis nula y se rechaza hipotesis alterna, donde se evidencia que tener alguna condicion de discapacidad no influye en la perdida de seguimiento de los pacientes. Los índices de Cramer y Phi (0.0016) determinan que no hay una asociación entre las variables.

Perdida seguimiento vs Grupo poblacional:desplazado

v19 = table(df2$PERDIDA_SEGUIMIENTO, df2$gp_desplaz)
rownames(v19) <- c("SI", "NO")
colnames(v19) <- c("SI", "NO")              
addmargins(v19)

##      
##          SI    NO   Sum
##   SI   9301    63  9364
##   NO    722    16   738
##   Sum 10023    79 10102

PlotXTabs2(data=df2,x=gp_desplaz,y=PERDIDA_SEGUIMIENTO)

chisq.test(v19)

## 
##  Pearson's Chi-squared test with Yates' continuity correction
## 
## data:  v19
## X-squared = 17.831, df = 1, p-value = 2.414e-05

fisher.test(v19)

## 
##  Fisher's Exact Test for Count Data
## 
## data:  v19
## p-value = 0.000155
## alternative hypothesis: true odds ratio is not equal to 1
## 95 percent confidence interval:
##  1.754127 5.767639
## sample estimates:
## odds ratio 
##   3.271053

assocstats(v19)

##                     X^2 df   P(> X^2)
## Likelihood Ratio 13.828  1 2.0035e-04
## Pearson          19.711  1 9.0062e-06
## 
## Phi-Coefficient   : 0.044 
## Contingency Coeff.: 0.044 
## Cramer's V        : 0.044

En este caso, el valor de p de Chi cuadrado es significante (p-value = 2.414e-05) por lo tanto se rechaza hipotesis nula y se acepta hipotesis alterna, donde se evidencia que ser desplazado influye en la perdida de seguimiento de los pacientes. El índice de Cramer y Phi (0.043) determinan que hay una asociación muy pequeña entre las variables.

Perdida seguimiento vs Grupo poblacional: migrante

v20 = table(df2$PERDIDA_SEGUIMIENTO, df2$gp_migrant)
rownames(v20) <- c("SI", "NO")
colnames(v20) <- c("SI", "NO")              
addmargins(v20)

##      
##          SI    NO   Sum
##   SI   8916   448  9364
##   NO    663    75   738
##   Sum  9579   523 10102

PlotXTabs2(data=df2,x=gp_migrant,y=PERDIDA_SEGUIMIENTO)

chisq.test(v20)

## 
##  Pearson's Chi-squared test with Yates' continuity correction
## 
## data:  v20
## X-squared = 39.22, df = 1, p-value = 3.786e-10

fisher.test(v20)

## 
##  Fisher's Exact Test for Count Data
## 
## data:  v20
## p-value = 1.125e-08
## alternative hypothesis: true odds ratio is not equal to 1
## 95 percent confidence interval:
##  1.716796 2.920173
## sample estimates:
## odds ratio 
##   2.251041

assocstats(v20)

##                     X^2 df   P(> X^2)
## Likelihood Ratio 32.570  1 1.1496e-08
## Pearson          40.309  1 2.1686e-10
## 
## Phi-Coefficient   : 0.063 
## Contingency Coeff.: 0.063 
## Cramer's V        : 0.063

En este caso, el valor de p de Chi cuadrado es significante (p-value = 3.786e-10) por lo tanto se rechaza hipotesis nula y se acepta hipotesis alterna, donde se evidencia que ser migrante influye en la perdida de seguimiento de los pacientes. El índice de Cramer y Phi (0.063) determinan que hay una asociación muy pequeña entre las variables.

Perdida seguimiento vs Grupo poblacional: carcelario

v21 = table(df2$PERDIDA_SEGUIMIENTO, df2$gp_carcela)
rownames(v21) <- c("SI", "NO")
colnames(v21) <- c("SI", "NO")              
addmargins(v21)

##      
##          SI    NO   Sum
##   SI   9057   307  9364
##   NO    706    32   738
##   Sum  9763   339 10102

PlotXTabs2(data=df2,x=gp_carcela,y=PERDIDA_SEGUIMIENTO)

chisq.test(v21)

## 
##  Pearson's Chi-squared test with Yates' continuity correction
## 
## data:  v21
## X-squared = 2.0442, df = 1, p-value = 0.1528

fisher.test(v21)

## 
##  Fisher's Exact Test for Count Data
## 
## data:  v21
## p-value = 0.136
## alternative hypothesis: true odds ratio is not equal to 1
## 95 percent confidence interval:
##  0.8914069 1.9458192
## sample estimates:
## odds ratio 
##   1.337136

assocstats(v21)

##                     X^2 df P(> X^2)
## Likelihood Ratio 2.1804  1  0.13978
## Pearson          2.3590  1  0.12456
## 
## Phi-Coefficient   : 0.015 
## Contingency Coeff.: 0.015 
## Cramer's V        : 0.015

En este caso, el valor de p de Chi cuadrado no es significante (p-value = 0.1528) por lo tanto se acepta hipotesis nula y se rechaza hipotesis alterna, donde se evidencia que ser carcelario no influye en la perdida de seguimiento de los pacientes. El índice de Cramer y Phi (0.015) determinan que no hay asociación entre las variables.

Perdida seguimiento vs Grupo poblacional: gestante

v22 = table(df2$PERDIDA_SEGUIMIENTO, df2$gp_gestan)
rownames(v22) <- c("SI", "NO")
colnames(v22) <- c("SI", "NO")              
addmargins(v22)

##      
##          SI    NO   Sum
##   SI   9348    16  9364
##   NO    734     4   738
##   Sum 10082    20 10102

PlotXTabs2(data=df2,x=gp_gestan,y=PERDIDA_SEGUIMIENTO)

chisq.test(v22)

## Warning in chisq.test(v22): Chi-squared approximation may be incorrect

## 
##  Pearson's Chi-squared test with Yates' continuity correction
## 
## data:  v22
## X-squared = 3.0755, df = 1, p-value = 0.07948

fisher.test(v22)

## 
##  Fisher's Exact Test for Count Data
## 
## data:  v22
## p-value = 0.05356
## alternative hypothesis: true odds ratio is not equal to 1
## 95 percent confidence interval:
##  0.772459 9.902516
## sample estimates:
## odds ratio 
##   3.183322

assocstats(v22)

##                     X^2 df P(> X^2)
## Likelihood Ratio 3.3533  1 0.067072
## Pearson          4.7689  1 0.028978
## 
## Phi-Coefficient   : 0.022 
## Contingency Coeff.: 0.022 
## Cramer's V        : 0.022

En este caso, el valor de p de Chi cuadrado no es significante (p-value = 0.07948) por lo tanto se acepta hipotesis nula y se rechaza hipotesis alterna, donde se evidencia que ser gestante no influye en la perdida de seguimiento de los pacientes. El índice de Cramer y Phi (0.022) determinan que no hay asociación entre las variables.

Perdida seguimiento vs Grupo poblacional: habitante de calle

v23 = table(df2$PERDIDA_SEGUIMIENTO, df2$gp_indigen)
rownames(v23) <- c("SI", "NO")
colnames(v23) <- c("SI", "NO")              
addmargins(v23)

##      
##          SI    NO   Sum
##   SI   9027   337  9364
##   NO    534   204   738
##   Sum  9561   541 10102

PlotXTabs2(data=df2,x=gp_indigen,y=PERDIDA_SEGUIMIENTO)

chisq.test(v23)

## 
##  Pearson's Chi-squared test with Yates' continuity correction
## 
## data:  v23
## X-squared = 775.48, df = 1, p-value < 2.2e-16

fisher.test(v23)

## 
##  Fisher's Exact Test for Count Data
## 
## data:  v23
## p-value < 2.2e-16
## alternative hypothesis: true odds ratio is not equal to 1
## 95 percent confidence interval:
##   8.373435 12.477026
## sample estimates:
## odds ratio 
##   10.22788

assocstats(v23)

##                     X^2 df P(> X^2)
## Likelihood Ratio 446.95  1        0
## Pearson          780.22  1        0
## 
## Phi-Coefficient   : 0.278 
## Contingency Coeff.: 0.268 
## Cramer's V        : 0.278

En este caso, el valor de p de Chi cuadrado es significante (p-value < 2.2e-16) por lo tanto se rechaza hipotesis nula y se acepta hipotesis alterna, donde se evidencia que ser habitante de calle influye en la perdida de seguimiento de los pacientes. El índice de Cramer y Phi (0.278) determinan que hay una fuerza de asociación mediana entre las variables.

Perdida seguimiento vs Grupo poblacional: ICBF

v24 = table(df2$PERDIDA_SEGUIMIENTO, df2$gp_pobicbf)
rownames(v24) <- c("SI", "NO")
colnames(v24) <- c("SI", "NO")              
addmargins(v24)

##      
##          SI    NO   Sum
##   SI   9352    12  9364
##   NO    736     2   738
##   Sum 10088    14 10102

PlotXTabs2(data=df2,x=gp_pobicbf,y=PERDIDA_SEGUIMIENTO)

chisq.test(v24)

## Warning in chisq.test(v24): Chi-squared approximation may be incorrect

## 
##  Pearson's Chi-squared test with Yates' continuity correction
## 
## data:  v24
## X-squared = 0.24056, df = 1, p-value = 0.6238

fisher.test(v24)

## 
##  Fisher's Exact Test for Count Data
## 
## data:  v24
## p-value = 0.2728
## alternative hypothesis: true odds ratio is not equal to 1
## 95 percent confidence interval:
##  0.2297563 9.5386929
## sample estimates:
## odds ratio 
##   2.117537

assocstats(v24)

##                      X^2 df P(> X^2)
## Likelihood Ratio 0.80498  1  0.36961
## Pearson          1.00871  1  0.31521
## 
## Phi-Coefficient   : 0.01 
## Contingency Coeff.: 0.01 
## Cramer's V        : 0.01

En este caso, el valor de p de Chi cuadrado no es significante (p-value = 0.6238) por lo tanto se acepta hipotesis nula y se rechaza hipotesis alterna, donde se evidencia que ser población del ICBF no influye en la perdida de seguimiento de los pacientes. El índice de Cramer y Phi (0.01) determinan que no hay asociación entre las variables.

Perdida seguimiento vs Grupo poblacional: poblacion psiquiatrica

v25 = table(df2$PERDIDA_SEGUIMIENTO, df2$gp_psiquia)
rownames(v25) <- c("SI", "NO")
colnames(v25) <- c("SI", "NO")              
addmargins(v25)

##      
##          SI    NO   Sum
##   SI   9357     7  9364
##   NO    734     4   738
##   Sum 10091    11 10102

PlotXTabs2(data=df2,x=gp_psiquia,y=PERDIDA_SEGUIMIENTO)

chisq.test(v25)

## Warning in chisq.test(v25): Chi-squared approximation may be incorrect

## 
##  Pearson's Chi-squared test with Yates' continuity correction
## 
## data:  v25
## X-squared = 9.7711, df = 1, p-value = 0.001773

fisher.test(v25)

## 
##  Fisher's Exact Test for Count Data
## 
## data:  v25
## p-value = 0.006154
## alternative hypothesis: true odds ratio is not equal to 1
## 95 percent confidence interval:
##   1.559432 28.722543
## sample estimates:
## odds ratio 
##    7.28147

assocstats(v25)

##                      X^2 df   P(> X^2)
## Likelihood Ratio  7.5888  1 0.00587326
## Pearson          13.7309  1 0.00021096
## 
## Phi-Coefficient   : 0.037 
## Contingency Coeff.: 0.037 
## Cramer's V        : 0.037

En este caso, el valor de p de Chi cuadrado es significante (p-value = 0.001773) por lo tanto se rechaza hipotesis nula y se acepta hipotesis alterna, donde se evidencia que ser población psiquiatrica influye en la perdida de seguimiento de los pacientes. El índice de Cramer y Phi (0.037) determinan que hay asociación muy pequeña entre las variables.

Perdida seguimiento vs Grupo poblacional: localizacion Extrapulmonar

v26 = table(df$PERDIDA_SEGUIMIENTO, df$LOCALIZACION_EXTRA)
rownames(v26) <- c("SI", "NO")
colnames(v26) <- c("Genitourinaria", "NA", "Pleural", "Cutanea", "Ganglionar", "Intestinal", "Meningea", "Osteoarticular", "Otro", "Pericardica", "Peritoneal", "Renal", "Laringea")              
addmargins(v26)

##      
##       Genitourinaria    NA Pleural Cutanea Ganglionar Intestinal Meningea
##   SI              46   332      83      80          1        796     6373
##   NO               3    34       0       2          0         52      567
##   Sum             49   366      83      82          1        848     6940
##      
##       Osteoarticular  Otro Pericardica Peritoneal Renal Laringea   Sum
##   SI             196   215         105        143   977       17  9364
##   NO              13     8           6          5    46        2   738
##   Sum            209   223         111        148  1023       19 10102

PlotXTabs2(data=df,x=LOCALIZACION_EXTRA,y=PERDIDA_SEGUIMIENTO)

chisq.test(v26)

## Warning in chisq.test(v26): Chi-squared approximation may be incorrect

## 
##  Pearson's Chi-squared test
## 
## data:  v26
## X-squared = 42.19, df = 12, p-value = 3.094e-05

#fisher.test(v26)
assocstats(v26)

##                     X^2 df   P(> X^2)
## Likelihood Ratio 52.492 12 5.0704e-07
## Pearson          42.190 12 3.0943e-05
## 
## Phi-Coefficient   : NA 
## Contingency Coeff.: 0.064 
## Cramer's V        : 0.065

En este caso, el valor de p de Chi cuadrado es significante (p-value = 3.094e-05) por lo tanto se rechaza hipotesis nula y se acepta hipotesis alterna, donde se evidencia que la locaalizacion anatomica de la tuberculosis influye en la perdida de seguimiento de los pacientes. El índice de Cramer (0.065) determina que hay asociación muy pequeña entre las variables.

Perdida seguimiento vs Grupo poblacional: localidad de residencia

v27 = table(df2$PERDIDA_SEGUIMIENTO, df2$LOC_RES)
rownames(v27) <- c("SI", "NO")
colnames(v27) <- c("CO", "SO", "NORTE", "SUR", "FDB", "SD")              
addmargins(v27)

##      
##          CO    SO NORTE   SUR   FDB    SD   Sum
##   SI   1701  1860  2408   267  2029  1099  9364
##   NO    181    82   156    75   133   111   738
##   Sum  1882  1942  2564   342  2162  1210 10102

PlotXTabs2(data=df2,x=LOC_RES,y=PERDIDA_SEGUIMIENTO)

chisq.test(v27)

## 
##  Pearson's Chi-squared test
## 
## data:  v27
## X-squared = 166.26, df = 5, p-value < 2.2e-16

#fisher.test(v26)
assocstats(v27)

##                     X^2 df P(> X^2)
## Likelihood Ratio 134.85  5        0
## Pearson          166.26  5        0
## 
## Phi-Coefficient   : NA 
## Contingency Coeff.: 0.127 
## Cramer's V        : 0.128

En este caso, el valor de p de Chi cuadrado es significante (p-value < 2.2e-16) por lo tanto se rechaza hipotesis nula y se acepta hipotesis alterna, donde se evidencia que la localidad de residencia del paciente influye en la perdida de seguimiento de los pacientes. El índice de Cramer (0.16) determina que hay asociación muy pequeña entre las variables.

Perdida seguimiento vs Grupo poblacional: localidad de diagnostico

v28 = table(df2$PERDIDA_SEGUIMIENTO, df2$LOC_DX)
rownames(v28) <- c("SI", "NO")
colnames(v28) <- c("CO", "SO", "NORTE", "SUR", "Sin Dato")              
addmargins(v28)

##      
##          CO    SO NORTE   SUR Sin Dato   Sum
##   SI   3233  4444    17  1127      543  9364
##   NO    325   239     2   102       70   738
##   Sum  3558  4683    19  1229      613 10102

PlotXTabs2(data=df2,x=LOC_DX,y=PERDIDA_SEGUIMIENTO)

chisq.test(v28)

## Warning in chisq.test(v28): Chi-squared approximation may be incorrect

## 
##  Pearson's Chi-squared test
## 
## data:  v28
## X-squared = 68.506, df = 4, p-value = 4.691e-14

#fisher.test(v26)
assocstats(v28)

##                     X^2 df   P(> X^2)
## Likelihood Ratio 68.799  4 4.0745e-14
## Pearson          68.506  4 4.6962e-14
## 
## Phi-Coefficient   : NA 
## Contingency Coeff.: 0.082 
## Cramer's V        : 0.082

En este caso, el valor de p de Chi cuadrado es significante (p-value < 2.2e-16) por lo tanto se rechaza hipotesis nula y se acepta hipotesis alterna, donde se evidencia que la localidad de diagnostico del paciente influye en la perdida de seguimiento de los pacientes. El índice de Cramer (0.164) determina que hay asociación muy pequeña entre las variables.

##SELECCION DE PREDICTORES

df2$REGIMEN_AFILIACION<- str_replace(df2$REGIMEN_AFILIACION, "C - CONTRIBUTIVO","C")
df2$REGIMEN_AFILIACION<- str_replace(df2$REGIMEN_AFILIACION, "E - ESPECIAL","E")
df2$REGIMEN_AFILIACION<- str_replace(df2$REGIMEN_AFILIACION, "N - NO ASEGURADO","N")
df2$REGIMEN_AFILIACION<- str_replace(df2$REGIMEN_AFILIACION, "P - EXCEPCION","P")
df2$REGIMEN_AFILIACION<- str_replace(df2$REGIMEN_AFILIACION, "S - SUBSIDIADO","S")

df2$CONDICION_INGRESO<- str_replace(df2$CONDICION_INGRESO, "OTROS PREVIAMENTE TRATADOS","OPT")
df2$CONDICION_INGRESO<- str_replace(df2$CONDICION_INGRESO, "REINGRESO TRAS FRACASO","RTF")
df2$CONDICION_INGRESO<- str_replace(df2$CONDICION_INGRESO, "REINGRESO TRAS PERDIDA EN EL SEGUIMIENTO","RTPS")
df2$CONDICION_INGRESO<- str_replace(df2$CONDICION_INGRESO, "REINGRESO TRAS RECAIDA","RTR")

predictores<- df2[,c("ID", "SEXO", "EDAD", "PERTENENCIA_ETNICA", "gp_desplaz", "gp_migrant",  "gp_indigen", "LOC_RES", "REGIMEN_AFILIACION", "TIPO_TB", "CONDICION_INGRESO", "RESULTADO_BK_RECOD", "CONDICION_VIH", "Consumidor_SPA", "Desnutricion", "Tabaquismo", "Enf_Mental", "PERDIDA_SEGUIMIENTO")]
predictores<-as.data.frame(predictores)

Se deben aplicar tecnicas para reducir las variables, para ello hay que codificar las variables categoricas:

#install.packages("fastDummies")

#library(fastDummies)
#dummy_cols(predictores)

#predictores_dumy<-dummy_columns(predictores, remove_first_dummy=TRUE)
#predictores_dumy

predictores <- predictores %>% mutate(Sexo_D = case_when (                                                   
              SEXO == "F" ~ 1,
              SEXO == "M" ~ 2),
Pert_Etnica_D = case_when (
              PERTENENCIA_ETNICA == "OTRO" ~ 0,
              PERTENENCIA_ETNICA == "INDIGENA" ~ 1,
              PERTENENCIA_ETNICA == "AFRO" ~ 2,
              PERTENENCIA_ETNICA == "PALENQUERO" ~ 3,
              PERTENENCIA_ETNICA == "RAIZAL" ~ 4,
              PERTENENCIA_ETNICA == "ROOM" ~ 5),
gp_desplazado_D = case_when (
              gp_desplaz == "SI" ~ 1,
              gp_desplaz == "NO" ~ 0),
gp_migrante_D = case_when (
              gp_migrant == "SI" ~ 1,
              gp_migrant == "NO" ~ 0),
gp_hab_calle_D = case_when (
              gp_indigen == "SI" ~ 1,
              gp_indigen == "NO" ~ 0),
Loc_Res_D = case_when (
              LOC_RES == "Sin Dato" ~ 0,
              LOC_RES == "NORTE" ~ 1,
              LOC_RES == "CO" ~ 2,
              LOC_RES == "SO" ~ 3,
              LOC_RES == "SUR" ~ 4,
              LOC_RES == "FDB" ~ 5),
Reg_Afi_D = case_when (
              REGIMEN_AFILIACION == "C" ~ 1,
              REGIMEN_AFILIACION == "S" ~ 2,
              REGIMEN_AFILIACION == "N" ~ 3,
              REGIMEN_AFILIACION == "E" ~ 4,
              REGIMEN_AFILIACION == "P" ~ 5),
Tipo_TB_D = case_when (
              TIPO_TB == "PULMONAR" ~ 1,
              TIPO_TB== "EXTRAPULMONAR" ~ 2),
Cond_Ing_D = case_when (
              CONDICION_INGRESO == "REMITIDO" ~ 0,
              CONDICION_INGRESO == "OPT" ~ 1,
              CONDICION_INGRESO == "RTPS" ~ 2,
              CONDICION_INGRESO == "RTR" ~ 3,
              CONDICION_INGRESO == "RTF" ~ 4,
              CONDICION_INGRESO == "NUEVO" ~ 5),
Res_BK_D = case_when (
              RESULTADO_BK_RECOD == "POSITIVO" ~ 1,
              RESULTADO_BK_RECOD == "SD" ~ 0,
              RESULTADO_BK_RECOD == "NEGATIVO" ~ 2,
              RESULTADO_BK_RECOD == "NO REALIZADO" ~ 3),
Cond_VIH_D = case_when (
              CONDICION_VIH == "POSITIVO" ~ 1,
              CONDICION_VIH == "DESCONOCIDO" ~ 0,
              CONDICION_VIH == "NEGATIVO" ~ 2),
Consumo_SPA_D = case_when (
              Consumidor_SPA == "SI" ~ 1,
              Consumidor_SPA == "NO" ~ 0),
DNT_D = case_when (
              Desnutricion == "SI" ~ 1,
              Desnutricion == "NO" ~ 0),
Tab_D = case_when (
              Tabaquismo == "SI" ~ 1,
              Tabaquismo == "NO" ~ 0),
Enf_Mental_D = case_when (
              Enf_Mental == "SI" ~ 1,
              Enf_Mental == "NO" ~ 0),
Perd_Seg_D = case_when (
              PERDIDA_SEGUIMIENTO == "SI" ~ 1,
              PERDIDA_SEGUIMIENTO == "NO" ~ 0),
              )

#predictores_dumy$SEXO <- as.numeric(predictores$SEXO)

head(predictores)

##   ID SEXO EDAD PERTENENCIA_ETNICA gp_desplaz gp_migrant gp_indigen LOC_RES
## 1  1    M   25               OTRO         NO         NO         NO     FDB
## 2  2    M   66               OTRO         NO         NO         NO      SO
## 3  3    M   38               OTRO         NO         NO         NO      SO
## 4  4    M   67               OTRO         NO         NO         NO      SO
## 5  5    F   25               OTRO         NO         NO         NO      SO
## 6  6    F   82               OTRO         NO         NO         NO      SO
##   REGIMEN_AFILIACION  TIPO_TB CONDICION_INGRESO RESULTADO_BK_RECOD
## 1                  P PULMONAR             NUEVO           POSITIVO
## 2                  S PULMONAR               OPT           POSITIVO
## 3                  S PULMONAR             NUEVO           POSITIVO
## 4                  S PULMONAR             NUEVO           POSITIVO
## 5                  S PULMONAR             NUEVO           POSITIVO
## 6                  S PULMONAR             NUEVO           POSITIVO
##   CONDICION_VIH Consumidor_SPA Desnutricion Tabaquismo Enf_Mental
## 1      NEGATIVO             NO           NO         NO         NO
## 2      NEGATIVO             NO           NO         NO         NO
## 3      NEGATIVO             NO           SI         NO         NO
## 4      NEGATIVO             NO           NO         SI         NO
## 5      NEGATIVO             NO           NO         NO         NO
## 6      NEGATIVO             NO           SI         NO         NO
##   PERDIDA_SEGUIMIENTO Sexo_D Pert_Etnica_D gp_desplazado_D gp_migrante_D
## 1                  NO      2             0               0             0
## 2                  NO      2             0               0             0
## 3                  NO      2             0               0             0
## 4                  NO      2             0               0             0
## 5                  NO      1             0               0             0
## 6                  NO      1             0               0             0
##   gp_hab_calle_D Loc_Res_D Reg_Afi_D Tipo_TB_D Cond_Ing_D Res_BK_D Cond_VIH_D
## 1              0         5         5         1          5        1          2
## 2              0         3         2         1          1        1          2
## 3              0         3         2         1          5        1          2
## 4              0         3         2         1          5        1          2
## 5              0         3         2         1          5        1          2
## 6              0         3         2         1          5        1          2
##   Consumo_SPA_D DNT_D Tab_D Enf_Mental_D Perd_Seg_D
## 1             0     0     0            0          0
## 2             0     0     0            0          0
## 3             0     1     0            0          0
## 4             0     0     1            0          0
## 5             0     0     0            0          0
## 6             0     1     0            0          0

base_predic_dumy <- predictores[c("ID", "Sexo_D", "EDAD", "Pert_Etnica_D", "gp_desplazado_D", "gp_migrante_D", "gp_hab_calle_D", "Loc_Res_D", "Reg_Afi_D", "Tipo_TB_D", "Cond_Ing_D", "Res_BK_D", "Cond_VIH_D", "Consumo_SPA_D", "DNT_D", "Tab_D", "Enf_Mental_D", "Perd_Seg_D")]
head(base_predic_dumy)

##   ID Sexo_D EDAD Pert_Etnica_D gp_desplazado_D gp_migrante_D gp_hab_calle_D
## 1  1      2   25             0               0             0              0
## 2  2      2   66             0               0             0              0
## 3  3      2   38             0               0             0              0
## 4  4      2   67             0               0             0              0
## 5  5      1   25             0               0             0              0
## 6  6      1   82             0               0             0              0
##   Loc_Res_D Reg_Afi_D Tipo_TB_D Cond_Ing_D Res_BK_D Cond_VIH_D Consumo_SPA_D
## 1         5         5         1          5        1          2             0
## 2         3         2         1          1        1          2             0
## 3         3         2         1          5        1          2             0
## 4         3         2         1          5        1          2             0
## 5         3         2         1          5        1          2             0
## 6         3         2         1          5        1          2             0
##   DNT_D Tab_D Enf_Mental_D Perd_Seg_D
## 1     0     0            0          0
## 2     0     0            0          0
## 3     1     0            0          0
## 4     0     1            0          0
## 5     0     0            0          0
## 6     1     0            0          0

BALANCEO POR SMOTE

#install.packages("rsample")
#install.packages("smotefamily")

balanceo <- base_predic_dumy
glimpse(balanceo)

## Rows: 10,102
## Columns: 18
## $ ID              <dbl> 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16,…
## $ Sexo_D          <dbl> 2, 2, 2, 2, 1, 1, 2, 1, 2, 2, 2, 2, 2, 1, 1, 2, 1, 2, …
## $ EDAD            <dbl> 25, 66, 38, 67, 25, 82, 41, 86, 75, 56, 40, 65, 4, 2, …
## $ Pert_Etnica_D   <dbl> 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, …
## $ gp_desplazado_D <dbl> 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, …
## $ gp_migrante_D   <dbl> 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, …
## $ gp_hab_calle_D  <dbl> 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, …
## $ Loc_Res_D       <dbl> 5, 3, 3, 3, 3, 3, 4, 3, 1, 5, 4, 2, 1, 1, 5, 1, 1, 1, …
## $ Reg_Afi_D       <dbl> 5, 2, 2, 2, 2, 2, 2, 1, 4, 1, 1, 1, 1, 1, 1, 1, 1, 1, …
## $ Tipo_TB_D       <dbl> 1, 1, 1, 1, 1, 1, 1, 2, 1, 1, 1, 1, 1, 1, 2, 2, 1, 1, …
## $ Cond_Ing_D      <dbl> 5, 1, 5, 5, 5, 5, 5, 5, 5, 5, 3, 5, 5, 5, 5, 5, 5, 5, …
## $ Res_BK_D        <dbl> 1, 1, 1, 1, 1, 1, 1, 3, 3, 2, 2, 2, 2, 2, 2, 2, 2, 2, …
## $ Cond_VIH_D      <dbl> 2, 2, 2, 2, 2, 2, 2, 2, 0, 2, 1, 2, 2, 2, 2, 2, 2, 2, …
## $ Consumo_SPA_D   <dbl> 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, …
## $ DNT_D           <dbl> 0, 0, 1, 0, 0, 1, 1, 1, 0, 1, 0, 0, 0, 0, 0, 0, 1, 0, …
## $ Tab_D           <dbl> 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, …
## $ Enf_Mental_D    <dbl> 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, …
## $ Perd_Seg_D      <dbl> 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, …

Partición del dataset

#RNGkind(sample.kind = "Rounding")
#set.seed(100)

# your code here
index_balanceo <- sample(x = nrow(balanceo), size= nrow(balanceo)*0.7)
balanceo_train <- balanceo[index_balanceo, ]
balanceo_test <- balanceo[-index_balanceo, ]

prop.table(table(balanceo_train$Perd_Seg_D))

## 
##          0          1 
## 0.92730873 0.07269127

library(DMwR2)

## Registered S3 method overwritten by 'quantmod':
##   method            from
##   as.zoo.data.frame zoo

library(rsample)
library(smotefamily)

#smote
perd_seg_train_smote <- SMOTE(X = balanceo_train[,-18], 
                          target = balanceo_train[,18], 
                          dup_size = 12)

perd_seg_train_smote<- perd_seg_train_smote$data # extract only the balanced dataset
perd_seg_train_smote$class <- as.factor(perd_seg_train_smote$class)

prop.table(table(perd_seg_train_smote$class))

## 
##         0         1 
## 0.4952791 0.5047209

predictores_std <- scale(base_predic_dumy)
head (predictores_std, n = 5)

##             ID     Sexo_D       EDAD Pert_Etnica_D gp_desplazado_D
## [1,] -1.731794  0.7145921 -1.1666793    -0.1426294     -0.08877551
## [2,] -1.731451  0.7145921  0.7271182    -0.1426294     -0.08877551
## [3,] -1.731108  0.7145921 -0.5662070    -0.1426294     -0.08877551
## [4,] -1.730765  0.7145921  0.7733083    -0.1426294     -0.08877551
## [5,] -1.730422 -1.3992613 -1.1666793    -0.1426294     -0.08877551
##      gp_migrante_D gp_hab_calle_D Loc_Res_D Reg_Afi_D  Tipo_TB_D Cond_Ing_D
## [1,]    -0.2336519     -0.2378622 1.5073926 3.4421049 -0.6749626  0.2560114
## [2,]    -0.2336519     -0.2378622 0.1915989 0.3294824 -0.6749626 -4.5421843
## [3,]    -0.2336519     -0.2378622 0.1915989 0.3294824 -0.6749626  0.2560114
## [4,]    -0.2336519     -0.2378622 0.1915989 0.3294824 -0.6749626  0.2560114
## [5,]    -0.2336519     -0.2378622 0.1915989 0.3294824 -0.6749626  0.2560114
##       Res_BK_D Cond_VIH_D Consumo_SPA_D      DNT_D       Tab_D Enf_Mental_D
## [1,] -1.185003  0.5418404    -0.1114725 -0.4593035 -0.08877551  -0.03301473
## [2,] -1.185003  0.5418404    -0.1114725 -0.4593035 -0.08877551  -0.03301473
## [3,] -1.185003  0.5418404    -0.1114725  2.1769942 -0.08877551  -0.03301473
## [4,] -1.185003  0.5418404    -0.1114725 -0.4593035 11.26325257  -0.03301473
## [5,] -1.185003  0.5418404    -0.1114725 -0.4593035 -0.08877551  -0.03301473
##      Perd_Seg_D
## [1,] -0.2807217
## [2,] -0.2807217
## [3,] -0.2807217
## [4,] -0.2807217
## [5,] -0.2807217

MODELADO

PARTICION DATASET

Se realiza partición del dataset (entrenamiento 70%) y (prueba 30%) y se balancea debido a que la clase mayoritaria son personas que no tienen perdida de seguimiento corresponde al 7.3%.

# separacion de muestras
#ntrain <- nrow(rotacion_select)*0.7
#ntest <- nrow(rotacion_select)*0.3

#set.seed(123)
#index_train<-sample(1:nrow(rotacion_select),size = ntrain)
#train<-rotacion_select[index_train,]  # muestra de entrenamiento
#test<-rotacion_select[-index_train,]  # muestra de prueba

# oversampling
#train.blc <- ovun.sample(Rotación~., data=train, 
                         #p=0.5, seed=1, 
                         #method="over")$data

#test.blc <- ovun.sample(Rotación~., data=test, 
                        #p=0.5, seed=1, 
                        #method="over")$data
#table(train.blc$Rotación)
#table(test.blc$Rotación)

tesis

Diana Guerrero

2024-06-08

DESCRIPTIVO UNIVARIADO

DESCRIPTIVO BIVARIADO

BALANCEO POR SMOTE

MODELADO

PARTICION DATASET