Neste relatório é apresentado os resultados iniciais para uma análise multiestado da trajetória de pacientes internados por COVID-19 no Hospital das ClÃnicas da Unicamp, Campinas.
Os dados contém 220 covariáveis distintas, como sexo, idade, exames laboratoriais e clÃnicos. Também existem covariáveis descrevendo as datas e informações relativas da saúde do paciente nos estados.
Esta análise pode ser vista como uma continuação do relatório anterior. Aqui são apresentados diversos modelos paramétricos construÃdos seguindo duas classes:
O primeiro pressupõe que as probabilidades de transição de um estado para o outro não dependem de todo o histórico, mas somente do estado atual. O segundo tem a mesma hipótese, porém é também é considerado que o processo se renova, no sentido de que ao entrar em um novo estado, o processo volta ao tempo incial. Algumas referências costumam classificar como clock-foward e clock-reset.
A estrutura do modelo ainda é a mesma:
Estados
Durante a análise os estados são numerados:
Neste tipo de modelagem, tipicamente não se calculam as probabilidades diretamente, mas sim as intensidades. Entratanto, diferentemente da construção anterior em que se supõe uma forma para a matrix de transição Q e estimamos estas quantidades, agora pressupõe-se que os tempos entre as transições são variáveis aleatórias de alguma distribuição conhecida. Por exemplo, pode-se assumir que os tempos entre as transições são Weibul, Gamma, Log-Normal, etc. Sendo assim, é conhecido a forma funcional de suas intensidades e o processo de estimação se resume a estimar os parâmetros que a determinam.
Dois comentários se fazem importantes: supor que os tempos são variáveis aleatórias de uma distribuição exponencial é análogo ao modelo de intensidades constantes, apresentado no relatório anterior. Em geral tivemos mais estabilidade numérica na estimação em relação aos modelos anteriores, mesmo em alguns modelos em que a quantidade de parâmetros é maior.
O tratamento dos dados é realizado transformando os dados em long-format, conforme a metodologia empregada em referências e pacotes.
Uma contagem das transições efetuadas é apresentada a seguir:
## Call:
## flexsurvreg(formula = a ~ trans, data = dt.f, dist = "exp")
##
## Estimates:
## data mean est L95% U95% se exp(est) L95%
## rate NA 0.0854 0.0743 0.0983 0.0061 NA NA
## trans2 0.1967 0.0449 -0.1509 0.2407 0.0999 1.0459 0.8599
## trans3 0.1967 -3.6687 -4.5563 -2.7810 0.4529 0.0255 0.0105
## trans4 0.0950 -0.7595 -0.9817 -0.5373 0.1134 0.4679 0.3747
## trans5 0.0950 -2.4413 -2.8651 -2.0174 0.2163 0.0870 0.0570
## trans6 0.0950 -1.8581 -2.1882 -1.5281 0.1684 0.1560 0.1121
## trans7 0.0625 0.5510 0.3272 0.7748 0.1142 1.7350 1.3871
## trans8 0.0625 -3.1867 -4.3269 -2.0465 0.5818 0.0413 0.0132
## U95%
## rate NA
## trans2 1.2721
## trans3 0.0620
## trans4 0.5843
## trans5 0.1330
## trans6 0.2170
## trans7 2.1702
## trans8 0.1292
##
## N = 2064, Events: 731, Censored: 1333
## Total time at risk: 18263
## Log-likelihood = -2714.972, df = 8
## AIC = 5445.945
Veja que os parâmetros estimados são muito próximos dos encontrados no modelo de intensidades constantes.
## $`1`
## rate
## [1,] 0.08543838
##
## $`2`
## rate
## [1,] 0.08936157
##
## $`3`
## rate
## [1,] 0.00217955
##
## $`4`
## rate
## [1,] 0.03997584
##
## $`5`
## rate
## [1,] 0.007437366
##
## $`6`
## rate
## [1,] 0.01332528
##
## $`7`
## rate
## [1,] 0.1482353
##
## $`8`
## rate
## [1,] 0.003529412
Uma maneira informal de avaliar a qualidade do ajuste é olhar se a curva de sobrevivência estimada (Kaplan-Meier) para cada transição é similar a curva de sobrevivência com os parâmetros estimados.
A seleção do modelo pode ser feita pelo AIC. Quanto menor, mais preferÃvel é o modelo.
## df AIC
## crexp 8 5445.945
## cfwei 16 4908.426
## cfgamma 16 4850.151
## cfgomp 16 5247.026
## cflnorm 16 4830.666
## cfllogis 16 4823.299
Ou seja, Considerando os modelos Markovianos paramétricos, o modelo Log-LogÃstico apresentou o melhor ajuste.
A seleção do modelo pode ser feita pelo AIC.O AIC (Akaike Information Criterion) mede a qualidade de ajuste de um modelo penalizando a complexidade (número de parâmetros). Quanto menor, mais preferÃvel é o modelo.
## df AIC
## crwei 16 4908.426
## crgamma 16 4850.151
## crgomp 16 5247.026
## crlnorm 16 4819.046
## crllogis 16 4823.299
Ou seja, o modelo Semi-Markoviano parametrizado por tempos Log-Normais apresentam o melhor ajuste.