Neste relatório é apresentado os resultados iniciais para uma análise multiestado da trajetória de pacientes internados por COVID-19 no Hospital das Clínicas da Unicamp, Campinas.
Análises similares foram propostas por diversos autores.
Os dados contém 220 covariáveis distintas, como sexo, idade, exames laboratoriais e clínicos. Também existem covariáveis descrevendo as datas e informações relativas da saúde do paciente nos estados.
Para esta análise, o pacote msm foi utilizado. Em geral, os modelos tem se mostrados estatisticamente inviáveis para os dados. A causa pode ser dada por diversos fatores: poucos dados e/ou instabildiade matemática (intrinsica dos dados coletados) e/ou poucas transições por pacientes.
A estrutura do modelo é:
Estados
Durante a análise os estados são numerados:
Neste tipo de modelagem, tipicamente não se calculam as probabilidades diretamente, mas sim as intensidades. Define-se uma matrix Q onde cada elemento \(q_{ij}\) com \(i \neq j\) representa da probabilidade instantânea de transição do estado \(i\) para o estado \(j\). Os elementos \(q_{ij}\) com \(i=j\) são definidos como o oposto da soma de todos os elementos de sua linha. Pode-se pensar como sendo a taxa instanânea de saída do estado \(i\).
Para o modelo, define-se:
\[\begin{array}{cc} \begin{matrix} \\ \text{hosp.} \\ \text{uti} \\ \text{pos.hosp} \\ \text{alt.} \\ \text{morte} \end{matrix} & \begin{array}{c} \text{hosp} \quad \quad \text{uti}\quad \quad \text{pos.hosp.}\quad \quad \text{alt.}\quad \quad \text{morte} \\ \begin{bmatrix} -3 & 1 & 0 & 1 & 1 \\ 0 & -3 & 1 & 1 & 1 \\ 0 & 0 & -2 & 1 & 1 \\ 0 & 0 & 0 & 1 & 0 \\ 0 & 0 & 0 & 0 & 1 \end{bmatrix} \end{array} \end{array}\]O tratamento dos dados é realizado transformando os dados em long-format, conforme a metodologia empregada em referências e pacotes.
É importante comentar que é acrescentado uma observação informando que o paciente se encontra no estado 1 (hosp.) no tempo 0, assim é possível modelar a saída dos pacientes deste estado.
Uma contagem das transições efetuadas é apresentada a seguir:
## to
## from 1 2 3 4 5
## 1 0 198 0 203 5
## 2 0 0 131 24 43
## 3 0 0 0 125 3
A distribuição da quantidade de transições dos pacientes:
## media mediana min(n) max(n)
## 1 2.802956 2 2 4
Diversos modelos podem ser propostos. Aqui é feita a separação em duas classes:
O primeiro pressupõe que as probabilidades de transição de um estado para o outro não dependem de todo o histórico, mas somente do estado atual. O segundo tem a mesma hipótese, porém é também é considerado que o processo se renova, no sentido de que ao entrar em um novo estado, o processo volta ao tempo incial. Algumas referências costumam classificar como clock-foward e clock-reset.
Para os modelos Markovianos o pacote requer a classificação das observações em três tipos diferentes:
Para todos os modelos a classificação 1 e 3 tem se demonstrado inviáveis. Entretanto, se todas as observações são do tipo 2, então outros métodos estatísticos podem ser propostos. Também perde-se o teste de hipótese proposto por Aguirre-Hernandez and Farewell, 2002 (prevalence.msm).
Para evaluar os parâmetros (intensidades) é necessário apresentar uma estimativa inicial para estas quantidades. Um argumento que reforça a baixa estabilidade numérica encontrada nos dados é pouca diferença entre a estimativa inicial e o valor encontrado pelo algoritmo.
Considerando obstype = 2. As matrizes de intensidade instantânea e inicial seguem, respectivamente, abaixo:
## 1 2 3 4 5
## 1 -0.1773659 0.08649865 0.00000000 0.088682962 0.002184309
## 2 0.0000000 -0.05898216 0.03902355 0.007149353 0.012809258
## 3 0.0000000 0.00000000 -0.15238095 0.148809524 0.003571429
## 0.0000000 0.00000000 0.00000000 0.000000000 0.000000000
## 0.0000000 0.00000000 0.00000000 0.000000000 0.000000000
## 1 2 3 4 5
## 1 -0.1773659 0.08649865 0.00000000 0.088682962 0.002184309
## 2 0.0000000 -0.05898216 0.03902355 0.007149353 0.012809258
## 3 0.0000000 0.00000000 -0.15238095 0.148809524 0.003571429
## 0.0000000 0.00000000 0.00000000 0.000000000 0.000000000
## 0.0000000 0.00000000 0.00000000 0.000000000 0.000000000
Com estes valores é possível avaliar a qualidade geral do ajuste pelo
gráfico de prevalência, que mostra a proporção dos pacientes em cada
estado.
De maneira similar, considerando obstype = 3:
## 1 2 3 4 5
## 1 -0.2433658 0.11990361 0.00000000 0.121262729 0.002199479
## 2 0.0000000 -0.05993472 0.03995202 0.007154468 0.012828234
## 3 0.0000000 0.00000000 -0.15238095 0.148809524 0.003571429
## 0.0000000 0.00000000 0.00000000 0.000000000 0.000000000
## 0.0000000 0.00000000 0.00000000 0.000000000 0.000000000
## 1 2 3 4 5
## 1 -0.1773659 0.08649865 0.00000000 0.088682962 0.002184309
## 2 0.0000000 -0.05898216 0.03902355 0.007149353 0.012809258
## 3 0.0000000 0.00000000 -0.15238095 0.148809524 0.003571429
## 0.0000000 0.00000000 0.00000000 0.000000000 0.000000000
## 0.0000000 0.00000000 0.00000000 0.000000000 0.000000000
Com os dados anteriores é possível perceber que o modelo estima que desde o início existem pacientes recebendo alta, porém isto não é observado. Pelos dados coletados os pacientes foram internados no hospital começam a receber alta após o quarto dia. Sendo assim, é razoável supor que os riscos são possivelmente diferentes entre o tempo de admissão (t = 0) até o quarto dia (t = 4) e do quarto dia em seguinte.
Fixando o efeito inicial da transição 1-4 em 0.005 (um escolha ad hoc) temos:
Assumindo um modelo de riscos proprocionais (análogo ao modelo de Cox) entre as mesmas transições pode-se estimar os efeitos das covariáveis nas transições.
Como no modelo de riscos competitivos, não existe um método direto e formal para escolher as covariáveis. Metodologias como o step-wise não são viáveis, pela quantidade de informações faltantes e estabilidade do modelo.
Análises prelimares mostram que embora seja possível obter estimativas dos efeitos de uma covariável em todas as transições, em geral quase todas se mostram não siginificativas e as covariáveis que apresentaram efeitos consideráveis mostram isso somente em algumas transições.
Por exemplo, o efeito da covariável Vascular:
msm.m<- msm( to ~ Tstop ,
subject=id, data= dt,
qmatrix = Q.crude,
covariates = ~ vascular ,
obstype = 2,
control = list(fnscale = 800000, maxit = 1000),
method = "BFGS")
msm.m
##
## Call:
## msm(formula = to ~ Tstop, subject = id, data = dt, qmatrix = Q.crude, obstype = 2, covariates = ~vascular, control = list(fnscale = 8e+05, maxit = 1000), method = "BFGS")
##
## Maximum likelihood estimates
## Baselines are with covariates set to their means
##
## Transition intensities with hazard ratios for each covariate
## Baseline vascular
## 1 - 1 -0.174842 (-0.1931682,-0.158254)
## 1 - 2 0.086875 ( 0.0755671, 0.099875) 1.5878 (1.08912, 2.3148)
## 1 - 4 0.085786 ( 0.0742588, 0.099103) 0.5616 (0.32065, 0.9836)
## 1 - 5 0.002181 ( 0.0008996, 0.005286) 0.8641 (0.04425,16.8767)
## 2 - 2 -0.060820 (-0.0699917,-0.052851)
## 2 - 3 0.040641 ( 0.0342465, 0.048229) 0.5746 (0.36242, 0.9109)
## 2 - 4 0.007619 ( 0.0051318, 0.011311) 0.4343 (0.13399, 1.4073)
## 2 - 5 0.012561 ( 0.0091804, 0.017186) 1.1587 (0.59715, 2.2483)
## 3 - 3 -0.160926 (-0.1914329,-0.135281)
## 3 - 4 0.157359 ( 0.1320342, 0.187541) 0.4612 (0.28411, 0.7488)
## 3 - 5 0.003567 ( 0.0010862, 0.011716) 1.0394 (0.08687,12.4364)
##
## -2 * log-likelihood: 5415.002
Perebe-se que o efeito é considerável somente nas transições 1-2 e 1-4.
Sendo assim, os modelos são construídos de acordo com a literatura disponível e através de critérios escolhidos pelos pesquisadores.