Na análise de sobrevivência, é comum modelar a distribuição de tempo até a ocorrência de um evento, como morte, falha ou recuperação. Algumas das distribuições básicas usadas na análise de sobrevivência incluem:
A distribuição exponencial é frequentemente usada quando o risco de falha é constante ao longo do tempo. Ela tem uma taxa de falha constante, o que significa que a probabilidade de falha no próximo período é independente do tempo de falha anterior. A função de densidade de probabilidade da distribuição exponencial é dada por:
\(f(t) = λe^{(-λt)}\)
onde \(λ\) é a taxa de falha.
A distribuição Weibull é usada quando a taxa de falha aumenta ou diminui com o tempo. Ela é flexível e pode ser usada para modelar uma ampla variedade de curvas de risco. A função de densidade de probabilidade da distribuição Weibull é dada por:
\(f(t) = (α/λ) * (t/λ)^{(α-1)} * e^{(-(t/λ)^α)}\)
onde \(α\) é o parâmetro de forma e \(λ\) é o parâmetro de escala.
A distribuição Log-Normal é frequentemente usada quando os dados são assimétricos e não podem ser ajustados adequadamente por uma distribuição normal. Ela é definida em termos da distribuição normal dos logs dos dados e pode ser usada para modelar uma ampla variedade de curvas de risco. A função de densidade de probabilidade da distribuição Log-Normal é dada por:
\(f(t) = (1/(tσsqrt(2pi))) * e^{(-((ln(t)-μ)^2/(2σ^2)))}\)
onde \(μ\) e \(σ\) são a média e o desvio padrão da distribuição normal dos logs dos dados, respectivamente.
Na análise de sobrevivência, é necessário estimar os parâmetros das distribuições para poder modelar os dados de sobrevivência e calcular as probabilidades de falha e sobrevivência. Existem diferentes métodos de estimativa de parâmetros, mas os mais comuns são:
O método da máxima verossimilhança é o método mais comum para estimar os parâmetros das distribuições de sobrevivência. A ideia é encontrar os valores dos parâmetros que maximizam a verossimilhança dos dados observados. A verossimilhança é a probabilidade de observar os dados sob as hipóteses do modelo. O algoritmo de otimização é utilizado para encontrar o valor dos parâmetros que maximiza a função de verossimilhança.
O método dos momentos estima os parâmetros das distribuições de sobrevivência igualando as estimativas dos momentos teóricos das distribuições com as estimativas dos momentos amostrais.
O método de mínimos quadrados é utilizado para estimar os parâmetros da distribuição de Weibull. A ideia é minimizar a soma dos quadrados das diferenças entre as observações e os valores previstos pela distribuição de Weibull.
É importante ressaltar que a escolha do método de estimação depende das propriedades dos dados e da distribuição utilizada. Em geral, o método da máxima verossimilhança é o mais recomendado por ser o mais eficiente e robusto para a maioria dos casos. No entanto, em algumas situações, pode ser mais adequado utilizar outro método de estimação, como o método dos momentos ou o método de mínimos quadrados.
A seguir, apresento as fórmulas de estimação dos parâmetros para as distribuições Exponencial, Weibull e Log-Normal, utilizando o método da máxima verossimilhança:
Suponha que temos uma amostra de n observações de tempo de falha T1, T2,…,Tn, que seguem uma distribuição exponencial com parâmetro λ. A função de verossimilhança é dada por: \(L(λ) = λ^n * e^{(-λ∑_{(i=1)}^n T_i)}\)
O logaritmo natural da função de verossimilhança é:
\(ln(L(λ)) = n*ln(λ) - λ∑_{(i=1)}^n T_i\)
Derivando em relação a λ e igualando a zero, obtemos o estimador de máxima verossimilhança do parâmetro λ:
\(\widehat{λ} = 1/\sum_{(i=1)}^{n} T_i\)
Suponha que temos uma amostra de n observações de tempo de falha T1, T2,…,Tn, que seguem uma distribuição Weibull com parâmetros α e λ. A função de verossimilhança é dada por: \(L(α,λ) = ∏_{(i=1)}^n [(α/λ)*(T_i/λ)^{(α-1)}] * e^{(-(T_i/λ)^α)}\)
O logaritmo natural da função de verossimilhança é:
\(ln(L(α,λ)) = nln(α) - nln(λ) + (α-1)*\sum_{(i=1)}^{n} ln(T_i/λ) - \sum_{(i=1)}^{n} (Ti/λ)^α\)
Para estimar os parâmetros \(α\) e \(λ\), derivamos a função logarítmica de verossimilhança em relação a \(α\) e \(λ\), igualamos a zero e resolvemos para \(α\) e \(λ\), resultando em:
\(\widehat{α} = (1/n) * \sum_{(i=1)}^{n} ln(T_i/\widehat{λ})\) \(\widehat{λ} = (1/n) * \sum_{(i=1)}^{n} (T_i/\widehat{λ})^\widehat{α}\)
Para obter uma estimativa inicial de \(λ\), podemos utilizar o inverso da média amostral dos tempos de falha.
Suponha que temos uma amostra de n observações de tempo de falha T1, T2,…,Tn, que seguem uma distribuição Log-Normal com parâmetros μ e σ. A função de verossimilhança é dada por: \(L(μ,σ) = ∏_{(i=1)}^n [1/(T_i σ sqrt(2\pi))] * e^{(-((ln(T_i)-μ)^2/(2σ^2)))}\)
O logaritmo natural da função de verossimilhança é:
\(ln(L(μ,σ)) = -nln(σ) - ∑_{(i=1)}^n [ln(T_i) - (μ + σ^2/2)]^2 / (2σ^2)\)
Para estimar os parâmetros \(μ\) e \(σ\), derivamos a função logarítmica de verossimilhança em relação a \(μ\) e \(σ\), igualamos a zero e resolvemos para \(μ\) e \(σ\), resultando em:
\(μ̂ = (∑_{(i=1)}^n ln(T_i)) / n\)
\(σ̂ = sqrt(∑_{(i=1)}^n [ln(T_i) - (μ̂ + σ̂^2/2)]^2 / n)\)
Essas fórmulas nos fornecem os estimadores de máxima verossimilhança dos parâmetros \(μ\) e \(σ\) da distribuição Log-Normal.
Observe que, diferentemente das distribuições Exponencial e Weibull, não é possível obter uma estimativa inicial de μ e σ a partir da média amostral e do desvio padrão amostral dos tempos de falha, pois a distribuição Log-Normal não é uma distribuição de probabilidade simétrica em relação à média.
Em resumo, para todas as distribuições apresentadas (Exponencial, Weibull e Log-Normal), utilizamos o método da máxima verossimilhança para estimar os parâmetros a partir dos dados amostrais. O estimador de máxima verossimilhança é aquele que maximiza a função de verossimilhança ou, equivalentemente, que minimiza a distância entre a distribuição amostral e a distribuição teórica.