Neste trabalho são desenvolvidos modelos baseados nas chances de uma população em estudo indígena, perto de Phoenix, Arizona nos Estados Unidos ter diabetes com base em algumas medidas de diagnóstico. Para isto, são considerados os modelos de regressão de logística em MLG e em redes neurais. O desempenho de tais modelos é medido a partir de simulações e banco de dados reais. Primeiramente, para identificarmos as variáveis relevantes ao problema em estudo, foi construído um modelo de regressão logística em MLG. A partir das variáveis relevantes no estudo, foi implementada a rede neural para processar as variáveis escolhidas, a partir de um treinamento supervisionado.
Palavras-chaves: Regressão Logística, MLG, Rede neural, Diabetes.
O diabetes mellitus (DM) destaca-se, mundialmente, por sua importância enquanto problema de saúde pública. Em 2002, cerca de 173 milhões de pessoas na idade adulta, no mundo, tinham diabetes (Organization and others 2003). O impacto epidemiológico que produz é expresso nas crescentes taxas de morbidade e mortalidade e nas consequentes sequelas de incapacidade, como a cegueira, a retinopatia diabética, a insuficiência renal terminal e as amputações de extremidades inferiores (AEI). Nos Estados Unidos, em 1995, a prevalência de amputações foi estimada em 10% entre pessoas com diabetes. Estudos epidemiológicos realizados vêm mostrando que a prevalência de diabetes diagnosticada aumentou drasticamente nos EUA e que uma proporção substancial da população não diagnosticou diabetes, glicemia de jejum prejudicada e tolerância à glicose diminuída (Harris 1998). Essas estatísticas evidenciam e justificam que o diabetes seja considerado, cada vez mais, um problema de saúde pública a ser cotejado na organização dos serviços de saúde e
nas suas estratégias de atuação. O interesse nas ações direcionadas à prevenção e ao tratamento do diabetes ganha destaque, sobretudo, quando se avolumam as discussões sobre a qualidade de vida e expectativa de vida saudável (Viegas-Pereira, Rodrigues, and Machado 2008). A partir de um conjunto de dados originalmente do Instituto Nacional de Diabetes e Doenças Digestivas e Renais, o objetivo deste trabalho é avaliar a partir do modelo logístico aplicado em MLG e redes neurais as chances da população em estudo(mulheres com pelo menos 21 anos de idade da herança indígena Pima) ter diabetes ou não, mediante alguns fatores de diagnóstico.
A regressão logística tem se constituído num dos principais métodos de modelagem estatística de dados. Sua origem vem dos modelos lineares generalizados(MLG), que foram criados no intuito de expandir a análise de regressão linear normal para dados com distribuição não normal, mas restritos a família exponencial.
Seu uso é feito em dados com distribuição Binomial, ou seja, modelos que contabilizam a quantidade de sucessos e fracassos, dado que a quantidade de tentativas seja conhecida, ou seja:
\[P(y; \pi,m) = {m \choose y}\pi^y(1-\pi)^{(m-y)}\] onde m é a quantidade de tentativas conhecida, y é a quantidade de sucessos e \(0 \leq \pi \leq 1\) é a probabilidade de sucesso.
Temos, portanto, que um caso de uso específico da regressão logística é o de sucessos e fracassos, ou seja, uma variável resposta com distribuição Bernoulli, sendo este também o caso de uso mais comum.
Desta maneira, o modelo é definido como:
\[Y_i|X_i \sim Binomial(m, \pi_i)\]
\[\begin{equation} \label{eq:1} y = mx+b \end{equation}\] \[\eta(\pi_i) = logit(\pi_i) = \log\frac{\pi_i}{1-\pi_i} = X\beta\] Segundo (Paula 2004), alguns pesquisadores fazem a dicotomização das variáveis quando a variável de interesse não é originalmente do tipo binário a fim de que a probabilidade de sucesso possa ser ajustada pela regressão logistíca. Isso ocorre, por exemplo, em análise de sobrevivência discreta em que a resposta de interesse é o tempo de sobrevivência, no entanto, em algumas pesquisas, a função de risco tem sido ajustada por modelos logísticos. Tudo isso se deve, principalmente, pela facilidade de interpretação dos parâmetros de um modelo logístico e também pela possibilidade do uso desse tipo de metodologia em análise discriminante.
Uma rede neural é um mecanismo de aprendizado de máquina (Machine Learning) muito poderoso que imita basicamente como um cérebro humano aprende. O cérebro recebe o estímulo do mundo exterior, faz o processamento e gera o resultado. À medida que a tarefa se torna complicada, vários neurônios formam uma rede complexa, transmitindo informações entre si. O modelo de neurônio artificial é uma simplificação do modelo apresentado por (Haykin 2007), e pode ser dado conforme a figura abaixo.
rede neural
Este modelo é composto por três elementos básicos:
Os neurônios fazem uma transformação linear na entrada pelos pesos. A transformação não linear é feita pela função de ativação.
O comportamento das conexões entre os neurônios é simulado por meio de seus pesos. Os valores de tais pesos podem ser negativos ou positivos, dependendo de as conexões serem inibitórias ou excitatórias. O efeito de um sinal proveniente de um outro neurônio é determinado pela multiplicação do valor (intensidade) do sinal recebido pelo peso da conexão correspondente(xi X pi). É efetuada a soma dos valores (xi X pi) de todas as conexões, e o valor resultante é enviado para a função de ativação, que define a saída (y) do neurônio. Combinando diversos neurônios, forma-se uma rede neural artificial. De uma forma simplificada, uma rede neural artificial pode ser vista como um grafo onde os nós são os neurônios e as ligações fazem a função das sinapses, como exemplificado na figura abaixo.
rede neural
No contexto de redes neurais, a seleção da função de ativação dos neurônios passa a ser fundamental. Elas basicamente decidem se um neurônio deve ser ativado ou não. Ou seja, se a informação que o neurônio está recebendo é relevante para a informação fornecida ou deve ser ignorada. Existem diversas funções matemáticas que são utilizadas como função de ativação. Neste trabalho será utilizado a função logística.
As Funções logísticas são frequentemente usadas em redes neurais para introduzir não linearidade no modelo ou para prender sinais dentro de um intervalo especificado, sendo uma função que varia de 0 a 1. Um elemento de rede neural popular calcula uma combinação linear de seus sinais de entrada e aplica uma função logística limitada ao resultado; esse modelo pode ser visto como uma variante “suavizada” do neurônio do limiar clássico. Uma escolha comum para as funções de ativação ou “esmagamento”, usada para cortar grandes magnitudes para manter a resposta da rede neural limitada é dada por:
\[{\displaystyle g(h)={\frac {1}{1+e^{-2\beta h}}}}{\displaystyle g(h)={\frac {1}{1+e^{-2\beta h}}}}\]
que é uma função logística. Essas relações resultam em implementações simplificadas de redes neurais artificiais com neurônios artificiais. Os profissionais alertam que as funções sigmoidais antissimétricas sobre a origem (por exemplo, a tangente hiperbólica) levam a uma convergência mais rápida ao treinar redes com retropropagação. A função logística é ela própria, a derivada de outra função de ativação proposta, o softplus.
Objetivando uma visualização do comportamento do modelo logístico e de redes neurais, foram realizadas para cada modelo 1000 simulações com 50 observações nos dois modelos para análise de poder preditivo, e 1000 observações para treino, sendo considerando a distribuição binomial. Para avaliarmos mais detalhadamente os modelo simulados, calculamos a sensibilidade e especificidade, as taxas de decisão como PFP e PVP da Rede Neural, para fins de comparação, do modelo logístico.
Sensibilidade: representa a proporção de verdadeiros positivos, ou seja, a capacidade do modelo em avaliar o evento como \(\hat{Y} = 1\) dado que ele é evento real \(Y = 1\): \[SENS = PFP = \frac {VP}{VP+FP} \]
Especificidade: a proporção apresentada dos verdadeiros negativos, ou seja, o poder de predição do modelo em avaliar como “não evento” \(\hat{Y} = 0\) sendo que ele não é evento \(Y = 0\): \[ESPEC = 1 - PFP = \frac {VN}{VN+FN} \] Como foram geradas 1000 simulações, para cada uma das taxas calculadas, considerou-se o valor médio destas simulações. Os resultados gerais da simulação dos dois modelos foram dados por:
Modelo | Sensibilidade | Especificidade |
---|---|---|
Logístico | 0.2734 | 0.4438 |
Rede Neural | 0.2779 | 0.4395 |
Observa-se que nas simulações geradas, os dois modelos não apresentam uma boa sensibilidade, ou sejam, ambos os modelos não conseguiram classificar de forma eficiente os indivíduos simulados nas categorias 0, e 1. Além disso, ambos os modelos apresentam uma baixa especificidade. Com os resultados visualizados, observa-se que o modelo neural teve um desempenho levemente superior ao modelo neural.
No trabalho, considerou-se uma população de 392 pacientes, sendo estes nativos americanos que estavam em estudo contínuo desde 1965 pelo Instituto Nacional de Diabetes e Doenças Digestivas e Renais devido à sua alta taxa de incidência de diabetes. Os modelos de regressão logística e de redes neurais foram estimados considerando as seguintes covariáveis: glucose, mass, pedigree, age, sendo estas significativas a um nível de 5%, e diabetes como variável resposta, variável esta que mostra se o indíviduo tem ou não diabetes. 70% dos dados foram utilizados para o aprendizado do modelo, enquanto que os 30% restantes foram utilizados para testar a capacidade preditiva do mesmo.
Considerando a variável resposta sendo binária, faz-se necessário escolher escolher uma regra de predição, já que o valor estimado é uma probabilidade que assume valores entre 0 e 1. O problema está em saber o ponto de corte que vai determinar se o valor estimado se aproxima mais do 0(negativo) ou do 1(positvo). A curva ROC (Receiver Operating Characteristic Curve) auxilia na determinação do ponto de corte, “plotando” o gráfico com a sensibilidade chamado de PVP(Probabilidade de Verdadeiro Postivo) vesus 1 − especificidade chamado de PFP(Probabilidade de Falso Positivo) para possíveis pontos de corte entre 0 e 1.
uma vez que entendemos que um falso diagnóstico de diabetes pode trazer diversas consequências negativas na vida do paciente, inclusive causar diabetes devido ao tratamento com insulina, O ponto de corte foi escolhido de forma a minimizar a PFP e maximizar a PVP. Através da combinação destas probabilidades, escolhemos o ponto de corte de forma a classificar o indivíduo como tendo diabetes ou não.
Para identificar a eficiência dos modelos em classificar corretamente um indivíduo como tendo ou não diabetes, foram calculados as taxas sensibilidades, e especificidades tanto para o modelo logístico como o Neural.
A curva ROC do modelo logístico aplicado foi dado por:
Probabilidade de corte
Considerou-se com o valor de corte para o predição desse modelo, 0.2636898, ou seja, os valores acima de 0.2636898 será considerado como positivo(tem a doença) e abaixo desse valor será considerado como negativo(não tem a doença).
Assim, o modelo de regressão logística tem uma PFP = 0.1375 e uma PVP = 0.8157895
A curva ROC do modelo de redes neurais aplicado foi dado por:
Probabilidade de corte
Considerou-se com o valor de corte para o predição desse modelo, 0.5067552, ou seja, os valores acima de 0.5067552 será considerado como positivo(tem a doença) e abaixo desse valor será considerado como negativo(não tem a doença).
Assim, o modelo de redes neurais tem uma PFP = 0.1481481 e uma PVP = 0.6756757
Os resultados Gerais da aplicação dos dois modelos foram dados por:
Modelo | Sensibilidade | Especificidade |
---|---|---|
Logístico | 0.82 | 0.86 |
Rede Neural | 0.68 | 0.85 |
Observa-se que nas aplicações geradas dos modelos, os dois modelos apresentam uma boa sensibilidade, ou sejam, ambos os modelos conseguem classificar corretamente os pacientes doentes, principalmente o modelo logístico que apresentou uma maior sensibilidade. Ambos os modelos apresentaram alta especificidade, tendo em vista as restrições impostas aos mesmos. Considerando as taxas de predição, observou-se PFP superior para o modelo neural e esta taxa faz referência ao fato de afirmar que o indivíduo tem diabetes quando não tem, por isso, ela deveria ser a mínima possível, sendo uma taxa preocupante. Para a taxa PVP, o modelo logístico tem um melhor desempenho atingindo aproximadamente 82%, ou seja, este modelo conseguiu classificar corretamente 82% dos indíviduos como detentores do diabetes.
No geral os resultados visualizados, observa-se que o modelo logístico teve um desempenho superior ao modelo neural, praticamente em todas as análises realizadas. Desta forma, podemos concluir que o modelo de regressão logística conseguiu classificar mais corretamente e adequadamente os pacientes nativos americanos analisados como tendo ou não a doença do diabetes.
Harris, Maureen I. 1998. “Diabetes in America: Epidemiology and Scope of the Problem.” Diabetes Care 21 (Supplement 3). Am Diabetes Assoc: C11–C14.
Haykin, Simon. 2007. Redes Neurais: Princípios E Prática. Bookman Editora.
Organization, World Health, and others. 2003. “Screening for Type 2 Diabetes: Report of a World Health Organization and International Diabetes Federation Meeting.” Geneva: World Health Organization.
Paula, Gilberto Alvarenga. 2004. Modelos de Regressão: Com Apoio Computacional. IME-USP São Paulo.
Viegas-Pereira, Ana Paula Franco, Roberto Nascimento Rodrigues, and Carla Jorge Machado. 2008. “Fatores Associados à Prevalência de Diabetes Auto-Referido Entre Idosos de Minas Gerais.” Revista Brasileira de Estudos de População 25 (2): 365–76.