O objetivo é fazer uma análise descritiva e verificar as variáveis que influenciam na presença de doenças do coração (variável target).
Inicialmente, desejamos ver inicialmente a estrutura dos nossos dados, como eles estão organizados, se há dados faltantes, etc.
cp | fbs | restecg | exang | slope | ca | thal | sex | target | age | trestbps | chol | thalach | oldpeak |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
3 | 1 | 0 | 0 | 0 | 0 | 1 | 1 | 1 | 63 | 145 | 233 | 150 | 2.3 |
2 | 0 | 1 | 0 | 0 | 0 | 2 | 1 | 1 | 37 | 130 | 250 | 187 | 3.5 |
1 | 0 | 0 | 0 | 2 | 0 | 2 | 0 | 1 | 41 | 130 | 204 | 172 | 1.4 |
1 | 0 | 1 | 0 | 2 | 0 | 2 | 1 | 1 | 56 | 120 | 236 | 178 | 0.8 |
0 | 0 | 1 | 1 | 2 | 0 | 2 | 0 | 1 | 57 | 120 | 354 | 163 | 0.6 |
0 | 0 | 1 | 0 | 1 | 0 | 1 | 1 | 1 | 57 | 140 | 192 | 148 | 0.4 |
1 | 0 | 0 | 0 | 1 | 0 | 2 | 0 | 1 | 56 | 140 | 294 | 153 | 1.3 |
1 | 0 | 1 | 0 | 2 | 0 | 3 | 1 | 1 | 44 | 120 | 263 | 173 | 0.0 |
2 | 1 | 1 | 0 | 2 | 0 | 3 | 1 | 1 | 52 | 172 | 199 | 162 | 0.5 |
2 | 0 | 1 | 0 | 2 | 0 | 2 | 1 | 1 | 57 | 150 | 168 | 174 | 1.6 |
Vemos que há 13 variáveis, além de ‘target’, a qual seria um tipo de diagnóstico de uma doença cardíaca. Valor 0 seria o estreitamento de menos que 50% de um vaso sanguíneo crucial, valor 1 seria o oposto.
Segue as interpretações de cada uma das variáveis (a lista não segue a ordem de apresentação):
Então, perguntaremos e responderemos algumas perguntas iniciais, as quais são as mais naturais. Perguntas que qualquer leigo inicialmente faria. Em seguida, faremos uma exploração geral dos dados, sem perder o nosso objetivo de vista.
Inicialmente, fazemos a pergunta sobre a relação direta entre colesterol e doenças cardíacas. Vemos que, na verdade, mais de 50% das pessoas que estavam doentes tinham um colesterol mais baixos do que pelo menos os outros 50% dos saudáveis. Isto é surpreedente para os leigos, porém aponta para que o colesterol não indique uma relação forte em relação as estas doenças cardíacas. Ao não ser que uma variação pequena de colesterol seja algo considerável, porém apenas um médico poderia afirmar isto. Além destas considerações, notamos que todos tem um nível de colesterol alto, acima de 200.
Depois, não satisfeitos, perguntamos se o colesterol não estaria relacionado com doenças cardíacas, pelo menos em uma certa faixa etária. E novamente, vemos que há uma variação desprezível em relação as medianas de colesterol de cada faixa etária.
x | |
---|---|
0% | 29 |
25% | 44 |
50% | 52 |
75% | 59 |
100% | 76 |
Podemos tirar algumas conclusões dos gráficos acima. Começamos nos questionando sobre a relação entre idade e doença. Vemos que a média dos doentes é em torno de 50 anos, enquanto a dos não doentes, que provavelmente apresentavam alguns sinais parecido, é de de em torno de 60 anos. Os dados parecem apontar que esses falsos sinais estariam ligados a idade. Vemos também que os dados entre os doentes mostram que há uma concentração numa certa faixa etária, algo em torno de 40 a 60 anos. Ou seja, isso seria uma evidência de que a idade seria um fator contribuinte para a doença cardíaca.
Ao investigarmos este intervalo, vimos que 50% dos dados se concetravam na faixa etária de 44 a 59 anos. Porém, questionamos o fato de que a idade influencia na doença cardíaca pela falta de crescimento de pessoas com doenças enquanto observamos pessoas mais idosas. Naturalmente, poderia ser a questão de o número de idosos na sociedade ser normalmente menor do que adultos na faixa de 40 a 60 anos, porém desejamos comprovar. Ao analisarmos o terceiro gráfico, vemos que a frequência dos idosos acima de 60 anos em relação a ter ou não ter doenças é praticamente a mesma, se comportando da mesma forma. Ou seja, a idade não influenciaria fora do intervalo de 40 a 60 anos.
sex | target_new | n | Freq |
---|---|---|---|
Feminine | Healthy | 24 | 0.2500000 |
Feminine | Heartsick | 72 | 0.7500000 |
Masculine | Healthy | 114 | 0.5507246 |
Masculine | Heartsick | 93 | 0.4492754 |
Vemos aqui que 75% das mulheres tem doenças cardíacas e no caso masculino é meio a meio, ou seja, em torno de 50% dos homens tem a doença. Sendo assim, podemos concluir que ser mulher é um fator de risco, em relação a doenças cardiovasculares, enquanto ser homem não influência, nem positivamente, nem negativamente.
As variáveis que iremos analisar estas serão as que ainda não foram analisadas nas partes superiores, onde pudemos ser mais inquisitivos.
Podemos ver que os que tinham doenças cardíacas tinham mais dores no peito, especialmente, dor do tipo 2 e dor do tipo 1. Vemos também que a presença ou falta de dor não é algo determinante, embora influencie.
Vemos também que o nível alto de açucar em jejum não influencia na doença.
Os fatores visto no electocardiograma do tipo um parece indicar que há mais chances de teres a doença do coração. Contudo, se for do tipo 0 ou 2, não há influência.
A maioria dos indivíduos que tiveram angina induzida por exercício foram aqueles que tinham a doença cardíaca. Portant, temos razão em suspeitar o envolvimento.
A maioria das pessoas doentes teve declive do pico do exercício do segmento do ST do tipo 2, enquanto a maioria das pessoas saudáveis teve do tipo 1. Indicando forte relação com a doença.
Essa deve ter sido a mais forte e clara indicação da doença até agora. Embora haja alguns dos saudáveis que tinham 0 vasos coloridos através do método, a maioria dos doentes teve 0 vasos coloridos. Ou seja, ter algum vaso colorido significa um bom sinal para o paciente.
Novamente, uma clara distinção. Aqueles que tem o ‘thal’ do tipo 2, tem muito mais chance de estarem doentes do que aqueles que não, e também, aquels que tem o ‘thal’ do tipo 3, indica baixas chances de estarem doentes, se só estívessemos avaliando através do ‘thal’.
Parece não haver grande diferenças entre os batimentos por segundo em repouso de um homem doente e um homem saudável.
Aqui temos um claro fator de risco, as pessoas saudáveis tiveram um ‘thalach’ abaixo de 150, enquanto os doentes pelo menos 75% deles tiveram um ‘thalach’ acima de 150. Indicando que existe forte correlação entre a doença cardíaca e um alto ‘thalach’.
Os doentes cardíacos tiveram em geral, para ser mais específico 75% deles, um ‘oldpeak’ baixo, não maior que 1. Porém, é importante notar que em torno de 35% dos saudáveis também tiveram um ‘oldpeak’ igual ou menosr que 1. Este fato relaxa a influência entre a doença cardíaca e o ‘oldpeak’.
Podemos também determinar as variáveis que são influentes através de uma regressão a qual nos dá um modelo apto a predizer se a varíavel que estamos estudando será 0 ou 1, no nosso caso, “Saudável” ou “Doente”.
Pela nossa análise exploratória dos dados, percebemos que somente algumas variáveis foram significantes para as doenças cardíacas: sexo, doença no peito, Angina induzido pelo exercício, fatores indicados pelo electrocardiograma, Depressão ST e números de vasos observados pela fluroscopia, além da variável ‘thal’. Todas as outras variáveis serão deixadas e colocaremos em nosso modelo para ver se de fato elas são estatísticamente significantes.
Podemos ver que certas variáveis não são estatísticamente significante com nível de significância de 10%, retiraremos elas e vejamos o que acontece com nosso modelo, re-ajustando o.
preditores | P.Valor |
---|---|
(Intercept) | 0.0000007 |
sex1 | 0.0001853 |
cp1 | 0.0072468 |
cp2 | 0.0000031 |
cp3 | 0.0008378 |
exang1 | 0.0019806 |
ca1 | 0.0000023 |
ca2 | 0.0001339 |
ca3 | 0.0014148 |
ca4 | 0.9014333 |
oldpeak | 0.0000330 |
Todas estas varíaveis são significantes para predizer doenças cardíacas. Além disto, algumas das nossas suspeitas iniciais através da análise exploratória foram desnecessárias, elas não são tão explicativas. Tomemos, por exemplo, a variável ‘slope’.
Vemos aqui quais variáveis influenciam positivamente (verde) ou negativamente (vermelho) em relação a doença cardíaca. Vemos, por exemplo, que o ser homem (sex1) é um fator que diminui suas chances de ter a doença, pois vimos que 75% das mulheres tiveram doenças cardíacas.
Também, podemos desejar ver qual variável explicativa ou preditora é estatísticamente mais importante para o nosso modelo.
Preditores | Acréscimo |
---|---|
sex1 | 0.2210216 |
cp1 | 3.8944762 |
cp2 | 8.1101923 |
cp3 | 8.6689049 |
exang1 | 0.2962823 |
ca1 | 0.1245403 |
ca2 | 0.0976757 |
ca3 | 0.0898756 |
ca4 | 0.8401621 |
oldpeak | 0.4525573 |
Podemos interpretar estes valores como o acréscimo estimado na probabilidade de sucesso associado ao aumento unitário no valor da varíavel em questão. Sendo assim, diremos que por exemplo, ter a dor no peito do tipo 2 (cp3) é o fator que mais identifica a relação com a doença cardíaca, tendo um aumento de 8% na probabilidade doença se há dor deste tipo.