Análise de agrupamentos da água por variáveis quimicas.
Resumo
A qualidade da água é ponto nevrálgico na qualidade de vida humana. Por isso, através da análise de agrupamentos, este trabalho pretende classificar e agrupar através de índices químicos a qualidade da água. Além disso, será realizado uma comparação com os respectivos dados de potabilidade. Dessa forma, será possível perceber se é possível realizar uma ligação entre os agrupamentos pelos aspectos químicos contidos no presente trabalho e a potabilidade da água, de forma não inferencial.
Dados
Os dados foram obtido através do site kaggle.com e referem-se a qualidade da água dentro das seguintes variáveis:
- ph: pH da água (0 a 14).
- Dureza: Capacidade da água de precipitar sabão em mg/L.
- Sólidos: Total de sólidos dissolvidos em ppm.
- Cloraminas: Quantidade de Cloraminas em ppm.
- Sulfato: Quantidade de sulfatos dissolvidos em mg/L.
- Condutividade: Condutividade elétrica da água em μS/cm.
- Organic_carbon: Quantidade de carbono orgânico em ppm.
- Trialometanos: Quantidade de Trihalometanos em μg/L.
- Turbidez: Medida da propriedade emissora de luz da água em NTU.
Para o presente artigo, como o objetivo não é realizar uma regressão logística para previsão desta variável, mas clasificar a água dado os diversos fatores já apresentados, omitiu-se a variável resposta sobre a potabilidade da água.
Contexto
O acesso à água potável é essencial para a saúde, um direito humano básico e um componente de uma política efetiva de proteção à saúde. Isto é importante como uma questão de saúde e desenvolvimento a nível nacional, regional e local. Em algumas regiões, foi demonstrado que os investimentos em abastecimento de água e saneamento podem gerar um benefício econômico líquido, uma vez que as reduções nos efeitos adversos à saúde e nos custos de saúde superam os custos de realização das intervenções.
Visão Geral dos dados e pré-processamento para análise de agrupamentos
ph Hardness Solids Chloramines Sulfate Conductivity Organic_carbon
1 NA 204.8905 20791.32 7.300212 368.5164 564.3087 10.379783
2 3.716080 129.4229 18630.06 6.635246 NA 592.8854 15.180013
3 8.099124 224.2363 19909.54 9.275884 NA 418.6062 16.868637
4 8.316766 214.3734 22018.42 8.059332 356.8861 363.2665 18.436524
5 9.092223 181.1015 17978.99 6.546600 310.1357 398.4108 11.558279
6 5.584087 188.3133 28748.69 7.544869 326.6784 280.4679 8.399735
Trihalomethanes Turbidity Potability
1 86.99097 2.963135 0
2 56.32908 4.500656 0
3 66.42009 3.055934 0
4 100.34167 4.628771 0
5 31.99799 4.075075 0
6 54.91786 2.559708 0
FALSE TRUE
2785 491
FALSE TRUE
2495 781
FALSE TRUE
3114 162
Figura 01 - Comparando as escalas das variáveis do banco de dados.
Figura 02 - Matriz de Correlação
O método de análise de agrupamentos carece de alguns passos para o pré-processamento. Iniciou-se com a percepção e remoção de valores ausentes, redimensionamento do conjunto de dados a partir da normalização dos dados. Como o método utiliza similaridades e dissimilaridades a partir de distâncias, a desproporção de escalas dertupará o método (ver Figura 01). A observação da matriz de correlações fora feita para indentificar se uma variável teria a capacidade explicar outra de forma linear. Não houve identificação de grandes correlações entre as variáveis presentes nesta base de dados. (ver Figura 02)
K-means
K-Means se enquadra na categoria de agrupamento baseado em centróides. Um centroide é um ponto de dados (imaginário ou real) no centro de um cluster. No agrupamento baseado em centróides, os clusters são representados por um vetor central ou um centróide. Esse centroide pode não ser necessariamente um membro do conjunto de dados. O agrupamento baseado em centroide é um algoritmo iterativo no qual a noção de similaridade é derivada de quão próximo um ponto de dados está do centroide do cluster.
Figura 03 - Soma dos quadrados interior por Número de agrupamentos.
Figura 04 - Número Ótimo de Clusters
Figura 05 - Gráfico de Cluster
Através do método silhouette, obteve-se o ponto ótimo do número de clusters, conforme visto na Figura 04. Em outras, palavras, neste ponto haverá maior equilibrio entre a homogeneidade interna e externa, bem como a heterogeneidade. Desta forma, obteve-se 2 como o número ótimo de clusters, o que não é visto perfeitamente se utilizado o método do cotovelo com o gráfico que relaciona a soma dos quadrados interiores ao número de agrupamentos na Figura 03. O gráfico de cluster, Figura 05, representa a análise de componentes principais (PCA) e os pontos plotados de dados de acordo com os dois primeiros componentes principais que explicam a maior parte da variância.
Em suma, a abordagem de silhueta média mede a qualidade de um agrupamento. Ou seja, determina quão bem cada objeto está dentro de seu cluster. Uma largura de silhueta média alta indica um bom agrupamento. O método da silhueta média calcula a silhueta média das observações para diferentes valores de k. O número ótimo de clusters k é aquele que maximiza a silhueta média em um intervalo de valores possíveis para k.
cluster size ave.sil.width
1 1 979 0.07
2 2 1032 0.09
Figura 06 - Gráfico de silhouette médio por cluster
O valor médio de silhouette econtra-se no valor médio entre -1 e 1, o intervalo de valores possíveis para esta medida. Pode-se dizer, que ainda que o número de conglomerados seja para o ponto ótimo pelo método silhouette entre as quantidades de conglomerados, o valor não é consideralvemente representativo.
Cluster Hierárquico
Agrupamento hierárquico, também conhecido como análise hierárquica de cluster, é um algoritmo que agrupa objetos semelhantes em grupos chamados clusters. Onde cada cluster é distinto do outro cluster e os objetos dentro de cada cluster são bastante semelhantes entre si. Nesta técnica, inicialmente cada ponto de dados é considerado como um cluster individual. A cada iteração, clusters semelhantes se fundem com outros clusters até que um cluster ou K clusters sejam formados.
Distância euclidiana
A classificação das observações em grupos requer alguns métodos para calcular a distância ou (dis)similaridade entre cada par de observações. O resultado desse cálculo é conhecido como matriz de dissimilaridade ou distância. Existem muitos métodos para calcular essas informações de distância; a escolha das medidas de distância é um passo crítico no agrupamento. Ele define como a similaridade de dois elementos (x, y) é calculada e influenciará a forma dos clusters.
\[d_e(x,y) = \sqrt{\sum_{i}^{n}(x_i-y_i)^2}\]
Figura 05 - Dendograma
Figura 06 - Agrupamento hierárquico da qualidade da água com 2 agrupamentos
Densidade por conglomerados
Figura 07.1 - Densidade ph por Cluster
Figura 07.2 - Densidade dureza por Cluster
Figura 07.3 - Densidade sólidos por Cluster
Figura 07.4 - Densidade Cloraminas por Cluster
Figura 07.5 - Densidade Sulfato por Cluster
Figura 07.6 - Densidade Condutividade por Cluster
Figura 07.7 - Densidade Carbono Orgânico por Cluster
Figura 07.8 - Densidade Trialometanos por Cluster
Figura 07.9 - Densidade Turbidez por Cluster
As densidades acima, Figuras 7.1 a 7.9, demonstram não haver diferenças significativas para a distribuição das variáveis; ainda que as variáveis PH, dureza e sólidos apresentem maiores diferenças entre as diferenças de cluster por kmeans.
Comparando resultados do agrupamento com potabilidade da água
Comparação entre potabilidade da água e análise de agrupamentos por k-means
compare.df 1 2
0 579 621
1 400 411
accuracy precision
[1,] 0.4922924 0.5067818
Comparação entre potabilidade da água e análise de agrupamentos por cluster hierárquico
hclust.cluster
compare.df 1 2
0 1154 46
1 765 46
accuracy precision
[1,] 0.5967181 0.0567201
Palavras Finais
Fica evidente que não é possível, através de análise de agrupamentos, ter grupos entre os dados que indiquem relação forte com a potabilidade da água. Noutras palavras, é possível dizer que a potabilidade da água é mais bem explicada por outras técnicas. E abordagem de clusterização pode ser até eficiente para separar entre as variáveis químicas, mas não para indicação da potabilidade da água, o que já era possível de prever. Note também que as medidas de acurácia e precisão são mais equilibradas para a análise agrupamentos por k-means; ainda que essas medidas não sejam corretas para a técnica empregada, vide que esta técnica é não inferencial tampouco preditiva.