Redes Neurais

Contextualização

Exemplos de aplicações para as Redes Neurais

Regressão

Os problemas de regressão são aqueles que buscam prever para um dado indivíduo (unidade amostral ou instância) o valor de uma variável numérica quantitativa a partir da observação de covariáveis independentes. Este é um problema supervisionado, onde há uma variável alvo (desfecho, variável de interesse) que queremos prever.

O estudo de Shiau et al. (Shiau et al. 2022) visa adotar uma rede neural artificial (ANN) para modelagem da demanda de energia industrial em Taiwan, relacionada com a produção do subsetor de manufatura e a mudança climática. Este é o primeiro estudo a utilizar a técnica ANN para medir o nexo entre a demanda de energia industrial, a produção e a mudança climática. O modelo ANN adotado neste estudo é um perceptron multicamadas (MLP) com uma rede neural de retropropagação feedforward. Este estudo compara os resultados de três funções de ativação ANN com regressão linear múltipla (MLR). De acordo com os resultados da estimativa, a ANN com uma camada oculta e função de ativação tangente hiperbólica supera outras técnicas e tem valores de desempenho estatísticos sólidos. Os resultados da estimativa indicam que a demanda de eletricidade industrial em Taiwan é invariante ao preço e a mudança climática gera um aumento na demanda de energia.

O trabalho de Lyu et al. (Lyu et al. 2022) tem como objetivo discutir a viabilidade de empregar uma nova abordagem de aprendizagem de máquina com validação cruzada de K-fold em uma pequena faixa de amostra, que combina as vantagens de um Algoritmo Genético (GA) e uma Rede Neural (NN) para prever a força de torção de vigas RC. Este estudo de pesquisa não só utiliza a aplicação de uma rede neural de Propagação Traseira (BP) e a rede neural de Propagação de Algoritmo Genético (GA-BP) na previsão da força de torção do feixe RC, mas também investiga a otimização dos parâmetros da rede neural, incluindo pesos e limiares de conexão, utilizando a validação cruzada por meio de K-fold. O erro quadrático médio (RMSE), erro absoluto médio (MAE), erro quadrático médio (MSE), erro percentual médio absoluto (MAPE) e coeficiente de correlação (R2) estão entre as métricas de avaliação utilizadas para avaliar o desempenho do modelo treinado. Para elaborar a superioridade dos modelos de rede propostos na previsão da força de torção dos feixes RC, é realizado um estudo paramétrico comparando o modelo proposto com três fórmulas empíricas comumente utilizadas a partir de códigos de projeto existentes. Os resultados comparativos deste estudo de pesquisa demonstram que o desempenho da rede neural BP é altamente similar ao dos códigos de projeto; no entanto, sua precisão é inadequada. Depois de melhorar os pesos e limites por meio da validação cruzada k-fold e GA, a previsão da rede neural BP mostra maior consistência com os valores medidos reais. O resultado deste estudo pode ser usado como referência teórica para o projeto ideal de vigas RC em aplicações práticas.

Classificação

Os problemas de classificação são aqueles que buscamos prever para um indivíduo (unidade amostral) a classe (2 ou mais) de uma variável categórica a partir da observação de covariáveis independentes. Este é um problema supervisionado, onde há uma variável alvo (desfecho, variável de interesse) que queremos prever, no caso a classe do indivíduo.

Na situação atual todos usam dinheiro de plástico, ou seja, cartões de crédito e assim a demanda por cartões de crédito nos pagamentos aumenta significativamente e também a fraude. Para evitar isto,

Dubay et al. (Dubey, Mundhe, and Kadam 2020) criaram um modelo, usando o algoritmo ANN (Artificial Neural Network) e Backpropagation, para identificar se uma operação de cartão de crédito é fraude. No modelo são usadas covariáveis com informações do cartão de crédito, como nome do cliente , hora, última transação, histórico de transações, etc. A base de dados é dividia entre treino (80%) e teste (20%). A função de ativação utilizada no neurônio de saída foi a função logística. A rede adotada foi uma perceptron multi-camadas com 3 camadas ocultas contendo 5 neurônios em cada uma delas. A acurácia do modelo foi superior a 0,99 tanto na base de treino quanto na base de teste.

Gupta (Gupta 2022) ajusta um modelo de Redes Neurais para classificar se um determinado cogumelo é comestível ou venenoso. A base de dados é formada por 8124 observações, 22 atributos, que caracterizam cada cogumelo da amostra, como cor, tipo de raiz, entre outras, e mais a informação se cada cogumelo é comestível ou veneso. Essa base foi separada em treino e teste. O modelo foi treinado considerando a medida de entropia e validação cruzada para determinar os hiperparâmetros. A arquitetura da rede final é composta por 1 camada de entrada, 1 camada oculta e 1 camada de saída. A rede alcançou um precisão de mais de 99% e a taxa média de previsibilidade estava acima de 99% para a previsão de se o cogumelo é comestível ou venenosos.

Conglomerados

Os problemas de análise de conglomerados, ou clusterização, são aqueles que buscam agrupar indivíduos de acordo com a semelhança entre as covariáveis que o caracterizam. ~Este é um problema não supervisionado, quando não há uma variável a ser prevista.

Liu et. al. (Liu, Chen, and Wang 2021) realiza uma revisão minuciosa da literatura para identificar indicadores usados na avaliação da sustentabilidade regional e da sustentabilidade do transporte. Com base nos dados disponíveis, dois conjuntos de indicadores para sustentabilidade regional e sustentabilidade do transporte são identificados e calculados respectivamente para as 382 áreas estatísticas metropolitanas (MSAs) nos EUA. Um mapa auto-organizador,uma rede neural artificial, é usado para agrupar as MSAs e comparar sua sustentabilidade regional e sustentabilidade do transporte, bem como para investigar as relações entre os indicadores. Os resultados mostram que os MSAs com uma pontuação mais alta em sustentabilidade regional não têm necessariamente uma pontuação mais alta em sustentabilidade de transporte. Alguns ASM que estão geograficamente próximos uns dos outros têm pontuações semelhantes em sustentabilidade regional e sustentabilidade do transporte.

O alívio do congestionamento do tráfego público é uma maneira eficiente e eficaz de melhorar a confiabilidade do tempo de viagem e a qualidade dos serviços de transporte público. Os modelos existentes de otimização da rede pública geralmente ignoravam o impacto essencial do congestionamento do tráfego público no desempenho do serviço de transporte público. Para resolver este problema, Gu et al. (Gu, Wang, and Dong 2020) propõe uma metodologia baseada em dados para estimar o congestionamento de tráfego de segmentos rodoviários entre paradas de ônibus (RSBs). A metodologia proposta envolve duas etapas: (1) Extrair três indicadores de tráfego das RSBs dos dados do cartão inteligente e dos dados da trajetória do ônibus; (2) O mapa auto-organizador (SOM) é usado para agrupar e reconhecer efetivamente os padrões de tráfego incorporados nas RSBs. Além disso, um índice de congestionamento para classificar os clusters de SOM é desenvolvido para determinar as RSBs congestionadas. Um estudo de caso utilizando conjuntos de dados do mundo real de um sistema de transporte público valida a metodologia proposta. Com base nas RSBs congestionadas, um exemplo exploratório de otimização da rede de transporte público é discutido e avaliado usando um algoritmo genético. Os resultados do agrupamento mostraram que a SOM poderia refletir adequadamente as características do tráfego e estimar o congestionamento de tráfego das RSBs.

Separação da base em treino e teste

Suponha uma base de dados com $M$ covariáveis, $X_1$, $X_2$,$\ldots$, $X_N$ e optativamente uma variável alvo $Y$, que pode ser numérica quantitativa (problemas de regressão) ou categórica (problemas de classificação).

Suponha que essa base contém $N$ observações, isto é, $N$ linhas, que também podem ser chamadas de instância ou unidades amostrais. Dessa forma podemos organizar a base em uma estrutura retangular.

Quando ajustamos um modelo qualquer tems muitas opções de hiperparâmeyros para ele, que definem a sua estrutura. Para escolher qual a melhor delas é preciso avaliar a qualidade do ajuste. As medidas usadas nessa avaliação são chamadas de medidas de desempenho.

Além de medir a qualidade de ajuste nos dados usados para treinar o modelo também queremos garantir um bom ajuste para novos dados. Para medir a qualidade do ajuste em novos dados é importante separar parte dos dados que temos e não incluí-los nos dados de treinamento. Por isso sempre que começamos um projeto de machine learning o primeiro passo é dividir a base de dados em duas partes: treino e teste.

Separação em treino e teste

A base de treino será usada para o ajuste do modelo. A base de teste será usada para avaliar a qualidade do ajuste para novos dados, dados fora da amostra. Normalmente a base é separada em aproximadamente 75% para a base de treino e 25% para a base de teste.

Padronização dos dados de entrada

Um passo muito importante em qualquer ajuste para modelos de aprendizado de máquinas é a padronização da base de dados antes de realizar o ajuste do modelo. Isso garante que as variáveis de entrada não estão em escalas diferentes o que facilita os processos de convergência utilizados nas estimativas dos parâmetros.

Cada observação de uma variável da base, tanto das covariáveis $X_1$, $X_2$, $\ldots$, $X_M$, quanto observações da variável alvo $Y$ devem passar pelo seguinte processo :

\[ \tilde{X}_{i,j} = \dfrac{X_{i,j} - \bar{X}_j}{S_{X_j}} \qquad \hbox{ e } \qquad \tilde{Y}_{i} = \dfrac{Y_{i} - \bar{Y}}{S_Y} \qquad i = 1, 2, \ldots, N \hbox{ e } j = 1, 2, \ldots, M \] sendo $\bar{X}_j$ e $S_{X_j}$ a média amostral e o desvio padrão amostral da covariável $X_j$ e $\bar{Y}$ e $S_{Y}$ a média amostral e o desvio padrão amostral da variável resposta $Y$.

Os dados de entrada do modelo serão os dados transformados, $\tilde{X}_{i,j}$ e $\tilde{Y}$. As constantes utilizadas nas transformações ($\bar{X}_j$, $S_{X_j}$, $\bar{Y}$, $S_{Y}$) têm que ser guardados pois eles serão usados novamente quando desejarmos fazer uma nova mudança de escala em dados novos ou voltar para a escala original as previsões do modelo.

Medidas de desempenho

As medidas de desempenho servem para avaliar a qualidade de um ajuste.

Regressão

Para os problemas de regressão a variável resposta $Y$ é numérica, quantitativa e contínua. Suponha que um modelo de regressão realizou a previsão $\hat{y}_i$ para a i-ésima observação da variável $Y$, $y_i$. Chamamos $y_i$ de valor real e $\hat{y}_i$ valor previsto. O melhor modelo será aquele que faz previsões mais parecidas, ou seja, aqueles tais que $\hat{y}_i$ e $y_i$ são mais parecidos. Para identificar os modelos com melhores regressões podemos usar as seguintes medidas de desempenho.

Soma dos erros ao quadrado: \[ SSE = \sum_{i=1}^N (\hat{y}_i - y_i)^2 \]

Erro médio quadrático: \[ MSE = \dfrac{1}{N} \sum_{i=1}^N (\hat{y}_i - y_i)^2 \]

entre outros.

Classificação

Vamos tratar aqui o problema de duas classes. O problema com mais de duas classes será discutido mais a frente.

Para os problemas de classificação de duas classes, a variável resposta $Y$ é categórico. Essa variável será transformada em ma variável de uma classe de referência, isto é, $Y_i = 1$ se a observação $i$ pertence a classe de interesse e $Y_i = 0$ caso contrário. Os métodos de classificação, de forma geral, fornecem estimativas $\hat{y}_i$ tais que $ 0 < _i < 1$. Um bom classificador é aquele que retorna $\hat{y}_i \approx 0$ quando ${y}_i = 0$ e $\hat{y}_i \approx 1$ quando ${y}_i = 1$. Uma medida do quanto bom esse classificador é encontra-se a seguir.

Entropia Cruzada

\[ EC = - \sum_{i=1}^N \left( y_i\ln(\hat{y}_i) + (1-y_i)\ln(1-\hat{y}_i) \right) \] Veja que quando acontece $\hat{y}_i \approx 0$ quando ${y}_i = 0$ e $\hat{y}_i \approx 1$ quando ${y}_i = 1$ o valor da $EC$ fica bem pequeno, próximo de zero. E se ocorre $\hat{y}_i \approx 1$ quando ${y}_i = 0$ ou $\hat{y}_i \approx 0$ quando ${y}_i = 1$, teremos uma parcela bem grande em módulo na conta do EC, uma vez que $x \approx 0 \Rightarrow \ln(x) \approx \infty$.

Matriz de Confusão

Suponha que um modelo de classificação prevê a classe $\hat{c}_i$ para a i-ésima observação da base e suponha que esta mesma observação está associada a classe $c_i$. Chamamos $c_i$ de classe real e $\hat{c}_i$ classe prevista. O melhor modelo será aquele que acerta mais a previsão das classes. Para identificar os modelos com melhores classificações podemos usar a matriz de confusão e as medidas que naturalmente são retiradas dela.

A matriz de confusão é formada pela contagem de classes reais e classes previstas.

	Real 0	Real 1
Prev 0	VN	FN
Prev 1	FP	VP

VN = verdadeiro negativo = número de observações iguais a 0 que foram previstas como 0.

FN = falso negativo = número de observações iguais a 1 que foram previstas como 0.

FP = falso positivo = número de observações iguais a 0 que foram previstas como 1.

VP = verdadeiro positivo = número de observações iguais a 1 que foram previstas como 1.

Quanto maior o número de observações na diagonal principal da matriz de confusão melhor. A partir desta tabela podemos calcular algumas medidas de desempenho para os modelos de classificação.

Acurácia

A acurácia é a taxa de acerto do classificador. Ela é a proporção de predições corretas dentre todas as predições. \[ Acurácia = \dfrac{V P + V N}{V P + V N + FP + FN} \]

Sensibilidade (ou Recall)

A sensibilidade é a taxa de acerto dos casos positivos. Ela é a proporção de casos positivos que foram corretamente classificados como positivos. \[ Sensibilidade = \dfrac{VP}{V P + FN} \] ##### Especificidade

A especificidade é a taxa de acerto dos casos negativos. Ela é a proporção dos casos negativos que foram corretamente classificados como negativos. \[ Especificidade = \dfrac{V N}{V N + FP} \]

Precisão

A precisão é a taxa de acerto dentras previsões positivas. Ela é a proporção dos acertos entre os casos classificados como positivos. \[ Precisão = \dfrac{VP}{V P + FP} \] ##### F1-Score

É uma combinação da Precisão e do Recall que na prática é a média harmônica entre a Precisão e o Recall. \[ F1-score = 2 \dfrac{Precisão \times Recall}{Precisão + Recall} \]

Conglomerados

Para os problemas de conglomerados não existe uma variável alvo $Y$, são os chamados problemas não supervisionados. Temos apenas as covariáveis e cada observação é representada por um ponto (vetor) no $\mathbb{R}^M$, que é um vetor linha da base de dados.

A saída dos métodos é a definição de grupos (conglomerados, clusters) para as observações. Um bom método de conglomerado é aquele que define grupos onde as observações (linhas) de cada grupo estão próximas uma das outras, medida intracluster, e os grupos estão distantes um dos outros, medida intercluster.

O índice de Dunn faz uma combinação das medidas intracluster e interclusteré para criar uma métrica de comparação da qualidade dos métodos de clusterização. Este índice é obtido da seguinte maneira:

Para cada cluster $k$, calcule a distância entre cada amostra de dentro do cluster $k$ com cada amostras fora deste cluester;
A menor dessas distâncias será a similaridade intercluster do cluster $k$ ($S.inter_k$, menor distância entre a borda de um cluster e outro qualquer);
Para cada cluster $k$, calcule a distância entre todos os pares de amostras deste cluster;
A maior dessas distâncias será a similaridade intracluster do cluster $k$ ($S.intra_k$, maior diâmetro do cluster);
Por fim, aplica-se à fórmula: Considerando um conglomerado com $K$ clusters o índice de Dunn deste conglomerado é \[ D = \min_{1 \le k \le K} \dfrac{S.inter_k}{S.intra_k} \]

Se o conjunto de dados contiver clusters compactos e bem separados, o diâmetro dos clusters (denominador) deverá ser pequeno e a distância entre os clusters (numerador) deverá ser grande. Portanto, índices próximos de 0 indicam que o agrupamento não é bom e quanto maior o valor deste índice melhor o agrupamento.

Redes Neurais

Jessica Kubrusly

Departamento de Estatística da UFF

Contextualização

Exemplos de aplicações para as Redes Neurais

Regressão

Classificação

Conglomerados

Separação da base em treino e teste

Padronização dos dados de entrada

Medidas de desempenho

Regressão

Classificação

Entropia Cruzada

Matriz de Confusão

Acurácia

Sensibilidade (ou Recall)

Precisão

Conglomerados

Bibliografia