tutorial original: https://www.datacamp.com/community/tutorials/keras-r-deep-learning

Carregando os dados

Para esse exemplo iremos usar os dados fornecidos pelo “UCI Machine Learning Repository”, que nesse caso será o conhecido Iris Data Set, para mais detalhes segue o link: http://archive.ics.uci.edu/ml/datasets/Iris.

# Read in `iris` data
iris <- read.csv(url("http://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data"), header = FALSE)

Em seguida iremos checar os dados importados usando alguns comandos.

# Return the first part of `iris`
head(iris)
# Inspect the structure
str(iris)
'data.frame':   150 obs. of  5 variables:
 $ V1: num  5.1 4.9 4.7 4.6 5 5.4 4.6 5 4.4 4.9 ...
 $ V2: num  3.5 3 3.2 3.1 3.6 3.9 3.4 3.4 2.9 3.1 ...
 $ V3: num  1.4 1.4 1.3 1.5 1.4 1.7 1.4 1.5 1.4 1.5 ...
 $ V4: num  0.2 0.2 0.2 0.2 0.2 0.4 0.3 0.2 0.2 0.1 ...
 $ V5: Factor w/ 3 levels "Iris-setosa",..: 1 1 1 1 1 1 1 1 1 1 ...
# Obtain the dimensions
dim(iris)
[1] 150   5

Explorando os dados

Na imagem a seguir podemos ver os três diferentes tipo de iris usadas nos dados.

Como pudemos notar na função “str()” nosso data frame não possui nomes de colunas que facilitam o entendimento dos dados, no momento temos “V1, V2, V3, V4 e V5”, primeiramente iremos renomear as colunas para algo que faça mais sentido.

names(iris) <- c("Sepal.Length", "Sepal.Width", "Petal.Length", "Petal.Width", "Species")

Agora iremos montar um gráfico com os dados relacionando o tamanho com a largura das pétalas.

plot(iris$Petal.Length, 
     iris$Petal.Width, 
     pch=21, bg=c("red","green3","blue")[unclass(iris$Species)], 
     xlab="Petal Length", 
     ylab="Petal Width")

obs: a função “unclass()” converte o nome das espécies em números (seria semelhante a one hot encoding).

Observando a imagem parece existir uma correlação entre tamanho e largura das pétalas para as diferentes espécies, podemos confirmar essa hipótese e também verificar a correlação entre os outros atributos usando a função “corrplot()” junto de “cor()” para cada atributo.

# Store the overall correlation in `M`
correlacoes <- cor(iris[,1:4])
# Plot the correlation plot with `M`
corrplot(correlacoes, method="circle")

# Overall correlation between `Petal.Length` and `Petal.Width` 
cor(iris$Petal.Length, iris$Petal.Width)
[1] 0.9627571

como podemos observar existe uma grande correlação entre tamanho e largura das pétalas, que em valores numéricos seria de 0.9627571.

Processando os dados

Algumas práticas básicas para usar dados são relacionadas a limpeza e normalização dos dados e como iremos usar os dados em um algorítimo de aprendizagem de máquina também precisamos dividir os dados entre treino e validação.

Primeiro iremos sumarizar o data frame para avaliar os dados.

# Pull up a summary of `iris`
summary(iris)
  Sepal.Length    Sepal.Width     Petal.Length    Petal.Width               Species  
 Min.   :4.300   Min.   :2.000   Min.   :1.000   Min.   :0.100   Iris-setosa    :50  
 1st Qu.:5.100   1st Qu.:2.800   1st Qu.:1.600   1st Qu.:0.300   Iris-versicolor:50  
 Median :5.800   Median :3.000   Median :4.350   Median :1.300   Iris-virginica :50  
 Mean   :5.843   Mean   :3.054   Mean   :3.759   Mean   :1.199                       
 3rd Qu.:6.400   3rd Qu.:3.300   3rd Qu.:5.100   3rd Qu.:1.800                       
 Max.   :7.900   Max.   :4.400   Max.   :6.900   Max.   :2.500                       

Aqui um ponto bem importante de observar é que os dados estão bem balanceados, isso irá facilitar o treinamento do nosso algoritmo.

Agora iremos normalizar os dados, para isso iremos usar a função “normalize” do pacote keras, mas primeiro precisamos transformar nosso data frame em uma matriz.

# transforma os dados em valores numéricos (one hot encoding)
iris[,5] <- as.numeric(iris[,5]) -1
# Turn `iris` into a matrix
iris <- as.matrix(iris)
# Set `iris` `dimnames` to `NULL`
dimnames(iris) <- NULL

Em seguida podemos normalizar os dados.

# Normalize the `iris` data
iris[,1:4] <- normalize(iris[,1:4])

Em seguida podemos olhar como ficou nossa matriz de dados normalizados, observe que agora cada valor varia entre 0 e 1.

# Return the summary of `iris`
summary(iris)
       V1               V2               V3               V4                V5   
 Min.   :0.6539   Min.   :0.2384   Min.   :0.1678   Min.   :0.01473   Min.   :0  
 1st Qu.:0.7153   1st Qu.:0.3267   1st Qu.:0.2509   1st Qu.:0.04873   1st Qu.:0  
 Median :0.7549   Median :0.3544   Median :0.5364   Median :0.16415   Median :1  
 Mean   :0.7516   Mean   :0.4048   Mean   :0.4550   Mean   :0.14096   Mean   :1  
 3rd Qu.:0.7884   3rd Qu.:0.5252   3rd Qu.:0.5800   3rd Qu.:0.19753   3rd Qu.:2  
 Max.   :0.8609   Max.   :0.6071   Max.   :0.6370   Max.   :0.28042   Max.   :2  

Agora que possuirmos um conjunto de dados de qualidade, nós podemos dividir os dados em treino e validação, para que possamos construir nosso modelo, mas antes disso iremos definir uma “seed” usando a função “set.seed()”, para possamos ter uma “aleatoriedade determinística”, assim o nosso código fica mais reproduzível.

Iremos usar a função “sample()” para gerar um array com valores 1 ou 2 com probabilidade de 67% e 33% respectivamente, em seguida os valores que possuem 1 serão a matriz de test e os demais serão a matriz de validação

# Determine sample size
ind <- sample(2, nrow(iris), replace=TRUE, prob=c(0.67, 0.33))
# Split the `iris` data
iris.training <- iris[ind==1, 1:4]
iris.validation <- iris[ind==2, 1:4]
# Split the class attribute
iris.trainingtarget <- iris[ind==1, 5]
iris.validationtarget <- iris[ind==2, 5]

O último passo na manipulação dos dados é aplicar One Hot Encoding (OHE) em nosso atributo alvo “Species”, em um modelo de classificação multi-classe como esse, é recomendado que o vetor resposta “Species” seja uma matriz com um vetor para cada classe e nesses vetores apenas 1 ou 0 simbolizando se o exemplo é de determinada classe ou não.

Keras traz a função built-in “to_categorical()” que aplica one hot encoding em uma variável, então iremos passar o vetor alvo da nossa matriz de treino e validação para essa função.

# One hot encode training target values
iris.trainLabels <- to_categorical(iris.trainingtarget)
# One hot encode test target values
iris.validationLabels <- to_categorical(iris.validationtarget)
# Print out the iris.testLabels head to double check the result
head(iris.validationLabels)
     [,1] [,2] [,3]
[1,]    1    0    0
[2,]    1    0    0
[3,]    1    0    0
[4,]    1    0    0
[5,]    1    0    0
[6,]    1    0    0

Como podemos ver no lugar de apenas um vetor com valores de 1 a 3 agora temos 3 vetores com valores 1 ou 0, e como foi dito cada um dos vetores corresponde a uma das classes possíveis do nossos dados (setosa, versicolor e virginica).

Construindo o modelo

Antes de construir o modelo é bom revisitar o propósito inicial do exercício, que é prever qual a espécie de Iris dados determinados dados, e nesse caso seria o nosso vetor “Species” que foi transformado em um “One hot Encoding”, assim nosso resultado final será um desses três vetores com valor 1 e os outros 2 com valor 0.

Para montar o modelo iremos usar a função “keras_model_sequential()”, isso significa que iremos construir um modelo de forma sequencial, ou seja cada camada é adicionada uma após a outra de forma sequencial, isso ficará mais claro com o código.

O tipo de rede que iremos usar é a “MLP” ou “Multi-layer perceptron”, que nada mais é que um conjunto de camadas totalmente conectadas também conhecidas como densas, isso significa que a saída de cada neurônio de uma camada é usada como entrada para todos os neurônios da próxima camada.

Para as funções de ativação das camadas intermediárias ou escondidas, iremos usar a mais comum que seria “Relu”, essa escolha está relacionada ao problema de “exploding e vanishing gradients” que irá refletir na eficiência de treinamento do nosso modelo, e como se trata de uma classificação nossa última função de ativação ou output do modelo será uma “softmax”, que serve para converter uma probabilidade de cada classe em 0 ou 1.

# Initialize a sequential model
model <- keras_model_sequential() 
# Add layers to the model
model %>% 
    layer_dense(units = 8, activation = 'relu', input_shape = c(4)) %>% 
    layer_dense(units = 3, activation = 'softmax')

Alguns detalhe sobre o modelo, ele possui input 4 (os 4 atributos dos dados), output 3 (1 para cada tipo de Iris) e 8 nós em sua camada escondida (esse valor é arbitrário).

Agora podemos ver a representação do modelo:

summary(model)
_____________________________________________________________________________________________________________________________________
Layer (type)                                               Output Shape                                          Param #             
=====================================================================================================================================
dense_9 (Dense)                                            (None, 8)                                             40                  
_____________________________________________________________________________________________________________________________________
dense_10 (Dense)                                           (None, 3)                                             27                  
=====================================================================================================================================
Total params: 67
Trainable params: 67
Non-trainable params: 0
_____________________________________________________________________________________________________________________________________

Agora que a arquitetura foi definida é hora de compilar o modelo, para esse exemplo iremos usar “categorical_crossentropy” como nossa função de loss, “adam” como o otimizador e “accuracy” será nossa métrica.

# Compile the model
model %>% compile(
     loss = 'categorical_crossentropy',
     optimizer = 'adam',
     metrics = 'accuracy'
 )

Em relação ao otimizador “adam” é importante notar que também podemos tunar outros parâmetros além da taxa de aprendizado, como por exemplo beta1, beta2 e epsilon. Para a métrica acurácia se adéqua melhor ao nosso problema mas temos outras opções como Mean Squared Error (MSE). Nossa função loss “categorical_crossentropy”, seria a função padrão para classificação multi-classe(mais de 2 classes).

Tendo isso definido podemos “encaixar” nossos dados no modelo.

Aqui definimos os parâmetros para o treinamento, primeiro definimos o número de epochs, cada epoch é uma iteração do nosso modelo sobre os dados de treinamento seguidos pela validação dos resultados(foward, backward propagation e update dos pesos), “batch_size” é referente a quantidade dos dados de treinamento que vão ser processados por vez (isso pode melhorar o uso da memória), além de que o modelo vai ser atualizado mais frequentemente(1 vez a cada batch).

Algo muito interessante que podemos fazer é visualizar os gráficos do nosso modelo referentes a função loss e a acurácia, isso com base tanto nos dados de treino quanto nos dados de validação.

# Plot the model loss of the training data
plot(history$metrics$loss, main="Model Loss", xlab = "epoch", ylab="loss", col="blue", type="l", ylim=c(0,1.5))
# Plot the model loss of the test data
lines(history$metrics$val_loss, col="green")
# Add legend
legend("topright", c("train","test"), col=c("blue", "green"), lty=c(1,1))

# Plot the accuracy of the training data 
plot(history$metrics$acc, main="Model Accuracy", xlab = "epoch", ylab="accuracy", col="blue", type="l", ylim=c(0,1))
# Plot the accuracy of the validation data
lines(history$metrics$val_acc, col="green")
# Add Legend
legend("bottomright", c("train","test"), col=c("blue", "green"), lty=c(1,1))

Aqui podemos observar o seguinte:

  • A função loss tem um comportamento dentro do esperado, ela tende a diminuir conforme o número de epochs aumenta até chegar um ponto onde ela parece estabilizar.
  • Para a acurácia o observado também está dentro do esperado, a acurácia tende a aumentar conforme aumentam os epochs até estabilizar em um ponto.
  • Obs: Se a acurácia parece estar aumentado nos últimos epoch, é um sinal que modelo ainda não acabou de aprender.
  • Obs2: Se a acurácia para o treino está aumentando mas a acurácia para o teste está diminuindo o modelo provavelmente está sofrendo de overfitting.

Agora que nosso modelo foi criado, compilado e treinado, nós podemos usá-lo para prever resultados para nossos dados de teste.

# Predict the classes for the test data
classes <- model %>% predict_classes(iris.validation, batch_size = 128)

Com nossas predições uma forma interessante de visualizar os dados é usando uma matriz de confusão

# Confusion matrix
table(iris.validationtarget, classes)
                     classes
iris.validationtarget  0  1
                    0 13  0
                    1  0 20
                    2  0 14

AVALIAR OS RESULTADOS

Outra forma interessante de avaliar o modelo é usando a função “evaluate()”, para isso basta passar os dados e labels de validação.

# Evaluate on test data and labels
score <- model %>% evaluate(iris.validation, iris.validationLabels, batch_size = 128)

47/47 [==============================] - 0s 43us/step
# Print the score
print(score)
$loss
[1] 0.4384495

$acc
[1] 0.7021276

Busca por hiperparâmetros é provavelmente onde se gasta mais tempo quando se monta um modelo, mas também é o que diferencia um bom modelo de outro ruim, ou pouco eficiente. Mas isso é algo que depende muito do problema em questão, no nosso caso nossos dados são bem simples, então não é preciso fazer muito.

Dentre as várias possibilidades de ajustes, iremos cobrir três: o número de camadas escondidas, número de nós e o algoritmo de otimização.

Adicionando camadas

Aqui iremos usar a mesma estrutura de modelo mas com uma camada a mais.

# Plot the model loss
plot(history2$metrics$loss, main="Model Loss", xlab = "epoch", ylab="loss", col="blue", type="l", ylim=c(0,1.7))
lines(history2$metrics$val_loss, col="green")
legend("topright", c("train","test"), col=c("blue", "green"), lty=c(1,1))

# Plot the model accuracy
plot(history2$metrics$acc, main="Model Accuracy", xlab = "epoch", ylab="accuracy", col="blue", type="l", ylim=c(0,1))
lines(history2$metrics$val_acc, col="green")
legend("bottomright", c("train","test"), col=c("blue", "green"), lty=c(1,1))

# Evaluate the model
score2 <- model2 %>% evaluate(iris.validation, iris.validationLabels, batch_size = 128)

47/47 [==============================] - 0s 64us/step
# Print the score
print(score2)
$loss
[1] 0.2639041

$acc
[1] 0.9148936

Nós escondidos

Agora iremos mais uma vez usar a mesma estrutura inicial mas desa vez iremos adicionar mais nós a camada escondida.

# Plot the model loss
plot(history3$metrics$loss, main="Model Loss", xlab = "epoch", ylab="loss", col="blue", type="l", ylim=c(0,1.5))
lines(history3$metrics$val_loss, col="green")
legend("topright", c("train","test"), col=c("blue", "green"), lty=c(1,1))

# Plot the model accuracy
plot(history3$metrics$acc, main="Model Accuracy", xlab = "epoch", ylab="accuracy", col="blue", type="l", ylim=c(0,1))
lines(history3$metrics$val_acc, col="green")
legend("bottomright", c("train","test"), col=c("blue", "green"), lty=c(1,1))

# Evaluate the model
score3 <- model3 %>% evaluate(iris.validation, iris.validationLabels, batch_size = 128)

47/47 [==============================] - 0s 53us/step
# Print the score
print(score3)
$loss
[1] 0.2327757

$acc
[1] 0.9361702

Em relação a topologia da rede (quantidade de camadas e nós), a princípio pode parecer uma boa ideia adicionar mais camadas e nós, para aumentar a complexidade da nossa função e poder capturar mais dados, mas isso vai fazer com que o modelo se ajuste demais aos dados de treinamento e perca a capacidade de capturar também os dados de validação (overfitting). Ou seja além de dificultar o overfitting redes menores também vão ser treinadas mais rápido, por esses motivos de forma geral nós sempre iremos preferir redes mais simples.

Otimizador

Um hiperperâmetro que também podemos ajustar é o otimizador e até mesmo os próprios parâmetros do otimizador a seguir iremos usar o Stochastic Gradient Descent (SGD) como nosso otimizador e também mudar a taxa de aprendizado.

# Plot the model loss
plot(history4$metrics$loss, main="Model Loss", xlab = "epoch", ylab="loss", col="blue", type="l", ylim=c(0,1.6))
lines(history4$metrics$val_loss, col="green")
legend("topright", c("train","test"), col=c("blue", "green"), lty=c(1,1))

# Plot the model accuracy
plot(history4$metrics$acc, main="Model Accuracy", xlab = "epoch", ylab="accuracy", col="blue", type="l", ylim=c(0,1))
lines(history4$metrics$val_acc, col="green")
legend("bottomright", c("train","test"), col=c("blue", "green"), lty=c(1,1))

# Evaluate the model
score4 <- model4 %>% evaluate(iris.validation, iris.validationLabels, batch_size = 128)

47/47 [==============================] - 0s 53us/step
# Print the loss and accuracy metrics
print(score4)
$loss
[1] 0.4923409

$acc
[1] 0.7021276

Salvar, carregar ou exportar o modelo

Salvar e carregar um modelo é muito importante, principalmente quando se trata de modelos mais complexos e robustos, pode se tornar quase impraticável replicar o treinamento de um modelo em outro ambiente, por exemplo, você não vai querer tentar treinar um modelo em seu computador que levou dias para ser treinado em um super computador, ou até mesmo você pode treinar seu modelo em dias diferentes.

Isso pode ser facilmente feito usando as funções da biblioteca “hdf5”, “save_model_hdf5()” e “load_model_hdf5()”, isso é muito importante quando se usa “transfer learning”, que em resumo seria usar um modelo já treinado e usar seus pesos como base em outro modelo, isso normalmente é feito usando um modelo de propósito geral como base para outro de propósito específico.

save_model_hdf5(model, "my_model.h5")
model <- load_model_hdf5("my_model.h5")

Também é possível salvar os pesos (weights) do modelo.

save_model_weights_hdf5(model, "my_model_weights.h5")
model %>% load_model_weights_hdf5("my_model_weights.h5")

Também é possível exportar o modelo para JSON ou YAML.

json_string <- model_to_json(model)
model <- model_from_json(json_string)
yaml_string <- model_to_yaml(model)
model <- model_from_yaml(yaml_string)

Usando dados das eleições dos deputados de 2014

Para um segundo experimento iremos usar dados reais, mais interessantes e de maior complexidade, que serão os dados referentes a eleição dos deputados de 2014.

Carregando os dados pt2

trainDp <- read.csv("data/train5.csv", encoding="UTF-8")
testDp <- read.csv("data/test5.csv", encoding="UTF-8")

Explorando os dados pt2

Para qualquer conjunto de dados que vai ser submetido para treinar um modelo de predição é importante verificar a distribuição entre as classes.

total = nrow(trainDp)
dist_classes <- trainDp %>% count(situacao_final)
ggplot(dist_classes, aes(y = dist_classes$n/total * 100, x = dist_classes$situacao_final))+
  geom_bar(stat="identity") +
  labs(title = "Distribuição de classes", x = "Situação final", y = "Proporção (%)") +
  theme(axis.text.x = element_text(angle = 0, hjust = 1), legend.position="none") +
  theme(axis.text=element_text(size=8), axis.title=element_text(size=12,face="bold"))

Como podemos observar na imagem, existe um grande desbalanceamento nas classes, mais de 80% dos dados são referentes a candidatos que não foram eleitos, isso faz bastante sentido já que apenas uma quantidade específica foi eleita, e normalmente é bem menor que o total de candidatos, mas para treinar um modelo isso acaba sendo ruim já que a classe dos não eleitos tem uma representação muito maior que a outra, isso pode enviesar o modelo para esses casos, ou seja, o modelo pode representar bem melhor esses dados que possuem mais exemplos (overfitting), e não representar tão bem a outra classe, já que existem poucos exemplos da mesma. Outro problema de dados desbalanceados é que nesse caso se o modelo prever todos os exemplos como “nao_eleitos” ainda sim ele conseguirá algo próximo de 80% de acurácia, e obviamente essa predição foi muito ruim, mas analisando apenas acurácia fica difícil de identificar isso.

Processando os dados pt2

Ao observar os dados podemos ver que os valores nulos são representados por “#NULO” no conjunto de dados, então vamos substituir esses valores por “NA”, assim poderemos avaliar melhor os dados.

# obs o processamento deve ser feito para os dados de treino e teste
trainDp[trainDp == '#NULO'] <- NA
testDp[testDp == '#NULO'] <- NA
# observando a quantidade de valores nulos para cada atributo
sapply(trainDp, function(y) sum(length(which(is.na(y)))))
                                   ID                                  nome                       numero_cadidato 
                                    0                                     0                                     0 
                                   UF                               partido               setor_economico_receita 
                                    0                                     0                                  2140 
                   quantidade_doacoes                   quantidade_doadores                         total_receita 
                                    0                                     0                                     0 
                        media_receita recursos_de_outros_candidatos.comites                  recursos_de_partidos 
                                    0                                     0                                     0 
          recursos_de_pessoas_físicas         recursos_de_pessoas_juridicas                     recursos_proprios 
                                    0                                     0                                     0 
                  quantidade_despesas               quantidade_fornecedores                         total_despesa 
                                    0                                     0                                     0 
                        media_despesa               setor_economico_despesa                                 idade 
                                    0                                  2310                                     0 
                                 sexo                                  grau                          estado_civil 
                                    0                                     0                                     0 
                   descricao_ocupacao                    descricao_cor_raca                  despesa_max_campanha 
                                    0                                     0                                     0 
                       situacao_final 
                                    0 

Com essa informação podemos chegar a algumas conclusões, apenas os atributos “setor_economico_receita” e “setor_economico_despesa” possuem dados nulos, e levando em conta que o nosso total de dados é 4135 podemos concluir que nesses duas camadas a moda seria na verdade os dado nulos, esse tipo de situação dificulta muito substituir esses valores por outros derivados de alguma forma, devido a isso optei por remover esses atributos.

Para submeter os dados para um modelo de deep learning precisamos transformar nossos atributos categóricos em atributos numéricos, para isso usaremos one hot encoding.

# transformando os valores categóricos para o formato one hot
trainDp <- dummy.data.frame(trainDp, names=c('estado_civil'), sep="_")
trainDp <- dummy.data.frame(trainDp, names=c('sexo'), sep="_")
trainDp <- dummy.data.frame(trainDp, names=c('grau'), sep="_")
trainDp <- dummy.data.frame(trainDp, names=c('descricao_cor_raca'), sep="_")
# testar
# to_categorical(trainDp$descricao_cor_raca)
testDp <- dummy.data.frame(testDp, names=c('estado_civil'), sep="_")
testDp <- dummy.data.frame(testDp, names=c('sexo'), sep="_")
testDp <- dummy.data.frame(testDp, names=c('grau'), sep="_")
testDp <- dummy.data.frame(testDp, names=c('descricao_cor_raca'), sep="_")
# removendo atributos não usados (atributos com alto índice de nulos, e atributos com pouca importância: nome, ID, numero_candidato, estado_civil e descricao_ocupacao)
trainDPF <- trainDp %>% select(quantidade_doacoes, quantidade_doadores, total_receita, media_receita, recursos_de_outros_candidatos.comites, recursos_de_partidos, recursos_de_pessoas_físicas, recursos_de_pessoas_juridicas, recursos_proprios, quantidade_despesas, quantidade_fornecedores, total_despesa, media_despesa, idade, despesa_max_campanha, situacao_final)
testDPF <- testDp %>% select(quantidade_doacoes, quantidade_doadores, total_receita, media_receita, recursos_de_outros_candidatos.comites, recursos_de_partidos, recursos_de_pessoas_físicas, recursos_de_pessoas_juridicas, recursos_proprios, quantidade_despesas, quantidade_fornecedores, total_despesa, media_despesa, idade, despesa_max_campanha)

Construindo o modelo pt2

inputSize = ncol(trainDPF)
outputSize = length(unique(trainDPF$situacao_final))
# transforma os dados em valores numéricos (one hot encoding)
trainDPF[,inputSize] <- as.numeric(trainDPF[,inputSize]) -1
# Turn into a matrix
trainDPF <- as.matrix(trainDPF)
# Set `dimnames` to `NULL`
dimnames(trainDPF) <- NULL
# Normalize the data
trainDPF[,1:(inputSize-1)] <- normalize(trainDPF[,1:(inputSize-1)])
# Determine sample size
ind2 <- sample(2, nrow(trainDPF), replace=TRUE, prob=c(0.70, 0.30))
# Split the data
dp.training <- trainDPF[ind2==1, 1:(inputSize-1)]
dp.validation <- trainDPF[ind2==2, 1:(inputSize-1)]
# Split the class attribute
dp.trainingtarget <- trainDPF[ind2==1, inputSize]
dp.validationtarget <- trainDPF[ind2==2, inputSize]
# One hot encode training target dp.trainingtarget
dp.trainLabels <- to_categorical(dp.trainingtarget)
# One hot encode test target values
dp.validationLabels <- to_categorical(dp.validationtarget)

Para esse exemplo iremos usar mais camadas pois se trata de um problema mais complexo, também iremos utilizar outra função de loss “binary_crossentropy”, pois se trata de classificação de apenas 2 classes.

# Plot the model loss
plot(historyDP$metrics$loss, main="Model Loss", xlab = "epoch", ylab="loss", col="blue", type="l", ylim=c(0,1))
lines(historyDP$metrics$val_loss, col="green")
legend("topright", c("train"), col=c("blue"), lty=c(1,1))

# Plot the model accuracy
plot(historyDP$metrics$acc, main="Model Accuracy", xlab = "epoch", ylab="accuracy", col="blue", type="l", ylim=c(0,1))
lines(historyDP$metrics$val_acc, col="green")
legend("bottomright", c("train"), col=c("blue"), lty=c(1,1))

# Evaluate the model
scoreDP <- modelDP %>% evaluate(dp.validation, dp.validationLabels, batch_size = 128)

 128/1265 [==>...........................] - ETA: 0s
1265/1265 [==============================] - 0s 30us/step
# Print the loss and accuracy metrics
print("Validação")
[1] "Validação"
print(scoreDP)
$loss
[1] 0.1626936

$acc
[1] 0.9241107

Analisando esses gráficos, o que percebemos é que desde o início o nosso modelo já encontrou o valor bem próximo do ótimo, isso é um pouco estranho pois os dados possuem uma certa complexidade, mas isso também pode ser devido a eficiência dos parâmetros que fizeram com que a função encontrasse um ponto ótimo de forma bem rápida.

inputSizeT = ncol(testDPF)
# transforma os dados em valores numéricos (one hot encoding)
testDPF[,inputSizeT] <- as.numeric(testDPF[,inputSizeT]) -1
# Turn into a matrix
testDPF <- as.matrix(testDPF)
# Set `dimnames` to `NULL`
dimnames(testDPF) <- NULL
# Normalize the data
testDPF[,1:(inputSizeT-1)] <- normalize(testDPF[,1:(inputSizeT-1)])

Como podemos ver nosso modelo na verdade classificou tudo como “nao_eleito” isso pode ter acontecido por conta dos desbalanceamento nos dados de treinamento, mas também pode ser que o modelo não seja eficiente.

Isso enfatiza o ponto de analisar as predições do modelo de uma forma mais criteriosa, e não observar apenas a acurácia final, nesse caso a acurácia na validação foi de 92.41%, que seria muito boa, mas analisando as predições finais podemos ver que provavelmente não se trata de um bom modelo.

totalPred = nrow(submission_predict.df)
dist_classesPred <- data.frame( "situacao_final" = integer(), "n" = integer())
dist_classesPred[nrow(dist_classesPred) + 1, ] <- c( 'eleito', sum(submission_predict.df$preds == 'eleito'))
dist_classesPred[nrow(dist_classesPred) + 1, ] <- c( 'nao_eleito', sum(submission_predict.df$preds == 'nao_eleito'))
dist_classesPred$n <- as.numeric(dist_classesPred$n)
ggplot(dist_classesPred, aes(y = dist_classesPred$n/totalPred * 100, x = dist_classesPred$situacao_final))+
  geom_bar(stat="identity") +
  labs(title = "Distribuição de classes", x = "Situação final", y = "Proporção (%)") +
  theme(axis.text.x = element_text(angle = 0, hjust = 1), legend.position="none") +
  theme(axis.text=element_text(size=8), axis.title=element_text(size=12,face="bold"))

Agora com os dados de treino e as predições nos dados de teste, nós podemos unir os dois conjuntos e usar os dados para realizar análises no que seria o conjunto completo dos dados.

# merge both dataframes to get the "complete data"
dados_totais <- rbind(trainDp, submission)
write.csv(dados_totais, file = "C:/Users/dimit/Desktop/Projetos/AD2/data/dadosTotais.csv", row.names = FALSE)
