Aprendizado de Máquina

Prof. Letícia Raposo

Introdução ao Aprendizado de Máquina

Definição

Campo da inteligência artificial que envolve o desenvolvimento de algoritmos e modelos computacionais capazes de aprender a partir de dados e melhorar o desempenho em tarefas específicas, sem a necessidade de serem explicitamente programados.

Aprendizado de Máquina

Adaptado de: https://becominghuman.ai/an-introduction-to-machine-learning-7db04da817c4

Aprendizado Supervisionado

  • O termo “supervisionado” refere-se à simulação de um “supervisor externo” que possui conhecimento das saídas desejadas (rótulos) para cada exemplo.
  • 🎯 Objetivo: Encontrar os parâmetros ótimos para ajustar um modelo capaz de prever rótulos desconhecidos em outros objetos (conjunto de teste).

Regressão

  • 🎯 Objetivo: Prever uma medida numérica para uma observação.
  • Variável resposta: numérica.

Classificação

  • 🎯 Objetivo: Atribuir uma classe de um conjunto finito de classes a uma observação.
  • Variável resposta: categórica.

Regressão x Classificação

Aprendizado Não Supervisionado

  • Conjunto de treinamento não rotulado.
  • 🎯 Objetivo: identificar similaridades entre os objetos e agrupá-los adequadamente.
  • Redução de dimensões: concentrar nos atributos mais relevantes.

Aprendizado Semi-supervisionado

  • Inclui ambos os problemas discutidos anteriormente: utiliza dados rotulados e não-rotulados.
  • 🎯 Objetivo: rotular dados não rotulados por meio do aprendizado não supervisionado para então usá-los na construção de um modelo supervisionado.
  • Útil em cenários com:
    • Obtenção de rótulos dispendiosa, demorada ou difícil.
    • Disponibilidade relativamente alta de dados não rotulados.

Aprendizado Semi-supervisionado

Aprendizado por Reforço

  • Inspirada em como os seres humanos aprendem por meio de tentativa e erro.
  • Utiliza feedback em forma de recompensas ou penalidades para guiar o aprendizado do agente.

Aprendizado por Reforço

Introdução ao Aprendizado Supervisionado

Etapas do Aprendizado Supervisionado

  • Preparação dos dados
  • Escolha de um algoritmo
  • Treinamento
  • Ajuste dos (hiper)parâmetros
  • Avaliação
  • Implantação

🧹 Preparação dos dados

  • Eliminação manual de atributos: Remoção de atributos irrelevantes, redundantes ou com baixa qualidade.
  • Integração de dados: Combinação de diferentes fontes de dados em um único conjunto de dados.
  • Limpeza de dados: Identificação e tratamento de erros, valores ausentes, outliers e ruídos nos dados.
  • Transformação de dados: Aplicação de transformações aos dados para melhorar sua qualidade ou adequá-los às suposições do modelo. Inclui normalização, padronização, discretização e outras técnicas.

🧹 Preparação dos dados

  • Amostragem de dados: Seleção de uma amostra representativa dos dados para treinamento do modelo.
  • Redução de Dimensionalidade: Redução do número de atributos para evitar a maldição da dimensionalidade e melhorar a eficiência do modelo. Utiliza técnicas como PCA (Análise de Componentes Principais) ou seleção de atributos.
  • Dados desbalanceados: Tratamento de desequilíbrio entre as classes no conjunto de dados.

🤔 Escolha de um algoritmo

Diferentes algoritmos têm características e comportamentos distintos, adequados para diferentes tipos de problemas.

  • Tipo de problema: regressão, classificação binária, classificação multiclasse ou outra tarefa específica.
  • Tamanho do conjunto de dados: algoritmos adequados para grandes conjuntos de dados.
  • Linearidade dos dados: algoritmos adequados para dados lineares ou não lineares.

🤔 Escolha de um algoritmo

  • Interpretabilidade: algoritmos mais transparentes para modelos interpretáveis.
  • Complexidade e capacidade de generalização: equilíbrio entre complexidade e generalização.
  • Requisitos computacionais: considerar capacidade de processamento, memória e tempo de execução.

🏋️ Treinamento

  • O modelo é alimentado com o conjunto de dados rotulados.
  • Ele aprende a mapear as entradas aos rótulos corretos.

🔧 Ajuste dos (hiper)parâmetros

Os hiperparâmetros do modelo podem ser ajustados para melhorar o desempenho.

👍 Avaliação

  • O modelo é testado em um conjunto de dados separado, chamado conjunto de teste, para avaliar seu desempenho final.
  • O conjunto de teste fornece uma estimativa realista da precisão e eficácia do modelo.

🚀 Implantação

O modelo treinado e validado é utilizado para fazer previsões ou classificações em dados não vistos na prática.

📖 Referências

  • FACELI, Katti; LORENA, Ana Carolina; GAMA, João; CARVALHO, André C. P. L. F. de. Inteligência Artificial: Uma Abordagem de Aprendizado de Máquina. São Paulo: LTC, 2011.

  • CARVALHO, André C. P. L. F. de. Notas de aula do curso Mineração de Dados em Biologia Molecular.

  • FRIEDMAN, Jerome; HASTIE, Trevor; TIBSHIRANI, Robert. The elements of statistical learning. New York: Springer series in statistics, 2001.