Regressão Logística

A regressão logística é uma técnica estatística e de aprendizado de máquina usada para prever resultados binários — ou seja, situações onde só há duas possibilidades: sim ou não, sucesso ou fracasso, doente ou saudável.

Ao contrário da regressão linear, que prevê números contínuos (como temperatura, altura ou renda), a regressão logística prevê probabilidades de um evento acontecer.


Por que não usar regressão linear para eventos binários?

Imagine que queremos prever se uma pessoa vai ou não comprar um produto, com base na sua renda mensal.

Se usarmos regressão linear, podemos obter previsões como -0,3 ou 1,2. Mas uma probabilidade não pode ser menor que 0 nem maior que 1. Além disso, não faz sentido dizer que alguém “comprou -0,3 vezes”.

Aí entra a regressão logística, que usa uma função especial — a função sigmoide — para transformar qualquer número real em algo entre 0 e 1.


A Função Sigmoide

A função sigmoide (também chamada logística) tem a seguinte forma matemática:

\[ \sigma(z) = \frac{1}{1 + e^{-z}} \]

📌 Componentes da fórmula

\(\sigma(z)\): Resultado da função sigmoide — a probabilidade estimada (entre 0 e 1)

\(z\): Entrada da função — normalmente, uma combinação linear dos dados (\(z = \beta_0 + \beta_1 x_1 + \dots + \beta_p x_p\))

\(e\): A constante matemática de Euler (aproximadamente 2,718)

\(e^{-z}\): O inverso exponencial de \(z\) — faz a curva da sigmoide ter a forma de “S”

A função sigmoide pega qualquer número real (positivo, negativo ou zero) e o transforma em um número entre 0 e 1, como mostrado abaixo:

  • Se \(z\) for muito negativo (ex: -10), então \(e^{-z}\) será muito grande, e \(\sigma(z)\) será próximo de 0.
  • Se \(z\) for muito positivo (ex: 10), então \(e^{-z}\) será muito pequeno, e \(\sigma(z)\) será próximo de 1.
  • Se \(z = 0\), então \(e^{-z} = 0\), e temos \(1/(1+1) = 0,5\). Ou seja, quando o valor da combinação linear é 0, o modelo está indeciso: probabilidade de 50%.

Essa curva em “S” tem uma forma suave e contínua, facilitando a otimização dos parâmetros do modelo. Dessa forma, ela nos permite estimar a probabilidade de um evento ocorrer com base em uma ou mais variáveis.


Exemplo Ilustrativo

Vamos supor que estamos analisando se uma pessoa compra um produto com base na sua renda mensal:

Renda (mil R$) Comprou? (1 = sim, 0 = não)
2 0
3 0
5 1
6 1

O modelo de regressão logística pode gerar uma fórmula assim:

\[ P(y=1) = \frac{1}{1 + e^{-(-4 + 1{,}5x)}} \]

Vamos calcular algumas probabilidades:

  • Para renda = 2: \[ P = \frac{1}{1 + e^{-(-4 + 1{,}5*2)}} \approx 0{,}18 \] 👉 Probabilidade baixa de compra (18%)

  • Para renda = 5: \[ P = \frac{1}{1 + e^{-(-4 + 1{,}5*5)}} \approx 0{,}88 \] 👉 Probabilidade alta de compra (88%)


O que são os coeficientes?

Na regressão logística, cada variável tem um coeficiente (como \(beta_1\)). Esses coeficientes indicam quanto e como cada variável influencia a chance do evento acontecer.

A equação é:

\[ \text{log-odds} = \ln\left(\frac{P}{1-P}\right) = \beta_0 + \beta_1 x \]

Isso quer dizer que:

  • \(\beta_1 > 0\): quanto maior \(x\), maior a chance do evento ✅

  • \(\beta_1 < 0\): quanto maior \(x\), menor a chance do evento ❌

🔎 Dica: Para facilitar a interpretação dos coeficientes da regressão logística, podemos convertê-los em odds (chances) multiplicativos utilizando a fórmula \(e^{\beta}\). Isso nos mostra quanto os odds aumentam (ou diminuem) para cada unidade adicional na variável explicativa, mantendo as demais constantes.

Exemplo prático

Suponha que estamos modelando a chance de hospitalização (\(hospitalizacao = 1\)) com base na idade do paciente (\(idade\)), e o modelo ajustado gerou o seguinte coeficiente:

\[ \beta_{\text{idade}} = 0{,}7 \]

Para interpretar esse valor em termos de odds, aplicamos:

\[ e^{0{,}7} \approx 2{,}01 \]

Isso significa que a cada ano adicional de idade, os odds de hospitalização dobram (aumentam aproximadamente 2 vezes), assumindo que todas as outras variáveis do modelo permaneçam constantes.


Onde usamos regressão logística?

Essa técnica é super útil em várias áreas!

  • Medicina: prever se um paciente tem uma doença (sim/não)
  • Marketing: prever se um cliente vai clicar num anúncio
  • Ciência política: prever se alguém vai votar em um candidato
  • Segurança: prever risco de fraude ou inadimplência

Vantagens

  • Simples de implementar e interpretar
  • Resultados probabilísticos
  • Boa performance com variáveis lineares

Limitações

  • Não captura bem relações não lineares (sem transformar variáveis)
  • Sensível a outliers e multicolinearidade
  • Requer amostra razoável para boas estimativas

Relembrando os conceitos principais

Conceito O que significa?
Variável dependente Aquilo que queremos prever (0 ou 1)
Variável independente Os fatores que influenciam a resposta
Função sigmoide Converte a saída em uma probabilidade (0 a 1)
Coeficientes (\(\beta\)) Indicam como cada fator afeta o resultado
Odds e log-odds Formas de expressar a chance do evento ocorrer

Conclusão

A regressão logística é uma ferramenta poderosa para classificação binária, combinando simplicidade matemática com grande aplicabilidade prática. Por transformar saídas em probabilidades e permitir uma interpretação clara dos efeitos de cada variável, ela é uma das técnicas estatísticas mais utilizadas em pesquisa e análise de dados.

Regressão Logística com Regularização (Lasso e Ridge)

Motivação: Por que precisamos de regularização?

Antes de entender o que são Lasso e Ridge, precisamos entender um problema comum em modelos de regressão: o overfitting.

O que é overfitting?

É quando o modelo aprende demais os detalhes do conjunto de dados de treino, incluindo ruídos e exceções, ao ponto de não conseguir generalizar bem para novos dados.

Imagine um aluno que decora todas as perguntas da prova do ano passado, mas não entende o conteúdo. Ele tira 10 na prova antiga, mas vai mal em uma prova nova. Esse é o modelo que sofre de overfitting.

Como combater isso?

Uma forma é aplicar regularização, que significa adicionar uma penalidade aos coeficientes do modelo para evitar que eles fiquem grandes demais.

Regressão Logística com Regularização

A regressão logística com regularização é uma extensão da regressão logística tradicional que busca evitar overfitting (sobreajuste) e selecionar variáveis relevantes automaticamente, por meio da adição de um termo penalizador à função de custo.

As duas formas mais comuns de regularização são:

  • Lasso (L1): favorece modelos mais simples, com menos variáveis diferentes de zero
  • Ridge (L2): reduz o impacto de variáveis muito influentes, sem eliminá-las por completo

Relembrando: A função de custo da regressão logística

Na regressão logística tradicional, buscamos minimizar a função de perda logarítmica (log-loss):

\[ \mathcal{L}(\beta) = - \sum_{i=1}^n \left[ y_i \log(\hat{p}_i) + (1 - y_i) \log(1 - \hat{p}_i) \right] \]

Onde:

  • \(y_i\) é o valor real (0 ou 1)
  • \(\hat{p}_i\) é a probabilidade prevista de que \(y_i = 1\)

Adicionando regularização

Regressão Logística com Lasso (L1)

Inclui um termo de penalização baseado na soma dos valores absolutos dos coeficientes:

\[ \mathcal{L}_{lasso}(\beta) = \mathcal{L}(\beta) + \lambda \sum_{j=1}^{p} |\beta_j| \]

  • \(\lambda\) controla a intensidade da penalização
  • Pode zerar coeficientes, promovendo seleção de variáveis

Regressão Logística com Ridge (L2)

Inclui um termo baseado na soma dos quadrados dos coeficientes:

\[ \mathcal{L}_{ridge}(\beta) = \mathcal{L}(\beta) + \lambda \sum_{j=1}^{p} \beta_j^2 \]

  • \(\lambda\) também controla a intensidade da penalização
  • Reduz os coeficientes, mas não os zera

Elastic Net (L1 + L2)

Combina os dois tipos de penalização:

\[ \mathcal{L}_{elastic}(\beta) = \mathcal{L}(\beta) + \lambda_1 \sum_{j=1}^{p} |\beta_j| + \lambda_2 \sum_{j=1}^{p} \beta_j^2 \]


Exemplo Ilustrativo

Vamos imaginar um conjunto de dados com 10 variáveis, mas apenas 3 delas têm real influência sobre o resultado. A regressão logística sem regularização pode ajustar um modelo com todos os 10 coeficientes diferentes de zero — inclusive capturando ruído ❗

Já a regressão com Lasso (L1) pode eliminar os coeficientes menos importantes, deixando um modelo mais enxuto:

Coeficiente Sem Regularização Lasso (L1)
\(\beta_1\) 2.1 1.8
\(\beta_2\) 0.5 0
\(\beta_3\) -1.2 -1.0

Quando usar cada tipo?

Situação Use Lasso (L1) Use Ridge (L2) ️
Muitas variáveis irrelevantes
Todas as variáveis são úteis
Quer eliminar variáveis
Dados com multicolinearidade ⚠️ (pode instabilizar) ✅ (melhora estabilidade)

Vantagens da Regularização

  • Evita overfitting, especialmente com muitos preditores
  • Pode melhorar generalização do modelo
  • Lasso auxilia na seleção automática de variáveis

Atenção

  • O valor de \(\lambda\) (hiperparâmetro) deve ser escolhido com cuidado — normalmente por validação cruzada
  • O Lasso pode ser instável quando há variáveis altamente correlacionadas entre si

Aplicações comuns

  • Genômica: selecionar genes relevantes para diagnóstico
  • Logística: prever inadimplência com muitos indicadores
  • Finanças: modelagem com muitos indicadores econômicos

Conclusão

A regressão logística com Lasso e Ridge é uma poderosa ferramenta para construir modelos preditivos mais robustos, interpretáveis e generalizáveis. Incorporar regularização permite lidar melhor com datasets de alta dimensionalidade e evita que o modelo “aprenda demais” o ruído dos dados.

📌 Escolher entre Lasso, Ridge ou Elastic Net depende da natureza dos dados e dos objetivos da análise.

Introdução ao Random Forest (Floresta Aleatória)

O Random Forest (ou Floresta Aleatória) é um algoritmo de aprendizado de máquina baseado em múltiplas árvores de decisão. Ele é utilizado para resolver problemas de classificação e regressão e pertence à categoria dos métodos de ensemble learning, ou seja, modelos que combinam previsões de múltiplos estimadores para gerar uma predição final mais robusta.


Por que usar o Random Forest?

Embora árvores de decisão individuais sejam fáceis de interpretar e rápidas de construir, elas têm uma grande desvantagem: tendem a se ajustar demais aos dados de treinamento, ou seja, sofrem de overfitting.

O Random Forest resolve esse problema combinando várias árvores de decisão, cada uma construída sobre diferentes amostras dos dados, resultando em um modelo mais generalizável, estável e preciso.


Como o Random Forest funciona?

  1. Geração de múltiplas amostras: O algoritmo cria diversas amostras do conjunto de dados original usando a técnica de bootstrap (amostragem com reposição).

  2. Construção de árvores de decisão: Para cada amostra, é construída uma árvore de decisão, mas com um detalhe: em cada divisão (ou nó), o algoritmo considera apenas um subconjunto aleatório das variáveis.

    • Isso significa que, se o conjunto de dados possui 20 variáveis, talvez apenas 4 ou 5 sejam consideradas em cada divisão de uma árvore.
    • Esse processo adiciona variabilidade entre as árvores, o que melhora a performance do ensemble como um todo.
  3. Critério de divisão: A escolha da variável a ser usada em cada nó é feita com base em uma medida de pureza (como o índice de Gini ou entropia), aplicada apenas sobre o subconjunto aleatório selecionado.

  4. Agregação de resultados:

    • Para classificação, cada árvore vota em uma classe, e a classe com mais votos é a escolhida.
    • Para regressão, calcula-se a média das predições das árvores.

Por que o Random Forest é tão eficaz?

  • A diversidade entre as árvores faz com que os erros individuais se anulem.
  • Ao limitar as variáveis consideradas em cada divisão, o algoritmo evita que uma variável dominante controle todas as árvores.
  • O uso do bootstrap aumenta a robustez contra variações no conjunto de dados.

Principais parâmetros (conceitualmente)

Parâmetro O que faz
Número de árvores Mais árvores reduzem a variância, mas aumentam o tempo de processamento.
Número de variáveis por divisão Controla a diversidade entre as árvores.
Profundidade máxima da árvore Limita o tamanho de cada árvore individual.

Vantagens e desvantagens do Random Forest

Vantagens:

  • Alta acurácia em tarefas complexas
  • Robusto contra overfitting
  • Funciona bem com dados faltantes
  • Estima automaticamente a importância das variáveis
  • Lida bem com grandes volumes de dados e muitas variáveis preditoras

Desvantagens:

  • Menor interpretabilidade em relação a uma árvore única
  • Mais lento para predição em grandes conjuntos de dados
  • Pode se tornar pesado computacionalmente com muitas árvores e alta dimensionalidade

Importância das variáveis

Uma das funcionalidades mais valiosas do Random Forest é a sua capacidade de avaliar a importância de cada variável preditora. Isso pode ser feito por duas principais métricas:

1. Redução da impureza total (Gini ou entropia)

  • Cada vez que uma variável é usada para dividir um nó, o algoritmo calcula quanto a impureza foi reduzida.
  • A soma de todas as reduções ao longo de todas as árvores define a importância da variável.

2. Permutação de variáveis (Permutation Importance)

  • O valor da variável é aleatoriamente embaralhado nas observações de teste.
  • A queda no desempenho do modelo (ex: aumento do erro) indica o quão importante essa variável é para o modelo original.

Ambas as abordagens são úteis e complementares, permitindo que pesquisadores e analistas identifiquem quais variáveis realmente contribuem para a previsão.


Exemplo interpretativo

Imagine um modelo Random Forest para prever hospitalização, e que a variável idade aparece frequentemente como divisora nos primeiros níveis das árvores. Isso indica que:

  • idade tem alta importância para o modelo.
  • Sua inclusão nas divisões iniciais contribui significativamente para reduzir a incerteza das predições.

Por outro lado, se uma variável como estado_civil raramente aparece, sua contribuição preditiva é provavelmente baixa.


Conclusão

O Random Forest é uma técnica poderosa para modelagem preditiva, combinando simplicidade conceitual com desempenho elevado. Por meio da agregação de múltiplas árvores, ele consegue ser ao mesmo tempo flexível e robusto, oferecendo ótimos resultados em uma ampla variedade de contextos — da biomedicina à economia, passando por marketing, ciências sociais e muito mais.

Apesar de não ser o modelo mais interpretável, seus resultados confiáveis, a capacidade de lidar com dados complexos e a análise de importância das variáveis fazem dele uma das ferramentas mais versáteis na ciência de dados.

Geographical Random Forest (GRF)

O Geographical Random Forest (GRF) é uma extensão espacialmente consciente do algoritmo Random Forest, desenvolvida para lidar com dados que apresentam heterogeneidade espacial. Ele é particularmente útil em contextos onde os relacionamentos entre variáveis variam de acordo com a localização geográfica.

Por que usar o GRF em vez do Random Forest tradicional?

O Random Forest tradicional cria um único modelo global que supõe que as relações entre as variáveis são as mesmas em todo o espaço geográfico. Isso pode ser um problema em muitas aplicações, pois:

  • Os fatores que influenciam um fenômeno podem variar de região para região;
  • Modelos globais ignoram padrões locais importantes;
  • As decisões baseadas em modelos globais podem ser inadequadas para contextos regionais.

O GRF resolve isso ajustando modelos Random Forest locais para cada ponto geográfico.


Como funciona o algoritmo GRF (passo a passo)

  1. Escolha de pontos de interesse: para cada local onde se deseja realizar uma predição (por exemplo, um pixel, uma área censitária ou coordenada XY).

  2. Definição de vizinhança espacial: em torno de cada ponto, define-se uma vizinhança com base em:

    • Distância geográfica (ex: raio de 5 km);
    • Um número fixo de vizinhos mais próximos (ex: 100 pontos mais próximos);
    • Critérios adaptativos conforme a densidade dos dados.
  3. Construção de modelo local: um Random Forest é treinado apenas com os dados dessa vizinhança.

  4. Predição local: a predição é feita com base no modelo treinado com dados locais.

  5. Repetição do processo: os passos acima são realizados para cada ponto de interesse no espaço.

O resultado final é um mapa de predições locais, bem como uma estimativa da importância das variáveis em cada região.


O que o GRF nos permite fazer?

  • Gerar predições mais realistas e espacialmente diferenciadas;
  • Identificar quais variáveis são mais importantes em cada região;
  • Detectar heterogeneidade espacial nas relações entre variáveis;
  • Apoiar decisões locais mais informadas, com base em dados e relações locais.

Diferenças entre Random Forest e Geographical Random Forest

Característica Random Forest Tradicional Geographical Random Forest
Tipo de modelo Global Local (um para cada ponto)
Considera localização? Não Sim
Importância das variáveis Única (global) Variável no espaço
Capacidade de interpretação local Limitada Alta (baseada em vizinhança local)

Vantagens do GRF

  • Adapta-se à localização: cada ponto tem um modelo que reflete sua vizinhança;
  • Revela padrões espaciais complexos;
  • Permite interpretação espacial da importância das variáveis;
  • Mantém a robustez do Random Forest original;
  • Melhora a acurácia preditiva em contextos geográficos variados.

Conclusão

O Geographical Random Forest é uma evolução importante no uso de modelos de aprendizado de máquina para dados espaciais. Ele une o poder do Random Forest com a capacidade de levar em conta a localização geográfica dos dados, permitindo modelos mais precisos, flexíveis e interpretáveis.