A regressão logística é uma técnica estatística e de aprendizado de máquina usada para prever resultados binários — ou seja, situações onde só há duas possibilidades: sim ou não, sucesso ou fracasso, doente ou saudável.
Ao contrário da regressão linear, que prevê números contínuos (como temperatura, altura ou renda), a regressão logística prevê probabilidades de um evento acontecer.
Imagine que queremos prever se uma pessoa vai ou não comprar um produto, com base na sua renda mensal.
Se usarmos regressão linear, podemos obter previsões como -0,3 ou 1,2. Mas uma probabilidade não pode ser menor que 0 nem maior que 1. Além disso, não faz sentido dizer que alguém “comprou -0,3 vezes”.
Aí entra a regressão logística, que usa uma função especial — a função sigmoide — para transformar qualquer número real em algo entre 0 e 1.
A função sigmoide (também chamada logística) tem a seguinte forma matemática:
\[ \sigma(z) = \frac{1}{1 + e^{-z}} \]
📌 Componentes da fórmula
\(\sigma(z)\): Resultado da função sigmoide — a probabilidade estimada (entre 0 e 1)
\(z\): Entrada da função — normalmente, uma combinação linear dos dados (\(z = \beta_0 + \beta_1 x_1 + \dots + \beta_p x_p\))
\(e\): A constante matemática de Euler (aproximadamente 2,718)
\(e^{-z}\): O inverso exponencial de \(z\) — faz a curva da sigmoide ter a forma de “S”
A função sigmoide pega qualquer número real (positivo, negativo ou zero) e o transforma em um número entre 0 e 1, como mostrado abaixo:
Essa curva em “S” tem uma forma suave e contínua, facilitando a otimização dos parâmetros do modelo. Dessa forma, ela nos permite estimar a probabilidade de um evento ocorrer com base em uma ou mais variáveis.
Vamos supor que estamos analisando se uma pessoa compra um produto com base na sua renda mensal:
| Renda (mil R$) | Comprou? (1 = sim, 0 = não) |
|---|---|
| 2 | 0 |
| 3 | 0 |
| 5 | 1 |
| 6 | 1 |
O modelo de regressão logística pode gerar uma fórmula assim:
\[ P(y=1) = \frac{1}{1 + e^{-(-4 + 1{,}5x)}} \]
Vamos calcular algumas probabilidades:
Para renda = 2: \[ P = \frac{1}{1 + e^{-(-4 + 1{,}5*2)}} \approx 0{,}18 \] 👉 Probabilidade baixa de compra (18%)
Para renda = 5: \[ P = \frac{1}{1 + e^{-(-4 + 1{,}5*5)}} \approx 0{,}88 \] 👉 Probabilidade alta de compra (88%)
Na regressão logística, cada variável tem um coeficiente (como \(beta_1\)). Esses coeficientes indicam quanto e como cada variável influencia a chance do evento acontecer.
A equação é:
\[ \text{log-odds} = \ln\left(\frac{P}{1-P}\right) = \beta_0 + \beta_1 x \]
Isso quer dizer que:
\(\beta_1 > 0\): quanto maior \(x\), maior a chance do evento ✅
\(\beta_1 < 0\): quanto maior \(x\), menor a chance do evento ❌
🔎 Dica: Para facilitar a interpretação dos coeficientes da regressão logística, podemos convertê-los em odds (chances) multiplicativos utilizando a fórmula \(e^{\beta}\). Isso nos mostra quanto os odds aumentam (ou diminuem) para cada unidade adicional na variável explicativa, mantendo as demais constantes.
Suponha que estamos modelando a chance de hospitalização (\(hospitalizacao = 1\)) com base na idade do paciente (\(idade\)), e o modelo ajustado gerou o seguinte coeficiente:
\[ \beta_{\text{idade}} = 0{,}7 \]
Para interpretar esse valor em termos de odds, aplicamos:
\[ e^{0{,}7} \approx 2{,}01 \]
Isso significa que a cada ano adicional de idade, os odds de hospitalização dobram (aumentam aproximadamente 2 vezes), assumindo que todas as outras variáveis do modelo permaneçam constantes.
Essa técnica é super útil em várias áreas!
| Conceito | O que significa? |
|---|---|
| Variável dependente | Aquilo que queremos prever (0 ou 1) |
| Variável independente | Os fatores que influenciam a resposta |
| Função sigmoide | Converte a saída em uma probabilidade (0 a 1) |
| Coeficientes (\(\beta\)) | Indicam como cada fator afeta o resultado |
| Odds e log-odds | Formas de expressar a chance do evento ocorrer |
A regressão logística é uma ferramenta poderosa para classificação binária, combinando simplicidade matemática com grande aplicabilidade prática. Por transformar saídas em probabilidades e permitir uma interpretação clara dos efeitos de cada variável, ela é uma das técnicas estatísticas mais utilizadas em pesquisa e análise de dados.
Antes de entender o que são Lasso e Ridge, precisamos entender um problema comum em modelos de regressão: o overfitting.
É quando o modelo aprende demais os detalhes do conjunto de dados de treino, incluindo ruídos e exceções, ao ponto de não conseguir generalizar bem para novos dados.
Imagine um aluno que decora todas as perguntas da prova do ano passado, mas não entende o conteúdo. Ele tira 10 na prova antiga, mas vai mal em uma prova nova. Esse é o modelo que sofre de overfitting.
Uma forma é aplicar regularização, que significa adicionar uma penalidade aos coeficientes do modelo para evitar que eles fiquem grandes demais.
A regressão logística com regularização é uma extensão da regressão logística tradicional que busca evitar overfitting (sobreajuste) e selecionar variáveis relevantes automaticamente, por meio da adição de um termo penalizador à função de custo.
As duas formas mais comuns de regularização são:
Na regressão logística tradicional, buscamos minimizar a função de perda logarítmica (log-loss):
\[ \mathcal{L}(\beta) = - \sum_{i=1}^n \left[ y_i \log(\hat{p}_i) + (1 - y_i) \log(1 - \hat{p}_i) \right] \]
Onde:
Inclui um termo de penalização baseado na soma dos valores absolutos dos coeficientes:
\[ \mathcal{L}_{lasso}(\beta) = \mathcal{L}(\beta) + \lambda \sum_{j=1}^{p} |\beta_j| \]
Inclui um termo baseado na soma dos quadrados dos coeficientes:
\[ \mathcal{L}_{ridge}(\beta) = \mathcal{L}(\beta) + \lambda \sum_{j=1}^{p} \beta_j^2 \]
Combina os dois tipos de penalização:
\[ \mathcal{L}_{elastic}(\beta) = \mathcal{L}(\beta) + \lambda_1 \sum_{j=1}^{p} |\beta_j| + \lambda_2 \sum_{j=1}^{p} \beta_j^2 \]
Vamos imaginar um conjunto de dados com 10 variáveis, mas apenas 3 delas têm real influência sobre o resultado. A regressão logística sem regularização pode ajustar um modelo com todos os 10 coeficientes diferentes de zero — inclusive capturando ruído ❗
Já a regressão com Lasso (L1) pode eliminar os coeficientes menos importantes, deixando um modelo mais enxuto:
| Coeficiente | Sem Regularização | Lasso (L1) |
|---|---|---|
| \(\beta_1\) | 2.1 | 1.8 |
| \(\beta_2\) | 0.5 | 0 |
| \(\beta_3\) | -1.2 | -1.0 |
| … | … | … |
| Situação | Use Lasso (L1) | Use Ridge (L2) ️ |
|---|---|---|
| Muitas variáveis irrelevantes | ✅ | ❌ |
| Todas as variáveis são úteis | ❌ | ✅ |
| Quer eliminar variáveis | ✅ | ❌ |
| Dados com multicolinearidade | ⚠️ (pode instabilizar) | ✅ (melhora estabilidade) |
A regressão logística com Lasso e Ridge é uma poderosa ferramenta para construir modelos preditivos mais robustos, interpretáveis e generalizáveis. Incorporar regularização permite lidar melhor com datasets de alta dimensionalidade e evita que o modelo “aprenda demais” o ruído dos dados.
📌 Escolher entre Lasso, Ridge ou Elastic Net depende da natureza dos dados e dos objetivos da análise.
O Random Forest (ou Floresta Aleatória) é um algoritmo de aprendizado de máquina baseado em múltiplas árvores de decisão. Ele é utilizado para resolver problemas de classificação e regressão e pertence à categoria dos métodos de ensemble learning, ou seja, modelos que combinam previsões de múltiplos estimadores para gerar uma predição final mais robusta.
Embora árvores de decisão individuais sejam fáceis de interpretar e rápidas de construir, elas têm uma grande desvantagem: tendem a se ajustar demais aos dados de treinamento, ou seja, sofrem de overfitting.
O Random Forest resolve esse problema combinando várias árvores de decisão, cada uma construída sobre diferentes amostras dos dados, resultando em um modelo mais generalizável, estável e preciso.
Geração de múltiplas amostras: O algoritmo cria diversas amostras do conjunto de dados original usando a técnica de bootstrap (amostragem com reposição).
Construção de árvores de decisão: Para cada amostra, é construída uma árvore de decisão, mas com um detalhe: em cada divisão (ou nó), o algoritmo considera apenas um subconjunto aleatório das variáveis.
Critério de divisão: A escolha da variável a ser usada em cada nó é feita com base em uma medida de pureza (como o índice de Gini ou entropia), aplicada apenas sobre o subconjunto aleatório selecionado.
Agregação de resultados:
| Parâmetro | O que faz |
|---|---|
| Número de árvores | Mais árvores reduzem a variância, mas aumentam o tempo de processamento. |
| Número de variáveis por divisão | Controla a diversidade entre as árvores. |
| Profundidade máxima da árvore | Limita o tamanho de cada árvore individual. |
Uma das funcionalidades mais valiosas do Random Forest é a sua capacidade de avaliar a importância de cada variável preditora. Isso pode ser feito por duas principais métricas:
Ambas as abordagens são úteis e complementares, permitindo que pesquisadores e analistas identifiquem quais variáveis realmente contribuem para a previsão.
Imagine um modelo Random Forest para prever hospitalização, e que a
variável idade aparece frequentemente como divisora nos
primeiros níveis das árvores. Isso indica que:
idade tem alta importância para o
modelo.Por outro lado, se uma variável como estado_civil
raramente aparece, sua contribuição preditiva é provavelmente baixa.
O Random Forest é uma técnica poderosa para modelagem preditiva, combinando simplicidade conceitual com desempenho elevado. Por meio da agregação de múltiplas árvores, ele consegue ser ao mesmo tempo flexível e robusto, oferecendo ótimos resultados em uma ampla variedade de contextos — da biomedicina à economia, passando por marketing, ciências sociais e muito mais.
Apesar de não ser o modelo mais interpretável, seus resultados confiáveis, a capacidade de lidar com dados complexos e a análise de importância das variáveis fazem dele uma das ferramentas mais versáteis na ciência de dados.
O Geographical Random Forest (GRF) é uma extensão espacialmente consciente do algoritmo Random Forest, desenvolvida para lidar com dados que apresentam heterogeneidade espacial. Ele é particularmente útil em contextos onde os relacionamentos entre variáveis variam de acordo com a localização geográfica.
O Random Forest tradicional cria um único modelo global que supõe que as relações entre as variáveis são as mesmas em todo o espaço geográfico. Isso pode ser um problema em muitas aplicações, pois:
O GRF resolve isso ajustando modelos Random Forest locais para cada ponto geográfico.
Escolha de pontos de interesse: para cada local onde se deseja realizar uma predição (por exemplo, um pixel, uma área censitária ou coordenada XY).
Definição de vizinhança espacial: em torno de cada ponto, define-se uma vizinhança com base em:
Construção de modelo local: um Random Forest é treinado apenas com os dados dessa vizinhança.
Predição local: a predição é feita com base no modelo treinado com dados locais.
Repetição do processo: os passos acima são realizados para cada ponto de interesse no espaço.
O resultado final é um mapa de predições locais, bem como uma estimativa da importância das variáveis em cada região.
| Característica | Random Forest Tradicional | Geographical Random Forest |
|---|---|---|
| Tipo de modelo | Global | Local (um para cada ponto) |
| Considera localização? | Não | Sim |
| Importância das variáveis | Única (global) | Variável no espaço |
| Capacidade de interpretação local | Limitada | Alta (baseada em vizinhança local) |
O Geographical Random Forest é uma evolução importante no uso de modelos de aprendizado de máquina para dados espaciais. Ele une o poder do Random Forest com a capacidade de levar em conta a localização geográfica dos dados, permitindo modelos mais precisos, flexíveis e interpretáveis.