Aula 1 - Fundamentos do Aprendizado Estatístico Supervisionado

Autor

Magno Severino

1 Objetivos de aprendizagem

Ao final desta aula você será capaz de

  • Formalizar a estrutura matemática dos problemas de aprendizado supervisionado.

  • Caracterizar as abordagens inferencial e preditiva em modelagem estatística.

  • Decompor o erro de predição e analisar o trade-off entre viés e variância.

  • Visualizar o trade-off entre viés e variância em um exemplo prático.

2 Motivação

Exemplo 1: preço de alguel de imóveis na cidade de São Paulo

Este conjunto de dados contém aproximadamente 13.000 imóveis listados para venda e aluguel na cidade de São Paulo, com informações detalhadas sobre as propriedades, como tamanho (\(\text{m}^2\)), número de quartos e banheiros, presença de vaga de estacionamento, elevador, piscina e se o imóvel é mobiliado. Os dados foram coletados de sites de classificados imobiliários em abril de 2019. O objetivo da análise é construir um modelo de regressão para prever o valor do aluguel de um imóvel com base em suas características estruturais e localização, auxiliando na compreensão dos fatores que influenciam os preços no mercado imobiliário paulistano.

Figura 1. Localização dos Imóveis na Cidade de São Paulo.

Exemplo 2: reconhecimento de dígitos escritos à mão

A base de dados MNIST (Modified National Institute of Standards and Technology) consiste em 60.000 imagens de treinamento e 10.000 imagens de teste de dígitos escritos à mão (0 a 9), cada uma com resolução de 28x28 pixels em escala de cinza. O objetivo da predição é classificar corretamente cada imagem de acordo com o dígito representado, sendo um problema clássico de aprendizado supervisionado de classificação multiclasse.

Figura 2. Amostra de imagens de dígitos manuscritos.

3 Terminologia

Os exemplos anteriores tem algo em comum:

  • um conjunto de variáveis que podem ser chamadas de entradas, inputs ou features;

  • essas variáveis exercem alguma influência na saída (ou output, target, label);

  • o objetivo é usar as varíaveis de entrada para predizer o valor da variável de saída.

Os nomes acima são versões modernas do que é empregado na literatura estatística:

  • Entrada: variáveis independentes, variáveis explicativas, variáveis preditoras, atributos ou covariáveis.

  • Saída: variável dependente ou variável resposta.

4 Estrutura dos dados

Para dados supervisionados, os dados apresentam a estrutura matricial abaixo.

\[\begin{array}{cccc|c} \hline X_1 & X_2 & \dots & X_p & Y \\ \hline X_{11} & X_{12} & \dots & X_{1p} & Y_1 \\ X_{21} & X_{22} & \dots & X_{2p} & Y_2 \\ \vdots & \vdots & \dots & \vdots & \vdots \\ X_{n1} & X_{n2} & \dots & X_{np} & Y_p \\ \hline \end{array}\]

Podemos usar a notação matricial \(\mathbf{X_i} =(X_{i1}, X_{i2}, \dots, X_{ip}) \in \mathbb R^p\).

\(Y \in \mathcal{Y}\).

Assumimos que os pares ordenados \((\mathbf{X_i}, Y_i)\) são independentes e identicamente distribuidos (IID).

O objetivo princiapl é prever o valor da variável \(Y\) usando informações do vetor de variáveis \((X_{1}, X_{2}, \dots, X_{p})\). Dependendo da natureza de \(Y\), o problema pode ser categorizado como

  • Regressão: \(Y\) é uma variável quantitativa (\(\mathcal{Y} \subset \mathbb{R}\));

  • Classificação: \(Y\) é uma variável qualitativa (\(\mathcal{Y} = \{0, 1, \dots, K-1\}\), para \(K>0.\)

4.1 Predição e Inferência

Os objetivos dos exemplos apresentados no inicio da aula podem ser divididos em duas classes:

  • Objetivo inferêncial: entender quais preditores são importantes, qual a relação entre cada pretido e a variável resposta. Além de entender qual o efeito da mudança de valor de um dos preditores na variável resposta.

  • Objetivo preditivo: obter uma função \[g: R^p \rightarrow \mathcal{Y}\] que tenha um bom poder preditivo. Isto é, ao obtermos uma boa função \(g\), dado um novo conjunto IID \((\mathbf{x}_{n+1}, y_{n+1}),\) \((\mathbf{x}_{n+2}, y_{n+2}),\) \(\dots,\) \((\mathbf{x}_{n+m}, y_{n+m})\), teremos que

\[ g(\mathbf{x}_{n+1}) \approx y_{n+1}, \qquad g(\mathbf{x}_{n+2}) \approx y_{n+2}, \qquad \dots \qquad g(\mathbf{x}_{n+m}) \approx y_{n+m}.\]

5 As duas culturas (Breiman, 2001)

  • Data mining culture: domina a comunidade estatística. Aqui se assume que o modelo utilizado para \(g(X)\) é correto, por exemplo \(g(\mathbf{x})=\beta_0+\sum_{i=1}^{p}\beta_ix_i.\) Isso ocorre pois o principal objetivo está na interpretação dos parâmetros envolvidos no modelo; em particular há interesse em testes de hipóteses e intervalos de confiança para esses parâmetros. Sob essa abordagem, testar se as suposições do modelo (por exemplo, normalidade dos erros, linearidade, homocedasticidade etc) são válidas é de fundamental importância. Ainda que predição muitas vezes faça parte dos objetivos, o foco em geral está na inferência

  • Algorithmic modeling culture: domina a comunidade de aprendizado de máquina. o principal objetivo é a predição de novas observações. Não se assume que o modelo utilizado para os dados é correto; o modelo é utilizado apenas para criar bons algoritmos para prever bem novas observações. Muitas vezes não há nenhum modelo probabilístico explícito por trás dos algoritmos utilizados.

6 Erro de Predição Esperado

Teorema 1: Seja \(Y\) uma variável aleatória e \(X\) um vetor de variáveis aleatórias. O estimador \(\hat{g}(X)\) que minimiza o Erro Quadrático Médio, definido por \[ EQM_{\hat g}(X) = \mathbb{E}\left[(Y - \hat{g}(X))^2\right], \] é o valor esperado condicional \(\mathbb{E}[Y|X]\). Ou seja \[ \hat{g}(X) = \mathbb{E}[Y|X]. \]

Prova: Vamos demonstrar que \(\mathbb{E}[Y|X]\) é o estimador que minimiza o EQM.

Considere um estimador qualquer \(\hat{g}(X)\). Podemos reescrever o EQM da seguinte forma:

\[\begin{align} \mathbb{E}\left[(Y - \hat{g}(X))^2\right] =& \mathbb{E}\left[(Y - \mathbb{E}[Y|X] + \mathbb{E}[Y|X] - \hat{g}(X))^2\right] \\ =& \mathbb{E}\left[(Y - \mathbb{E}[Y|X])^2\right] + \mathbb{E}\left[(\mathbb{E}[Y|X] - \hat{g}(X))^2\right] \\ & \qquad + 2 \cdot \mathbb{E}\left[(Y - \mathbb{E}[Y|X])(\mathbb{E}[Y|X] - \hat{g}(X))\right]. \end{align}\]

Note que o terceiro termo da expressão acima é zero, pois \[ \mathbb{E}\left[(Y - \mathbb{E}[Y|X])(\mathbb{E}[Y|X] - \hat{g}(X))\right] = 0. \]

Isso ocorre porque \(\mathbb{E}[Y|X] - \hat{g}(X)\) é uma função de \(X\). Além disso, \(Y - \mathbb{E}[Y|X]\) tem média zero condicional a \(X\), ou seja, \(\mathbb{E}[Y - \mathbb{E}[Y|X]|X] = 0\) (a esperança do desvio em relação à média é sempre zero!). Portanto, a esperança do produto é zero.

Assim, temos que \[ \mathbb{E}\left[(Y - \hat{g}(X))^2\right] = \mathbb{E}\left[(Y - \mathbb{E}[Y|X])^2\right] + \mathbb{E}\left[(\mathbb{E}[Y|X] - \hat{g}(X))^2\right]. \]

O primeiro termo, \(\mathbb{E}\left[(Y - \mathbb{E}[Y|X])^2\right]\), é o erro irredutível, que não depende do estimador \(\hat{g}(X)\).

O segundo termo, \(\mathbb{E}\left[(\mathbb{E}[Y|X] - \hat{g}(X))^2\right]\), é sempre não negativo e só é zero quando \(\hat{g}(X) = \mathbb{E}[Y|X]\).

Portanto, para minimizar o EQM, devemos escolher \(\hat{g}(X)\) de forma que o segundo termo seja zero. Isso ocorre quando: \[ \hat{g}(X) = \mathbb{E}[Y|X]. \]

Interpretação do Teorema

O teorema nos diz que, independentemente do modelo ou método que usamos, o melhor estimador possível para \(Y\) dado \(X\) é o valor esperado condicional \(\mathbb{E}[Y|X]\).

Na prática, nunca conhecemos \(\mathbb{E}[Y|X]\) exatamente, mas tentamos aproximá-la usando modelos estatísticos ou de machine learning.

O Teorema 1 os diz que o estimador ótimo para prever \(Y\) dado \(X\) é o valor esperado condicional \(\mathbb{E}[Y|X]\), pois ele minimiza o EQM. No entanto, na prática, nunca conhecemos \(\mathbb{E}[Y|X]\) exatamente, e precisamos usar um modelo estimado \(\hat g(X)\) para aproximá-lo.

7 Data splitting

O erro observado de uma função \(\hat g\), definido por \[EQM_{\hat g}(X) = \mathbb{E}\left[(Y - \hat{g}(X))^2\right],\] é um estimador muito otimista do real risco. Se usado para fazer seleção de modelos, ele leva ao super-ajuste, um ajuste perfeito dos dados. Isto ocorre pois g foi escolhida de modo a ajustar bem \((X_1,Y_1),\dots,(X_n,Y_n)\).

Uma maneira de solucionar este problema é dividir o conjunto de dados em duas partes, treinamento e validação:

  • Treinamento (por exemplo, 70%): \((X_1, Y_1), (X_2, Y_2), \ldots, (X_s, Y_s)\),
  • Validação (por exemplo, 30%): \((X_{s+1}, Y_{s+1}), \ldots, (X_n, Y_n)\).

Usamos o conjunto de treinamento exclusivamente para estimar \(g\) (por exemplo, estimar os coeficientes da regressão linear) e o conjunto de validação apenas para estimar \(\widehat{EQM}_{g}(X)\) via \[ \hat{EQM}_{g}(X) = \frac{1}{n-s} \sum_{i=s+1}^n (Y_i - g(\mathbf{X}_i))^2, \] isto é, avaliamos o erro quadrático médio no conjunto de validação. Uma boa prática para escolher quais amostras serão utilizadas para compor o conjunto de treinamento e quais serão utilizadas para compor o conjunto de validação é fazê-lo aleatoriamente.

Como o conjunto de validação não foi usado para estimar os parâmetros de g, o estimador da Equação 1.2 é consistente pela lei dos grandes números.

Observação

A Lei dos Grandes Números (LGN) afirma que, para uma sequência de variáveis aleatórias independentes e identicamente distribuídas (i.i.d.) \(Z_1, Z_2, \ldots, Z_m\), com média \(\mu = \mathbb{E}[Z_i]\), a média amostral converge em probabilidade para \(\mu\) à medida que \(m \to \infty\): \[ \frac{1}{m} \sum_{i=1}^{m} Z_i \xrightarrow{P} \mu. \]

No nosso caso, as variáveis aleatórias são os erros quadráticos individuais no conjunto de validação: \[ Z_i = (Y_i - g(X_i))^2, \quad \text{para } i = s+1, s+2, \ldots, n. \]

Essas variáveis são i.i.d., pois:

  • As observações \((X_i, Y_i)\) são assumidas como independentes e identicamente distribuídas.
  • O modelo \(g\) foi estimado no conjunto de treinamento e é fixo para o conjunto de validação.

A média amostral desses erros quadráticos é: \[ \widehat{EQM}_g(X) = \frac{1}{n-s} \sum_{i=s+1}^{n} (Y_i - g(X_i))^2. \]

Pela LGN, se \(n-s \to \infty\), então: \[ \widehat{EQM}_g(X) \xrightarrow{P} \mathbb{E}\left[(Y - g(X))^2\right] = EQM_g(X). \]

Portanto, o estimador \(\widehat{EQM}_g(X)\) é consistente para o erro quadrático médio verdadeiro \(EQM_g(X)\), pois converge em probabilidade para \(EQM_g(X)\) à medida que o tamanho do conjunto de validação $ n-s $ cresce.

Exemplo (anos de estudo e salário)

Prever o salário de uma pessoa com base nos anos de estudo. Para isso, usamos um modelo de regressão linear, que relaciona os anos de estudo (variável explicativa \(X\)) ao salário (variável resposta \(Y\)).

Assuma que observamos uma base desses dados. O gráfico mostra os dados reais (pontos pretos) e dois modelos lineares (linhas sólidas vermelhas) estimados a partir de duas amostras diferentes da base de dados. Queremos prever o salário quando o total de anos de estudo é 11 anos (linha pontilhada azul no gráfico).

Figura 3. Modelo linear estimado a partir de duas amostras de treinamento diferentes.

É possível adicionar um pouco de flexibilidade no modelo, se considerarmos um polinômio de grau 10. Note na figura abaixo, que por ser mais flexivel, as duas estimativas quando gastos em anos de estudo é 11 mudam bastante, devido à variação na amostra. Note que o modelo depende dos dados!

Figura 4. Modelo polinomial de grau 10 estimado a partir de duas pequenas bases de treinamento diferentes.

8 Decomposição do erro em viés e variância

Importante

Completar! 1.5.2

\(\mathrm{Viés} (\hat g) = \mathbb{E}(\hat g(X)) - E[Y|X]\)

Queremos prever o salário quando o total de anos de estudo é 11 anos (linha pontilhada azul no gráfico). Vamos analisar como os modelos se comportam nesse ponto e decompor o erro de predição em viés e variância.

Suponha que o modelo verdadeiro que relaciona anos de estudo (\(X\)) e salário (\(Y\)) seja: \[ Y = g(X) + \varepsilon, \] onde:

  • \(g(X)\) é a função verdadeira (desconhecida) que relaciona \(X\) e \(Y\).
  • \(\varepsilon\) é o erro aleatório, com média zero e variância \(\sigma^2\).

Foram ajustados três modelos a partir de duas amostras diferentes da base de dados:

  • Modelo média: apenas a média amostral,
  • Modelo de spline flexível com 2 graus de liberdade,
  • Modelo de spline flexível com 10 graus de liberdade.

O erro de predição para \(X = 11\) é dado por: \[ \text{Erro} = Y - \hat{g}(11), \] onde \(Y\) é o valor verdadeiro do salário para \(X = 11\).

O erro quadrático médio (EQM) pode ser decomposto em três componentes:

\[ EQM = \underbrace{\left( f(11) - \mathbb{E}[\hat{g}(11)] \right)^2}_{\text{Viés ao Quadrado}} + \underbrace{\text{Var}(\hat{g}(11))}_{\text{Variância}} + \underbrace{\sigma^2}_{\text{Erro Irredutível}}. \]

Dedução

O Erro Quadrático Médio (EQM) é definido como:

\[\begin{align} EQM &= \mathbb{E}\left[(Y - \hat{g}(X))^2\right] \\ &= \mathbb{E}\left[(Y - g(X) + g(X) - \hat{g}(X))^2\right] \\ &= \mathbb{E}\left[(Y - g(X))^2\right] + \mathbb{E}\left[(g(X) - \hat{g}(X))^2\right] + 2 \cdot \mathbb{E}\left[(Y - g(X))(g(X) - \hat{g}(X))\right] \end{align}\]

Análise dos termos:

  1. Primeiro Termo: \(\mathbb{E}\left[(Y - g(X))^2\right]\)
    • Representa o erro irredutível, que é a variabilidade intrínseca de \(Y\) em torno de \(g(X)\).
    • Não depende do modelo \(\hat{g}(X)\) e é dado por: \[ \mathbb{E}\left[(Y - g(X))^2\right] = \sigma^2. \]
  2. Segundo Termo: \(\mathbb{E}\left[(g(X) - \hat{g}(X))^2\right]\)
    • Este termo pode ser reescrito como: \[ \mathbb{E}\left[(g(X) - \mathbb{E}[\hat{g}(X)] + \mathbb{E}[\hat{g}(X)] - \hat{g}(X))^2\right]. \]
    • Expandindo o quadrado, obtemos: \[ \mathbb{E}\left[(g(X) - \mathbb{E}[\hat{g}(X)])^2\right] + \mathbb{E}\left[(\mathbb{E}[\hat{g}(X)] - \hat{g}(X))^2\right] + 2 \cdot \mathbb{E}\left[(g(X) - \mathbb{E}[\hat{g}(X)])(\mathbb{E}[\hat{g}(X)] - \hat{g}(X))\right]. \]
    • O terceiro termo é zero, pois \(\mathbb{E}[\hat{g}(X)] - \hat{g}(X)\) tem média zero.
    • O primeiro termo é o viés ao quadrado: \[ \text{Viés}^2 = \left(g(X) - \mathbb{E}[\hat{g}(X)]\right)^2. \]
    • O segundo termo é a variância: \[ \text{Variância} = \mathbb{E}\left[(\mathbb{E}[\hat{g}(X)] - \hat{g}(X))^2\right]. \]
  3. Terceiro Termo: \(2 \cdot \mathbb{E}\left[(Y - g(X))(g(X) - \hat{g}(X))\right]\)
    • Este termo é zero, pois \(Y - g(X) = \varepsilon\) tem média zero e é independente de \(g(X) - \hat{g}(X)\).

8.0.1 a) Viés ao Quadrado

O viés mede o quanto o valor esperado das predições do modelo \(\hat{g}(11)\) difere do valor verdadeiro \(f(11)\): \[ \text{Viés} = f(11) - \mathbb{E}[\hat{g}(11)]. \] No nosso exemplo:

  • Os modelos lineares tendem a ter viés alto, pois são muito simples e não conseguem capturar a complexidade da relação entre anos de estudo e salário.
  • O modelo spline tende a ter viés baixo, pois é mais flexível e consegue se ajustar melhor à função verdadeira \(f(X)\).

8.0.2 b) Variância

A variância mede a sensibilidade do modelo \(\hat{g}(11)\) a variações nos dados de treinamento: \[ \text{Variância} = \text{Var}(\hat{g}(11)). \] No nosso exemplo:

  • Os modelos lineares tendem a ter baixa variância, pois são menos sensíveis a pequenas variações nos dados de treinamento.
  • O modelo spline tende a ter alta variância (quanto maior os graus de liberdade, maior a variância), pois é muito flexível e pode se ajustar demais aos dados de treinamento (overfitting).

8.0.3 c) Erro Irredutível

O erro irredutível \(\sigma^2\) é a variabilidade intrínseca de \(Y\) em torno de \(f(X)\). Ele não pode ser reduzido, independentemente do modelo usado.

9 Trade-off entre viés e variância COMPLETAR

O trade-off entre viés e variância refere-se ao equilíbrio que precisamos encontrar entre:

  1. Viés: O erro introduzido por simplificações no modelo.
  2. Variância: O erro introduzido pela sensibilidade do modelo a pequenas flutuações nos dados de treinamento.

As figuras abaixo mostram o trade-off em diferentes cenários.

Figura 5. Modelo Média em 100 amostras diferentes.

Figura 6. Modelo linear em 100 amostras diferentes.

Figura 7. Modelo com dez graus de liberdade em 100 amostras diferentes.

Observação:

  • Modelos Simples (e.g., regressão linear):
    • Viés Alto: O modelo não consegue capturar a complexidade dos dados, resultando em underfitting.
    • Variância Baixa: O modelo é estável e pouco sensível a variações nos dados de treinamento.
  • Modelos Complexos (e.g., splines com muitos graus de liberdade):
    • Viés Baixo: O modelo consegue capturar padrões complexos nos dados.
    • Variância Alta: O modelo é muito sensível a variações nos dados de treinamento, resultando em overfitting.

Figura 8. Comparativo de modelos com diferentes graus de liberdade. O ponto azul é a média das 100 estimativas feitas quando \(X = 11\).

Trade-off entre viés e variância.

Figura 9. Trade-off entre viés e variância.

No gráfico acima, temos:

  • Viés ao Quadrado: Diminui à medida que a complexidade do modelo aumenta, pois modelos mais complexos conseguem capturar melhor os padrões dos dados.

  • Variância: Aumenta à medida que a complexidade do modelo aumenta, pois modelos mais complexos são mais sensíveis a variações nos dados de treinamento.

  • 0Erro Quadrático Médio (EQM): É a soma do viés ao quadrado, da variância e do erro irredutível. O ponto ótimo de complexidade do modelo é aquele que minimiza o EQM.

10 Resumo

  • Introdução aos fundamentos do aprendizado estatístico supervisionado.
  • Definição formal do problema de aprendizado supervisionado.
  • Estrutura dos dados supervisionados e terminologia essencial.
  • Diferenças entre abordagens inferenciais e preditivas em modelagem estatística.
  • Análise da decomposição do erro de predição e do trade-off entre viés e variância.

11 Referências

  • Izbicki, R., & dos Santos, T. M. (2020). Aprendizado de máquina: uma abordagem estatística.

  • Hastie, T., Tibshirani, R., & Friedman, J. (2017). The elements of statistical learning: data mining, inference, and prediction.

  • Breiman, L. (2001). Statistical modeling: The two cultures. Statistical Science, 16(3), 199–231.