Introduction to Statistical Learning with Applications in R

Notas de apoio ao estudo

Capitulo 2.1 - O que e a Aprendizagem Estatistica

Iniciativa: DataSigma
Autor: Pedro Medeiros
Data: 2014-02-14

O que e a aprendizagem estatistica

O principal objetivo da aprendizagem estatistica consiste no fornecimento de uma metodologia, fundamentada na estatistica, que permita o estudo de problemas de inferencia, aprofundamento de conhecimento, previsao, decisao e construcao de modelos a partir de dados.
(http://www.kyb.mpg.de/fileadmin/user_upload/files/publications/pdfs/pdf2819.pdf)

A forma do problema e o da expressao seguinte: \[ Y=f(X) + \epsilon \]

Algumas definicoes (1)

  • \( X_{i} \) - variaveis dependentes;
  • \( Y \) - variavel dependente;
  • \( f(X) \) - funcao fixa, mas desconhecida, que permite determinar \( Y \), com base em \( X_{i} \), aparte de uma parte de erro irredutivel;
  • \( \hat{f}(X) \) - estimativa de \( f(X) \), atraves do modelo utilizado;
  • \( \epsilon \) - erro;
  • erro redutivel - erro passivel de ser reduzido, com recurso a modelos mais eficazes;
  • erro irredutivel - parcela do erro que nao pode ser eliminada atraves da melhoria do modelo utilizado;

Algumas definicoes (2)

  • Previsao - quando com um conjunto de variaveis independentes, e com um modelo, se procura estimar, com a maxima previsao, o valor da variavel dependente;
  • Inferencia - quando e o conhecimento da forma como as variaveis independentes influenciam a variavel dependente e mais importante que a previsao;
  • Metodos parametricos - quando o modelo desenvolvido parte de um pressuposto acerca da forma de \( f(X) \) (p.ex. assumir que um determinado fenomeno e representado por uma regressao linear);
  • Metodos nao parametricos - quando nao se fazem pressupostos acerca da forma da funcao \( f(X) \);

Algumas definicoes (3)

  • Aprendizagem supervisionada - a aprendizagem e feita a partir de dados que incluem as variaveis independentes e as variaveis dependentes;
  • Aprendizagem nao supervisionada - quando os dados nao incluem a variavel independente (de resposta);
  • Problemas de regressao - problemas com uma variavel de resposta quantitativa;
  • Problemas de classificacao - problemas com uma resposta qualitativa.

Previsao e Inferencia

  • Na previsao o fator mais importante corresponde a precisao do modelo, mesmo que este nao seja facilmente interpretavel;
  • Na inferencia o fator mais importante e a compreensao do efeito das variaveis independentes na resposta. Modelos menos complexos sao, portanto, preferiveis, mesmo que resultem em estimativas menos precisas;

Os metodos de estimativa de \( f(X) \) variarao em funcao do objetivo.

Modelos parametricos e nao parametricos

  • Modelos parametricos - pressupoem que escolhamos uma forma para \( f(X) \), que normalmente nao correspondem, a partida, a mais adequada;
    • A utilizacao de modelos “mais flexiveis” pode melhorar a precisao, mas a custa de interpretabilidade dos resultados;
  • Modelos nao parametricos - Nao requerem pressupostos sobre a forma da funcao;
    • Tem potencial para permitir maior precisao;
    • Necessitam de um numero maior de dados;
    • Tem tendencia para overfitting;