Análise Estatística 2 - UFPE - 2019.1

1 Introdução

Competição Kaggle: New York City Taxi Trip Duration

O objetivo deste desafio é prever a duração dos passeios de táxi em Nova York com base em recursos como coordenadas de viagem ou data e hora da partida.

Os dados vêm na forma de 1,5 milhão de observações de treinamento e 630k de observação de teste. Cada linha contém uma viagem de táxi.

Por fim, concluir este trabalho com um modelo linear generalizado e um modelo XGBoost simples que fornece uma previsão básica. A partir daí, julgar qual o melhor modelo a partir da medida RMSE.

2 Método

2.1 Modelagem

  • Modelo Linear Generalizado Gamma: MLG para respostas positivas e assimétricas.
  • Modelo em Gradiente Boosting: Gradient Boosting é um algoritmo de machine learning que é geralmente utilizado em problemas de classificação e regressão. O principio algorítmico por trás do Gradient Boosting é a produção de previsões/classificações derivadas de modelos preditivos fracos, se combinando para formar uma espécie de comitê forte de decisão.
  • Cross Validation: A validação cruzada é uma técnica para avaliar a capacidade de generalização de um modelo a partir de um conjunto de dados. Esta técnica é amplamente empregada em problemas onde o objetivo da modelagem é a predição. Neste trabalho foi usada a validação cruzada do tipo Hold-Out.
  • RMSE Root-mean-square deviation (Raiz quadrada do erro-médio): parâmetro estatístico padrão para medir o desempenho do modelo. \[{\displaystyle {\operatorname {RMSE} ({\hat {\theta}}) = {\sqrt {\operatorname {MSE} ({\hat {\theta}})}} = {\sqrt {\operatorname {E} (({\hat {\theta}} - \theta) ^ {2})}}.}} \]

2 Método

2.2 Bases de dados e Variáveis dos Modelos

  • vendor_id - um código indicando o provedor associado ao registro de viagem;
  • pickup_datetime - data e hora em que o medidor foi ativado; (mes_up, dia_up, hora_up)
  • passenger_count - o número de passageiros no veículo (valor inserido pelo motorista);
  • pickup_longitude - a longitude em que o medidor foi engajado;
  • pickup_latitude - a latitude em que o medidor foi envolvido;
  • dropoff_longitude - a longitude em que o medidor foi desativado;
  • dropoff_latitude - a latitude em que o medidor foi desativado;
  • store_and_fwd_flag - Este indicador indica se o registro de viagem foi mantido na memória do veículo antes de ser enviado ao fornecedor porque o veículo não tinha uma conexão com o servidor;
  • distancia - distância euclidiana dos pontos de latitude e longitude;

2 Método

Variável dependente: trip_duration em seg.

A duração média em segundos de uma viagem de táxi em Nova York registrada no banco de dados foi de 959, que equivale a aprox. 16 min. A mediana da variável trip_duration foi de 662 segundos (~ 11 min.). A duração máxima foi de 3.526.282 segundos que equivale a aprox. 40 dias, alarmando um outlier e a mínima foi de 1 segundo.

3 Resultados dos Modelos Preditivos

O modelo mais adequado para prever o tempo de viagens de táxi de Nova York foi o o Gradient Boosting que apresntou menor RMSE.

Importância das variáveis do modelo Xgboost

Ver relatório completo em: