18 de Junho de 2019

Introdução

O TalkingData é a maior plataforma de big data da China, ela chega a cobrir cerca de 70% de todos os dispositivos móveis ativos do país. Ela dispõe de diversos serviços para a população. Por ser de grande porte o risco de fraude é alto, o que pode acarretar em um prejuizo financeiro considerável. Este trabalho vai se basear em um caso específico, de download de aplicativos. Funciona da seguinte maneira, um usuário pode anunciar seu aplicativo através da plataforma digital, e ele só recebe retorno financeiro da empresa de acordo com os acessos obtidos. A fraude pode ocorrer quando o usuário, em busca de ter um lucro maior, cria um meio de seu aplicativo receber um grande número de visitas, mas sem realmente instalar o aplicativo.

Objetivo

O objetivo do trabalho é a detecção de possiveis fraudes do ‘TalkingData’, com base no histórico de informações fornecindas. Portanto, o desafio inicial é a criação de um algoritmo que consiga prever a possibilidade do usuário fazer o download depois de clicar em um anúncio do aplicativo para dispositivos móveis.

Metodologia

Em busca de solucionar o problema, serão utilizadas ferramentas capazes de fazer uma estimação precisa e segura com big data. O método de estimação consiste em utilizar maior parte dos dados para aprendizado e a parte restante para validação. Onde a métrica a ser utilizada é a Área sob a Curva ROC, mais comumente chamada de AUC. As técnicas a serem utilizadas serão:

  • Regressão Logística;

  • Gradiente Boosting Machine;

  • Extreme Gradiente Boosting;

  • Validação Cruzada.

Análises Descritivas

  • Frequência relativa da variável Data

  • Frequência relativa da variável app

  • Frequência relativa da variável device

Regressão Logística

A regressão logística é similar a regressão linear mas no caso logístico a variável resposta so assume valores dicotômicos, 0 ou 1, como é o caso da is_attributed, que é a variável que auxilia na identificação da fraude.

Gradiente Boosting

O Gradiente Boosting uma técnica de maching learn utilizada para resolver problemas e regressão e classificação.

Importância das Variáveis

Extreme Gradient Boosting (XGB)

A técinica de XGB, se trata de uma versão que garante o aumento do Gradiente, aprimorando as técnicas de árvore de decisão e assim reduzindo o tempo de estimação e a memória utilizada pela máquina.

Validação Cruzada

A validação cruzada é uma técnica que faz a estimação dividindo os dados em, por exemplo, k subconjuntos de mesmo tamanho, fazendo k interações entre elas e utilizando sempre k-1 para treinamento e 1 restante para validação.

##           Truth
## Prediction    no   yes
##        no      0     0
##        yes 19887    56

Comparação entre os Modelos

Aparentemente todos os modelos são semelhantes, mas como visto o método de validação cruzada foi escolhido como sendo o melhor, por mostrar um pequeno aumento na AUC.

Obrigada!!!