Money Laundering Web Detector

Felipe Jiménez
julio 18, 2015

Essentially, all models are wrong, but some are useful George E. P. Box .

Agenda

La idea y el porqué del proyecto.
La metodología y el como.
El resultado y posibles usos.

EL PORQUÉ?

Data,data,data

-Las organizaciones líderes e innovadoras en el mundo son data driven.

-El presente y futuro de una organización data-driven es el Big Data y la información almacenada en internet.

-Entre el 80%-90% de la data potencialmente importante se encuentra en forma no estructurada.

-Para hacer uso adecuado de la información no estructurada e interpretar la data de acuerdo a su contexto,se debe utilizar el Procesamiento de Lenguaje Natural.

La idea

Web Crawling

Dado el nombre de una o varias entidades, crear un motor que busque las coincidencias de esa(s) entidad(es) en noticias y documentos en internet(Hits).

Text Analytics

Dichos documentos son comparados y puestos en contexto con textos LAFT ya clasificados para cuantificar su similaridad.

Statistical Learning

Luego por medio de modelos predictivos se asigne una probabilidad de ser un texto LAFT a los documentos con los que la entidad tuvo coincidencia(Matchs).

EL COMO?

El proceso

Diccionario LAFT

Web Corpus

plot of chunk webcorpus

Se recopilaron un total de 14944 documentos (9412 de temas LAFT y 5870 de otros temas ) desde los meses 4 - 6 del año 2015(luego de aplicar los filtros de limpieza).

Volver

Limpieza de data

Transformación de data


Los tokens(términos) que funcionarán como variables para el modelado pueden ser palabras únicas hasta frases de 2 o más palabras.

Se genera un Document-Term Matrix, que es una representación matricial en donde los documentos son filas y los tokens las columnas.

Generar métrica para ponderar los tokens en cada documento.La métrica utilizada es el Tf-Idf (Term frecuency- Inverse document frecuency).
Construcción de n-Grams

Document-Term Matrix

Métrica de ponderación

Volver

Métricas de evaluación de modelos

Volver

Curva ROC
Razón de Verdaderos positivos sobre razón de falsos positivos
Recall(Sensibilidad)
Fracción de textos realmente relevantes que son calificados como relevantes.
Precisión(valor predicho positivo)
Fracción de elementos calificados como relevantes que son realmente relevantes.

Posibles usos

-Generación de alertas: Correr procesos automatizados para generar alertas de la cartera, gestores u ordenantes de operaciones con el grupo.

-Consultas especiales de individuos: Investigaciones especiales realizadas en algunas ocasiones a individuos.

-Monitoreo automatizado de noticias: Monitorear de manera automatizada las noticias por país, midiendo la frecuencia, tendencia y tipos de riesgos por país, además de generar las alertas por cada país para que sean analizadas por el departamento de cumplimiento.