Dataset: card_transdata
El dataset mencionado, disponible en la pagina web de Kaggle, incluye información de compras realizadas con tarjeta (se supone tarjetas de crédito). Cada registro contiene datos asociados al lugar de la compra, la diferencia de la compra realizada respecto a la compra promedio del tarjeta-habiente, detalles de la compra en relación a si la tarjeta usada es de chip o si se hizo uso de la clave de la tarjeta al momento de la compra y si la misma fue online, el conjunto de datos condensa estas características al concluir si la compra se tipifica como un fraude o si es una compra valida.
El dataset presenta ciertas limitaciones que a su vez limitan el análisis de los datos, en este sentido, el conjunto de datos no dispone de información cronológica, es decir, el punto en el tiempo en el que suceden las transacciones y por ende, tampoco es posible conocer el periodo de tiempo de recolección de los datos, adicionalmente, las información del conjunto de datos no precisa la unidad de medida de las variables de distancia.
## Variables
## 1 distance_from_home
## 2 distance_from_last_transaction
## 3 ratio_to_median_purchase_price
## 4 repeat_retailer
## 5 used_chip
## 6 used_pin_number
## 7 online_order
## 8 fraud
## El número de resgistros (filas) es de: 1,000,000
## El número de columnas (variables) es de: 8
Se entiende como variable de respuesta (o dependiente) “fraud” y las 7 variables restantes como independientes. Con esto, se espera interpretar el comportamiento de las compras tipificadas como fraude en función de las 7 variables independientes.
##
## Missings per variable:
## Variable Count
## distance_from_home 0
## distance_from_last_transaction 0
## ratio_to_median_purchase_price 0
## repeat_retailer 0
## used_chip 0
## used_pin_number 0
## online_order 0
## fraud 0
##
## Missings in combinations of variables:
## Combinations Count Percent
## 0:0:0:0:0:0:0:0 1000000 100
El conjunto de datos en cuestión no presenta valores perdidos o NA’s, en este caso, no es necesario un proceso de tratamiento.
Para cada variable se presenta un resumen de los principales parámetros de estadística descriptiva, esto, de acuerdo al tipo de variable. Se resalta que previo a este análisis las variables “distance_from_home”, “distance_from_last_transaction” y “ratio_to_median_purchase_price” se mantienen como tipo numérica, las variables restantes se modifican a tipo factor ya que las mismas solo toman dos valores: 1 y 0, interpretando UNO como “SI” y CERO como “NO”.
## [1] "distance_from_home"
## [1] "numeric"
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.005 3.878 9.968 26.629 25.744 10632.724
## [1] "distance_from_last_transaction"
## [1] "numeric"
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.000 0.297 0.999 5.037 3.356 11851.105
## [1] "ratio_to_median_purchase_price"
## [1] "numeric"
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.0044 0.4757 0.9977 1.8242 2.0964 267.8029
## [1] "repeat_retailer"
## [1] "factor"
## 0 1
## 118464 881536
## [1] "used_chip"
## [1] "factor"
## 0 1
## 649601 350399
## [1] "used_pin_number"
## [1] "factor"
## 0 1
## 899392 100608
## [1] "online_order"
## [1] "factor"
## 0 1
## 349448 650552
## [1] "fraud"
## [1] "factor"
## 0 1
## 912597 87403
Inicialmente se puede afirmar que las variables de distancia presentan una gran dispersión, situación que es evidente dada la diferencia que existe entre la media de cada variable y su valor máximo así como la diferencia también existente entre el valor del tercer cuartil y su valor máximo. Lo anterior puede interpretarse como una posible existencia de datos atípicos, no obstante, es necesario un mayor análisis, en especial la relación que existente entre los datos cercanos al máximo y la variable de respuesta “fraud”.
Para el caso de las variables categóricas, se facilitaría su interpretación si las mismas se presentan en valores relativos, esto es, en porcentajes.
Las siguientes tablas presentan los detalles, de cada una de las variables, de la cantidad de observaciones y el porcentaje de datos ubicados por los valores que toman.
En este análisis se dividen las variables en dos grupos: 1) Las variables numéricas y 2) las variables categóricas.
En este grupo se listan tres de este tipo:
distance_from_home: distancia entre el lugar de la compra y el lugar de residencia del titular de la tarjeta
distance_from_last_transaction: distancia entre el lugar de la compra y el de la compra inmediatamente anterior
ratio_to_median_purchase_price: proporción del valor de la compra en relación al valor promedio de compra (o pago) que se realiza con la tarjeta
Al verificar los datos que toman cada una de las variables numéricas se observa que presentan una gran dispersión, tal como se había mencionado en los detalles iniciales para cada variable, esta variabilidad se presenta de manera gráfica así:
Los gráficos de caja o bigotes muestran una cantidad puntos rojos (datos atípicos) los cuales se interpretan como valores fuera del “común” de los valores que toma normalmente cada variable. Sobre estos puntos es posible decidir excluirlos del conjunto de datos o mantenerlos, decisión que depende del conocimiento del negocio, del nivel de relevancia de la información que contienen estos puntos atípico (como registro completo), entre otros.
La variabilidad de los datos para las tres variables se observa similar, es decir, no existe una diferencia relevante entre una y otra.
Con los resultados del conteo de datos por rango es posible cuantificar el nivel de relevancia de los datos atípicos observados en las gráficas anteriores, lo cual refleja que los mismos representan menos del 0.05% del total de datos. En un análisis previo se plantearon alrededor de 20 clases o rangos para contabilizar la frecuencia, sin embargo, la dispersión de los valores hacía innecesario usar tal cantidad de clases, finalmente se toman un total de 4 clases las cuales dejan en evidencia como se distribuyen los datos en cada variable
En este conjunto de variables se observan cinco. Cabe resaltar que todas la variables se presenta como respuesta a una pregunta, a saber:
repeat_retailer: ¿se había presentado con anterioridad pagos o compras en el establecimiento comercial?
used_chip: ¿se hizo uso del chip de la tarjeta para hacer el pago?
used_pin_number: ¿el pago incluyo como requisito el ingreso del pin de la tarjeta?
online_order: ¿es una compra a través de Internet?
fraud: ¿el pago realizado se tipifica como un fraude?
Para este grupo de variables se determina la frecuencia según los posibles valores que puede tomar cada una (0 y 1) para todas. En este caso, la distribución de los datos no es tan marcada como en el caso de las variables numéricas. En el caso de la variable de respuesta (fraud) el valor “No” tiene un peso de alrededor del 91%, siendo esta la mayor proporción entre las cinco variables. El el caso de las variables repeat_retailer y used_pin_number los resultados de la respuesta “No” están ligeramente por debajo del 90%; finalmente las variables used_chip y online_order presentan una proporción prácticamente igual donde la respuesta “Si” se presenta con un porcentaje de participación alrededor del 35%.
Se destaca que el 8.7% de los datos disponibles obedecen a situaciones de fraude, exactamente se tienen un total de 87.403 registros con información de fraude.
Para cada una de las tres variables numéricas se replantea el gráfico de frecuencias, en este caso se especifica la cantidad de datos comparándolo con el resultado frente a la existencia o no de fraude. Como se mencionó anteriormente, la mayor cantidad de datos se encuentra en el primer rango planteado en cada variable (esto es, alrededor del 99% de las observaciones), al desglosarlo en función del fraude se encuentra que las proporciones se mantienen similar para las tres variable, es decir, alrededor del 91.25% (más de 912.500 observaciones) de los datos se asocian a la no existencia de fraude, mientras alrededor de un 8.75% (alrededor de 87.300 registros) de los datos del mismo rango se asocian a una transacciones tipificadas como fraude. Los resultados observados podrían dar indicios de una posible colinealidad de las variables, frente a esta situación podría plantearse la exclusión de los datos atípicos identificados en el numeral 3.1.1, esto con el fin de verificar si existe una relación diferente en estas variables frente al fraude y así obtener mayor información que faciliten el entendimiento de los eventos de fraude.
En cuanto al comportamiento de las variables categóricas, los resultados frente a la variable no muestran uniformidad una a otra como sucede con las numéricas.
repeat_retailer: se observa un mayor número de registros asociados a transacciones de fraude cuando esta se realiza en establecimientos en los que ya se han hecho transacciones con anterioridad (al menos 1): alrededor del 91% (algo más de 804.600 registros) no se observan como fraude mientras que un 9% (un valor cercano a 77.000 registros) si lo serían; esta misma proporción se observa para los establecimientos en los que se realiza una transacción por primera vez con la tarjeta usada.
used_chip:el no uso de chip en la transacción comercial es lo más común en los registros disponibles, en este caso se observa un 10% (casi 65.000 observaciones) de transacciones asociadas a fraude. Para el caso de las operaciones en las que se hace uso del chip de la tarjeta el porcentaje de las mismas tipificadas como fraude son del 6% (alrededor de 22.400 registros)
used_pin_number: en este ítem, un número alrededor de 87.100 observaciones (cerca del 10%) que mencionan el no uso de pin (clave) de la tarjeta se tipificaron como fraude. Cuando se registra uso del pin de la tarjeta el porcentaje de fraude identificado es inferior al 0.3% (273 transacciones)
online_order: en el caso de las compras por Internet los resultados muestran una mayor proporción de fraudes cuando la transacción cumple esta característica, es decir, un valor cercano al 13% se tipificaron como fraude (un poco mas de 82.700 transacciones) mientras que las compras no realizadas por Internet registran un nivel de fraude del de alrededor del 1.35%, esto es, un número cercano a las 47.000 transacciones.
El conjunto de datos asociados a los eventos de fraude para transacciones realizadas con tarjeta se puede clasificar en dos grupos de variables: las numéricas y las categóricas.
El análisis inicial realizado permite observar que las variables numéricas ofrecen información limitada respecto a los resultados a los eventos de fraude que se identifican. Se observan datos atípicos que podrían ser excluidos del conjunto de datos, se considera que esta acción no acarrearía perdida de información en cuanto a la variable de respuesta (fraude), adicionalmente facilitaría un análisis más detallado que permita verificar si existe o no colinealidad entre estas tres variables.
Cabe resaltar que la información disponible alrededor del conjunto de datos carece de detalles para las variables relacionadas a los datos de distancia: no se precisa la unidad de medida de la misma, por lo que se asume que ambas variables están en la misma unidad.
En cuanto a las variables categóricas la información encontrada es interesante, se puede observar influencia de las mismas en el comportamiento del fraude, es decir, un estudio más profundo de los datos podría llevar a la explicación del comportamiento de las variable podría llevar a una explicación de los eventos que pueden considerarse como fraude.
El análisis presentado incluye el análisis individual de cada variable así como un análisis bivariado teniendo en común la variable de respuesta. Este análisis se puede ampliar incluyendo análisis bivariado entre atributos independientes. En todo caso, el presente análisis incluye una segunda parte que incluye un análisis que plantea la comparación de modelos de clasificación que contemplan la interacción de las variables definitivas previas a un proceso de reducción de dimensionalidad (si el mismo es posible)