EXÁMEN MINERÍA DE DATOS
Rpubs https://rpubs.com/DiegoAndres97/639202
La base cuenta con 24299 observaciones y 7 variables que representan a los cajeros de un banco mediante el numero d eidentificacion de las transacciones el numero de transacciones, el tiempo que se demora en cada servicio, la satisfaccion de los clientes ante su servicio y finalmente el monto que las personas realizan en sus transacciones.
## tibble [24,299 x 7] (S3: tbl_df/tbl/data.frame)
## $ Sucursal : num [1:24299] 62 62 62 62 62 62 62 62 62 62 ...
## $ Cajero : num [1:24299] 4820 4820 4820 4820 4820 4820 4820 4820 4820 4820 ...
## $ ID_Transaccion : chr [1:24299] "2" "2" "2" "2" ...
## $ Transaccion : chr [1:24299] "Cobro/Pago (Cta externa)" "Cobro/Pago (Cta externa)" "Cobro/Pago (Cta externa)" "Cobro/Pago (Cta externa)" ...
## $ Tiempo_Servicio_seg: num [1:24299] 311 156 248 99 123 172 140 247 183 91 ...
## $ Satisfaccion : chr [1:24299] "Muy Bueno" "Malo" "Regular" "Regular" ...
## $ Monto : num [1:24299] 2889 1671 3172 1765 1836 ...
Para trabajar con la base de datos, primero se recodifico las variables a Cajero, Id transaccion, transaccion como variable categoricas nominales y la variable Satisfaccion como unacategorica ordinal.
## # A tibble: 5 x 2
## Sucursal Conteo
## <dbl> <int>
## 1 85 12044
## 2 443 4190
## 3 267 3329
## 4 62 2838
## 5 586 1898
Entonces consideramos unicamenta la sucursal centro ya que es la que mas numero transacciones tiene.
## tibble [12,044 x 6] (S3: tbl_df/tbl/data.frame)
## $ Cajero : Factor w/ 27 levels "56","63","70",..: 3 3 3 3 3 3 3 3 3 3 ...
## $ ID_Transaccion : Factor w/ 3 levels "10","2","3": 2 2 2 2 2 2 2 2 2 2 ...
## $ Transaccion : Factor w/ 3 levels "Cobrar cheque (Cta del Bco)",..: 2 2 2 2 2 2 2 2 2 2 ...
## $ Tiempo_Servicio_seg: num [1:12044] 658 343 294 146 348 ...
## $ Satisfaccion : Ord.factor w/ 5 levels "Bueno"<"Malo"<..: 3 1 1 3 3 3 5 5 3 3 ...
## $ Monto : num [1:12044] 2511 2188 3456 2394 2082 ...
## # A tibble: 6 x 3
## variable n_miss pct_miss
## <chr> <int> <dbl>
## 1 Cajero 0 0
## 2 ID_Transaccion 0 0
## 3 Transaccion 0 0
## 4 Tiempo_Servicio_seg 0 0
## 5 Satisfaccion 0 0
## 6 Monto 0 0
Como se puede observar la base de datos no cuenta con datos faltantes,por lo cual se procedera a revisar si cuenta con anomalías la base.
Como se puede observar el cajero con el codigo 3983 es en el cual se realiza el mayor numero de transacciones, además el tipo de transacciones que más se realizan son los depósitos y los clienten han tenido una calificacion de Bueno y Muy bueno para los cajeros de la sucursal del centro.
Como se puede observar la variable monto y Tiempo de servicio tienen datos atipicos, hacia arriba, por lo cual se procedera a identificar dichos datos a traves de los veciones más cercanos(KNN)
Para este analisis se coniderara unicamente las variables numericas.
Como se puede observar en el grafico los valores que se encuentran en la parte derecha, se podrian considerar como valores atípicos debido a que están lejos del resto de observaciones.
## [,1] [,2] [,3] [,4] [,5]
## [1,] 0.15560039 0.18413928 0.23665456 0.24974793 0.29435121
## [2,] 0.04003089 0.04744982 0.05074054 0.06146977 0.06222450
## [3,] 0.01898032 0.03490564 0.04791397 0.05893411 0.06024204
## [4,] 0.01004104 0.01113264 0.01705007 0.01846306 0.02504652
## [5,] 0.01522636 0.04846073 0.05097325 0.05697865 0.06122028
## [6,] 0.02406734 0.04504826 0.04526776 0.05583589 0.06944371
## [1] 7493
| Cajero | ID_Transaccion | Transaccion | Tiempo_Servicio_seg | Satisfaccion | Monto |
|---|---|---|---|---|---|
| 3983 | 2 | Cobro/Pago (Cta externa) | 1602.698 | Muy Bueno | 5717.19 |
Como se puede observar la observacion 7493 se considera como un valor atípico, ya que es una de los valores que presenta mayor tiempo de servicio, en comparacion al resto de observacion.
Para eliminar los valores atipicos se consideraran los cuartiles, es decir se consideran como atipicos los valores que esta abajo del primer cuartil y los que estan arriba del ultimo cuartil. Meiante la regla del rango intercuartilico
## Cajero ID_Transaccion Transaccion Tiempo_Servicio_seg
## 0 0 0 609
## Satisfaccion Monto
## 0 136
Como se puede observar la variable monto y la de tiempo de servicio cuanta con datos atipicos, or lo cual se procedio a eliminarlo, quedandonos con un total de 11397 observaciones.
A continuación se realizara un análisis descriptivo de la base.
## Cajero ID_Transaccion Transaccion
## 3983 :4097 10:1883 Cobrar cheque (Cta del Bco):1883
## 472 :2582 2 :1029 Cobro/Pago (Cta externa) :1029
## 3678 :1853 3 :8485 Deposito :8485
## 357 :1724
## 70 : 623
## 4837 : 518
## (Other): 0
## Tiempo_Servicio_seg Satisfaccion Monto
## Min. : 18.13 Bueno :2888 Min. : 53.82
## 1st Qu.: 82.64 Malo :1892 1st Qu.:1444.26
## Median :129.93 Muy Bueno:3244 Median :2090.35
## Mean :146.33 Muy Malo :1199 Mean :1978.86
## 3rd Qu.:194.30 Regular :2174 3rd Qu.:2466.98
## Max. :392.97 Max. :4067.36
##
Como se puede observar las variables monto y tiempo de servicios no se ajustan a una distribucion normal.
## Cajero Satisfaccion Casos
## 1 70 Bueno 159
## 2 357 Bueno 404
## 3 472 Bueno 640
## 4 3678 Bueno 431
## 5 3983 Bueno 1140
## 6 4837 Bueno 114
## 7 70 Malo 87
## 8 357 Malo 361
## 9 472 Malo 462
## 10 3678 Malo 362
## 11 3983 Malo 488
## 12 4837 Malo 132
## 13 70 Muy Bueno 196
## 14 357 Muy Bueno 459
## 15 472 Muy Bueno 654
## 16 3678 Muy Bueno 466
## 17 3983 Muy Bueno 1367
## 18 4837 Muy Bueno 102
## 19 70 Muy Malo 68
## 20 357 Muy Malo 198
## 21 472 Muy Malo 305
## 22 3678 Muy Malo 233
## 23 3983 Muy Malo 321
## 24 4837 Muy Malo 74
## 25 70 Regular 113
## 26 357 Regular 302
## 27 472 Regular 521
## 28 3678 Regular 361
## 29 3983 Regular 781
## 30 4837 Regular 96
si se considera la calificacion los cajeros con codificacion #70 han tenido 159 personas que los han calificado como un buen servicio, mientras que 87 personas han calificado como malo el servicio de dicho cajero. El cajero con codificacion 3983 tiene un porcentaje mayor de personas que le han califica como Muy buen servicio.
Para el análisis se considero unicamente la sucursal que tinia un mayor numero de transacciones que era la sucursal del centro con 12 044 observaciones.
Se pudo comprobar que la base no contaba con datos faltantes, y en cuanto a los datos atipicos se observo que en las dos variables numericas se tenia datos atípicos.
Los depositos son las transacciones que mas se han realizado en estas sucursales, ademas en global, la calificación muy bueno ha tenido un mayor porcentaje entre los clientes hacia el servicio de los cajeros.
Finalmente se pudo obsevar que de la sucursal del centro, el cajero 3983 la cual es de sexo femenino con 33 años de edad y que tiene cursado hasta bachiller sus estudios son los que más han atendido a personas, es decir que en cuando se encuentra ese cajero, existe un mayor numero de persona que realizan sus transacciones y eso se puede deber, porque son las personas que han tenido mejores calificaciones de los clientes con 1367 muy buenos, seguido de los cajeros de codigo 472 que son de sexo femenino de 26 años de edad y que han cursado el tercer nivel de sus estudios.