Imputación de Datos

Introducción

Se trabajara con los datos ya recurrentes que corresponden a las observaciones de las solicitudes para obtener una tarjeta de crédito.

A continuación se muestra la cantidad de datos faltantes originalmente.

Dado que no se poseen datos faltantes en nuestra base de datos, se procede a crearlos, para ello se ignoran las variables correspondientes a Código, Fecha pues no son importantes en nuestro estudio, y Marca Mora Tarjeta, que corresponde a nuestra variable objetivo.

A continuación se muestra la cantidad de datos faltantes por variables.

Imputación

Variables Categóricas.

Para trabajar con variables categóricas haremos uso de (Imputación de la moda) que consiste en el reemplazo de los valores faltantes por los valores de la moda, en general es el de uso más común por su facilidad de implementación, no es recomendable puesto que reduce la variabilidad de los datos debido a que se introduce la misma cantidad para una gran cantidad de observaciones. Nunca debe ser usada con datos MNAR(missing not at random).

Es de interés notar que para la variable Origen Aprobación solo contamos con dos categorías, por lo que la imputación básicamente consintió en quitar un porcentaje de datos de la categoría menos representativa y ponerla en la categoría mas representativa.

Variables Numéricas.

Para trabajar con variables categóricas haremos uso de (Imputación de la media) que consiste en el reemplazo de los valores faltantes por los valores de la media, en general es el de uso más común por su facilidad de implementación, no es recomendable puesto que reduce la variabilidad de los datos debido a que se introduce la misma cantidad para una gran cantidad de observaciones. Nunca debe ser usada con datos MNAR(missing not at random).

Imputación Múltiple.

La imputación múltiple consiste en la creación de varios conjuntos de datos imputados plausibles diferentes y la combinación adecuada de los resultados obtenidos de cada uno de ellos. Estos se muestrean a partir de su distribución predictiva basada en los datos observados; por lo tanto, la imputación múltiple se basa en un enfoque bayesiano. El procedimiento de imputación debe tener plenamente en cuenta toda la incertidumbre al predecir los valores faltantes inyectando la variabilidad adecuada en los múltiples valores imputados; nunca podremos conocer los verdaderos valores de los datos faltantes.

Debo a la capacidad de procesamiento y al hecho de que originalmente no se cuenta con datos faltantes, se ha optado por no trabajar con la totalidad de las observaciones.

Se ha considerado, tomar 100 observaciones correspondientes a las primeras 5 variables (2 cualitativas y 3 cuantitativas).

Coincidencia de media predictiva (PMM)

PMM implica seleccionar un punto de datos de los datos originales que no faltan, que tienen un valor predicho cercano al valor predicho de la muestra faltante. Los valores N más cercanos se eligen como candidatos, de los cuales se elige un valor al azar. Como se muestra en la siguiente figura:

Class: mids
Number of multiple imputations:  2 
Imputation methods:
        ORIGEN_APROBACION                FORMA_PAGO       SALDO_TOTAL_TARJETA 
                    "pmm"                     "pmm"                     "pmm" 
    CUPO_PROMEDIO_TARJETA SALDO_UTILIZ_PROM_CLIENTE 
                    "pmm"                     "pmm" 
PredictorMatrix:
                          ORIGEN_APROBACION FORMA_PAGO SALDO_TOTAL_TARJETA
ORIGEN_APROBACION                         0          1                   1
FORMA_PAGO                                1          0                   1
SALDO_TOTAL_TARJETA                       1          1                   0
CUPO_PROMEDIO_TARJETA                     1          1                   1
SALDO_UTILIZ_PROM_CLIENTE                 1          1                   1
                          CUPO_PROMEDIO_TARJETA SALDO_UTILIZ_PROM_CLIENTE
ORIGEN_APROBACION                             1                         1
FORMA_PAGO                                    1                         1
SALDO_TOTAL_TARJETA                           1                         1
CUPO_PROMEDIO_TARJETA                         0                         1
SALDO_UTILIZ_PROM_CLIENTE                     1                         0
 ORIGEN_APROBACION FORMA_PAGO SALDO_TOTAL_TARJETA CUPO_PROMEDIO_TARJETA
 Demanda  :44      No:74      Min.   :    0.0     Min.   :  333.3      
 Proactivo:56      Si:26      1st Qu.:  329.1     1st Qu.:  800.0      
                              Median :  674.3     Median : 1450.0      
                              Mean   : 1424.9     Mean   : 2696.2      
                              3rd Qu.: 1759.4     3rd Qu.: 3500.0      
                              Max.   :12996.6     Max.   :21150.0      
 SALDO_UTILIZ_PROM_CLIENTE
 Min.   :   16.97         
 1st Qu.:  451.30         
 Median :  776.45         
 Mean   : 1504.44         
 3rd Qu.: 1745.60         
 Max.   :17592.01         

Se puede notar la forma en que los valores imputados (Rojo) coincide con los valores conocidos (Azules), por lo tanto, se puede considerar que esta imputación es plausible.

Para poder concluir que las imputaciones son plausibles, se desea que la distribución de los datos conocidos, sea similar a la de los datos imputados, de igual forma si se desea saber qué conjunto de datos seleccionar al momento de utilizar la función complete se puede analizar cuál de las curvar se adapta mejor a los datos conocidos. Finalmente se puede analizar las distribuciones de las variables como puntos individuales mediante la función stripplot().

Arboles de clasificación y regresión (CART)

Los modelos CART buscan aproximar la distribución condicional de un resultado univariado de múltiples predictores. El algoritmo CART divide el espacio del predictor para que los subconjuntos de unidades formados por las particiones tengan resultados relativamente homogéneos. Las particiones se encuentran mediante divisiones binarias recursivas de los predictores. La serie de divisiones se puede representar eficazmente mediante una estructura de árbol, con hojas correspondientes a los subconjuntos de unidades. Los valores en cada hoja representan la distribución condicional del resultado para las unidades en los datos con predictores que satisfacen los criterios de partición que definen la hoja.

Class: mids
Number of multiple imputations:  2 
Imputation methods:
        ORIGEN_APROBACION                FORMA_PAGO       SALDO_TOTAL_TARJETA 
                   "cart"                    "cart"                    "cart" 
    CUPO_PROMEDIO_TARJETA SALDO_UTILIZ_PROM_CLIENTE 
                   "cart"                    "cart" 
PredictorMatrix:
                          ORIGEN_APROBACION FORMA_PAGO SALDO_TOTAL_TARJETA
ORIGEN_APROBACION                         0          1                   1
FORMA_PAGO                                1          0                   1
SALDO_TOTAL_TARJETA                       1          1                   0
CUPO_PROMEDIO_TARJETA                     1          1                   1
SALDO_UTILIZ_PROM_CLIENTE                 1          1                   1
                          CUPO_PROMEDIO_TARJETA SALDO_UTILIZ_PROM_CLIENTE
ORIGEN_APROBACION                             1                         1
FORMA_PAGO                                    1                         1
SALDO_TOTAL_TARJETA                           1                         1
CUPO_PROMEDIO_TARJETA                         0                         1
SALDO_UTILIZ_PROM_CLIENTE                     1                         0
 ORIGEN_APROBACION FORMA_PAGO SALDO_TOTAL_TARJETA CUPO_PROMEDIO_TARJETA
 Demanda  :45      No:77      Min.   :    0.0     Min.   :  333.3      
 Proactivo:55      Si:23      1st Qu.:  334.7     1st Qu.:  900.0      
                              Median :  674.3     Median : 1700.0      
                              Mean   : 1466.3     Mean   : 2780.8      
                              3rd Qu.: 1741.4     3rd Qu.: 3500.0      
                              Max.   :12996.6     Max.   :21150.0      
 SALDO_UTILIZ_PROM_CLIENTE
 Min.   :   16.97         
 1st Qu.:  432.87         
 Median :  749.10         
 Mean   : 1495.78         
 3rd Qu.: 1745.60         
 Max.   :17592.01         

Se puede notar la forma en que los valores imputados (Rojo) coincide con los valores conocidos (Azules), por lo tanto, se puede considerar que esta imputación es plausible.

Para poder concluir que las imputaciones son plausibles, se desea que la distribución de los datos conocidos, sea similar a la de los datos imputados, de igual forma si se desea saber qué conjunto de datos seleccionar al momento de utilizar la función complete se puede analizar cuál de las curvar se adapta mejor a los datos conocidos. Finalmente se puede analizar las distribuciones de las variables como puntos individuales mediante la función stripplot().