Preprocesamiento I
Introduccion
Los conjuntos de datos para el anĆ”lisis pueden contener cientos de atributos, muchos de los cuales pueden ser irrelevantes o redundantes para la tarea de minerĆa.Aunque puede ser posible un dominio para seleccionar algunos de los atributos Ćŗtiles, esta puede ser una tarea difĆcil y que requiere mucho tiempo, especialmente cuando el comportamiento de los datos no es bien conocido. (Por lo tanto, una razón detrĆ”s de su anĆ”lisis!)
Omitir atributos relevantes o mantener atributos irrelevantes puede ser perjudicial, causando confusión para el algoritmo de minerĆa empleado. Esto puede resultar en patrones descubiertos de mala calidad.
# Base De Datos
# Base de Datos
BaseProd <- read_excel("Data/BaseProd.xlsx",
sheet = "Base")
BaseProdDiccionario <- read_excel("Data/BaseProd.xlsx",
sheet = "Diccionario")
# Tratamiento Inicial de los Datos.
BaseProdED <- BaseProd %>% mutate(FORMA_PAGO = factor(FORMA_PAGO),
GENERO = factor(GENERO),
INSTRUCCION = factor(INSTRUCCION),
MARCA_CUENTA_AHORROS = factor(MARCA_CUENTA_AHORROS),
MARCA_CUENTA_CORRIENTE = factor(MARCA_CUENTA_CORRIENTE),
MarcaMora_Tarjeta = factor(MarcaMora_Tarjeta),
ORIGEN_APROBACION = factor(ORIGEN_APROBACION),
SEGMENTO_RIESGO = factor(SEGMENTO_RIESGO),
SUCURSAL= factor(SUCURSAL))
DataT <- BaseProdED[,3:25]
Se presenta la Informacion de la Base de Datos
# Balanceo de los Datos
DataBalanced <- DataT
DataBalanced <- ovun.sample(MarcaMora_Tarjeta ~ ., data = DataBalanced , method = "both", p=0.5, N=1000, seed = 1)$data
table(DataBalanced$MarcaMora_Tarjeta) %>% prop.table()
##
## 0 1
## 0.52 0.48
AnƔlisis de Componentes Principales (PCA)
El anĆ”lisis de componentes principales (PCA) nos permite resumir y visualizar la información en un conjunto de datos que contiene individuos / observaciones descritos por mĆŗltiples variables cuantitativas inter-correlacionadas. Cada variable podrĆa considerarse como una dimensión diferente.
Un anƔlisis de componentes principales (PCA) usando solo los datos cuantitavos de nuestra base.
Data.Cuanti <- DataBalanced[,c("SALDO_TOTAL_TARJETA","CUPO_PROMEDIO_TARJETA",
"SALDO_UTILIZ_PROM_CLIENTE","PROMEDIO_MENSUAL_CONSUMOS_LOCALES",
"PROMEDIO_MENSUAL_SALDO_CUENTA_PASIVO","RIESGO_CLIENTE_TOTAL_GFP","EDAD",
"NUM_TC_SIST_FIM","VALOR_DEPOSITO_A_PLAZO","PROMEDIO_DIAS_SOBREGIRO_CC",
"NUMERO_OPERACIONES_TITULAR","MAXIMO_NUM_DIAS_VENCIDO","ANTIGUEDAD_TARJETA_ANIOS",
"CANTIDAD_TOTAL_AVANCES")]
Valores Propios y varianza Explicada.
Se observa que la primera componente, explica hasta un 20.78% de la varianza.
variables
## Principal Component Analysis Results for variables
## ===================================================
## Name Description
## 1 "$coord" "Coordinates for the variables"
## 2 "$cor" "Correlations between variables and dimensions"
## 3 "$cos2" "Cos2 for the variables"
## 4 "$contrib" "contributions of the variables"
Coordenadas de las variables en los nuevos ejes.
Contribucion de las variables a los nuevos ejes.
Representacion Grafica de los Individuos
# Control variable colors using their contributions
fviz_pca_var(res.pca, col.var="contrib",
gradient.cols = c("#00AFBB", "#E7B800", "#FC4E07"),
repel = TRUE # Avoid text overlapping
)
Las graficas anteriores muestran las relaciones entre todas las variables. Se puede interpretar de la siguiente manera:
- Las variables positivamente correlacionadas se agrupan juntas.
- Las variables negativamente correlacionadas se colocan en lados opuestos del origen del grƔfico (cuadrantes opuestos).
Las variables mÔs importantes (o contribuyentes) se encuentran resaltadas en la grÔfica de correlación.
Constribucion de las Variables a las dos primeras componentes principales.
Individuos
## Principal Component Analysis Results for individuals
## ===================================================
## Name Description
## 1 "$coord" "Coordinates for the individuals"
## 2 "$cos2" "Cos2 for the individuals"
## 3 "$contrib" "contributions of the individuals"
Coordenadas de los Individuos en los nuevos ejes.
Contribucion de los individuos en los nuevos ejes.
No se incluyen los graficos de individuos ni e Biplot, debido a la cantidad de observaciones en la muestra, esto causa dificultades en la interpretacion de los graficos.
Analisis de Correspondencia Multiple (MCA)
El anÔlisis de correspondencia múltiple (MCA) es una extensión del anÔlisis de correspondencia simple para resumir y visualizar una tabla de datos que contiene mÔs de dos variables categóricas. También puede verse como una generalización del anÔlisis de componentes principales cuando las variables a analizar son categóricas en lugar de cuantitativas.
Un anƔlisis de correspondencia multiple (MCA) usando solo los datos cualitativos de nuestra base.
Data.Cuali<-DataBalanced[,c("FORMA_PAGO",
"GENERO" ,
"INSTRUCCION",
"MARCA_CUENTA_AHORROS",
"MARCA_CUENTA_CORRIENTE",
"ORIGEN_APROBACION",
"SEGMENTO_RIESGO",
"SUCURSAL")]
Variables (categorias)
## Multiple Correspondence Analysis Results for variables
## ===================================================
## Name Description
## 1 "$coord" "Coordinates for categories"
## 2 "$cos2" "Cos2 for categories"
## 3 "$contrib" "contributions of categories"
Coordenadas en los nuevos ejes, de las diferentes categorias dentro de las variables.
Controbucion de las diferentes categorias a la formacion de los nuevos ejes.
Representacion Grafica de las diferentes categorias, en el plano 1, de los 2 primeros nuevos ejes.
fviz_mca_var(res.mca, choice = "mca.cor",
repel = TRUE, # Avoid text overlapping (slow)
ggtheme = theme_minimal(),
col.var = rainbow(8))
Representacion Grafica de las diferentes categorias en los dos primeros nuevos ejes.
fviz_mca_var(res.mca, axes = c(1, 2), col.var = "cos2",
gradient.cols = c("#00AFBB", "#E7B800", "#FC4E07"),
ggtheme = theme_minimal())
Las graficas anteriores muestran las relaciones entre todas las variables. Se puede interpretar de la siguiente manera:
- Las variables positivamente correlacionadas se agrupan juntas.
- Las variables negativamente correlacionadas se colocan en lados opuestos del origen del grƔfico (cuadrantes opuestos).
Las variables mÔs importantes (o contribuyentes) se encuentran resaltadas en la grÔfica de correlación.
Constribucion de las Variables a las dos primeras componentes principales.
Contribucion de las primeras 10 categorias a la construccion del primer eje.
Individuos
## Multiple Correspondence Analysis Results for individuals
## ===================================================
## Name Description
## 1 "$coord" "Coordinates for the individuals"
## 2 "$cos2" "Cos2 for the individuals"
## 3 "$contrib" "contributions of the individuals"
Coordenas de los Individuos en los nuevos ejes.
Contribucion de los individuos en los nuevos ejes.
No se incluyen los graficos de individuos ni e Biplot, debido a la cantidad de observaciones en la muestra, esto causa dificultades en la interpretacion de los graficos debido a que se solapan muchos de ellos.
Analisis de factores multiples (MFA)
El anÔlisis de factores múltiples (MFA) se utiliza para analizar un conjunto de datos en el que los individuos se describen mediante varios conjuntos de variables (cuantitativas y / o cualitativas) estructuradas en grupos.
Data.Total <- DataBalanced[,c("FORMA_PAGO","GENERO","INSTRUCCION","MARCA_CUENTA_AHORROS",
"MARCA_CUENTA_CORRIENTE","ORIGEN_APROBACION","SEGMENTO_RIESGO",
"SUCURSAL","SALDO_TOTAL_TARJETA","CUPO_PROMEDIO_TARJETA",
"SALDO_UTILIZ_PROM_CLIENTE","PROMEDIO_MENSUAL_CONSUMOS_LOCALES",
"PROMEDIO_MENSUAL_SALDO_CUENTA_PASIVO","RIESGO_CLIENTE_TOTAL_GFP","EDAD",
"NUM_TC_SIST_FIM","VALOR_DEPOSITO_A_PLAZO","PROMEDIO_DIAS_SOBREGIRO_CC",
"NUMERO_OPERACIONES_TITULAR","MAXIMO_NUM_DIAS_VENCIDO","ANTIGUEDAD_TARJETA_ANIOS",
"CANTIDAD_TOTAL_AVANCES")]
El primer nuevo eje explica aproximadamente el 7.7% de la varianza.
Variables
## Multiple Factor Analysis results for quantitative variables
## ===================================================
## Name Description
## 1 "$coord" "Coordinates"
## 2 "$cos2" "Cos2, quality of representation"
## 3 "$contrib" "Contributions"
Coordenadas de las variables cuantitativas en los nuevos ejes.
Contribucion de las variables cuantitativas a la creacion de los nuevos ejes.
Representacion grafica de los grupos de variables.
Representacion grafica de las variables cuantitativas.
# Quantitative variables
fviz_mfa_var(res.mfa, "quanti.var",
col.var="contrib",
gradient.cols = c("#00AFBB", "#E7B800", "#FC4E07"),
repel = TRUE)
Representacion grafica de las variables cualitativas.
# Quantitative variables
fviz_mfa_var(res.mfa, "quali.var", col.var="contrib",
gradient.cols = c("#00AFBB", "#E7B800", "#FC4E07"),
repel = TRUE)
Las graficas anteriores muestran las relaciones entre todas las variables. Se puede interpretar de la siguiente manera:
- Las variables positivamente correlacionadas se agrupan juntas.
- Las variables negativamente correlacionadas se colocan en lados opuestos del origen del grƔfico (cuadrantes opuestos).
Las variables mÔs importantes (o contribuyentes) se encuentran resaltadas en la grÔfica de correlación.
Contribucion de las variables cuantitativas al nuevo eje 1.
# Contributions of variables to PC1
fviz_contrib(res.mfa, choice = "quanti.var", axes = 1, top = 10)
Contribucion de las variables cualitativas al nuevo eje 1.
Individuos.
## Multiple Factor Analysis results for individuals
## ===================================================
## Name Description
## 1 "$coord" "Coordinates"
## 2 "$cos2" "Cos2, quality of representation"
## 3 "$contrib" "Contributions"
## 4 "$coord.partiel" "Partial coordinates"
## 5 "$within.inertia" "Within inertia"
## 6 "$within.partial.inertia" "Within partial inertia"
Coordenadas de los Individuos en los nuevos ejes.
Contribucion de los Individuos a los nuevos ejes.
Coordenadas Parciales de los Individuos (Por grupos.) en los nuevos ejes.
No se incluyen los graficos de individuos ni e Biplot, debido a la cantidad de observaciones en la muestra, esto causa dificultades en la interpretacion de los graficos debido a que se solapan muchos de ellos.