Compresion del Negocio

#a)Descripcion y compresion comercial de la entidad
#Ripley ofrece a sus consumidores productos nuevos, novedoso y innovador de caliadad

#b)Determine los objetivos comerciales de la entidad
#Ripley da ofertas y promociona productos como ropa, eletrodomesticos, tambien exite una entidad bancaria de ripley donde se encarga de toda sus finanazas

#c)Valoracion de la situacion actual de la entidad
#Ripley hoy en dia esta muy valorada como entidad y es por muchas razones, ripley abarca : banco de ripley, venta de productos como ropa, electrodomesticos y muchas cosas mas

#d)Determinacion de los objetivos de mineria de datos
#Es el AnƔlisis de las propiedades de los datos y extracion de conocimiento adquirido de ello, representando patrones de comportamiento relacionado entre dicas variables

Compresion de los Datos

ripley<-read.csv("https://raw.githubusercontent.com/VictorGuevaraP/Mineria-de-datos/master/MarkRipley.csv", sep = ";")
head(ripley)
##   edad     trabajo est.civ  educacion mora balance vivienda prestamo
## 1   30 Desempleado  Casado   primaria   no    1787       no       no
## 2   33      Servis  Casado secundaria   no    4789       si       si
## 3   35   Ejecutivo Soltero   Superior   no    1350       si       no
## 4   30   Ejecutivo  Casado   Superior   no    1476       si       si
## 5   59      Obrero  Casado secundaria   no       0       si       no
## 6   35   Ejecutivo Soltero   Superior   no     747       no       no
##      contacto dia     mes duracion campana pdias previo  presultado
## 1     celular  19 Octubre       79       1    -1      0 desconocido
## 2     celular  11    Mayo      220       1   339      4     fracaso
## 3     celular  16   abril      185       1   330      1     fracaso
## 4 desconocido   3   Junio      199       4    -1      0 desconocido
## 5 desconocido   5    Mayo      226       1    -1      0 desconocido
## 6     celular  23 Febrero      141       2   176      3     fracaso
##   suscrito
## 1       no
## 2       no
## 3       no
## 4       no
## 5       no
## 6       no

Los tipos de datos estan estructurados de la siguiente manera

#Se divide en 2 tipos de datos 
#Tiene datos Cualitativo (trabajo,est.civ,educacion,mora,vivienda,prestamo,contacto,mes,presultado,suscrito) y
#Cuantitativos (edad,balance,duracion,campana,pdias,previo)

str(ripley)
## 'data.frame':    4521 obs. of  17 variables:
##  $ edad      : int  30 33 35 30 59 35 36 39 41 43 ...
##  $ trabajo   : Factor w/ 12 levels "admin.","desconocido",..: 3 11 4 4 9 4 8 12 6 11 ...
##  $ est.civ   : Factor w/ 3 levels "Casado","Divorciado",..: 1 1 3 1 1 3 1 1 1 1 ...
##  $ educacion : Factor w/ 4 levels "desconocido",..: 2 3 4 4 3 4 4 3 4 2 ...
##  $ mora      : Factor w/ 2 levels "no","si": 1 1 1 1 1 1 1 1 1 1 ...
##  $ balance   : int  1787 4789 1350 1476 0 747 307 147 221 -88 ...
##  $ vivienda  : Factor w/ 2 levels "no","si": 1 2 2 2 2 1 2 2 2 2 ...
##  $ prestamo  : Factor w/ 2 levels "no","si": 1 2 1 2 1 1 1 1 1 2 ...
##  $ contacto  : Factor w/ 3 levels "celular","desconocido",..: 1 1 1 2 2 1 1 1 2 1 ...
##  $ dia       : int  19 11 16 3 5 23 14 6 14 17 ...
##  $ mes       : Factor w/ 12 levels "abril","Agosto",..: 11 9 1 7 9 5 9 9 9 1 ...
##  $ duracion  : int  79 220 185 199 226 141 341 151 57 313 ...
##  $ campana   : int  1 1 1 4 1 2 1 2 2 1 ...
##  $ pdias     : int  -1 339 330 -1 -1 176 330 -1 -1 147 ...
##  $ previo    : int  0 4 1 0 0 3 2 0 0 2 ...
##  $ presultado: Factor w/ 4 levels "desconocido",..: 1 3 3 1 1 3 4 1 1 3 ...
##  $ suscrito  : Factor w/ 2 levels "no","si": 1 1 1 1 1 1 1 1 1 1 ...

Exploracion de Datos

hist((ripley$balance), col=c(6,5), main = "Histograma de balance", xlab = "balance")

hist((ripley$edad), col=c(6,5), main = "Histograma de edad", xlab = "edad")

hist((ripley$duracion), col=c(6,5), main = "Histograma de duracion", xlab = "duracion")

hist((ripley$pdias), col=c(6,5), main = "Histograma de pdias", xlab = "pdias")

hist((ripley$previo), col=c(6,5), main = "Histograma de previo", xlab = "previo")

hist((ripley$campana), col=c(6,5), main = "Histograma de campana", xlab = "campana")

#PARA ELLO VAMOS A TRASNFORMAR LOS DATOS DE HISTOGRAMAS

hist(sqrt(ripley$edad), col=c(6,5), main = "Histograma de edad", xlab = "edad")

hist(sqrt(ripley$duracion), col=c(6,5), main = "Histograma de duracion", xlab = "duracion")

hist(sqrt(ripley$previo), col=c(6,5), main = "Histograma de previo", xlab = "previo")

hist(sqrt(ripley$campana), col=c(6,5), main = "Histograma de campana", xlab = "campana")

#observamos la representacion grafica de los datos trasnformados donde la superficie de la barra es proporcional ala frecuencia de los valores representados

Verificaion de Datos Atipicos

boxplot(ripley$balance, col=c(6,7))

boxplot(ripley$edad, col=c(6,7))

boxplot(ripley$duracion, col=c(6,7))

boxplot(ripley$pdias, col=c(6,7))

boxplot(ripley$previo, col=c(6,7))

boxplot(ripley$pdias, col=c(6,7))

boxplot(ripley$campana, col=c(6,7))

#Todos los graficos con las variables cuantitativas muestran muchisimos datos atipicos 

PARA ELLO VAMOS A TRASNFORMAR LOS DATOS

boxplot((ripley$balance), col=c(6,7))

boxplot(sqrt(ripley$edad), col=c(6,7))

boxplot(sqrt(ripley$duracion), col=c(6,7))

boxplot((ripley$pdias), col=c(6,7))

boxplot(sqrt(ripley$previo), col=c(6,7))

boxplot(sqrt(ripley$campana), col=c(6,7))

#Vemos que aun transformando los datos encontramos muchos datos atipicos pero en algunos graficos se puede apreciar mejor 

ANALISIS UNIVARIADO Y BIVARIADO(GRAFICA DE DATOS)

#Mostramos todos los graficos de la tabla ripley
plot(ripley)

#VARIABLES(Balance Y Duracion)
plot(ripley$balance,ripley$duracion, 
     main="GRAFICO DE DISPERCION", 
     xlab="balance",
     ylab = "duracion",
     col=c(4,7))

pairs(ripley$balance ~ ripley$duracion)

#Segun el diagrama no hay correlacion entre las variables balance y duracion

#VARIABLES(edad Y campana)
plot(ripley$edad,ripley$campana, 
     main="GRAFICO DE DISPERCION", 
     xlab="edad",
     ylab = "campana",
     col=c(4,7))

pairs(ripley$edad ~ ripley$campana)

#Segun el diagrama no hay correlacion entre las variables balance y duracion

#VARIABLES(edad Y campana)
plot(ripley$pdias,ripley$duracion, 
     main="GRAFICO DE DISPERCION", 
     xlab="pdias",
     ylab = "duracion",
     col=c(4,7))

pairs(ripley$pdias ~ ripley$duracion)
#Segun el diagrama no hay correlacion entre las variables balance y duracion

library(PerformanceAnalytics)
## Loading required package: xts
## Loading required package: zoo
## 
## Attaching package: 'zoo'
## The following objects are masked from 'package:base':
## 
##     as.Date, as.Date.numeric
## 
## Attaching package: 'PerformanceAnalytics'
## The following object is masked from 'package:graphics':
## 
##     legend

library(corrplot)
## corrplot 0.84 loaded
corrplot(cor(ripley[,12:14]), method = c("pie"))