#a)Descripcion y compresion comercial de la entidad
#Ripley ofrece a sus consumidores productos nuevos, novedoso y innovador de caliadad
#b)Determine los objetivos comerciales de la entidad
#Ripley da ofertas y promociona productos como ropa, eletrodomesticos, tambien exite una entidad bancaria de ripley donde se encarga de toda sus finanazas
#c)Valoracion de la situacion actual de la entidad
#Ripley hoy en dia esta muy valorada como entidad y es por muchas razones, ripley abarca : banco de ripley, venta de productos como ropa, electrodomesticos y muchas cosas mas
#d)Determinacion de los objetivos de mineria de datos
#Es el AnƔlisis de las propiedades de los datos y extracion de conocimiento adquirido de ello, representando patrones de comportamiento relacionado entre dicas variables
ripley<-read.csv("https://raw.githubusercontent.com/VictorGuevaraP/Mineria-de-datos/master/MarkRipley.csv", sep = ";")
head(ripley)
## edad trabajo est.civ educacion mora balance vivienda prestamo
## 1 30 Desempleado Casado primaria no 1787 no no
## 2 33 Servis Casado secundaria no 4789 si si
## 3 35 Ejecutivo Soltero Superior no 1350 si no
## 4 30 Ejecutivo Casado Superior no 1476 si si
## 5 59 Obrero Casado secundaria no 0 si no
## 6 35 Ejecutivo Soltero Superior no 747 no no
## contacto dia mes duracion campana pdias previo presultado
## 1 celular 19 Octubre 79 1 -1 0 desconocido
## 2 celular 11 Mayo 220 1 339 4 fracaso
## 3 celular 16 abril 185 1 330 1 fracaso
## 4 desconocido 3 Junio 199 4 -1 0 desconocido
## 5 desconocido 5 Mayo 226 1 -1 0 desconocido
## 6 celular 23 Febrero 141 2 176 3 fracaso
## suscrito
## 1 no
## 2 no
## 3 no
## 4 no
## 5 no
## 6 no
#Se divide en 2 tipos de datos
#Tiene datos Cualitativo (trabajo,est.civ,educacion,mora,vivienda,prestamo,contacto,mes,presultado,suscrito) y
#Cuantitativos (edad,balance,duracion,campana,pdias,previo)
str(ripley)
## 'data.frame': 4521 obs. of 17 variables:
## $ edad : int 30 33 35 30 59 35 36 39 41 43 ...
## $ trabajo : Factor w/ 12 levels "admin.","desconocido",..: 3 11 4 4 9 4 8 12 6 11 ...
## $ est.civ : Factor w/ 3 levels "Casado","Divorciado",..: 1 1 3 1 1 3 1 1 1 1 ...
## $ educacion : Factor w/ 4 levels "desconocido",..: 2 3 4 4 3 4 4 3 4 2 ...
## $ mora : Factor w/ 2 levels "no","si": 1 1 1 1 1 1 1 1 1 1 ...
## $ balance : int 1787 4789 1350 1476 0 747 307 147 221 -88 ...
## $ vivienda : Factor w/ 2 levels "no","si": 1 2 2 2 2 1 2 2 2 2 ...
## $ prestamo : Factor w/ 2 levels "no","si": 1 2 1 2 1 1 1 1 1 2 ...
## $ contacto : Factor w/ 3 levels "celular","desconocido",..: 1 1 1 2 2 1 1 1 2 1 ...
## $ dia : int 19 11 16 3 5 23 14 6 14 17 ...
## $ mes : Factor w/ 12 levels "abril","Agosto",..: 11 9 1 7 9 5 9 9 9 1 ...
## $ duracion : int 79 220 185 199 226 141 341 151 57 313 ...
## $ campana : int 1 1 1 4 1 2 1 2 2 1 ...
## $ pdias : int -1 339 330 -1 -1 176 330 -1 -1 147 ...
## $ previo : int 0 4 1 0 0 3 2 0 0 2 ...
## $ presultado: Factor w/ 4 levels "desconocido",..: 1 3 3 1 1 3 4 1 1 3 ...
## $ suscrito : Factor w/ 2 levels "no","si": 1 1 1 1 1 1 1 1 1 1 ...
hist((ripley$balance), col=c(6,5), main = "Histograma de balance", xlab = "balance")
hist((ripley$edad), col=c(6,5), main = "Histograma de edad", xlab = "edad")
hist((ripley$duracion), col=c(6,5), main = "Histograma de duracion", xlab = "duracion")
hist((ripley$pdias), col=c(6,5), main = "Histograma de pdias", xlab = "pdias")
hist((ripley$previo), col=c(6,5), main = "Histograma de previo", xlab = "previo")
hist((ripley$campana), col=c(6,5), main = "Histograma de campana", xlab = "campana")
#PARA ELLO VAMOS A TRASNFORMAR LOS DATOS DE HISTOGRAMAS
hist(sqrt(ripley$edad), col=c(6,5), main = "Histograma de edad", xlab = "edad")
hist(sqrt(ripley$duracion), col=c(6,5), main = "Histograma de duracion", xlab = "duracion")
hist(sqrt(ripley$previo), col=c(6,5), main = "Histograma de previo", xlab = "previo")
hist(sqrt(ripley$campana), col=c(6,5), main = "Histograma de campana", xlab = "campana")
#observamos la representacion grafica de los datos trasnformados donde la superficie de la barra es proporcional ala frecuencia de los valores representados
boxplot(ripley$balance, col=c(6,7))
boxplot(ripley$edad, col=c(6,7))
boxplot(ripley$duracion, col=c(6,7))
boxplot(ripley$pdias, col=c(6,7))
boxplot(ripley$previo, col=c(6,7))
boxplot(ripley$pdias, col=c(6,7))
boxplot(ripley$campana, col=c(6,7))
#Todos los graficos con las variables cuantitativas muestran muchisimos datos atipicos
boxplot((ripley$balance), col=c(6,7))
boxplot(sqrt(ripley$edad), col=c(6,7))
boxplot(sqrt(ripley$duracion), col=c(6,7))
boxplot((ripley$pdias), col=c(6,7))
boxplot(sqrt(ripley$previo), col=c(6,7))
boxplot(sqrt(ripley$campana), col=c(6,7))
#Vemos que aun transformando los datos encontramos muchos datos atipicos pero en algunos graficos se puede apreciar mejor
#Mostramos todos los graficos de la tabla ripley
plot(ripley)
#VARIABLES(Balance Y Duracion)
plot(ripley$balance,ripley$duracion,
main="GRAFICO DE DISPERCION",
xlab="balance",
ylab = "duracion",
col=c(4,7))
pairs(ripley$balance ~ ripley$duracion)
#Segun el diagrama no hay correlacion entre las variables balance y duracion
#VARIABLES(edad Y campana)
plot(ripley$edad,ripley$campana,
main="GRAFICO DE DISPERCION",
xlab="edad",
ylab = "campana",
col=c(4,7))
pairs(ripley$edad ~ ripley$campana)
#Segun el diagrama no hay correlacion entre las variables balance y duracion
#VARIABLES(edad Y campana)
plot(ripley$pdias,ripley$duracion,
main="GRAFICO DE DISPERCION",
xlab="pdias",
ylab = "duracion",
col=c(4,7))
pairs(ripley$pdias ~ ripley$duracion)
#Segun el diagrama no hay correlacion entre las variables balance y duracion
library(PerformanceAnalytics)
## Loading required package: xts
## Loading required package: zoo
##
## Attaching package: 'zoo'
## The following objects are masked from 'package:base':
##
## as.Date, as.Date.numeric
##
## Attaching package: 'PerformanceAnalytics'
## The following object is masked from 'package:graphics':
##
## legend
library(corrplot)
## corrplot 0.84 loaded
corrplot(cor(ripley[,12:14]), method = c("pie"))