WONG CASAS ARIAN JEANPIERO JESUS
¿Que es el AED? Es una forma de analizar datos es el tratamiento estadístico al que se someten las muestras recogidas durante un proceso de investigación en cualquier campo científico. ¿Cual es su objetivo? Es ayudan a organizar la información que nos dan los datos de manera de detectar algún patrón de comportamiento así como también apartamientos importantes al modelo.
Extraemos los datos de Github y le podre el nombre de Minería
Minería =read.csv("https://raw.githubusercontent.com/VictorGuevaraP/Mineria-de-datos/master/MarketingDirecto.csv", sep = ",")
Mostramos los nombres de las variables
names(Minería)
## [1] "Edad" "Genero" "Vivienda" "Ecivil" "Ubicacion"
## [6] "Salario" "Hijos" "Historial" "Catalogos" "Monto"
Mostramos los 6 primeros datos
head(Minería)
Observamos la estructura de los datos
str(Minería)
## 'data.frame': 1000 obs. of 10 variables:
## $ Edad : Factor w/ 3 levels "Adulta","Joven",..: 1 3 2 3 3 2 3 3 3 1 ...
## $ Genero : Factor w/ 2 levels "Femenino","Masculino": 1 2 1 2 1 2 1 2 1 2 ...
## $ Vivienda : Factor w/ 2 levels "Alquilada","Propia": 2 1 1 2 2 2 1 2 2 2 ...
## $ Ecivil : Factor w/ 2 levels "Casado","Soltero": 2 2 2 1 2 1 2 2 1 1 ...
## $ Ubicacion: Factor w/ 2 levels "Cerca","Lejos": 2 1 1 1 1 1 1 1 1 2 ...
## $ Salario : int 47500 63600 13500 85600 68400 30400 48100 68400 51900 80700 ...
## $ Hijos : int 0 0 0 1 0 0 0 0 3 0 ...
## $ Historial: Factor w/ 3 levels "Alto","Bajo",..: 1 1 2 1 1 2 3 1 2 NA ...
## $ Catalogos: int 6 6 18 18 12 6 12 18 6 18 ...
## $ Monto : int 755 1318 296 2436 1304 495 782 1155 158 3034 ...
Realizaremos un análisis univariado
table(Minería$Edad)
##
## Adulta Joven Media
## 205 287 508
table(Minería$Vivienda)
##
## Alquilada Propia
## 484 516
table(Minería$Ecivil)
##
## Casado Soltero
## 502 498
table(Minería$Genero)
##
## Femenino Masculino
## 506 494
table(Minería$Historial)
##
## Alto Bajo Medio
## 255 230 212
table(Minería$Ubicacion)
##
## Cerca Lejos
## 710 290
Usamos la libreria DMwR para imputar los datos faltantes (NA), usando un promedio de los datos más cercanos.|
library(DMwR)
## Loading required package: lattice
## Loading required package: grid
## Registered S3 method overwritten by 'xts':
## method from
## as.zoo.xts zoo
## Registered S3 method overwritten by 'quantmod':
## method from
## as.zoo.data.frame zoo
Minería1 <- knnImputation(Minería)
table(Minería1$Historial)
##
## Alto Bajo Medio
## 462 303 235
Historial<-table(Minería1$Historial)
barplot(Historial)
Segun el grafico mostrado se puede ver que hay mayor cantidad de personas con un Historial alto. Realizamos una tabla de resumen con la libreria gmodels
library(gmodels)
CrossTable(Minería1$Historial, format = "SPSS")
##
## Cell Contents
## |-------------------------|
## | Count |
## | Row Percent |
## |-------------------------|
##
## Total Observations in Table: 1000
##
## | Alto | Bajo | Medio |
## |-----------|-----------|-----------|
## | 462 | 303 | 235 |
## | 46.200% | 30.300% | 23.500% |
## |-----------|-----------|-----------|
##
##
Análisis Bivariado y multivariado Realizamos gráficos con la libreria ggplot2
library(ggplot2)
ggplot(data=Minería1)+
geom_bar(mapping = aes(x=Salario, color=Historial))
library(ggplot2)
ggplot(data=Minería1)+
geom_bar(mapping = aes(x=Genero, color=Edad))
library(ggplot2)
ggplot(data=Minería1)+
geom_bar(mapping = aes(x=Vivienda, color=Ubicacion))
library(ggplot2)
ggplot(data=Minería1)+
geom_histogram(mapping = aes(x=Salario, color=Ecivil))
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.