R Notebook

WONG CASAS ARIAN JEANPIERO JESUS

¿Que es el AED? Es una forma de analizar datos es el tratamiento estadístico al que se someten las muestras recogidas durante un proceso de investigación en cualquier campo científico. ¿Cual es su objetivo? Es ayudan a organizar la información que nos dan los datos de manera de detectar algún patrón de comportamiento así como también apartamientos importantes al modelo.

Extraemos los datos de Github y le podre el nombre de Minería

Minería =read.csv("https://raw.githubusercontent.com/VictorGuevaraP/Mineria-de-datos/master/MarketingDirecto.csv", sep = ",")

Mostramos los nombres de las variables

names(Minería)

##  [1] "Edad"      "Genero"    "Vivienda"  "Ecivil"    "Ubicacion"
##  [6] "Salario"   "Hijos"     "Historial" "Catalogos" "Monto"

Mostramos los 6 primeros datos

head(Minería)

Observamos la estructura de los datos

str(Minería)

## 'data.frame':    1000 obs. of  10 variables:
##  $ Edad     : Factor w/ 3 levels "Adulta","Joven",..: 1 3 2 3 3 2 3 3 3 1 ...
##  $ Genero   : Factor w/ 2 levels "Femenino","Masculino": 1 2 1 2 1 2 1 2 1 2 ...
##  $ Vivienda : Factor w/ 2 levels "Alquilada","Propia": 2 1 1 2 2 2 1 2 2 2 ...
##  $ Ecivil   : Factor w/ 2 levels "Casado","Soltero": 2 2 2 1 2 1 2 2 1 1 ...
##  $ Ubicacion: Factor w/ 2 levels "Cerca","Lejos": 2 1 1 1 1 1 1 1 1 2 ...
##  $ Salario  : int  47500 63600 13500 85600 68400 30400 48100 68400 51900 80700 ...
##  $ Hijos    : int  0 0 0 1 0 0 0 0 3 0 ...
##  $ Historial: Factor w/ 3 levels "Alto","Bajo",..: 1 1 2 1 1 2 3 1 2 NA ...
##  $ Catalogos: int  6 6 18 18 12 6 12 18 6 18 ...
##  $ Monto    : int  755 1318 296 2436 1304 495 782 1155 158 3034 ...

Realizaremos un análisis univariado

table(Minería$Edad)

## 
## Adulta  Joven  Media 
##    205    287    508

table(Minería$Vivienda)

## 
## Alquilada    Propia 
##       484       516

table(Minería$Ecivil)

## 
##  Casado Soltero 
##     502     498

table(Minería$Genero)

## 
##  Femenino Masculino 
##       506       494

table(Minería$Historial)

## 
##  Alto  Bajo Medio 
##   255   230   212

table(Minería$Ubicacion)

## 
## Cerca Lejos 
##   710   290

Usamos la libreria DMwR para imputar los datos faltantes (NA), usando un promedio de los datos más cercanos.|

library(DMwR)

## Loading required package: lattice

## Loading required package: grid

## Registered S3 method overwritten by 'xts':
##   method     from
##   as.zoo.xts zoo

## Registered S3 method overwritten by 'quantmod':
##   method            from
##   as.zoo.data.frame zoo

Minería1 <- knnImputation(Minería)
table(Minería1$Historial)

## 
##  Alto  Bajo Medio 
##   462   303   235

Historial<-table(Minería1$Historial)

barplot(Historial)

Segun el grafico mostrado se puede ver que hay mayor cantidad de personas con un Historial alto. Realizamos una tabla de resumen con la libreria gmodels

library(gmodels)
CrossTable(Minería1$Historial, format = "SPSS")

## 
##    Cell Contents
## |-------------------------|
## |                   Count |
## |             Row Percent |
## |-------------------------|
## 
## Total Observations in Table:  1000 
## 
##           |     Alto  |     Bajo  |    Medio  | 
##           |-----------|-----------|-----------|
##           |      462  |      303  |      235  | 
##           |   46.200% |   30.300% |   23.500% | 
##           |-----------|-----------|-----------|
## 
##

Análisis Bivariado y multivariado Realizamos gráficos con la libreria ggplot2

library(ggplot2)
ggplot(data=Minería1)+
  geom_bar(mapping = aes(x=Salario, color=Historial))

library(ggplot2)
ggplot(data=Minería1)+
  geom_bar(mapping = aes(x=Genero, color=Edad))

library(ggplot2)
ggplot(data=Minería1)+
  geom_bar(mapping = aes(x=Vivienda, color=Ubicacion))

library(ggplot2)
  ggplot(data=Minería1)+
  geom_histogram(mapping = aes(x=Salario, color=Ecivil))

## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.