Como primer paso en la fase de es la carga inicial de la data
data <- read.csv("https://raw.githubusercontent.com/VictorGuevaraP/Mineria-de-datos-2020/master/Desafiliado_miss.csv",
sep = ";")
Ahora establecemos la estructura inical de las variable de la data, de la siguente manera:
str(data)
## 'data.frame': 3333 obs. of 8 variables:
## $ Genero : Factor w/ 2 levels "Femenino","Masculino": 2 2 2 2 2 2 2 2 1 2 ...
## $ Ocupación : Factor w/ 5 levels " ","Educación",..: 5 3 2 5 2 4 2 1 3 1 ...
## $ Plan_Internacional : Factor w/ 2 levels "no","si": 1 1 1 2 2 2 1 2 1 2 ...
## $ Min_En_Dia : num 265 162 243 299 NA ...
## $ Min_Internacionales : num 10 13.7 12.2 6.6 10.1 6.3 7.5 7.1 8.7 11.2 ...
## $ Reclamos : int 1 1 0 2 3 0 3 0 1 0 ...
## $ Llamadas_Internacionales: int 3 3 5 7 3 6 7 6 4 5 ...
## $ Desafiliado : Factor w/ 2 levels "no","si": 1 1 1 1 1 1 1 1 1 1 ...
De acuerdo a ello se establece lo siguiente:
Se tiene 3333 datos de 8 variables
Variables:
summary(data)
## Genero Ocupación Plan_Internacional Min_En_Dia
## Femenino :1714 :332 no:3010 Min. : 0.0
## Masculino:1619 Educación :745 si: 323 1st Qu.:143.6
## Negocios :732 Median :179.9
## Otros :797 Mean :180.0
## Proyectos personales:727 3rd Qu.:216.7
## Max. :350.8
## NA's :216
## Min_Internacionales Reclamos Llamadas_Internacionales Desafiliado
## Min. : 0.00 Min. :0.000 Min. : 0.000 no:2850
## 1st Qu.: 8.50 1st Qu.:1.000 1st Qu.: 3.000 si: 483
## Median :10.30 Median :1.000 Median : 4.000
## Mean :10.24 Mean :1.563 Mean : 4.479
## 3rd Qu.:12.10 3rd Qu.:2.000 3rd Qu.: 6.000
## Max. :20.00 Max. :9.000 Max. :20.000
## NA's :138
De acuerdo a esto se logra visualizar que en el caso de las variables:
Género: En el caso de ser femenino una cantidad de: 1714 y en el caso de masculino una cantidad de 1619. Por tanto hay una población mayoritaria establecida en masculino.
Ocupación:
En la variable Reclamos, se convierte a factor
# data$Reclamos <- as.factor(data$Reclamos)
A modo de comprobación se realiza un summaery de esta variable, la cual solo debería realizar un conteo de acuerdo al tipo de reclamo
# summary(data$Reclamos)
Evaluación general de NA’s en toda la data
# install.packages("VIM")
library(VIM)
## Warning: package 'VIM' was built under R version 3.6.3
## Loading required package: colorspace
## Loading required package: grid
## Loading required package: data.table
## VIM is ready to use.
## Since version 4.0.0 the GUI is in its own package VIMGUI.
##
## Please use the package to use the new (and old) GUI.
## Suggestions and bug-reports can be submitted at: https://github.com/alexkowa/VIM/issues
##
## Attaching package: 'VIM'
## The following object is masked from 'package:datasets':
##
## sleep
aggr(data,
col=c('green', 'red'),
numbers=TRUE,
sortVars = TRUE,
labels=names(data),
cex.axis=2.0,
gap= 0.1,
ylab = c("Histograma de NAs", "Patrón"))
##
## Variables sorted by number of missings:
## Variable Count
## Min_En_Dia 0.06480648
## Min_Internacionales 0.04140414
## Genero 0.00000000
## Ocupación 0.00000000
## Plan_Internacional 0.00000000
## Reclamos 0.00000000
## Llamadas_Internacionales 0.00000000
## Desafiliado 0.00000000
# install.packages("ggplot2")
library(ggplot2)
ggplot(data=data)+
geom_histogram(mapping = aes(x=Reclamos, color=Desafiliado))
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
You can also embed plots, for example:
Note that the echo = FALSE
parameter was added to the code chunk to prevent printing of the R code that generated the plot.