R Markdown

Como primer paso en la fase de es la carga inicial de la data

data <- read.csv("https://raw.githubusercontent.com/VictorGuevaraP/Mineria-de-datos-2020/master/Desafiliado_miss.csv",
                 sep = ";")

Ahora establecemos la estructura inical de las variable de la data, de la siguente manera:

  str(data)
## 'data.frame':    3333 obs. of  8 variables:
##  $ Genero                  : Factor w/ 2 levels "Femenino","Masculino": 2 2 2 2 2 2 2 2 1 2 ...
##  $ Ocupación               : Factor w/ 5 levels "  ","Educación",..: 5 3 2 5 2 4 2 1 3 1 ...
##  $ Plan_Internacional      : Factor w/ 2 levels "no","si": 1 1 1 2 2 2 1 2 1 2 ...
##  $ Min_En_Dia              : num  265 162 243 299 NA ...
##  $ Min_Internacionales     : num  10 13.7 12.2 6.6 10.1 6.3 7.5 7.1 8.7 11.2 ...
##  $ Reclamos                : int  1 1 0 2 3 0 3 0 1 0 ...
##  $ Llamadas_Internacionales: int  3 3 5 7 3 6 7 6 4 5 ...
##  $ Desafiliado             : Factor w/ 2 levels "no","si": 1 1 1 1 1 1 1 1 1 1 ...

De acuerdo a ello se establece lo siguiente:

Se tiene 3333 datos de 8 variables

Variables:

  1. Género: Género de los clientes, los cuales cuenta con los siguientes niveles
  1. La ocupación: Ocupación de trabajo de los clientes, en ellos tienen 5 niveles los cuales son los siguiente:
  1. Plan_Internacional: Si el cliente cuenta con un plan internacional o no, se detallan dos niveles:
  1. Min_En_Dia: Los minutos al día consumidos en llamadas por los clientes.
  2. Min_Internacionales: minutos consumidos en llamadas de tipo internacional. (no especifica el tiempo)
  3. Reclamo: reclamos establecidos por los clientes, las cuales cuentan con 5 niveles.
  1. Llamadas internacionales: la cantidad de llamadas internacionales realizadas al mes
summary(data)
##        Genero                    Ocupación   Plan_Internacional   Min_En_Dia   
##  Femenino :1714                       :332   no:3010            Min.   :  0.0  
##  Masculino:1619   Educación           :745   si: 323            1st Qu.:143.6  
##                   Negocios            :732                      Median :179.9  
##                   Otros               :797                      Mean   :180.0  
##                   Proyectos personales:727                      3rd Qu.:216.7  
##                                                                 Max.   :350.8  
##                                                                 NA's   :216    
##  Min_Internacionales    Reclamos     Llamadas_Internacionales Desafiliado
##  Min.   : 0.00       Min.   :0.000   Min.   : 0.000           no:2850    
##  1st Qu.: 8.50       1st Qu.:1.000   1st Qu.: 3.000           si: 483    
##  Median :10.30       Median :1.000   Median : 4.000                      
##  Mean   :10.24       Mean   :1.563   Mean   : 4.479                      
##  3rd Qu.:12.10       3rd Qu.:2.000   3rd Qu.: 6.000                      
##  Max.   :20.00       Max.   :9.000   Max.   :20.000                      
##  NA's   :138

De acuerdo a esto se logra visualizar que en el caso de las variables:

  1. Género: En el caso de ser femenino una cantidad de: 1714 y en el caso de masculino una cantidad de 1619. Por tanto hay una población mayoritaria establecida en masculino.

  2. Ocupación:

  1. Plan_Internacional
  1. Min_Internacional
  1. Tipos de reclamos (Se debe hacer una conversión a factor, ya que se brinda tipos, los categoriza de manera numérica) (NO LO SÉ RICK) 7.Llamadas_Internacionales:
  1. Desafiliafo:

Cohersión en la data

En la variable Reclamos, se convierte a factor

# data$Reclamos <- as.factor(data$Reclamos)

A modo de comprobación se realiza un summaery de esta variable, la cual solo debería realizar un conteo de acuerdo al tipo de reclamo

# summary(data$Reclamos)

Exploración de datos

Evaluación general de NA’s en toda la data

# install.packages("VIM")
library(VIM)
## Warning: package 'VIM' was built under R version 3.6.3
## Loading required package: colorspace
## Loading required package: grid
## Loading required package: data.table
## VIM is ready to use. 
##  Since version 4.0.0 the GUI is in its own package VIMGUI.
## 
##           Please use the package to use the new (and old) GUI.
## Suggestions and bug-reports can be submitted at: https://github.com/alexkowa/VIM/issues
## 
## Attaching package: 'VIM'
## The following object is masked from 'package:datasets':
## 
##     sleep
aggr(data,
     col=c('green', 'red'),
     numbers=TRUE,
     sortVars = TRUE,
     labels=names(data),
     cex.axis=2.0,
     gap= 0.1,
     ylab = c("Histograma de NAs", "Patrón"))

## 
##  Variables sorted by number of missings: 
##                  Variable      Count
##                Min_En_Dia 0.06480648
##       Min_Internacionales 0.04140414
##                    Genero 0.00000000
##                 Ocupación 0.00000000
##        Plan_Internacional 0.00000000
##                  Reclamos 0.00000000
##  Llamadas_Internacionales 0.00000000
##               Desafiliado 0.00000000
# install.packages("ggplot2")
library(ggplot2)
ggplot(data=data)+
  geom_histogram(mapping = aes(x=Reclamos, color=Desafiliado))
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

Including Plots

You can also embed plots, for example:

Note that the echo = FALSE parameter was added to the code chunk to prevent printing of the R code that generated the plot.