R Markdown

Como primer paso en la fase de es la carga inicial de la data

data <- read.csv("https://raw.githubusercontent.com/VictorGuevaraP/Mineria-de-datos-2020/master/Desafiliado_miss.csv",
                 sep = ";")

Ahora establecemos la estructura inical de las variable de la data, de la siguente manera:

  str(data)

## 'data.frame':    3333 obs. of  8 variables:
##  $ Genero                  : Factor w/ 2 levels "Femenino","Masculino": 2 2 2 2 2 2 2 2 1 2 ...
##  $ Ocupación               : Factor w/ 5 levels "  ","Educación",..: 5 3 2 5 2 4 2 1 3 1 ...
##  $ Plan_Internacional      : Factor w/ 2 levels "no","si": 1 1 1 2 2 2 1 2 1 2 ...
##  $ Min_En_Dia              : num  265 162 243 299 NA ...
##  $ Min_Internacionales     : num  10 13.7 12.2 6.6 10.1 6.3 7.5 7.1 8.7 11.2 ...
##  $ Reclamos                : int  1 1 0 2 3 0 3 0 1 0 ...
##  $ Llamadas_Internacionales: int  3 3 5 7 3 6 7 6 4 5 ...
##  $ Desafiliado             : Factor w/ 2 levels "no","si": 1 1 1 1 1 1 1 1 1 1 ...

De acuerdo a ello se establece lo siguiente:

Se tiene 3333 datos de 8 variables

Variables:

Género: Género de los clientes, los cuales cuenta con los siguientes niveles

Femenino
Masculino

La ocupación: Ocupación de trabajo de los clientes, en ellos tienen 5 niveles los cuales son los siguiente:

" " (nivel faltante)
Negocios
Otros
Proyectos personales

Plan_Internacional: Si el cliente cuenta con un plan internacional o no, se detallan dos niveles:

Min_En_Dia: Los minutos al día consumidos en llamadas por los clientes.
Min_Internacionales: minutos consumidos en llamadas de tipo internacional. (no especifica el tiempo)
Reclamo: reclamos establecidos por los clientes, las cuales cuentan con 5 niveles.

0 <- “se deberían detallar con factor()”
1 <-
2 <-
3 <-
4 <-
5 <- (o puede ser la cantidad de reclamos reallizada por cliente)

Llamadas internacionales: la cantidad de llamadas internacionales realizadas al mes

summary(data)

##        Genero                    Ocupación   Plan_Internacional   Min_En_Dia   
##  Femenino :1714                       :332   no:3010            Min.   :  0.0  
##  Masculino:1619   Educación           :745   si: 323            1st Qu.:143.6  
##                   Negocios            :732                      Median :179.9  
##                   Otros               :797                      Mean   :180.0  
##                   Proyectos personales:727                      3rd Qu.:216.7  
##                                                                 Max.   :350.8  
##                                                                 NA's   :216    
##  Min_Internacionales    Reclamos     Llamadas_Internacionales Desafiliado
##  Min.   : 0.00       Min.   :0.000   Min.   : 0.000           no:2850    
##  1st Qu.: 8.50       1st Qu.:1.000   1st Qu.: 3.000           si: 483    
##  Median :10.30       Median :1.000   Median : 4.000                      
##  Mean   :10.24       Mean   :1.563   Mean   : 4.479                      
##  3rd Qu.:12.10       3rd Qu.:2.000   3rd Qu.: 6.000                      
##  Max.   :20.00       Max.   :9.000   Max.   :20.000                      
##  NA's   :138

De acuerdo a esto se logra visualizar que en el caso de las variables:

Género: En el caso de ser femenino una cantidad de: 1714 y en el caso de masculino una cantidad de 1619. Por tanto hay una población mayoritaria establecida en masculino.
Ocupación:

" " (nivel faltante): una cantidad de, 332
Educación: una cantidad de, 745
Negocios: una cantidad de, 732

Plan_Internacional

Son 3010 los que no cuentan con un plan internacional
Son 323 los que no cuentan con un plan internacional 4.Min_En_Dia
Se obtiene como máximo en minutos consumidos: 335.8
Se tienen 216 NA’s

Min_Internacional

Se obtiene como máximo en minutos consumidos de llamadas internacionales: 20
Se tiene 138 NA’s

Tipos de reclamos (Se debe hacer una conversión a factor, ya que se brinda tipos, los categoriza de manera numérica) (NO LO SÉ RICK) 7.Llamadas_Internacionales:

Se obtiene como máximo en cantidad de llamadas realizadas: 20

Desafiliafo:

Son 2850 los cuales no están desafiliados
Son 483 los cuales sí están desafiliados

Cohersión en la data

En la variable Reclamos, se convierte a factor

# data$Reclamos <- as.factor(data$Reclamos)

A modo de comprobación se realiza un summaery de esta variable, la cual solo debería realizar un conteo de acuerdo al tipo de reclamo

# summary(data$Reclamos)

Exploración de datos

Evaluación general de NA’s en toda la data

# install.packages("VIM")
library(VIM)

## Warning: package 'VIM' was built under R version 3.6.3

## Loading required package: colorspace

## Loading required package: grid

## Loading required package: data.table

## VIM is ready to use. 
##  Since version 4.0.0 the GUI is in its own package VIMGUI.
## 
##           Please use the package to use the new (and old) GUI.

## Suggestions and bug-reports can be submitted at: https://github.com/alexkowa/VIM/issues

## 
## Attaching package: 'VIM'

## The following object is masked from 'package:datasets':
## 
##     sleep

aggr(data,
     col=c('green', 'red'),
     numbers=TRUE,
     sortVars = TRUE,
     labels=names(data),
     cex.axis=2.0,
     gap= 0.1,
     ylab = c("Histograma de NAs", "Patrón"))

## 
##  Variables sorted by number of missings: 
##                  Variable      Count
##                Min_En_Dia 0.06480648
##       Min_Internacionales 0.04140414
##                    Genero 0.00000000
##                 Ocupación 0.00000000
##        Plan_Internacional 0.00000000
##                  Reclamos 0.00000000
##  Llamadas_Internacionales 0.00000000
##               Desafiliado 0.00000000

# install.packages("ggplot2")
library(ggplot2)
ggplot(data=data)+
  geom_histogram(mapping = aes(x=Reclamos, color=Desafiliado))

## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

Including Plots

You can also embed plots, for example:

Note that the echo = FALSE parameter was added to the code chunk to prevent printing of the R code that generated the plot.

Evaluacion_n1

Alegre Veliz Rosa Mercedes

23/5/2020

R Markdown

Cohersión en la data

Exploración de datos

Including Plots