Cargamos las librerias a utilizar
library(dplyr) # for data manipulation
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
library(caret) # for model-building
## Loading required package: lattice
## Loading required package: ggplot2
library(DMwR) # for smote implementation
## Loading required package: grid
## Registered S3 method overwritten by 'xts':
## method from
## as.zoo.xts zoo
## Registered S3 method overwritten by 'quantmod':
## method from
## as.zoo.data.frame zoo
library(purrr) # for functional programming (map)
##
## Attaching package: 'purrr'
## The following object is masked from 'package:caret':
##
## lift
library(pROC)
## Type 'citation("pROC")' for a citation.
##
## Attaching package: 'pROC'
## The following objects are masked from 'package:stats':
##
## cov, smooth, var
library(knitr)
library(qgraph)
## Registered S3 methods overwritten by 'BDgraph':
## method from
## plot.sim lava
## print.sim lava
## Registered S3 methods overwritten by 'huge':
## method from
## plot.roc pROC
## plot.sim BDgraph
## print.roc pROC
## print.sim BDgraph
library(nortest)
library(magrittr)
##
## Attaching package: 'magrittr'
## The following object is masked from 'package:purrr':
##
## set_names
library(dplyr)
library(tidyr)
##
## Attaching package: 'tidyr'
## The following object is masked from 'package:magrittr':
##
## extract
library(e1071)
library(OneR)
library(tidyverse) # data manipulation and visualization
## -- Attaching packages -------------------------------------------------------------------------------------------------------- tidyverse 1.2.1 --
## v tibble 2.1.3 v stringr 1.4.0
## v readr 1.3.1 v forcats 0.4.0
## -- Conflicts ----------------------------------------------------------------------------------------------------------- tidyverse_conflicts() --
## x tidyr::extract() masks magrittr::extract()
## x dplyr::filter() masks stats::filter()
## x dplyr::lag() masks stats::lag()
## x purrr::lift() masks caret::lift()
## x magrittr::set_names() masks purrr::set_names()
library(ggplot2) # plot arrangement
library(gridExtra) # plot arrangement
##
## Attaching package: 'gridExtra'
## The following object is masked from 'package:dplyr':
##
## combine
library(caret)
library(ggplot2)
library(FactoMineR)
library(factoextra)
## Welcome! Related Books: `Practical Guide To Cluster Analysis in R` at https://goo.gl/13EFCZ
library(modes) # MODA VER EL COMPORTAMIENTO GENERAL DE LA INF
##
## Attaching package: 'modes'
## The following objects are masked from 'package:e1071':
##
## kurtosis, skewness
library(randomForest)
## randomForest 4.6-14
## Type rfNews() to see new features/changes/bug fixes.
##
## Attaching package: 'randomForest'
## The following object is masked from 'package:gridExtra':
##
## combine
## The following object is masked from 'package:ggplot2':
##
## margin
## The following object is masked from 'package:dplyr':
##
## combine
#############################################
#CARGAS DATOS PARA TRABAJAR MODELO PREDICTIVO
############################################
#ruta <- 'C:/Users/Jhampier/Google Drive/Maestria/TESIS DE MAESTRIA/Proyecto'
#setwd('C:/Users/Jhampier/Google Drive/Maestria/TESIS DE MAESTRIA/Proyecto')
#C:\Users\Administrador\Desktop
ruta <- 'C:/Users/Administrador/Desktop'
setwd('C:/Users/Administrador/Desktop')
#Leer el conjunto de datos del archivo CSV
DataSetUprivada <- read.table("C:/Users/Administrador/Desktop/DataSetUprivadaBinarizadaSinRuidoFuturo.csv",header=TRUE,sep=";")
##########################################################
########## 2 COMPRESION DE DATOS Y 3 PREPARACIÓN DE DATOS#####
##########################################################
View(DataSetUprivada)
########################################################
## DIMENSIONES - CANTIDAD DE FILAS Y VARIABLES(COLUMNAS)
nrow(DataSetUprivada)#[1] 35693
## [1] 35693
ncol(DataSetUprivada)#[1] 27 -1 de categoria(var categorica)
## [1] 28
colnames(DataSetUprivada)#Nombres de Variables
## [1] "CodAlumno" "SemestresEstudiadosAcum"
## [3] "CantCursosLlevadosAcum" "CursosLlevadosFueraCarreraAcum"
## [5] "AvgSinAplzAcum" "AvgConAplzAcum"
## [7] "CantCursosAplzAcum" "SumCredTeoAcum"
## [9] "SumCredPraAcum" "edad"
## [11] "SEXO" "AvgVezMatriAcum"
## [13] "CarreraProfesional" "MODALIDAD_INGRESO"
## [15] "ANIO_INGRESO" "UBIG_NACIMIENTO"
## [17] "UBIG_RESIDENCIA" "TIPO_VIVIENDA"
## [19] "GradoInstruccionPapa" "ProfesionPapa"
## [21] "OcupacionPapa" "GradoInstruccionMama"
## [23] "ProfesionMama" "OcupacionMama"
## [25] "CantCursosAnulados" "categoria"
## [27] "categoriaBinarizada" "ProbabDesercion"
##NOMBRES Y TIPOS DE DATOS DE LAS COLUMNAS
sapply(DataSetUprivada, mode)
## CodAlumno SemestresEstudiadosAcum
## "numeric" "numeric"
## CantCursosLlevadosAcum CursosLlevadosFueraCarreraAcum
## "numeric" "numeric"
## AvgSinAplzAcum AvgConAplzAcum
## "numeric" "numeric"
## CantCursosAplzAcum SumCredTeoAcum
## "numeric" "numeric"
## SumCredPraAcum edad
## "numeric" "numeric"
## SEXO AvgVezMatriAcum
## "numeric" "numeric"
## CarreraProfesional MODALIDAD_INGRESO
## "numeric" "numeric"
## ANIO_INGRESO UBIG_NACIMIENTO
## "numeric" "numeric"
## UBIG_RESIDENCIA TIPO_VIVIENDA
## "numeric" "numeric"
## GradoInstruccionPapa ProfesionPapa
## "numeric" "numeric"
## OcupacionPapa GradoInstruccionMama
## "numeric" "numeric"
## ProfesionMama OcupacionMama
## "numeric" "numeric"
## CantCursosAnulados categoria
## "numeric" "numeric"
## categoriaBinarizada ProbabDesercion
## "numeric" "numeric"
summary(DataSetUprivada)#PODEMOS OBSERVAR EN EL POWER
## CodAlumno SemestresEstudiadosAcum CantCursosLlevadosAcum
## 20000062092012-1: 1 Min. : 1.000 Min. : 1.00
## 20000062092012-2: 1 1st Qu.: 2.000 1st Qu.:11.00
## 20000062092013-1: 1 Median : 4.000 Median :20.00
## 20000062092013-2: 1 Mean : 4.187 Mean :23.17
## 20000063092012-1: 1 3rd Qu.: 6.000 3rd Qu.:33.00
## 20000063092012-2: 1 Max. :12.000 Max. :81.00
## (Other) :35687
## CursosLlevadosFueraCarreraAcum AvgSinAplzAcum AvgConAplzAcum
## Min. : 1.000 11,00 : 123 12,00 : 176
## 1st Qu.: 2.000 12,00 : 122 11,00 : 155
## Median : 4.000 10,33 : 121 11,67 : 121
## Mean : 4.306 10,00 : 112 13,00 : 121
## 3rd Qu.: 6.000 10,67 : 106 11,33 : 117
## Max. :18.000 13,00 : 104 10,67 : 112
## (Other):35005 (Other):34891
## CantCursosAplzAcum SumCredTeoAcum SumCredPraAcum edad
## Min. : 0.000 Min. : 1.0 Min. : 0.00 Min. : 14.00
## 1st Qu.: 1.000 1st Qu.: 27.0 1st Qu.: 7.00 1st Qu.: 18.00
## Median : 3.000 Median : 50.0 Median :15.00 Median : 20.00
## Mean : 5.247 Mean : 59.4 Mean :17.78 Mean : 20.55
## 3rd Qu.: 8.000 3rd Qu.: 85.0 3rd Qu.:25.00 3rd Qu.: 22.00
## Max. :48.000 Max. :200.0 Max. :80.00 Max. :113.00
##
## SEXO AvgVezMatriAcum
## F: 9994 1,00 :18850
## M:25699 1,04 : 771
## 1,03 : 718
## 1,07 : 690
## 1,06 : 689
## 1,02 : 670
## (Other):13305
## CarreraProfesional
## INGENIERIA INDUSTRIAL :8791
## INGENIERIA MECANICA, MECANICA-ELECTRICA Y MECATRONICA:8528
## INGENIERIA DE SISTEMAS :4537
## INGENIERIA ELECTRONICA :3699
## MEDICINA VETERINARIA Y ZOOTECNIA :3124
## INGENIERIA DE MINAS :3119
## (Other) :3895
## MODALIDAD_INGRESO ANIO_INGRESO UBIG_NACIMIENTO
## Tercer Examen General :8524 Min. :2009 AREQUIPA :21072
## Segundo Examen General :6259 1st Qu.:2011 PAUCARPATA: 1444
## Primer Examen General :5818 Median :2012 JULIACA : 869
## Centro Preuniversitario III:3417 Mean :2012 YANAHUARA : 707
## Centro Preuniversitario I :2962 3rd Qu.:2014 ILO : 701
## Centro Preuniversitario II :2962 Max. :2017 MOLLENDO : 655
## (Other) :5751 (Other) :10245
## UBIG_RESIDENCIA TIPO_VIVIENDA
## JOSE LUIS BUSTAMANTE Y RIVERO: 5274 CASA :29859
## CERRO COLORADO : 3949 DEPARTAMENTO: 5484
## AREQUIPA : 3931 VECINDAD : 350
## PAUCARPATA : 3272
## CAYMA : 2701
## YANAHUARA : 2381
## (Other) :14185
## GradoInstruccionPapa ProfesionPapa
## SECUNDARIA COMPLETA :7703 OTROS :13173
## SUPERIOR UNIV. COMPLETA :6279 PROFESION ... : 6469
## SUPERIOR TECNICA COMPLETA:5469 CONTADOR : 2238
## GRADUADO UNIVERSITARIO :4493 ADMINISTRADOR DE EMPRESAS: 1550
## SUPERIOR UNIV. INCOMPLETA:4372 PROFESOR : 1479
## NIVEL EDUCATIVO ... :1770 ABOGADO : 1313
## (Other) :5607 (Other) : 9471
## OcupacionPapa GradoInstruccionMama
## EMPLEADO :10711 SECUNDARIA COMPLETA :8926
## OTRO : 5305 SUPERIOR UNIV. COMPLETA :6048
## OCUPACION ... : 3028 SUPERIOR TECNICA COMPLETA :5695
## MICROEMPRESARIO : 2396 GRADUADO UNIVERSITARIO :4726
## FF. POLICIALES : 2185 SUPERIOR UNIV. INCOMPLETA :3464
## CONDUCTOR DE VEHICULO: 2182 EST. SUP. NO UNIVERSITARIOS:1674
## (Other) : 9886 (Other) :5160
## ProfesionMama OcupacionMama
## OTROS :13518 AMA DE CASA :14746
## PROFESION ... : 5909 EMPLEADO : 8825
## ENFERMERA : 2976 OTRO : 3767
## PROFESOR : 2966 COMERCIANTE MINORISTA: 2208
## CONTADOR : 2400 OCUPACION ... : 1576
## ADMINISTRADOR DE EMPRESAS: 871 MICROEMPRESARIO : 1558
## (Other) : 7053 (Other) : 3013
## CantCursosAnulados categoria categoriaBinarizada
## Min. : 0.0000 CONTINUA :31076 Min. :0.0000
## 1st Qu.: 0.0000 DESERTOR : 1959 1st Qu.:0.0000
## Median : 0.0000 EGRESADO : 1858 Median :0.0000
## Mean : 0.2907 PROB.DESERTOR: 800 Mean :0.0773
## 3rd Qu.: 0.0000 3rd Qu.:0.0000
## Max. :16.0000 Max. :1.0000
##
## ProbabDesercion
## 14,24 :7157
## 10,24 :5477
## 6,61 :4901
## 5,87 :4037
## 5,03 :3595
## 5,35 :2878
## (Other):7648
summary(DataSetUprivada$CarreraProfesional)#PODEMOS OBSERVAR EN EL POWER
## INGENIERIA AGRONOMICA
## 952
## INGENIERIA AGRONOMICA Y AGRICOLA
## 551
## INGENIERIA DE INDUSTRIA ALIMENTARIA
## 2392
## INGENIERIA DE MINAS
## 3119
## INGENIERIA DE SISTEMAS
## 4537
## INGENIERIA ELECTRONICA
## 3699
## INGENIERIA INDUSTRIAL
## 8791
## INGENIERIA MECANICA, MECANICA-ELECTRICA Y MECATRONICA
## 8528
## MEDICINA VETERINARIA Y ZOOTECNIA
## 3124
########################################################
########### PREPARACIÓN DE DATA POR VARIABLES ########
########################################################
###Converision para tipo de dato correcto
DataSetUPRIVADAFRMTO <-transform(DataSetUprivada,
SEXO = as.factor(as.character(SEXO)),
CarreraProfesional = as.factor(as.character(CarreraProfesional)),
MODALIDAD_INGRESO = as.factor(as.character(MODALIDAD_INGRESO)),
UBIG_NACIMIENTO = as.factor(as.character(UBIG_NACIMIENTO)),
UBIG_RESIDENCIA = as.factor(as.character(UBIG_RESIDENCIA)),
TIPO_VIVIENDA = as.factor(as.character(TIPO_VIVIENDA)),
GradoInstruccionPapa = as.factor(as.character(GradoInstruccionPapa)),
ProfesionPapa = as.factor(as.character(ProfesionPapa)),
OcupacionPapa = as.factor(as.character(OcupacionPapa)),
GradoInstruccionMama = as.factor(as.character(GradoInstruccionMama)),
ProfesionMama = as.factor(as.character(ProfesionMama)),
OcupacionMama = as.factor(as.character(OcupacionMama))
,categoriaBinarizada = as.factor(as.character(categoriaBinarizada))
)
DataSetUPRIVADAFRMTO[,'AvgSinAplzAcum'] <- as.numeric(sub(",", ".", DataSetUPRIVADAFRMTO[,'AvgSinAplzAcum']
, fixed = TRUE))
DataSetUPRIVADAFRMTO[,'AvgConAplzAcum'] <- as.numeric(sub(",", ".", DataSetUPRIVADAFRMTO[,'AvgConAplzAcum']
, fixed = TRUE))
DataSetUPRIVADAFRMTO[,'AvgVezMatriAcum'] <- as.numeric(sub(",", ".", DataSetUPRIVADAFRMTO[,'AvgVezMatriAcum']
, fixed = TRUE))
DataSetUPRIVADAFRMTO[,'ProbabDesercion'] <- as.numeric(sub(",", ".", DataSetUPRIVADAFRMTO[,'ProbabDesercion']
, fixed = TRUE))
##sapply(DataSetUPRIVADAFRMTO, mode)
ListVar.Categ <- c('SEXO','CarreraProfesional','MODALIDAD_INGRESO'
,'UBIG_NACIMIENTO','UBIG_RESIDENCIA','TIPO_VIVIENDA'
,'GradoInstruccionPapa','ProfesionPapa','OcupacionPapa'
,'GradoInstruccionMama','ProfesionMama','OcupacionMama') # 12
Var.Objetivo <- c('categoriaBinarizada') #c('categoria') # 1
ListVar.Continuas <- c('SemestresEstudiadosAcum'
,'CantCursosLlevadosAcum'
,'CursosLlevadosFueraCarreraAcum'
,'AvgSinAplzAcum','AvgConAplzAcum'
,'CantCursosAplzAcum'
,'SumCredTeoAcum'
,'SumCredPraAcum'
,'edad'
#T#,'AvgVezMatriAcum'
,'ANIO_INGRESO'
#T#,'CantCursosAnulados' # 12
,'ProbabDesercion'
)
Var.Identificacion <- c('CodAlumno') # 1
Var.TodasUprivada <- c(ListVar.Categ ,ListVar.Continuas , Var.Objetivo)
##############################################################################
# ###ORDENAMOS EL DATASET CRONOLOGICAMENTE
############################################################################
### ANTES
View(DataSetUPRIVADAFRMTO)
TotalFilas <- nrow(DataSetUPRIVADAFRMTO) #35687
SortUltimaFila=vector(mode='numeric', length=TotalFilas)
SortUltimaFila2=vector(mode='numeric', length=TotalFilas)
##Obtendremos las variables dle codigod el alumno para ordenar el dataset
NuevoDataSetUPRIVADAFRMTO = data.frame(DataSetUPRIVADAFRMTO, SortUltimaFila,SortUltimaFila2)
View(NuevoDataSetUPRIVADAFRMTO)
summary(NuevoDataSetUPRIVADAFRMTO)
## CodAlumno SemestresEstudiadosAcum CantCursosLlevadosAcum
## 20000062092012-1: 1 Min. : 1.000 Min. : 1.00
## 20000062092012-2: 1 1st Qu.: 2.000 1st Qu.:11.00
## 20000062092013-1: 1 Median : 4.000 Median :20.00
## 20000062092013-2: 1 Mean : 4.187 Mean :23.17
## 20000063092012-1: 1 3rd Qu.: 6.000 3rd Qu.:33.00
## 20000063092012-2: 1 Max. :12.000 Max. :81.00
## (Other) :35687
## CursosLlevadosFueraCarreraAcum AvgSinAplzAcum AvgConAplzAcum
## Min. : 1.000 Min. : 0.00 Min. : 0.00
## 1st Qu.: 2.000 1st Qu.: 8.91 1st Qu.: 9.36
## Median : 4.000 Median :10.63 Median :11.06
## Mean : 4.306 Mean :10.54 Mean :10.84
## 3rd Qu.: 6.000 3rd Qu.:12.32 3rd Qu.:12.52
## Max. :18.000 Max. :19.66 Max. :19.66
##
## CantCursosAplzAcum SumCredTeoAcum SumCredPraAcum edad
## Min. : 0.000 Min. : 1.0 Min. : 0.00 Min. : 14.00
## 1st Qu.: 1.000 1st Qu.: 27.0 1st Qu.: 7.00 1st Qu.: 18.00
## Median : 3.000 Median : 50.0 Median :15.00 Median : 20.00
## Mean : 5.247 Mean : 59.4 Mean :17.78 Mean : 20.55
## 3rd Qu.: 8.000 3rd Qu.: 85.0 3rd Qu.:25.00 3rd Qu.: 22.00
## Max. :48.000 Max. :200.0 Max. :80.00 Max. :113.00
##
## SEXO AvgVezMatriAcum
## F: 9994 Min. :1.000
## M:25699 1st Qu.:1.000
## Median :1.000
## Mean :1.138
## 3rd Qu.:1.170
## Max. :4.000
##
## CarreraProfesional
## INGENIERIA INDUSTRIAL :8791
## INGENIERIA MECANICA, MECANICA-ELECTRICA Y MECATRONICA:8528
## INGENIERIA DE SISTEMAS :4537
## INGENIERIA ELECTRONICA :3699
## MEDICINA VETERINARIA Y ZOOTECNIA :3124
## INGENIERIA DE MINAS :3119
## (Other) :3895
## MODALIDAD_INGRESO ANIO_INGRESO UBIG_NACIMIENTO
## Tercer Examen General :8524 Min. :2009 AREQUIPA :21072
## Segundo Examen General :6259 1st Qu.:2011 PAUCARPATA: 1444
## Primer Examen General :5818 Median :2012 JULIACA : 869
## Centro Preuniversitario III:3417 Mean :2012 YANAHUARA : 707
## Centro Preuniversitario I :2962 3rd Qu.:2014 ILO : 701
## Centro Preuniversitario II :2962 Max. :2017 MOLLENDO : 655
## (Other) :5751 (Other) :10245
## UBIG_RESIDENCIA TIPO_VIVIENDA
## JOSE LUIS BUSTAMANTE Y RIVERO: 5274 CASA :29859
## CERRO COLORADO : 3949 DEPARTAMENTO: 5484
## AREQUIPA : 3931 VECINDAD : 350
## PAUCARPATA : 3272
## CAYMA : 2701
## YANAHUARA : 2381
## (Other) :14185
## GradoInstruccionPapa ProfesionPapa
## SECUNDARIA COMPLETA :7703 OTROS :13173
## SUPERIOR UNIV. COMPLETA :6279 PROFESION ... : 6469
## SUPERIOR TECNICA COMPLETA:5469 CONTADOR : 2238
## GRADUADO UNIVERSITARIO :4493 ADMINISTRADOR DE EMPRESAS: 1550
## SUPERIOR UNIV. INCOMPLETA:4372 PROFESOR : 1479
## NIVEL EDUCATIVO ... :1770 ABOGADO : 1313
## (Other) :5607 (Other) : 9471
## OcupacionPapa GradoInstruccionMama
## EMPLEADO :10711 SECUNDARIA COMPLETA :8926
## OTRO : 5305 SUPERIOR UNIV. COMPLETA :6048
## OCUPACION ... : 3028 SUPERIOR TECNICA COMPLETA :5695
## MICROEMPRESARIO : 2396 GRADUADO UNIVERSITARIO :4726
## FF. POLICIALES : 2185 SUPERIOR UNIV. INCOMPLETA :3464
## CONDUCTOR DE VEHICULO: 2182 EST. SUP. NO UNIVERSITARIOS:1674
## (Other) : 9886 (Other) :5160
## ProfesionMama OcupacionMama
## OTROS :13518 AMA DE CASA :14746
## PROFESION ... : 5909 EMPLEADO : 8825
## ENFERMERA : 2976 OTRO : 3767
## PROFESOR : 2966 COMERCIANTE MINORISTA: 2208
## CONTADOR : 2400 OCUPACION ... : 1576
## ADMINISTRADOR DE EMPRESAS: 871 MICROEMPRESARIO : 1558
## (Other) : 7053 (Other) : 3013
## CantCursosAnulados categoria categoriaBinarizada
## Min. : 0.0000 CONTINUA :31076 0:32934
## 1st Qu.: 0.0000 DESERTOR : 1959 1: 2759
## Median : 0.0000 EGRESADO : 1858
## Mean : 0.2907 PROB.DESERTOR: 800
## 3rd Qu.: 0.0000
## Max. :16.0000
##
## ProbabDesercion SortUltimaFila SortUltimaFila2
## Min. : 0.000 Min. :0 Min. :0
## 1st Qu.: 5.190 1st Qu.:0 1st Qu.:0
## Median : 5.870 Median :0 Median :0
## Mean : 7.729 Mean :0 Mean :0
## 3rd Qu.:10.240 3rd Qu.:0 3rd Qu.:0
## Max. :14.240 Max. :0 Max. :0
##
NuevoDataSetUPRIVADAFRMTO$SortUltimaFila=as.numeric( substr(NuevoDataSetUPRIVADAFRMTO$CodAlumno, 11, 14))
NuevoDataSetUPRIVADAFRMTO$SortUltimaFila2=as.numeric( substr(NuevoDataSetUPRIVADAFRMTO$CodAlumno, 16, 17))
###ORDENAMOS EL DATA SET
SortNuevoDataSetUPRIVADAFRMTO <- NuevoDataSetUPRIVADAFRMTO[order(NuevoDataSetUPRIVADAFRMTO$SortUltimaFila,NuevoDataSetUPRIVADAFRMTO$SortUltimaFila2),]
View(SortNuevoDataSetUPRIVADAFRMTO)
SortNuevoDataSetUPRIVADAFRMTO$SortUltimaFila <- NULL ##ELIMINARNOS LAS FILAS DE ORDENAMIENTO
SortNuevoDataSetUPRIVADAFRMTO$SortUltimaFila2 <- NULL ##ELIMINARNOS LAS FILAS DE ORDENAMIENTO
##Reemplamos en el dataset que se trabajarn los modelos
DataSetUPRIVADAFRMTO<-SortNuevoDataSetUPRIVADAFRMTO
Observamos el DATASET ordenado cronologicamente
# Resultado DESPUES
View(DataSetUPRIVADAFRMTO) #### EL NUEVO DATA SET SE ENCUENTRA ORDENADO CRONOLOGICAMENTE
ncol(DataSetUPRIVADAFRMTO)
## [1] 28
Configuración para el modelo de entrenamiento
summary(DataSetUPRIVADAFRMTO$CarreraProfesional)
## INGENIERIA AGRONOMICA
## 952
## INGENIERIA AGRONOMICA Y AGRICOLA
## 551
## INGENIERIA DE INDUSTRIA ALIMENTARIA
## 2392
## INGENIERIA DE MINAS
## 3119
## INGENIERIA DE SISTEMAS
## 4537
## INGENIERIA ELECTRONICA
## 3699
## INGENIERIA INDUSTRIAL
## 8791
## INGENIERIA MECANICA, MECANICA-ELECTRICA Y MECATRONICA
## 8528
## MEDICINA VETERINARIA Y ZOOTECNIA
## 3124
DataSetUPRIVADAFRMTO.RF <-DataSetUPRIVADAFRMTO[,Var.TodasUprivada] %>% filter(gsub("^\\s+|\\s+$", "",CarreraProfesional) =="INGENIERIA DE INDUSTRIA ALIMENTARIA" ) %>% droplevels
#Para que las variables se visualicen correctamente
for (variable in ListVar.Categ) { levels(DataSetUPRIVADAFRMTO.RF[,variable]) }
nrow(DataSetUPRIVADAFRMTO.RF)
## [1] 2392
summary(DataSetUPRIVADAFRMTO.RF$CarreraProfesional)
## INGENIERIA DE INDUSTRIA ALIMENTARIA
## 2392
DataSetUPRIVADAFRMTO.RF$CarreraProfesional <- NULL
# configurar función de control para Training
ctrl <- trainControl(method = "repeatedcv", number = 10, repeats = 10, summaryFunction = twoClassSummary, classProbs = TRUE)
DataSetUPRIVADAFRMTO.RF$categoriaBinarizada <- as.character(DataSetUPRIVADAFRMTO.RF$categoriaBinarizada)
DataSetUPRIVADAFRMTO.RF$categoriaBinarizada[DataSetUPRIVADAFRMTO.RF$categoriaBinarizada == "0"] <- "C0"### LOS QUE CONTINUAN
DataSetUPRIVADAFRMTO.RF$categoriaBinarizada[DataSetUPRIVADAFRMTO.RF$categoriaBinarizada == "1"] <- "C1"### LOS DESERTORES
DataSetUPRIVADAFRMTO.RF$categoriaBinarizada <- factor(DataSetUPRIVADAFRMTO.RF$categoriaBinarizada)
LUEGO DE ORDENAR PROCEDEMOS A ENTRENAR EL MODELO
####################################################
####PODEMOS OBSERVAR EL DESBALANCEO DE LAS CLASES
100*prop.table(table(DataSetUPRIVADAFRMTO.RF$categoriaBinarizada))
##
## C0 C1
## 92.22408 7.77592
summary(DataSetUPRIVADAFRMTO.RF$categoriaBinarizada)
## C0 C1
## 2206 186
##calculamos las filas para el entrenamiento
TotalFilas <- nrow(DataSetUPRIVADAFRMTO.RF)
#####Se tomara el 50% de las de la data para entremiento y el otro 50% sera para TEST
TrainFilas <- round(TotalFilas*0.5)
### AGARRAMOS UN RAMDOM
index <- sample.int(TotalFilas,TotalFilas,replace=FALSE)
index
## [1] 1197 1259 1026 101 992 633 1316 2052 458 199 545 40 838
## [14] 1730 1509 1570 600 1781 1465 1361 1382 2145 1087 318 2294 1521
## [27] 2236 1546 42 805 1999 1836 1684 601 1769 1305 376 1369 774
## [40] 1564 1181 731 739 592 504 834 1542 1661 663 1299 987 1774
## [53] 315 133 1097 486 106 683 1368 2173 887 1503 378 66 2169
## [66] 2304 347 2274 34 1418 1666 62 781 1908 1745 1168 2168 808
## [79] 1249 1604 2336 1680 1575 1294 1425 1183 1341 87 1654 1226 1027
## [92] 1466 118 1587 1585 1235 1140 1069 1400 1057 1082 1622 1741 2166
## [105] 2098 1430 2157 945 169 1685 2165 1162 471 703 2234 1127 579
## [118] 902 2009 1272 161 979 920 2295 1159 1832 431 568 22 2194
## [131] 2303 223 1681 735 1970 1484 562 933 2012 1694 695 4 765
## [144] 721 1905 891 769 693 1897 662 2286 337 1251 971 1615 665
## [157] 1845 1174 617 2258 1085 2378 137 10 1175 620 2215 1264 1825
## [170] 1664 1875 547 1627 362 1923 467 573 1656 395 1973 1501 2384
## [183] 25 910 1225 1099 1759 752 2161 1094 183 688 1456 1482 1395
## [196] 1089 1042 211 224 77 1936 278 2121 351 1006 2341 1601 1049
## [209] 932 1165 1125 2064 1986 642 1760 1146 2069 748 2337 499 1383
## [222] 1335 942 833 2268 2256 1286 958 2110 1900 1413 749 1115 6
## [235] 2328 1726 329 543 1271 1470 1187 892 1646 1959 758 155 1164
## [248] 732 251 1169 1410 390 292 2080 227 1508 2199 1876 58 308
## [261] 134 999 249 80 1 1489 2271 2018 1715 785 2149 1586 277
## [274] 152 324 719 416 1357 1918 2046 556 408 1402 923 1167 2264
## [287] 430 266 513 1946 1827 1571 724 798 1496 1992 232 1333 964
## [300] 2155 869 2387 1751 1003 316 2219 555 824 557 2029 1332 1451
## [313] 534 359 2284 835 210 2137 1194 2153 736 915 614 264 1650
## [326] 2267 146 171 817 1291 1312 640 144 470 109 1909 198 711
## [339] 1633 1374 867 1476 1642 121 595 120 1611 2218 1494 635 1228
## [352] 1404 883 1417 466 1360 515 786 1276 1917 918 1331 1086 878
## [365] 1596 1467 877 1644 1326 760 2084 1223 2171 2156 2350 1379 1722
## [378] 845 282 1024 1287 1101 1296 1927 2109 2131 519 1738 1629 1819
## [391] 2101 1407 1969 1579 1386 1551 1092 1930 235 1427 17 2210 2003
## [404] 478 1802 698 669 622 2096 1717 279 404 1830 1787 1295 355
## [417] 427 502 2019 1041 250 1342 380 165 1160 310 1435 651 699
## [430] 2143 1907 943 2308 20 1888 269 1985 726 851 2103 1980 2373
## [443] 61 2254 2322 1885 616 1559 1837 870 690 610 908 2349 243
## [456] 168 1515 1365 1497 1552 602 1820 1156 1937 624 1702 842 742
## [469] 1064 1860 1688 1155 631 15 956 1139 994 245 296 428 1942
## [482] 1653 649 1998 8 2360 1962 2129 924 238 1293 1073 2290 509
## [495] 2000 182 1531 1113 2142 514 571 1853 1562 494 822 339 1528
## [508] 2374 1808 1214 276 361 1393 417 1746 1067 122 899 163 1083
## [521] 439 1252 1247 1053 149 2245 1076 1612 2032 256 204 328 1117
## [534] 1912 1285 1471 2123 1227 1385 1731 613 812 185 1248 1266 680
## [547] 1023 1078 986 919 2202 2148 1370 2204 2388 2057 1520 2227 298
## [560] 806 463 1004 1356 705 2217 1974 734 290 1544 1529 197 1797
## [573] 727 1674 59 1136 2315 766 85 1396 33 952 2039 63 967
## [586] 1811 1290 1506 591 2371 128 1310 1132 312 1713 630 2091 2314
## [599] 511 776 1608 831 1953 1161 809 2175 549 344 1624 348 931
## [612] 1399 345 1924 2222 1350 1700 1881 156 2250 2242 684 2036 1338
## [625] 1576 1675 694 696 551 43 2008 1748 2193 490 575 481 346
## [638] 1261 661 894 2310 68 1600 2287 167 1171 489 349 258 320
## [651] 78 1588 983 83 1445 449 1137 866 804 1241 882 1463 1380
## [664] 45 1364 46 1090 1074 1948 1968 2385 2240 178 855 1100 1095
## [677] 1525 50 2034 730 231 2206 334 1527 2141 2233 2097 879 2112
## [690] 1951 648 426 790 1490 2366 2081 253 113 741 733 2357 97
## [703] 1648 927 366 1398 668 383 1516 1773 1016 840 189 1323 105
## [716] 375 1218 1554 284 706 209 632 299 2016 542 681 2321 2058
## [729] 501 1817 1592 1523 1895 764 391 2226 2118 57 546 847 968
## [742] 1929 1278 1280 1302 367 2389 836 360 1589 536 1892 656 370
## [755] 1670 2311 1141 1109 552 239 1712 2207 215 1945 2208 541 1636
## [768] 947 861 2265 1750 246 172 1709 2077 415 1170 1815 772 510
## [781] 871 2072 1037 2367 1270 1701 39 973 1182 1499 1790 433 2188
## [794] 1761 2066 73 655 2317 1526 1317 1366 1180 1015 2184 1556 540
## [807] 2028 1105 780 1048 503 1260 261 2253 2347 125 1154 1328 2059
## [820] 2241 379 863 810 1075 2391 907 1377 131 1457 2333 74 2243
## [833] 311 1582 1843 1443 37 102 1553 654 1887 1795 594 2172 460
## [846] 1190 2122 1114 213 639 1173 921 1678 1580 1123 775 2270 783
## [859] 1289 2065 421 151 725 495 398 1828 48 2061 710 2320 2272
## [872] 1077 670 1699 397 2174 985 823 2292 1478 874 294 304 950
## [885] 217 1441 2223 1321 323 2324 697 1568 2085 1277 2259 1177 941
## [898] 2386 1981 709 909 667 1344 1865 2379 1239 1842 2054 1071 1081
## [911] 666 11 91 2228 2196 1793 2266 2231 936 2089 2035 230 1373
## [924] 1303 1231 384 1091 1442 532 702 723 1824 1426 1453 590 1143
## [937] 1012 1849 110 1578 572 2140 293 1549 1195 1011 893 1641 2293
## [950] 2099 886 2358 2136 2247 2049 2158 1898 103 1547 1609 1121 338
## [963] 409 1059 1749 517 2030 1423 826 946 343 2092 1348 1269 313
## [976] 399 672 1040 807 1493 1381 2342 779 975 354 1480 1854 1984
## [989] 1826 846 175 559 1098 998 2117 917 2220 435 1878 746 1635
## [1002] 1392 2071 111 527 2355 372 295 792 1440 221 1643 1088 129
## [1015] 2151 363 483 2048 2068 2094 1584 2377 1975 1933 1438 2120 944
## [1028] 303 1886 2164 434 978 2093 889 1538 1863 206 2334 1757 1634
## [1041] 112 966 2107 485 1419 948 447 1485 1883 2205 394 1623 469
## [1054] 205 2305 418 1275 1025 1626 186 2282 580 2352 881 1495 2180
## [1067] 225 96 1022 1931 2005 996 949 1512 1021 544 1185 2053 369
## [1080] 1733 229 686 330 974 2067 1262 2191 2302 1812 1649 1796 1997
## [1093] 1663 145 2318 300 1371 2260 1785 825 1211 1152 1405 912 1809
## [1106] 1449 119 2128 2134 1739 904 1595 1991 1009 126 1894 2002 480
## [1119] 1777 1961 1034 770 1710 2042 244 712 1301 1107 1304 1866 1477
## [1132] 1545 2319 566 1454 234 387 1719 1561 674 1772 1434 1821 1806
## [1145] 1818 1220 2273 716 1339 1307 36 565 1043 2150 704 2163 192
## [1158] 685 1841 1755 272 954 505 811 1944 2041 52 1683 1652 1788
## [1171] 2133 797 1250 828 70 95 771 1243 1401 1899 926 309 1481
## [1184] 2361 2010 664 850 520 1469 2076 903 1052 841 652 1202 1460
## [1197] 2283 2095 938 1744 150 1800 587 268 393 2181 1765 737 1791
## [1210] 457 722 995 1343 1212 865 1412 2104 2006 2183 1901 291 720
## [1223] 2043 1452 2232 1840 531 2100 854 522 1572 1104 1874 1943 1060
## [1236] 1599 2235 124 130 1916 745 905 621 281 2316 1692 584 1351
## [1249] 588 159 1504 928 1300 202 1446 1775 2329 1013 92 1770 1606
## [1262] 537 589 241 1660 2115 1210 319 2152 1835 2244 692 341 1988
## [1275] 2362 980 1581 2055 289 911 317 275 352 1007 26 429 2050
## [1288] 1397 325 773 777 763 226 382 981 1805 644 2198 5 1070
## [1301] 1727 1158 468 423 98 606 1233 715 1144 18 440 2343 653
## [1314] 1166 1207 437 153 1502 1254 1145 875 1230 965 53 864 49
## [1327] 438 44 2289 1861 873 72 2004 342 852 488 1555 1742 618
## [1340] 1938 2309 141 1065 286 1314 444 2090 1119 2338 1967 528 1186
## [1353] 432 1613 340 1799 448 2225 1055 1610 645 658 1569 1376 180
## [1366] 220 1406 64 1148 1129 916 1292 1776 1780 827 1062 89 117
## [1379] 796 332 1334 523 1932 2251 553 2177 530 1914 1982 1432 187
## [1392] 2376 1989 1872 446 1372 462 1831 859 193 880 1315 1783 1431
## [1405] 2185 1375 1910 1532 1422 1838 678 385 13 898 2390 1548 400
## [1418] 2113 1281 1433 2331 56 768 473 1236 2014 1651 2015 2189 1768
## [1431] 1232 1458 496 1743 1242 307 1619 450 442 2246 1096 2288 1128
## [1444] 1614 1245 857 1740 1408 1691 962 1491 2326 795 216 1411 2356
## [1457] 605 832 743 2070 939 1605 1855 176 247 508 2239 1789 1219
## [1470] 445 2154 3 2086 368 627 1687 1464 392 849 2346 1274 1054
## [1483] 1566 1447 951 1325 2116 2383 1203 1594 2213 1511 2339 1693 901
## [1496] 305 638 132 79 422 839 1639 274 1607 2392 1308 1543 1068
## [1509] 54 412 1032 1002 1747 208 629 487 1696 643 2074 350 1510
## [1522] 623 271 285 2381 1473 257 2187 2277 1483 1620 1794 1475 1698
## [1535] 453 2364 1282 1947 1721 2147 970 147 1358 67 1732 1192 381
## [1548] 353 2209 1955 2139 1941 1468 475 2312 636 853 1455 1804 815
## [1561] 1792 1934 1337 567 1436 1367 2125 2062 1598 1102 1839 135 750
## [1574] 1172 1031 801 1890 2382 2075 16 1859 934 529 406 139 1461
## [1587] 1862 1111 1583 1640 403 929 976 1297 689 1798 498 2275 1956
## [1600] 1764 526 1063 2230 1518 1964 1014 535 1522 2146 1178 1005 1019
## [1613] 1020 1577 1658 2108 900 364 1208 335 2368 800 212 2269 2051
## [1626] 2363 94 1179 1479 2299 1679 625 222 115 1686 844 1124 2007
## [1639] 2359 1919 1848 1539 321 2306 2160 1524 1050 288 157 314 868
## [1652] 1829 441 713 1142 586 336 1279 603 1637 872 1428 29 1229
## [1665] 454 2132 1134 148 287 1963 1990 1008 2021 1320 1706 2144 1540
## [1678] 585 1704 576 935 425 2087 1537 1036 107 2031 761 738 788
## [1691] 1080 2124 1593 628 755 1378 937 1533 1565 1669 1322 184 1384
## [1704] 160 1977 1926 1550 327 86 2296 524 81 802 539 1801 2354
## [1717] 1217 598 1188 533 1771 1108 1213 1735 829 1038 993 1492 660
## [1730] 860 1957 2257 676 626 1803 691 1327 1823 1655 1814 136 2102
## [1743] 1558 1066 484 461 1257 1677 862 1056 1705 1459 174 1983 1767
## [1756] 581 1902 982 1047 252 388 1978 1720 729 637 2237 548 925
## [1769] 2372 1763 2026 1884 1758 30 612 821 1574 1403 1958 856 2307
## [1782] 2212 1752 51 789 479 255 1632 2033 2325 991 2130 969 2340
## [1795] 177 196 1437 848 262 2238 1880 1507 560 405 659 1273 757
## [1808] 1309 1816 1029 2027 140 2111 2037 858 1729 1488 1672 19 1045
## [1821] 1871 482 2114 953 1001 2332 1724 2044 138 2262 1110 2159 414
## [1834] 1345 1979 419 574 1354 104 507 14 2221 214 1284 114 570
## [1847] 687 634 1697 1193 1673 280 744 961 1176 914 1856 254 787
## [1860] 682 1762 493 583 799 248 1671 1723 1591 1877 577 940 989
## [1873] 913 2063 1035 116 76 1851 2285 401 1630 782 283 512 1329
## [1886] 207 1415 2186 1541 619 365 1976 1754 1753 2038 1954 988 1189
## [1899] 2280 2126 2190 1324 123 1472 420 2135 1118 9 1707 38 2203
## [1912] 55 1237 410 2344 108 1153 563 1268 373 1645 2248 436 1288
## [1925] 1149 1018 1519 673 1238 1390 641 1536 1736 173 2330 2023 1844
## [1938] 1414 259 675 977 1966 1420 1993 162 516 1560 2291 1703 1847
## [1951] 1444 754 984 596 1130 1084 1409 1870 2313 88 1850 476 164
## [1964] 1889 990 922 1676 374 2365 188 158 1778 1513 1864 2179 240
## [1977] 90 1157 1665 411 413 1298 1253 2167 1044 82 554 1079 1616
## [1990] 1807 24 228 2040 819 2017 1867 2024 2375 1206 195 1563 424
## [2003] 1657 474 1352 219 1662 2263 1246 876 60 2255 1935 407 242
## [2016] 233 1106 190 1925 1995 2298 35 1928 2370 2178 191 7 1046
## [2029] 1133 2001 2249 1987 1387 816 1318 1631 1972 1093 1388 154 813
## [2042] 1486 1857 1628 2301 1711 2127 1319 263 1756 1061 756 1424 270
## [2055] 707 1833 1240 762 322 700 1505 2056 1028 402 885 506 1120
## [2068] 1810 963 1196 1051 1363 23 2060 1200 818 2214 2045 1737 778
## [2081] 2020 2348 671 1283 69 1330 599 1256 1950 389 452 2082 1498
## [2094] 1311 2192 203 1906 2297 1949 751 1131 1689 814 100 677 1597
## [2107] 1010 500 1602 609 1530 1439 371 1204 2047 1135 569 1952 267
## [2120] 1199 604 99 465 127 1244 1215 2197 1058 1389 1617 1667 2252
## [2133] 759 897 1534 1590 1163 1708 1306 972 2351 1340 1913 2176 1718
## [2146] 297 75 1017 1394 1514 767 830 2279 377 1255 71 611 179
## [2159] 747 896 1891 1355 166 2073 1359 1258 791 1353 2170 142 2216
## [2172] 443 1960 2079 1448 1904 2022 1267 2327 2182 1921 521 843 1265
## [2185] 582 997 464 1205 331 1222 1349 491 607 1734 357 2323 1030
## [2198] 679 820 1896 2088 895 1263 28 2 1647 1893 1682 558 615
## [2211] 1191 1621 2162 265 1915 550 1557 1216 1224 650 236 1716 1039
## [2224] 1920 701 728 1625 2335 1996 218 793 1869 1313 1126 593 2078
## [2237] 31 1940 65 386 1834 714 2229 1939 1911 477 1487 93 1209
## [2250] 451 170 1391 538 302 1618 396 1112 237 1638 455 647 1347
## [2263] 32 143 1346 1766 2119 2025 1922 200 358 1221 646 708 1782
## [2276] 1695 301 1103 578 1573 333 888 740 1882 2138 884 1362 2380
## [2289] 2195 201 2261 2278 1728 794 1567 1000 1116 1122 2083 1868 2211
## [2302] 2369 1786 459 181 1147 1072 2345 273 957 718 1421 194 2201
## [2315] 2011 1690 1603 1450 1879 41 326 1151 1784 1668 1714 2353 753
## [2328] 1517 1725 1138 1474 1965 564 1535 518 2106 1971 803 260 1033
## [2341] 2013 12 717 2300 1500 492 1184 2200 1150 1994 1858 1234 608
## [2354] 2281 597 2105 47 1659 960 906 1852 1813 784 1198 2224 456
## [2367] 1903 1779 21 525 1462 1416 955 959 1873 306 1846 356 84
## [2380] 1201 1336 561 2276 1822 930 837 657 497 890 472 27 1429
##VEMOS EL DATASET QUE SE UTILIZARA PARA ENTRENAR
View(DataSetUPRIVADAFRMTO.RF)
AQUI SE APLICAN LOS MODELOS Y SE MUESTRA SUS MATRICES DE CONFUSIÓN COMO REFERENCIA
##DENIFIMOS LOS NODOS DE ENTRENAMIENTP
x_trainRF <- DataSetUPRIVADAFRMTO.RF[ (1:TrainFilas),]
y_trainRF <- DataSetUPRIVADAFRMTO.RF[ (1:TrainFilas),'categoriaBinarizada']
##### DATOS PARA ENTRENAMIENTO
View(x_trainRF)
x_testRF <- DataSetUPRIVADAFRMTO.RF[ ((TrainFilas+1):TotalFilas),]
y_testRF <- DataSetUPRIVADAFRMTO.RF[((TrainFilas+1):TotalFilas),'categoriaBinarizada']
## configurarmos un paramtro de RamdomForest para tunear el modelo.
##### DATOS PARA TESTING
View(x_testRF)
tunegrid <- expand.grid(.mtry = c(sqrt(ncol(DataSetUPRIVADAFRMTO.RF))))
orig_fit <- caret::train(categoriaBinarizada ~ ., data = x_trainRF,verbose = FALSE
, method = "rf", metric = "ROC", tuneGrid = tunegrid
, trControl = ctrl)
summary(y_testRF)
## C0 C1
## 1103 93
mc_PredictOrigTuneGrid<- table(predict(orig_fit,x_testRF),y_testRF)
mc_PredictOrigTuneGrid
## y_testRF
## C0 C1
## C0 1103 92
## C1 0 1
cm_originalRF1 <- confusionMatrix(predict(orig_fit,x_testRF), y_testRF)
cm_originalRF1$byClass
## Sensitivity Specificity Pos Pred Value
## 1.00000000 0.01075269 0.92301255
## Neg Pred Value Precision Recall
## 1.00000000 0.92301255 1.00000000
## F1 Prevalence Detection Rate
## 0.95996519 0.92224080 0.92224080
## Detection Prevalence Balanced Accuracy
## 0.99916388 0.50537634