Cargamos las librerias a utilizar
library(dplyr) # for data manipulation
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
library(caret) # for model-building
## Loading required package: lattice
## Loading required package: ggplot2
library(DMwR) # for smote implementation
## Warning: package 'DMwR' was built under R version 3.5.3
## Loading required package: grid
library(purrr) # for functional programming (map)
##
## Attaching package: 'purrr'
## The following object is masked from 'package:caret':
##
## lift
library(pROC)
## Warning: package 'pROC' was built under R version 3.5.3
## Type 'citation("pROC")' for a citation.
##
## Attaching package: 'pROC'
## The following objects are masked from 'package:stats':
##
## cov, smooth, var
library(knitr)
library(qgraph)
library(nortest)
library(magrittr)
##
## Attaching package: 'magrittr'
## The following object is masked from 'package:purrr':
##
## set_names
library(dplyr)
library(tidyr)
##
## Attaching package: 'tidyr'
## The following object is masked from 'package:magrittr':
##
## extract
library(e1071)
library(OneR)
library(tidyverse) # data manipulation and visualization
## -- Attaching packages ---------------------------------------------------------------------------------------------------------------------------------- tidyverse 1.2.1 --
## v tibble 1.4.2 v stringr 1.3.1
## v readr 1.3.1 v forcats 0.3.0
## -- Conflicts ------------------------------------------------------------------------------------------------------------------------------------- tidyverse_conflicts() --
## x tidyr::extract() masks magrittr::extract()
## x dplyr::filter() masks stats::filter()
## x dplyr::lag() masks stats::lag()
## x purrr::lift() masks caret::lift()
## x magrittr::set_names() masks purrr::set_names()
library(ggplot2) # plot arrangement
library(gridExtra) # plot arrangement
##
## Attaching package: 'gridExtra'
## The following object is masked from 'package:dplyr':
##
## combine
library(caret)
library(ggplot2)
library(FactoMineR)
library(factoextra)
## Welcome! Related Books: `Practical Guide To Cluster Analysis in R` at https://goo.gl/13EFCZ
library(modes) # MODA VER EL COMPORTAMIENTO GENERAL DE LA INF
##
## Attaching package: 'modes'
## The following objects are masked from 'package:e1071':
##
## kurtosis, skewness
library(randomForest)
## randomForest 4.6-14
## Type rfNews() to see new features/changes/bug fixes.
##
## Attaching package: 'randomForest'
## The following object is masked from 'package:gridExtra':
##
## combine
## The following object is masked from 'package:ggplot2':
##
## margin
## The following object is masked from 'package:dplyr':
##
## combine
#############################################
#CARGAS DATOS PARA TRABAJAR MODELO PREDICTIVO
############################################
ruta <- 'C:/Users/Jhampier/Google Drive/Maestria/TESIS DE MAESTRIA/Proyecto'
setwd('C:/Users/Jhampier/Google Drive/Maestria/TESIS DE MAESTRIA/Proyecto')
#C:\Users\Administrador\Desktop
#ruta <- 'C:/Users/Administrador/Desktop'
#setwd('C:/Users/Administrador/Desktop')
#2 C:\Users\jtapiasu\Google Drive\Maestria\TESIS DE MAESTRIA\Proyecto
#ruta <- 'C:/Users/jtapiasu/Google Drive/Maestria/TESIS DE MAESTRIA/Proyecto'
#setwd('C:/Users/jtapiasu/Google Drive/Maestria/TESIS DE MAESTRIA/Proyecto')
#Leer el conjunto de datos del archivo CSV
DataSetUprivada <- read.table("DataSetUprivadaBinarizadaSinRuidoFuturo.csv",header=TRUE,sep=";")
##########################################################
########## 2 COMPRESION DE DATOS Y 3 PREPARACIÓN DE DATOS#####
##########################################################
View(DataSetUprivada)
###EJEMPLO DE VISUALIZACIÓN DE 10 REGISTROS
head(DataSetUprivada, n=5)
########################################################
## DIMENSIONES - CANTIDAD DE FILAS Y VARIABLES(COLUMNAS)
nrow(DataSetUprivada)#[1] 35693
## [1] 35693
ncol(DataSetUprivada)#[1] 27 -1 de categoria(var categorica)
## [1] 28
colnames(DataSetUprivada)#Nombres de Variables
## [1] "CodAlumno" "SemestresEstudiadosAcum"
## [3] "CantCursosLlevadosAcum" "CursosLlevadosFueraCarreraAcum"
## [5] "AvgSinAplzAcum" "AvgConAplzAcum"
## [7] "CantCursosAplzAcum" "SumCredTeoAcum"
## [9] "SumCredPraAcum" "edad"
## [11] "SEXO" "AvgVezMatriAcum"
## [13] "CarreraProfesional" "MODALIDAD_INGRESO"
## [15] "ANIO_INGRESO" "UBIG_NACIMIENTO"
## [17] "UBIG_RESIDENCIA" "TIPO_VIVIENDA"
## [19] "GradoInstruccionPapa" "ProfesionPapa"
## [21] "OcupacionPapa" "GradoInstruccionMama"
## [23] "ProfesionMama" "OcupacionMama"
## [25] "CantCursosAnulados" "categoria"
## [27] "categoriaBinarizada" "ProbabDesercion"
##NOMBRES Y TIPOS DE DATOS DE LAS COLUMNAS
sapply(DataSetUprivada, mode)
## CodAlumno SemestresEstudiadosAcum
## "numeric" "numeric"
## CantCursosLlevadosAcum CursosLlevadosFueraCarreraAcum
## "numeric" "numeric"
## AvgSinAplzAcum AvgConAplzAcum
## "numeric" "numeric"
## CantCursosAplzAcum SumCredTeoAcum
## "numeric" "numeric"
## SumCredPraAcum edad
## "numeric" "numeric"
## SEXO AvgVezMatriAcum
## "numeric" "numeric"
## CarreraProfesional MODALIDAD_INGRESO
## "numeric" "numeric"
## ANIO_INGRESO UBIG_NACIMIENTO
## "numeric" "numeric"
## UBIG_RESIDENCIA TIPO_VIVIENDA
## "numeric" "numeric"
## GradoInstruccionPapa ProfesionPapa
## "numeric" "numeric"
## OcupacionPapa GradoInstruccionMama
## "numeric" "numeric"
## ProfesionMama OcupacionMama
## "numeric" "numeric"
## CantCursosAnulados categoria
## "numeric" "numeric"
## categoriaBinarizada ProbabDesercion
## "numeric" "numeric"
summary(DataSetUprivada)#PODEMOS OBSERVAR EN EL POWER
## CodAlumno SemestresEstudiadosAcum CantCursosLlevadosAcum
## 20000062092012-1: 1 Min. : 1.000 Min. : 1.00
## 20000062092012-2: 1 1st Qu.: 2.000 1st Qu.:11.00
## 20000062092013-1: 1 Median : 4.000 Median :20.00
## 20000062092013-2: 1 Mean : 4.187 Mean :23.17
## 20000063092012-1: 1 3rd Qu.: 6.000 3rd Qu.:33.00
## 20000063092012-2: 1 Max. :12.000 Max. :81.00
## (Other) :35687
## CursosLlevadosFueraCarreraAcum AvgSinAplzAcum AvgConAplzAcum
## Min. : 1.000 11,00 : 123 12,00 : 176
## 1st Qu.: 2.000 12,00 : 122 11,00 : 155
## Median : 4.000 10,33 : 121 11,67 : 121
## Mean : 4.306 10,00 : 112 13,00 : 121
## 3rd Qu.: 6.000 10,67 : 106 11,33 : 117
## Max. :18.000 13,00 : 104 10,67 : 112
## (Other):35005 (Other):34891
## CantCursosAplzAcum SumCredTeoAcum SumCredPraAcum edad
## Min. : 0.000 Min. : 1.0 Min. : 0.00 Min. : 14.00
## 1st Qu.: 1.000 1st Qu.: 27.0 1st Qu.: 7.00 1st Qu.: 18.00
## Median : 3.000 Median : 50.0 Median :15.00 Median : 20.00
## Mean : 5.247 Mean : 59.4 Mean :17.78 Mean : 20.55
## 3rd Qu.: 8.000 3rd Qu.: 85.0 3rd Qu.:25.00 3rd Qu.: 22.00
## Max. :48.000 Max. :200.0 Max. :80.00 Max. :113.00
##
## SEXO AvgVezMatriAcum
## F: 9994 1,00 :18850
## M:25699 1,04 : 771
## 1,03 : 718
## 1,07 : 690
## 1,06 : 689
## 1,02 : 670
## (Other):13305
## CarreraProfesional
## INGENIERIA INDUSTRIAL :8791
## INGENIERIA MECANICA, MECANICA-ELECTRICA Y MECATRONICA:8528
## INGENIERIA DE SISTEMAS :4537
## INGENIERIA ELECTRONICA :3699
## MEDICINA VETERINARIA Y ZOOTECNIA :3124
## INGENIERIA DE MINAS :3119
## (Other) :3895
## MODALIDAD_INGRESO ANIO_INGRESO UBIG_NACIMIENTO
## Tercer Examen General :8524 Min. :2009 AREQUIPA :21072
## Segundo Examen General :6259 1st Qu.:2011 PAUCARPATA: 1444
## Primer Examen General :5818 Median :2012 JULIACA : 869
## Centro Preuniversitario III:3417 Mean :2012 YANAHUARA : 707
## Centro Preuniversitario I :2962 3rd Qu.:2014 ILO : 701
## Centro Preuniversitario II :2962 Max. :2017 MOLLENDO : 655
## (Other) :5751 (Other) :10245
## UBIG_RESIDENCIA TIPO_VIVIENDA
## JOSE LUIS BUSTAMANTE Y RIVERO: 5274 CASA :29859
## CERRO COLORADO : 3949 DEPARTAMENTO: 5484
## AREQUIPA : 3931 VECINDAD : 350
## PAUCARPATA : 3272
## CAYMA : 2701
## YANAHUARA : 2381
## (Other) :14185
## GradoInstruccionPapa ProfesionPapa
## SECUNDARIA COMPLETA :7703 OTROS :13173
## SUPERIOR UNIV. COMPLETA :6279 PROFESION ... : 6469
## SUPERIOR TECNICA COMPLETA:5469 CONTADOR : 2238
## GRADUADO UNIVERSITARIO :4493 ADMINISTRADOR DE EMPRESAS: 1550
## SUPERIOR UNIV. INCOMPLETA:4372 PROFESOR : 1479
## NIVEL EDUCATIVO ... :1770 ABOGADO : 1313
## (Other) :5607 (Other) : 9471
## OcupacionPapa GradoInstruccionMama
## EMPLEADO :10711 SECUNDARIA COMPLETA :8926
## OTRO : 5305 SUPERIOR UNIV. COMPLETA :6048
## OCUPACION ... : 3028 SUPERIOR TECNICA COMPLETA :5695
## MICROEMPRESARIO : 2396 GRADUADO UNIVERSITARIO :4726
## FF. POLICIALES : 2185 SUPERIOR UNIV. INCOMPLETA :3464
## CONDUCTOR DE VEHICULO: 2182 EST. SUP. NO UNIVERSITARIOS:1674
## (Other) : 9886 (Other) :5160
## ProfesionMama OcupacionMama
## OTROS :13518 AMA DE CASA :14746
## PROFESION ... : 5909 EMPLEADO : 8825
## ENFERMERA : 2976 OTRO : 3767
## PROFESOR : 2966 COMERCIANTE MINORISTA: 2208
## CONTADOR : 2400 OCUPACION ... : 1576
## ADMINISTRADOR DE EMPRESAS: 871 MICROEMPRESARIO : 1558
## (Other) : 7053 (Other) : 3013
## CantCursosAnulados categoria categoriaBinarizada
## Min. : 0.0000 CONTINUA :31076 Min. :0.0000
## 1st Qu.: 0.0000 DESERTOR : 1959 1st Qu.:0.0000
## Median : 0.0000 EGRESADO : 1858 Median :0.0000
## Mean : 0.2907 PROB.DESERTOR: 800 Mean :0.0773
## 3rd Qu.: 0.0000 3rd Qu.:0.0000
## Max. :16.0000 Max. :1.0000
##
## ProbabDesercion
## 14,24 :7157
## 10,24 :5477
## 6,61 :4901
## 5,87 :4037
## 5,03 :3595
## 5,35 :2878
## (Other):7648
summary(DataSetUprivada$CarreraProfesional)#PODEMOS OBSERVAR EN EL POWER
## INGENIERIA AGRONOMICA
## 952
## INGENIERIA AGRONOMICA Y AGRICOLA
## 551
## INGENIERIA DE INDUSTRIA ALIMENTARIA
## 2392
## INGENIERIA DE MINAS
## 3119
## INGENIERIA DE SISTEMAS
## 4537
## INGENIERIA ELECTRONICA
## 3699
## INGENIERIA INDUSTRIAL
## 8791
## INGENIERIA MECANICA, MECANICA-ELECTRICA Y MECATRONICA
## 8528
## MEDICINA VETERINARIA Y ZOOTECNIA
## 3124
########################################################
########### PREPARACIÓN DE DATA POR VARIABLES ########
########################################################
###Converision para tipo de dato correcto
DataSetUPRIVADAFRMTO <-transform(DataSetUprivada,
SEXO = as.factor(as.character(SEXO)),
CarreraProfesional = as.factor(as.character(CarreraProfesional)),
MODALIDAD_INGRESO = as.factor(as.character(MODALIDAD_INGRESO)),
UBIG_NACIMIENTO = as.factor(as.character(UBIG_NACIMIENTO)),
UBIG_RESIDENCIA = as.factor(as.character(UBIG_RESIDENCIA)),
TIPO_VIVIENDA = as.factor(as.character(TIPO_VIVIENDA)),
GradoInstruccionPapa = as.factor(as.character(GradoInstruccionPapa)),
ProfesionPapa = as.factor(as.character(ProfesionPapa)),
OcupacionPapa = as.factor(as.character(OcupacionPapa)),
GradoInstruccionMama = as.factor(as.character(GradoInstruccionMama)),
ProfesionMama = as.factor(as.character(ProfesionMama)),
OcupacionMama = as.factor(as.character(OcupacionMama))
,categoriaBinarizada = as.factor(as.character(categoriaBinarizada))
)
DataSetUPRIVADAFRMTO[,'AvgSinAplzAcum'] <- as.numeric(sub(",", ".", DataSetUPRIVADAFRMTO[,'AvgSinAplzAcum']
, fixed = TRUE))
DataSetUPRIVADAFRMTO[,'AvgConAplzAcum'] <- as.numeric(sub(",", ".", DataSetUPRIVADAFRMTO[,'AvgConAplzAcum']
, fixed = TRUE))
DataSetUPRIVADAFRMTO[,'AvgVezMatriAcum'] <- as.numeric(sub(",", ".", DataSetUPRIVADAFRMTO[,'AvgVezMatriAcum']
, fixed = TRUE))
DataSetUPRIVADAFRMTO[,'ProbabDesercion'] <- as.numeric(sub(",", ".", DataSetUPRIVADAFRMTO[,'ProbabDesercion']
, fixed = TRUE))
##sapply(DataSetUPRIVADAFRMTO, mode)
ListVar.Categ <- c('SEXO','CarreraProfesional','MODALIDAD_INGRESO'
,'UBIG_NACIMIENTO','UBIG_RESIDENCIA','TIPO_VIVIENDA'
,'GradoInstruccionPapa','ProfesionPapa','OcupacionPapa'
,'GradoInstruccionMama','ProfesionMama','OcupacionMama') # 12
ListVar.Categ.RF<- c('SEXO'
#,'CarreraProfesional'
,'MODALIDAD_INGRESO'
#,'UBIG_NACIMIENTO'
#,'UBIG_RESIDENCIA'
,'TIPO_VIVIENDA'
,'GradoInstruccionPapa'
,'ProfesionPapa','OcupacionPapa'
,'GradoInstruccionMama','ProfesionMama','OcupacionMama') # 12
Var.Objetivo <- c('categoriaBinarizada') #c('categoria') # 1
ListVar.Continuas <- c('SemestresEstudiadosAcum'
,'CantCursosLlevadosAcum'
,'CursosLlevadosFueraCarreraAcum'
,'AvgSinAplzAcum','AvgConAplzAcum'
,'CantCursosAplzAcum'
,'SumCredTeoAcum'
,'SumCredPraAcum'
,'edad'
#T#,'AvgVezMatriAcum'
,'ANIO_INGRESO'
#T#,'CantCursosAnulados' # 12
,'ProbabDesercion'
)
Var.Identificacion <- c('CodAlumno') # 1
Var.TodasUprivada <- c(ListVar.Categ ,ListVar.Continuas , Var.Objetivo)
##############################################################################
# ###ORDENAMOS EL DATASET CRONOLOGICAMENTE
############################################################################
### ANTES
View(DataSetUPRIVADAFRMTO)
TotalFilas <- nrow(DataSetUPRIVADAFRMTO) #35687
SortUltimaFila=vector(mode='numeric', length=TotalFilas)
SortUltimaFila2=vector(mode='numeric', length=TotalFilas)
##Obtendremos las variables dle codigod el alumno para ordenar el dataset
NuevoDataSetUPRIVADAFRMTO = data.frame(DataSetUPRIVADAFRMTO, SortUltimaFila,SortUltimaFila2)
View(NuevoDataSetUPRIVADAFRMTO)
summary(NuevoDataSetUPRIVADAFRMTO)
## CodAlumno SemestresEstudiadosAcum CantCursosLlevadosAcum
## 20000062092012-1: 1 Min. : 1.000 Min. : 1.00
## 20000062092012-2: 1 1st Qu.: 2.000 1st Qu.:11.00
## 20000062092013-1: 1 Median : 4.000 Median :20.00
## 20000062092013-2: 1 Mean : 4.187 Mean :23.17
## 20000063092012-1: 1 3rd Qu.: 6.000 3rd Qu.:33.00
## 20000063092012-2: 1 Max. :12.000 Max. :81.00
## (Other) :35687
## CursosLlevadosFueraCarreraAcum AvgSinAplzAcum AvgConAplzAcum
## Min. : 1.000 Min. : 0.00 Min. : 0.00
## 1st Qu.: 2.000 1st Qu.: 8.91 1st Qu.: 9.36
## Median : 4.000 Median :10.63 Median :11.06
## Mean : 4.306 Mean :10.54 Mean :10.84
## 3rd Qu.: 6.000 3rd Qu.:12.32 3rd Qu.:12.52
## Max. :18.000 Max. :19.66 Max. :19.66
##
## CantCursosAplzAcum SumCredTeoAcum SumCredPraAcum edad
## Min. : 0.000 Min. : 1.0 Min. : 0.00 Min. : 14.00
## 1st Qu.: 1.000 1st Qu.: 27.0 1st Qu.: 7.00 1st Qu.: 18.00
## Median : 3.000 Median : 50.0 Median :15.00 Median : 20.00
## Mean : 5.247 Mean : 59.4 Mean :17.78 Mean : 20.55
## 3rd Qu.: 8.000 3rd Qu.: 85.0 3rd Qu.:25.00 3rd Qu.: 22.00
## Max. :48.000 Max. :200.0 Max. :80.00 Max. :113.00
##
## SEXO AvgVezMatriAcum
## F: 9994 Min. :1.000
## M:25699 1st Qu.:1.000
## Median :1.000
## Mean :1.138
## 3rd Qu.:1.170
## Max. :4.000
##
## CarreraProfesional
## INGENIERIA INDUSTRIAL :8791
## INGENIERIA MECANICA, MECANICA-ELECTRICA Y MECATRONICA:8528
## INGENIERIA DE SISTEMAS :4537
## INGENIERIA ELECTRONICA :3699
## MEDICINA VETERINARIA Y ZOOTECNIA :3124
## INGENIERIA DE MINAS :3119
## (Other) :3895
## MODALIDAD_INGRESO ANIO_INGRESO UBIG_NACIMIENTO
## Tercer Examen General :8524 Min. :2009 AREQUIPA :21072
## Segundo Examen General :6259 1st Qu.:2011 PAUCARPATA: 1444
## Primer Examen General :5818 Median :2012 JULIACA : 869
## Centro Preuniversitario III:3417 Mean :2012 YANAHUARA : 707
## Centro Preuniversitario I :2962 3rd Qu.:2014 ILO : 701
## Centro Preuniversitario II :2962 Max. :2017 MOLLENDO : 655
## (Other) :5751 (Other) :10245
## UBIG_RESIDENCIA TIPO_VIVIENDA
## JOSE LUIS BUSTAMANTE Y RIVERO: 5274 CASA :29859
## CERRO COLORADO : 3949 DEPARTAMENTO: 5484
## AREQUIPA : 3931 VECINDAD : 350
## PAUCARPATA : 3272
## CAYMA : 2701
## YANAHUARA : 2381
## (Other) :14185
## GradoInstruccionPapa ProfesionPapa
## SECUNDARIA COMPLETA :7703 OTROS :13173
## SUPERIOR UNIV. COMPLETA :6279 PROFESION ... : 6469
## SUPERIOR TECNICA COMPLETA:5469 CONTADOR : 2238
## GRADUADO UNIVERSITARIO :4493 ADMINISTRADOR DE EMPRESAS: 1550
## SUPERIOR UNIV. INCOMPLETA:4372 PROFESOR : 1479
## NIVEL EDUCATIVO ... :1770 ABOGADO : 1313
## (Other) :5607 (Other) : 9471
## OcupacionPapa GradoInstruccionMama
## EMPLEADO :10711 SECUNDARIA COMPLETA :8926
## OTRO : 5305 SUPERIOR UNIV. COMPLETA :6048
## OCUPACION ... : 3028 SUPERIOR TECNICA COMPLETA :5695
## MICROEMPRESARIO : 2396 GRADUADO UNIVERSITARIO :4726
## FF. POLICIALES : 2185 SUPERIOR UNIV. INCOMPLETA :3464
## CONDUCTOR DE VEHICULO: 2182 EST. SUP. NO UNIVERSITARIOS:1674
## (Other) : 9886 (Other) :5160
## ProfesionMama OcupacionMama
## OTROS :13518 AMA DE CASA :14746
## PROFESION ... : 5909 EMPLEADO : 8825
## ENFERMERA : 2976 OTRO : 3767
## PROFESOR : 2966 COMERCIANTE MINORISTA: 2208
## CONTADOR : 2400 OCUPACION ... : 1576
## ADMINISTRADOR DE EMPRESAS: 871 MICROEMPRESARIO : 1558
## (Other) : 7053 (Other) : 3013
## CantCursosAnulados categoria categoriaBinarizada
## Min. : 0.0000 CONTINUA :31076 0:32934
## 1st Qu.: 0.0000 DESERTOR : 1959 1: 2759
## Median : 0.0000 EGRESADO : 1858
## Mean : 0.2907 PROB.DESERTOR: 800
## 3rd Qu.: 0.0000
## Max. :16.0000
##
## ProbabDesercion SortUltimaFila SortUltimaFila2
## Min. : 0.000 Min. :0 Min. :0
## 1st Qu.: 5.190 1st Qu.:0 1st Qu.:0
## Median : 5.870 Median :0 Median :0
## Mean : 7.729 Mean :0 Mean :0
## 3rd Qu.:10.240 3rd Qu.:0 3rd Qu.:0
## Max. :14.240 Max. :0 Max. :0
##
NuevoDataSetUPRIVADAFRMTO$SortUltimaFila=as.numeric( substr(NuevoDataSetUPRIVADAFRMTO$CodAlumno, 11, 14))
NuevoDataSetUPRIVADAFRMTO$SortUltimaFila2=as.numeric( substr(NuevoDataSetUPRIVADAFRMTO$CodAlumno, 16, 17))
###ORDENAMOS EL DATA SET
SortNuevoDataSetUPRIVADAFRMTO <- NuevoDataSetUPRIVADAFRMTO[order(NuevoDataSetUPRIVADAFRMTO$SortUltimaFila,NuevoDataSetUPRIVADAFRMTO$SortUltimaFila2),]
View(SortNuevoDataSetUPRIVADAFRMTO)
SortNuevoDataSetUPRIVADAFRMTO$SortUltimaFila <- NULL ##ELIMINARNOS LAS FILAS DE ORDENAMIENTO
SortNuevoDataSetUPRIVADAFRMTO$SortUltimaFila2 <- NULL ##ELIMINARNOS LAS FILAS DE ORDENAMIENTO
##Reemplamos en el dataset que se trabajarn los modelos
DataSetUPRIVADAFRMTO<-SortNuevoDataSetUPRIVADAFRMTO
# Resultado DESPUES
View(DataSetUPRIVADAFRMTO) #### EL NUEVO DATA SET SE ENCUENTRA ORDENADO CRONOLOGICAMENTE
ncol(DataSetUPRIVADAFRMTO)
## [1] 28
Segunda parte
summary(DataSetUPRIVADAFRMTO$CarreraProfesional)
## INGENIERIA AGRONOMICA
## 952
## INGENIERIA AGRONOMICA Y AGRICOLA
## 551
## INGENIERIA DE INDUSTRIA ALIMENTARIA
## 2392
## INGENIERIA DE MINAS
## 3119
## INGENIERIA DE SISTEMAS
## 4537
## INGENIERIA ELECTRONICA
## 3699
## INGENIERIA INDUSTRIAL
## 8791
## INGENIERIA MECANICA, MECANICA-ELECTRICA Y MECATRONICA
## 8528
## MEDICINA VETERINARIA Y ZOOTECNIA
## 3124
DataSetUPRIVADAFRMTO.RF <-DataSetUPRIVADAFRMTO[,Var.TodasUprivada] %>% filter(gsub("^\\s+|\\s+$", "",CarreraProfesional) =="INGENIERIA DE INDUSTRIA ALIMENTARIA" ) %>% droplevels
#INGENIERIA AGRONOMICA Y AGRICOLA
for (variable in ListVar.Categ) { levels(DataSetUPRIVADAFRMTO.RF[,variable]) }
nrow(DataSetUPRIVADAFRMTO.RF)
## [1] 2392
summary(DataSetUPRIVADAFRMTO.RF$CarreraProfesional)
## INGENIERIA DE INDUSTRIA ALIMENTARIA
## 2392
DataSetUPRIVADAFRMTO.RF$CarreraProfesional <- NULL
#filter(SemestresEstudiadosAcum < 4)##Debido a que se encontro mayor tasa en los primeros años se prueba ello
#DataSetUPRIVADAFRMTO.RF<-DataSetUPRIVADAFRMTO[(gsub("^\\s+|\\s+$", "",DataSetUPRIVADAFRMTO$CarreraProfesional) =="INGENIERIA DE SISTEMAS") | (gsub("^\\s+|\\s+$", "",DataSetUPRIVADAFRMTO$CarreraProfesional) =="INGENIERIA INDUSTRIAL"),] %>% droplevels
View(DataSetUPRIVADAFRMTO.RF)
# configurar función de control para Training
ctrl <- trainControl(method = "repeatedcv", number = 2, repeats = 2, summaryFunction = twoClassSummary, classProbs = TRUE)
DataSetUPRIVADAFRMTO.RF$categoriaBinarizada <- as.character(DataSetUPRIVADAFRMTO.RF$categoriaBinarizada)
DataSetUPRIVADAFRMTO.RF$categoriaBinarizada[DataSetUPRIVADAFRMTO.RF$categoriaBinarizada == "0"] <- "C0"### LOS QUE CONTINUAN
DataSetUPRIVADAFRMTO.RF$categoriaBinarizada[DataSetUPRIVADAFRMTO.RF$categoriaBinarizada == "1"] <- "C1"### LOS DESERTORES
DataSetUPRIVADAFRMTO.RF$categoriaBinarizada <- factor(DataSetUPRIVADAFRMTO.RF$categoriaBinarizada)
tercera parte
####################################################
####PODEMOS OBSERVAR EL DESBALANCEO DE LAS CLASES
100*prop.table(table(DataSetUPRIVADAFRMTO.RF$categoriaBinarizada))
##
## C0 C1
## 92.22408 7.77592
summary(DataSetUPRIVADAFRMTO.RF$categoriaBinarizada)
## C0 C1
## 2206 186
##calculamos las filas para el entrenamiento
TotalFilas <- nrow(DataSetUPRIVADAFRMTO.RF)
#####Se tomara el 50% de las de la data para entremiento y el otro 50% sera para TEST
TrainFilas <- round(TotalFilas*0.5)
### AGARRAMOS UN RAMDOM
index <- sample.int(TotalFilas,TotalFilas,replace=FALSE)
index
## [1] 561 655 2352 1319 29 1113 1444 2052 1986 941 2340 118 483
## [14] 2192 608 2173 2390 2207 97 1344 1845 718 1980 2163 1607 1644
## [27] 2081 728 551 2141 253 317 1779 1713 2099 245 2384 1123 1916
## [40] 2287 1997 116 241 389 1321 434 670 988 1156 291 1454 815
## [53] 2359 2249 1819 1388 793 1140 1787 2067 305 894 1398 760 2049
## [66] 1357 1538 153 1526 1427 1370 2312 1234 1021 371 839 1096 391
## [79] 479 95 1466 980 47 1979 1851 1195 2213 269 1333 636 2024
## [92] 1087 1247 1122 2233 796 1104 1049 1820 1389 783 357 139 958
## [105] 89 197 1974 690 942 998 1057 869 1900 2096 1972 190 1564
## [118] 193 1701 1601 1198 259 1129 263 1963 1755 2008 502 1134 1878
## [131] 1222 1895 277 1612 802 1508 2195 1935 1205 1709 69 1261 725
## [144] 1225 397 687 1434 465 380 230 1954 1499 195 67 621 1568
## [157] 1315 970 2241 1559 1759 1591 146 158 2231 2250 1144 2182 344
## [170] 292 735 1760 542 1984 1014 155 1537 1858 2330 1535 1514 373
## [183] 83 1884 348 1132 1292 1332 2198 2271 1302 1722 575 384 1446
## [196] 1264 336 661 445 1042 704 1316 467 974 206 1194 522 2137
## [209] 1692 828 1928 1923 1707 93 2176 17 127 1927 2170 1647 1445
## [222] 518 1001 2369 1638 42 2303 1065 200 1478 983 2288 852 1212
## [235] 1649 180 2123 1789 1138 349 1141 1092 1956 1037 1698 444 1643
## [248] 1536 2286 612 408 82 995 1429 791 1493 800 2131 890 464
## [261] 1480 2144 1685 1386 407 2160 1781 2224 724 1090 1697 2056 2283
## [274] 1539 972 1968 140 1969 997 520 834 1577 1334 2299 2326 262
## [287] 2370 1159 1322 1840 2383 437 1451 1218 2301 191 871 667 1758
## [300] 302 2237 226 640 1118 703 1793 831 627 430 1807 2254 1645
## [313] 2263 514 2251 2156 1584 1082 248 497 1573 976 901 2016 2208
## [326] 2197 2155 1957 1531 2246 1462 971 2220 1362 1043 1814 1939 188
## [339] 215 1149 2010 671 1437 1298 1448 1048 729 90 1179 2285 422
## [352] 738 2165 1655 1834 1609 166 525 733 565 222 2360 1227 1289
## [365] 926 1841 1901 475 1242 1318 1011 396 174 1837 1136 2386 680
## [378] 2 1976 2172 1903 2088 185 1186 1811 1241 696 1874 212 1720
## [391] 2179 1464 600 1911 645 85 189 583 698 877 2035 624 2223
## [404] 159 2336 1563 2146 2308 1078 2112 1419 1662 1873 576 1274 623
## [417] 1378 2117 56 765 361 2265 925 1852 129 1506 1209 1147 1906
## [430] 1353 199 64 1491 1442 183 5 1475 1994 1902 2281 1562 62
## [443] 329 2291 1832 826 801 1865 1545 2245 1034 1393 224 1372 2105
## [456] 1824 2048 1602 376 887 1262 1394 352 1060 1476 2218 1740 2385
## [469] 504 173 1702 885 1891 1534 880 304 2000 308 1456 915 274
## [482] 1326 1424 2357 2101 1193 777 406 529 675 1097 1724 1780 2030
## [495] 1732 178 40 1704 1208 999 2148 1827 1777 217 231 889 99
## [508] 1998 904 1838 1308 1594 1066 873 2039 1540 2232 1385 1731 1390
## [521] 1978 2353 1925 1962 812 2260 1960 1271 1806 1418 1068 1168 2167
## [534] 162 1377 628 1099 2199 150 1119 280 272 2297 36 1163 920
## [547] 74 1412 2119 531 351 2009 1492 1006 290 1025 1533 1528 1356
## [560] 1938 1571 868 2031 2248 328 1367 420 1204 992 632 1411 1581
## [573] 1240 239 987 501 1471 2149 1268 2279 1898 1616 237 1345 279
## [586] 410 227 2135 747 732 2276 2346 809 88 79 409 1114 1383
## [599] 128 1077 807 643 830 341 34 285 923 1339 76 2306 171
## [612] 1596 218 2290 1982 2230 2200 223 238 1894 1472 2066 751 931
## [625] 530 1965 1374 92 567 228 1463 1176 134 1167 597 2043 592
## [638] 363 1590 1033 1570 1004 2304 1054 2181 1075 367 673 2064 490
## [651] 1877 2240 1417 613 726 234 333 2037 798 595 737 2005 986
## [664] 1343 1690 1907 606 240 1826 1626 1103 2328 1116 350 755 1682
## [677] 1121 1639 785 832 547 1304 1489 1152 2098 1996 1408 313 943
## [690] 1576 1796 1620 374 219 593 929 1846 20 1859 1280 808 1899
## [703] 1051 924 2334 1201 288 556 1277 1714 1782 187 2284 746 639
## [716] 38 323 168 256 1889 989 179 2366 684 1694 1323 720 1365
## [729] 1742 822 1154 205 136 596 1910 1803 2189 144 1366 1756 979
## [742] 1929 1719 77 1557 854 1351 1465 1052 45 9 2129 981 1230
## [755] 2323 2183 1556 167 586 1005 727 1558 1525 2329 1653 1991 1226
## [768] 176 1337 969 1063 1341 649 775 769 1513 1721 982 816 2142
## [781] 1397 1303 1007 1792 469 1484 1748 1778 86 1761 1452 1835 359
## [794] 1776 2055 2325 1468 1800 851 258 2133 1219 2166 2239 659 115
## [807] 425 1745 1650 2244 2255 463 1676 782 428 1949 978 1866 412
## [820] 951 334 161 355 1435 1773 456 322 2174 1848 1507 1621 2201
## [833] 1844 1618 1045 688 899 882 653 1415 1392 368 2269 1328 478
## [846] 1101 1809 1174 1267 1375 1008 2152 1461 220 2060 860 2050 207
## [859] 1467 1380 1406 2130 2083 944 1754 790 1794 1317 112 2247 1481
## [872] 13 682 591 590 1067 888 2143 932 1504 339 137 1447 462
## [885] 1110 1829 1775 8 1399 2184 2321 1654 1349 50 1053 1405 2210
## [898] 1309 712 1216 884 1613 1693 692 2150 1587 1010 1128 1403 39
## [911] 2236 96 229 1849 916 1182 125 1801 1565 2374 1143 1580 1178
## [924] 2193 1669 753 2203 767 1127 1115 2196 773 398 1595 1169 1919
## [937] 2375 579 817 448 569 2318 78 1790 991 414 721 856 527
## [950] 891 516 225 1624 2338 1460 865 1473 734 1918 2382 1518 316
## [963] 968 360 1133 910 148 1373 691 536 1772 402 1485 1672 813
## [976] 385 2327 1705 1784 1237 1892 482 3 2054 2022 1904 2127 2085
## [989] 532 7 109 1946 1217 1297 247 2188 2273 1360 912 403 1646
## [1002] 599 103 343 1070 1523 2194 287 1305 1510 1263 585 358 905
## [1015] 674 2151 1080 2169 1751 543 1905 1369 1221 2087 1983 1439 1890
## [1028] 208 1112 70 577 1017 1079 1503 251 201 204 417 2363 1206
## [1041] 906 1821 2349 299 566 1041 1272 574 2023 966 1245 758 2041
## [1054] 31 170 1160 194 1273 553 284 1107 477 1395 549 131 1747
## [1067] 2300 1944 1040 641 54 1363 1985 1428 535 426 1795 1126 689
## [1080] 2292 2322 512 1628 1088 919 1816 2392 1828 1352 1086 61 2027
## [1093] 32 664 1089 1679 1350 1888 441 303 1673 604 184 123 2145
## [1106] 1396 250 844 740 1542 1196 14 2367 1093 438 824 49 1527
## [1119] 886 614 156 480 260 1071 1695 1423 1743 693 289 443 2106
## [1132] 1215 1232 996 879 1401 1061 1945 297 1603 1921 1691 771 1175
## [1145] 1296 55 2047 1718 762 145 120 2342 1990 2311 1588 611 51
## [1158] 337 2065 1058 1275 353 419 2380 57 1443 1677 265 1871 1822
## [1171] 2212 950 1995 2051 823 429 415 1013 1426 2372 821 1487 1172
## [1184] 505 2310 2044 730 1055 1157 984 1955 2177 2015 892 1165 1798
## [1197] 634 1959 510 848 754 642 2171 2104 895 472 797 1249 2094
## [1210] 1035 2376 255 2079 1085 1593 523 506 2153 1020 911 2036 1083
## [1223] 874 133 1589 949 2319 126 1311 763 708 2164 1608 2277 1988
## [1236] 1951 1030 1766 850 939 1496 2012 1003 838 2026 648 1187 2053
## [1249] 2335 1414 10 2229 132 1522 1246 198 572 616 18 2235 1739
## [1262] 1658 91 1752 2138 827 2256 495 1064 1762 2272 743 266 756
## [1275] 507 1036 246 404 1120 2280 1283 1023 1022 401 770 1757 2206
## [1288] 2354 1667 72 473 1255 1600 267 578 1750 110 962 1815 44
## [1301] 1675 1511 2115 2267 1674 1002 107 1727 1500 702 1880 1314 484
## [1314] 1300 1038 1943 617 1882 811 1830 1530 1301 2305 1936 281 1166
## [1327] 2373 1239 21 2086 2307 307 1970 1661 2158 1560 275 917 71
## [1340] 953 1741 609 1635 1420 774 2084 2121 1269 2178 377 836 19
## [1353] 1521 2070 2100 2217 1494 1532 2333 2032 1805 552 903 300 1441
## [1366] 1808 685 1725 68 1313 954 843 405 1917 1797 513 102 2347
## [1379] 2162 177 1717 1291 1248 940 1716 638 1236 927 94 955 1575
## [1392] 2317 2089 12 458 1285 98 1407 1438 160 1026 2126 1767 2316
## [1405] 499 1749 1642 792 1554 562 2381 1199 1453 2013 794 768 947
## [1418] 1190 216 1993 192 1686 65 1293 2238 2058 2046 2261 1656 1106
## [1431] 534 433 1933 1416 320 669 2186 2107 1622 1125 1971 1967 1281
## [1444] 2274 2028 235 2125 1155 1765 1548 163 2296 736 1181 326 143
## [1457] 1024 1753 681 1220 84 23 335 1926 113 654 33 1810 87
## [1470] 1111 1931 1203 694 2157 1875 618 312 1016 2379 805 315 108
## [1483] 1632 1295 723 347 1330 697 485 130 2147 2391 75 1574 650
## [1496] 799 748 1663 424 2377 1868 1213 442 938 622 914 1381 1552
## [1509] 533 841 881 956 2021 1074 2074 1287 182 1950 909 1696 1631
## [1522] 863 672 2034 446 878 1329 2209 1791 1062 24 1839 1836 2102
## [1535] 1410 1853 2007 2076 2068 1387 1860 498 2343 2040 1202 2215 2324
## [1548] 2082 492 858 340 466 1436 440 528 2202 1497 559 30 2214
## [1561] 1744 43 2059 714 2004 1409 1869 1228 1855 1124 1501 1015 1885
## [1574] 52 581 1069 930 1529 1569 668 2140 2180 2014 1953 1723 893
## [1587] 1664 819 105 1549 1469 2103 296 1825 418 620 1684 741 1670
## [1600] 295 394 1252 11 679 1736 111 1368 1606 1909 908 921 977
## [1613] 1223 842 2057 1137 1286 2069 186 236 2221 1582 1117 2128 1027
## [1626] 101 16 278 538 1355 2315 1641 181 1802 928 486 346 1270
## [1639] 957 1233 1338 1617 1948 1735 500 778 2078 779 646 2252 1486
## [1652] 1887 345 1105 2017 900 2019 1625 656 1961 493 607 2266 165
## [1665] 2228 375 582 1000 789 1942 814 141 1786 1142 1191 1256 570
## [1678] 276 587 2205 1567 666 584 1546 378 264 2332 635 1210 413
## [1691] 1257 825 2161 37 787 1630 1047 2139 750 2118 450 2122 1640
## [1704] 411 554 1477 2185 1897 1666 1553 2092 1585 866 249 1730 1358
## [1717] 2378 1431 1678 2295 1914 1364 1615 4 1056 2042 286 934 1989
## [1730] 2388 637 677 2294 902 1031 509 829 1266 555 1502 66 862
## [1743] 2275 2350 2168 1425 1382 1391 1637 2243 2339 81 959 2003 164
## [1756] 1817 1457 2018 471 545 1102 310 1842 963 615 752 399 1541
## [1769] 2159 202 731 1433 1843 1896 59 481 314 2337 2262 1922 1284
## [1782] 1519 1671 1660 1804 759 390 539 2136 447 1177 840 1044 644
## [1795] 365 1699 1440 489 855 2258 1214 203 757 1659 1192 1243 2110
## [1808] 2063 1823 853 967 1185 1459 647 772 388 806 468 2073 243
## [1821] 1371 1689 1856 2253 1812 1648 629 540 1738 867 2077 1354 2270
## [1834] 318 379 1763 1680 1579 936 1151 1250 2097 73 459 1081 1862
## [1847] 1516 152 1238 26 1598 1734 1913 1307 2175 1162 354 1139 1583
## [1860] 35 1095 1992 1708 1614 1586 605 2257 695 1482 1999 2259 1450
## [1873] 470 1335 1981 324 214 1668 106 494 898 818 1072 395 2090
## [1886] 526 2029 1294 1937 2216 2191 722 945 1799 117 2116 1703 598
## [1899] 705 364 1561 2389 2320 270 1299 1610 1306 2219 1432 864 1883
## [1912] 1474 2187 1952 1413 706 386 1688 383 2242 719 460 1348 331
## [1925] 2062 548 764 1189 2114 2361 233 1084 2264 1059 861 319 154
## [1938] 1153 1886 1908 964 1687 870 1572 1231 742 707 22 544 633
## [1951] 820 935 1498 658 1712 416 2091 833 1604 1032 1479 1867 2345
## [1964] 795 2351 1515 157 1879 196 122 1509 1627 1402 2364 1161 1930
## [1977] 2006 1235 457 2132 2314 1861 1282 431 960 1076 15 1340 2371
## [1990] 875 1148 993 254 2282 6 476 1715 1404 27 28 1941 1733
## [2003] 665 1771 2309 660 2061 393 172 1870 1728 761 784 283 1876
## [2016] 1028 1098 2355 965 1108 2095 511 2268 1145 835 1636 454 1376
## [2029] 749 452 372 2154 232 810 1788 849 537 1850 488 1629 1312
## [2042] 1768 53 1932 1729 298 1131 515 1449 1818 1346 169 952 1726
## [2055] 1100 1260 713 392 491 210 652 588 1665 1566 124 1259 242
## [2068] 546 63 2111 1857 973 625 883 651 1325 2222 907 114 2108
## [2081] 1171 2387 311 1253 918 1975 421 994 100 610 1813 381 519
## [2094] 1764 282 1290 213 780 209 1651 1224 619 1611 1135 1164 1700
## [2107] 1130 1458 1258 683 1605 2226 2120 268 1520 427 1544 362 221
## [2120] 1018 847 1310 2190 451 1958 804 147 1 2045 1543 366 1987
## [2133] 837 1578 1746 1276 121 699 1831 1551 1050 138 48 602 257
## [2146] 1681 1184 781 338 776 1073 325 845 149 676 2234 1924 435
## [2159] 786 2020 1109 1940 1009 788 58 2113 432 517 1710 2368 1652
## [2172] 342 387 293 60 1331 1254 662 1934 2075 261 709 2025 1592
## [2185] 1893 1490 1324 356 309 2293 1211 1966 678 739 2356 370 564
## [2198] 922 46 1146 948 717 439 1505 2002 933 1200 631 1833 1619
## [2211] 1170 1180 1158 449 1091 1422 1770 524 857 580 1320 563 1470
## [2224] 496 700 1029 2289 1683 961 1150 1278 41 1207 657 2204 897
## [2237] 1737 244 1785 630 715 2033 1783 896 455 1973 1279 686 211
## [2250] 1912 2358 1633 1173 1342 1379 1947 1019 1524 1769 1847 1488 1384
## [2263] 301 1977 985 119 1706 2365 1039 271 1597 2348 2344 876 1430
## [2276] 104 846 710 1964 745 1327 2362 1863 946 1012 1872 975 461
## [2289] 327 382 1881 151 1657 1920 558 423 1864 744 2080 1455 2038
## [2302] 594 508 711 913 321 766 601 273 487 1188 872 1711 453
## [2315] 503 1244 716 521 1400 306 1547 1550 1495 369 1623 589 1336
## [2328] 2134 2071 560 1046 2093 541 1634 1288 990 1347 2225 2298 1229
## [2341] 1359 1512 135 2001 1599 436 701 332 859 330 252 2011 2124
## [2354] 1915 1094 568 1555 1251 2313 2227 2109 663 550 2072 1421 1197
## [2367] 2341 1483 803 557 474 1774 2302 1183 1517 175 142 573 937
## [2380] 603 80 2278 294 2211 400 2331 571 1265 1854 1361 25 626
##VEMOS EL DATASET QUE SE UTILIZARA PARA ENTRENAR
View(DataSetUPRIVADAFRMTO.RF)
AQUI SE APLICAN LOS MODELOS Y SE MUESTRA SUS MATRICES DE CONFUSIÓN COMO REFERENCIA
##DENIFIMOS LOS NODOS DE ENTRENAMIENTP
x_trainRF <- DataSetUPRIVADAFRMTO.RF[ (1:TrainFilas),]
y_trainRF <- DataSetUPRIVADAFRMTO.RF[ (1:TrainFilas),'categoriaBinarizada']
x_testRF <- DataSetUPRIVADAFRMTO.RF[ ((TrainFilas+1):TotalFilas),]
y_testRF <- DataSetUPRIVADAFRMTO.RF[((TrainFilas+1):TotalFilas),'categoriaBinarizada']
## configurarmos un paramtro de RamdomForest para tunear el modelo.
tunegrid <- expand.grid(.mtry = c(sqrt(ncol(DataSetUPRIVADAFRMTO.RF))))
orig_fit <- caret::train(categoriaBinarizada ~ ., data = x_trainRF,verbose = FALSE
, method = "rf", metric = "ROC", tuneGrid = tunegrid
, trControl = ctrl)
summary(y_testRF)
## C0 C1
## 1103 93
mc_PredictOrigTuneGrid<- table(predict(orig_fit,x_testRF),y_testRF)
mc_PredictOrigTuneGrid
## y_testRF
## C0 C1
## C0 1103 92
## C1 0 1
cm_originalRF1 <- confusionMatrix(predict(orig_fit,x_testRF), y_testRF)
cm_originalRF1$byClass
## Sensitivity Specificity Pos Pred Value
## 1.00000000 0.01075269 0.92301255
## Neg Pred Value Precision Recall
## 1.00000000 0.92301255 1.00000000
## F1 Prevalence Detection Rate
## 0.95996519 0.92224080 0.92224080
## Detection Prevalence Balanced Accuracy
## 0.99916388 0.50537634