PREPARACION DE LOS DATOS
Transformacion de la data
#
library(dplyr)
Data1 <- Data %>%
mutate(.,
DEP= as.factor(chartr("ÁÉÍÓÚ", "AEIOU", toupper(Departamento.de.domicilio.de.la.IES)) ),
IES= as.factor(chartr("ÁÉÍÓÚ", "AEIOU", toupper(Institución.de.Educación.Superior..IES.)) ),
PA = as.factor(chartr("ÁÉÍÓÚ", "AEIOU", toupper(Programa.Académico)) ),
NBC= as.factor(chartr("ÁÉÍÓÚ", "AEIOU", toupper(Núcleo.Básico.del.Conocimiento..NBC.)) ),
) %>%
mutate(., NFO = as.factor( case_when(Id_Nivel_Formacion==1 ~ "Especializacion",
Id_Nivel_Formacion==2 ~ "Maestria",
Id_Nivel_Formacion==3 ~ "Doctorado",
Id_Nivel_Formacion==4 ~ "Tecnica profesional",
Id_Nivel_Formacion==5 ~ "Tecnologia",
Id_Nivel_Formacion==6 ~ "Carrera universitaria",
Id_Nivel_Formacion==7 ~ "Especializacion tecnica",
Id_Nivel_Formacion==8 ~ "Especializacion tecnologica",
Id_Nivel_Formacion==10 ~ "Especializacion medica") ) ) %>%
mutate(., SEC = as.factor( case_when(Id_Sector==1 ~ "Publica",
Id_Sector==2 ~ "Privada") ) ) %>%
select(., ANO=Año, SEM=Id.Género, DEP, SEC, IES, PA, NFO, NBC, TM=Total.Matriculados)
str(Data1)
## 'data.frame': 195533 obs. of 9 variables:
## $ ANO: int 2015 2015 2015 2015 2015 2015 2015 2015 2015 2015 ...
## $ SEM: int 2 1 2 1 2 1 2 1 2 1 ...
## $ DEP: Factor w/ 35 levels "AMAZONAS","ANTIOQUIA",..: 7 7 7 7 7 7 7 7 7 7 ...
## $ SEC: Factor w/ 2 levels "Privada","Publica": 2 2 2 2 2 2 2 2 2 2 ...
## $ IES: Factor w/ 338 levels "CENTRO DE EDUCACION MILITAR - CEMIL",..: 324 324 324 324 324 324 324 324 324 324 ...
## $ PA : Factor w/ 6383 levels "ACTIVIDAD FISICA Y DEPORTE",..: 2663 2663 4471 4471 6383 6383 295 295 299 299 ...
## $ NFO: Factor w/ 9 levels "Carrera universitaria",..: 1 1 1 1 1 1 1 1 1 1 ...
## $ NBC: Factor w/ 61 levels "ADMINISTRACION",..: 32 32 47 47 61 61 17 17 17 17 ...
## $ TM : int 199 438 281 271 151 240 84 207 154 330 ...
Imprimir la data generada
PARCIAL
1. Genere un dataframe llamado Data2, con los nombres de columnas en
inglés, en caso de tener varias palabras usar “_” como separador.
Imprima los nombres de este nuevo DF
## [1] "YEAR" "SEM"
## [3] "DEPARTAMENT" "SECTOR"
## [5] "SUPERIOR_EDUCATION_INSTITUTION" "ACADEMIC_PROGRAM"
## [7] "FORMATION_LEVEL" "KNOWLEDGE_BASIC_AREA"
## [9] "TOTAL_REGISTERED"
2. Genere un dataframe llamado Data3, que contenga solo las
columnas; Prog_Acad, Ins_Edu_Sup, Dep y Tot_Matr, en ese mismo orden.
Imprima los primeros 5 datos de este nuevo DF
## Prog_Acad Ins_Edu_Sup Dep Tot_Matr
## 1 INGENIERIA AGRONOMICA UNIVERSIDAD NACIONAL DE COLOMBIA BOGOTA D.C. 199
## 2 INGENIERIA AGRONOMICA UNIVERSIDAD NACIONAL DE COLOMBIA BOGOTA D.C. 438
## 3 MEDICINA VETERINARIA UNIVERSIDAD NACIONAL DE COLOMBIA BOGOTA D.C. 281
## 4 MEDICINA VETERINARIA UNIVERSIDAD NACIONAL DE COLOMBIA BOGOTA D.C. 271
## 5 ZOOTECNIA UNIVERSIDAD NACIONAL DE COLOMBIA BOGOTA D.C. 151
## 6 ZOOTECNIA UNIVERSIDAD NACIONAL DE COLOMBIA BOGOTA D.C. 240
3. Cree una tabla en la que se muestre el promedio de matriculados a
Bioingenieria, discriminado por las IES que la ofertan. Imprima la tabla
generada.
## # A tibble: 3 × 2
## IES Media
## <fct> <dbl>
## 1 UNIVERSIDAD DE ANTIOQUIA 296.
## 2 UNIVERSIDAD EL BOSQUE 179.
## 3 UNIVERSIDAD SANTIAGO DE CALI 111.
4. Cree una tabla que muestre el total de matriculados para 2020,
por cada IES (sin repetir). Ordene de mayor a menor en funcion de el TM.
Imprima la tabla generada.
## # A tibble: 272 × 2
## IES Total_matriculados
## <fct> <int>
## 1 SERVICIO NACIONAL DE APRENDIZAJE-SENA- 424657
## 2 CORPORACION UNIVERSITARIA MINUTO DE DIOS -UNIMINUTO- 108325
## 3 UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD 78155
## 4 POLITECNICO GRANCOLOMBIANO 54192
## 5 UNIVERSIDAD NACIONAL DE COLOMBIA 43254
## 6 UNIVERSIDAD COOPERATIVA DE COLOMBIA 42453
## 7 UNIVERSIDAD DE ANTIOQUIA 36676
## 8 FUNDACION UNIVERSITARIA DEL AREA ANDINA 35833
## 9 PONTIFICIA UNIVERSIDAD JAVERIANA 31883
## 10 UNIVERSIDAD PEDAGOGICA Y TECNOLOGICA DE COLOMBIA - UPTC 31351
## # ℹ 262 more rows
5. Cree una tabla que contabilice para cada uno de los dos semestres
de 2020, el numero de programas por NFE, de la Universidad El Bosque.
Imprima la tabla generada.
## # A tibble: 10 × 3
## # Groups: NFO, SEM [10]
## NFO SEM n
## <fct> <int> <int>
## 1 Carrera universitaria 1 31
## 2 Carrera universitaria 2 31
## 3 Doctorado 1 3
## 4 Doctorado 2 3
## 5 Especializacion 1 31
## 6 Especializacion 2 32
## 7 Especializacion medica 1 30
## 8 Especializacion medica 2 31
## 9 Maestria 1 16
## 10 Maestria 2 16
6. Genere un listado con el numero de matriculados, por programa de
pregrados en la Universidad El Bosque para los dos semestres de 2020.
Imprima la tabla generada
## # A tibble: 220 × 3
## # Groups: PA [114]
## PA SEM matriculados
## <fct> <int> <int>
## 1 ADMINISTRACION DE EMPRESAS 1 257
## 2 ADMINISTRACION DE EMPRESAS 2 134
## 3 ARQUITECTURA 1 73
## 4 ARQUITECTURA 2 61
## 5 ARTE DRAMATICO 1 68
## 6 ARTE DRAMATICO 2 115
## 7 ARTES PLASTICAS 1 59
## 8 ARTES PLASTICAS 2 118
## 9 BIOINGENIERIA 1 149
## 10 BIOINGENIERIA 2 220
## # ℹ 210 more rows
7. Genere un grafico que muestre el numero de matriculados en
programas de pregrado por año
## # A tibble: 6 × 2
## ANO Totales
## <int> <int>
## 1 2015 1431983
## 2 2016 1513288
## 3 2017 1548485
## 4 2018 1557594
## 5 2019 1552078
## 6 2020 1529788

8. Genere un histograma, que muestre el numero de matriculas de
doctorado para el año 2020

9. Genere un grafico de barras donde se observe el promedio de
aditidos por NF
## # A tibble: 9 × 2
## NFO Media
## <fct> <dbl>
## 1 Carrera universitaria 116.
## 2 Doctorado 11.0
## 3 Especializacion 17.6
## 4 Especializacion medica 6.27
## 5 Especializacion tecnica 12.6
## 6 Especializacion tecnologica 30.0
## 7 Maestria 20.2
## 8 Tecnica profesional 46.9
## 9 Tecnologia 74.6
