Simular la creación de un conjunto de datos
Aspectos generales del caso
Simular la creación de un conjunto de alumnos con ciertas variables o características.
Se reutiliza una función previamente programada.
Se carga la función que se encuentra en github.com
source("https://raw.githubusercontent.com/rpizarrog/Probabilidad-y-EstadIstica-VIRTUAL-DISTANCIA/main/funciones/funcion%20crea%20alumnos.r")
Se crea un conjunto de datos en un data.frame llamado alumnos.
alumnos <- genAlumnos(5000, 2021)
Factorizar significa categorizar variables que son de tipo character o textos y tiene utilizar para identificar frecuencias con la función summary().
alumnos$matricula <- as.factor(alumnos$matricula)
alumnos$carrera <- as.factor(alumnos$carrera)
alumnos$genero <- as.factor(alumnos$genero)
head(alumnos, 10)
## matricula carrera genero promedio edad peso altura
## 1 1 INDUSTRIAL M 85.58 21 78.27 178.27
## 2 2 ELECTRONICA F 87.91 22 57.20 157.20
## 3 3 MECATRONICA F 87.21 21 58.23 158.23
## 4 4 INDUSTRIAL F 87.25 21 60.44 160.44
## 5 5 TIC M 89.11 22 78.09 178.09
## 6 6 CIVIL F 79.34 19 59.45 159.45
## 7 7 ELECTRONICA F 86.91 21 56.23 156.23
## 8 8 ELECTRONICA F 89.17 22 61.83 161.83
## 9 9 SISTEMAS F 86.05 21 60.10 160.10
## 10 10 ELECTRONICA F 91.99 23 61.08 161.08
tail(alumnos, 10)
## matricula carrera genero promedio edad peso altura
## 4991 4991 SISTEMAS F 81.97 20 58.96 158.96
## 4992 4992 ARQUITECTURA M 83.68 20 76.45 176.45
## 4993 4993 ARQUITECTURA F 82.82 20 60.81 160.81
## 4994 4994 INDUSTRIAL F 81.50 20 59.50 159.50
## 4995 4995 CIVIL M 93.44 23 81.35 181.35
## 4996 4996 MECATRONICA F 88.62 22 58.88 158.88
## 4997 4997 TIC M 84.66 21 83.20 183.20
## 4998 4998 INFORMATICA F 87.13 21 61.60 161.60
## 4999 4999 ELECTRONICA F 84.50 21 63.44 163.44
## 5000 5000 TIC M 79.65 19 79.36 179.36
str(alumnos)
## 'data.frame': 5000 obs. of 7 variables:
## $ matricula: Factor w/ 5000 levels "1","2","3","4",..: 1 2 3 4 5 6 7 8 9 10 ...
## $ carrera : Factor w/ 13 levels "ADMINISTRACION",..: 7 6 10 7 13 4 6 6 12 6 ...
## $ genero : Factor w/ 2 levels "F","M": 2 1 1 1 2 1 1 1 1 1 ...
## $ promedio : num 85.6 87.9 87.2 87.2 89.1 ...
## $ edad : num 21 22 21 21 22 19 21 22 21 23 ...
## $ peso : num 78.3 57.2 58.2 60.4 78.1 ...
## $ altura : num 178 157 158 160 178 ...
summary(alumnos)
## matricula carrera genero promedio edad
## 1 : 1 TIC : 416 F:2475 Min. :72.52 Min. :17.00
## 2 : 1 MECANICA : 414 M:2525 1st Qu.:83.68 1st Qu.:20.00
## 3 : 1 CIVIL : 408 Median :86.04 Median :21.00
## 4 : 1 SISTEMAS : 394 Mean :86.08 Mean :21.02
## 5 : 1 INFORMATICA : 393 3rd Qu.:88.37 3rd Qu.:22.00
## 6 : 1 ARQUITECTURA: 385 Max. :98.73 Max. :25.00
## (Other):4994 (Other) :2590
## peso altura
## Min. :51.03 Min. :151.0
## 1st Qu.:60.02 1st Qu.:160.0
## Median :72.50 Median :172.5
## Mean :70.15 Mean :170.1
## 3rd Qu.:79.98 3rd Qu.:180.0
## Max. :90.94 Max. :190.9
##
Se crea un conjunto de datos llamado alumnos a partir de funciones previamente programadas.
Se simulan 5000 observaciones con siete variables
Existen mas alumnos del género M que F
Hay más alumno de las carrera de TIC en relación con otras.