El ejercicio carga datos de personas y factoriza para con ello determinar frecuencias de algunas columnas del tipo cualitativas.
Factorizar signifca que algunas variables que son de tipo char o string (cualitativas o categóricas) deben de categorizarse o factorizar, es decir deben formar parte de un conjunto de etiquetas y solamente de ese tipo de valor.
La factorización sirve para determinar la frecuencia de ocasión de una variable categórica
library(readr)
## Warning: package 'readr' was built under R version 4.0.3
datos.personas <- read.csv("https://raw.githubusercontent.com/rpizarrog/FundamentosMachineLearning/master/datos/personas.2.csv", encoding = "iso-8859-1")
datos.personas
## id nombres edades generos feliz estaturas pesos zonas
## 1 1 Juan 24 M TRUE 1.65 80 CENTRO
## 2 2 Pedro 34 M FALSE 1.70 70 SUR
## 3 3 Luis 51 M TRUE 1.54 75 SUR
## 4 4 Aracely 32 F TRUE 1.72 60 CENTRO
## 5 5 Rubén 45 M FALSE 1.70 65 ORIENTE
## 6 6 Linda 30 F TRUE 1.80 70 PONIENTE
## 7 7 Brenda 43 F FALSE 1.90 86 CENTRO
## 8 8 Lucy 54 F TRUE 1.75 90 SUR
## 9 9 Liliana 54 F FALSE 1.72 50 PONIENTE
## 10 10 Aracely 23 F TRUE 1.65 76 CENTRO
## 11 11 Luis 34 M FALSE 1.78 78 SUR
## 12 12 Gabriel 23 M TRUE 1.90 89 NORTE
## 13 13 Jimena 45 F FALSE 1.65 65 SUR
La función summary() visualiza los estadísticos básicos y describe de manera general los datos
summary(datos.personas)
## id nombres edades generos
## Min. : 1 Length:13 Min. :23.00 Length:13
## 1st Qu.: 4 Class :character 1st Qu.:30.00 Class :character
## Median : 7 Mode :character Median :34.00 Mode :character
## Mean : 7 Mean :37.85
## 3rd Qu.:10 3rd Qu.:45.00
## Max. :13 Max. :54.00
## feliz estaturas pesos zonas
## Mode :logical Min. :1.540 Min. :50.00 Length:13
## FALSE:6 1st Qu.:1.650 1st Qu.:65.00 Class :character
## TRUE :7 Median :1.720 Median :75.00 Mode :character
## Mean :1.728 Mean :73.38
## 3rd Qu.:1.780 3rd Qu.:80.00
## Max. :1.900 Max. :90.00
Factorizar nombres con la función factor()
datos.personas$nombres <- factor(datos.personas$nombres)
Factorizar generos de las personas
datos.personas$generos <- factor(datos.personas$generos)
Factorizar o categorizar la zona en donde viven las personas.
datos.personas$zonas <- factor(datos.personas$zonas)
Describir nuevamente los datos de personas
summary(datos.personas)
## id nombres edades generos feliz
## Min. : 1 Aracely:2 Min. :23.00 F:7 Mode :logical
## 1st Qu.: 4 Luis :2 1st Qu.:30.00 M:6 FALSE:6
## Median : 7 Brenda :1 Median :34.00 TRUE :7
## Mean : 7 Gabriel:1 Mean :37.85
## 3rd Qu.:10 Jimena :1 3rd Qu.:45.00
## Max. :13 Juan :1 Max. :54.00
## (Other):5
## estaturas pesos zonas
## Min. :1.540 Min. :50.00 CENTRO :4
## 1st Qu.:1.650 1st Qu.:65.00 NORTE :1
## Median :1.720 Median :75.00 ORIENTE :1
## Mean :1.728 Mean :73.38 PONIENTE:2
## 3rd Qu.:1.780 3rd Qu.:80.00 SUR :5
## Max. :1.900 Max. :90.00
##