• 1 Describir y factorizar datos
    • 1.1 Cargar librería
    • 1.2 Cargar los datos
      • 1.2.1 summary()
      • 1.2.2 factor()

1 Describir y factorizar datos

El ejercicio carga datos de personas y factoriza para con ello determinar frecuencias de algunas columnas del tipo cualitativas.

Factorizar signifca que algunas variables que son de tipo char o string (cualitativas o categóricas) deben de categorizarse o factorizar, es decir deben formar parte de un conjunto de etiquetas y solamente de ese tipo de valor.

La factorización sirve para determinar la frecuencia de ocasión de una variable categórica

1.1 Cargar librería

library(readr)
## Warning: package 'readr' was built under R version 4.0.3

1.2 Cargar los datos

datos.personas <- read.csv("https://raw.githubusercontent.com/rpizarrog/FundamentosMachineLearning/master/datos/personas.2.csv", encoding = "iso-8859-1")
datos.personas
##    id nombres edades generos feliz estaturas pesos    zonas
## 1   1    Juan     24       M  TRUE      1.65    80   CENTRO
## 2   2   Pedro     34       M FALSE      1.70    70      SUR
## 3   3    Luis     51       M  TRUE      1.54    75      SUR
## 4   4 Aracely     32       F  TRUE      1.72    60   CENTRO
## 5   5   Rubén     45       M FALSE      1.70    65  ORIENTE
## 6   6   Linda     30       F  TRUE      1.80    70 PONIENTE
## 7   7  Brenda     43       F FALSE      1.90    86   CENTRO
## 8   8    Lucy     54       F  TRUE      1.75    90      SUR
## 9   9 Liliana     54       F FALSE      1.72    50 PONIENTE
## 10 10 Aracely     23       F  TRUE      1.65    76   CENTRO
## 11 11    Luis     34       M FALSE      1.78    78      SUR
## 12 12 Gabriel     23       M  TRUE      1.90    89    NORTE
## 13 13  Jimena     45       F FALSE      1.65    65      SUR

1.2.1 summary()

La función summary() visualiza los estadísticos básicos y describe de manera general los datos

summary(datos.personas)
##        id       nombres              edades        generos         
##  Min.   : 1   Length:13          Min.   :23.00   Length:13         
##  1st Qu.: 4   Class :character   1st Qu.:30.00   Class :character  
##  Median : 7   Mode  :character   Median :34.00   Mode  :character  
##  Mean   : 7                      Mean   :37.85                     
##  3rd Qu.:10                      3rd Qu.:45.00                     
##  Max.   :13                      Max.   :54.00                     
##    feliz           estaturas         pesos          zonas          
##  Mode :logical   Min.   :1.540   Min.   :50.00   Length:13         
##  FALSE:6         1st Qu.:1.650   1st Qu.:65.00   Class :character  
##  TRUE :7         Median :1.720   Median :75.00   Mode  :character  
##                  Mean   :1.728   Mean   :73.38                     
##                  3rd Qu.:1.780   3rd Qu.:80.00                     
##                  Max.   :1.900   Max.   :90.00

1.2.2 factor()

Factorizar nombres con la función factor()

datos.personas$nombres <- factor(datos.personas$nombres)

Factorizar generos de las personas

datos.personas$generos <- factor(datos.personas$generos)

Factorizar o categorizar la zona en donde viven las personas.

datos.personas$zonas <- factor(datos.personas$zonas)

Describir nuevamente los datos de personas

summary(datos.personas)
##        id        nombres      edades      generos   feliz        
##  Min.   : 1   Aracely:2   Min.   :23.00   F:7     Mode :logical  
##  1st Qu.: 4   Luis   :2   1st Qu.:30.00   M:6     FALSE:6        
##  Median : 7   Brenda :1   Median :34.00           TRUE :7        
##  Mean   : 7   Gabriel:1   Mean   :37.85                          
##  3rd Qu.:10   Jimena :1   3rd Qu.:45.00                          
##  Max.   :13   Juan   :1   Max.   :54.00                          
##               (Other):5                                          
##    estaturas         pesos            zonas  
##  Min.   :1.540   Min.   :50.00   CENTRO  :4  
##  1st Qu.:1.650   1st Qu.:65.00   NORTE   :1  
##  Median :1.720   Median :75.00   ORIENTE :1  
##  Mean   :1.728   Mean   :73.38   PONIENTE:2  
##  3rd Qu.:1.780   3rd Qu.:80.00   SUR     :5  
##  Max.   :1.900   Max.   :90.00               
##