AGRUPAR DATOS CUALITATIVOS
El caso identifica un conjunto de datos que representan mediante una variable cualitativa llamada nombres los valores de 50 alumnos de una institución educativa.
Se carga un archivo mediante librería readr() que contiene varias columnas entre ellas el nombre del alumno que será la variable de estudio para este caso.
Se construye una tabla de frecuencias con la función fdt_cat() de la librería fdth().
Se genera una gráfica de barra con la función barplot() utilizando la tabal de frecuencia.
library(fdth)
personas <- read.csv(file = "https://raw.githubusercontent.com/rpizarrog/Probabilidad-y-EstadIstica-VIRTUAL-DISTANCIA/main/datos/datos.personas.csv", encoding = "ISO-8859-1", stringsAsFactors = TRUE)
head(personas, 10)
## X edad genero estado feliz
## 1 1 21 FEMENINO BAJA CALIFORNIA NO FELIZ
## 2 2 18 FEMENINO NUEVO LEÓN NO FELIZ
## 3 3 30 FEMENINO TAMAULIPAS FELIZ
## 4 4 23 FEMENINO NUEVO LEÓN NO FELIZ
## 5 5 47 MASCULINO TAMAULIPAS FELIZ
## 6 6 38 FEMENINO DURANGO NO FELIZ
## 7 7 63 FEMENINO BAJA CALIFORNIA SUR FELIZ
## 8 8 56 MASCULINO BAJA CALIFORNIA FELIZ
## 9 9 30 FEMENINO COAHUILA NO FELIZ
## 10 10 54 MASCULINO CHIHUAHUA FELIZ
tail(personas, 10)
## X edad genero estado feliz
## 9991 9991 30 FEMENINO DURANGO NO FELIZ
## 9992 9992 48 FEMENINO TAMAULIPAS NO FELIZ
## 9993 9993 34 FEMENINO CHIHUAHUA NO FELIZ
## 9994 9994 55 FEMENINO SONORA FELIZ
## 9995 9995 28 FEMENINO BAJA CALIFORNIA FELIZ
## 9996 9996 58 MASCULINO BAJA CALIFORNIA NO FELIZ
## 9997 9997 44 FEMENINO SONORA FELIZ
## 9998 9998 23 FEMENINO COAHUILA NO FELIZ
## 9999 9999 23 FEMENINO SONORA NO FELIZ
## 10000 10000 39 MASCULINO NUEVO LEÓN FELIZ
hist(x = personas$edad)
tabla <- fdt(x = personas$edad, start = 15, end = 70, h = 5)
tabla
## Class limits f rf rf(%) cf cf(%)
## [15,20) 408 0.04 4.08 408 4.08
## [20,25) 1027 0.10 10.27 1435 14.35
## [25,30) 1051 0.11 10.51 2486 24.86
## [30,35) 1033 0.10 10.33 3519 35.19
## [35,40) 1091 0.11 10.91 4610 46.10
## [40,45) 1049 0.10 10.49 5659 56.59
## [45,50) 993 0.10 9.93 6652 66.52
## [50,55) 1069 0.11 10.69 7721 77.21
## [55,60) 1027 0.10 10.27 8748 87.48
## [60,65) 1042 0.10 10.42 9790 97.90
## [65,70) 210 0.02 2.10 10000 100.00
tabla <- fdt_cat(personas$genero)
tabla
## Category f rf rf(%) cf cf(%)
## FEMENINO 5215 0.52 52.15 5215 52.15
## MASCULINO 4785 0.48 47.85 10000 100.00
barplot(height = tabla$f, names.arg = tabla$Category)
tabla <- fdt_cat(personas$estado)
tabla
## Category f rf rf(%) cf cf(%)
## DURANGO 1278 0.13 12.78 1278 12.78
## NUEVO LEÓN 1276 0.13 12.76 2554 25.54
## CHIHUAHUA 1271 0.13 12.71 3825 38.25
## COAHUILA 1267 0.13 12.67 5092 50.92
## BAJA CALIFORNIA 1257 0.13 12.57 6349 63.49
## TAMAULIPAS 1251 0.13 12.51 7600 76.00
## BAJA CALIFORNIA SUR 1205 0.12 12.05 8805 88.05
## SONORA 1195 0.12 11.95 10000 100.00
barplot(height = tabla$f, names.arg = tabla$Category )
Del conjunto de datos que se carga, siendo 10000 registros, existe personas que tienen una edad entre