Agrupar datos cualitativos
El caso identifica un conjunto de datos que representan mediante una variable cualitativa llamada nombres los valores de 50 alumnos 50 alumnos de una institución educativa.
Se carga un archivo mediante librería readr() que contiene varias columnas entre ellas el nombre del alumno que será la variable de estudio para este caso.
Se construye una tabla de frecuencias con la función fdt_cat() de la librería fdth().
Se genera una gráfica de barra con la función barplot() utilizando la tabal de frecuencia.
Se debe anticipadamente instalar librerías:
Luego cargar las librerías
library(fdth)
library(readr)
Se carga un archivo de 10000 mil registros de un conjunto de datos con variables tales como:
edad como valor numérico de los años cumplidos de una persona,
genero FEMENINO o MASCULINO,
estado de la República Mexicana de procedencia
feliz como variable que denota si una persona es feliz o no feliz.
personas <- read.csv(file = "https://raw.githubusercontent.com/rpizarrog/Probabilidad-y-EstadIstica-VIRTUAL-DISTANCIA/main/datos/datos.personas.csv", encoding = "ISO-8859-1", stringsAsFactors = TRUE)
head(personas, 10)
## X edad genero estado feliz
## 1 1 21 FEMENINO BAJA CALIFORNIA NO FELIZ
## 2 2 18 FEMENINO NUEVO LEÓN NO FELIZ
## 3 3 30 FEMENINO TAMAULIPAS FELIZ
## 4 4 23 FEMENINO NUEVO LEÓN NO FELIZ
## 5 5 47 MASCULINO TAMAULIPAS FELIZ
## 6 6 38 FEMENINO DURANGO NO FELIZ
## 7 7 63 FEMENINO BAJA CALIFORNIA SUR FELIZ
## 8 8 56 MASCULINO BAJA CALIFORNIA FELIZ
## 9 9 30 FEMENINO COAHUILA NO FELIZ
## 10 10 54 MASCULINO CHIHUAHUA FELIZ
tail(personas, 10)
## X edad genero estado feliz
## 9991 9991 30 FEMENINO DURANGO NO FELIZ
## 9992 9992 48 FEMENINO TAMAULIPAS NO FELIZ
## 9993 9993 34 FEMENINO CHIHUAHUA NO FELIZ
## 9994 9994 55 FEMENINO SONORA FELIZ
## 9995 9995 28 FEMENINO BAJA CALIFORNIA FELIZ
## 9996 9996 58 MASCULINO BAJA CALIFORNIA NO FELIZ
## 9997 9997 44 FEMENINO SONORA FELIZ
## 9998 9998 23 FEMENINO COAHUILA NO FELIZ
## 9999 9999 23 FEMENINO SONORA NO FELIZ
## 10000 10000 39 MASCULINO NUEVO LEÓN FELIZ
hist(x = personas$edad)
La tabla identifica las clases, los límites inferiores y superiores de cada clase, la frecuencia \(f\), la frecuencia relativa \(fr\), la frecuencia porcentual \(rf\%\), la frecuencia acumulada \(cf\) y la frecuencia porcentual acumulada \(cf\%\).
tabla <- fdt(x = personas$edad, start = 15, end = 70, h = 5)
tabla
## Class limits f rf rf(%) cf cf(%)
## [15,20) 408 0.04 4.08 408 4.08
## [20,25) 1027 0.10 10.27 1435 14.35
## [25,30) 1051 0.11 10.51 2486 24.86
## [30,35) 1033 0.10 10.33 3519 35.19
## [35,40) 1091 0.11 10.91 4610 46.10
## [40,45) 1049 0.10 10.49 5659 56.59
## [45,50) 993 0.10 9.93 6652 66.52
## [50,55) 1069 0.11 10.69 7721 77.21
## [55,60) 1027 0.10 10.27 8748 87.48
## [60,65) 1042 0.10 10.42 9790 97.90
## [65,70) 210 0.02 2.10 10000 100.00
tabla <- fdt_cat(personas$genero)
tabla
## Category f rf rf(%) cf cf(%)
## FEMENINO 5215 0.52 52.15 5215 52.15
## MASCULINO 4785 0.48 47.85 10000 100.00
barplot(height = tabla$f, names.arg = tabla$Category)
tabla <- fdt_cat(personas$estado)
tabla
## Category f rf rf(%) cf cf(%)
## DURANGO 1278 0.13 12.78 1278 12.78
## NUEVO LEÓN 1276 0.13 12.76 2554 25.54
## CHIHUAHUA 1271 0.13 12.71 3825 38.25
## COAHUILA 1267 0.13 12.67 5092 50.92
## BAJA CALIFORNIA 1257 0.13 12.57 6349 63.49
## TAMAULIPAS 1251 0.13 12.51 7600 76.00
## BAJA CALIFORNIA SUR 1205 0.12 12.05 8805 88.05
## SONORA 1195 0.12 11.95 10000 100.00
barplot(height = tabla$f, names.arg = tabla$Category )
En este caso la muestra en la cual se trabajo fue de 1000 registros, cuyas variables de interés fueron edad, genero, estado de residencia y si es feliz o no es feliz en los cuales se obtuvo que:
Con la ayuda de la barra de genero nos señala que 5215 son mujeres y 4785 son hombres.
La tabla identifica las clases, los límites inferiores y superiores de cada clase, la frecuencia de que arroja la tabla de frecuencias de edades se muestra que alrededor de 210 alumnos son de 65 a 70 años y 1091 son de 35 a 40 años.