Objetivo

Agrupar datos cualitativos

Descripción

El caso identifica un conjunto de datos que representan mediante una variable cualitativa llamada nombres los valores de 50 alumnos 50 alumnos de una institución educativa.

Se carga un archivo mediante librería readr() que contiene varias columnas entre ellas el nombre del alumno que será la variable de estudio para este caso.

Se construye una tabla de frecuencias con la función fdt_cat() de la librería fdth().

Se genera una gráfica de barra con la función barplot() utilizando la tabal de frecuencia.

Desarrollo

Cargar librerías

Se debe anticipadamente instalar librerías:

  • install.packages(“fdth”)

Luego cargar las librerías

library(fdth)
library(readr)

Cargar los datos

Se carga un archivo de 10000 mil registros de un conjunto de datos con variables tales como:

  • edad como valor numérico de los años cumplidos de una persona,

  • genero FEMENINO o MASCULINO,

  • estado de la República Mexicana de procedencia

  • feliz como variable que denota si una persona es feliz o no feliz.

personas <- read.csv(file = "https://raw.githubusercontent.com/rpizarrog/Probabilidad-y-EstadIstica-VIRTUAL-DISTANCIA/main/datos/datos.personas.csv", encoding = "ISO-8859-1", stringsAsFactors = TRUE)

Primeros 10 registros

head(personas, 10)
##     X edad    genero              estado    feliz
## 1   1   21  FEMENINO     BAJA CALIFORNIA NO FELIZ
## 2   2   18  FEMENINO          NUEVO LEÓN NO FELIZ
## 3   3   30  FEMENINO          TAMAULIPAS    FELIZ
## 4   4   23  FEMENINO          NUEVO LEÓN NO FELIZ
## 5   5   47 MASCULINO          TAMAULIPAS    FELIZ
## 6   6   38  FEMENINO             DURANGO NO FELIZ
## 7   7   63  FEMENINO BAJA CALIFORNIA SUR    FELIZ
## 8   8   56 MASCULINO     BAJA CALIFORNIA    FELIZ
## 9   9   30  FEMENINO            COAHUILA NO FELIZ
## 10 10   54 MASCULINO           CHIHUAHUA    FELIZ

Últimos 10 registros

tail(personas, 10)
##           X edad    genero          estado    feliz
## 9991   9991   30  FEMENINO         DURANGO NO FELIZ
## 9992   9992   48  FEMENINO      TAMAULIPAS NO FELIZ
## 9993   9993   34  FEMENINO       CHIHUAHUA NO FELIZ
## 9994   9994   55  FEMENINO          SONORA    FELIZ
## 9995   9995   28  FEMENINO BAJA CALIFORNIA    FELIZ
## 9996   9996   58 MASCULINO BAJA CALIFORNIA NO FELIZ
## 9997   9997   44  FEMENINO          SONORA    FELIZ
## 9998   9998   23  FEMENINO        COAHUILA NO FELIZ
## 9999   9999   23  FEMENINO          SONORA NO FELIZ
## 10000 10000   39 MASCULINO      NUEVO LEÓN    FELIZ

Histograma de los datos

Histograma de edades

hist(x = personas$edad)

Tabla frecuencias de edades

La tabla identifica las clases, los límites inferiores y superiores de cada clase, la frecuencia \(f\), la frecuencia relativa \(fr\), la frecuencia porcentual \(rf\%\), la frecuencia acumulada \(cf\) y la frecuencia porcentual acumulada \(cf\%\).

tabla <- fdt(x = personas$edad, start = 15, end = 70, h = 5)
tabla
##  Class limits    f   rf rf(%)    cf  cf(%)
##       [15,20)  408 0.04  4.08   408   4.08
##       [20,25) 1027 0.10 10.27  1435  14.35
##       [25,30) 1051 0.11 10.51  2486  24.86
##       [30,35) 1033 0.10 10.33  3519  35.19
##       [35,40) 1091 0.11 10.91  4610  46.10
##       [40,45) 1049 0.10 10.49  5659  56.59
##       [45,50)  993 0.10  9.93  6652  66.52
##       [50,55) 1069 0.11 10.69  7721  77.21
##       [55,60) 1027 0.10 10.27  8748  87.48
##       [60,65) 1042 0.10 10.42  9790  97.90
##       [65,70)  210 0.02  2.10 10000 100.00

Diagrama de barra

Diagrama de barra de genero

tabla <- fdt_cat(personas$genero)
tabla
##   Category    f   rf rf(%)    cf  cf(%)
##   FEMENINO 5215 0.52 52.15  5215  52.15
##  MASCULINO 4785 0.48 47.85 10000 100.00
barplot(height = tabla$f, names.arg = tabla$Category)

Diagrama de barra de estado

tabla <- fdt_cat(personas$estado)
tabla
##             Category    f   rf rf(%)    cf  cf(%)
##              DURANGO 1278 0.13 12.78  1278  12.78
##           NUEVO LEÓN 1276 0.13 12.76  2554  25.54
##            CHIHUAHUA 1271 0.13 12.71  3825  38.25
##             COAHUILA 1267 0.13 12.67  5092  50.92
##      BAJA CALIFORNIA 1257 0.13 12.57  6349  63.49
##           TAMAULIPAS 1251 0.13 12.51  7600  76.00
##  BAJA CALIFORNIA SUR 1205 0.12 12.05  8805  88.05
##               SONORA 1195 0.12 11.95 10000 100.00
barplot(height = tabla$f, names.arg = tabla$Category )

Interpretación

En este caso la muestra en la cual se trabajo fue de 1000 registros, cuyas variables de interés fueron edad, genero, estado de residencia y si es feliz o no es feliz en los cuales se obtuvo que:

Con la ayuda de la barra de genero nos señala que 5215 son mujeres y 4785 son hombres.
La tabla identifica las clases, los límites inferiores y superiores de cada clase, la frecuencia de que arroja la tabla de frecuencias de edades se muestra que alrededor de 210 alumnos son de 65 a 70 años y 1091 son de 35 a 40 años.