Caso 2. Frecuencia de nombres

Objetivo

Elaborar un análisis descriptivo de la frecuencia de nombres de alumnos.

Descripción

Se importan los datos de la dirección: [https://raw.githubusercontent.com/rpizarrog/datos/main/nombres%20y%20apellidos.csv] que contiene nombres de alumnos.

La variable de interés es el nombre.

Se utiliza la función *table()* para determinar la frecuencia.

Se utiliza la función *order()* para ordenar los valores.

Ya con los valores ordenados se genera un diagrama de barra por medio de la función *codebar()*

Se hace una interpretación del caso.

Se visualizan los primeros diez y ultimos diez registros u observaciones de los alumnos.

¿Como se hace el caso o como se desarrolla?

Desarrollo

Importar los datos

Se leen los datos con read.csv()

nombres <- read.csv("https://raw.githubusercontent.com/rpizarrog/datos/main/nombres%20y%20apellidos.csv", encoding = "UTF-8")

Visualizar observaciones

Se visualizan los primeros diez y los últimos diez registros.

head(nombres, 10)

##    no    patreno    materno          nombre
## 1   1    ALDABA  VELAZQUEZ      LUIS MANUEL
## 2   2   ALMONTE     CHAVEZ    DANIEL ADRIAN
## 3   3  ALVARADO     MORENO    NANCY ALONDRA
## 4   4    BAYONA    MARRUFO      CESAR YAHIR
## 5   5     CALVO    QUEZADA    ARIANNA ELISA
## 6   6    CASTRO     SANTOS   JESSICA SARAHI
## 7   7 CASTRUITA  ARCINIEGA          RICARDO
## 8   8   CORDERO     RIVERA    ANDREA FATIMA
## 9   9     DERAS     CHAVEZ  DIEGO ALEXANDER
## 10 10      DIAZ   CARRILLO   ANDREA PAULINA

tail(nombres,10)

##        no     patreno    materno            nombre
## 5725 5734     VARGAS   VIOLANTE   BRICIA ESMERALDA
## 5726 5735    VAZQUEZ     VERDIN           GABRIELA
## 5727 5736       VEGA    SALINAS           EMMANUEL
## 5728 5737  VELAZQUEZ  RODRIGUEZ       JESUS MANUEL
## 5729 5738      VELOZ      GAMIZ               OMAR
## 5730 5739      VILLA     ORTEGA     DAVID GEOVANNI
## 5731 5740      VILLA    VAZQUEZ  OSWALDO ALEJANDRO
## 5732 5741 VILLARREAL    ASTORGA   VANESSA GABRIELA
## 5733 5742   VILLEGAS     ORTEGA   ALEXANDER RAFAEL
## 5734 5743     VITELA  GUTIERREZ          LUIS RENE

Determinar frecuencia

Se determina la frecuencia con la función “table()” y se convierte a un data frame con la función *data.frame().

La variable o columna de interés es nombre y se accede a ella como un vector a través de la expresión *nombres\$nombre.*.

Sólo se observan los primeros diez registros de frecuencias con *head()*.

frecuencias <- data.frame(table(nombres$nombre))
head(frecuencias)

##              Var1 Freq
## 1        #¡VALOR!    8
## 2   Ã\201NGEL DYDIER    1
## 3           AARON    7
## 4    AARON ADOLFO    1
## 5 AARON ALEJANDRO    1
## 6   AARON EDUARDO    1

Ordenar las frecuencias

Se ordena por medio de la función *order().*

frecuencias.ordenada <- frecuencias[order(frecuencias$Freq, decreasing = TRUE),]
head(frecuencias.ordenada, 5)

##                Var1 Freq
## 2762 MARIA FERNANDA   36
## 138       ALEJANDRO   32
## 930          DANIEL   31
## 2189    JOSE MANUEL   28
## 2241    JUAN CARLOS   27

Diagrama de barra

barplot(height = head(frecuencias.ordenada$Freq, 5), names.arg = head(frecuencias.ordenada$Var1, 5), main = "Frecuencia de nombres", xlab = "Nombres", ylab = "Frecuencias")

Interpretación

El caso nos aporta una serie de registros con los que podemos trabajar en R Studio, a través de un archivo que se encuentra en una dirección de Internet, se identifica el numero y los nombres de todos los alumnos inscritos en el Instituto Tecnológico de Durango que son al rededor de 5,700 alumnos.

Los registros nos permiten determinar los primeros diez y los últimos diez nombres, como lo realizamos en el presente trabajo, ademas de que nos permite identificar y nos señala cuál es el apellido materno y cual es el paterno, también podemos identificar el dato sobre cuáles son los nombres más comunes de los alumnos, y podemos saber exactamente cuantas veces se repite ese nombre.