Objetivo

Realizar el conteo de nombres de personas a partir de la lectura del archivo “nombre y apellidos.csv” importado desde la liga https://raw.githubusercontent.com/rpizarrog/datos/main/nombres%20y%20a; con la finalidad de encontrar la frecuencia entre los datos registrados.

Descripción

Desarrollo

Importación de datos

A través de la función read.csv se realiza la lectura de los datos contenidos en archivos de texto separado por comas (.csv). En este caso, se realiza la importación del archivo desde una dirección URL.

nombres<-read.csv("https://raw.githubusercontent.com/rpizarrog/datos/main/nombres%20y%20apellidos.csv", encoding = "UTF-8")

Se crea el data frame llamado nombres y se le asigna el total de registros contenidos en el archivo “nombres y apellidos.csv”; se determina demás el tipo de codificación en el que se encuentra el archivo, para que sus caracteres se mantengan sin alteraciones una vez contenidos en el data frame.

Visualización de registros

Se visualizan los primeros y últimos 10 elementos del data frame nombres, el cual contiene un total de 5734 registros; se determinan 20 sólo para fines de practicidad. Para lo anterior se emplean las funciones head() y tail().

head(nombres, 10)
##    no    patreno    materno          nombre
## 1   1    ALDABA  VELAZQUEZ      LUIS MANUEL
## 2   2   ALMONTE     CHAVEZ    DANIEL ADRIAN
## 3   3  ALVARADO     MORENO    NANCY ALONDRA
## 4   4    BAYONA    MARRUFO      CESAR YAHIR
## 5   5     CALVO    QUEZADA    ARIANNA ELISA
## 6   6    CASTRO     SANTOS   JESSICA SARAHI
## 7   7 CASTRUITA  ARCINIEGA          RICARDO
## 8   8   CORDERO     RIVERA    ANDREA FATIMA
## 9   9     DERAS     CHAVEZ  DIEGO ALEXANDER
## 10 10      DIAZ   CARRILLO   ANDREA PAULINA
tail(nombres, 10)
##        no     patreno    materno            nombre
## 5725 5734     VARGAS   VIOLANTE   BRICIA ESMERALDA
## 5726 5735    VAZQUEZ     VERDIN           GABRIELA
## 5727 5736       VEGA    SALINAS           EMMANUEL
## 5728 5737  VELAZQUEZ  RODRIGUEZ       JESUS MANUEL
## 5729 5738      VELOZ      GAMIZ               OMAR
## 5730 5739      VILLA     ORTEGA     DAVID GEOVANNI
## 5731 5740      VILLA    VAZQUEZ  OSWALDO ALEJANDRO
## 5732 5741 VILLARREAL    ASTORGA   VANESSA GABRIELA
## 5733 5742   VILLEGAS     ORTEGA   ALEXANDER RAFAEL
## 5734 5743     VITELA  GUTIERREZ          LUIS RENE

Determinar frecuencia

Se determina la frecuencia con la función table(), la cual establece cuántas repeticiones hay de cada elemento. En seguida se convierte aun data frame; La variable de interés es la columna “nombre”, y se accede a ella como un vector a través de la expresión nombres$nombre, lo que significa que del data frame llamado nombres se selecciona únicamente la columna nombre. Sólo se observan los primeros diez elementos por la función head().

frecuencias<-data.frame(table(nombres$nombre))
head(frecuencias, 10)
##               Var1 Freq
## 1         #¡VALOR!    8
## 2    Ã\201NGEL DYDIER    1
## 3            AARON    7
## 4     AARON ADOLFO    1
## 5  AARON ALEJANDRO    1
## 6    AARON EDUARDO    1
## 7       AARON ISAI    1
## 8     AARÓN ISAÍAS    1
## 9     AARON MANUEL    1
## 10    AARON MISAEL    1

Ordenar las frecuencias

Se emplea la función order() para ordenar los elementos de un conjunto de datos.

frecuencias.ordenada<-frecuencias[order(frecuencias$Freq, decreasing=TRUE), ]
head(frecuencias.ordenada)
##                Var1 Freq
## 2762 MARIA FERNANDA   36
## 138       ALEJANDRO   32
## 930          DANIEL   31
## 2189    JOSE MANUEL   28
## 2241    JUAN CARLOS   27
## 1429       FERNANDO   24

Diagrama de barra

barplot(heigh=head(frecuencias.ordenada$Freq, 3), names.arg=head(frecuencias.ordenada$Var1, 3), main="Frecuencia de Nombres", xlab="Nombres", ylab="Frecuencias")

Interpretación

La frecuencia se entiende como el número de repeticiones de algo en específico sobre un caso determinado; en este punto la frecuencia establecida es acerca de los nombres de un conjunto de alumnos.

Se tomaron los datos a partir del archivo “nombre y apellidos.csv”, obtenido desde una URL empleando la función read.csv y se depositaron en el data frame nombres; a partir de ello se creó otra matriz llamada frecuencias en la cual se considera únicamente la columna “nombre” del primer data frame y en seguida la frecuencia de cada nombre según sus respectivas apariciones dentro del data frame nombres.

A partir de la delimitación de la frecuencia de los nombres de alumnos con la función table(), se procedió a ordenarle de manera decreciente y depositarle en frecuencia.ordenada, para así mostrar dichos resultados plasmados en un diagrama de barras con la función barplot().

El total de nombres de alumnos considerados y el total de observaciones dentro del data frame nombres fue de 5734; en total se estandarizaron los nombres en cuanto a frecuencias, organizados en grupos, de 3735 registros (nombres diferentes entre sí).

Según la frecuencia obtenida, el nombre con mayor repeticiones en este caso fue “María Fernanda”, con un total de 36 apariciones; le continúa el nombre “Alejandro” con 32 registros y “Daniel” con 31. Por su parte, existen diversos nombres que presentan una sola aparición y debido a ello es complejo realizar el análisis de sus correspondientes frecuencias.

Finalmente se comprende que al plasmar los datos de forma gráfica, y se divide la información de forma que sea más agradable a la vista, es posible que tanto el estadístico como las personas que consulten el reporte, comprendan de mejor manera los datos y a su vez, la realidad de la situación tratada.