Realizar el conteo de nombres de personas a partir de la lectura del archivo “nombre y apellidos.csv” importado desde la liga https://raw.githubusercontent.com/rpizarrog/datos/main/nombres%20y%20a; con la finalidad de encontrar la frecuencia entre los datos registrados.
Importar los datos de nombres y apellidos de la dirección <https://raw.githubusercontent.com/rpizarrog/datos/main/nombres%20y%20a>, pertenecientes al archivo “nombres y apellidos.csv”.
La variable de interés es “nombre”.
Emplear las funciones table() y order() para determinar la frecuencia y ordenar los valores, respectivamente.
Plasmar los datos en un diagrama de barras por medio de la función barplot().
Visualizar los primeros y últimos diez registros de nombres.
Describir la interpretación del análisis personal.
A través de la función read.csv se realiza la lectura de los datos contenidos en archivos de texto separado por comas (.csv). En este caso, se realiza la importación del archivo desde una dirección URL.
nombres<-read.csv("https://raw.githubusercontent.com/rpizarrog/datos/main/nombres%20y%20apellidos.csv", encoding = "UTF-8")
Se crea el data frame llamado nombres y se le asigna el total de registros contenidos en el archivo “nombres y apellidos.csv”; se determina demás el tipo de codificación en el que se encuentra el archivo, para que sus caracteres se mantengan sin alteraciones una vez contenidos en el data frame.
Se visualizan los primeros y últimos 10 elementos del data frame nombres, el cual contiene un total de 5734 registros; se determinan 20 sólo para fines de practicidad. Para lo anterior se emplean las funciones head() y tail().
head(nombres, 10)
## no patreno materno nombre
## 1 1 ALDABA VELAZQUEZ LUIS MANUEL
## 2 2 ALMONTE CHAVEZ DANIEL ADRIAN
## 3 3 ALVARADO MORENO NANCY ALONDRA
## 4 4 BAYONA MARRUFO CESAR YAHIR
## 5 5 CALVO QUEZADA ARIANNA ELISA
## 6 6 CASTRO SANTOS JESSICA SARAHI
## 7 7 CASTRUITA ARCINIEGA RICARDO
## 8 8 CORDERO RIVERA ANDREA FATIMA
## 9 9 DERAS CHAVEZ DIEGO ALEXANDER
## 10 10 DIAZ CARRILLO ANDREA PAULINA
tail(nombres, 10)
## no patreno materno nombre
## 5725 5734 VARGAS VIOLANTE BRICIA ESMERALDA
## 5726 5735 VAZQUEZ VERDIN GABRIELA
## 5727 5736 VEGA SALINAS EMMANUEL
## 5728 5737 VELAZQUEZ RODRIGUEZ JESUS MANUEL
## 5729 5738 VELOZ GAMIZ OMAR
## 5730 5739 VILLA ORTEGA DAVID GEOVANNI
## 5731 5740 VILLA VAZQUEZ OSWALDO ALEJANDRO
## 5732 5741 VILLARREAL ASTORGA VANESSA GABRIELA
## 5733 5742 VILLEGAS ORTEGA ALEXANDER RAFAEL
## 5734 5743 VITELA GUTIERREZ LUIS RENE
Se determina la frecuencia con la función table(), la cual establece cuántas repeticiones hay de cada elemento. En seguida se convierte aun data frame; La variable de interés es la columna “nombre”, y se accede a ella como un vector a través de la expresión nombres$nombre, lo que significa que del data frame llamado nombres se selecciona únicamente la columna nombre. Sólo se observan los primeros diez elementos por la función head().
frecuencias<-data.frame(table(nombres$nombre))
head(frecuencias, 10)
## Var1 Freq
## 1 #¡VALOR! 8
## 2 Ã\201NGEL DYDIER 1
## 3 AARON 7
## 4 AARON ADOLFO 1
## 5 AARON ALEJANDRO 1
## 6 AARON EDUARDO 1
## 7 AARON ISAI 1
## 8 AARÓN ISAÍAS 1
## 9 AARON MANUEL 1
## 10 AARON MISAEL 1
Se emplea la función order() para ordenar los elementos de un conjunto de datos.
frecuencias.ordenada<-frecuencias[order(frecuencias$Freq, decreasing=TRUE), ]
head(frecuencias.ordenada)
## Var1 Freq
## 2762 MARIA FERNANDA 36
## 138 ALEJANDRO 32
## 930 DANIEL 31
## 2189 JOSE MANUEL 28
## 2241 JUAN CARLOS 27
## 1429 FERNANDO 24
barplot(heigh=head(frecuencias.ordenada$Freq, 3), names.arg=head(frecuencias.ordenada$Var1, 3), main="Frecuencia de Nombres", xlab="Nombres", ylab="Frecuencias")
La frecuencia se entiende como el número de repeticiones de algo en específico sobre un caso determinado; en este punto la frecuencia establecida es acerca de los nombres de un conjunto de alumnos.
Se tomaron los datos a partir del archivo “nombre y apellidos.csv”, obtenido desde una URL empleando la función read.csv y se depositaron en el data frame nombres; a partir de ello se creó otra matriz llamada frecuencias en la cual se considera únicamente la columna “nombre” del primer data frame y en seguida la frecuencia de cada nombre según sus respectivas apariciones dentro del data frame nombres.
A partir de la delimitación de la frecuencia de los nombres de alumnos con la función table(), se procedió a ordenarle de manera decreciente y depositarle en frecuencia.ordenada, para así mostrar dichos resultados plasmados en un diagrama de barras con la función barplot().
El total de nombres de alumnos considerados y el total de observaciones dentro del data frame nombres fue de 5734; en total se estandarizaron los nombres en cuanto a frecuencias, organizados en grupos, de 3735 registros (nombres diferentes entre sí).
Según la frecuencia obtenida, el nombre con mayor repeticiones en este caso fue “María Fernanda”, con un total de 36 apariciones; le continúa el nombre “Alejandro” con 32 registros y “Daniel” con 31. Por su parte, existen diversos nombres que presentan una sola aparición y debido a ello es complejo realizar el análisis de sus correspondientes frecuencias.
Finalmente se comprende que al plasmar los datos de forma gráfica, y se divide la información de forma que sea más agradable a la vista, es posible que tanto el estadístico como las personas que consulten el reporte, comprendan de mejor manera los datos y a su vez, la realidad de la situación tratada.