Elaborar un análisis descriptivo de la frecuencia de nombres de alumnos.
Se importan los datos de la dirección: [https://raw.githubusercontent.com/rpizarrog/datos/main/nombres%20y%20apellidos.csv] que contiene nombres de alumnos.
La variable de interés es el nombre.
Se utiliza la función *table()* para determinar la frecuencia.
Se utiliza la función *order()* para ordenar los valores.
Ya con los valores ordenados se genera un diagrama de barra por medio de la función *codebar()*
Se hace una interpretación del caso.
Se visualizan los primeros diez y ultimos diez registros u observaciones de los alumnos.
¿Como se hace el caso o como se desarrolla?
Se leen los datos con read.csv()
nombres <- read.csv("https://raw.githubusercontent.com/rpizarrog/datos/main/nombres%20y%20apellidos.csv", encoding = "UTF-8")
Se visualizan los primeros diez y los últimos diez registros.
head(nombres, 10)
## no patreno materno nombre
## 1 1 ALDABA VELAZQUEZ LUIS MANUEL
## 2 2 ALMONTE CHAVEZ DANIEL ADRIAN
## 3 3 ALVARADO MORENO NANCY ALONDRA
## 4 4 BAYONA MARRUFO CESAR YAHIR
## 5 5 CALVO QUEZADA ARIANNA ELISA
## 6 6 CASTRO SANTOS JESSICA SARAHI
## 7 7 CASTRUITA ARCINIEGA RICARDO
## 8 8 CORDERO RIVERA ANDREA FATIMA
## 9 9 DERAS CHAVEZ DIEGO ALEXANDER
## 10 10 DIAZ CARRILLO ANDREA PAULINA
tail(nombres,10)
## no patreno materno nombre
## 5725 5734 VARGAS VIOLANTE BRICIA ESMERALDA
## 5726 5735 VAZQUEZ VERDIN GABRIELA
## 5727 5736 VEGA SALINAS EMMANUEL
## 5728 5737 VELAZQUEZ RODRIGUEZ JESUS MANUEL
## 5729 5738 VELOZ GAMIZ OMAR
## 5730 5739 VILLA ORTEGA DAVID GEOVANNI
## 5731 5740 VILLA VAZQUEZ OSWALDO ALEJANDRO
## 5732 5741 VILLARREAL ASTORGA VANESSA GABRIELA
## 5733 5742 VILLEGAS ORTEGA ALEXANDER RAFAEL
## 5734 5743 VITELA GUTIERREZ LUIS RENE
Se determina la frecuencia con la función “table()” y se convierte a un data frame con la función *data.frame().
La variable o columna de interés es nombre y se accede a ella como un vector a través de la expresión *nombres\$nombre.*.
Sólo se observan los primeros diez registros de frecuencias con *head()*.
frecuencias <- data.frame(table(nombres$nombre))
head(frecuencias)
## Var1 Freq
## 1 #¡VALOR! 8
## 2 Ã\201NGEL DYDIER 1
## 3 AARON 7
## 4 AARON ADOLFO 1
## 5 AARON ALEJANDRO 1
## 6 AARON EDUARDO 1
Se ordena por medio de la función *order().*
frecuencias.ordenada <- frecuencias[order(frecuencias$Freq, decreasing = TRUE),]
head(frecuencias.ordenada, 5)
## Var1 Freq
## 2762 MARIA FERNANDA 36
## 138 ALEJANDRO 32
## 930 DANIEL 31
## 2189 JOSE MANUEL 28
## 2241 JUAN CARLOS 27
barplot(height = head(frecuencias.ordenada$Freq, 5), names.arg = head(frecuencias.ordenada$Var1, 5), main = "Frecuencia de nombres", xlab = "Nombres", ylab = "Frecuencias")
El caso nos aporta una serie de registros con los que podemos trabajar en R Studio, a través de un archivo que se encuentra en una dirección de Internet, se identifica el numero y los nombres de todos los alumnos inscritos en el Instituto Tecnológico de Durango que son al rededor de 5,700 alumnos.
Los registros nos permiten determinar los primeros diez y los últimos diez nombres, como lo realizamos en el presente trabajo, ademas de que nos permite identificar y nos señala cuál es el apellido materno y cual es el paterno, también podemos identificar el dato sobre cuáles son los nombres más comunes de los alumnos, y podemos saber exactamente cuantas veces se repite ese nombre.