Objetivo

Elaborar un análisis descriptivo de la frecuencia de nombres de alumnos.

Descripción

Se importan los datos de la dirección: <https://raw.githubusercontent.com/rpizarrog/Trabajos-en-R-AD2021/main/datos/nombres%20y%20apellidos.csv> que contiene nombres de alumnos.

La variable de interés es el nombre.

Se utiliza la función table() para determinar la frecuencia

Se utiliza la función order() para ordenar los valores

Ya con los valores ordenados se genera un diagrama de barra por medio de la función codebar().

Se hace una interpretación del caso.

Se visualizan los primeros diez y últimos diez registros u observaciones de los alumnos.

¿Cómo se hace el caso o como se desarrolla?

Desarrollo

Importar los datos

Se leen los datos con read.csv()

nombres <- read.csv("https://raw.githubusercontent.com/rpizarrog/datos/main/nombres%20y%20apellidos.csv", encoding = "UTF-8")

Visualizar observaciones

Se visualizan los primeros diez y últimos diez registros

head(nombres, 10)
##    no    patreno    materno          nombre
## 1   1    ALDABA  VELAZQUEZ      LUIS MANUEL
## 2   2   ALMONTE     CHAVEZ    DANIEL ADRIAN
## 3   3  ALVARADO     MORENO    NANCY ALONDRA
## 4   4    BAYONA    MARRUFO      CESAR YAHIR
## 5   5     CALVO    QUEZADA    ARIANNA ELISA
## 6   6    CASTRO     SANTOS   JESSICA SARAHI
## 7   7 CASTRUITA  ARCINIEGA          RICARDO
## 8   8   CORDERO     RIVERA    ANDREA FATIMA
## 9   9     DERAS     CHAVEZ  DIEGO ALEXANDER
## 10 10      DIAZ   CARRILLO   ANDREA PAULINA
tail(nombres, 10)
##        no     patreno    materno            nombre
## 5725 5734     VARGAS   VIOLANTE   BRICIA ESMERALDA
## 5726 5735    VAZQUEZ     VERDIN           GABRIELA
## 5727 5736       VEGA    SALINAS           EMMANUEL
## 5728 5737  VELAZQUEZ  RODRIGUEZ       JESUS MANUEL
## 5729 5738      VELOZ      GAMIZ               OMAR
## 5730 5739      VILLA     ORTEGA     DAVID GEOVANNI
## 5731 5740      VILLA    VAZQUEZ  OSWALDO ALEJANDRO
## 5732 5741 VILLARREAL    ASTORGA   VANESSA GABRIELA
## 5733 5742   VILLEGAS     ORTEGA   ALEXANDER RAFAEL
## 5734 5743     VITELA  GUTIERREZ          LUIS RENE

Determinar Frecuencia

Se determina la frecuencia con la función table() y se convierte a un data frame con la función data.frame()

La variable o columna de interés es nombre y se accede a ella como un vector a través de la expresión nombres$nombre..

Solo se observan los primeros diez registros de frecuencias con head().

frecuencias <- data.frame(table(nombres$nombre))
head(frecuencias )
##              Var1 Freq
## 1        #¡VALOR!    8
## 2   Ã\201NGEL DYDIER    1
## 3           AARON    7
## 4    AARON ADOLFO    1
## 5 AARON ALEJANDRO    1
## 6   AARON EDUARDO    1

Ordenar las frecuencias

Se ordena por medio de la función order().

frecuencias.ordenada <- frecuencias[order(frecuencias$Freq, decreasing = TRUE),]
head(frecuencias.ordenada, 5)
##                Var1 Freq
## 2762 MARIA FERNANDA   36
## 138       ALEJANDRO   32
## 930          DANIEL   31
## 2189    JOSE MANUEL   28
## 2241    JUAN CARLOS   27

Diagrama de barra

barplot(height = head(frecuencias.ordenada$Freq, 5)
, names.arg = head(frecuencias.ordenada$Var1, 5), main = "Frecuencia de nombres", xlab = "Nombres", ylab = "Frecuencias")

Interpretación

En este diagrama podemos observar mediante unos comandos que comentare acontinuacion. mediante una lista que se nos ha sido proporcinada con los cuales podamos utilizar los comandos que vimos en el anterior programa llamado " Analisis de promedio de alumnos" en el cual utilizamos el comando “head(nombres, 10) tail(nombres, 10)” en el cual nos dara los primeros 10 nombres y los ultimos 10 que en este caso los primeros 10 nombres son:

1 ALDABA VELAZQUEZ LUIS MANUEL 2 ALMONTE CHAVEZ DANIEL ADRIAN 3 ALVARADO MORENO NANCY ALONDRA 4 BAYONA MARRUFO CESAR YAHIR 5 CALVO QUEZADA ARIANNA ELISA 6 CASTRO SANTOS JESSICA SARAHI 7 CASTRUITA ARCINIEGA RICARDO 8 CORDERO RIVERA ANDREA FATIMA 9 DERAS CHAVEZ DIEGO ALEXANDER 10 DIAZ CARRILLO ANDREA PAULINA y los ultimos 10 son: 5734 VARGAS VIOLANTE BRICIA ESMERALDA 5726 VAZQUEZ VERDIN GABRIELA 5727 VEGA SALINAS EMMANUEL 5728 VELAZQUEZ RODRIGUEZ JESUS MANUEL 5729 VELOZ GAMIZ OMAR 5730 VILLA ORTEGA DAVID GEOVANNI 5731 VILLA VAZQUEZ OSWALDO ALEJANDRO 5732 VILLARREAL ASTORGA VANESSA GABRIELA 5733 VILLEGAS ORTEGA ALEXANDER RAFAEL 5734 VITELA GUTIERREZ LUIS RENE

Despues de esto usaremos el siguiente comando para saber la frecuancia de los nombres que veremos en la lista, utilizamos frecuencias <- data.frame(table(nombres$nombre)) head(frecuencias ) en el cual nos dara los 5 primeros nombres de la lista, los nombres que mas se repiten en la lista que nos direon los siguientes nombres:

Ã\201NGEL DYDIER 1
AARON 7
AARON ADOLFO 1
AARON ALEJANDRO 1
AARON EDUARDO 1

Con el siguiente comando vamos a hacer lo contrario no solo hagarar de los primeros de la lista se hara con el siguiente comando y se nos dara a conocer cuales son los nombres que mas se repiten en toda la lista, usando el siguiente comando frecuencias.ordenada <- frecuencias[order(frecuencias$Freq, decreasing = TRUE),] head(frecuencias.ordenada, 5) podemos observar que los nombres que mas se repiten son:

2762 MARIA FERNANDA 36
138 ALEJANDRO 32
930 DANIEL 31
2189 JOSE MANUEL 28
2241 JUAN CARLOS 27

Podemos ver que el nombre mas frecuente es el de MARIA FERNANDA con 32 y el que no es tan frecuente pero que es de los que mas se repite es el de JUAN CARLOS con 27 personas llamadas asi.

Por ultimo para darle un diseño podemos utilizar un comando para darle diseño y estetica y que podamos verlo graficamente utilizaremos el comado “barplot(height = head(frecuencias.ordenada\(Freq, 5) , names.arg = head(frecuencias.ordenada\)Var1, 5), main =”Frecuencia de nombres“, xlab =”Nombres“, ylab =”Frecuencias“)” para que la lista que nos dio con el anterior codigo nos salga en forma de diagrama de barras con obiamente una escala para ver cual es el mayor y menor en formada ordena como lo vimos anteriormente.