El objetivo del caso es elaborar un análisis descriptivo de la frecuencia de una lista de nombres de un conjunto de alumnos, misma que exportaremos de una dirección URL.
-Se importan los datos de los nombres desde la dirección: <https://raw.githubusercontent.com/rpizarrog/datos/main/nombres%20y%20apellidos.csv>.
-La variable de interés es la del nombre.
-Usamos la función ‘table()’ para determinar la frecuencia.
-Usamos la función ‘order()’ para ordenar los valores.
-Después de ordenar los valores se genera un diagrama de barras con ayuda de la función ‘codebar()’.
-Se elabora una interpretación personal del caso.
-Se visualizan los primeros diez y los últimos diez registros/observaciones de los alumnos.
-¿Cómo se hace el caso o cómo se desarrolla?
Importamos los datos con la función ‘read.csv’.
nombres <- read.csv("https://raw.githubusercontent.com/rpizarrog/datos/main/nombres%20y%20apellidos.csv", encoding = "UTF-8")
Usando las funciones ‘head()’ y ‘tail()’.
head(nombres, 10)
## no patreno materno nombre
## 1 1 ALDABA VELAZQUEZ LUIS MANUEL
## 2 2 ALMONTE CHAVEZ DANIEL ADRIAN
## 3 3 ALVARADO MORENO NANCY ALONDRA
## 4 4 BAYONA MARRUFO CESAR YAHIR
## 5 5 CALVO QUEZADA ARIANNA ELISA
## 6 6 CASTRO SANTOS JESSICA SARAHI
## 7 7 CASTRUITA ARCINIEGA RICARDO
## 8 8 CORDERO RIVERA ANDREA FATIMA
## 9 9 DERAS CHAVEZ DIEGO ALEXANDER
## 10 10 DIAZ CARRILLO ANDREA PAULINA
tail(nombres, 10)
## no patreno materno nombre
## 5725 5734 VARGAS VIOLANTE BRICIA ESMERALDA
## 5726 5735 VAZQUEZ VERDIN GABRIELA
## 5727 5736 VEGA SALINAS EMMANUEL
## 5728 5737 VELAZQUEZ RODRIGUEZ JESUS MANUEL
## 5729 5738 VELOZ GAMIZ OMAR
## 5730 5739 VILLA ORTEGA DAVID GEOVANNI
## 5731 5740 VILLA VAZQUEZ OSWALDO ALEJANDRO
## 5732 5741 VILLARREAL ASTORGA VANESSA GABRIELA
## 5733 5742 VILLEGAS ORTEGA ALEXANDER RAFAEL
## 5734 5743 VITELA GUTIERREZ LUIS RENE
Se determina la frecuencia usando la función ‘table()’ y se convierte a un data frame con la función ‘data.frame()’.
La variable o columna de interés es nombre y se accede a ella como un vector a través de la expresión ‘nombres\$nombre’.
Solo se observan los primeros diez registros de frecuencias con la función ‘head()’.
frecuencias <- data.frame(table(nombres$nombre))
head(frecuencias )
## Var1 Freq
## 1 #¡VALOR! 8
## 2 Ã\201NGEL DYDIER 1
## 3 AARON 7
## 4 AARON ADOLFO 1
## 5 AARON ALEJANDRO 1
## 6 AARON EDUARDO 1
Para esto, usamos la función ‘order()’.
frecuencias.ordenadas <- frecuencias[order(frecuencias$Freq, decreasing = TRUE),]
head(frecuencias.ordenadas, 5)
## Var1 Freq
## 2762 MARIA FERNANDA 36
## 138 ALEJANDRO 32
## 930 DANIEL 31
## 2189 JOSE MANUEL 28
## 2241 JUAN CARLOS 27
Representación visual de los datos obtenidos
barplot(height = head(frecuencias.ordenadas$Freq, 5)
, names.arg = head(frecuencias.ordenadas$Var1, 5), main = "Frecuencia de nombres", xlab = "Nombres", ylab = "Frecuencias")
En este caso aplicamos nuevamente la exportación de datos de una matriz, de la que tomamos una columna/variable de interés que contenía los datos de los nombres de una población de alumnos. Con el propósito de dar una pequeña muestra de las tantas observaciones, usamos las funciones ‘head()’ y ‘tail()’, optando por mostrar las primeras y las últimas 10.
Haciendo uso de estos datos de los nombre de los alumnos pusimos en práctica un concepto muy relevante de la estadística, el concepto de frecuencia. Y RStudio nos da la función de ‘table()’ para calcular la misma. Pusimos los nombres y sus frecuencias en un data frame para luego proseguir a ordenarlos de manera decreciente, y al ver los datos concluimos en que el nombre más frecuente entre todos los elementos de la lista es ‘María Fernanda’.
Al final a manera de representación se plasmó un diagrama de barra con los datos de los nombres.