Objetivo

El objetivo del caso es elaborar un análisis descriptivo de la frecuencia de una lista de nombres de un conjunto de alumnos, misma que exportaremos de una dirección URL.

Descripción

-Se importan los datos de los nombres desde la dirección: <https://raw.githubusercontent.com/rpizarrog/datos/main/nombres%20y%20apellidos.csv>.

-La variable de interés es la del nombre.

-Usamos la función ‘table()’ para determinar la frecuencia.

-Usamos la función ‘order()’ para ordenar los valores.

-Después de ordenar los valores se genera un diagrama de barras con ayuda de la función ‘codebar()’.

-Se elabora una interpretación personal del caso.

-Se visualizan los primeros diez y los últimos diez registros/observaciones de los alumnos.

-¿Cómo se hace el caso o cómo se desarrolla?

Desarrollo

Importación de los datos

Importamos los datos con la función ‘read.csv’.

nombres <- read.csv("https://raw.githubusercontent.com/rpizarrog/datos/main/nombres%20y%20apellidos.csv", encoding = "UTF-8")

Visualizar primeras y últimas 10 observaciones

Usando las funciones ‘head()’ y ‘tail()’.

head(nombres, 10)
##    no    patreno    materno          nombre
## 1   1    ALDABA  VELAZQUEZ      LUIS MANUEL
## 2   2   ALMONTE     CHAVEZ    DANIEL ADRIAN
## 3   3  ALVARADO     MORENO    NANCY ALONDRA
## 4   4    BAYONA    MARRUFO      CESAR YAHIR
## 5   5     CALVO    QUEZADA    ARIANNA ELISA
## 6   6    CASTRO     SANTOS   JESSICA SARAHI
## 7   7 CASTRUITA  ARCINIEGA          RICARDO
## 8   8   CORDERO     RIVERA    ANDREA FATIMA
## 9   9     DERAS     CHAVEZ  DIEGO ALEXANDER
## 10 10      DIAZ   CARRILLO   ANDREA PAULINA
tail(nombres, 10)
##        no     patreno    materno            nombre
## 5725 5734     VARGAS   VIOLANTE   BRICIA ESMERALDA
## 5726 5735    VAZQUEZ     VERDIN           GABRIELA
## 5727 5736       VEGA    SALINAS           EMMANUEL
## 5728 5737  VELAZQUEZ  RODRIGUEZ       JESUS MANUEL
## 5729 5738      VELOZ      GAMIZ               OMAR
## 5730 5739      VILLA     ORTEGA     DAVID GEOVANNI
## 5731 5740      VILLA    VAZQUEZ  OSWALDO ALEJANDRO
## 5732 5741 VILLARREAL    ASTORGA   VANESSA GABRIELA
## 5733 5742   VILLEGAS     ORTEGA   ALEXANDER RAFAEL
## 5734 5743     VITELA  GUTIERREZ          LUIS RENE

Determinar la frecuencia

Se determina la frecuencia usando la función ‘table()’ y se convierte a un data frame con la función ‘data.frame()’.

La variable o columna de interés es nombre y se accede a ella como un vector a través de la expresión ‘nombres\$nombre’.

Solo se observan los primeros diez registros de frecuencias con la función ‘head()’.

frecuencias <- data.frame(table(nombres$nombre))
head(frecuencias )
##              Var1 Freq
## 1        #¡VALOR!    8
## 2   Ã\201NGEL DYDIER    1
## 3           AARON    7
## 4    AARON ADOLFO    1
## 5 AARON ALEJANDRO    1
## 6   AARON EDUARDO    1

Orden de frecuencias

Para esto, usamos la función ‘order()’.

frecuencias.ordenadas <- frecuencias[order(frecuencias$Freq, decreasing = TRUE),]
head(frecuencias.ordenadas, 5)
##                Var1 Freq
## 2762 MARIA FERNANDA   36
## 138       ALEJANDRO   32
## 930          DANIEL   31
## 2189    JOSE MANUEL   28
## 2241    JUAN CARLOS   27

Diagrama de barra

Representación visual de los datos obtenidos

barplot(height = head(frecuencias.ordenadas$Freq, 5)
, names.arg = head(frecuencias.ordenadas$Var1, 5), main = "Frecuencia de nombres", xlab = "Nombres", ylab = "Frecuencias")

Interpretación

En este caso aplicamos nuevamente la exportación de datos de una matriz, de la que tomamos una columna/variable de interés que contenía los datos de los nombres de una población de alumnos. Con el propósito de dar una pequeña muestra de las tantas observaciones, usamos las funciones ‘head()’ y ‘tail()’, optando por mostrar las primeras y las últimas 10.

Haciendo uso de estos datos de los nombre de los alumnos pusimos en práctica un concepto muy relevante de la estadística, el concepto de frecuencia. Y RStudio nos da la función de ‘table()’ para calcular la misma. Pusimos los nombres y sus frecuencias en un data frame para luego proseguir a ordenarlos de manera decreciente, y al ver los datos concluimos en que el nombre más frecuente entre todos los elementos de la lista es ‘María Fernanda’.

Al final a manera de representación se plasmó un diagrama de barra con los datos de los nombres.