Objetivo

Agrupar datos

Descripción

El caso identifica un conjunto de datos que representan mediante una variable numérica llamada edades los valores precisamente de las edades de 50 alumnos de una institución educativa que tienen edades entre 18 y 24 años.

Se simula una muestra mediante la función sample(), la población de manera imaginaria sería el total de alumnos en una cantidad mayor a 50.

La función set.seet() significa sembrar una semilla para que se generen los mismos valores en funciones aleatorias tales como sample().

Se construye una tabla de frecuencias con la función fdt() de la librería fdth().

Se genera una gráfica de barra con la función barplot() y un gráfico de talla y hoja con stem().

Se elabora un histograma de los datos edades con la función hist().

Desarrollo

Cargar librerías

Se debe anticipadamente instalar librerías:

  • install.packages(“fdth”)

Luego cargar las librerías

library(fdth)

Construir edades

Se tiene una muestra de 50 alumnos con una variable de interés llamada edad.

El vector edades contiene 50 valores numéricos que simulan las edades de 50 personas.

set.seed(2021)
edades <- sample(18:24, 50, replace = TRUE)
cat(edades, sep = ',')
## 24,23,23,19,24,21,21,23,23,20,23,23,22,24,24,18,24,21,20,21,19,20,21,22,20,23,19,21,22,23,24,19,20,21,22,23,22,18,24,23,19,20,20,19,23,23,23,24,24,19

Histograma de los datos

El histograma es una representación gráfica de una distribución de frecuencia, de frecuencia relativa o
de frecuencia porcentual que se construye colocando los intervalos de clase sobre un eje horizontal y la frecuencia, la frecuencia relativa o la frecuencia porcentual sobre un eje vertical. (Anderson, Sweeney, and Williams 2008).

hist(x = edades)

Construir una tabla de edades

La tabla identifica las clases, los límites inferiores y superiores de cada clase, la frecuencia \(f\), la frecuencia relativa \(fr\), la frecuencia porcentual \(rf\%\), la frecuencia acumulada \(cf\) y la frecuencia porcentual acumulada \(cf\%\).

tabla <- fdt(x = edades, start = 17, end = 25, h = 2)
tabla
##  Class limits  f   rf rf(%) cf cf(%)
##       [17,19)  2 0.04     4  2     4
##       [19,21) 14 0.28    28 16    32
##       [21,23) 12 0.24    24 28    56
##       [23,25) 22 0.44    44 50   100

Diagrama de barra

Una gráfica de barras o un diagrama de barras, representa los datos cualitativos de una distribución de frecuencia, de frecuencia relativa o de frecuencia porcentual.

En uno de los ejes de la gráfica (por lo general en el horizontal), se especifican las etiquetas empleadas para las clases (categorías). Para el otro eje de la gráfica (el vertical) se usa una escala para frecuencia, frecuencia relativa o frecuencia porcentual (Anderson, Sweeney, and Williams 2008).

barplot(height = tabla$table$f, names.arg = tabla$table$`Class limits`)

La diferencia de un histograma y un diagrama de barra es que el histograma representa datos cuantitativos y el gráfico de barra representa datos cualitativos.

Diagrama de tallo y hoja

Existe un diagrama llamado tallo refleja de manera textual la cantidad de ocasiones que existen de un valor numérico de un conjunto de datos. la instrucción stem() en R refleja un diagrama de este tipo e identifica la frecuencia de las edades de los alumnos de la muestra.

La técnica conocida como diagrama de tallo y hojas muestra en forma simultánea el orden jerárquico y la forma de un conjunto de datos. (Anderson, Sweeney, and Williams 2008).

El diagrama de tallo y hoja representa la distribución de frecuencias, donde los datos, agrupados en diferentes clases o intervalos, se pueden construir contando las hojas que pertenecen a cada tallo y considerando que cada tallo define un intervalo de clase.(Walpole, Myers, and Myers 2012).

stem(x = edades)
## 
##   The decimal point is at the |
## 
##   18 | 00
##   19 | 0000000
##   20 | 0000000
##   21 | 0000000
##   22 | 00000
##   23 | 0000000000000
##   24 | 000000000

Interpretación

Se extrae una muestra de 50 alumnos de una población

El histograma de edades identifica que hay alrededor de 13 personas con edades de 23 años.

La gráfica de barra identifica que existen, 22 personas que tienen entre 23 y 25 años y representan un porcentaje del 44% de la muestra de 50 alumnos.

La gráfica de tallo y hoja identifica que hay 13 personas que tienen una edad específica de 23 años.

Bibliografía

Anderson, David R., Dennis J. Sweeney, and Thomas A. Williams. 2008. Estadística Para Administración y Economía. 10th ed. Australia Brasil Corea España Estados Unidos Japón México Reino Unido Singapur: Cengage Learning,.
Walpole, Ronald E., Raymond H. Myers, and Sharon L. Myers. 2012. Probabilidad y Estadística Para Ingeniería y Ciencias. Novena Edición. México: Pearson.