Agrupar datos
El caso identifica un conjunto de datos que representan mediante una variable numérica llamada edades los valores precisamente de las edades de 50 alumnos de una institución educativa que tienen edades entre 18 y 24 años.
Se simula una muestra mediante la función sample(), la población de manera imaginaria sería el total de alumnos en una cantidad mayor a 50.
La función set.seet() significa sembrar una semilla para que se generen los mismos valores en funciones aleatorias tales como sample().
Se construye una tabla de frecuencias con la función fdt() de la librería fdth().
Se genera una gráfica de barra con la función barplot() y un gráfico de talla y hoja con stem().
Se elabora un histograma de los datos edades con la función hist().
Se debe anticipadamente instalar librerías:
#install.packages("fdth")#
Luego cargar las librerías
library(fdth)
##
## Attaching package: 'fdth'
## The following objects are masked from 'package:stats':
##
## sd, var
Se tiene una muestra de 50 alumnos con una variable de interés llamada edad.
El vector edades contiene 50 valores numéricos que simulan las edades de 50 personas.
set.seed(2021)
edades <- sample(18:24, 50, replace = TRUE)
cat(edades, sep = ',')
## 24,23,23,19,24,21,21,23,23,20,23,23,22,24,24,18,24,21,20,21,19,20,21,22,20,23,19,21,22,23,24,19,20,21,22,23,22,18,24,23,19,20,20,19,23,23,23,24,24,19
El histograma es una representación gráfica de una distribución de frecuencia, de frecuencia relativa o
de frecuencia porcentual que se construye colocando los intervalos de clase sobre un eje horizontal y la frecuencia, la frecuencia relativa o la frecuencia porcentual sobre un eje vertical. [@anderson2008].
hist(x = edades)
La tabla identifica las clases, los límites inferiores y superiores de cada clase, la frecuencia \(f\), la frecuencia relativa \(fr\), la frecuencia porcentual \(rf\%\), la frecuencia acumulada \(cf\) y la frecuencia porcentual acumulada \(cf\%\).
tabla <- fdt(x = edades, start = 17, end = 25, h = 2)
tabla
## Class limits f rf rf(%) cf cf(%)
## [17,19) 2 0.04 4 2 4
## [19,21) 14 0.28 28 16 32
## [21,23) 12 0.24 24 28 56
## [23,25) 22 0.44 44 50 100
Una gráfica de barras o un diagrama de barras, representa los datos cualitativos de una distribución de frecuencia, de frecuencia relativa o de frecuencia porcentual.
En uno de los ejes de la gráfica (por lo general en el horizontal), se especifican las etiquetas empleadas para las clases (categorías). Para el otro eje de la gráfica (el vertical) se usa una escala para frecuencia, frecuencia relativa o frecuencia porcentual [@anderson2008].
barplot(height = tabla$table$f, names.arg = tabla$table$`Class limits`)
La diferencia de un histograma y un diagrama de barra es que el histograma representa datos cuantitativos y el gráfico de barra representa datos cualitativos.
Existe un diagrama llamado tallo refleja de manera textual la cantidad de ocasiones que existen de un valor numérico de un conjunto de datos. la instrucción stem() en R refleja un diagrama de este tipo e identifica la frecuencia de las edades de los alumnos de la muestra.
La técnica conocida como diagrama de tallo y hojas muestra en forma simultánea el orden jerárquico y la forma de un conjunto de datos. [@anderson2008].
El diagrama de tallo y hoja representa la distribución de frecuencias, donde los datos, agrupados en diferentes clases o intervalos, se pueden construir contando las hojas que pertenecen a cada tallo y considerando que cada tallo define un intervalo de clase.[@walpole2012].
stem(x = edades)
##
## The decimal point is at the |
##
## 18 | 00
## 19 | 0000000
## 20 | 0000000
## 21 | 0000000
## 22 | 00000
## 23 | 0000000000000
## 24 | 000000000
A partir de una poblacion generada de forma aleatoria, se obtiene una muestra de n=50 alumnos cuya variable de interés es la edad. La muestra se ha delimitado para incluir datos de alumnos entre 18 y 24 años.
Posteriomente se obtiene un histograma y se observa que la clase con mayor frecuencia es la de 23 años.
Además, se ha generado una distribución de frecuencias considerando 4 clases y su correspondiente gráfica de barras. La gráfica identifica que la clase con mayor frecuencia es la de personas entre 23 a 25 años (siendo un 44% del total de datos).
Finalmente se identifica mediante una gráfica de tallo y hoja que 23 años es la edad mas frecuente. Se concluye que parece existir una tendencia de frecuencias altas mientras mayor sea la edad considerada.
Anderson, David R., Dennis J. Sweeney, and Thomas A. Williams. 2008. Estadística Para Administración y Economía. 10th ed. Australia Brasil Corea España Estados Unidos Japón México Reino Unido Singapur: Cengage Learning,. Walpole, Ronald E., Raymond H. Myers, and Sharon L. Myers. 2012. Probabilidad y Estadística Para Ingeniería y Ciencias. Novena Edición. México: Pearson.