Caso3. Agrupacion De Datos. Frecuencias, histograma, tallo y hoja. Personas con sus edades, pesos y estaturas

Objetivo

Analizar y describir datos mediante técnicas de agrupación para valores cuantitativos con tablas de frecuencias y visualizar datos a través de histogramas y gráficas de tallo y hoja.

Descripción

Crear un conjunto de datos de personas con variables tales como la edad, peso, estatura como datos cualitativos y el género y estado de la República Mexicana con valores cualitativos.

Se usarán solo los valores cuantitativos la edad, el peso y la estatura para describir frecuencias usando la función fdt() de la librería o paquete fdth(); los datos se van a visualizar gráficamente mediante histograma y gráfico de tallo y hoja.

En el marco de referencia inicialmente se identifican conceptos y ejemplos de la descripción de datos cuantitativos para tablas frecuencias y visualización gráfica de los datos.

Al final se muestra una interpretación a preguntas específicas del caso con apreciaciones del autor.

Marco teórico

En el caso 1 y 2 se presentó una descripción para datos cualitativos, siendo estas variables cualitativas producen datos que se pueden clasificar de acuerdo a similitudes o diferencias en clase; por lo tanto, con frecuencia se denominan datos categóricos.

Las variables como género de una persona, año de nacimiento o especialidad de un estudiante son variables cualitativas que producen datos categóricos. (Mendenhall, Beaver, and Beaver 2010).

Entonces las variables cualitativas miden una cualidad o característica en cada unidad experimental. Las variables cuantitativas miden una cantidad numérica en cada unidad experimental. (Mendenhall, Beaver, and Beaver 2010).

Las variables cuantitativas, con frecuencia representadas por la letra xx, producen datos numéricos, por ejemplo estos:

$x$= tasa preferencial de interés
$x$= número de pasajeros en un vuelo de Los Ángeles a Nueva York
$x$= peso de un paquete listo para ser enviado
$x$= volumen de jugo de naranja en un vaso
$x$= edad de una persona
$x$= estatura de una persona
$x$= peso de una persona

En las anteriores variables existe que una diferencia en los tipos de valores numéricos que pueden tomar estas variables cuantitativas. El número de pasajeros, por ejemplo, puede tomar sólo los valores $x=0,1,2,…n$, mientras que el peso de un paquete o estatura de una persona puede tomar cualquier valor mayor a cero, o sea $0<x<∞.$

Para describir esta diferencia, definimos dos tipos de variables cuantitativas: discretas y continuas.

A una variable aleatoria que asuma ya sea un número finito de valores o una sucesión infinita de valores tales como $x=0,1,2,...n¨x=0,1,2,...n¨$ , se le llama variable aleatoria discreta. (Anderson, Sweeney, and Williams 2008).

A una variable que puede tomar cualquier valor numérico dentro de un intervalo o colección de intervalos se le llama variable aleatoria continua. $0<x<∞.0<x<∞.$
[@anderson_estadistica_2008]

El nombre de discreta se refiere a las brechas discretas entre los posibles valores que la variable puede tomar. Variables como el número de miembros de una familia, el número de ventas de autos nuevos y el número de llantas defectuosas devueltas para cambio son todos ellos ejemplos de variables discretas. Por el contrario, variables como la estatura, peso, tiempo, distancia y volumen son continuas porque pueden tomar valores en cualquier punto a lo largo de un intervalo de recta. (Mendenhall, Beaver, and Beaver 2010).

La imagen siguiente apoya lo anteriormete descrito para variables cualitativas y cuantitativas discretas y continuas.

Gráficas para datos cuantitativos

Gráfica de barras

A veces la información se recolecta para una variable cuantitativa medida en segmentos diferentes de la población, o para diferentes categorías de clasificación. Por ejemplo, se podría medir el promedio de ingresos de personas de diferentes grupos de edad, géneros diferentes o que viven en zonas geográficas diferentes del país. En tales casos, se pueden usar gráficas de pastel o gráficas de barras para describir los datos, usando la cantidad medida en cada categoría en lugar de la frecuencia con que se presenta cada una de las categorías.

El ejemplo siguiente visualiza la cantidad de alumnos de una Institución de educación superior categorizados por la carrera y la cantidad de alumnos inscritos.

carreras <- c("Arquitectura", "Civil", "Sistemas", "TIC", "Gestión")
inscritos <- c(820, 650, 320, 50, 608)
datos <- data.frame(carreras, inscritos)
datos

##       carreras inscritos
## 1 Arquitectura       820
## 2        Civil       650
## 3     Sistemas       320
## 4          TIC        50
## 5      Gestión       608

barplot(height = datos$inscritos, names.arg = datos$carreras)

Gráfica de Líneas

Cuando una variable cuantitativa se registra en el tiempo a intervalos igualmente espaciados (por ejemplo diario, semanal, mensual, trimestral o anual), el conjunto de datos forma una serie de tiempo. Los datos de una serie de tiempo se presentan con más efectividad en una gráfica de líneas con el tiempo como eje horizontal. La idea es tratar dedistinguir un patrón o tendencia que sea probable de continuar en el futuro y luego usar ese patrón para hacer predicciones precisas para el futuro inmediato. (Mendenhall, Beaver, and Beaver 2010).

El siguiente ejemplo representa la cantidad de población de un país como México conforme y de acuerdo a los censos de 1980, 1990, 2000, 2010 y 2020. Los valores de población está dado en millones de habitantes.

años <- c('1980', '1990', '2000', '2010', '2020')
poblacion <- c(90.00, 95.65,100.26, 112.33, 126.01)

  
datos <- data.frame(años, poblacion)
datos

##   años poblacion
## 1 1980     90.00
## 2 1990     95.65
## 3 2000    100.26
## 4 2010    112.33
## 5 2020    126.01

plot(x=datos$años, y=datos$poblacion, type="b", xlab="Años", ylab="Población")

Histograma

Un histograma de frecuencia relativa es semejante a una gráfica de barras, pero se usa para graficar cantidades en lugar de datos cualitativos (Mendenhall, Beaver, and Beaver 2010).

En el histograma se traza una barra sobre cada una de las columnas, se habrá creado un histograma de frecuencia o un histograma de frecuencia relativa, dependiendo de la escala del eje vertical. y la cantida de frecuencia.

El histograma representa agrupación de datos con la cantidad de frecuencias de cada clase.

El siguiente ejemplo simula una muestra de 30 personas a quienes se les pregunta su edad. Se representa un histograma de los datos

edades <- c(15, 16, 16, 14, 15, 19, 21, 22, 23, 23, 24, 25, 24, 25, 22, 23, 17, 18, 19, 17, 16, 20, 21, 22, 23, 24, 25, 23, 24, 20)

edades #Sin Ordenar

##  [1] 15 16 16 14 15 19 21 22 23 23 24 25 24 25 22 23 17 18 19 17 16 20 21 22 23
## [26] 24 25 23 24 20

length(edades)

## [1] 30

range(edades)

## [1] 14 25

edades[order(edades)] #Ordenados

##  [1] 14 15 15 16 16 16 17 17 18 19 19 20 20 21 21 22 22 22 23 23 23 23 23 24 24
## [26] 24 24 25 25 25

hist(edades, main = "Frecuencia  de edades", xlab = "Edades", ylab = "Frecuencia")

plot(density(edades))

Gráfica de tallo y hoja

Otra forma sencilla de exhibir la distribución de un conjunto de datos cuantitativos es la gráfica de tallo y hoja. Esta gráfica presenta una exhibición gráfica de los datos usando los valores numéricos reales de cada punto de datos.

stem(x = edades, scale = 1)

## 
##   The decimal point is at the |
## 
##   14 | 000
##   16 | 00000
##   18 | 000
##   20 | 0000
##   22 | 00000000
##   24 | 0000000

stem(x = edades, scale = 2)

## 
##   The decimal point is at the |
## 
##   14 | 0
##   15 | 00
##   16 | 000
##   17 | 00
##   18 | 0
##   19 | 00
##   20 | 00
##   21 | 00
##   22 | 000
##   23 | 00000
##   24 | 0000
##   25 | 000

Regla de Sturges

En las tablas de frecuencias es necesario determinar matemáticamente el número de clases, La opción matemáticamente más consistente es la conocida como regla de Sturges , La solución de esta ecuación proporciona una regla práctica para obtener el número de clases.

\[ k=1+3.322log(N) \]

Siendo $k$ el número de clases
$log$ es la función logarítmica de base 10, log10()
y $N$ el total de la muestra

El rango de clase de acuerdo a Sturges está dada por

\[ h=\frac{Range}{k} \]

Siendo $h$ el rango de cada clase y $Range$ el rango del total de los datos, es decir la diferencia entre límite superior menos límite inferior. (Soto Espinosa 2020)

Es importante hacer notar que existen otras formas de determinar el número de clases a utilizar, algunas más complejas, otras más simples. Independientemente de la forma de cálculo seleccionada ya se Sturges, Scott o Freedman-Diaconis (FD), lo realmente importante es que la información mostrada en la tabla de frecuencia sea fácil de revisar, que no contenga un número excesivo de clases y que la información que en ella se refleja permita comprender cómo se presentan los datos en la población.

Desarrollo

Cargar librería

La librería o paquete fdth sirve para generar tablas de distribución que presenta las frecuencias de clases, relativas, porcentuales y acumuladas para valores cuantitativos y cualitativos.

Para el ejemplo servirá para conocer tablas de distribución de variables cuantitativas de edades, pesos y estaturas de personas.

library(fdth)

Cargar o crear el conjunto de los datos

Antes de crear los datos, se prepara el documento aplicando la función sed.seed(), esta instrucción permite establecer una semilla que permite generar los mismos valores aleatorios cuando se utilizan funciones que tiene que ver con elementos aleatorios, en este caso con la función sample(), que más adelante se utiliza.

set.seed(3108)

Se simulan 70 datos en un data.frame o conjunto de datos a partir de vectores.

Por medio de la función sample() se genera la muestra de 70 personas que simuladamente fueron encuestadas.

De cada persona se les pregunta estado de la República Mexicana en donde radica o vive, la edad de entre un rango de 18 a 65, la altura en metros, el peso en kilogramos y el género [Femenino o Masculino].

Las variables:

estados es una variable tipo vector con 6 elementos que contiene 6 diferentes estados de la República Mexicana. La variable estados se factoriza o categoriza con la función factor(). Para este ejemplo puede utilizarse otra variable como zona de la ciudad en donde radicas o vives, colonias, u otra variable de tipo cualitativa. Para este caso no tiene efecto alguno sólo es complemento.
entidades será una variable que contiene los 70 personas encuestadas conforme y de acuerdo al algún estado de la República Mexicana de los seis inicializados. Nuevamente aquí con esta variable puede utilizarse otra variable y hacer diferencia en el caso.
estaturas será una variable cuantitativa con valores reales representado en metros de la altura de cada persona.
pesos, es una variable cuantitativa dado en valor numérico entero, significa un valor en kilogramos del peso de una persona.
edades, será también una variable cuantitativa con valores numéricos entre 18 y 65 años.
generos Masculino o Femenino. Esta será una cualitativa además de ser variable categórica factorizada con la función factor().
datos es la variable que contiene el data.frame o conjunto de datos a partir de todo el conjunto de vectores.

Las funciones:

factor() es una función que convierte tipo char a tipo de dato categórico, es decir, que se puede saber cuáles son diferentes entre sí, las clase que hay y además se puede contar y determinar su frecuencia
length() determina a cantidad de elementos de un vector y se utiliza para determinar $n$ que significa el tamaño de la muestra.
sample() es para generar muestras de cierta cantidad de elementos a partir de datos iniciales sample() se utiliza para simular 70 personas encuestadas
data.frame() es la función que construye el conjunto de datos o data.frame.

estados <- c('Durango', 'Sinaloa', 'Nuevo León', 
             'Sonora', 'Coahuila', 
             'Chihuahua')
estados

## [1] "Durango"    "Sinaloa"    "Nuevo León" "Sonora"     "Coahuila"  
## [6] "Chihuahua"

Convertir los estados a tipo de datos factor

estados <- factor(estados)
estados

## [1] Durango    Sinaloa    Nuevo León Sonora     Coahuila   Chihuahua 
## Levels: Chihuahua Coahuila Durango Nuevo León Sinaloa Sonora

Se crea el vector de entidades a partir de los estados, como ya se mencionó, se simula una encuesta de 70 personas; el valor de 70 es un valor aleatorio y pudo ser cualquier valor numérico que permita tan chico o tan grande como lo permita la memoria ram de la computadora en donde se simule la cantidad de personas encuestadas.

En la muestra sample() se utilizan los valores de x= estados que significa los valores de donde se sacan aleatoriamente los estados, size =70 que significa la cantidad de personas y replace significa que los valores de los seis estados se pueden repetir.

entidades <- sample(x = estados, size=70, replace = TRUE)
entidades

##  [1] Sonora     Chihuahua  Nuevo León Coahuila   Chihuahua  Coahuila  
##  [7] Chihuahua  Coahuila   Durango    Sonora     Sonora     Sinaloa   
## [13] Sinaloa    Coahuila   Coahuila   Sinaloa    Nuevo León Sinaloa   
## [19] Durango    Sonora     Sinaloa    Coahuila   Sinaloa    Chihuahua 
## [25] Coahuila   Sonora     Chihuahua  Coahuila   Sonora     Durango   
## [31] Chihuahua  Sinaloa    Nuevo León Nuevo León Durango    Sinaloa   
## [37] Durango    Sinaloa    Sinaloa    Sinaloa    Durango    Sinaloa   
## [43] Sinaloa    Sinaloa    Sonora     Sonora     Durango    Durango   
## [49] Coahuila   Chihuahua  Sinaloa    Sonora     Nuevo León Sonora    
## [55] Sonora     Sonora     Coahuila   Durango    Chihuahua  Coahuila  
## [61] Nuevo León Coahuila   Chihuahua  Coahuila   Chihuahua  Sonora    
## [67] Nuevo León Chihuahua  Durango    Coahuila  
## Levels: Chihuahua Coahuila Durango Nuevo León Sinaloa Sonora

Crear la edades de las personas de entre 18 y 65 años

edades <- sample(x = 18:65, size=70, replace = TRUE)
edades

##  [1] 65 25 35 39 38 54 29 20 52 64 27 46 42 54 43 41 50 27 56 51 39 39 40 22 49
## [26] 35 19 62 33 41 27 22 32 58 53 31 21 26 42 27 21 27 51 26 44 53 18 29 46 32
## [51] 46 34 32 46 65 49 42 55 60 29 19 50 46 61 38 56 37 47 55 40

Crear las estaturas de las personas de entre 1.45 y 2.05 metros. La función sample() genera valores en centímetros, es decir entre 145 y 205 cms., al dividirlo entre 100 se interpreta valores en metros.

estaturas <- sample(x = 145:205, size=70, replace = TRUE)
estaturas <- estaturas / 100
estaturas

##  [1] 1.89 1.74 1.89 1.53 1.95 1.74 1.87 1.78 1.69 1.57 2.02 1.51 1.45 1.96 2.05
## [16] 1.99 1.63 1.97 1.72 1.68 1.61 2.00 1.69 1.83 1.84 1.89 1.89 2.04 1.97 1.49
## [31] 2.05 1.91 1.58 1.46 1.93 1.76 1.76 1.71 1.73 1.71 1.64 1.64 1.70 1.51 1.78
## [46] 1.64 1.83 1.96 1.76 2.00 1.88 1.80 1.70 1.88 2.01 2.01 1.94 1.58 1.83 2.04
## [61] 1.54 1.97 1.63 1.50 1.59 1.64 1.99 1.76 1.54 1.77

Crear los pesos de las personas de entre 45 y 110 kilogramos. La función sample() genera valores numéricos, es decir entre 45 y 110 kgs.

pesos <- sample(x = 45:110, size=70, replace = TRUE)

pesos

##  [1]  50  75  75  71  97  95  91  98 108  64  67  90 102  49  83 104  89  60 100
## [20]  58  63  64  90 104  87  61  73  52  67  47  80  83 109  69  70 106  47  78
## [39] 102  65  57 100  76  55 107  96  88  57 106  64  80  73  80 110  63  87  68
## [58]  86  50  97  55  67  88  46  85 109  67  93  68  90

Finalmente generar el vector de géneros entre [Masculino o Femenino]. Al mismo tiempo con la función factor() se categoriza a [Femenino o Masculino]

generos <- sample(x = factor(c("Femeninos", "Masculinos")), size=70, replace = TRUE)
generos

##  [1] Masculinos Masculinos Femeninos  Masculinos Masculinos Masculinos
##  [7] Masculinos Masculinos Masculinos Masculinos Masculinos Masculinos
## [13] Masculinos Masculinos Masculinos Femeninos  Femeninos  Masculinos
## [19] Masculinos Femeninos  Femeninos  Femeninos  Masculinos Femeninos 
## [25] Femeninos  Femeninos  Femeninos  Masculinos Femeninos  Masculinos
## [31] Masculinos Femeninos  Femeninos  Masculinos Masculinos Femeninos 
## [37] Femeninos  Femeninos  Femeninos  Masculinos Masculinos Femeninos 
## [43] Masculinos Masculinos Masculinos Femeninos  Masculinos Femeninos 
## [49] Femeninos  Femeninos  Masculinos Femeninos  Masculinos Femeninos 
## [55] Femeninos  Masculinos Masculinos Femeninos  Femeninos  Masculinos
## [61] Masculinos Femeninos  Masculinos Masculinos Femeninos  Masculinos
## [67] Femeninos  Femeninos  Femeninos  Masculinos
## Levels: Femeninos Masculinos

Ahora si, que ya se tienen los datos recabados es momento de generar el conjunto de datos con la función data.frame a partir de los vectores cada uno con los 70 elementos

datos <- data.frame(entidades, edades, estaturas, pesos, generos)
datos

##     entidades edades estaturas pesos    generos
## 1      Sonora     65      1.89    50 Masculinos
## 2   Chihuahua     25      1.74    75 Masculinos
## 3  Nuevo León     35      1.89    75  Femeninos
## 4    Coahuila     39      1.53    71 Masculinos
## 5   Chihuahua     38      1.95    97 Masculinos
## 6    Coahuila     54      1.74    95 Masculinos
## 7   Chihuahua     29      1.87    91 Masculinos
## 8    Coahuila     20      1.78    98 Masculinos
## 9     Durango     52      1.69   108 Masculinos
## 10     Sonora     64      1.57    64 Masculinos
## 11     Sonora     27      2.02    67 Masculinos
## 12    Sinaloa     46      1.51    90 Masculinos
## 13    Sinaloa     42      1.45   102 Masculinos
## 14   Coahuila     54      1.96    49 Masculinos
## 15   Coahuila     43      2.05    83 Masculinos
## 16    Sinaloa     41      1.99   104  Femeninos
## 17 Nuevo León     50      1.63    89  Femeninos
## 18    Sinaloa     27      1.97    60 Masculinos
## 19    Durango     56      1.72   100 Masculinos
## 20     Sonora     51      1.68    58  Femeninos
## 21    Sinaloa     39      1.61    63  Femeninos
## 22   Coahuila     39      2.00    64  Femeninos
## 23    Sinaloa     40      1.69    90 Masculinos
## 24  Chihuahua     22      1.83   104  Femeninos
## 25   Coahuila     49      1.84    87  Femeninos
## 26     Sonora     35      1.89    61  Femeninos
## 27  Chihuahua     19      1.89    73  Femeninos
## 28   Coahuila     62      2.04    52 Masculinos
## 29     Sonora     33      1.97    67  Femeninos
## 30    Durango     41      1.49    47 Masculinos
## 31  Chihuahua     27      2.05    80 Masculinos
## 32    Sinaloa     22      1.91    83  Femeninos
## 33 Nuevo León     32      1.58   109  Femeninos
## 34 Nuevo León     58      1.46    69 Masculinos
## 35    Durango     53      1.93    70 Masculinos
## 36    Sinaloa     31      1.76   106  Femeninos
## 37    Durango     21      1.76    47  Femeninos
## 38    Sinaloa     26      1.71    78  Femeninos
## 39    Sinaloa     42      1.73   102  Femeninos
## 40    Sinaloa     27      1.71    65 Masculinos
## 41    Durango     21      1.64    57 Masculinos
## 42    Sinaloa     27      1.64   100  Femeninos
## 43    Sinaloa     51      1.70    76 Masculinos
## 44    Sinaloa     26      1.51    55 Masculinos
## 45     Sonora     44      1.78   107 Masculinos
## 46     Sonora     53      1.64    96  Femeninos
## 47    Durango     18      1.83    88 Masculinos
## 48    Durango     29      1.96    57  Femeninos
## 49   Coahuila     46      1.76   106  Femeninos
## 50  Chihuahua     32      2.00    64  Femeninos
## 51    Sinaloa     46      1.88    80 Masculinos
## 52     Sonora     34      1.80    73  Femeninos
## 53 Nuevo León     32      1.70    80 Masculinos
## 54     Sonora     46      1.88   110  Femeninos
## 55     Sonora     65      2.01    63  Femeninos
## 56     Sonora     49      2.01    87 Masculinos
## 57   Coahuila     42      1.94    68 Masculinos
## 58    Durango     55      1.58    86  Femeninos
## 59  Chihuahua     60      1.83    50  Femeninos
## 60   Coahuila     29      2.04    97 Masculinos
## 61 Nuevo León     19      1.54    55 Masculinos
## 62   Coahuila     50      1.97    67  Femeninos
## 63  Chihuahua     46      1.63    88 Masculinos
## 64   Coahuila     61      1.50    46 Masculinos
## 65  Chihuahua     38      1.59    85  Femeninos
## 66     Sonora     56      1.64   109 Masculinos
## 67 Nuevo León     37      1.99    67  Femeninos
## 68  Chihuahua     47      1.76    93  Femeninos
## 69    Durango     55      1.54    68  Femeninos
## 70   Coahuila     40      1.77    90 Masculinos

Agrupación de datos

Se va a trabajar únicamente sobre los datos cuantitativos del conjunto de datos, es decir sobre las variables edades, estaturas y pesos respectivamente.

Variable edades

Con la función fdt() habiendo cargado la librería o el paquete fdth() se pueden generar las clases para la variable edades.

Se utiliza la expresión as.data.frame(frecuencia.edades$table) combinado la función as.data.frame() que significa que se transforma a tipo de datos ya conocido data.frame y con la función table() convierte a tabla la variable frecuencia.edades propia para tratarse como data.frame o conjunto de datos.

frecuencia.edades <- fdt(datos$edades, breaks='Sturges')
frecuencia.edades <- as.data.frame(frecuencia.edades$table)
frecuencia.edades

##      Class limits  f         rf     rf(%) cf     cf(%)
## 1  [17.82,23.799)  8 0.11428571 11.428571  8  11.42857
## 2 [23.799,29.778) 11 0.15714286 15.714286 19  27.14286
## 3 [29.778,35.756)  8 0.11428571 11.428571 27  38.57143
## 4 [35.756,41.735) 10 0.14285714 14.285714 37  52.85714
## 5 [41.735,47.714) 11 0.15714286 15.714286 48  68.57143
## 6 [47.714,53.693)  9 0.12857143 12.857143 57  81.42857
## 7 [53.693,59.671)  7 0.10000000 10.000000 64  91.42857
## 8  [59.671,65.65)  6 0.08571429  8.571429 70 100.00000

Variable estaturas

Con la función fdt() habiendo cargado la librería o el paquete fdth() se pueden generar las clases para la variable estaturas.

Nuevamente se utiliza la expresión as.data.frame(frecuencia.estaturas$table) combinado tanto la función as.data.frame() que significa que se transforma a tipo de datos data.frame y con la función table() convierte a tabla la variable frecuencia.edades propia para tratarse como data.frame o conjunto de datos.

frecuencia.estaturas <- fdt(datos$estaturas)
frecuencia.estaturas <- as.data.frame(frecuencia.estaturas$table)
frecuencia.estaturas

##    Class limits  f         rf     rf(%) cf      cf(%)
## 1 [1.435,1.515)  6 0.08571429  8.571429  6   8.571429
## 2 [1.515,1.594)  7 0.10000000 10.000000 13  18.571429
## 3 [1.594,1.674)  7 0.10000000 10.000000 20  28.571429
## 4 [1.674,1.753) 11 0.15714286 15.714286 31  44.285714
## 5 [1.753,1.832) 11 0.15714286 15.714286 42  60.000000
## 6 [1.832,1.912)  9 0.12857143 12.857143 51  72.857143
## 7 [1.912,1.991) 10 0.14285714 14.285714 61  87.142857
## 8 [1.991,2.071)  9 0.12857143 12.857143 70 100.000000

Variable pesos

Y finalmente, de la misma manera se utiliza la función fdt() generar las clases para la variable pesos.

Se utiliza la expresión as.data.frame(frecuencia.estaturas$table) combinado tanto la función as.data.frame() que significa que se transforma a tipo de datos data.frame y con la función table() convierte a tabla la variable frecuencia.pesos pra que sea más fácil tratar los datos como una estructura data.frame o conjunto de datos de renglones y columnas.

Se puede verifica en el espacio de las variable de entorno de R Studio el tipo de datos

frecuencia.pesos <- fdt(datos$pesos)
frecuencia.pesos <- as.data.frame(frecuencia.pesos$table)
frecuencia.pesos

##     Class limits  f        rf    rf(%) cf     cf(%)
## 1 [45.54,53.735)  7 0.1000000 10.00000  7  10.00000
## 2 [53.735,61.93)  7 0.1000000 10.00000 14  20.00000
## 3 [61.93,70.125) 14 0.2000000 20.00000 28  40.00000
## 4 [70.125,78.32)  7 0.1000000 10.00000 35  50.00000
## 5 [78.32,86.515)  7 0.1000000 10.00000 42  60.00000
## 6 [86.515,94.71) 10 0.1428571 14.28571 52  74.28571
## 7 [94.71,102.91)  9 0.1285714 12.85714 61  87.14286
## 8 [102.91,111.1)  9 0.1285714 12.85714 70 100.00000

Visualización de datos

Histograma y densidad de la variable edades

hist(datos$edades, main="Histograma de Edades", xlab="Edades", ylab="Frecuencias")

plot(density(datos$edades), main="Densidad de Edades (x=Edades)")

Digrama de tallo y hoja de la variable edades

Se ordenan los datos$edades y se muestra el diagrama de tallo y hoja solo para verificar la frecuencia en los datos ordenados.

datos$edades[order(datos$edades)] # Ordenados

##  [1] 18 19 19 20 21 21 22 22 25 26 26 27 27 27 27 27 29 29 29 31 32 32 32 33 34
## [26] 35 35 37 38 38 39 39 39 40 40 41 41 42 42 42 43 44 46 46 46 46 46 47 49 49
## [51] 50 50 51 51 52 53 53 54 54 55 55 56 56 58 60 61 62 64 65 65

stem(datos$edades, scale = 1)

## 
##   The decimal point is 1 digit(s) to the right of the |
## 
##   1 | 899
##   2 | 01122
##   2 | 56677777999
##   3 | 122234
##   3 | 55788999
##   4 | 001122234
##   4 | 66666799
##   5 | 001123344
##   5 | 55668
##   6 | 0124
##   6 | 55

Histograma y densidad de la variable estaturas

hist(datos$estaturas, main="Histograma De Estaturas", xlab="Estaturas", ylab="Frecuencias")

plot(density(datos$estaturas), main="Densidad de Estaturas (x=Estaturas)")

Histograma y densidad de la variable pesos

hist(datos$pesos, main="Histograma de Pesos", xlab="Pesos", ylab="Frecuencias")

plot(density(datos$pesos), main="Densidad de Pesos (x=Pesos)")

Interpretación del caso

De la variable edades:

¿Cuál es la menor y mayor edad registrada?

La menor edad registrada es de 18 años y la mayor es de 65 años.
¿Cuál es el rango de edades?

El rango de edades utilizado para este caso es de 18 años hasta 65 años.
¿Cuántas clases se generaron? de acuerdo a la tabla de frecuencia y al histograma respectivamente.

De acuerdo a la tabla de frecuencia se generaron 8 clases de edades. De acuerdo al histograma se generaron 10 clases, aunque si contamos solamente las clases que están encima de una linea, serian 8 al igual que la tabla de frecuencias.
¿Cuáles es el rango de cada clase y como se demuestran o generan matemáticamente?. Sturges, Scott y FD

[17.82, 23.799) f = 8 [23.799, 29.778) f = 11 [29.778, 35.756) f = 8

[35.756, 41.735) f = 10 [41.735, 47.714) f = 11 [47.714, 53.693) f = 9

[53.693, 59.671) f = 7 [59.671, 65.65) f=6

Los rangos se generan de manera matemática usando la siguiente formula:

\[h=\frac{Range}{k}\]

$h$ es el rango de cada clase (Cuanto va a ser la diferencia entre el limite superior e inferior de cada clase), $Range$ es la diferencia entre el limite superior e inferior de la muestra y $k$ es el número de clases el cual se obtiene de la siguiente formula($N$ representa el total de la muestra):

\[ k=1+3.322log(N) \]
¿Cuál es la clase con mayor frecuencia de edades de acuerdo a la tabla de frecuencias?

De acuerdo a la tabla de frecuencias, las clases con mayor frecuencia es un empate entre dos clases, las cuales son: [23.799, 29.778) y [41.735, 47.714), ambas con una frecuencia de 11.
¿Cuál es la clase con mayor frecuencia de edades de acuerdo al histograma?

De acuerdo al histograma, las clases con mayor frecuencia son un empate entre dos clases, las cuales son: [25, 30) y [45, 50) con una frecuencia de 10.
¿Que relación hay entre histograma y diagrama de tallo y hoja?

Además de lo obvio, que es que los dos son maneras gráficas de representar los datos, ambas gráficas son similares en estructura, ya que si volteas la de tallo y hojas te puedes encontrar algo muy parecido a un histograma, obviamente no dividido por las mismas clases (ya que el de tallo y hojas checa decena y unidad de los datos), pero con un resultado similar, solo es cuestión de que cuentes en relación al rango y vas a obtener las mismas frecuencias.

De la variable estaturas:

¿Cuál es la clase con mayor frecuencia de estaturas de acuerdo a la tabla de frecuencias?

De acuerdo a la tabla de frecuencias, las clases con mayor frecuencia son un empate entre las clases [1.674, 1.753) y [1.753, 1.832), ambas con una frecuencia de 11.
¿Cuál es la clase con mayor frecuencia de estaturas de acuerdo al histograma?

De acuerdo al histograma, la clase con mayor frecuencia es la de [1.7, 1.8) con una frecuencia de 14 aproximadamente.

De la variable pesos:

¿Cuál es la clase con mayor frecuencia de pesos de acuerdo a la tabla de frecuencias y su frecuencia?

De acuerdo con la tabla de frecuencias, la clase con mayor frecuencia es la de [61.93, 70.125) con una frecuencia de 14.
¿Cuál es la clase con mayor frecuencia de pesos de acuerdo al histograma y su frecuencia?

De acuerdo al histograma, la clase con mayor frecuencia es la de [60, 70), con una frecuencia de 15.
¿Que les deja el caso?

El caso nos deja la habilidad de dominar las representaciones gráficas de datos como lo podrían ser el histograma, la gráfica de densidad y la gráfica de tallo y hojas. Aunque a consideración personal, lo mejor que nos deja el caso es la habilidad de creación de tablas de frecuencias, con las que se pueden hacer algunos cálculos y representaciones gráficas.

Referencias Bibliográficas

Anderson, David R., Dennis J. Sweeney, and Thomas A. Williams. 2008. Estadística Para Administración y Economía. 10th ed. Australia • Brasil • Corea • España • Estados Unidos • Japón • México • Reino Unido • Singapur: Cengage Learning,.

Mendenhall, William, Robert J. Beaver, and Barbara M. Beaver. 2010. Introducción a La Probabilidad y Estadística. 13th ed. Cengage Learning Editores, S.A. de C.V.,.

Soto Espinosa, Juan Luis. 2020. “Statistics and Health at Work Descriptive Statistics (i): Variables and Frequencies.” RIST. Revista de Investigación, July. https://rist.zaragoza.unam.mx/index.php/rist/article/view/232/173.