Caso 3. Agrupacion de datos. Frecuencias, histograma, tallo y hoja. Personas con sus edades, pesos y estaturas

Objetivo

Analizar y describir datos mediante técnicas de agrupación para valores cuantitativos con tablas de frecuencias y visualizar datos a través de histogramas y gráficas de tallo y hoja.

Descripción

Crear un conjunto de datos de personas con variables tales como la edad, peso, estatura como datos cualitativos y el género y estado de la República Mexicana con valores cualitativos.

Se usarán solo los valores cuantitativos la edad, el peso y la estatura para describir frecuencias usando la función fdt() de la librería o paquete fdth(); los datos se van a visualizar gráficamente mediante histograma y gráfico de tallo y hoja.

En el marco de referencia inicialmente se identifican conceptos y ejemplos de la descripción de datos cuantitativos para tablas frecuencias y visualización gráfica de los datos.

Al final se muestra una interpretación a preguntas específicas del caso con apreciaciones del autor.

Marco teórico

En el caso 1 y 2 se presentó una descripción para datos cualitativos, siendo estas variables cualitativas producen datos que se pueden clasificar de acuerdo a similitudes o diferencias en clase; por lo tanto, con frecuencia se denominan datos categóricos.

Las variables como género de una persona, año de nacimiento o especialidad de un estudiante son variables cualitativas que producen datos categóricos. (Mendenhall, Beaver, and Beaver 2010).

Entonces las variables cualitativas miden una cualidad o característica en cada unidad experimental. Las variables cuantitativas miden una cantidad numérica en cada unidad experimental. (Mendenhall, Beaver, and Beaver 2010).

Las variables cuantitativas, con frecuencia representadas por la letra \(x\), producen datos numéricos, por ejemplo estos:

\(x\)= tasa preferencial de interés
\(x\)= número de pasajeros en un vuelo de Los Ángeles a Nueva York.
\(x\)= peso de un paquete listo para ser enviado
\(x\)= volumen de jugo de naranja en un vaso
\(x\)= edad de una persona
\(x\)= estatura de una persona
\(x\)= peso de una persona

En las anteriores variables existe que una diferencia en los tipos de valores numéricos que pueden tomar estas variables cuantitativas. El número de pasajeros, por ejemplo, puede tomar sólo los valores \(x=0,1,2,…n\), mientras que el peso de un paquete o estatura de una persona puede tomar cualquier valor mayor a cero, o sea \(0<x<∞\).

Para describir esta diferencia, definimos dos tipos de variables cuantitativas: discretas y continuas.

A una variable aleatoria que asuma ya sea un número finito de valores o una sucesión infinita de valores tales como \(x=0,1,2,...n¨\), se le llama variable aleatoria discreta. (Anderson, Sweeney, and Williams 2008).

A una variable que puede tomar cualquier valor numérico dentro de un intervalo o colección de intervalos se le llama variable aleatoria continua. \(0<x<∞\).[@anderson_estadistica_2008].

El nombre de discreta se refiere a las brechas discretas entre los posibles valores que la variable puede tomar. Variables como el número de miembros de una familia, el número de ventas de autos nuevos y el número de llantas defectuosas devueltas para cambio son todos ellos ejemplos de variables discretas. Por el contrario, variables como la estatura, peso, tiempo, distancia y volumen son continuas porque pueden tomar valores en cualquier punto a lo largo de un intervalo de recta. (Mendenhall, Beaver, and Beaver 2010).

La imagen siguiente apoya lo anteriormete descrito para variables cualitativas y cuantitativas discretas y continuas.

Gráfica para datos cuantitativos

Gráfica de barras

A veces la información se recolecta para una variable cuantitativa medida en segmentos diferentes de la población, o para diferentes categorías de clasificación. Por ejemplo, se podría medir el promedio de ingresos de personas de diferentes grupos de edad, géneros diferentes o que viven en zonas geográficas diferentes del país. En tales casos, se pueden usar gráficas de pastel o gráficas de barras para describir los datos, usando la cantidad medida en cada categoría en lugar de la frecuencia con que se presenta cada una de las categorías.

El ejemplo siguiente visualiza la cantidad de alumnos de una Institución de educación superior categorizados por la carrera y la cantidad de alumnos inscritos.

carreras <- c("Arquitectura", "Civil", "Sistemas", "TIC", "Gestión")
inscritos <- c(820, 650, 320, 50, 608)
datos <- data.frame(carreras, inscritos)
datos

##       carreras inscritos
## 1 Arquitectura       820
## 2        Civil       650
## 3     Sistemas       320
## 4          TIC        50
## 5      Gestión       608

barplot(height = datos$inscritos, names.arg = datos$carreras)

Gráfica de líneas

Cuando una variable cuantitativa se registra en el tiempo a intervalos igualmente espaciados (por ejemplo diario, semanal, mensual, trimestral o anual), el conjunto de datos forma una serie de tiempo. Los datos de una serie de tiempo se presentan con más efectividad en una gráfica de líneas con el tiempo como eje horizontal. La idea es tratar de distinguir un patrón o tendencia que sea probable de continuar en el futuro y luego usar ese patrón para hacer predicciones precisas para el futuro inmediato. (Mendenhall, Beaver, and Beaver 2010).

El siguiente ejemplo representa la cantidad de población de un país como México conforme y de acuerdo a los censos de 1980, 1990, 2000, 2010 y 2020. Los valores de población está dado en millones de habitantes.

años <- c('1980', '1990', '2000', '2010', '2020')
poblacion <- c(90.00, 95.65,100.26, 112.33, 126.01)

  
datos <- data.frame(años, poblacion)
datos

##   años poblacion
## 1 1980     90.00
## 2 1990     95.65
## 3 2000    100.26
## 4 2010    112.33
## 5 2020    126.01

plot(x=datos$años, y=datos$poblacion, type="b", xlab="Años", ylab="Población")

Histograma

Un histograma de frecuencia relativa es semejante a una gráfica de barras, pero se usa para graficar cantidades en lugar de datos cualitativos (Mendenhall, Beaver, and Beaver 2010).

En el histograma se traza una barra sobre cada una de las columnas, se habrá creado un histograma de frecuencia o un histograma de frecuencia relativa, dependiendo de la escala del eje vertical. y la cantida de frecuencia.

El histograma representa agrupación de datos con la cantidad de frecuencias de cada clase.

El siguiente ejemplo simula una muestra de 30 personas a quienes se les pregunta su edad. Se representa un histograma de los datos.

edades <- c(15, 16, 16, 14, 15, 19, 21, 22, 23, 23, 24, 25, 24, 25, 22, 23, 17, 18, 19, 17, 16, 20, 21, 22, 23, 24, 25, 23, 24, 20)

edades #Sin ordenar

##  [1] 15 16 16 14 15 19 21 22 23 23 24 25 24 25 22 23 17 18 19 17 16 20 21 22 23
## [26] 24 25 23 24 20

length(edades)

## [1] 30

range(edades)

## [1] 14 25

edades[order(edades)] # Ordenados

##  [1] 14 15 15 16 16 16 17 17 18 19 19 20 20 21 21 22 22 22 23 23 23 23 23 24 24
## [26] 24 24 25 25 25

hist(edades, main = "Frecuencia  de edades", xlab = "Edades", ylab = "Frecuencia")

plot(density(edades))

Gráfica de tallo y hoja

Otra forma sencilla de exhibir la distribución de un conjunto de datos cuantitativos es la gráfica de tallo y hoja. Esta gráfica presenta una exhibición gráfica de los datos usando los valores numéricos reales de cada punto de datos.

stem(x = edades, scale = 1)

## 
##   The decimal point is at the |
## 
##   14 | 000
##   16 | 00000
##   18 | 000
##   20 | 0000
##   22 | 00000000
##   24 | 0000000

stem(x = edades, scale = 2)

## 
##   The decimal point is at the |
## 
##   14 | 0
##   15 | 00
##   16 | 000
##   17 | 00
##   18 | 0
##   19 | 00
##   20 | 00
##   21 | 00
##   22 | 000
##   23 | 00000
##   24 | 0000
##   25 | 000

Regla de Sturges

En las tablas de frecuencias es necesario determinar matemáticamente el número de clases, La opción matemáticamente más consistente es la conocida como regla de Sturges , La solución de esta ecuación proporciona una regla práctica para obtener el número de clases.

\[k=1+3.322log(N)\]

Siendo \(k\) el número de clases
\(log\) es la función logarítmica de base 10, log10()
y \(N\) el total de la muestra

El rango de clase de acuerdo a Sturges está dada por:

\[h=\frac{Range}{k}\]

Siendo \(h\) el rango de cada clase y \(Range\) el rango del total de los datos, es decir la diferencia entre límite superior menos límite inferior. (Soto Espinosa 2020).

Es importante hacer notar que existen otras formas de determinar el número de clases a utilizar, algunas más complejas, otras más simples. Independientemente de la forma de cálculo seleccionada ya se Sturges, Scott o Freedman-Diaconis (FD), lo realmente importante es que la información mostrada en la tabla de frecuencia sea fácil de revisar, que no contenga un número excesivo de clases y que la información que en ella se refleja permita comprender cómo se presentan los datos en la población.

Desarrollo

Cargar librería

library("fdth")

## 
## Attaching package: 'fdth'

## The following objects are masked from 'package:stats':
## 
##     sd, var

Cargar o crear el conjunto de datos

set.seed(3559)

Las variables:

estados es una variable tipo vector con 6 elementos que contiene 6 diferentes estados de la República Mexicana. La variable estados se factoriza o categoriza con la función factor(). Para este ejemplo puede utilizarse otra variable como zona de la ciudad en donde radicas o vives, colonias, u otra variable de tipo cualitativa. Para este caso no tiene efecto alguno sólo es complemento.
entidades será una variable que contiene los 80 personas encuestadas conforme y de acuerdo al algún estado de la República Mexicana de los seis inicializados. Nuevamente aquí con esta variable puede utilizarse otra variable y hacer diferencia en el caso.
estaturas será una variable cuantitativa con valores reales representado en metros de la altura de cada persona.
pesos, es una variable cuantitativa dado en valor numérico entero, significa un valor en kilogramos del peso de una persona.
edades, será también una variable cuantitativa con valores numéricos entre 18 y 65 años.

generos Masculino o Femenino. Esta será una cualitativa además de ser variable categórica factorizada con la función factor().

datos es la variable que contiene el data.frame o conjunto de datos a partir de todo el conjunto de vectores.

Las funciones:

factor() es una función que convierte tipo char a tipo de dato categórico, es decir, que se puede saber cuáles son diferentes entre sí, las clase que hay y además se puede contar y determinar su frecuencia
length() determina a cantidad de elementos de un vector y se utiliza para determinar n que significa el tamaño de la muestra.
sample() es para generar muestras de cierta cantidad de elementos a partir de datos iniciales sample() se utiliza para simular 63 personas encuestadas
data.frame() es la función que construye el conjunto de datos o data.frame.

Datos. 5 estados

estados <- c('Durango', 'Jalisco', 'Nuevo León', 
             'Baja California', 'Coahuila', 
             'Chihuahua')
estados

## [1] "Durango"         "Jalisco"         "Nuevo León"      "Baja California"
## [5] "Coahuila"        "Chihuahua"

Factorizar los datos

estados <- factor(estados)
estados

## [1] Durango         Jalisco         Nuevo León      Baja California
## [5] Coahuila        Chihuahua      
## Levels: Baja California Chihuahua Coahuila Durango Jalisco Nuevo León

Simular 90 veces los 5 estados

entidades <- sample(x = estados, size=90, replace = TRUE)
entidades

##  [1] Jalisco         Chihuahua       Durango         Nuevo León     
##  [5] Coahuila        Nuevo León      Coahuila        Coahuila       
##  [9] Durango         Nuevo León      Chihuahua       Coahuila       
## [13] Nuevo León      Nuevo León      Coahuila        Coahuila       
## [17] Baja California Durango         Jalisco         Durango        
## [21] Nuevo León      Durango         Nuevo León      Coahuila       
## [25] Chihuahua       Baja California Nuevo León      Coahuila       
## [29] Baja California Nuevo León      Coahuila        Nuevo León     
## [33] Baja California Durango         Jalisco         Coahuila       
## [37] Durango         Durango         Chihuahua       Jalisco        
## [41] Baja California Baja California Chihuahua       Jalisco        
## [45] Baja California Durango         Chihuahua       Jalisco        
## [49] Baja California Coahuila        Baja California Coahuila       
## [53] Nuevo León      Nuevo León      Durango         Coahuila       
## [57] Chihuahua       Jalisco         Baja California Durango        
## [61] Coahuila        Durango         Nuevo León      Coahuila       
## [65] Jalisco         Baja California Jalisco         Nuevo León     
## [69] Baja California Chihuahua       Jalisco         Coahuila       
## [73] Nuevo León      Chihuahua       Baja California Chihuahua      
## [77] Jalisco         Chihuahua       Nuevo León      Chihuahua      
## [81] Baja California Coahuila        Baja California Nuevo León     
## [85] Baja California Baja California Baja California Baja California
## [89] Baja California Jalisco        
## Levels: Baja California Chihuahua Coahuila Durango Jalisco Nuevo León

Crear las edades entre 18 y 65 años

edades <- sample(x = 18:65, size=90, replace = TRUE)
edades

##  [1] 61 64 56 37 19 48 49 33 57 63 44 24 35 52 62 36 53 21 36 35 49 64 19 29 64
## [26] 53 53 42 65 50 48 44 58 26 43 49 47 49 26 52 42 22 33 25 38 63 30 55 35 55
## [51] 29 57 54 43 19 28 53 48 37 18 59 39 21 26 29 43 20 58 50 20 19 24 62 21 28
## [76] 35 51 42 57 26 47 28 51 21 58 21 61 19 35 57

Crear las estaturas entre 1.45 y 2.05 metros

estaturas <- sample(x = 145:205, size=90, replace = TRUE)
estaturas <- estaturas / 100
estaturas

##  [1] 1.73 1.68 1.62 1.75 1.48 1.68 1.57 1.71 1.72 1.75 1.92 1.65 1.63 1.54 1.52
## [16] 1.80 1.79 1.84 1.74 2.05 1.88 2.04 1.52 1.87 1.71 1.70 1.60 2.01 1.48 1.85
## [31] 2.01 1.83 1.66 1.72 1.80 1.50 1.46 1.64 1.50 2.04 1.45 1.95 1.69 1.89 1.61
## [46] 1.64 1.82 1.76 2.05 1.51 1.50 1.50 1.67 1.55 1.47 1.79 1.91 1.46 1.62 2.05
## [61] 1.55 1.68 1.95 2.02 1.76 1.87 1.59 1.52 1.84 1.79 1.49 1.52 1.66 1.66 1.73
## [76] 1.64 1.62 1.82 1.63 1.88 1.82 1.60 1.59 2.04 1.53 1.91 1.62 2.00 2.04 1.89

Crear los pesos de las personas entre 45 y 110 kilogramos.

pesos <- sample(x = 45:110, size=90, replace = TRUE)

pesos

##  [1]  54 109  97  60  57  47  88  90  81  56  69  88  47 110  79  88  77  93  95
## [20]  82  59  99  71  89  60  99  58  76  64  69  54  68  72 106  66  84 110  95
## [39] 106  65  99 103  71  66  60  67  70  87  90  59  79  87  93  81  55 100  98
## [58]  79  56 100  70  97  51  49  67  90 105  91  69  45  46  83  57  90  57  60
## [77]  92  90  98  59  50  52 108  90  53  65  98  61  82  77

Generar el vector de géneros entre Masculino y Femenino

generos <- sample(x = factor(c("Femenino", "Masculino")), size=90, replace = TRUE)
generos

##  [1] Femenino  Femenino  Femenino  Femenino  Femenino  Masculino Femenino 
##  [8] Masculino Masculino Femenino  Femenino  Femenino  Masculino Femenino 
## [15] Masculino Femenino  Masculino Masculino Masculino Femenino  Femenino 
## [22] Femenino  Masculino Femenino  Femenino  Femenino  Masculino Femenino 
## [29] Masculino Femenino  Femenino  Femenino  Masculino Masculino Masculino
## [36] Masculino Femenino  Masculino Masculino Masculino Masculino Masculino
## [43] Femenino  Femenino  Masculino Masculino Masculino Femenino  Femenino 
## [50] Femenino  Masculino Femenino  Masculino Masculino Femenino  Masculino
## [57] Masculino Masculino Femenino  Femenino  Masculino Masculino Masculino
## [64] Femenino  Masculino Femenino  Femenino  Masculino Femenino  Femenino 
## [71] Masculino Femenino  Femenino  Masculino Femenino  Femenino  Masculino
## [78] Femenino  Masculino Masculino Masculino Femenino  Masculino Masculino
## [85] Femenino  Masculino Femenino  Femenino  Masculino Masculino
## Levels: Femenino Masculino

Generar la tabla de los datos recabados

datos <- data.frame(entidades, edades, estaturas, pesos, generos)
datos

##          entidades edades estaturas pesos   generos
## 1          Jalisco     61      1.73    54  Femenino
## 2        Chihuahua     64      1.68   109  Femenino
## 3          Durango     56      1.62    97  Femenino
## 4       Nuevo León     37      1.75    60  Femenino
## 5         Coahuila     19      1.48    57  Femenino
## 6       Nuevo León     48      1.68    47 Masculino
## 7         Coahuila     49      1.57    88  Femenino
## 8         Coahuila     33      1.71    90 Masculino
## 9          Durango     57      1.72    81 Masculino
## 10      Nuevo León     63      1.75    56  Femenino
## 11       Chihuahua     44      1.92    69  Femenino
## 12        Coahuila     24      1.65    88  Femenino
## 13      Nuevo León     35      1.63    47 Masculino
## 14      Nuevo León     52      1.54   110  Femenino
## 15        Coahuila     62      1.52    79 Masculino
## 16        Coahuila     36      1.80    88  Femenino
## 17 Baja California     53      1.79    77 Masculino
## 18         Durango     21      1.84    93 Masculino
## 19         Jalisco     36      1.74    95 Masculino
## 20         Durango     35      2.05    82  Femenino
## 21      Nuevo León     49      1.88    59  Femenino
## 22         Durango     64      2.04    99  Femenino
## 23      Nuevo León     19      1.52    71 Masculino
## 24        Coahuila     29      1.87    89  Femenino
## 25       Chihuahua     64      1.71    60  Femenino
## 26 Baja California     53      1.70    99  Femenino
## 27      Nuevo León     53      1.60    58 Masculino
## 28        Coahuila     42      2.01    76  Femenino
## 29 Baja California     65      1.48    64 Masculino
## 30      Nuevo León     50      1.85    69  Femenino
## 31        Coahuila     48      2.01    54  Femenino
## 32      Nuevo León     44      1.83    68  Femenino
## 33 Baja California     58      1.66    72 Masculino
## 34         Durango     26      1.72   106 Masculino
## 35         Jalisco     43      1.80    66 Masculino
## 36        Coahuila     49      1.50    84 Masculino
## 37         Durango     47      1.46   110  Femenino
## 38         Durango     49      1.64    95 Masculino
## 39       Chihuahua     26      1.50   106 Masculino
## 40         Jalisco     52      2.04    65 Masculino
## 41 Baja California     42      1.45    99 Masculino
## 42 Baja California     22      1.95   103 Masculino
## 43       Chihuahua     33      1.69    71  Femenino
## 44         Jalisco     25      1.89    66  Femenino
## 45 Baja California     38      1.61    60 Masculino
## 46         Durango     63      1.64    67 Masculino
## 47       Chihuahua     30      1.82    70 Masculino
## 48         Jalisco     55      1.76    87  Femenino
## 49 Baja California     35      2.05    90  Femenino
## 50        Coahuila     55      1.51    59  Femenino
## 51 Baja California     29      1.50    79 Masculino
## 52        Coahuila     57      1.50    87  Femenino
## 53      Nuevo León     54      1.67    93 Masculino
## 54      Nuevo León     43      1.55    81 Masculino
## 55         Durango     19      1.47    55  Femenino
## 56        Coahuila     28      1.79   100 Masculino
## 57       Chihuahua     53      1.91    98 Masculino
## 58         Jalisco     48      1.46    79 Masculino
## 59 Baja California     37      1.62    56  Femenino
## 60         Durango     18      2.05   100  Femenino
## 61        Coahuila     59      1.55    70 Masculino
## 62         Durango     39      1.68    97 Masculino
## 63      Nuevo León     21      1.95    51 Masculino
## 64        Coahuila     26      2.02    49  Femenino
## 65         Jalisco     29      1.76    67 Masculino
## 66 Baja California     43      1.87    90  Femenino
## 67         Jalisco     20      1.59   105  Femenino
## 68      Nuevo León     58      1.52    91 Masculino
## 69 Baja California     50      1.84    69  Femenino
## 70       Chihuahua     20      1.79    45  Femenino
## 71         Jalisco     19      1.49    46 Masculino
## 72        Coahuila     24      1.52    83  Femenino
## 73      Nuevo León     62      1.66    57  Femenino
## 74       Chihuahua     21      1.66    90 Masculino
## 75 Baja California     28      1.73    57  Femenino
## 76       Chihuahua     35      1.64    60  Femenino
## 77         Jalisco     51      1.62    92 Masculino
## 78       Chihuahua     42      1.82    90  Femenino
## 79      Nuevo León     57      1.63    98 Masculino
## 80       Chihuahua     26      1.88    59 Masculino
## 81 Baja California     47      1.82    50 Masculino
## 82        Coahuila     28      1.60    52  Femenino
## 83 Baja California     51      1.59   108 Masculino
## 84      Nuevo León     21      2.04    90 Masculino
## 85 Baja California     58      1.53    53  Femenino
## 86 Baja California     21      1.91    65 Masculino
## 87 Baja California     61      1.62    98  Femenino
## 88 Baja California     19      2.00    61  Femenino
## 89 Baja California     35      2.04    82 Masculino
## 90         Jalisco     57      1.89    77 Masculino

Agrupación de datos

Variable edades

frecuencia.edades <- fdt(datos$edades, breaks='Sturges')
frecuencia.edades <- as.data.frame(frecuencia.edades$table)
frecuencia.edades

##      Class limits  f         rf     rf(%) cf     cf(%)
## 1  [17.82,23.799) 14 0.15555556 15.555556 14  15.55556
## 2 [23.799,29.778) 13 0.14444444 14.444444 27  30.00000
## 3 [29.778,35.756)  8 0.08888889  8.888889 35  38.88889
## 4 [35.756,41.735)  6 0.06666667  6.666667 41  45.55556
## 5 [41.735,47.714) 10 0.11111111 11.111111 51  56.66667
## 6 [47.714,53.693) 17 0.18888889 18.888889 68  75.55556
## 7 [53.693,59.671) 12 0.13333333 13.333333 80  88.88889
## 8  [59.671,65.65) 10 0.11111111 11.111111 90 100.00000

Variable estaturas

frecuencia.estaturas <- fdt(datos$estaturas)
frecuencia.estaturas <- as.data.frame(frecuencia.estaturas$table)
frecuencia.estaturas

##    Class limits  f         rf     rf(%) cf     cf(%)
## 1 [1.435,1.515) 12 0.13333333 13.333333 12  13.33333
## 2 [1.515,1.594) 11 0.12222222 12.222222 23  25.55556
## 3 [1.594,1.674) 17 0.18888889 18.888889 40  44.44444
## 4 [1.674,1.753) 14 0.15555556 15.555556 54  60.00000
## 5 [1.753,1.832) 11 0.12222222 12.222222 65  72.22222
## 6 [1.832,1.912) 11 0.12222222 12.222222 76  84.44444
## 7 [1.912,1.991)  3 0.03333333  3.333333 79  87.77778
## 8 [1.991,2.071) 11 0.12222222 12.222222 90 100.00000

Vriable peso

frecuencia.pesos <- fdt(datos$pesos)
frecuencia.pesos <- as.data.frame(frecuencia.pesos$table)
frecuencia.pesos

##      Class limits  f         rf     rf(%) cf      cf(%)
## 1  [44.55,52.869)  8 0.08888889  8.888889  8   8.888889
## 2 [52.869,61.188) 18 0.20000000 20.000000 26  28.888889
## 3 [61.188,69.506) 11 0.12222222 12.222222 37  41.111111
## 4 [69.506,77.825)  8 0.08888889  8.888889 45  50.000000
## 5 [77.825,86.144)  9 0.10000000 10.000000 54  60.000000
## 6 [86.144,94.462) 16 0.17777778 17.777778 70  77.777778
## 7 [94.462,102.78) 12 0.13333333 13.333333 82  91.111111
## 8  [102.78,111.1)  8 0.08888889  8.888889 90 100.000000

Visualización de datos

Histograma y densidad de la variable edades

hist(datos$edades)

plot(density(datos$edades))

Diagrama de tallo y hoja de la variable edades

datos$edades[order(datos$edades)]

##  [1] 18 19 19 19 19 19 20 20 21 21 21 21 21 22 24 24 25 26 26 26 26 28 28 28 29
## [26] 29 29 30 33 33 35 35 35 35 35 36 36 37 37 38 39 42 42 42 43 43 43 44 44 47
## [51] 47 48 48 48 49 49 49 49 50 50 51 51 52 52 53 53 53 53 54 55 55 56 57 57 57
## [76] 57 58 58 58 59 61 61 62 62 63 63 64 64 64 65

stem(datos$edades, scale = 1)

## 
##   The decimal point is 1 digit(s) to the right of the |
## 
##   1 | 899999
##   2 | 0011111244
##   2 | 56666888999
##   3 | 033
##   3 | 55555667789
##   4 | 22233344
##   4 | 778889999
##   5 | 00112233334
##   5 | 55677778889
##   6 | 112233444
##   6 | 5

Histograma y densidad de la variable estaturas

hist(datos$estaturas)

plot(density(datos$estaturas))

Histograma y densidad de la variable pesos

hist(datos$pesos)

plot(density(datos$pesos))

Interpretación

De la variable edades:

¿Cuál es la menor y mayor edad registrada? La menor edad registrada es 18 y la mayor edad registrada es 65.
¿Cuál es el rango de edades? El rango es 47.
¿Cuántas clases se generaron? de acuerdo a la tabla de frecuencia y al histograma respectivamente. Se generaron 8 clases en total y se hizo mediante el método de Sturgels.

frecuencia.edades <- fdt(datos$edades, breaks='Sturges')
frecuencia.edades <- as.data.frame(frecuencia.edades$table)
frecuencia.edades

##      Class limits  f         rf     rf(%) cf     cf(%)
## 1  [17.82,23.799) 14 0.15555556 15.555556 14  15.55556
## 2 [23.799,29.778) 13 0.14444444 14.444444 27  30.00000
## 3 [29.778,35.756)  8 0.08888889  8.888889 35  38.88889
## 4 [35.756,41.735)  6 0.06666667  6.666667 41  45.55556
## 5 [41.735,47.714) 10 0.11111111 11.111111 51  56.66667
## 6 [47.714,53.693) 17 0.18888889 18.888889 68  75.55556
## 7 [53.693,59.671) 12 0.13333333 13.333333 80  88.88889
## 8  [59.671,65.65) 10 0.11111111 11.111111 90 100.00000

¿Cuáles es el rango de cada clase y como se demuestran o generan matemáticamente? 1: (18 - 24), 2:(24 - 30), 3:(30 - 36), 4:(36 - 42), 5:(42 - 48), 6:(48 - 54), 7:(54 - 60), 8:(60 - 65).
¿Cuál es la clase con mayor frecuencia de edades de acuerdo a la tabla de frecuencias? La clase con mayor frecuencia es la 6, con una frecuencia de 17 datos.
¿Cuál es la clase con mayor frecuencia de edades de acuerdo al histograma? La clase con mayor frecencia en el histograma es diferente a la de la tabla de frecuencias, puesto son las clases 3, 7 y 8 con una frecuencia de 10 datos cada una.
¿Que relación hay entre histograma y diagrama de tallo y hoja? El diagrama de tallo y hoja es como si cada barra fuera un tallo, mediante más frecuencia hay en ese tallo (o barrita) se le van agregando hojas, o bien, va creciendo.

De la variable estaturas:

¿Cuál es la clase con mayor frecuencia de edades de acuerdo a la tabla de frecuencias? La clase 3, con una frecuencia de 17 datos.
¿Cuál es la clase con mayors frecuencia de edades de acuerdo al histograma? Al igual que en la tabla de freciuencias, es la clase 3, con una frecuencia de 17 datos.

De la variable pesos:

Cuál es la clase con mayor frecuencia de pesos de acuerdo a la tabla de frecuencias y su frecuencia? La clase con más frecuencia es la clase 2, con una frecuencia de 16 datos.
¿Cuál es la clase con mayor frecuencia de pesos de acuerdo al histograma y su frecuencia? Se llega a un mejor concenso con la tabla de frecuencias, y aunque no son iguales en su frecuencia, si en la clase en la que es más frecuente, pues en ambas son la clase 2.
¿Que les deja el caso? Un mayor dominio y mayores habilidades adquiridas con respecto al manejo del programa, un mayor número de funciones aprendidas y también a analizar de mejor manera la información.

Referencias bibliográficas

Anderson, David R., Dennis J. Sweeney, and Thomas A. Williams. 2008. Estadística Para Administración y Economía. 10th ed. Australia • Brasil • Corea • España • Estados Unidos • Japón • México • Reino Unido • Singapur: Cengage Learning,.
Mendenhall, William, Robert J. Beaver, and Barbara M. Beaver. 2010. Introducción a La Probabilidad y Estadística. 13th ed. Cengage Learning Editores, S.A. de C.V.,.
Soto Espinosa, Juan Luis. 2020. “Statistics and Health at Work Descriptive Statistics (i): Variables and Frequencies.” RIST. Revista de Investigación, July. https://rist.zaragoza.unam.mx/index.php/rist/article/view/232/173.