Objetivo

Analizar y describir datos mediante técnicas de agrupación para datos cuantitativos y visualizar gráficamente a través de histogramas y gráficas de tallo y hoja.

Descripción

Crear un conjunto de datos de personas con variables tales como la edad, peso, estatura como datos cualitativos y el género y estado de la República Mexicana con valores cualitativos.

Se usarán solo los valores cuantitativos la edad, el peso y la estatura para describir frecuencias, y visualizar mediante histograma y gráfico de tallo y hoja .

En el marco de referencia inicialmente se identifican conceptos y ejemplos de la descripción de datos cuantitativos para tablas frecuencias y visualización gráfica de los datos.

Al final se muestra una interpretación a preguntas específicas del caso con apreciaciones del autor.

Marco Teórico

En el caso 1 y 2 se presentó una descripción para datos cualitativos, siendo estas variables cualitativas producen datos que se pueden clasificar de acuerdo a similitudes o diferencias en clase; por lo tanto, con frecuencia se denominan datos categóricos.

Las variables como género de una persona, año de nacimiento o especialidad de un estudiante son variables cualitativas que producen datos categóricos. (Mendenhall, Beaver, and Beaver 2010a).

Entonces las variables cualitativas miden una cualidad o característica en cada unidad experimental. Las variables cuantitativas miden una cantidad numérica en cada unidad experimental. (Mendenhall, Beaver, and Beaver 2010b).

Las variables cuantitativas, con frecuencia representadas por la letra xx, producen datos numéricos, por ejemplo estos:

En las anteriores variables existe que una diferencia en los tipos de valores numéricos que pueden tomar estas variables cuantitativas. El número de pasajeros, por ejemplo, puede tomar sólo los valores \(x=0,1,2,… n,\) \(x=0,1,2,…, n\) mientras que el peso de un paquete o estatura de una persona puede tomar cualquier valor mayor a cero, o sea \(0<x<∞\)

Para describir esta diferencia, definimos dos tipos de variables cuantitativas: discretas y continuas.

A una variable aleatoria que asuma ya sea un número finito de valores o una sucesión infinita de valores tales como \(x=0,1,2,...n ,x=0,1,2,...n¨\), se le llama variable aleatoria discreta. (Anderson, Sweeney, and Williams 2008a).

A una variable que puede tomar cualquier valor numérico dentro de un intervalo o colección de intervalos se le llama variable aleatoria continua \(0<x<∞\)(Anderson, Sweeney, and Williams 2008b).

El nombre de discreta se refiere a las brechas discretas entre los posibles valores que la variable puede tomar. Variables como el número de miembros de una familia, el número de ventas de autos nuevos y el número de llantas defectuosas devueltas para cambio son todos ellos ejemplos de variables discretas. Por el contrario, variables como la estatura, peso, tiempo, distancia y volumen son continuas porque pueden tomar valores en cualquier punto a lo largo de un intervalo de recta. (Mendenhall, Beaver, and Beaver 2010b).

La imagen siguiente apoya lo anteriormete descrito para variables cualitativas y cuantitativas discretas y continuas.

Tipos de datos(Mendenhall, Beaver, and Beaver 2010c)

Gráficas para datos cuantitativos

Gráfica de barras

A veces la información se recolecta para una variable cuantitativa medida en segmentos diferentes de la población, o para diferentes categorías de clasificación. Por ejemplo, se podría medir el promedio de ingresos de personas de diferentes grupos de edad, géneros diferentes, o que viven en zonas geográficas diferentes del país. En tales casos, se pueden usar gráficas de pastel o gráficas de barras para describir los datos, usando la cantidad medida en cada categoría en lugar de la frecuencia con que se presenta cada una de las categorías.

El ejemplo siguiente visualiza la cantidad de alumnos de una Institución de educación superior categorizados por la carrera y la cantidad de alumnos inscritos.

carreras <- c("Química", "Bioquímica", "Sistemas", "Industrial", "Mecatrónica")
inscritos <- c(125, 241, 305, 430, 102)
datos <- data.frame(carreras, inscritos)
datos
##      carreras inscritos
## 1     Química       125
## 2  Bioquímica       241
## 3    Sistemas       305
## 4  Industrial       430
## 5 Mecatrónica       102
barplot(height = datos$inscritos, names.arg = datos$carreras)

Gráfica de Líneas

Cuando una variable cuantitativa se registra en el tiempo a intervalos igualmente espaciados (por ejemplo diario, semanal, mensual, trimestral o anual), el conjunto de datos forma una serie de tiempo. Los datos de una serie de tiempo se presentan con más efectividad en una gráfica de líneas con el tiempo como eje horizontal. La idea es tratar dedistinguir un patrón o tendencia que sea probable de continuar en el futuro y luego usar ese patrón para hacer predicciones precisas para el futuro inmediato. (Mendenhall, Beaver, and Beaver 2010c).

El siguiente ejemplo representa la cantidad de población de un país como México conforme y de acuerdo a los censos de 1980, 1990, 2000, 2010 y 2020. Los valores de población está dado en millones de habitantes.

años <- c('1980', '1990', '2000', '2010', '2020')
poblacion <- c(90.00, 95.65,100.26, 112.33, 126.01)

  
datos <- data.frame(años, poblacion)
datos
##   años poblacion
## 1 1980     90.00
## 2 1990     95.65
## 3 2000    100.26
## 4 2010    112.33
## 5 2020    126.01
plot(x=datos$años, y=datos$poblacion, type="b", xlab="Años", ylab="Población")

Histograma

Un histograma de frecuencia relativa es semejante a una gráfica de barras, pero se usa para graficar cantidades en lugar de datos cualitativos (Mendenhall, Beaver, and Beaver 2010a).

En el histograma se traza una barra sobre cada una de las columnas, se habrá creado un histograma de frecuencia o un histograma de frecuencia relativa, dependiendo de la escala del eje vertical. y la cantida de frecuencia.

El histograma representa agrupación de datos con la cantidad de frecuencias de cada clase.

El siguiente ejemplo simula una muestra de 30 personas a quienes se les pregunta su edad. Se representa un histograma de los datos

edades <- c(17, 15, 28, 19, 16, 12, 14, 22, 26, 23, 24, 11, 24, 25, 30, 21, 20, 17, 30, 17, 19, 15, 21, 22, 13, 24, 25, 19, 10, 22)

edades # Estos datos están sin ordenar
##  [1] 17 15 28 19 16 12 14 22 26 23 24 11 24 25 30 21 20 17 30 17 19 15 21 22 13
## [26] 24 25 19 10 22
length(edades) #cuántos datos son
## [1] 30
range(edades) #el rango de los datos
## [1] 10 30
edades[order(edades)] #datos ya ordenados
##  [1] 10 11 12 13 14 15 15 16 17 17 17 19 19 19 20 21 21 22 22 22 23 24 24 24 25
## [26] 25 26 28 30 30
hist(edades, main = "Frecuencia  de edades", xlab = "Edades", ylab = "Frecuencia")

plot(density(edades))

Gráfica de tallo y hoja

Otra forma sencilla de exhibir la distribución de un conjunto de datos cuantitativos es la gráfica de tallo y hoja. Esta gráfica presenta una exhibición gráfica de los datos usando los valores numéricos reales de cada punto de datos.

stem(x = edades, scale = 2)
## 
##   The decimal point is at the |
## 
##   10 | 00
##   12 | 00
##   14 | 000
##   16 | 0000
##   18 | 000
##   20 | 000
##   22 | 0000
##   24 | 00000
##   26 | 0
##   28 | 0
##   30 | 00
stem(x = edades, scale = 3)
## 
##   The decimal point is at the |
## 
##   10 | 0
##   11 | 0
##   12 | 0
##   13 | 0
##   14 | 0
##   15 | 00
##   16 | 0
##   17 | 000
##   18 | 
##   19 | 000
##   20 | 0
##   21 | 00
##   22 | 000
##   23 | 0
##   24 | 000
##   25 | 00
##   26 | 0
##   27 | 
##   28 | 0
##   29 | 
##   30 | 00

Regla de Sturges

En las tablas de frecuencias es necesario determinar matemáticamente el número de clases, La opción matemáticamente más consistente es la conocida como regla de Sturges , La solución de esta ecuación proporciona una regla práctica para obtener el número de clases.

\(k=1+3.322log(N)k=1+3.322log(N)\)

  • Siendo \(k\) el número de clase

  • \(log\) es la función logarítmica de base 10

  • y \(N\) el total de la muestra

El rango de clase de acuerdo a Sturges está dada por

\[ h= \frac{Range}{k}\ \]

Siendo \(h\) el rango de cada clase y *Range el rango del total de los datos, es decir la diferencia entre límite superior menos límite inferior. (Soto Espinosa 2020)

Desarrollo

Cargar librería

La librería o paquete fdth sirve para generar tablas de distribución que presenta las frecuencias de clases, relativas, porcentuales y acumuladas para valores cuantitativos y cualitativos.

Para el ejemplo servirá para conocer tablas de distribución de variables de edades, pesos y estaturas de personas.

library(fdth)
## Warning: package 'fdth' was built under R version 4.0.4
## 
## Attaching package: 'fdth'
## The following objects are masked from 'package:stats':
## 
##     sd, var

Cargar los datos

Antes de crear los datos, se prepara el documento aplicando la función sed.seed(), esta instrucción permite establecer una semilla que permite generar los misos valores aleatorios cuando se utilizan funciones que tiene que ver con elementos aleatorios, en este caso con la función sample() que más adelante se utiliza.

set.seed(2302)

Se simulan 63 datos en un data.frame o conjunto de datos a partir de vectores.

Por medio de la función sample() se genera la muestra de 63 personas que simuladamente fueron encuestadas.

De cada persona se les pregunta estado de la República Mexicana en donde radica o vive, la edad de entre un rango de 18 a 65, la altura en metros, el peso en kilogramos y el género [Femenino o Masculino].

Las variables:

estados es una variable tipo vector con 6 elementos que contiene 6 diferentes estados de la República Mexicana.

entidades será una variable que contiene los 63 mil personas encuestadas conforme y de acuerdo al algún estado de la República Mexicana de los seis inicializados.

  • estaturas dado en metros de cada persona.

  • pesos dado en kilogramos.

  • edades de entre 18 y 65 años.

  • generos Masculino o Femenino.

  • datos es la variable que contiene el data.frame a partir de todo el conjunto de vectores.

Las funciones:

  • factor() es una función que convierte tipo char a tipo de dato categórico, es decir, que se puede saber cuáles son diferentes entre sí,las clase que hay y además se puede contar y determinar su frecuencia

  • length() determina a cantidad de elementos de un vector y se utiliza para determinar n.muestra, n.muestra significa el tamaño de la muestra.

  • sample() es para generar muestras de cierta cantidad de elementos.

  • data.frame() es la función que construye el conjunto de datos o data.frame.

    municipios <- c('Durango', 'Canatlán', 'Topia', 'Santiago Papasquiaro', 'Guadalupe Victoria','Gómez Palacio','Canelas', 'Tamazula' )
    municipios
    ## [1] "Durango"              "Canatlán"             "Topia"               
    ## [4] "Santiago Papasquiaro" "Guadalupe Victoria"   "Gómez Palacio"       
    ## [7] "Canelas"              "Tamazula"

Convertir los estados a tipo de datos factor

municipios <- factor(municipios)
municipios
## [1] Durango              Canatlán             Topia               
## [4] Santiago Papasquiaro Guadalupe Victoria   Gómez Palacio       
## [7] Canelas              Tamazula            
## 8 Levels: Canatlán Canelas Durango Gómez Palacio ... Topia
muni <- sample(x = municipios, size=80, replace = TRUE)
muni
##  [1] Tamazula             Durango              Santiago Papasquiaro
##  [4] Tamazula             Gómez Palacio        Durango             
##  [7] Gómez Palacio        Canelas              Guadalupe Victoria  
## [10] Guadalupe Victoria   Santiago Papasquiaro Canelas             
## [13] Gómez Palacio        Durango              Canatlán            
## [16] Canatlán             Guadalupe Victoria   Durango             
## [19] Canatlán             Guadalupe Victoria   Tamazula            
## [22] Gómez Palacio        Durango              Durango             
## [25] Topia                Durango              Guadalupe Victoria  
## [28] Gómez Palacio        Topia                Guadalupe Victoria  
## [31] Durango              Durango              Canelas             
## [34] Durango              Tamazula             Guadalupe Victoria  
## [37] Canelas              Durango              Topia               
## [40] Topia                Canatlán             Tamazula            
## [43] Gómez Palacio        Durango              Canatlán            
## [46] Topia                Gómez Palacio        Durango             
## [49] Durango              Durango              Canatlán            
## [52] Canelas              Guadalupe Victoria   Topia               
## [55] Topia                Topia                Topia               
## [58] Tamazula             Santiago Papasquiaro Topia               
## [61] Guadalupe Victoria   Santiago Papasquiaro Tamazula            
## [64] Tamazula             Gómez Palacio        Guadalupe Victoria  
## [67] Tamazula             Santiago Papasquiaro Durango             
## [70] Topia                Tamazula             Santiago Papasquiaro
## [73] Tamazula             Guadalupe Victoria   Canelas             
## [76] Canatlán             Topia                Canelas             
## [79] Canelas              Canatlán            
## 8 Levels: Canatlán Canelas Durango Gómez Palacio ... Topia

Crear la edades de las personas de entre 25 y 70 años

edades <- sample(x = 25:70, size=80, replace = TRUE)
edades
##  [1] 28 57 59 68 70 58 50 43 47 54 53 33 57 36 56 54 59 63 64 33 31 51 54 38 65
## [26] 38 48 65 58 29 34 34 42 47 63 60 37 37 45 49 43 41 28 60 63 64 54 67 61 48
## [51] 30 65 58 64 49 67 34 60 35 70 40 44 44 44 48 65 25 35 58 28 35 62 41 25 65
## [76] 36 49 34 34 60

Crear las estaturas de las personas de entre 1.52 y 1.98 metros. La función sample() genera valores en centímetros, es decir entre 152 y 198 cms., al dividirlo entre 100 se interpreta valores en metros.

estaturas <- sample(x = 152:198, size=80, replace = TRUE)
estaturas <- estaturas / 100
estaturas
##  [1] 1.61 1.58 1.60 1.95 1.64 1.60 1.66 1.96 1.80 1.69 1.74 1.87 1.77 1.90 1.70
## [16] 1.87 1.61 1.86 1.90 1.65 1.68 1.81 1.53 1.78 1.78 1.57 1.55 1.91 1.76 1.64
## [31] 1.72 1.87 1.83 1.69 1.54 1.86 1.52 1.74 1.93 1.76 1.59 1.95 1.79 1.95 1.71
## [46] 1.67 1.76 1.66 1.60 1.89 1.88 1.66 1.81 1.56 1.95 1.55 1.57 1.86 1.55 1.64
## [61] 1.68 1.75 1.94 1.84 1.72 1.67 1.79 1.72 1.58 1.67 1.87 1.62 1.53 1.87 1.95
## [76] 1.95 1.76 1.64 1.65 1.57

Crear los pesos de las personas de entre 30 y 123 kilogramos. La función sample() genera valores numéricos, es decir entre 30 y 123 kgs.

pesos <- sample(x = 30:123, size=80, replace = TRUE)

pesos
##  [1]  40 119 112  79 103  68  97  95 104  90  78  85  36  76  72 114  96  99 104
## [20]  96  90  67  75  88  47  97  81  51  38  45 105  58  86  85  56  49  85 121
## [39]  46  41  91  74 118  33  81  83 114  42  43  67  35  63  92  65  64  95  94
## [58] 105  43 120  79 100  69  59  71  73 105  46 107  54  32 116  60 115  90 107
## [77]  87 106 100  53

Finalmente generar el vector de géneros entre [Masculino o Femenino]. Al mismo tiempo con la función factor() se categoriza a [Femenino o Masculino]

generos <- sample(x = factor(c("Femenino", "Masculino")), size=80, replace = TRUE)
generos
##  [1] Masculino Femenino  Femenino  Femenino  Masculino Femenino  Femenino 
##  [8] Masculino Femenino  Femenino  Masculino Femenino  Masculino Femenino 
## [15] Femenino  Femenino  Masculino Femenino  Femenino  Masculino Masculino
## [22] Femenino  Femenino  Masculino Femenino  Femenino  Femenino  Masculino
## [29] Masculino Femenino  Masculino Femenino  Femenino  Femenino  Femenino 
## [36] Femenino  Femenino  Femenino  Masculino Masculino Femenino  Masculino
## [43] Femenino  Femenino  Femenino  Femenino  Femenino  Femenino  Masculino
## [50] Masculino Femenino  Femenino  Femenino  Femenino  Masculino Femenino 
## [57] Masculino Femenino  Femenino  Femenino  Masculino Femenino  Femenino 
## [64] Femenino  Femenino  Masculino Femenino  Femenino  Masculino Femenino 
## [71] Masculino Femenino  Femenino  Masculino Femenino  Femenino  Femenino 
## [78] Masculino Femenino  Femenino 
## Levels: Femenino Masculino

Ahora si, que ya se tienen los datos recabados es momento de generar el conjunto de datos con la función data.frame a partir de los vectores.

datos <- data.frame(muni, edades, estaturas, pesos, generos)
datos
##                    muni edades estaturas pesos   generos
## 1              Tamazula     28      1.61    40 Masculino
## 2               Durango     57      1.58   119  Femenino
## 3  Santiago Papasquiaro     59      1.60   112  Femenino
## 4              Tamazula     68      1.95    79  Femenino
## 5         Gómez Palacio     70      1.64   103 Masculino
## 6               Durango     58      1.60    68  Femenino
## 7         Gómez Palacio     50      1.66    97  Femenino
## 8               Canelas     43      1.96    95 Masculino
## 9    Guadalupe Victoria     47      1.80   104  Femenino
## 10   Guadalupe Victoria     54      1.69    90  Femenino
## 11 Santiago Papasquiaro     53      1.74    78 Masculino
## 12              Canelas     33      1.87    85  Femenino
## 13        Gómez Palacio     57      1.77    36 Masculino
## 14              Durango     36      1.90    76  Femenino
## 15             Canatlán     56      1.70    72  Femenino
## 16             Canatlán     54      1.87   114  Femenino
## 17   Guadalupe Victoria     59      1.61    96 Masculino
## 18              Durango     63      1.86    99  Femenino
## 19             Canatlán     64      1.90   104  Femenino
## 20   Guadalupe Victoria     33      1.65    96 Masculino
## 21             Tamazula     31      1.68    90 Masculino
## 22        Gómez Palacio     51      1.81    67  Femenino
## 23              Durango     54      1.53    75  Femenino
## 24              Durango     38      1.78    88 Masculino
## 25                Topia     65      1.78    47  Femenino
## 26              Durango     38      1.57    97  Femenino
## 27   Guadalupe Victoria     48      1.55    81  Femenino
## 28        Gómez Palacio     65      1.91    51 Masculino
## 29                Topia     58      1.76    38 Masculino
## 30   Guadalupe Victoria     29      1.64    45  Femenino
## 31              Durango     34      1.72   105 Masculino
## 32              Durango     34      1.87    58  Femenino
## 33              Canelas     42      1.83    86  Femenino
## 34              Durango     47      1.69    85  Femenino
## 35             Tamazula     63      1.54    56  Femenino
## 36   Guadalupe Victoria     60      1.86    49  Femenino
## 37              Canelas     37      1.52    85  Femenino
## 38              Durango     37      1.74   121  Femenino
## 39                Topia     45      1.93    46 Masculino
## 40                Topia     49      1.76    41 Masculino
## 41             Canatlán     43      1.59    91  Femenino
## 42             Tamazula     41      1.95    74 Masculino
## 43        Gómez Palacio     28      1.79   118  Femenino
## 44              Durango     60      1.95    33  Femenino
## 45             Canatlán     63      1.71    81  Femenino
## 46                Topia     64      1.67    83  Femenino
## 47        Gómez Palacio     54      1.76   114  Femenino
## 48              Durango     67      1.66    42  Femenino
## 49              Durango     61      1.60    43 Masculino
## 50              Durango     48      1.89    67 Masculino
## 51             Canatlán     30      1.88    35  Femenino
## 52              Canelas     65      1.66    63  Femenino
## 53   Guadalupe Victoria     58      1.81    92  Femenino
## 54                Topia     64      1.56    65  Femenino
## 55                Topia     49      1.95    64 Masculino
## 56                Topia     67      1.55    95  Femenino
## 57                Topia     34      1.57    94 Masculino
## 58             Tamazula     60      1.86   105  Femenino
## 59 Santiago Papasquiaro     35      1.55    43  Femenino
## 60                Topia     70      1.64   120  Femenino
## 61   Guadalupe Victoria     40      1.68    79 Masculino
## 62 Santiago Papasquiaro     44      1.75   100  Femenino
## 63             Tamazula     44      1.94    69  Femenino
## 64             Tamazula     44      1.84    59  Femenino
## 65        Gómez Palacio     48      1.72    71  Femenino
## 66   Guadalupe Victoria     65      1.67    73 Masculino
## 67             Tamazula     25      1.79   105  Femenino
## 68 Santiago Papasquiaro     35      1.72    46  Femenino
## 69              Durango     58      1.58   107 Masculino
## 70                Topia     28      1.67    54  Femenino
## 71             Tamazula     35      1.87    32 Masculino
## 72 Santiago Papasquiaro     62      1.62   116  Femenino
## 73             Tamazula     41      1.53    60  Femenino
## 74   Guadalupe Victoria     25      1.87   115 Masculino
## 75              Canelas     65      1.95    90  Femenino
## 76             Canatlán     36      1.95   107  Femenino
## 77                Topia     49      1.76    87  Femenino
## 78              Canelas     34      1.64   106 Masculino
## 79              Canelas     34      1.65   100  Femenino
## 80             Canatlán     60      1.57    53  Femenino

Agrupación de datos

Se va a trabajar únicamente sobre los datos cuantitativos del conjunto de datos, es decir sobre las variables edades, estaturas y pesos respectivamente.

Variable edades

Con la función fdt() habiendo cargado la librería o el paquete fdth() se pueden generar las clases para la variable edades.

Se utiliza la expresión as.data.frame(frecuencia.edades$table) combinado la función as.data.frame() que significa que se transforma a tipo de datos ya conocido data.frame y con la función table() convierte a tabla la variable frecuencia.edades propia para tratarse como data.frame o conjunto de datos.

frecuencia.edades <- fdt(datos$edades, breaks='Sturges')
frecuencia.edades <- as.data.frame(frecuencia.edades$table)
frecuencia.edades
##    Class limits  f     rf rf(%) cf  cf(%)
## 1 [24.75,30.49)  7 0.0875  8.75  7   8.75
## 2 [30.49,36.24) 13 0.1625 16.25 20  25.00
## 3 [36.24,41.98)  7 0.0875  8.75 27  33.75
## 4 [41.98,47.73)  9 0.1125 11.25 36  45.00
## 5 [47.73,53.47)  9 0.1125 11.25 45  56.25
## 6 [53.47,59.21) 13 0.1625 16.25 58  72.50
## 7 [59.21,64.96) 12 0.1500 15.00 70  87.50
## 8  [64.96,70.7) 10 0.1250 12.50 80 100.00

Variable estaturas

Con la función fdt() habiendo cargado la librería o el paquete fdth() se pueden generar las clases para la variable estaturas.

Nuevamente se utiliza la expresión as.data.frame(frecuencia.estaturas$table) combinado tanto la función as.data.frame() que significa que se transforma a tipo de datos data.frame y con la función table() convierte a tabla la variable frecuencia.edades propia para tratarse como data.frame o conjunto de datos.

frecuencia.estaturas <- fdt(datos$estaturas)
frecuencia.estaturas <- as.data.frame(frecuencia.estaturas$table)
frecuencia.estaturas
##    Class limits  f     rf rf(%) cf  cf(%)
## 1 [1.505,1.564)  8 0.1000 10.00  8  10.00
## 2 [1.564,1.623) 12 0.1500 15.00 20  25.00
## 3 [1.623,1.683) 14 0.1750 17.50 34  42.50
## 4 [1.683,1.742)  9 0.1125 11.25 43  53.75
## 5 [1.742,1.802) 11 0.1375 13.75 54  67.50
## 6 [1.802,1.861)  7 0.0875  8.75 61  76.25
## 7  [1.861,1.92) 10 0.1250 12.50 71  88.75
## 8   [1.92,1.98)  9 0.1125 11.25 80 100.00

Variable pesos

Y finalmente, de la misma manera se utiliza la función fdt() generar las clases para la variable pesos.

Se utiliza la expresión as.data.frame(frecuencia.estaturas$table) combinado tanto la función as.data.frame() que significa que se transforma a tipo de datos data.frame y con la función table() convierte a tabla la variable frecuencia.pesos pra que sea más fácil tratar los datos como una estructura data.frame o conjunto de datos de renglones y columnas.

Se puede verifica en el espacio de las variable de entorno de R Studio el tipo de datos

frecuencia.pesos <- fdt(datos$pesos)
frecuencia.pesos <- as.data.frame(frecuencia.pesos$table)
frecuencia.pesos
##        Class limits  f     rf rf(%) cf  cf(%)
## 1   [31.68,42.9963)  8 0.1000 10.00  8  10.00
## 2 [42.9963,54.3125) 10 0.1250 12.50 18  22.50
## 3 [54.3125,65.6287)  7 0.0875  8.75 25  31.25
## 4  [65.6287,76.945) 10 0.1250 12.50 35  43.75
## 5  [76.945,88.2612) 12 0.1500 15.00 47  58.75
## 6 [88.2612,99.5775) 13 0.1625 16.25 60  75.00
## 7 [99.5775,110.894) 11 0.1375 13.75 71  88.75
## 8  [110.894,122.21)  9 0.1125 11.25 80 100.00

Visualización de datos

Histograma y densidad de la variable edades

hist(datos$edades)

plot(density(datos$edades))

Digrama de tallo y hoja de la variable edades

Se ordenan los datos$edades y se muestra el diagrama de tallo y hoja solo para verificar la frecuencia en los datos ordenados.

datos$edades[order(datos$edades)] # Aquí nos datos están ordenados
##  [1] 25 25 28 28 28 29 30 31 33 33 34 34 34 34 34 35 35 35 36 36 37 37 38 38 40
## [26] 41 41 42 43 43 44 44 44 45 47 47 48 48 48 49 49 49 50 51 53 54 54 54 54 56
## [51] 57 57 58 58 58 58 59 59 60 60 60 60 61 62 63 63 63 64 64 64 65 65 65 65 65
## [76] 67 67 68 70 70
stem(datos$edades, scale = 1)
## 
##   The decimal point is 1 digit(s) to the right of the |
## 
##   2 | 558889
##   3 | 013344444
##   3 | 555667788
##   4 | 011233444
##   4 | 577888999
##   5 | 0134444
##   5 | 677888899
##   6 | 000012333444
##   6 | 55555778
##   7 | 00

Histograma y densidad de la variable estaturas

hist(datos$estaturas)

plot(density(datos$estaturas))

Histograma y densidad de la variable pesos

hist(datos$pesos)

plot(density(datos$pesos))

Interpretación del caso

De la variable edades:

  • ¿Cuál es la menor y mayor edad registrada? La edad menor es de 25 años y la edad mayor es de 70 años

  • ¿Cuál es el rango de edades? El rango va de entre los 25 años hasta los 70 años.

  • ¿Cuántas clases se generaron? de acuerdo a la tabla de frecuencia y al histograma repectivamente. En la tabla de frecuencia se generan 8 clases, en el histograma se generan 9 clases.

  • ¿Cuáles es el rango de cada clase y como se demuestran o generan matemáticamente?

    Clase 1 [24.75,30.49)

    Clase 2 [30.49,36.24)

    Clase 3 [36.24,41.98)

    Clase 4 [41.98,47.73)

    Clase 5 [47.73,53.47)

    Clase 6 [53.47,59.21)

    Clase 7 [59.21,64.96)

    Clase 8 [64.96,70.7)

    Se demuestran mediante una fórmula matemática: \[ h= \frac{Range}{k}\ \]

  • ¿Cuál es la clase con mayor frecuencia de edades de acuerdo a la tabla de frecuencias? Hay un empate entre la clase 2 y la clase 6, con una frecuencia de 13.

  • ¿Cuál es la clase con mayor frecuencia de edades de acuerdo al histograma? En el histograma se puede observar que las clases con mayor frecuencia son la 7 y la 8.

  • ¿Que relación hay entre histograma y diagrama de tallo y hoja? Tanto el histograma y el diagrama de tallo y hoja permiten ver los todos los datos y mostrarnos qué tan parecidos o acercados son los datos o qué tan diferentes son.

De la variable estaturas:

  • ¿Cuál es la clase con mayor frecuencia de estaturas de acuerdo a la tabla de frecuencias? La clase con más frecuencia es la 3, con 14.

  • ¿Cuál es la clase con mayor frecuencia de estaturas de acuerdo al histograma? La clase con mayor frecuencia según el histograma es la 8.

De la variable pesos:

  • ¿Cuál es la clase con mayor frecuencia de pesos de acuerdo a la tabla de frecuencias y su frecuencia? La clase 6 es la de mayor frecuencia con 13.

  • ¿Cuál es la clase con mayor frecuencia de pesos de acuerdo al histograma y su frecuencia? Hay un empate con las clases 6 y 7 con una frecuencia de 12.

  • ¿Que les deja el caso? Aprendí nuevos términos relacionados a la materia de probabilidad y estadística, como la regla de Sturges. Al igual que se me enseñó cómo utilizar algunas otras herramientas de la aplicación que estamos empleando para resolver los casos, la herramienta del editor visual que te permite tener más control de la edición del texto y elementos del caso para que este tenga una mejor presentación.

Referencias Bibliográficas

Anderson, David R., Dennis J. Sweeney, and Thomas A. Williams. 2008a. Estadística Para Administración y Economía. 10th ed. Australia Brasil Corea España Estados Unidos Japón México Reino Unido Singapur: Cengage Learning,.

———. 2008b. Estadística Para Administración y Economía. 10th ed. Australia Brasil Corea España Estados Unidos Japón México Reino Unido Singapur: Cengage Learning,.

Mendenhall, William, Robert J. Beaver, and Barbara M. Beaver. 2010a. Introducción a La Probabilidad y Estadística. 13th ed. Cengage Learning Editores, S.A. de C.V.,.

———. 2010b. Introducción a La Probabilidad y Estadística. 13th ed. Cengage Learning Editores, S.A. de C.V.,.

———. 2010c. Introducción a La Probabilidad y Estadística. 13th ed. Cengage Learning Editores, S.A. de C.V.,.