Caso 3. Agrupacion de datos. Frecuencias, histograma, tallo y hoja. Personas Edades, Pesos y Estaturas

Objetivo

Analizar y describir datos mediante técnicas de agrupación para datos cuantitativos y visualizar gráficamente a través de histogramas y gráficas de tallo y hoja.

Descripcion

Crear un conjunto de datos de personas con variables tales como la edad, peso, estatura como datos cualitativos y el género y estado de la República Mexicana con valores cualitativos.

Se usarán solo los valores cuantitativos la edad, el peso y la estatura para describir frecuencias, y visualizar mediante histograma y gráfico de tallo y hoja .

En el marco de referencia inicialmente se identifican conceptos y ejemplos de la descripción de datos cuantitativos para tablas frecuencias y visualización gráfica de los datos.

Al final se muestra una interpretación a preguntas específicas del caso con apreciaciones del autor.

Marco teórico

En el caso 1 y 2 se presentó una descripción para datos cualitativos, siendo estas variables cualitativas producen datos que se pueden clasificar de acuerdo a similitudes o diferencias en clase; por lo tanto, con frecuencia se denominan datos categóricos.

Las variables como género de una persona, año de nacimiento o especialidad de un estudiante son variables cualitativas que producen datos categóricos. (Mendenhall, Beaver, and Beaver 2010a).

Entonces las variables cualitativas miden una cualidad o característica en cada unidad experimental. Las variables cuantitativas miden una cantidad numérica en cada unidad experimental. (Mendenhall, Beaver, and Beaver 2010b).

Las variables cuantitativas, con frecuencia representadas por la letra $x$, producen datos numéricos, por ejemplo estos:

$x$= tasa preferencial de interés
$x$= número de pasajeros en un vuelo de Los Ángeles a Nueva York
$x$= peso de un paquete listo para ser enviado
$x$= volumen de jugo de naranja en un vaso
$x$= edad de una persona
$x$= estatura de una persona
$x$= peso de una persona

En las anteriores variables existe que una diferencia en los tipos de valores numéricos que pueden tomar estas variables cuantitativas. El número de pasajeros, por ejemplo, puede tomar sólo los valores $x=0,1,2,3,..$mientras que el peso de un paquete o estatura de una persona puede tomar cualquier valor mayor a cero, o sea $x<0< ∞$.
El nombre de discreta se refiere a las brechas discretas entre los posibles valores que la variable puede tomar. Variables como el número de miembros de una familia, el número de ventas de autos nuevos y el número de llantas defectuosas devueltas para cambio son todos ellos ejemplos de variables discretas. Por el contrario, variables como la estatura, peso, tiempo, distancia y volumen son continuas porque pueden tomar valores en cualquier punto a lo largo de un intervalo de recta. (Mendenhall, Beaver, and Beaver 2010b).

La imagen siguiente apoya lo anteriormete descrito para variables cualitativas y cuantitativas discretas y continuas.

Grafica para datos cuantitativos

Grafica de Barras

A veces la información se recolecta para una variable cuantitativa medida en segmentos diferentes de la población, o para diferentes categorías de clasificación. Por ejemplo, se podría medir el promedio de ingresos de personas de diferentes grupos de edad, géneros diferentes, o que viven en zonas geográficas diferentes del país. En tales casos, se pueden usar gráficas de pastel o gráficas de barras para describir los datos, usando la cantidad medida en cada categoría en lugar de la frecuencia con que se presenta cada una de las categorías.

El ejemplo siguiente visualiza la cantidad de alumnos de una Institución de educación superior categorizados por la carrera y la cantidad de alumnos inscritos.

carreras <- c("Arquitectura", "Civil", "Sistemas", "TIC", "Gestión")
inscritos <- c(820, 650, 320, 50, 608)
datos <- data.frame(carreras, inscritos)
datos

##       carreras inscritos
## 1 Arquitectura       820
## 2        Civil       650
## 3     Sistemas       320
## 4          TIC        50
## 5      Gestión       608

barplot(height=datos$inscritos, names.arg=datos$carreras)

Grafica de Lineas

Cuando una variable cuantitativa se registra en el tiempo a intervalos igualmente espaciados (por ejemplo diario, semanal, mensual, trimestral o anual), el conjunto de datos forma una serie de tiempo. Los datos de una serie de tiempo se presentan con más efectividad en una gráfica de líneas con el tiempo como eje horizontal. La idea es tratar dedistinguir un patrón o tendencia que sea probable de continuar en el futuro y luego usar ese patrón para hacer predicciones precisas para el futuro inmediato. (Mendenhall, Beaver, and Beaver 2010c).

El siguiente ejemplo representa la cantidad de población de un país como México conforme y de acuerdo a los censos de 1980, 1990, 2000, 2010 y 2020.

años <- c('1980', '1990', '2000', '2010', '2020')
poblacion <- c(90.00, 95.65,100.26, 112.33, 126.01)


datos <- data.frame(años, poblacion)
datos

##   años poblacion
## 1 1980     90.00
## 2 1990     95.65
## 3 2000    100.26
## 4 2010    112.33
## 5 2020    126.01

plot(x=datos$años, y=datos$poblacion, type="b", xlab="Años", ylab="Población")

Histograma

Un histograma de frecuencia relativa es semejante a una gráfica de barras, pero se usa para graficar cantidades en lugar de datos cualitativos (Mendenhall, Beaver, and Beaver 2010a).

En el histograma se traza una barra sobre cada una de las columnas, se habrá creado un histograma de frecuencia o un histograma de frecuencia relativa, dependiendo de la escala del eje vertical. y la cantida de frecuencia.

El histograma representa agrupación de datos con la cantidad de frecuencias de cada clase.

El siguiente ejemplo simula una muestra de 30 personas a quienes se les pregunta su edad. Se representa un histograma de los datos

edades <- c(15, 16, 16, 14, 15, 19, 21, 22, 23, 23, 24, 25, 24, 25, 22, 23, 17, 18, 19, 17, 16, 20, 21, 22, 23, 24, 25, 23, 24, 20)

edades

##  [1] 15 16 16 14 15 19 21 22 23 23 24 25 24 25 22 23 17 18 19 17 16 20 21 22 23
## [26] 24 25 23 24 20

length(edades)

## [1] 30

range(edades)

## [1] 14 25

edades[order(edades)]

##  [1] 14 15 15 16 16 16 17 17 18 19 19 20 20 21 21 22 22 22 23 23 23 23 23 24 24
## [26] 24 24 25 25 25

hist(edades, main = "Frecuencia  de edades", xlab = "Edades", ylab = "Frecuencia")

plot(density(edades))

Grafico de tallo y hoja

Otra forma sencilla de exhibir la distribución de un conjunto de datos cuantitativos es la gráfica de tallo y hoja. Esta gráfica presenta una exhibición gráfica de los datos usando los valores numéricos reales de cada punto de datos.

stem(x = edades, scale = 1)

## 
##   The decimal point is at the |
## 
##   14 | 000
##   16 | 00000
##   18 | 000
##   20 | 0000
##   22 | 00000000
##   24 | 0000000

stem(x = edades, scale = 2)

## 
##   The decimal point is at the |
## 
##   14 | 0
##   15 | 00
##   16 | 000
##   17 | 00
##   18 | 0
##   19 | 00
##   20 | 00
##   21 | 00
##   22 | 000
##   23 | 00000
##   24 | 0000
##   25 | 000

stem(x=edades, scale = 3)

## 
##   The decimal point is at the |
## 
##   14 | 0
##   14 | 
##   15 | 00
##   15 | 
##   16 | 000
##   16 | 
##   17 | 00
##   17 | 
##   18 | 0
##   18 | 
##   19 | 00
##   19 | 
##   20 | 00
##   20 | 
##   21 | 00
##   21 | 
##   22 | 000
##   22 | 
##   23 | 00000
##   23 | 
##   24 | 0000
##   24 | 
##   25 | 000

Regla de Sturges

En las tablas de frecuencias es necesario determinar matemáticamente el número de clases, La opción matemáticamente más consistente es la conocida como regla de Sturges , La solución de esta ecuación proporciona una regla práctica para obtener el número de clases.

\[k = 1 + 3.322log(N)\]
$log$ es la funcion logaritmica de base 10, log10()
y $N$ el total de la muestra

siendo $k$ el numero de clases

El rango de clase de acuerdo a Sturges esta dada por

\[ h = \frac{Range}{k} \]

Siendo $h$ el rango de cada clase y *Range el rango del total de los datos, es decir la diferencia entre límite superior menos límite inferior. (Soto Espinosa 2020)

Regla de Scott para clases

pendiente

Regla de FD para clases

Pendiente

Desarrollo

Caso 3. pendiente

Cargar Libreria

La librería o paquete fdth sirve para generar tablas de distribución que presenta las frecuencias de clases, relativas, porcentuales y acumuladas para valores cuantitativos y cualitativos.

Para el ejemplo servirá para conocer tablas de distribución de variables cuantitativas de edades, pesos y estaturas de personas.

library(fdth)

## 
## Attaching package: 'fdth'

## The following objects are masked from 'package:stats':
## 
##     sd, var

Cargar o crear el conjunto de los datos

Antes de crear los datos, se prepara el documento aplicando la función sed.seed(), esta instrucción permite establecer una semilla que permite generar los mismos valores aleatorios cuando se utilizan funciones que tiene que ver con elementos aleatorios, en este caso con la función sample(), que más adelante se utiliza.

set.seed(1400)

Se simulan 80 datos en un data.frame o conjunto de datos a partir de vectores.

Por medio de la función sample() se genera la muestra de 80 personas que simuladamente fueron encuestadas.

De cada persona se les pregunta estado de la República Mexicana en donde radica o vive, la edad de entre un rango de 18 a 65, la altura en metros, el peso en kilogramos y el género [Femenino o Masculino].

Las Variables:

estados es una variable tipo vector con 6 elementos que contiene 6 diferentes estados de la República Mexicana. La variable estados se factoriza o categoriza con la función factor(). Para este ejemplo puede utilizarse otra variable como zona de la ciudad en donde radicas o vives, colonias, u otra variable de tipo cualitativa. Para este caso no tiene efecto alguno sólo es complemento.
entidades será una variable que contiene los 80 personas encuestadas conforme y de acuerdo al algún estado de la República Mexicana de los seis inicializados. Nuevamente aquí con esta variable puede utilizarse otra variable y hacer diferencia en el caso.
estaturas será una variable cuantitativa con valores reales representado en metros de la altura de cada persona.
pesos, es una variable cuantitativa dado en valor numérico entero, significa un valor en kilogramos del peso de una persona.
edades, será también una variable cuantitativa con valores numéricos entre 18 y 65 años.
generos Masculino o Femenino. Esta será una cualitativa además de ser variable categórica factorizada con la función factor().
datos es la variable que contiene el data.frame o conjunto de datos a partir de todo el conjunto de vectores.

Las Funciones:

factor() es una función que convierte tipo char a tipo de dato categórico, es decir, que se puede saber cuáles son diferentes entre sí, las clase que hay y además se puede contar y determinar su frecuencia
length() determina a cantidad de elementos de un vector y se utiliza para determinar nn que significa el tamaño de la muestra.
sample() es para generar muestras de cierta cantidad de elementos a partir de datos iniciales sample() se utiliza para simular 63 personas encuestadas
data.frame() es la función que construye el conjunto de datos o data.frame.

estados <- c('Durango', 'Jalisco', 'Nuevo León', 
             'Baja California', 'Coahuila', 
             'Chihuahua')
estados

## [1] "Durango"         "Jalisco"         "Nuevo León"      "Baja California"
## [5] "Coahuila"        "Chihuahua"

estados <- factor(estados)
estados

## [1] Durango         Jalisco         Nuevo León      Baja California
## [5] Coahuila        Chihuahua      
## Levels: Baja California Chihuahua Coahuila Durango Jalisco Nuevo León

Se crea el vector de entidades a partir de los estados, como ya se mencionó, se simula una encuesta de 80 personas; el valor de 80 es un valor aleatorio y pudo ser cualquier valor numérico que permita tan chico o tan grande como lo permita la memoria ram de la computadora en donde se simule la cantidad de personas encuestadas.

En la muestra sample() se utilizan los valores de x= estados que significa los valores de donde se sacan aleatoriamente los estados, size =80 que significa la cantidad de personas y replce significa que los valores de los seis estados se pueden repetir

entidades <- sample(x = estados, size=80, replace = TRUE)
entidades

##  [1] Chihuahua       Durango         Jalisco         Baja California
##  [5] Durango         Baja California Jalisco         Baja California
##  [9] Coahuila        Coahuila        Baja California Chihuahua      
## [13] Nuevo León      Durango         Jalisco         Baja California
## [17] Jalisco         Coahuila        Jalisco         Jalisco        
## [21] Nuevo León      Durango         Baja California Coahuila       
## [25] Jalisco         Baja California Baja California Chihuahua      
## [29] Jalisco         Baja California Jalisco         Nuevo León     
## [33] Coahuila        Coahuila        Coahuila        Baja California
## [37] Chihuahua       Durango         Coahuila        Nuevo León     
## [41] Nuevo León      Chihuahua       Jalisco         Nuevo León     
## [45] Nuevo León      Coahuila        Coahuila        Jalisco        
## [49] Nuevo León      Chihuahua       Durango         Nuevo León     
## [53] Chihuahua       Durango         Coahuila        Chihuahua      
## [57] Jalisco         Coahuila        Coahuila        Chihuahua      
## [61] Jalisco         Jalisco         Baja California Jalisco        
## [65] Baja California Chihuahua       Chihuahua       Nuevo León     
## [69] Nuevo León      Chihuahua       Durango         Nuevo León     
## [73] Nuevo León      Jalisco         Chihuahua       Chihuahua      
## [77] Chihuahua       Coahuila        Jalisco         Durango        
## Levels: Baja California Chihuahua Coahuila Durango Jalisco Nuevo León

Crear la edades de las personas de entre 18 y 65 años

edades =  sample(x = 18:65, size=80, replace = TRUE)
edades

##  [1] 44 41 55 44 30 30 42 55 38 46 58 58 27 26 39 28 18 53 54 38 55 31 46 30 24
## [26] 27 63 21 59 28 59 65 45 25 48 22 62 23 34 44 37 64 25 53 24 26 28 43 23 19
## [51] 26 25 62 64 53 26 27 46 57 39 41 35 55 60 53 23 24 34 26 44 65 18 60 57 63
## [76] 30 27 39 59 42

Crear las estaturas de las personas de entre 1.45 y 2.05 metros. La función sample() genera valores en centímetros, es decir entre 145 y 205 cms., al dividirlo entre 100 se interpreta valores en metros.

estaturas <- sample(x = 145:205, size=80, replace = TRUE)
estaturas <- estaturas / 100
estaturas

##  [1] 1.86 1.88 1.60 1.87 1.59 1.71 1.96 1.65 1.49 1.56 1.56 1.73 1.71 1.67 1.55
## [16] 1.75 1.73 1.64 1.77 1.52 1.63 1.60 1.69 1.69 1.69 2.05 1.96 1.70 1.49 1.95
## [31] 1.80 1.57 1.71 1.63 1.78 1.88 1.88 1.64 1.78 1.88 1.80 1.55 1.78 1.72 1.77
## [46] 1.54 2.02 1.94 1.82 1.73 1.86 1.79 1.80 1.65 1.88 1.51 1.51 1.57 1.83 1.54
## [61] 1.79 2.00 1.48 1.62 2.00 1.67 1.69 1.86 1.83 1.62 1.72 1.52 1.97 1.53 1.62
## [76] 1.55 2.00 1.69 1.84 1.75

Crear los pesos de las personas de entre 45 y 110 kilogramos. La función sample() genera valores numéricos, es decir entre 45 y 110 kgs.

pesos = sample(x=45:110, size=80, replace = TRUE)
pesos

##  [1]  69  97 110  49  63  59 107  73  94  56  52  51  57  98  63 103  63  83  75
## [20]  63  51  58  84  83  76  78 104  70  86  71  56  71  46 106 109  89  98  75
## [39]  85  55  62  80  70  95  88  98  84  55  98 107  53  71  79 106 108  88  73
## [58]  86  72  99 105  78  76  66  93  92  54  86  74  67  62  57  90  93  64  63
## [77]  75 106 109  97

Finalmente generar el vector de géneros entre [Masculino o Femenino]. Al mismo tiempo con la función factor() se categoriza a [Femenino o Masculino]

generos = sample(x=factor(c("Femenino", "Masculino")), size=80, replace=TRUE)

generos

##  [1] Femenino  Femenino  Femenino  Masculino Femenino  Femenino  Masculino
##  [8] Masculino Femenino  Femenino  Femenino  Masculino Femenino  Masculino
## [15] Masculino Femenino  Masculino Masculino Femenino  Masculino Masculino
## [22] Femenino  Femenino  Femenino  Masculino Femenino  Masculino Femenino 
## [29] Masculino Masculino Masculino Femenino  Masculino Femenino  Femenino 
## [36] Femenino  Femenino  Masculino Femenino  Femenino  Femenino  Masculino
## [43] Femenino  Femenino  Masculino Femenino  Masculino Femenino  Femenino 
## [50] Masculino Femenino  Femenino  Femenino  Femenino  Femenino  Femenino 
## [57] Femenino  Femenino  Femenino  Masculino Femenino  Masculino Femenino 
## [64] Masculino Femenino  Femenino  Femenino  Masculino Femenino  Masculino
## [71] Masculino Masculino Femenino  Masculino Femenino  Femenino  Femenino 
## [78] Femenino  Masculino Femenino 
## Levels: Femenino Masculino

Ahora si, que ya se tienen los datos recabados es momento de generar el conjunto de datos con la función data.frame a partir de los vectores cada uno con los 80 elementos.

datos =data.frame(entidades, edades, estaturas, pesos, generos)
datos

##          entidades edades estaturas pesos   generos
## 1        Chihuahua     44      1.86    69  Femenino
## 2          Durango     41      1.88    97  Femenino
## 3          Jalisco     55      1.60   110  Femenino
## 4  Baja California     44      1.87    49 Masculino
## 5          Durango     30      1.59    63  Femenino
## 6  Baja California     30      1.71    59  Femenino
## 7          Jalisco     42      1.96   107 Masculino
## 8  Baja California     55      1.65    73 Masculino
## 9         Coahuila     38      1.49    94  Femenino
## 10        Coahuila     46      1.56    56  Femenino
## 11 Baja California     58      1.56    52  Femenino
## 12       Chihuahua     58      1.73    51 Masculino
## 13      Nuevo León     27      1.71    57  Femenino
## 14         Durango     26      1.67    98 Masculino
## 15         Jalisco     39      1.55    63 Masculino
## 16 Baja California     28      1.75   103  Femenino
## 17         Jalisco     18      1.73    63 Masculino
## 18        Coahuila     53      1.64    83 Masculino
## 19         Jalisco     54      1.77    75  Femenino
## 20         Jalisco     38      1.52    63 Masculino
## 21      Nuevo León     55      1.63    51 Masculino
## 22         Durango     31      1.60    58  Femenino
## 23 Baja California     46      1.69    84  Femenino
## 24        Coahuila     30      1.69    83  Femenino
## 25         Jalisco     24      1.69    76 Masculino
## 26 Baja California     27      2.05    78  Femenino
## 27 Baja California     63      1.96   104 Masculino
## 28       Chihuahua     21      1.70    70  Femenino
## 29         Jalisco     59      1.49    86 Masculino
## 30 Baja California     28      1.95    71 Masculino
## 31         Jalisco     59      1.80    56 Masculino
## 32      Nuevo León     65      1.57    71  Femenino
## 33        Coahuila     45      1.71    46 Masculino
## 34        Coahuila     25      1.63   106  Femenino
## 35        Coahuila     48      1.78   109  Femenino
## 36 Baja California     22      1.88    89  Femenino
## 37       Chihuahua     62      1.88    98  Femenino
## 38         Durango     23      1.64    75 Masculino
## 39        Coahuila     34      1.78    85  Femenino
## 40      Nuevo León     44      1.88    55  Femenino
## 41      Nuevo León     37      1.80    62  Femenino
## 42       Chihuahua     64      1.55    80 Masculino
## 43         Jalisco     25      1.78    70  Femenino
## 44      Nuevo León     53      1.72    95  Femenino
## 45      Nuevo León     24      1.77    88 Masculino
## 46        Coahuila     26      1.54    98  Femenino
## 47        Coahuila     28      2.02    84 Masculino
## 48         Jalisco     43      1.94    55  Femenino
## 49      Nuevo León     23      1.82    98  Femenino
## 50       Chihuahua     19      1.73   107 Masculino
## 51         Durango     26      1.86    53  Femenino
## 52      Nuevo León     25      1.79    71  Femenino
## 53       Chihuahua     62      1.80    79  Femenino
## 54         Durango     64      1.65   106  Femenino
## 55        Coahuila     53      1.88   108  Femenino
## 56       Chihuahua     26      1.51    88  Femenino
## 57         Jalisco     27      1.51    73  Femenino
## 58        Coahuila     46      1.57    86  Femenino
## 59        Coahuila     57      1.83    72  Femenino
## 60       Chihuahua     39      1.54    99 Masculino
## 61         Jalisco     41      1.79   105  Femenino
## 62         Jalisco     35      2.00    78 Masculino
## 63 Baja California     55      1.48    76  Femenino
## 64         Jalisco     60      1.62    66 Masculino
## 65 Baja California     53      2.00    93  Femenino
## 66       Chihuahua     23      1.67    92  Femenino
## 67       Chihuahua     24      1.69    54  Femenino
## 68      Nuevo León     34      1.86    86 Masculino
## 69      Nuevo León     26      1.83    74  Femenino
## 70       Chihuahua     44      1.62    67 Masculino
## 71         Durango     65      1.72    62 Masculino
## 72      Nuevo León     18      1.52    57 Masculino
## 73      Nuevo León     60      1.97    90  Femenino
## 74         Jalisco     57      1.53    93 Masculino
## 75       Chihuahua     63      1.62    64  Femenino
## 76       Chihuahua     30      1.55    63  Femenino
## 77       Chihuahua     27      2.00    75  Femenino
## 78        Coahuila     39      1.69   106  Femenino
## 79         Jalisco     59      1.84   109 Masculino
## 80         Durango     42      1.75    97  Femenino

Agrupación de datos

Se va a trabajar únicamente sobre los datos cuantitativos del conjunto de datos, es decir sobre las variables edades, estaturas y pesos respectivamente.

Variable Edades

Con la función fdt() habiendo cargado la librería o el paquete fdth() se pueden generar las clases para la variable edades.

Se utiliza la expresión as.data.frame(frecuencia.edades$table) combinado la función as.data.frame() que significa que se transforma a tipo de datos ya conocido data.frame y con la función table() convierte a tabla la variable frecuencia.edades propia para tratarse como data.frame o conjunto de datos.

frecuencia.edades <- fdt(datos$edades, breaks='Sturges')
frecuencia.edades <- as.data.frame(frecuencia.edades$table)
frecuencia.edades

##      Class limits  f     rf rf(%) cf  cf(%)
## 1  [17.82,23.799)  8 0.1000 10.00  8  10.00
## 2 [23.799,29.778) 18 0.2250 22.50 26  32.50
## 3 [29.778,35.756)  8 0.1000 10.00 34  42.50
## 4 [35.756,41.735)  8 0.1000 10.00 42  52.50
## 5 [41.735,47.714) 11 0.1375 13.75 53  66.25
## 6 [47.714,53.693)  5 0.0625  6.25 58  72.50
## 7 [53.693,59.671) 12 0.1500 15.00 70  87.50
## 8  [59.671,65.65) 10 0.1250 12.50 80 100.00

Variable estaturas

Con la función fdt() habiendo cargado la librería o el paquete fdth() se pueden generar las clases para la variable estaturas.

Nuevamente se utiliza la expresión as.data.frame(frecuencia.estaturas$table) combinado tanto la función as.data.frame() que significa que se transforma a tipo de datos data.frame y con la función table() convierte a tabla la variable frecuencia.edades propia para tratarse como data.frame o conjunto de datos.

frecuencia.estaturas=fdt(datos$estaturas, breaks='Sturges')
frecuencia.estaturas=as.data.frame(frecuencia.estaturas$table)
frecuencia.estaturas

##    Class limits  f     rf rf(%) cf  cf(%)
## 1 [1.465,1.541) 10 0.1250 12.50 10  12.50
## 2 [1.541,1.617) 10 0.1250 12.50 20  25.00
## 3 [1.617,1.692) 16 0.2000 20.00 36  45.00
## 4 [1.692,1.768) 11 0.1375 13.75 47  58.75
## 5 [1.768,1.844) 14 0.1750 17.50 61  76.25
## 6 [1.844,1.919)  9 0.1125 11.25 70  87.50
## 7 [1.919,1.995)  5 0.0625  6.25 75  93.75
## 8 [1.995,2.071)  5 0.0625  6.25 80 100.00

Variable pesos

Y finalmente, de la misma manera se utiliza la función fdt() generar las clases para la variable pesos.

Se utiliza la expresión as.data.frame(frecuencia.estaturas$table) combinado tanto la función as.data.frame() que significa que se transforma a tipo de datos data.frame y con la función table() convierte a tabla la variable frecuencia.pesos pra que sea más fácil tratar los datos como una estructura data.frame o conjunto de datos de renglones y columnas.

Se puede verifica en el espacio de las variable de entorno de R Studio el tipo de datos

frecuencia.pesos=fdt(datos$pesos, breaks='Sturges')
frecuencia.pesos=as.data.frame(frecuencia.pesos$table)
frecuencia.pesos

##     Class limits  f     rf rf(%) cf  cf(%)
## 1 [45.54,53.735)  6 0.0750  7.50  6   7.50
## 2 [53.735,61.93)  9 0.1125 11.25 15  18.75
## 3 [61.93,70.125) 13 0.1625 16.25 28  35.00
## 4 [70.125,78.32) 14 0.1750 17.50 42  52.50
## 5 [78.32,86.515) 10 0.1250 12.50 52  65.00
## 6 [86.515,94.71)  8 0.1000 10.00 60  75.00
## 7 [94.71,102.91)  8 0.1000 10.00 68  85.00
## 8 [102.91,111.1) 12 0.1500 15.00 80 100.00

Visualización de datos

Histograma y densidad de la variable edades

hist(datos$edades)

plot(density(datos$edades))

Digrama de tallo y hoja de la variable edades

Se ordenan los datos$edades y se muestra el diagrama de tallo y hoja solo para verificar la frecuencia en los datos ordenados.

datos$edades[order(datos$edades)]

##  [1] 18 18 19 21 22 23 23 23 24 24 24 25 25 25 26 26 26 26 26 27 27 27 27 28 28
## [26] 28 30 30 30 30 31 34 34 35 37 38 38 39 39 39 41 41 42 42 43 44 44 44 44 45
## [51] 46 46 46 48 53 53 53 53 54 55 55 55 55 57 57 58 58 59 59 59 60 60 62 62 63
## [76] 63 64 64 65 65

stem(datos$edades, scale = 4)

## 
##   The decimal point is at the |
## 
##   18 | 000
##   20 | 0
##   22 | 0000
##   24 | 000000
##   26 | 000000000
##   28 | 000
##   30 | 00000
##   32 | 
##   34 | 000
##   36 | 0
##   38 | 00000
##   40 | 00
##   42 | 000
##   44 | 00000
##   46 | 000
##   48 | 0
##   50 | 
##   52 | 0000
##   54 | 00000
##   56 | 00
##   58 | 00000
##   60 | 00
##   62 | 0000
##   64 | 0000

Histograma y densidad de la variable pesos

hist(datos$pesos)

plot(density(datos$pesos))

Diagrama de tallo

datos$pesos[order(datos$pesos)]

##  [1]  46  49  51  51  52  53  54  55  55  56  56  57  57  58  59  62  62  63  63
## [20]  63  63  63  64  66  67  69  70  70  71  71  71  72  73  73  74  75  75  75
## [39]  76  76  78  78  79  80  83  83  84  84  85  86  86  86  88  88  89  90  92
## [58]  93  93  94  95  97  97  98  98  98  98  99 103 104 105 106 106 106 107 107
## [77] 108 109 109 110

stem(datos$edades, scale=2)

## 
##   The decimal point is at the |
## 
##   18 | 000
##   20 | 0
##   22 | 0000
##   24 | 000000
##   26 | 000000000
##   28 | 000
##   30 | 00000
##   32 | 
##   34 | 000
##   36 | 0
##   38 | 00000
##   40 | 00
##   42 | 000
##   44 | 00000
##   46 | 000
##   48 | 0
##   50 | 
##   52 | 0000
##   54 | 00000
##   56 | 00
##   58 | 00000
##   60 | 00
##   62 | 0000
##   64 | 0000

Histograma y densidad Variable estaturas

hist(datos$estaturas)

plot(density(datos$estaturas))

Diagrama de tallo y hoja variable estaturas

datos$estaturas[order(datos$estaturas)]

##  [1] 1.48 1.49 1.49 1.51 1.51 1.52 1.52 1.53 1.54 1.54 1.55 1.55 1.55 1.56 1.56
## [16] 1.57 1.57 1.59 1.60 1.60 1.62 1.62 1.62 1.63 1.63 1.64 1.64 1.65 1.65 1.67
## [31] 1.67 1.69 1.69 1.69 1.69 1.69 1.70 1.71 1.71 1.71 1.72 1.72 1.73 1.73 1.73
## [46] 1.75 1.75 1.77 1.77 1.78 1.78 1.78 1.79 1.79 1.80 1.80 1.80 1.82 1.83 1.83
## [61] 1.84 1.86 1.86 1.86 1.87 1.88 1.88 1.88 1.88 1.88 1.94 1.95 1.96 1.96 1.97
## [76] 2.00 2.00 2.00 2.02 2.05

stem(datos$edades, scale = 2)

## 
##   The decimal point is at the |
## 
##   18 | 000
##   20 | 0
##   22 | 0000
##   24 | 000000
##   26 | 000000000
##   28 | 000
##   30 | 00000
##   32 | 
##   34 | 000
##   36 | 0
##   38 | 00000
##   40 | 00
##   42 | 000
##   44 | 00000
##   46 | 000
##   48 | 0
##   50 | 
##   52 | 0000
##   54 | 00000
##   56 | 00
##   58 | 00000
##   60 | 00
##   62 | 0000
##   64 | 0000

Histograma y densidad de la variable pesos

hist(datos$pesos)

plot(density(datos$pesos))

Interpretación del caso

De la variable edades:

Al realizar este caso y aplicando las distintas formulas y herramientas se analizaron datos cuantitativos inventados o simulados sobre la estatura, edad y el peso de 80 individuos, obtenemos que los datos simulados la edad menor registrada es de 18 años y la mayor registrada es de 65.

El rango de la variable edades es de:

range(datos$edades)

## [1] 18 65

por lo que el rango surge de la operacion de 65 - 18 lo que da resultado de 47.

Segun los datos arrojados por el histograma nos dice que el numero total de clases es de 10 y la clase con mayor frecuencia es la clase numero 3 (de 25 a 30) con una frecuencia mayor a 15 y la tabla de frecuencias nos arroja que contamos con 8 clases y la clase con mayor frecuencia fue la 2 (con limites de clases de 23.799, 29.778) con una frecuencia de 18.

Existen distintas formulas para obtener el numero de clases y su rango, tal es el ejemplo de la formula de Sturges la cual nos ofrece una formula para obtener el numero de clases y su rango, dichas formulas se encuentran en el apartado de “Marco Teorico” de este documento.

La relacion entre el histograma y el diagrama de tallo y hoja es que ambos nos muestran de manera grafica la agrupación de datos con la cantidad de frecuencias de cada clase.

De la variable estaturas.

Con los datos simulados de la estatura de los 80 individuos obtenemos que en la tabla de frecuencia la clase con mayor cantidad es la clase 3 (con limites de clase 1.617, 1.692) y en el histograma la clase con mayor frecuencia es la 4 (de 1.7 a 1.8) con una frecuencia de 20.

De la variable pesos.

Con los datos simulados sobre el peso de los 80 individuos obtenemos que en la tabla de frecuencia la clase con mayor cantidad es la clase 4 (con limites de clase 70.125, 78.32) y en el histograma la clase con mayor frecuencia es la 4 (de 70 a 80) con una frecuencia de mayor a 15.

Este caso me dejo muchos conocimientos nuevos respecto a la materia de probabilidad y estadistica y del uso del codigo R, aprendi a usar, interpretar y generar distintas graficas nuevas como lo es el Histograma y el diagrama de tallo y hoja, ademas, aprendi sobre nuevas formulas como lo es la Regla de Sturges.

Referencias Bibliograficas.

Anderson, David R., Dennis J. Sweeney, and Thomas A. Williams. 2008. Estadística Para Administración y Economía. 10th ed. Australia • Brasil • Corea • España • Estados Unidos • Japón • México • Reino Unido • Singapur: Cengage Learning,.

Mendenhall, William, Robert J. Beaver, and Barbara M. Beaver. 2010. Introducción a La Probabilidad y Estadística. 13th ed. Cengage Learning Editores, S.A. de C.V.,.

Soto Espinosa, Juan Luis. 2020. “Statistics and Health at Work Descriptive Statistics (i): Variables and Frequencies.” RIST. Revista de Investigación, July. https://rist.zaragoza.unam.mx/index.php/rist/article/view/232/173.

Caso 3. Agrupacion de datos. Frecuencias, histograma, tallo y hoja. Personas Edades, Pesos y Estaturas

Jazveck Torres Esparza

1/3/2021

Objetivo

Descripcion

Marco teórico

Grafica para datos cuantitativos

Grafica de Barras

Grafica de Lineas

Histograma

Grafico de tallo y hoja

Regla de Sturges

Regla de Scott para clases

Regla de FD para clases

Desarrollo

Cargar Libreria

Cargar o crear el conjunto de los datos

Las Variables:

Las Funciones:

Agrupación de datos

Variable Edades

Variable estaturas

Variable pesos

Visualización de datos

Histograma y densidad de la variable edades

Digrama de tallo y hoja de la variable edades

Histograma y densidad de la variable pesos

Diagrama de tallo

Histograma y densidad Variable estaturas

Diagrama de tallo y hoja variable estaturas

Histograma y densidad de la variable pesos

Interpretación del caso

De la variable edades:

De la variable estaturas.

De la variable pesos.

Referencias Bibliograficas.