Objetivo

Analizar y describir datos mediante técnicas de agrupación para datos cuantitativos y visualizar gráficamente a través de histogramas y gráficas de tallo y hoja.

Descripción

Crear un conjunto de datos de personas con variables tales como la edad, peso, estatura como datos cualitativos y el género y estado de la República Mexicana con valores cualitativos.

Se usarán solo los valores cuantitativos la edad, el peso y la estatura para describir frecuencias, y visualizar mediante histograma y gráfico de tallo y hoja .

En el marco de referencia inicialmente se identifican conceptos y ejemplos de la descripción de datos cuantitativos para tablas frecuencias y visualización gráfica de los datos.

Al final se muestra una interpretación a preguntas específicas del caso con apreciaciones del autor.

Marco teórico

En el caso 1 y 2 se presentó una descripción para datos cualitativos, siendo estas variables cualitativas producen datos que se pueden clasificar de acuerdo a similitudes o diferencias en clase; por lo tanto, con frecuencia se denominan datos categóricos.

Las variables como género de una persona, año de nacimiento o especialidad de un estudiante son variables cualitativas que producen datos categóricos. (Mendenhall, Beaver, and Beaver 2010a).

Entonces las variables cualitativas miden una cualidad o característica en cada unidad experimental. Las variables cuantitativas miden una cantidad numérica en cada unidad experimental. (Mendenhall, Beaver, and Beaver 2010b).

Las variables cuantitativas, con frecuencia representadas por la letra x, producen datos numéricos, por ejemplo estos:

x= tasa preferencial de interés

x= número de pasajeros en un vuelo de Los Ángeles a Nueva York

x= peso de un paquete listo para ser enviado

x= volumen de jugo de naranja en un vaso

x= edad de una persona

x= estatura de una persona

x= peso de una persona

En las anteriores variables existe que una diferencia en los tipos de valores numéricos que pueden tomar estas variables cuantitativas. El número de pasajeros, por ejemplo, puede tomar sólo los valores x=0,1,2,…n, mientras que el peso de un paquete o estatura de una persona puede tomar cualquier valor mayor a cero, o sea 0<x<∞.

Para describir esta diferencia, definimos dos tipos de variables cuantitativas: discretas y continuas.

A una variable aleatoria que asuma ya sea un número finito de valores o una sucesión infinita de valores tales como x=0,1,2,…n¨, se le llama variable aleatoria discreta. (Anderson, Sweeney, and Williams 2008a).

A una variable que puede tomar cualquier valor numérico dentro de un intervalo o colección de intervalos se le llama variable aleatoria continua. 0<x<∞.(Anderson, Sweeney, and Williams 2008b).

El nombre de discreta se refiere a las brechas discretas entre los posibles valores que la variable puede tomar. Variables como el número de miembros de una familia, el número de ventas de autos nuevos y el número de llantas defectuosas devueltas para cambio son todos ellos ejemplos de variables discretas. Por el contrario, variables como la estatura, peso, tiempo, distancia y volumen son continuas porque pueden tomar valores en cualquier punto a lo largo de un intervalo de recta. (Mendenhall, Beaver, and Beaver 2010b).

La imagen siguiente apoya lo anteriormete descrito para variables cualitativas y cuantitativas discretas y continuas.

Tipos de datos(Mendenhall, Beaver, and Beaver 2010c)

graficas para datos cuantitativos

carreras <- c("Arquitectura", "Civil", "Sistemas", "TIC", "Gestión")
inscritos <- c(820, 650, 320, 50, 608)
datos <- data.frame(carreras, inscritos)
datos
##       carreras inscritos
## 1 Arquitectura       820
## 2        Civil       650
## 3     Sistemas       320
## 4          TIC        50
## 5      Gestión       608
barplot(height = datos$inscritos, names.arg = datos$carreras)

grafica de lineas

años <- c('1980', '1990', '2000', '2010', '2020')
poblacion <- c(90.00, 95.65,100.26, 112.33, 126.01)

  
datos <- data.frame(años, poblacion)
datos
##   años poblacion
## 1 1980     90.00
## 2 1990     95.65
## 3 2000    100.26
## 4 2010    112.33
## 5 2020    126.01
plot(x=datos$años, y=datos$poblacion, type="b", xlab="Años", ylab="Población")

histograma

edades <- c(15, 16, 16, 14, 15, 19, 21, 22, 23, 23, 24, 25, 24, 25, 22, 23, 17, 18, 19, 17, 16, 20, 21, 22, 23, 24, 25, 23, 24, 20)
length(edades)
## [1] 30
hist(edades, main = "Frecuencia  de edades", xlab = "Edades", ylab = "Frecuencia")

plot(density(edades))

edades[order(edades)]
##  [1] 14 15 15 16 16 16 17 17 18 19 19 20 20 21 21 22 22 22 23 23 23 23 23 24 24
## [26] 24 24 25 25 25

grafica de tallo y hoja

stem(x = edades, scale = 1)
## 
##   The decimal point is at the |
## 
##   14 | 000
##   16 | 00000
##   18 | 000
##   20 | 0000
##   22 | 00000000
##   24 | 0000000
stem(x = edades, scale = 2)
## 
##   The decimal point is at the |
## 
##   14 | 0
##   15 | 00
##   16 | 000
##   17 | 00
##   18 | 0
##   19 | 00
##   20 | 00
##   21 | 00
##   22 | 000
##   23 | 00000
##   24 | 0000
##   25 | 000

desarrollo

library(fdth)
## 
## Attaching package: 'fdth'
## The following objects are masked from 'package:stats':
## 
##     sd, var

cargar los datos

set.seed(1234)
estados <- c('Durango', 'Jalisco', 'Nuevo León', 
             'Baja California', 'Coahuila', 
             'Chihuahua')
estados
## [1] "Durango"         "Jalisco"         "Nuevo León"      "Baja California"
## [5] "Coahuila"        "Chihuahua"

convertir los estados a tipo factor

estados <- factor(estados)
estados
## [1] Durango         Jalisco         Nuevo León      Baja California
## [5] Coahuila        Chihuahua      
## Levels: Baja California Chihuahua Coahuila Durango Jalisco Nuevo León

vector de entidades

entidades <- sample(x = estados, size=80, replace = TRUE)
entidades
##  [1] Baja California Jalisco         Chihuahua       Coahuila       
##  [5] Baja California Durango         Coahuila        Chihuahua      
##  [9] Baja California Jalisco         Chihuahua       Jalisco        
## [13] Chihuahua       Chihuahua       Baja California Chihuahua      
## [17] Chihuahua       Chihuahua       Baja California Baja California
## [21] Coahuila        Baja California Nuevo León      Baja California
## [25] Coahuila        Jalisco         Coahuila        Jalisco        
## [29] Chihuahua       Nuevo León      Baja California Baja California
## [33] Nuevo León      Durango         Nuevo León      Chihuahua      
## [37] Baja California Jalisco         Nuevo León      Jalisco        
## [41] Coahuila        Chihuahua       Durango         Chihuahua      
## [45] Nuevo León      Chihuahua       Durango         Coahuila       
## [49] Durango         Durango         Jalisco         Durango        
## [53] Nuevo León      Jalisco         Chihuahua       Nuevo León     
## [57] Durango         Nuevo León      Chihuahua       Durango        
## [61] Jalisco         Chihuahua       Coahuila        Durango        
## [65] Nuevo León      Nuevo León      Jalisco         Coahuila       
## [69] Jalisco         Chihuahua       Baja California Baja California
## [73] Durango         Coahuila        Nuevo León      Chihuahua      
## [77] Coahuila        Nuevo León      Baja California Baja California
## Levels: Baja California Chihuahua Coahuila Durango Jalisco Nuevo León

crear las edades de las personas entre 18 y 65 años

edades <- sample(x = 18:65, size=80, replace = TRUE)
edades
##  [1] 18 53 45 36 26 47 34 55 39 23 38 38 49 30 34 19 23 19 33 28 53 52 43 53 38
## [26] 59 55 23 26 60 36 39 63 57 46 62 33 19 55 41 47 60 23 47 36 32 39 31 40 36
## [51] 36 24 26 65 57 52 43 33 39 40 45 51 54 65 38 58 52 57 20 25 36 21 37 36 24
## [76] 49 34 42 52 19

estaturas de personas entre 1.45 y 2.05 mts

estaturas <- sample(x = 145:205, size=80, replace = TRUE)
estaturas <- estaturas / 100
estaturas
##  [1] 1.81 1.91 1.91 1.74 1.54 1.66 2.01 1.93 1.79 1.69 1.60 1.53 1.64 1.56 1.81
## [16] 1.61 1.47 1.91 1.66 1.81 1.82 1.62 1.74 1.63 1.62 1.67 1.87 1.92 1.75 1.50
## [31] 1.51 1.52 1.48 1.87 2.05 1.59 1.61 1.87 1.83 1.86 1.68 1.87 1.79 2.02 1.62
## [46] 1.55 2.00 1.77 1.52 1.52 1.66 1.86 1.81 1.96 1.56 1.86 1.64 1.77 2.05 1.98
## [61] 1.50 2.03 1.47 1.80 1.80 1.55 1.79 1.77 1.95 1.73 1.45 1.74 2.01 1.72 1.88
## [76] 2.05 1.63 1.54 1.65 1.57

pesos de personas de enetre 45 y 110 kg

pesos <- sample(x = 45:110, size=80, replace = TRUE)

pesos
##  [1]  73  77  89  54  75 110  97  58  82  81  76  90 104  96  77  59  78  69  94
## [20]  88  81 110 110  49  96  81  99  71  82  68 100  49  96  82  67 104  57  72
## [39]  46  80  64  46  61  54  90  85  71  74 103  77 104  93  91  91  48 104  58
## [58]  90  61  86  92  99  61  58  59  83  97  71  97  82  57 105  98  96  95  60
## [77]  80  57  58  85

vector de generos masculino y femenino

generos <- sample(x = factor(c("Femeninos", "Masculinos")), size=80, replace = TRUE)
generos
##  [1] Femeninos  Masculinos Femeninos  Masculinos Masculinos Masculinos
##  [7] Femeninos  Masculinos Masculinos Femeninos  Femeninos  Femeninos 
## [13] Masculinos Femeninos  Femeninos  Femeninos  Femeninos  Femeninos 
## [19] Femeninos  Masculinos Femeninos  Masculinos Femeninos  Femeninos 
## [25] Femeninos  Masculinos Masculinos Femeninos  Masculinos Masculinos
## [31] Masculinos Masculinos Femeninos  Masculinos Femeninos  Femeninos 
## [37] Femeninos  Femeninos  Masculinos Femeninos  Femeninos  Masculinos
## [43] Masculinos Masculinos Masculinos Femeninos  Masculinos Femeninos 
## [49] Femeninos  Femeninos  Masculinos Masculinos Femeninos  Masculinos
## [55] Masculinos Femeninos  Femeninos  Masculinos Masculinos Masculinos
## [61] Femeninos  Femeninos  Masculinos Masculinos Femeninos  Femeninos 
## [67] Masculinos Masculinos Femeninos  Masculinos Femeninos  Femeninos 
## [73] Femeninos  Femeninos  Femeninos  Masculinos Masculinos Femeninos 
## [79] Masculinos Femeninos 
## Levels: Femeninos Masculinos
datos <- data.frame(entidades, edades, estaturas, pesos, generos)
datos
##          entidades edades estaturas pesos    generos
## 1  Baja California     18      1.81    73  Femeninos
## 2          Jalisco     53      1.91    77 Masculinos
## 3        Chihuahua     45      1.91    89  Femeninos
## 4         Coahuila     36      1.74    54 Masculinos
## 5  Baja California     26      1.54    75 Masculinos
## 6          Durango     47      1.66   110 Masculinos
## 7         Coahuila     34      2.01    97  Femeninos
## 8        Chihuahua     55      1.93    58 Masculinos
## 9  Baja California     39      1.79    82 Masculinos
## 10         Jalisco     23      1.69    81  Femeninos
## 11       Chihuahua     38      1.60    76  Femeninos
## 12         Jalisco     38      1.53    90  Femeninos
## 13       Chihuahua     49      1.64   104 Masculinos
## 14       Chihuahua     30      1.56    96  Femeninos
## 15 Baja California     34      1.81    77  Femeninos
## 16       Chihuahua     19      1.61    59  Femeninos
## 17       Chihuahua     23      1.47    78  Femeninos
## 18       Chihuahua     19      1.91    69  Femeninos
## 19 Baja California     33      1.66    94  Femeninos
## 20 Baja California     28      1.81    88 Masculinos
## 21        Coahuila     53      1.82    81  Femeninos
## 22 Baja California     52      1.62   110 Masculinos
## 23      Nuevo León     43      1.74   110  Femeninos
## 24 Baja California     53      1.63    49  Femeninos
## 25        Coahuila     38      1.62    96  Femeninos
## 26         Jalisco     59      1.67    81 Masculinos
## 27        Coahuila     55      1.87    99 Masculinos
## 28         Jalisco     23      1.92    71  Femeninos
## 29       Chihuahua     26      1.75    82 Masculinos
## 30      Nuevo León     60      1.50    68 Masculinos
## 31 Baja California     36      1.51   100 Masculinos
## 32 Baja California     39      1.52    49 Masculinos
## 33      Nuevo León     63      1.48    96  Femeninos
## 34         Durango     57      1.87    82 Masculinos
## 35      Nuevo León     46      2.05    67  Femeninos
## 36       Chihuahua     62      1.59   104  Femeninos
## 37 Baja California     33      1.61    57  Femeninos
## 38         Jalisco     19      1.87    72  Femeninos
## 39      Nuevo León     55      1.83    46 Masculinos
## 40         Jalisco     41      1.86    80  Femeninos
## 41        Coahuila     47      1.68    64  Femeninos
## 42       Chihuahua     60      1.87    46 Masculinos
## 43         Durango     23      1.79    61 Masculinos
## 44       Chihuahua     47      2.02    54 Masculinos
## 45      Nuevo León     36      1.62    90 Masculinos
## 46       Chihuahua     32      1.55    85  Femeninos
## 47         Durango     39      2.00    71 Masculinos
## 48        Coahuila     31      1.77    74  Femeninos
## 49         Durango     40      1.52   103  Femeninos
## 50         Durango     36      1.52    77  Femeninos
## 51         Jalisco     36      1.66   104 Masculinos
## 52         Durango     24      1.86    93 Masculinos
## 53      Nuevo León     26      1.81    91  Femeninos
## 54         Jalisco     65      1.96    91 Masculinos
## 55       Chihuahua     57      1.56    48 Masculinos
## 56      Nuevo León     52      1.86   104  Femeninos
## 57         Durango     43      1.64    58  Femeninos
## 58      Nuevo León     33      1.77    90 Masculinos
## 59       Chihuahua     39      2.05    61 Masculinos
## 60         Durango     40      1.98    86 Masculinos
## 61         Jalisco     45      1.50    92  Femeninos
## 62       Chihuahua     51      2.03    99  Femeninos
## 63        Coahuila     54      1.47    61 Masculinos
## 64         Durango     65      1.80    58 Masculinos
## 65      Nuevo León     38      1.80    59  Femeninos
## 66      Nuevo León     58      1.55    83  Femeninos
## 67         Jalisco     52      1.79    97 Masculinos
## 68        Coahuila     57      1.77    71 Masculinos
## 69         Jalisco     20      1.95    97  Femeninos
## 70       Chihuahua     25      1.73    82 Masculinos
## 71 Baja California     36      1.45    57  Femeninos
## 72 Baja California     21      1.74   105  Femeninos
## 73         Durango     37      2.01    98  Femeninos
## 74        Coahuila     36      1.72    96  Femeninos
## 75      Nuevo León     24      1.88    95  Femeninos
## 76       Chihuahua     49      2.05    60 Masculinos
## 77        Coahuila     34      1.63    80 Masculinos
## 78      Nuevo León     42      1.54    57  Femeninos
## 79 Baja California     52      1.65    58 Masculinos
## 80 Baja California     19      1.57    85  Femeninos

agrupacion de datos

variable edades

frecuencia.edades <- fdt(datos$edades, breaks='Sturges')
frecuencia.edades <- as.data.frame(frecuencia.edades$table)
frecuencia.edades
##      Class limits  f     rf rf(%) cf  cf(%)
## 1  [17.82,23.799) 11 0.1375 13.75 11  13.75
## 2 [23.799,29.778)  7 0.0875  8.75 18  22.50
## 3 [29.778,35.756)  9 0.1125 11.25 27  33.75
## 4 [35.756,41.735) 19 0.2375 23.75 46  57.50
## 5 [41.735,47.714)  9 0.1125 11.25 55  68.75
## 6 [47.714,53.693) 10 0.1250 12.50 65  81.25
## 7 [53.693,59.671)  9 0.1125 11.25 74  92.50
## 8  [59.671,65.65)  6 0.0750  7.50 80 100.00

variable estaturas

frecuencia.estaturas <- fdt(datos$estaturas)
frecuencia.estaturas <- as.data.frame(frecuencia.estaturas$table)
frecuencia.estaturas
##    Class limits  f     rf rf(%) cf  cf(%)
## 1 [1.435,1.515)  7 0.0875  8.75  7   8.75
## 2 [1.515,1.594) 12 0.1500 15.00 19  23.75
## 3 [1.594,1.674) 15 0.1875 18.75 34  42.50
## 4 [1.674,1.753)  8 0.1000 10.00 42  52.50
## 5 [1.753,1.832) 14 0.1750 17.50 56  70.00
## 6 [1.832,1.912) 11 0.1375 13.75 67  83.75
## 7 [1.912,1.991)  5 0.0625  6.25 72  90.00
## 8 [1.991,2.071)  8 0.1000 10.00 80 100.00

variable pesos

frecuencia.pesos <- fdt(datos$pesos)
frecuencia.pesos <- as.data.frame(frecuencia.pesos$table)
frecuencia.pesos
##     Class limits  f     rf rf(%) cf  cf(%)
## 1 [45.54,53.735)  5 0.0625  6.25  5   6.25
## 2 [53.735,61.93) 15 0.1875 18.75 20  25.00
## 3 [61.93,70.125)  4 0.0500  5.00 24  30.00
## 4 [70.125,78.32) 12 0.1500 15.00 36  45.00
## 5 [78.32,86.515) 13 0.1625 16.25 49  61.25
## 6 [86.515,94.71) 10 0.1250 12.50 59  73.75
## 7 [94.71,102.91) 12 0.1500 15.00 71  88.75
## 8 [102.91,111.1)  9 0.1125 11.25 80 100.00

histograma y densidad de la variable edades

hist(datos$edades)

plot(density(datos$edades))

diagrama de tallo y hoja de la variable edades

datos$edades[order(datos$edades)] # Ordenados
##  [1] 18 19 19 19 19 20 21 23 23 23 23 24 24 25 26 26 26 28 30 31 32 33 33 33 34
## [26] 34 34 36 36 36 36 36 36 36 37 38 38 38 38 39 39 39 39 40 40 41 42 43 43 45
## [51] 45 46 47 47 47 49 49 51 52 52 52 52 53 53 53 54 55 55 55 57 57 57 58 59 60
## [76] 60 62 63 65 65
stem(datos$edades, scale = 1)
## 
##   The decimal point is 1 digit(s) to the right of the |
## 
##   1 | 89999
##   2 | 01333344
##   2 | 56668
##   3 | 012333444
##   3 | 6666666788889999
##   4 | 001233
##   4 | 55677799
##   5 | 122223334
##   5 | 55577789
##   6 | 0023
##   6 | 55

histograma y densidad de la variable estaturas

hist(datos$estaturas)

plot(density(datos$estaturas))

histograma y densidad de la variable pesos

hist(datos$pesos)

plot(density(datos$pesos))

Interpretación del caso

De la variable edades: # ¿Cuál es la menor y mayor edad registrada? menor: 18 mayor: 65

¿Cuál es el rango de edades?

entre 18 a 65 años

¿Cuántas clases se generaron? de acuerdo a la tabla de frecuencia y al

histograma respectivamente. 8

¿Cuáles es el rango de cada clase y como se demuestran o generan

matemáticamente?. Sturges, Scott y FD

sturges: con la formula que demustre que k es una constante y n que recoga la muestra y con base a esa formula se hace la comprobacion matematica

¿Cuál es la clase con mayor frecuencia de edades de acuerdo a la tabla

de frecuencias? la clase 4

¿Cuál es la clase con mayor frecuencia de edades de acuerdo al

histograma 4

¿Que relación hay entre histograma y diagrama de tallo y hoja?

que usan las mismas escalas

De la variable estaturas:

Cuál es la clase con mayor frecuencia de edades de aacuerdo a la tabla de frecuencias?

3

¿Cuál es la clase con mayor frecuencia de edades de acuerdo al

histograma? 3

De la variable pesos: Referencias Bibliográficas Soto Espinosa, Juan Luis. 2020. “Statistics and Health at Work Descriptive Statistics (i): Variables and Frequencies.” RIST. Revista de Investigación, July. https://rist.zaragoza.unam.mx/index.php/rist/article/view/232/173.