Analizar y describir datos mediante técnicas de agrupación para datos cuantitativos y visualizar gráficamente a través de histogramas y gráficas de tallo y hoja.
Crear un conjunto de datos de personas con variables tales como la edad, peso, estatura como datos cualitativos y el género y estado de la República Mexicana con valores cualitativos.
Se usarán solo los valores cuantitativos la edad, el peso y la estatura para describir frecuencias, y visualizar mediante histograma y gráfico de tallo y hoja .
En el marco de referencia inicialmente se identifican conceptos y ejemplos de la descripción de datos cuantitativos para tablas frecuencias y visualización gráfica de los datos.
Al final se muestra una interpretación a preguntas específicas del caso con apreciaciones del autor.
En el caso 1 y 2 se presentó una descripción para datos cualitativos, siendo estas variables cualitativas producen datos que se pueden clasificar de acuerdo a similitudes o diferencias en clase; por lo tanto, con frecuencia se denominan datos categóricos.
Las variables como género de una persona, año de nacimiento o especialidad de un estudiante son variables cualitativas que producen datos categóricos. (Mendenhall, Beaver, and Beaver 2010a).
Entonces las variables cualitativas miden una cualidad o característica en cada unidad experimental. Las variables cuantitativas miden una cantidad numérica en cada unidad experimental. (Mendenhall, Beaver, and Beaver 2010b).
Las variables cuantitativas, con frecuencia representadas por la letra x, producen datos numéricos, por ejemplo estos:
x= tasa preferencial de interés
x= número de pasajeros en un vuelo de Los Ángeles a Nueva York
x= peso de un paquete listo para ser enviado
x= volumen de jugo de naranja en un vaso
x= edad de una persona
x= estatura de una persona
x= peso de una persona
En las anteriores variables existe que una diferencia en los tipos de valores numéricos que pueden tomar estas variables cuantitativas. El número de pasajeros, por ejemplo, puede tomar sólo los valores x=0,1,2,…n, mientras que el peso de un paquete o estatura de una persona puede tomar cualquier valor mayor a cero, o sea 0<x<∞.
Para describir esta diferencia, definimos dos tipos de variables cuantitativas: discretas y continuas.
A una variable aleatoria que asuma ya sea un número finito de valores o una sucesión infinita de valores tales como x=0,1,2,…n¨, se le llama variable aleatoria discreta. (Anderson, Sweeney, and Williams 2008a).
A una variable que puede tomar cualquier valor numérico dentro de un intervalo o colección de intervalos se le llama variable aleatoria continua. 0<x<∞.(Anderson, Sweeney, and Williams 2008b).
El nombre de discreta se refiere a las brechas discretas entre los posibles valores que la variable puede tomar. Variables como el número de miembros de una familia, el número de ventas de autos nuevos y el número de llantas defectuosas devueltas para cambio son todos ellos ejemplos de variables discretas. Por el contrario, variables como la estatura, peso, tiempo, distancia y volumen son continuas porque pueden tomar valores en cualquier punto a lo largo de un intervalo de recta. (Mendenhall, Beaver, and Beaver 2010b).
La imagen siguiente apoya lo anteriormete descrito para variables cualitativas y cuantitativas discretas y continuas.
Tipos de datos(Mendenhall, Beaver, and Beaver 2010c)
carreras <- c("Arquitectura", "Civil", "Sistemas", "TIC", "Gestión")
inscritos <- c(820, 650, 320, 50, 608)
datos <- data.frame(carreras, inscritos)
datos
## carreras inscritos
## 1 Arquitectura 820
## 2 Civil 650
## 3 Sistemas 320
## 4 TIC 50
## 5 Gestión 608
barplot(height = datos$inscritos, names.arg = datos$carreras)
años <- c('1980', '1990', '2000', '2010', '2020')
poblacion <- c(90.00, 95.65,100.26, 112.33, 126.01)
datos <- data.frame(años, poblacion)
datos
## años poblacion
## 1 1980 90.00
## 2 1990 95.65
## 3 2000 100.26
## 4 2010 112.33
## 5 2020 126.01
plot(x=datos$años, y=datos$poblacion, type="b", xlab="Años", ylab="Población")
edades <- c(15, 16, 16, 14, 15, 19, 21, 22, 23, 23, 24, 25, 24, 25, 22, 23, 17, 18, 19, 17, 16, 20, 21, 22, 23, 24, 25, 23, 24, 20)
length(edades)
## [1] 30
hist(edades, main = "Frecuencia de edades", xlab = "Edades", ylab = "Frecuencia")
plot(density(edades))
edades[order(edades)]
## [1] 14 15 15 16 16 16 17 17 18 19 19 20 20 21 21 22 22 22 23 23 23 23 23 24 24
## [26] 24 24 25 25 25
stem(x = edades, scale = 1)
##
## The decimal point is at the |
##
## 14 | 000
## 16 | 00000
## 18 | 000
## 20 | 0000
## 22 | 00000000
## 24 | 0000000
stem(x = edades, scale = 2)
##
## The decimal point is at the |
##
## 14 | 0
## 15 | 00
## 16 | 000
## 17 | 00
## 18 | 0
## 19 | 00
## 20 | 00
## 21 | 00
## 22 | 000
## 23 | 00000
## 24 | 0000
## 25 | 000
library(fdth)
##
## Attaching package: 'fdth'
## The following objects are masked from 'package:stats':
##
## sd, var
set.seed(1234)
estados <- c('Durango', 'Jalisco', 'Nuevo León',
'Baja California', 'Coahuila',
'Chihuahua')
estados
## [1] "Durango" "Jalisco" "Nuevo León" "Baja California"
## [5] "Coahuila" "Chihuahua"
estados <- factor(estados)
estados
## [1] Durango Jalisco Nuevo León Baja California
## [5] Coahuila Chihuahua
## Levels: Baja California Chihuahua Coahuila Durango Jalisco Nuevo León
entidades <- sample(x = estados, size=80, replace = TRUE)
entidades
## [1] Baja California Jalisco Chihuahua Coahuila
## [5] Baja California Durango Coahuila Chihuahua
## [9] Baja California Jalisco Chihuahua Jalisco
## [13] Chihuahua Chihuahua Baja California Chihuahua
## [17] Chihuahua Chihuahua Baja California Baja California
## [21] Coahuila Baja California Nuevo León Baja California
## [25] Coahuila Jalisco Coahuila Jalisco
## [29] Chihuahua Nuevo León Baja California Baja California
## [33] Nuevo León Durango Nuevo León Chihuahua
## [37] Baja California Jalisco Nuevo León Jalisco
## [41] Coahuila Chihuahua Durango Chihuahua
## [45] Nuevo León Chihuahua Durango Coahuila
## [49] Durango Durango Jalisco Durango
## [53] Nuevo León Jalisco Chihuahua Nuevo León
## [57] Durango Nuevo León Chihuahua Durango
## [61] Jalisco Chihuahua Coahuila Durango
## [65] Nuevo León Nuevo León Jalisco Coahuila
## [69] Jalisco Chihuahua Baja California Baja California
## [73] Durango Coahuila Nuevo León Chihuahua
## [77] Coahuila Nuevo León Baja California Baja California
## Levels: Baja California Chihuahua Coahuila Durango Jalisco Nuevo León
edades <- sample(x = 18:65, size=80, replace = TRUE)
edades
## [1] 18 53 45 36 26 47 34 55 39 23 38 38 49 30 34 19 23 19 33 28 53 52 43 53 38
## [26] 59 55 23 26 60 36 39 63 57 46 62 33 19 55 41 47 60 23 47 36 32 39 31 40 36
## [51] 36 24 26 65 57 52 43 33 39 40 45 51 54 65 38 58 52 57 20 25 36 21 37 36 24
## [76] 49 34 42 52 19
estaturas <- sample(x = 145:205, size=80, replace = TRUE)
estaturas <- estaturas / 100
estaturas
## [1] 1.81 1.91 1.91 1.74 1.54 1.66 2.01 1.93 1.79 1.69 1.60 1.53 1.64 1.56 1.81
## [16] 1.61 1.47 1.91 1.66 1.81 1.82 1.62 1.74 1.63 1.62 1.67 1.87 1.92 1.75 1.50
## [31] 1.51 1.52 1.48 1.87 2.05 1.59 1.61 1.87 1.83 1.86 1.68 1.87 1.79 2.02 1.62
## [46] 1.55 2.00 1.77 1.52 1.52 1.66 1.86 1.81 1.96 1.56 1.86 1.64 1.77 2.05 1.98
## [61] 1.50 2.03 1.47 1.80 1.80 1.55 1.79 1.77 1.95 1.73 1.45 1.74 2.01 1.72 1.88
## [76] 2.05 1.63 1.54 1.65 1.57
pesos <- sample(x = 45:110, size=80, replace = TRUE)
pesos
## [1] 73 77 89 54 75 110 97 58 82 81 76 90 104 96 77 59 78 69 94
## [20] 88 81 110 110 49 96 81 99 71 82 68 100 49 96 82 67 104 57 72
## [39] 46 80 64 46 61 54 90 85 71 74 103 77 104 93 91 91 48 104 58
## [58] 90 61 86 92 99 61 58 59 83 97 71 97 82 57 105 98 96 95 60
## [77] 80 57 58 85
generos <- sample(x = factor(c("Femeninos", "Masculinos")), size=80, replace = TRUE)
generos
## [1] Femeninos Masculinos Femeninos Masculinos Masculinos Masculinos
## [7] Femeninos Masculinos Masculinos Femeninos Femeninos Femeninos
## [13] Masculinos Femeninos Femeninos Femeninos Femeninos Femeninos
## [19] Femeninos Masculinos Femeninos Masculinos Femeninos Femeninos
## [25] Femeninos Masculinos Masculinos Femeninos Masculinos Masculinos
## [31] Masculinos Masculinos Femeninos Masculinos Femeninos Femeninos
## [37] Femeninos Femeninos Masculinos Femeninos Femeninos Masculinos
## [43] Masculinos Masculinos Masculinos Femeninos Masculinos Femeninos
## [49] Femeninos Femeninos Masculinos Masculinos Femeninos Masculinos
## [55] Masculinos Femeninos Femeninos Masculinos Masculinos Masculinos
## [61] Femeninos Femeninos Masculinos Masculinos Femeninos Femeninos
## [67] Masculinos Masculinos Femeninos Masculinos Femeninos Femeninos
## [73] Femeninos Femeninos Femeninos Masculinos Masculinos Femeninos
## [79] Masculinos Femeninos
## Levels: Femeninos Masculinos
datos <- data.frame(entidades, edades, estaturas, pesos, generos)
datos
## entidades edades estaturas pesos generos
## 1 Baja California 18 1.81 73 Femeninos
## 2 Jalisco 53 1.91 77 Masculinos
## 3 Chihuahua 45 1.91 89 Femeninos
## 4 Coahuila 36 1.74 54 Masculinos
## 5 Baja California 26 1.54 75 Masculinos
## 6 Durango 47 1.66 110 Masculinos
## 7 Coahuila 34 2.01 97 Femeninos
## 8 Chihuahua 55 1.93 58 Masculinos
## 9 Baja California 39 1.79 82 Masculinos
## 10 Jalisco 23 1.69 81 Femeninos
## 11 Chihuahua 38 1.60 76 Femeninos
## 12 Jalisco 38 1.53 90 Femeninos
## 13 Chihuahua 49 1.64 104 Masculinos
## 14 Chihuahua 30 1.56 96 Femeninos
## 15 Baja California 34 1.81 77 Femeninos
## 16 Chihuahua 19 1.61 59 Femeninos
## 17 Chihuahua 23 1.47 78 Femeninos
## 18 Chihuahua 19 1.91 69 Femeninos
## 19 Baja California 33 1.66 94 Femeninos
## 20 Baja California 28 1.81 88 Masculinos
## 21 Coahuila 53 1.82 81 Femeninos
## 22 Baja California 52 1.62 110 Masculinos
## 23 Nuevo León 43 1.74 110 Femeninos
## 24 Baja California 53 1.63 49 Femeninos
## 25 Coahuila 38 1.62 96 Femeninos
## 26 Jalisco 59 1.67 81 Masculinos
## 27 Coahuila 55 1.87 99 Masculinos
## 28 Jalisco 23 1.92 71 Femeninos
## 29 Chihuahua 26 1.75 82 Masculinos
## 30 Nuevo León 60 1.50 68 Masculinos
## 31 Baja California 36 1.51 100 Masculinos
## 32 Baja California 39 1.52 49 Masculinos
## 33 Nuevo León 63 1.48 96 Femeninos
## 34 Durango 57 1.87 82 Masculinos
## 35 Nuevo León 46 2.05 67 Femeninos
## 36 Chihuahua 62 1.59 104 Femeninos
## 37 Baja California 33 1.61 57 Femeninos
## 38 Jalisco 19 1.87 72 Femeninos
## 39 Nuevo León 55 1.83 46 Masculinos
## 40 Jalisco 41 1.86 80 Femeninos
## 41 Coahuila 47 1.68 64 Femeninos
## 42 Chihuahua 60 1.87 46 Masculinos
## 43 Durango 23 1.79 61 Masculinos
## 44 Chihuahua 47 2.02 54 Masculinos
## 45 Nuevo León 36 1.62 90 Masculinos
## 46 Chihuahua 32 1.55 85 Femeninos
## 47 Durango 39 2.00 71 Masculinos
## 48 Coahuila 31 1.77 74 Femeninos
## 49 Durango 40 1.52 103 Femeninos
## 50 Durango 36 1.52 77 Femeninos
## 51 Jalisco 36 1.66 104 Masculinos
## 52 Durango 24 1.86 93 Masculinos
## 53 Nuevo León 26 1.81 91 Femeninos
## 54 Jalisco 65 1.96 91 Masculinos
## 55 Chihuahua 57 1.56 48 Masculinos
## 56 Nuevo León 52 1.86 104 Femeninos
## 57 Durango 43 1.64 58 Femeninos
## 58 Nuevo León 33 1.77 90 Masculinos
## 59 Chihuahua 39 2.05 61 Masculinos
## 60 Durango 40 1.98 86 Masculinos
## 61 Jalisco 45 1.50 92 Femeninos
## 62 Chihuahua 51 2.03 99 Femeninos
## 63 Coahuila 54 1.47 61 Masculinos
## 64 Durango 65 1.80 58 Masculinos
## 65 Nuevo León 38 1.80 59 Femeninos
## 66 Nuevo León 58 1.55 83 Femeninos
## 67 Jalisco 52 1.79 97 Masculinos
## 68 Coahuila 57 1.77 71 Masculinos
## 69 Jalisco 20 1.95 97 Femeninos
## 70 Chihuahua 25 1.73 82 Masculinos
## 71 Baja California 36 1.45 57 Femeninos
## 72 Baja California 21 1.74 105 Femeninos
## 73 Durango 37 2.01 98 Femeninos
## 74 Coahuila 36 1.72 96 Femeninos
## 75 Nuevo León 24 1.88 95 Femeninos
## 76 Chihuahua 49 2.05 60 Masculinos
## 77 Coahuila 34 1.63 80 Masculinos
## 78 Nuevo León 42 1.54 57 Femeninos
## 79 Baja California 52 1.65 58 Masculinos
## 80 Baja California 19 1.57 85 Femeninos
frecuencia.edades <- fdt(datos$edades, breaks='Sturges')
frecuencia.edades <- as.data.frame(frecuencia.edades$table)
frecuencia.edades
## Class limits f rf rf(%) cf cf(%)
## 1 [17.82,23.799) 11 0.1375 13.75 11 13.75
## 2 [23.799,29.778) 7 0.0875 8.75 18 22.50
## 3 [29.778,35.756) 9 0.1125 11.25 27 33.75
## 4 [35.756,41.735) 19 0.2375 23.75 46 57.50
## 5 [41.735,47.714) 9 0.1125 11.25 55 68.75
## 6 [47.714,53.693) 10 0.1250 12.50 65 81.25
## 7 [53.693,59.671) 9 0.1125 11.25 74 92.50
## 8 [59.671,65.65) 6 0.0750 7.50 80 100.00
frecuencia.estaturas <- fdt(datos$estaturas)
frecuencia.estaturas <- as.data.frame(frecuencia.estaturas$table)
frecuencia.estaturas
## Class limits f rf rf(%) cf cf(%)
## 1 [1.435,1.515) 7 0.0875 8.75 7 8.75
## 2 [1.515,1.594) 12 0.1500 15.00 19 23.75
## 3 [1.594,1.674) 15 0.1875 18.75 34 42.50
## 4 [1.674,1.753) 8 0.1000 10.00 42 52.50
## 5 [1.753,1.832) 14 0.1750 17.50 56 70.00
## 6 [1.832,1.912) 11 0.1375 13.75 67 83.75
## 7 [1.912,1.991) 5 0.0625 6.25 72 90.00
## 8 [1.991,2.071) 8 0.1000 10.00 80 100.00
frecuencia.pesos <- fdt(datos$pesos)
frecuencia.pesos <- as.data.frame(frecuencia.pesos$table)
frecuencia.pesos
## Class limits f rf rf(%) cf cf(%)
## 1 [45.54,53.735) 5 0.0625 6.25 5 6.25
## 2 [53.735,61.93) 15 0.1875 18.75 20 25.00
## 3 [61.93,70.125) 4 0.0500 5.00 24 30.00
## 4 [70.125,78.32) 12 0.1500 15.00 36 45.00
## 5 [78.32,86.515) 13 0.1625 16.25 49 61.25
## 6 [86.515,94.71) 10 0.1250 12.50 59 73.75
## 7 [94.71,102.91) 12 0.1500 15.00 71 88.75
## 8 [102.91,111.1) 9 0.1125 11.25 80 100.00
hist(datos$edades)
plot(density(datos$edades))
datos$edades[order(datos$edades)] # Ordenados
## [1] 18 19 19 19 19 20 21 23 23 23 23 24 24 25 26 26 26 28 30 31 32 33 33 33 34
## [26] 34 34 36 36 36 36 36 36 36 37 38 38 38 38 39 39 39 39 40 40 41 42 43 43 45
## [51] 45 46 47 47 47 49 49 51 52 52 52 52 53 53 53 54 55 55 55 57 57 57 58 59 60
## [76] 60 62 63 65 65
stem(datos$edades, scale = 1)
##
## The decimal point is 1 digit(s) to the right of the |
##
## 1 | 89999
## 2 | 01333344
## 2 | 56668
## 3 | 012333444
## 3 | 6666666788889999
## 4 | 001233
## 4 | 55677799
## 5 | 122223334
## 5 | 55577789
## 6 | 0023
## 6 | 55
hist(datos$estaturas)
plot(density(datos$estaturas))
hist(datos$pesos)
plot(density(datos$pesos))
De la variable edades: # ¿Cuál es la menor y mayor edad registrada? menor: 18 mayor: 65
entre 18 a 65 años
histograma respectivamente. 8
matemáticamente?. Sturges, Scott y FD
sturges: con la formula que demustre que k es una constante y n que recoga la muestra y con base a esa formula se hace la comprobacion matematica
de frecuencias? la clase 4
histograma 4
que usan las mismas escalas
3
histograma? 3
De la variable pesos: Referencias Bibliográficas Soto Espinosa, Juan Luis. 2020. “Statistics and Health at Work Descriptive Statistics (i): Variables and Frequencies.” RIST. Revista de Investigación, July. https://rist.zaragoza.unam.mx/index.php/rist/article/view/232/173.