Analizar y describir datos mediante técnicas de agrupación para valores cuantitativos con tablas de frecuencias y visualizar datos a través de histogramas y gráficas de tallo y hoja.
Crear un conjunto de datos de personas con variables tales como la edad, peso, estatura como datos cualitativos y el género y estado de la República Mexicana con valores cualitativos.
Se usarán solo los valores cuantitativos la edad, el peso y la estatura para describir frecuencias usando la función fdt() de la librería o paquete fdth(); los datos se van a visualizar gráficamente mediante histograma y gráfico de tallo y hoja.
En el marco de referencia inicialmente se identifican conceptos y ejemplos de la descripción de datos cuantitativos para tablas frecuencias y visualización gráfica de los datos.
Al final se muestra una interpretación a preguntas específicas del caso con apreciaciones del autor.
En el caso 1 y 2 se presentó una descripción para datos cualitativos, siendo estas variables cualitativas producen datos que se pueden clasificar de acuerdo a similitudes o diferencias en clase; por lo tanto, con frecuencia se denominan datos categóricos.
Las variables como género de una persona, año de nacimiento o especialidad de un estudiante son variables cualitativas que producen datos categóricos. (Mendenhall, Beaver, and Beaver 2010).
Entonces las variables cualitativas miden una cualidad o característica en cada unidad experimental. Las variables cuantitativas miden una cantidad numérica en cada unidad experimental. (Mendenhall, Beaver, and Beaver 2010).
Las variables cuantitativas, con frecuencia representadas por la letra x, producen datos numéricos, por ejemplo estos:
x= tasa preferencial de interés
x= número de pasajeros en un vuelo de Los Ángeles a Nueva York
x= peso de un paquete listo para ser enviado
x= volumen de jugo de naranja en un vaso
x= edad de una persona
x= estatura de una persona
x= peso de una persona
En las anteriores variables existe que una diferencia en los tipos de valores numéricos que pueden tomar estas variables cuantitativas. El número de pasajeros, por ejemplo, puede tomar sólo los valores x=0,1,2,…n, mientras que el peso de un paquete o estatura de una persona puede tomar cualquier valor mayor a cero, o sea 0<x<∞.
Para describir esta diferencia, definimos dos tipos de variables cuantitativas: discretas y continuas.
A una variable aleatoria que asuma ya sea un número finito de valores o una sucesión infinita de valores tales como x=0,1,2,…n¨, se le llama variable aleatoria discreta. (Anderson, Sweeney, and Williams 2008).
A una variable que puede tomar cualquier valor numérico dentro de un intervalo o colección de intervalos se le llama variable aleatoria continua. 0<x<∞.(anderson2008a?).
El nombre de discreta se refiere a las brechas discretas entre los posibles valores que la variable puede tomar. Variables como el número de miembros de una familia, el número de ventas de autos nuevos y el número de llantas defectuosas devueltas para cambio son todos ellos ejemplos de variables discretas. Por el contrario, variables como la estatura, peso, tiempo, distancia y volumen son continuas porque pueden tomar valores en cualquier punto a lo largo de un intervalo de recta. (Mendenhall, Beaver, and Beaver 2010).
La imagen siguiente apoya lo anteriormete descrito para variables cualitativas y cuantitativas discretas y continuas.
Gráfica de barras A veces la información se recolecta para una variable cuantitativa medida en segmentos diferentes de la población, o para diferentes categorías de clasificación. Por ejemplo, se podría medir el promedio de ingresos de personas de diferentes grupos de edad, géneros diferentes o que viven en zonas geográficas diferentes del país. En tales casos, se pueden usar gráficas de pastel o gráficas de barras para describir los datos, usando la cantidad medida en cada categoría en lugar de la frecuencia con que se presenta cada una de las categorías.
El ejemplo siguiente visualiza la cantidad de alumnos de una Institución de educación superior categorizados por la carrera y la cantidad de alumnos inscritos.
carreras <- c("Hoteleria", "Gastronomia", "Fotografia", "TIC", "Turismo")
inscritos <- c(520, 250, 320, 70, 110)
datos <- data.frame(carreras, inscritos)
datos
## carreras inscritos
## 1 Hoteleria 520
## 2 Gastronomia 250
## 3 Fotografia 320
## 4 TIC 70
## 5 Turismo 110
barplot(height = datos$inscritos, names.arg = datos$carreras)
Cuando una variable cuantitativa se registra en el tiempo a intervalos igualmente espaciados (por ejemplo diario, semanal, mensual, trimestral o anual), el conjunto de datos forma una serie de tiempo. Los datos de una serie de tiempo se presentan con más efectividad en una gráfica de líneas con el tiempo como eje horizontal. La idea es tratar de distinguir un patrón o tendencia que sea probable de continuar en el futuro y luego usar ese patrón para hacer predicciones precisas para el futuro inmediato. (Mendenhall, Beaver, and Beaver 2010).
El siguiente ejemplo representa la cantidad de población de un país como México conforme y de acuerdo a los censos de 1990, 2000, 2010, 2020 Los valores de población está dado en millones de habitantes.
años <- c('1990','1995', '2000', '2010', '2020')
poblacion <- c(60.00, 85.15,120.30, 132.53, 136.11)
datos <- data.frame(años, poblacion)
datos
## años poblacion
## 1 1990 60.00
## 2 1995 85.15
## 3 2000 120.30
## 4 2010 132.53
## 5 2020 136.11
plot(x=datos$años, y=datos$poblacion, type="b", xlab="Años", ylab="Población")
Un histograma de frecuencia relativa es semejante a una gráfica de barras, pero se usa para graficar cantidades en lugar de datos cualitativos (Mendenhall, Beaver, and Beaver 2010).
En el histograma se traza una barra sobre cada una de las columnas, se habrá creado un histograma de frecuencia o un histograma de frecuencia relativa, dependiendo de la escala del eje vertical. y la cantida de frecuencia.
El histograma representa agrupación de datos con la cantidad de frecuencias de cada clase.
El siguiente ejemplo simula una muestra de 60 personas a quienes se les pregunta su edad. Se representa un histograma de los datos
edades <- c(15, 16, 16, 14, 15, 19, 21, 22, 23, 23, 24, 25, 24, 25, 22, 23, 17, 18, 19, 17, 16, 20, 21, 22, 23, 24, 25, 23, 24, 20,15, 16, 16, 14, 15, 19, 21, 22, 23, 23, 24, 25, 24, 25, 22, 23, 17, 18, 19, 17, 16, 20, 21, 22, 23, 24, 25, 23, 24, 20)
edades # Sin ordenar
## [1] 15 16 16 14 15 19 21 22 23 23 24 25 24 25 22 23 17 18 19 17 16 20 21 22 23
## [26] 24 25 23 24 20 15 16 16 14 15 19 21 22 23 23 24 25 24 25 22 23 17 18 19 17
## [51] 16 20 21 22 23 24 25 23 24 20
length(edades)
## [1] 60
range(edades)
## [1] 14 25
edades[order(edades)] # Ordenados
## [1] 14 14 15 15 15 15 16 16 16 16 16 16 17 17 17 17 18 18 19 19 19 19 20 20 20
## [26] 20 21 21 21 21 22 22 22 22 22 22 23 23 23 23 23 23 23 23 23 23 24 24 24 24
## [51] 24 24 24 24 25 25 25 25 25 25
hist(edades, main = "Frecuencia de edades", xlab = "Edades", ylab = "Frecuencia")
plot(density(edades))
Otra forma sencilla de exhibir la distribución de un conjunto de datos cuantitativos es la gráfica de tallo y hoja. Esta gráfica presenta una exhibición gráfica de los datos usando los valores numéricos reales de cada punto de datos.
Otra forma sencilla de exhibir la distribución de un conjunto de datos cuantitativos es la gráfica de tallo y hoja. Esta gráfica presenta una exhibición gráfica de los datos usando los valores numéricos reales de cada punto de datos.
Otra forma sencilla de exhibir la distribución de un conjunto de datos cuantitativos es la gráfica de tallo y hoja. Esta gráfica presenta una exhibición gráfica de los datos usando los valores numéricos reales de cada punto de datos.
stem(x = edades, scale = 1)
##
## The decimal point is at the |
##
## 14 | 000000
## 16 | 0000000000
## 18 | 000000
## 20 | 00000000
## 22 | 0000000000000000
## 24 | 00000000000000
stem(x = edades, scale = 2)
##
## The decimal point is at the |
##
## 14 | 00
## 15 | 0000
## 16 | 000000
## 17 | 0000
## 18 | 00
## 19 | 0000
## 20 | 0000
## 21 | 0000
## 22 | 000000
## 23 | 0000000000
## 24 | 00000000
## 25 | 000000
En las tablas de frecuencias es necesario determinar matemáticamente el número de clases, La opción matemáticamente más consistente es la conocida como regla de Sturges , La solución de esta ecuación proporciona una regla práctica para obtener el número de clases.
k=1+3.322log(N)
Siendo k el número de clases
log es la función logarítmica de base 10, log10()
y N el total de la muestra
El rango de clase de acuerdo a Sturges está dada por
h=Rangek
Siendo h el rango de cada clase y *Range el rango del total doe los datos, es decir la diferencia entre límite superior menos límite inferir. (Soto Espinosa 2020)
Pendiente
Pendiente
Caso 3. Pendiente
La librería o paquete fdth sirve para generar tablas de distribución que presenta las frecuencias de clases, relativas, porcentuales y acumuladas para valores cuantitativos y cualitativos.
Para el ejemplo servirá para conocer tablas de distribución de variables cuantitativas de edades, pesos y estaturas de personas.
library(fdth)
## Warning: package 'fdth' was built under R version 4.0.4
##
## Attaching package: 'fdth'
## The following objects are masked from 'package:stats':
##
## sd, var
Antes de crear los datos, se prepara el documento aplicando la función sed.seed(), esta instrucción permite establecer una semilla que permite generar los mismos valores aleatorios cuando se utilizan funciones que tiene que ver con elementos aleatorios, en este caso con la función sample(), que más adelante se utiliza.
set.seed(1234)
Se simulan 90 datos en un data.frame o conjunto de datos a partir de vectores.
Por medio de la función sample() se genera la muestra de 90 personas que simuladamente fueron encuestadas.
De cada persona se les pregunta estado de la República Mexicana en donde radica o vive, la edad de entre un rango de 18 a 60, la altura en metros, el peso en kilogramos y el género [Femenino o Masculino].
estados es una variable tipo vector con 6 elementos que contiene 6 diferentes estados de la República Mexicana. La variable estados se factoriza o categoriza con la función factor(). Para este ejemplo puede utilizarse otra variable como zona de la ciudad en donde radicas o vives, colonias, u otra variable de tipo cualitativa. Para este caso no tiene efecto alguno sólo es complemento.
entidades será una variable que contiene los 90 personas encuestadas conforme y de acuerdo al algún estado de la República Mexicana de los seis inicializados. Nuevamente aquí con esta variable puede utilizarse otra variable y hacer diferencia en el caso.
estaturas será una variable cuantitativa con valores reales representado en metros de la altura de cada persona.
pesos, es una variable cuantitativa dado en valor numérico entero, significa un valor en kilogramos del peso de una persona.
edades, será también una variable cuantitativa con valores numéricos entre 18 y 60 años.
generos Masculino o Femenino. Esta será una cualitativa además de ser variable categórica factorizada con la función factor().
datos es la variable que contiene el data.frame o conjunto de datos a partir de todo el conjunto de vectores.
factor() es una función que convierte tipo char a tipo de dato categórico, es decir, que se puede saber cuáles son diferentes entre sí, las clase que hay y además se puede contar y determinar su frecuencia
length() determina a cantidad de elementos de un vector y se utiliza para determinar n que significa el tamaño de la muestra.
sample() es para generar muestras de cierta cantidad de elementos a partir de datos iniciales sample() se utiliza para simular 90 personas encuestadas
data.frame() es la función que construye el conjunto de datos o data.frame.
estados <- c('Sinaloa', 'Mexico', 'Durango',
'Hidalgo', 'Coahuila',
'Monterrey')
estados
## [1] "Sinaloa" "Mexico" "Durango" "Hidalgo" "Coahuila" "Monterrey"
Convertir los estados a tipo de datos factor
estados <- factor(estados)
estados
## [1] Sinaloa Mexico Durango Hidalgo Coahuila Monterrey
## Levels: Coahuila Durango Hidalgo Mexico Monterrey Sinaloa
Se crea el vector de entidades a partir de los estados, como ya se mencionó, se simula una encuesta de 63 personas; el valor de 90 es un valor aleatorio y pudo ser cualquier valor numérico que permita tan chico o tan grande como lo permita la memoria ram de la computadora en donde se simule la cantidad de personas encuestadas.
En la muestra sample() se utilizan los valores de x= estados que significa los valores de donde se sacan aleatoriamente los estados, size =90 que significa la cantidad de personas y replce significa que los valores de los seis estados se pueden repetir.
entidades <- sample(x = estados, size=90, replace = TRUE)
entidades
## [1] Hidalgo Mexico Monterrey Coahuila Hidalgo Sinaloa Coahuila
## [8] Monterrey Hidalgo Mexico Monterrey Mexico Monterrey Monterrey
## [15] Hidalgo Monterrey Monterrey Monterrey Hidalgo Hidalgo Coahuila
## [22] Hidalgo Durango Hidalgo Coahuila Mexico Coahuila Mexico
## [29] Monterrey Durango Hidalgo Hidalgo Durango Sinaloa Durango
## [36] Monterrey Hidalgo Mexico Durango Mexico Coahuila Monterrey
## [43] Sinaloa Monterrey Durango Monterrey Sinaloa Coahuila Sinaloa
## [50] Sinaloa Mexico Sinaloa Durango Mexico Monterrey Durango
## [57] Sinaloa Durango Monterrey Sinaloa Mexico Monterrey Coahuila
## [64] Sinaloa Durango Durango Mexico Coahuila Mexico Monterrey
## [71] Hidalgo Hidalgo Sinaloa Coahuila Durango Monterrey Coahuila
## [78] Durango Hidalgo Hidalgo Sinaloa Hidalgo Hidalgo Durango
## [85] Sinaloa Monterrey Monterrey Hidalgo Sinaloa Monterrey
## Levels: Coahuila Durango Hidalgo Mexico Monterrey Sinaloa
Crear la edades de las personas de entre 18 y 60 años
edades <- sample(x = 18:60, size=90, replace = TRUE)
edades
## [1] 39 23 38 38 49 30 34 19 23 19 33 28 53 52 43 53 38 59 55 23 26 60 36 39 57
## [26] 46 33 19 55 41 47 60 23 47 36 32 39 31 40 36 36 24 26 57 52 43 33 39 40 45
## [51] 51 54 38 58 52 57 20 25 36 21 37 36 24 49 34 42 52 19 54 47 27 39 52 42 33
## [76] 26 37 29 54 34 20 39 54 55 35 47 36 35 40 60
Crear las estaturas de las personas de entre 1.45 y 2.00 metros. La función sample() genera valores en centímetros, es decir entre 145 y 200 cms., al dividirlo entre 100 se interpreta valores en metros.
estaturas <- sample(x = 145:200, size=90, replace = TRUE)
estaturas <- estaturas / 100
estaturas
## [1] 1.92 1.75 1.50 1.51 1.52 1.48 1.87 1.59 1.61 1.87 1.83 1.86 1.68 1.87 1.79
## [16] 1.62 1.55 2.00 1.77 1.52 1.52 1.66 1.86 1.81 1.96 1.56 1.86 1.64 1.77 1.98
## [31] 1.50 1.47 1.80 1.80 1.55 1.79 1.77 1.95 1.73 1.45 1.74 1.72 1.88 1.63 1.54
## [46] 1.65 1.57 1.56 1.73 1.75 1.77 1.97 1.89 1.54 1.66 1.57 1.71 1.84 1.62 1.67
## [61] 1.75 1.46 1.68 1.82 1.69 1.97 1.58 1.82 1.81 1.55 1.76 1.90 1.72 1.85 1.96
## [76] 1.96 1.77 1.77 1.76 1.59 1.82 1.65 1.54 1.78 1.87 1.69 1.94 1.88 1.87 1.95
Crear los pesos de las personas de entre 45 y 100 kilogramos. La función sample() genera valores numéricos, es decir entre 45 y 100 kgs.
pesos <- sample(x = 45:100, size=90, replace = TRUE)
pesos
## [1] 81 46 82 46 49 67 89 96 81 53 99 71 82 59 66 64 85 78 55
## [20] 68 56 100 49 95 75 83 96 82 81 59 75 80 67 57 72 46 86 80
## [39] 94 64 86 46 61 48 66 54 68 63 57 90 85 57 71 67 59 74 63
## [58] 54 57 77 50 97 66 79 91 95 77 93 94 91 91 65 48 58 71 90
## [77] 61 86 92 99 71 98 54 61 58 82 66 98 59 83
Finalmente generar el vector de géneros entre [Masculino o Femenino]. Al mismo tiempo con la función factor() se categoriza a [Femenino o Masculino]
generos <- sample(x = factor(c("Femeninos", "Masculinos")), size=90, replace = TRUE)
generos
## [1] Femeninos Femeninos Masculinos Femeninos Femeninos Masculinos
## [7] Femeninos Femeninos Femeninos Masculinos Masculinos Masculinos
## [13] Masculinos Femeninos Masculinos Masculinos Masculinos Femeninos
## [19] Masculinos Femeninos Masculinos Masculinos Femeninos Femeninos
## [25] Masculinos Masculinos Femeninos Femeninos Masculinos Femeninos
## [31] Masculinos Masculinos Masculinos Femeninos Masculinos Masculinos
## [37] Femeninos Femeninos Femeninos Masculinos Femeninos Femeninos
## [43] Femeninos Femeninos Femeninos Femeninos Masculinos Femeninos
## [49] Masculinos Femeninos Femeninos Femeninos Masculinos Masculinos
## [55] Femeninos Masculinos Masculinos Masculinos Masculinos Femeninos
## [61] Masculinos Femeninos Femeninos Femeninos Femeninos Masculinos
## [67] Femeninos Femeninos Masculinos Masculinos Masculinos Masculinos
## [73] Femeninos Masculinos Femeninos Femeninos Femeninos Masculinos
## [79] Masculinos Femeninos Masculinos Masculinos Femeninos Femeninos
## [85] Masculinos Masculinos Masculinos Femeninos Femeninos Masculinos
## Levels: Femeninos Masculinos
Ahora si, que ya se tienen los datos recabados es momento de generar el conjunto de datos con la función data.frame a partir de los vectores cada uno con los 90 elementos.
datos <- data.frame(entidades, edades, estaturas, pesos, generos)
datos
## entidades edades estaturas pesos generos
## 1 Hidalgo 39 1.92 81 Femeninos
## 2 Mexico 23 1.75 46 Femeninos
## 3 Monterrey 38 1.50 82 Masculinos
## 4 Coahuila 38 1.51 46 Femeninos
## 5 Hidalgo 49 1.52 49 Femeninos
## 6 Sinaloa 30 1.48 67 Masculinos
## 7 Coahuila 34 1.87 89 Femeninos
## 8 Monterrey 19 1.59 96 Femeninos
## 9 Hidalgo 23 1.61 81 Femeninos
## 10 Mexico 19 1.87 53 Masculinos
## 11 Monterrey 33 1.83 99 Masculinos
## 12 Mexico 28 1.86 71 Masculinos
## 13 Monterrey 53 1.68 82 Masculinos
## 14 Monterrey 52 1.87 59 Femeninos
## 15 Hidalgo 43 1.79 66 Masculinos
## 16 Monterrey 53 1.62 64 Masculinos
## 17 Monterrey 38 1.55 85 Masculinos
## 18 Monterrey 59 2.00 78 Femeninos
## 19 Hidalgo 55 1.77 55 Masculinos
## 20 Hidalgo 23 1.52 68 Femeninos
## 21 Coahuila 26 1.52 56 Masculinos
## 22 Hidalgo 60 1.66 100 Masculinos
## 23 Durango 36 1.86 49 Femeninos
## 24 Hidalgo 39 1.81 95 Femeninos
## 25 Coahuila 57 1.96 75 Masculinos
## 26 Mexico 46 1.56 83 Masculinos
## 27 Coahuila 33 1.86 96 Femeninos
## 28 Mexico 19 1.64 82 Femeninos
## 29 Monterrey 55 1.77 81 Masculinos
## 30 Durango 41 1.98 59 Femeninos
## 31 Hidalgo 47 1.50 75 Masculinos
## 32 Hidalgo 60 1.47 80 Masculinos
## 33 Durango 23 1.80 67 Masculinos
## 34 Sinaloa 47 1.80 57 Femeninos
## 35 Durango 36 1.55 72 Masculinos
## 36 Monterrey 32 1.79 46 Masculinos
## 37 Hidalgo 39 1.77 86 Femeninos
## 38 Mexico 31 1.95 80 Femeninos
## 39 Durango 40 1.73 94 Femeninos
## 40 Mexico 36 1.45 64 Masculinos
## 41 Coahuila 36 1.74 86 Femeninos
## 42 Monterrey 24 1.72 46 Femeninos
## 43 Sinaloa 26 1.88 61 Femeninos
## 44 Monterrey 57 1.63 48 Femeninos
## 45 Durango 52 1.54 66 Femeninos
## 46 Monterrey 43 1.65 54 Femeninos
## 47 Sinaloa 33 1.57 68 Masculinos
## 48 Coahuila 39 1.56 63 Femeninos
## 49 Sinaloa 40 1.73 57 Masculinos
## 50 Sinaloa 45 1.75 90 Femeninos
## 51 Mexico 51 1.77 85 Femeninos
## 52 Sinaloa 54 1.97 57 Femeninos
## 53 Durango 38 1.89 71 Masculinos
## 54 Mexico 58 1.54 67 Masculinos
## 55 Monterrey 52 1.66 59 Femeninos
## 56 Durango 57 1.57 74 Masculinos
## 57 Sinaloa 20 1.71 63 Masculinos
## 58 Durango 25 1.84 54 Masculinos
## 59 Monterrey 36 1.62 57 Masculinos
## 60 Sinaloa 21 1.67 77 Femeninos
## 61 Mexico 37 1.75 50 Masculinos
## 62 Monterrey 36 1.46 97 Femeninos
## 63 Coahuila 24 1.68 66 Femeninos
## 64 Sinaloa 49 1.82 79 Femeninos
## 65 Durango 34 1.69 91 Femeninos
## 66 Durango 42 1.97 95 Masculinos
## 67 Mexico 52 1.58 77 Femeninos
## 68 Coahuila 19 1.82 93 Femeninos
## 69 Mexico 54 1.81 94 Masculinos
## 70 Monterrey 47 1.55 91 Masculinos
## 71 Hidalgo 27 1.76 91 Masculinos
## 72 Hidalgo 39 1.90 65 Masculinos
## 73 Sinaloa 52 1.72 48 Femeninos
## 74 Coahuila 42 1.85 58 Masculinos
## 75 Durango 33 1.96 71 Femeninos
## 76 Monterrey 26 1.96 90 Femeninos
## 77 Coahuila 37 1.77 61 Femeninos
## 78 Durango 29 1.77 86 Masculinos
## 79 Hidalgo 54 1.76 92 Masculinos
## 80 Hidalgo 34 1.59 99 Femeninos
## 81 Sinaloa 20 1.82 71 Masculinos
## 82 Hidalgo 39 1.65 98 Masculinos
## 83 Hidalgo 54 1.54 54 Femeninos
## 84 Durango 55 1.78 61 Femeninos
## 85 Sinaloa 35 1.87 58 Masculinos
## 86 Monterrey 47 1.69 82 Masculinos
## 87 Monterrey 36 1.94 66 Masculinos
## 88 Hidalgo 35 1.88 98 Femeninos
## 89 Sinaloa 40 1.87 59 Femeninos
## 90 Monterrey 60 1.95 83 Masculinos
Se va a trabajar únicamente sobre los datos cuantitativos del conjunto de datos, es decir sobre las variables edades, estaturas y pesos respectivamente.
Con la función fdt() habiendo cargado la librería o el paquete fdth() se pueden generar las clases para la variable edades.
Se utiliza la expresión as.data.frame(frecuencia.edades$table) combinado la función as.data.frame() que significa que se transforma a tipo de datos ya conocido data.frame y con la función table() convierte a tabla la variable frecuencia.edades propia para tratarse como data.frame o conjunto de datos.
frecuencia.edades <- fdt(datos$edades, breaks='Sturges')
frecuencia.edades <- as.data.frame(frecuencia.edades$table)
frecuencia.edades
## Class limits f rf rf(%) cf cf(%)
## 1 [18.81,24.03) 13 0.14444444 14.444444 13 14.44444
## 2 [24.03,29.26) 7 0.07777778 7.777778 20 22.22222
## 3 [29.26,34.48) 10 0.11111111 11.111111 30 33.33333
## 4 [34.48,39.7) 21 0.23333333 23.333333 51 56.66667
## 5 [39.7,44.93) 8 0.08888889 8.888889 59 65.55556
## 6 [44.93,50.15) 8 0.08888889 8.888889 67 74.44444
## 7 [50.15,55.38) 15 0.16666667 16.666667 82 91.11111
## 8 [55.38,60.6) 8 0.08888889 8.888889 90 100.00000
Con la función fdt() habiendo cargado la librería o el paquete fdth() se pueden generar las clases para la variable estaturas.
Nuevamente se utiliza la expresión as.data.frame(frecuencia.estaturas$table) combinado tanto la función as.data.frame() que significa que se transforma a tipo de datos data.frame y con la función table() convierte a tabla la variable frecuencia.edades propia para tratarse como data.frame o conjunto de datos.
frecuencia.estaturas <- fdt(datos$estaturas)
frecuencia.estaturas <- as.data.frame(frecuencia.estaturas$table)
frecuencia.estaturas
## Class limits f rf rf(%) cf cf(%)
## 1 [1.435,1.509) 6 0.06666667 6.666667 6 6.666667
## 2 [1.509,1.582) 15 0.16666667 16.666667 21 23.333333
## 3 [1.582,1.655) 9 0.10000000 10.000000 30 33.333333
## 4 [1.655,1.728) 10 0.11111111 11.111111 40 44.444444
## 5 [1.728,1.801) 19 0.21111111 21.111111 59 65.555556
## 6 [1.801,1.874) 16 0.17777778 17.777778 75 83.333333
## 7 [1.874,1.947) 6 0.06666667 6.666667 81 90.000000
## 8 [1.947,2.02) 9 0.10000000 10.000000 90 100.000000
Y finalmente, de la misma manera se utiliza la función fdt() generar las clases para la variable pesos.
Se utiliza la expresión as.data.frame(frecuencia.estaturas$table) combinado tanto la función as.data.frame() que significa que se transforma a tipo de datos data.frame y con la función table() convierte a tabla la variable frecuencia.pesos pra que sea más fácil tratar los datos como una estructura data.frame o conjunto de datos de renglones y columnas.
Se puede verifica en el espacio de las variable de entorno de R Studio el tipo de datos
frecuencia.pesos <- fdt(datos$pesos)
frecuencia.pesos <- as.data.frame(frecuencia.pesos$table)
frecuencia.pesos
## Class limits f rf rf(%) cf cf(%)
## 1 [45.5,52.5) 9 0.1000000 10.00000 9 10.00000
## 2 [52.5,59.4) 16 0.1777778 17.77778 25 27.77778
## 3 [59.4,66.3) 12 0.1333333 13.33333 37 41.11111
## 4 [66.3,73.3) 10 0.1111111 11.11111 47 52.22222
## 5 [73.3,80.2) 9 0.1000000 10.00000 56 62.22222
## 6 [80.2,87.1) 14 0.1555556 15.55556 70 77.77778
## 7 [87.1,94.1) 10 0.1111111 11.11111 80 88.88889
## 8 [94.1,101) 10 0.1111111 11.11111 90 100.00000
hist(datos$edades)
plot(density(datos$edades))
Se ordenan los datos$edades y se muestra el diagrama de tallo y hoja solo para verificar la frecuencia en los datos ordenados.
datos$edades[order(datos$edades)] # Ordenados
## [1] 19 19 19 19 20 20 21 23 23 23 23 24 24 25 26 26 26 27 28 29 30 31 32 33 33
## [26] 33 33 34 34 34 35 35 36 36 36 36 36 36 36 37 37 38 38 38 38 39 39 39 39 39
## [51] 39 40 40 40 41 42 42 43 43 45 46 47 47 47 47 49 49 51 52 52 52 52 52 53 53
## [76] 54 54 54 54 55 55 55 57 57 57 58 59 60 60 60
stem(datos$edades, scale = 1)
##
## The decimal point is 1 digit(s) to the right of the |
##
## 1 | 9999
## 2 | 001333344
## 2 | 5666789
## 3 | 0123333444
## 3 | 556666666778888999999
## 4 | 00012233
## 4 | 56777799
## 5 | 122222334444
## 5 | 55577789
## 6 | 000
hist(datos$estaturas)
plot(density(datos$estaturas))
hist(datos$pesos)
plot(density(datos$pesos))
De la variable edades: ¿Cuál es la menor y mayor edad registrada? [1] 14 25
¿Cuál es el rango de edades? range(edades) [1] 14 25
¿Cuántas clases se generaron? de acuerdo a la tabla de frecuencia y al histograma respectivamente.
¿Cuáles es el rango de cada clase y como se demuestran o generan matemáticamente?. Sturges, Scott y FD
¿Cuál es la clase con mayor frecuencia de edades de acuerdo a la tabla de frecuencias?
¿Cuál es la clase con mayor frecuencia de edades de acuerdo al histograma?
¿Que relación hay entre histograma y diagrama de tallo y hoja? Un diagrama de tallo-hoja es un histograma que conserva información numérica. De manera similar al histograma permite ver el lote todo y advierte aspectos.
De la variable estaturas: ¿Cuál es la clase con mayor frecuencia de estaturas de aacuerdo a la tabla de frecuencias y su frecuencia?
¿Cuál es la clase con mayor frecuencia de estaturas de acuerdo al histograma y su frecuencia?
De la variable pesos: ¿Cuál es la clase con mayor frecuencia de pesos de acuerdo a la tabla de frecuencias y su frecuencia?
¿Cuál es la clase con mayor frecuencia de pesos de acuerdo al histograma y su frecuencia?
¿Que les deja el caso?
Un muy buen conocimiento del r studio, estoy aprendiendo cada dia mas con la practica y se que me ayudara en un futuro para posibles datos estadisticos que nos otorgue tal persona o empresa, excelentes funciones.
Anderson, David R., Dennis J. Sweeney, and Thomas A. Williams. 2008. Estadística Para Administración y Economía. 10th ed. Australia • Brasil • Corea • España • Estados Unidos • Japón • México • Reino Unido • Singapur: Cengage Learning,. Mendenhall, William, Robert J. Beaver, and Barbara M. Beaver. 2010. Introducción a La Probabilidad y Estadística. 13th ed. Cengage Learning Editores, S.A. de C.V.,. Soto Espinosa, Juan Luis. 2020. “Statistics and Health at Work Descriptive Statistics (i): Variables and Frequencies.” RIST. Revista de Investigación, July. https://rist.zaragoza.unam.mx/index.p