Agrupar datos y describir datos visualmente de variables de edades y géneros usando función fdt y fdt_cat de la librería fdth
Se cargan librerías adecuadas del caso
Se construyen y simulan datos con dos variables de interés: edades y géneros de personas.
Se determinan las clases para construir tablas de frecuencias de los datos a partir de las variables de interés: edades y géneros.
Se visualizan frecuencias con histograma y gráfico de tallo y hoja para datos numéricos (edades) y gráfico de barra para datos categóricos o te tipo carácter (géneros).
Se interpreta el caso.
Los datos agrupados y no agrupados se les llaman en estadística a la manera de representar y analizar la información que has reunido o que dispones.
La idea de datos agrupados tiene que ver con definir un conjunto de clases que identifican de manera organizada un conjunto de datos.
Los datos no agrupados es el conjunto de observaciones que se presentan en su forma original tal y como fueron recolectados, para obtener información directamente de ellos.
Los datos no agrupados es un conjunto de información si ningún orden que no nos establece relación clara con lo que se pretende desarrollar a lo largo de un problema, esto se soluciona mediante una tabulación que conduce a una tabla de frecuencias.
Los valores agrupados son datos que se dan en intervalos de clase, en un rango, como cuando se resumen para una distribución de frecuencias.
La frecuencia o la frecuencia absoluta es el número de veces que aparece un determinado valor en un estudio estadístico El número de repeticiones de un valor dentro de una muestra o población. Se cuenta el número de veces que aparece. La suma de las frecuencias absolutas es igual al número total de datos o sea n.
La relación de la frecuencia con respecto al número de elementos n, es el cociente entre la frecuencia absoluta de un determinado valor y el número total de datos. La suma de la frecuencia relativa es 1.
Es la representación porcentual de la frecuencia relativa con respecto al 100%, es decir multiplicar la frecuencia relativa por 100. La suma de la frecuencia porcentual (%) debe ser el 100%.
Define la sumatoria parcial y total de la frecuencia, puede ser la frecuencia absoluta, relativa o la porcentual.
Las clases definen los valores únicos del conjunto de datos o un intervalo que define y agrupa cierto conjunto de datos. Las clases clasifican y agrupan el total de los datos.
Los límites de clase son los valores minímos y máximos de una clase, los intervalos de clase es la diferencia entre el límite superior y el límite inferior, y los puntos medios es el valor medio entre cada rango de cada clase.
La regla de Sturges es un criterio utilizado para determinar el número de clases o intervalos que son necesarios para representar gráficamente un conjunto de datos estadísticos.
La fórmula para calcular el número de clases de acuerdo a Sturges es:
\[ k = 1 + 3.22 ⋅ log(N) \]
k es el número de clases.
N es el número total de observaciones de la muestra.
Log es el logaritmo común de base 10
El rango de las clases de acuerdo con Sturges está dada por:
$$ h =
$$
\[ k = 3.5\cdot S \cdot n^{-1/3} \]
S = La desviación estándar
n = Total de elementos
\[ k = 2 \cdot IQ \cdot n ^ {-\frac{1}{3}} \]
IQ = Rango intercuartílico
n = total de datos
library("fdth")
library("ggplot2")
set.seed(18022)
n = 300
edades <- sample(x = 18:28, size = n,replace = TRUE)
generos <- sample(x = c('FEMENINO', 'MASCULINO'), size = n, replace = TRUE)
datos <- data.frame(edades, generos)
datos
## edades generos
## 1 18 MASCULINO
## 2 24 MASCULINO
## 3 19 FEMENINO
## 4 28 FEMENINO
## 5 25 FEMENINO
## 6 28 FEMENINO
## 7 20 FEMENINO
## 8 24 MASCULINO
## 9 23 FEMENINO
## 10 22 FEMENINO
## 11 22 FEMENINO
## 12 20 MASCULINO
## 13 27 FEMENINO
## 14 19 MASCULINO
## 15 23 FEMENINO
## 16 27 FEMENINO
## 17 25 MASCULINO
## 18 22 MASCULINO
## 19 25 MASCULINO
## 20 22 FEMENINO
## 21 18 FEMENINO
## 22 24 FEMENINO
## 23 20 FEMENINO
## 24 23 MASCULINO
## 25 21 MASCULINO
## 26 22 FEMENINO
## 27 21 MASCULINO
## 28 28 MASCULINO
## 29 22 FEMENINO
## 30 27 FEMENINO
## 31 23 FEMENINO
## 32 25 FEMENINO
## 33 22 MASCULINO
## 34 23 MASCULINO
## 35 24 MASCULINO
## 36 20 FEMENINO
## 37 28 MASCULINO
## 38 26 MASCULINO
## 39 20 FEMENINO
## 40 28 FEMENINO
## 41 22 MASCULINO
## 42 21 MASCULINO
## 43 27 FEMENINO
## 44 20 MASCULINO
## 45 21 FEMENINO
## 46 27 FEMENINO
## 47 18 MASCULINO
## 48 28 FEMENINO
## 49 26 FEMENINO
## 50 26 MASCULINO
## 51 20 FEMENINO
## 52 25 MASCULINO
## 53 27 MASCULINO
## 54 28 FEMENINO
## 55 24 FEMENINO
## 56 18 MASCULINO
## 57 26 MASCULINO
## 58 23 MASCULINO
## 59 24 FEMENINO
## 60 20 FEMENINO
## 61 22 MASCULINO
## 62 20 MASCULINO
## 63 19 MASCULINO
## 64 28 FEMENINO
## 65 20 FEMENINO
## 66 20 MASCULINO
## 67 22 MASCULINO
## 68 22 FEMENINO
## 69 28 FEMENINO
## 70 18 MASCULINO
## 71 22 FEMENINO
## 72 20 FEMENINO
## 73 21 MASCULINO
## 74 19 MASCULINO
## 75 20 FEMENINO
## 76 19 MASCULINO
## 77 22 MASCULINO
## 78 21 FEMENINO
## 79 19 MASCULINO
## 80 28 FEMENINO
## 81 25 FEMENINO
## 82 27 MASCULINO
## 83 27 MASCULINO
## 84 26 FEMENINO
## 85 18 MASCULINO
## 86 23 FEMENINO
## 87 23 MASCULINO
## 88 24 FEMENINO
## 89 25 FEMENINO
## 90 27 FEMENINO
## 91 18 MASCULINO
## 92 28 FEMENINO
## 93 20 FEMENINO
## 94 28 FEMENINO
## 95 18 MASCULINO
## 96 27 MASCULINO
## 97 25 FEMENINO
## 98 21 MASCULINO
## 99 27 FEMENINO
## 100 28 MASCULINO
## 101 21 MASCULINO
## 102 20 MASCULINO
## 103 22 FEMENINO
## 104 23 FEMENINO
## 105 19 FEMENINO
## 106 22 MASCULINO
## 107 18 FEMENINO
## 108 20 MASCULINO
## 109 22 MASCULINO
## 110 19 FEMENINO
## 111 24 MASCULINO
## 112 21 MASCULINO
## 113 23 FEMENINO
## 114 26 FEMENINO
## 115 19 MASCULINO
## 116 18 MASCULINO
## 117 26 MASCULINO
## 118 18 MASCULINO
## 119 20 FEMENINO
## 120 23 MASCULINO
## 121 27 MASCULINO
## 122 19 MASCULINO
## 123 20 FEMENINO
## 124 25 MASCULINO
## 125 26 MASCULINO
## 126 20 FEMENINO
## 127 28 FEMENINO
## 128 27 MASCULINO
## 129 24 MASCULINO
## 130 27 FEMENINO
## 131 24 FEMENINO
## 132 21 FEMENINO
## 133 23 MASCULINO
## 134 25 MASCULINO
## 135 26 MASCULINO
## 136 18 FEMENINO
## 137 24 MASCULINO
## 138 22 FEMENINO
## 139 23 MASCULINO
## 140 19 FEMENINO
## 141 28 FEMENINO
## 142 23 FEMENINO
## 143 23 FEMENINO
## 144 21 FEMENINO
## 145 23 FEMENINO
## 146 27 FEMENINO
## 147 18 FEMENINO
## 148 22 MASCULINO
## 149 20 FEMENINO
## 150 25 FEMENINO
## 151 26 FEMENINO
## 152 28 FEMENINO
## 153 23 FEMENINO
## 154 26 FEMENINO
## 155 22 FEMENINO
## 156 28 MASCULINO
## 157 26 FEMENINO
## 158 24 MASCULINO
## 159 25 FEMENINO
## 160 20 MASCULINO
## 161 22 MASCULINO
## 162 21 FEMENINO
## 163 23 MASCULINO
## 164 21 MASCULINO
## 165 27 MASCULINO
## 166 21 MASCULINO
## 167 19 MASCULINO
## 168 26 FEMENINO
## 169 18 MASCULINO
## 170 26 FEMENINO
## 171 23 FEMENINO
## 172 18 FEMENINO
## 173 20 FEMENINO
## 174 18 FEMENINO
## 175 25 FEMENINO
## 176 22 FEMENINO
## 177 23 MASCULINO
## 178 28 FEMENINO
## 179 25 MASCULINO
## 180 26 MASCULINO
## 181 18 MASCULINO
## 182 20 FEMENINO
## 183 24 FEMENINO
## 184 27 MASCULINO
## 185 26 FEMENINO
## 186 19 FEMENINO
## 187 24 MASCULINO
## 188 23 FEMENINO
## 189 27 MASCULINO
## 190 20 MASCULINO
## 191 28 MASCULINO
## 192 23 MASCULINO
## 193 28 FEMENINO
## 194 22 FEMENINO
## 195 28 MASCULINO
## 196 26 MASCULINO
## 197 22 MASCULINO
## 198 19 FEMENINO
## 199 22 MASCULINO
## 200 23 MASCULINO
## 201 23 FEMENINO
## 202 23 FEMENINO
## 203 20 MASCULINO
## 204 28 MASCULINO
## 205 21 MASCULINO
## 206 19 MASCULINO
## 207 21 FEMENINO
## 208 25 MASCULINO
## 209 25 MASCULINO
## 210 21 FEMENINO
## 211 25 FEMENINO
## 212 19 FEMENINO
## 213 20 MASCULINO
## 214 18 FEMENINO
## 215 19 MASCULINO
## 216 19 MASCULINO
## 217 18 MASCULINO
## 218 23 MASCULINO
## 219 19 FEMENINO
## 220 21 FEMENINO
## 221 20 FEMENINO
## 222 19 FEMENINO
## 223 27 FEMENINO
## 224 22 FEMENINO
## 225 18 FEMENINO
## 226 19 FEMENINO
## 227 27 FEMENINO
## 228 28 MASCULINO
## 229 23 MASCULINO
## 230 23 MASCULINO
## 231 27 MASCULINO
## 232 23 MASCULINO
## 233 28 MASCULINO
## 234 18 FEMENINO
## 235 22 FEMENINO
## 236 22 MASCULINO
## 237 18 FEMENINO
## 238 27 MASCULINO
## 239 21 FEMENINO
## 240 25 MASCULINO
## 241 25 MASCULINO
## 242 22 MASCULINO
## 243 25 FEMENINO
## 244 27 FEMENINO
## 245 19 MASCULINO
## 246 24 FEMENINO
## 247 19 MASCULINO
## 248 21 MASCULINO
## 249 19 FEMENINO
## 250 18 MASCULINO
## 251 26 MASCULINO
## 252 24 MASCULINO
## 253 27 MASCULINO
## 254 21 FEMENINO
## 255 26 FEMENINO
## 256 23 FEMENINO
## 257 22 MASCULINO
## 258 24 FEMENINO
## 259 26 MASCULINO
## 260 21 FEMENINO
## 261 26 MASCULINO
## 262 27 MASCULINO
## 263 26 MASCULINO
## 264 28 MASCULINO
## 265 18 FEMENINO
## 266 25 MASCULINO
## 267 28 MASCULINO
## 268 28 FEMENINO
## 269 27 FEMENINO
## 270 19 FEMENINO
## 271 25 MASCULINO
## 272 21 FEMENINO
## 273 22 FEMENINO
## 274 21 MASCULINO
## 275 20 MASCULINO
## 276 27 MASCULINO
## 277 23 FEMENINO
## 278 26 FEMENINO
## 279 22 FEMENINO
## 280 27 FEMENINO
## 281 21 MASCULINO
## 282 20 FEMENINO
## 283 19 FEMENINO
## 284 24 MASCULINO
## 285 25 MASCULINO
## 286 22 FEMENINO
## 287 18 MASCULINO
## 288 21 MASCULINO
## 289 27 MASCULINO
## 290 28 MASCULINO
## 291 24 MASCULINO
## 292 21 FEMENINO
## 293 20 MASCULINO
## 294 22 FEMENINO
## 295 20 MASCULINO
## 296 21 MASCULINO
## 297 27 FEMENINO
## 298 25 MASCULINO
## 299 25 FEMENINO
## 300 28 FEMENINO
head(datos, 10)
## edades generos
## 1 18 MASCULINO
## 2 24 MASCULINO
## 3 19 FEMENINO
## 4 28 FEMENINO
## 5 25 FEMENINO
## 6 28 FEMENINO
## 7 20 FEMENINO
## 8 24 MASCULINO
## 9 23 FEMENINO
## 10 22 FEMENINO
tail(datos,10)
## edades generos
## 291 24 MASCULINO
## 292 21 FEMENINO
## 293 20 MASCULINO
## 294 22 FEMENINO
## 295 20 MASCULINO
## 296 21 MASCULINO
## 297 27 FEMENINO
## 298 25 MASCULINO
## 299 25 FEMENINO
## 300 28 FEMENINO
tabla.frec.edades <- fdt(x = datos$edades, breaks = "Sturges")
tabla.frec.edades
## Class limits f rf rf(%) cf cf(%)
## [17.82,18.866) 25 0.08 8.33 25 8.33
## [18.866,19.912) 26 0.09 8.67 51 17.00
## [19.912,20.958) 31 0.10 10.33 82 27.33
## [20.958,22.004) 61 0.20 20.33 143 47.67
## [22.004,23.05) 31 0.10 10.33 174 58.00
## [23.05,24.096) 19 0.06 6.33 193 64.33
## [24.096,25.142) 25 0.08 8.33 218 72.67
## [25.142,26.188) 23 0.08 7.67 241 80.33
## [26.188,27.234) 30 0.10 10.00 271 90.33
## [27.234,28.28) 29 0.10 9.67 300 100.00
tabla.frec.edades2 <- fdt(x = datos$edades, start = 18-1, end = 28+1, h = 1)
tabla.frec.edades2
## Class limits f rf rf(%) cf cf(%)
## [17,18) 0 0.00 0.00 0 0.00
## [18,19) 25 0.08 8.33 25 8.33
## [19,20) 26 0.09 8.67 51 17.00
## [20,21) 31 0.10 10.33 82 27.33
## [21,22) 28 0.09 9.33 110 36.67
## [22,23) 33 0.11 11.00 143 47.67
## [23,24) 31 0.10 10.33 174 58.00
## [24,25) 19 0.06 6.33 193 64.33
## [25,26) 25 0.08 8.33 218 72.67
## [26,27) 23 0.08 7.67 241 80.33
## [27,28) 30 0.10 10.00 271 90.33
## [28,29) 29 0.10 9.67 300 100.00
ggplot(data = datos) + geom_histogram(aes(x = edades), bins = 30 )
La función stem() representan un diagrama de tallo y hoja. El diagrama de tallo y hoja identifica frecuencias de clases en formato textual.
stem(datos$edades)
##
## The decimal point is at the |
##
## 18 | 0000000000000000000000000
## 19 | 00000000000000000000000000
## 20 | 0000000000000000000000000000000
## 21 | 0000000000000000000000000000
## 22 | 000000000000000000000000000000000
## 23 | 0000000000000000000000000000000
## 24 | 0000000000000000000
## 25 | 0000000000000000000000000
## 26 | 00000000000000000000000
## 27 | 000000000000000000000000000000
## 28 | 00000000000000000000000000000
Se utiliza la variable de interés géneros del conjunto de datos.
tabla.frec.gen1 <- fdt_cat(x = datos$generos, breaks = "Sturges")
tabla.frec.gen1
## Category f rf rf(%) cf cf(%)
## FEMENINO 151 0.5 50.33 151 50.33
## MASCULINO 149 0.5 49.67 300 100.00
ggplot(data = datos) + geom_bar(aes(x = generos))
En esté caso número dos, lo importante fue el concepto de frecuencia, que es cuánto se repite un numero, la frecuencia relativa, que es cuánto se repite un numero con respecto a la total de datos, la frecuencia relativa en porcentaje, y la frecuencia acumulada con su respectivo porcentaje, esto engloba lo que es la tabla de frecuencias; se creó la tabla de frecuencias con la función fdt().
Otro punto importante en este caso fue el uso de gráficas para representar el análisis final de todos los datos, por ejemplo, en el histograma podemos apreciar cuál es la edad que más se repite en este caso es 22 años, se puede apreciar de la misma manera en el diagrama de tallo y hoja que se pudo crear gracias a la función stem(), igualmente cuando se creo la gráfica de barras para representar los datos de géneros, podemos observar que es muy cercano el porcentaje entre femenino y masculino, puesto que la diferencia es únicamente de 0.66%. Cabe destacar que los diagramas de barras e histograma se crearon a través de la función ggplot().