Agrupar datos y describir datos visualmente de variables de edades y generos usando función fdt y fdt_cat de la librería fdth.
Se cargan librerías adecuadas de caso
Se construyen y simulan datos con dos variables de interés edades y géneros de personas.
Se determina las clase para construir tablas de frecuencias de los datos a partir de las variables de interés edades y géneros.
Se visualizan frecuencias con histograma y gráfico de tallo y hoja para datos numéricos (edades) y gráfico de barra para datos categórico o tipo character (géneros).
Se interpreta el caso
Los datos agrupados y no agrupados se les llaman en estadística a la manera de representar y analizar la información que has reunido o que dispones.
La idea de datos agrupados tiene que ver con definir un conjunto de clases que identifican de manera organizada un conjunto de datos.
Los datos no agrupados es el conjunto de observaciones que se presentan en su forma original tal y como fueron recolectados, para obtener información directamente de ellos.
Los datos no agrupados es un conjunto de información si ningún orden que no nos establece relación clara con lo que se pretende desarrollar a lo largo de un problema, esto se soluciona mediante una tabulación que conduce a una tabla de frecuencias.
Los valores agrupados son datos que se dan en intervalos de clase, en un rango, como cuando se resumen para una distribución de frecuencias.
La frecuencia o la frecuencia absoluta es el número de veces que aparece un determinado valor en un estudio estadístico El número de repeticiones de un valor dentro de una muestra o población. Se cuenta el número de veces que aparece. La suma de las frecuencias absolutas es igual al número total de datos o sea n.
La relación de la frecuencia con respeto al número de elementos n. Es el cociente entre la frecuencia absoluta de un determinado valor y el número total de datos. La suma de la frecuencia relativa es 1.
Es la representación porcentual de la frecuencia relativa con respecto al 100%, es decir multiplicar la frecuencia relativa por 100. La suma de la frecuencia porcentual (%) debe ser el 100%.
Define la sumatoria parcial y total de la frecuencia, puede ser la frecuencia absoluta, relativa o la porcentual.
Las clases definen los valores únicos del conjunto de datos o un intervalo que define y agrupa cierto conjunto de datos. Las clases clasifican y agrupan el total de los datos.
Los límites de clase son los valores mínimos y máximos de una clase, los intervalos de clase es la diferencia entre límite superior y límite inferior y los pintos medios es el valor medio entre cada rango de cada clase.
La regla de Sturges es un criterio utilizado para determinar el número de clases o intervalos que son necesarios para representar gráficamente un conjunto de datos estadísticos.
La fórmula para calcular el número de clases de acuerdo a Sturges es:
\[ k=1+3.322\cdot log10(N) \]
k es el número de clases.
N es el número total de observaciones de la muestra.
Log es el logaritmo común de base 10.
El rango de clase de acuerdo a Sturges está dada por: \[ h=\frac{max(datos) - min(datos)}{k} \]
\[ k=3.5\cdot S \cdot n^{-1/3} \] * S es la desviación estándar * n el total de elementos
\[ k = 2 \cdot IQ \cdot n ^ {-\frac{1}{3}} \]
library(fdth) # Tablas de frecuencia
library(ggplot2) # Visualizar datos
Sembrar semilla
set.seed(22041315)
n = 300
edades <- sample(x = 18:28, size = n, replace = TRUE)
generos <- sample(x = c('FEMENINO', 'MASCULINO'), size = n, replace = TRUE)
datos <- data.frame(edades, generos)
La función head() y describe o muestra la cantidad de observaciones de los que se especifica, los primeros registros.
head(datos, 10)
## edades generos
## 1 23 MASCULINO
## 2 25 FEMENINO
## 3 21 MASCULINO
## 4 18 MASCULINO
## 5 22 FEMENINO
## 6 24 FEMENINO
## 7 18 MASCULINO
## 8 23 MASCULINO
## 9 25 MASCULINO
## 10 26 MASCULINO
La función tail() muestra los últimos registros que se especifican.
tail(datos, 10)
## edades generos
## 291 23 MASCULINO
## 292 18 FEMENINO
## 293 21 FEMENINO
## 294 25 MASCULINO
## 295 18 FEMENINO
## 296 24 MASCULINO
## 297 26 MASCULINO
## 298 25 MASCULINO
## 299 23 FEMENINO
## 300 25 FEMENINO
Se utiliza la variable de interés edades del conjunto de datos
tabla.frec.edades1 <- fdt(x = datos$edades, breaks = "Sturges")
tabla.frec.edades1
## Class limits f rf rf(%) cf cf(%)
## [17.82,18.866) 27 0.09 9.00 27 9.00
## [18.866,19.912) 34 0.11 11.33 61 20.33
## [19.912,20.958) 21 0.07 7.00 82 27.33
## [20.958,22.004) 48 0.16 16.00 130 43.33
## [22.004,23.05) 25 0.08 8.33 155 51.67
## [23.05,24.096) 35 0.12 11.67 190 63.33
## [24.096,25.142) 25 0.08 8.33 215 71.67
## [25.142,26.188) 36 0.12 12.00 251 83.67
## [26.188,27.234) 29 0.10 9.67 280 93.33
## [27.234,28.28) 20 0.07 6.67 300 100.00
tabla.frec.edades2 <- fdt(x = datos$edades, start = min(datos$edades)-1, end = max(datos$edades)+1, h = 1)
tabla.frec.edades2
## Class limits f rf rf(%) cf cf(%)
## [17,18) 0 0.00 0.00 0 0.00
## [18,19) 27 0.09 9.00 27 9.00
## [19,20) 34 0.11 11.33 61 20.33
## [20,21) 21 0.07 7.00 82 27.33
## [21,22) 26 0.09 8.67 108 36.00
## [22,23) 22 0.07 7.33 130 43.33
## [23,24) 25 0.08 8.33 155 51.67
## [24,25) 35 0.12 11.67 190 63.33
## [25,26) 25 0.08 8.33 215 71.67
## [26,27) 36 0.12 12.00 251 83.67
## [27,28) 29 0.10 9.67 280 93.33
## [28,29) 20 0.07 6.67 300 100.00
Un histograma es un representación gráfica organizada que describe frecuencias de clases de datos numéricos en forma de barra.
ggplot(data = datos) +
geom_histogram(aes(x = edades), fill = "blue", binwidth = 0.5)
La función hist() no requiere librería y se puede utilizar directamente para representar un histograma y determina frecuencia. En este ejemplo con valores similares a la tabla.frec.edades2.
hist(datos$edades, breaks = (min(edades)-1):(max(edades)+1), main = "Histograma edades de 18 a 28", xlab = "Edades", ylab = "Frecuencia")
La función stem() representa un digrama de tallo y hoja. El diagrama de tallo y hoja identifica frecuencias de clases en formato textual.
stem(datos$edades)
##
## The decimal point is at the |
##
## 18 | 000000000000000000000000000
## 19 | 0000000000000000000000000000000000
## 20 | 000000000000000000000
## 21 | 00000000000000000000000000
## 22 | 0000000000000000000000
## 23 | 0000000000000000000000000
## 24 | 00000000000000000000000000000000000
## 25 | 0000000000000000000000000
## 26 | 000000000000000000000000000000000000
## 27 | 00000000000000000000000000000
## 28 | 00000000000000000000
Acumulado con tabla2
# Pendiente
ggplot() +
geom_line(aes(x = tabla.frec.edades2$table$`Class limits`, y = tabla.frec.edades2$table$cf))+
geom_point(aes(x = tabla.frec.edades2$table$`Class limits`, y = tabla.frec.edades2$table$cf))
## `geom_line()`: Each group consists of only one observation.
## ℹ Do you need to adjust the group aesthetic?
Se utiliza la variable de interés generos del conjunto de datos
tabla.frec.generos <- fdt_cat(datos$generos)
tabla.frec.generos
## Category f rf rf(%) cf cf(%)
## FEMENINO 160 0.53 53.33 160 53.33
## MASCULINO 140 0.47 46.67 300 100.00
ggplot(data = datos) +
geom_bar(aes(x = generos))
¿Que sucede si se modifica la semilla set.seed(4 dígitos de su número de control) por ejemplo set.seed(0734) que es el mio?
Solo cambia la generarción aleatoria de números que nos sueltan los datos.
Modifiquen la semilla para que cada uno de ustedes tenga diferentes muestras.
Contesten las siguientes preguntas:
Para qué sirve la función set.seed() y la función sample() respectivamente
La función set.seed sirve pára la generación de números aleatorios de un respectivo grupo, y la función sample muestra, valga la redundancia, una muestra de un grupo de datos diciendo los valores que se quieran colocar.
Para que sirve la función fdth()
La función se utiliza con su respectiva librería y cuando se invoca lo que nos arroja de resultado son las tablas de frecuencias de los datos requeridos.
Al crear la tabla1 con la variable edades de acuerdo a Sturges, ¿cuál es la clase con mayor y menor frecuencia?
La clase con mayor frecuencia es la de los límites de, 20.958,22.004, y la de menor es de los límites, 27.234,28.28.
Al crear la tabla2 con la variable edades ¿cuál es la clase con mayor y menor frrecuencia?
La de mayor es de los límites, 23,24, y la de menor es la de los límites, 17,18.
Cuál es la diferencia entre un histograma y un diagrama de barra?.
Resp. El histograma visualiza frecuencias de variables numéricas (edades) y la gráfica de barra refleja frecuencias de variables categóricias (variable generos que es una cadena de carecteres tipo String).
Qué representa un diagrama de tallo y hoja?, con este diagrama de tallo y hoja, ¿cuál es el valor numérico de edades con mayor frecuencia y cuál es e valor numérico de la variabe edades con menor frecuencia
Con respecto a la variable generos ¿qué hay más hombres o mujeres?, de acuerdo a sus datos. MASCULINO = Hombres, FEMENINO = Mujeres?
Existen mas personas del genero FEMENINO según lo que nos índica la gráfica colocando ctrl f y colocando el nombre.
tail(datos, 300)
## edades generos
## 1 23 MASCULINO
## 2 25 FEMENINO
## 3 21 MASCULINO
## 4 18 MASCULINO
## 5 22 FEMENINO
## 6 24 FEMENINO
## 7 18 MASCULINO
## 8 23 MASCULINO
## 9 25 MASCULINO
## 10 26 MASCULINO
## 11 26 MASCULINO
## 12 24 MASCULINO
## 13 23 MASCULINO
## 14 26 FEMENINO
## 15 24 FEMENINO
## 16 20 FEMENINO
## 17 27 MASCULINO
## 18 21 MASCULINO
## 19 19 MASCULINO
## 20 23 FEMENINO
## 21 23 MASCULINO
## 22 28 MASCULINO
## 23 25 FEMENINO
## 24 24 FEMENINO
## 25 19 FEMENINO
## 26 24 FEMENINO
## 27 19 FEMENINO
## 28 24 MASCULINO
## 29 26 FEMENINO
## 30 20 FEMENINO
## 31 24 FEMENINO
## 32 20 MASCULINO
## 33 22 MASCULINO
## 34 18 FEMENINO
## 35 24 FEMENINO
## 36 19 MASCULINO
## 37 19 MASCULINO
## 38 21 FEMENINO
## 39 24 MASCULINO
## 40 26 FEMENINO
## 41 25 FEMENINO
## 42 28 FEMENINO
## 43 22 FEMENINO
## 44 26 FEMENINO
## 45 20 MASCULINO
## 46 26 FEMENINO
## 47 21 FEMENINO
## 48 26 FEMENINO
## 49 19 FEMENINO
## 50 20 MASCULINO
## 51 19 MASCULINO
## 52 19 FEMENINO
## 53 24 FEMENINO
## 54 21 MASCULINO
## 55 27 MASCULINO
## 56 18 MASCULINO
## 57 27 MASCULINO
## 58 25 FEMENINO
## 59 27 FEMENINO
## 60 19 FEMENINO
## 61 20 MASCULINO
## 62 24 FEMENINO
## 63 19 FEMENINO
## 64 24 FEMENINO
## 65 27 MASCULINO
## 66 20 FEMENINO
## 67 25 FEMENINO
## 68 18 FEMENINO
## 69 27 FEMENINO
## 70 26 FEMENINO
## 71 21 MASCULINO
## 72 22 MASCULINO
## 73 28 FEMENINO
## 74 20 MASCULINO
## 75 20 MASCULINO
## 76 22 FEMENINO
## 77 18 MASCULINO
## 78 27 MASCULINO
## 79 19 FEMENINO
## 80 19 FEMENINO
## 81 20 MASCULINO
## 82 25 FEMENINO
## 83 26 FEMENINO
## 84 24 MASCULINO
## 85 26 MASCULINO
## 86 24 FEMENINO
## 87 26 MASCULINO
## 88 28 FEMENINO
## 89 18 FEMENINO
## 90 18 FEMENINO
## 91 18 MASCULINO
## 92 24 FEMENINO
## 93 20 MASCULINO
## 94 25 MASCULINO
## 95 21 FEMENINO
## 96 22 FEMENINO
## 97 19 MASCULINO
## 98 19 MASCULINO
## 99 18 FEMENINO
## 100 19 MASCULINO
## 101 22 MASCULINO
## 102 22 FEMENINO
## 103 23 FEMENINO
## 104 26 FEMENINO
## 105 24 FEMENINO
## 106 25 MASCULINO
## 107 18 FEMENINO
## 108 24 MASCULINO
## 109 21 FEMENINO
## 110 27 FEMENINO
## 111 20 MASCULINO
## 112 27 FEMENINO
## 113 23 FEMENINO
## 114 27 MASCULINO
## 115 23 FEMENINO
## 116 24 FEMENINO
## 117 27 MASCULINO
## 118 28 MASCULINO
## 119 28 FEMENINO
## 120 20 MASCULINO
## 121 28 MASCULINO
## 122 18 FEMENINO
## 123 24 MASCULINO
## 124 26 FEMENINO
## 125 18 FEMENINO
## 126 26 MASCULINO
## 127 23 FEMENINO
## 128 28 FEMENINO
## 129 24 FEMENINO
## 130 19 FEMENINO
## 131 19 MASCULINO
## 132 24 FEMENINO
## 133 20 FEMENINO
## 134 21 FEMENINO
## 135 23 FEMENINO
## 136 25 MASCULINO
## 137 24 FEMENINO
## 138 25 FEMENINO
## 139 21 MASCULINO
## 140 27 MASCULINO
## 141 25 MASCULINO
## 142 24 MASCULINO
## 143 25 MASCULINO
## 144 25 MASCULINO
## 145 28 FEMENINO
## 146 26 MASCULINO
## 147 23 MASCULINO
## 148 26 FEMENINO
## 149 25 MASCULINO
## 150 25 FEMENINO
## 151 23 FEMENINO
## 152 23 MASCULINO
## 153 27 FEMENINO
## 154 27 MASCULINO
## 155 22 FEMENINO
## 156 20 FEMENINO
## 157 21 FEMENINO
## 158 28 FEMENINO
## 159 28 MASCULINO
## 160 24 FEMENINO
## 161 21 MASCULINO
## 162 24 MASCULINO
## 163 26 MASCULINO
## 164 26 FEMENINO
## 165 21 MASCULINO
## 166 22 MASCULINO
## 167 27 MASCULINO
## 168 25 MASCULINO
## 169 22 MASCULINO
## 170 23 FEMENINO
## 171 22 MASCULINO
## 172 27 MASCULINO
## 173 27 FEMENINO
## 174 25 FEMENINO
## 175 28 FEMENINO
## 176 24 FEMENINO
## 177 21 FEMENINO
## 178 26 MASCULINO
## 179 18 FEMENINO
## 180 18 MASCULINO
## 181 25 MASCULINO
## 182 22 MASCULINO
## 183 27 FEMENINO
## 184 27 MASCULINO
## 185 20 MASCULINO
## 186 18 MASCULINO
## 187 22 MASCULINO
## 188 26 MASCULINO
## 189 21 MASCULINO
## 190 22 MASCULINO
## 191 26 FEMENINO
## 192 24 FEMENINO
## 193 24 MASCULINO
## 194 19 FEMENINO
## 195 19 FEMENINO
## 196 19 FEMENINO
## 197 26 FEMENINO
## 198 21 FEMENINO
## 199 19 FEMENINO
## 200 22 MASCULINO
## 201 20 MASCULINO
## 202 22 FEMENINO
## 203 22 FEMENINO
## 204 26 MASCULINO
## 205 24 FEMENINO
## 206 26 MASCULINO
## 207 23 FEMENINO
## 208 22 FEMENINO
## 209 23 MASCULINO
## 210 28 FEMENINO
## 211 21 MASCULINO
## 212 18 FEMENINO
## 213 26 MASCULINO
## 214 24 FEMENINO
## 215 19 MASCULINO
## 216 26 FEMENINO
## 217 23 MASCULINO
## 218 19 FEMENINO
## 219 27 MASCULINO
## 220 26 FEMENINO
## 221 20 FEMENINO
## 222 28 FEMENINO
## 223 21 FEMENINO
## 224 23 FEMENINO
## 225 19 FEMENINO
## 226 25 MASCULINO
## 227 18 MASCULINO
## 228 26 FEMENINO
## 229 19 FEMENINO
## 230 19 FEMENINO
## 231 19 FEMENINO
## 232 23 MASCULINO
## 233 18 MASCULINO
## 234 27 FEMENINO
## 235 26 MASCULINO
## 236 28 MASCULINO
## 237 28 FEMENINO
## 238 18 MASCULINO
## 239 23 FEMENINO
## 240 23 FEMENINO
## 241 26 FEMENINO
## 242 18 MASCULINO
## 243 19 MASCULINO
## 244 27 FEMENINO
## 245 24 MASCULINO
## 246 19 FEMENINO
## 247 26 MASCULINO
## 248 23 MASCULINO
## 249 26 FEMENINO
## 250 18 MASCULINO
## 251 18 FEMENINO
## 252 25 MASCULINO
## 253 20 MASCULINO
## 254 19 FEMENINO
## 255 21 FEMENINO
## 256 21 FEMENINO
## 257 22 MASCULINO
## 258 27 FEMENINO
## 259 27 MASCULINO
## 260 18 FEMENINO
## 261 19 FEMENINO
## 262 20 MASCULINO
## 263 26 MASCULINO
## 264 19 FEMENINO
## 265 28 FEMENINO
## 266 24 MASCULINO
## 267 27 FEMENINO
## 268 23 FEMENINO
## 269 28 FEMENINO
## 270 21 MASCULINO
## 271 22 MASCULINO
## 272 28 MASCULINO
## 273 21 MASCULINO
## 274 27 MASCULINO
## 275 22 MASCULINO
## 276 26 FEMENINO
## 277 27 FEMENINO
## 278 19 FEMENINO
## 279 20 FEMENINO
## 280 21 FEMENINO
## 281 28 FEMENINO
## 282 24 FEMENINO
## 283 19 FEMENINO
## 284 24 MASCULINO
## 285 27 MASCULINO
## 286 25 MASCULINO
## 287 27 MASCULINO
## 288 21 FEMENINO
## 289 18 MASCULINO
## 290 21 MASCULINO
## 291 23 MASCULINO
## 292 18 FEMENINO
## 293 21 FEMENINO
## 294 25 MASCULINO
## 295 18 FEMENINO
## 296 24 MASCULINO
## 297 26 MASCULINO
## 298 25 MASCULINO
## 299 23 FEMENINO
## 300 25 FEMENINO
Además de responder a las preguntas y puntos anteriores, describe un párrafo con tus palabras (4 renglones) de que es lo que deja el caso?
El caso es muy ytil para la generación de datos en mayoría y general una muestra de los datos que generalmente se preguntan tales las tipos de frecuencias de un grupo de datos la cual nos la representan con la función fdt, ésta nos la representan con los nombres:
#f= frecuencia absoluta
#rf= frecuencia relativa
#rf(%) frecuencia relativa porcentual
#cf= frecuencia acumulada
#cf(%)=frecuencia acumulada porcentual
Fuente:https://osoramirez.github.io/R_Para_Biologos/distribucion-de-frecuencias.html