1 OBJETIVO

Agrupar datos y describir datos visualmente de variables de edades y géneros usando función fdt y fdt_cat de la librería fdth

2 DESCRIPCIÓN

  • Se cargan librerías adecuadas del caso

  • Se construyen y simulan datos con dos variables de interés: edades y géneros de personas.

  • Se determinan las clases para construir tablas de frecuencias de los datos a partir de las variables de interés: edades y géneros.

  • Se visualizan frecuencias con histograma y gráfico de tallo y hoja para datos numéricos (edades) y gráfico de barra para datos categóricos o te tipo carácter (géneros).

Se interpreta el caso.

3 FUNDAMENTO TEÓRICO.

3.1 Datos agrupados

Los datos agrupados y no agrupados se les llaman en estadística a la manera de representar y analizar la información que has reunido o que dispones.

La idea de datos agrupados tiene que ver con definir un conjunto de clases que identifican de manera organizada un conjunto de datos.

Los datos no agrupados es el conjunto de observaciones que se presentan en su forma original tal y como fueron recolectados, para obtener información directamente de ellos.

Los datos no agrupados es un conjunto de información si ningún orden que no nos establece relación clara con lo que se pretende desarrollar a lo largo de un problema, esto se soluciona mediante una tabulación que conduce a una tabla de frecuencias.

Los valores agrupados son datos que se dan en intervalos de clase, en un rango, como cuando se resumen para una distribución de frecuencias.

3.2 Frecuencia

La frecuencia o la frecuencia absoluta es el número de veces que aparece un determinado valor en un estudio estadístico El número de repeticiones de un valor dentro de una muestra o población. Se cuenta el número de veces que aparece. La suma de las frecuencias absolutas es igual al número total de datos o sea n.

3.3 Frecuencia relativa

La relación de la frecuencia con respecto al número de elementos n, es el cociente entre la frecuencia absoluta de un determinado valor y el número total de datos. La suma de la frecuencia relativa es 1.

3.4 Frecuencia porcentual

Es la representación porcentual de la frecuencia relativa con respecto al 100%, es decir multiplicar la frecuencia relativa por 100. La suma de la frecuencia porcentual (%) debe ser el 100%.

3.5 Frecuencia acumulada

Define la sumatoria parcial y total de la frecuencia, puede ser la frecuencia absoluta, relativa o la porcentual.

3.6 Clases

Las clases definen los valores únicos del conjunto de datos o un intervalo que define y agrupa cierto conjunto de datos. Las clases clasifican y agrupan el total de los datos.

3.7 Puntos medios y límites

Los límites de clase son los valores minímos y máximos de una clase, los intervalos de clase es la diferencia entre el límite superior y el límite inferior, y los puntos medios es el valor medio entre cada rango de cada clase.

3.8 Fórmulas para determinar las clases

3.8.1 Regla de Sturges

La regla de Sturges es un criterio utilizado para determinar el número de clases o intervalos que son necesarios para representar gráficamente un conjunto de datos estadísticos.

La fórmula para calcular el número de clases de acuerdo a Sturges es:

\[ k = 1 + 3.22 ⋅ log(N) \]

  • k es el número de clases.

  • N es el número total de observaciones de la muestra.

  • Log es el logaritmo común de base 10

El rango de las clases de acuerdo con Sturges está dada por:

$$ h =

$$

3.8.2 Regla de Scott

\[ k = 3.5\cdot S \cdot n^{-1/3} \]

S = La desviación estándar

n = Total de elementos

3.8.3 Regla de Freedman & Diaconis (FD)

\[ k = 2 \cdot IQ \cdot n ^ {-\frac{1}{3}} \]

IQ = Rango intercuartílico

n = total de datos

4 DESARROLLO

4.1 Cargar librerias:

library("fdth")
library("ggplot2")

4.2 Crear datos:

set.seed(18022)
n = 300
edades <- sample(x = 18:28, size = n,replace = TRUE)
generos <- sample(x = c('FEMENINO', 'MASCULINO'), size = n, replace = TRUE)
datos <- data.frame(edades, generos)
datos
##     edades   generos
## 1       18 MASCULINO
## 2       24 MASCULINO
## 3       19  FEMENINO
## 4       28  FEMENINO
## 5       25  FEMENINO
## 6       28  FEMENINO
## 7       20  FEMENINO
## 8       24 MASCULINO
## 9       23  FEMENINO
## 10      22  FEMENINO
## 11      22  FEMENINO
## 12      20 MASCULINO
## 13      27  FEMENINO
## 14      19 MASCULINO
## 15      23  FEMENINO
## 16      27  FEMENINO
## 17      25 MASCULINO
## 18      22 MASCULINO
## 19      25 MASCULINO
## 20      22  FEMENINO
## 21      18  FEMENINO
## 22      24  FEMENINO
## 23      20  FEMENINO
## 24      23 MASCULINO
## 25      21 MASCULINO
## 26      22  FEMENINO
## 27      21 MASCULINO
## 28      28 MASCULINO
## 29      22  FEMENINO
## 30      27  FEMENINO
## 31      23  FEMENINO
## 32      25  FEMENINO
## 33      22 MASCULINO
## 34      23 MASCULINO
## 35      24 MASCULINO
## 36      20  FEMENINO
## 37      28 MASCULINO
## 38      26 MASCULINO
## 39      20  FEMENINO
## 40      28  FEMENINO
## 41      22 MASCULINO
## 42      21 MASCULINO
## 43      27  FEMENINO
## 44      20 MASCULINO
## 45      21  FEMENINO
## 46      27  FEMENINO
## 47      18 MASCULINO
## 48      28  FEMENINO
## 49      26  FEMENINO
## 50      26 MASCULINO
## 51      20  FEMENINO
## 52      25 MASCULINO
## 53      27 MASCULINO
## 54      28  FEMENINO
## 55      24  FEMENINO
## 56      18 MASCULINO
## 57      26 MASCULINO
## 58      23 MASCULINO
## 59      24  FEMENINO
## 60      20  FEMENINO
## 61      22 MASCULINO
## 62      20 MASCULINO
## 63      19 MASCULINO
## 64      28  FEMENINO
## 65      20  FEMENINO
## 66      20 MASCULINO
## 67      22 MASCULINO
## 68      22  FEMENINO
## 69      28  FEMENINO
## 70      18 MASCULINO
## 71      22  FEMENINO
## 72      20  FEMENINO
## 73      21 MASCULINO
## 74      19 MASCULINO
## 75      20  FEMENINO
## 76      19 MASCULINO
## 77      22 MASCULINO
## 78      21  FEMENINO
## 79      19 MASCULINO
## 80      28  FEMENINO
## 81      25  FEMENINO
## 82      27 MASCULINO
## 83      27 MASCULINO
## 84      26  FEMENINO
## 85      18 MASCULINO
## 86      23  FEMENINO
## 87      23 MASCULINO
## 88      24  FEMENINO
## 89      25  FEMENINO
## 90      27  FEMENINO
## 91      18 MASCULINO
## 92      28  FEMENINO
## 93      20  FEMENINO
## 94      28  FEMENINO
## 95      18 MASCULINO
## 96      27 MASCULINO
## 97      25  FEMENINO
## 98      21 MASCULINO
## 99      27  FEMENINO
## 100     28 MASCULINO
## 101     21 MASCULINO
## 102     20 MASCULINO
## 103     22  FEMENINO
## 104     23  FEMENINO
## 105     19  FEMENINO
## 106     22 MASCULINO
## 107     18  FEMENINO
## 108     20 MASCULINO
## 109     22 MASCULINO
## 110     19  FEMENINO
## 111     24 MASCULINO
## 112     21 MASCULINO
## 113     23  FEMENINO
## 114     26  FEMENINO
## 115     19 MASCULINO
## 116     18 MASCULINO
## 117     26 MASCULINO
## 118     18 MASCULINO
## 119     20  FEMENINO
## 120     23 MASCULINO
## 121     27 MASCULINO
## 122     19 MASCULINO
## 123     20  FEMENINO
## 124     25 MASCULINO
## 125     26 MASCULINO
## 126     20  FEMENINO
## 127     28  FEMENINO
## 128     27 MASCULINO
## 129     24 MASCULINO
## 130     27  FEMENINO
## 131     24  FEMENINO
## 132     21  FEMENINO
## 133     23 MASCULINO
## 134     25 MASCULINO
## 135     26 MASCULINO
## 136     18  FEMENINO
## 137     24 MASCULINO
## 138     22  FEMENINO
## 139     23 MASCULINO
## 140     19  FEMENINO
## 141     28  FEMENINO
## 142     23  FEMENINO
## 143     23  FEMENINO
## 144     21  FEMENINO
## 145     23  FEMENINO
## 146     27  FEMENINO
## 147     18  FEMENINO
## 148     22 MASCULINO
## 149     20  FEMENINO
## 150     25  FEMENINO
## 151     26  FEMENINO
## 152     28  FEMENINO
## 153     23  FEMENINO
## 154     26  FEMENINO
## 155     22  FEMENINO
## 156     28 MASCULINO
## 157     26  FEMENINO
## 158     24 MASCULINO
## 159     25  FEMENINO
## 160     20 MASCULINO
## 161     22 MASCULINO
## 162     21  FEMENINO
## 163     23 MASCULINO
## 164     21 MASCULINO
## 165     27 MASCULINO
## 166     21 MASCULINO
## 167     19 MASCULINO
## 168     26  FEMENINO
## 169     18 MASCULINO
## 170     26  FEMENINO
## 171     23  FEMENINO
## 172     18  FEMENINO
## 173     20  FEMENINO
## 174     18  FEMENINO
## 175     25  FEMENINO
## 176     22  FEMENINO
## 177     23 MASCULINO
## 178     28  FEMENINO
## 179     25 MASCULINO
## 180     26 MASCULINO
## 181     18 MASCULINO
## 182     20  FEMENINO
## 183     24  FEMENINO
## 184     27 MASCULINO
## 185     26  FEMENINO
## 186     19  FEMENINO
## 187     24 MASCULINO
## 188     23  FEMENINO
## 189     27 MASCULINO
## 190     20 MASCULINO
## 191     28 MASCULINO
## 192     23 MASCULINO
## 193     28  FEMENINO
## 194     22  FEMENINO
## 195     28 MASCULINO
## 196     26 MASCULINO
## 197     22 MASCULINO
## 198     19  FEMENINO
## 199     22 MASCULINO
## 200     23 MASCULINO
## 201     23  FEMENINO
## 202     23  FEMENINO
## 203     20 MASCULINO
## 204     28 MASCULINO
## 205     21 MASCULINO
## 206     19 MASCULINO
## 207     21  FEMENINO
## 208     25 MASCULINO
## 209     25 MASCULINO
## 210     21  FEMENINO
## 211     25  FEMENINO
## 212     19  FEMENINO
## 213     20 MASCULINO
## 214     18  FEMENINO
## 215     19 MASCULINO
## 216     19 MASCULINO
## 217     18 MASCULINO
## 218     23 MASCULINO
## 219     19  FEMENINO
## 220     21  FEMENINO
## 221     20  FEMENINO
## 222     19  FEMENINO
## 223     27  FEMENINO
## 224     22  FEMENINO
## 225     18  FEMENINO
## 226     19  FEMENINO
## 227     27  FEMENINO
## 228     28 MASCULINO
## 229     23 MASCULINO
## 230     23 MASCULINO
## 231     27 MASCULINO
## 232     23 MASCULINO
## 233     28 MASCULINO
## 234     18  FEMENINO
## 235     22  FEMENINO
## 236     22 MASCULINO
## 237     18  FEMENINO
## 238     27 MASCULINO
## 239     21  FEMENINO
## 240     25 MASCULINO
## 241     25 MASCULINO
## 242     22 MASCULINO
## 243     25  FEMENINO
## 244     27  FEMENINO
## 245     19 MASCULINO
## 246     24  FEMENINO
## 247     19 MASCULINO
## 248     21 MASCULINO
## 249     19  FEMENINO
## 250     18 MASCULINO
## 251     26 MASCULINO
## 252     24 MASCULINO
## 253     27 MASCULINO
## 254     21  FEMENINO
## 255     26  FEMENINO
## 256     23  FEMENINO
## 257     22 MASCULINO
## 258     24  FEMENINO
## 259     26 MASCULINO
## 260     21  FEMENINO
## 261     26 MASCULINO
## 262     27 MASCULINO
## 263     26 MASCULINO
## 264     28 MASCULINO
## 265     18  FEMENINO
## 266     25 MASCULINO
## 267     28 MASCULINO
## 268     28  FEMENINO
## 269     27  FEMENINO
## 270     19  FEMENINO
## 271     25 MASCULINO
## 272     21  FEMENINO
## 273     22  FEMENINO
## 274     21 MASCULINO
## 275     20 MASCULINO
## 276     27 MASCULINO
## 277     23  FEMENINO
## 278     26  FEMENINO
## 279     22  FEMENINO
## 280     27  FEMENINO
## 281     21 MASCULINO
## 282     20  FEMENINO
## 283     19  FEMENINO
## 284     24 MASCULINO
## 285     25 MASCULINO
## 286     22  FEMENINO
## 287     18 MASCULINO
## 288     21 MASCULINO
## 289     27 MASCULINO
## 290     28 MASCULINO
## 291     24 MASCULINO
## 292     21  FEMENINO
## 293     20 MASCULINO
## 294     22  FEMENINO
## 295     20 MASCULINO
## 296     21 MASCULINO
## 297     27  FEMENINO
## 298     25 MASCULINO
## 299     25  FEMENINO
## 300     28  FEMENINO

4.3 Mostrar datos

4.3.1 Primeros 10 datos:

head(datos, 10)
##    edades   generos
## 1      18 MASCULINO
## 2      24 MASCULINO
## 3      19  FEMENINO
## 4      28  FEMENINO
## 5      25  FEMENINO
## 6      28  FEMENINO
## 7      20  FEMENINO
## 8      24 MASCULINO
## 9      23  FEMENINO
## 10     22  FEMENINO

4.3.2 Últimos 10 datos:

tail(datos,10)
##     edades   generos
## 291     24 MASCULINO
## 292     21  FEMENINO
## 293     20 MASCULINO
## 294     22  FEMENINO
## 295     20 MASCULINO
## 296     21 MASCULINO
## 297     27  FEMENINO
## 298     25 MASCULINO
## 299     25  FEMENINO
## 300     28  FEMENINO

4.3.3 Crear tabla de frecuencia y visualizar datos:

4.3.3.1 Variable edades:

4.3.3.1.1 Según Sturges:
tabla.frec.edades <- fdt(x = datos$edades, breaks = "Sturges")
tabla.frec.edades
##     Class limits  f   rf rf(%)  cf  cf(%)
##   [17.82,18.866) 25 0.08  8.33  25   8.33
##  [18.866,19.912) 26 0.09  8.67  51  17.00
##  [19.912,20.958) 31 0.10 10.33  82  27.33
##  [20.958,22.004) 61 0.20 20.33 143  47.67
##   [22.004,23.05) 31 0.10 10.33 174  58.00
##   [23.05,24.096) 19 0.06  6.33 193  64.33
##  [24.096,25.142) 25 0.08  8.33 218  72.67
##  [25.142,26.188) 23 0.08  7.67 241  80.33
##  [26.188,27.234) 30 0.10 10.00 271  90.33
##   [27.234,28.28) 29 0.10  9.67 300 100.00
4.3.3.1.2 Otra forma de crear la tabla de frecuencias:
tabla.frec.edades2 <- fdt(x = datos$edades, start = 18-1, end = 28+1, h = 1)
tabla.frec.edades2
##  Class limits  f   rf rf(%)  cf  cf(%)
##       [17,18)  0 0.00  0.00   0   0.00
##       [18,19) 25 0.08  8.33  25   8.33
##       [19,20) 26 0.09  8.67  51  17.00
##       [20,21) 31 0.10 10.33  82  27.33
##       [21,22) 28 0.09  9.33 110  36.67
##       [22,23) 33 0.11 11.00 143  47.67
##       [23,24) 31 0.10 10.33 174  58.00
##       [24,25) 19 0.06  6.33 193  64.33
##       [25,26) 25 0.08  8.33 218  72.67
##       [26,27) 23 0.08  7.67 241  80.33
##       [27,28) 30 0.10 10.00 271  90.33
##       [28,29) 29 0.10  9.67 300 100.00

4.3.3.2 Histograma

ggplot(data = datos) + geom_histogram(aes(x = edades), bins = 30 )

4.3.3.3 Diagrama de tallo y hoja

La función stem() representan un diagrama de tallo y hoja. El diagrama de tallo y hoja identifica frecuencias de clases en formato textual.

stem(datos$edades)
## 
##   The decimal point is at the |
## 
##   18 | 0000000000000000000000000
##   19 | 00000000000000000000000000
##   20 | 0000000000000000000000000000000
##   21 | 0000000000000000000000000000
##   22 | 000000000000000000000000000000000
##   23 | 0000000000000000000000000000000
##   24 | 0000000000000000000
##   25 | 0000000000000000000000000
##   26 | 00000000000000000000000
##   27 | 000000000000000000000000000000
##   28 | 00000000000000000000000000000

4.3.3.4 Variable géneros

Se utiliza la variable de interés géneros del conjunto de datos.

tabla.frec.gen1 <- fdt_cat(x = datos$generos, breaks = "Sturges")
tabla.frec.gen1
##   Category   f  rf rf(%)  cf  cf(%)
##   FEMENINO 151 0.5 50.33 151  50.33
##  MASCULINO 149 0.5 49.67 300 100.00

4.3.3.5 Gráfica o diagrama de barra

ggplot(data = datos) + geom_bar(aes(x = generos))

5 INTERPRETACIÓN

En esté caso número dos, lo importante fue el concepto de frecuencia, que es cuánto se repite un numero, la frecuencia relativa, que es cuánto se repite un numero con respecto a la total de datos, la frecuencia relativa en porcentaje, y la frecuencia acumulada con su respectivo porcentaje, esto engloba lo que es la tabla de frecuencias; se creó la tabla de frecuencias con la función fdt().

Otro punto importante en este caso fue el uso de gráficas para representar el análisis final de todos los datos, por ejemplo, en el histograma podemos apreciar cuál es la edad que más se repite en este caso es 22 años, se puede apreciar de la misma manera en el diagrama de tallo y hoja que se pudo crear gracias a la función stem(), igualmente cuando se creo la gráfica de barras para representar los datos de géneros, podemos observar que es muy cercano el porcentaje entre femenino y masculino, puesto que la diferencia es únicamente de 0.66%. Cabe destacar que los diagramas de barras e histograma se crearon a través de la función ggplot().