1 Objetivo

Agrupar datos y describir datos visualmente de variables de edades y generos usando función fdt y fdt_cat de la librería fdth.

2 Descripción

Se cargan librerías adecuadas de caso

Se construyen y simulan datos con dos variables de interés edades y géneros de personas.

Se determina las clase para construir tablas de frecuencias de los datos a partir de las variables de interés edades y géneros.

Se visualizan frecuencias con histograma y gráfico de tallo y hoja para datos numéricos (edades) y gráfico de barra para datos categórico o tipo character (géneros).

Se interpreta el caso

3 Fundamento teórico

3.1 Datos agrupados

Los datos agrupados y no agrupados se les llaman en estadística a la manera de representar y analizar la información que has reunido o que dispones.

La idea de datos agrupados tiene que ver con definir un conjunto de clases que identifican de manera organizada un conjunto de datos.

Los datos no agrupados es el conjunto de observaciones que se presentan en su forma original tal y como fueron recolectados, para obtener información directamente de ellos.

Los datos no agrupados es un conjunto de información si ningún orden que no nos establece relación clara con lo que se pretende desarrollar a lo largo de un problema, esto se soluciona mediante una tabulación que conduce a una tabla de frecuencias.

Los valores agrupados son datos que se dan en intervalos de clase, en un rango, como cuando se resumen para una distribución de frecuencias.

3.2 Frecuencia

La frecuencia o la frecuencia absoluta es el número de veces que aparece un determinado valor en un estudio estadístico El número de repeticiones de un valor dentro de una muestra o población. Se cuenta el número de veces que aparece. La suma de las frecuencias absolutas es igual al número total de datos o sea n.

3.3 Frecuencia relativa

La relación de la frecuencia con respeto al número de elementos n. Es el cociente entre la frecuencia absoluta de un determinado valor y el número total de datos. La suma de la frecuencia relativa es 1.

3.4 Frecuencia porcentual

Es la representación porcentual de la frecuencia relativa con respecto al 100%, es decir multiplicar la frecuencia relativa por 100. La suma de la frecuencia porcentual (%) debe ser el 100%.

3.5 Frecuencia acumulada

Define la sumatoria parcial y total de la frecuencia, puede ser la frecuencia absoluta, relativa o la porcentual.

3.6 Clases

Las clases definen los valores únicos del conjunto de datos o un intervalo que define y agrupa cierto conjunto de datos. Las clases clasifican y agrupan el total de los datos.

3.7 Puntos medios y límites

Los límites de clase son los valores mínimos y máximos de una clase, los intervalos de clase es la diferencia entre límite superior y límite inferior y los pintos medios es el valor medio entre cada rango de cada clase.

3.8 Fórmulas para determinar clases

3.8.1 Regla de Sturges

La regla de Sturges es un criterio utilizado para determinar el número de clases o intervalos que son necesarios para representar gráficamente un conjunto de datos estadísticos.

La fórmula para calcular el número de clases de acuerdo a Sturges es:

\[ k=1+3.322\cdot log10(N) \]

  • k es el número de clases.

  • N es el número total de observaciones de la muestra.

  • Log es el logaritmo común de base 10.

El rango de clase de acuerdo a Sturges está dada por: \[ h=\frac{max(datos) - min(datos)}{k} \]

3.8.2 Regla de Scott

\[ k=3.5\cdot S \cdot n^{-1/3} \] * S es la desviación estándar * n el total de elementos

3.8.3 Regla de Freedman & Diaconis (FD)

\[ k = 2 \cdot IQ \cdot n ^ {-\frac{1}{3}} \]

  • IQ es el el rango intercuartílico
  • n es el total de los datos

4 Desarrollo

4.1 Cargar librerías

library(fdth)     # Tablas de frecuencia
library(ggplot2)  # Visualizar datos

4.2 Crear datos

Sembrar semilla

set.seed(22041315)
n = 300
edades <- sample(x = 18:28, size = n, replace = TRUE)
generos <- sample(x = c('FEMENINO', 'MASCULINO'), size = n, replace = TRUE)
datos <- data.frame(edades, generos)

4.3 Mostrar los primeros diez

La función head() y describe o muestra la cantidad de observaciones de los que se especifica, los primeros registros.

head(datos, 10)
##    edades   generos
## 1      23 MASCULINO
## 2      25  FEMENINO
## 3      21 MASCULINO
## 4      18 MASCULINO
## 5      22  FEMENINO
## 6      24  FEMENINO
## 7      18 MASCULINO
## 8      23 MASCULINO
## 9      25 MASCULINO
## 10     26 MASCULINO

4.4 Mostrar los últimos diez

La función tail() muestra los últimos registros que se especifican.

tail(datos, 10)
##     edades   generos
## 291     23 MASCULINO
## 292     18  FEMENINO
## 293     21  FEMENINO
## 294     25 MASCULINO
## 295     18  FEMENINO
## 296     24 MASCULINO
## 297     26 MASCULINO
## 298     25 MASCULINO
## 299     23  FEMENINO
## 300     25  FEMENINO

4.5 Crear tabla de frecuencias y visualizar datos

4.5.1 Variable edades

Se utiliza la variable de interés edades del conjunto de datos

tabla.frec.edades1 <- fdt(x = datos$edades, breaks = "Sturges")
tabla.frec.edades1
##     Class limits  f   rf rf(%)  cf  cf(%)
##   [17.82,18.866) 27 0.09  9.00  27   9.00
##  [18.866,19.912) 34 0.11 11.33  61  20.33
##  [19.912,20.958) 21 0.07  7.00  82  27.33
##  [20.958,22.004) 48 0.16 16.00 130  43.33
##   [22.004,23.05) 25 0.08  8.33 155  51.67
##   [23.05,24.096) 35 0.12 11.67 190  63.33
##  [24.096,25.142) 25 0.08  8.33 215  71.67
##  [25.142,26.188) 36 0.12 12.00 251  83.67
##  [26.188,27.234) 29 0.10  9.67 280  93.33
##   [27.234,28.28) 20 0.07  6.67 300 100.00
tabla.frec.edades2 <- fdt(x = datos$edades, start = min(datos$edades)-1, end = max(datos$edades)+1, h = 1)
tabla.frec.edades2
##  Class limits  f   rf rf(%)  cf  cf(%)
##       [17,18)  0 0.00  0.00   0   0.00
##       [18,19) 27 0.09  9.00  27   9.00
##       [19,20) 34 0.11 11.33  61  20.33
##       [20,21) 21 0.07  7.00  82  27.33
##       [21,22) 26 0.09  8.67 108  36.00
##       [22,23) 22 0.07  7.33 130  43.33
##       [23,24) 25 0.08  8.33 155  51.67
##       [24,25) 35 0.12 11.67 190  63.33
##       [25,26) 25 0.08  8.33 215  71.67
##       [26,27) 36 0.12 12.00 251  83.67
##       [27,28) 29 0.10  9.67 280  93.33
##       [28,29) 20 0.07  6.67 300 100.00

4.5.2 Histograma

Un histograma es un representación gráfica organizada que describe frecuencias de clases de datos numéricos en forma de barra.

ggplot(data = datos) +
  geom_histogram(aes(x = edades), fill = "blue", binwidth = 0.5)

4.5.3 Histograma usando hist()

La función hist() no requiere librería y se puede utilizar directamente para representar un histograma y determina frecuencia. En este ejemplo con valores similares a la tabla.frec.edades2.

hist(datos$edades, breaks = (min(edades)-1):(max(edades)+1), main = "Histograma edades de 18 a 28", xlab = "Edades", ylab = "Frecuencia")

4.5.4 Diagrama de tallo y hoja

La función stem() representa un digrama de tallo y hoja. El diagrama de tallo y hoja identifica frecuencias de clases en formato textual.

stem(datos$edades)
## 
##   The decimal point is at the |
## 
##   18 | 000000000000000000000000000
##   19 | 0000000000000000000000000000000000
##   20 | 000000000000000000000
##   21 | 00000000000000000000000000
##   22 | 0000000000000000000000
##   23 | 0000000000000000000000000
##   24 | 00000000000000000000000000000000000
##   25 | 0000000000000000000000000
##   26 | 000000000000000000000000000000000000
##   27 | 00000000000000000000000000000
##   28 | 00000000000000000000

4.5.5 Gráfica de frecuencia acumulada

Acumulado con tabla2

# Pendiente
ggplot() +
  geom_line(aes(x = tabla.frec.edades2$table$`Class limits`, y = tabla.frec.edades2$table$cf))+
  geom_point(aes(x = tabla.frec.edades2$table$`Class limits`, y = tabla.frec.edades2$table$cf)) 
## `geom_line()`: Each group consists of only one observation.
## ℹ Do you need to adjust the group aesthetic?

4.5.6 Variable generos

Se utiliza la variable de interés generos del conjunto de datos

tabla.frec.generos <- fdt_cat(datos$generos)
tabla.frec.generos
##   Category   f   rf rf(%)  cf  cf(%)
##   FEMENINO 160 0.53 53.33 160  53.33
##  MASCULINO 140 0.47 46.67 300 100.00

4.5.7 Diagrama o gráfica de barra

ggplot(data = datos) +
  geom_bar(aes(x = generos))

5 Interpretación:

¿Que sucede si se modifica la semilla set.seed(4 dígitos de su número de control) por ejemplo set.seed(0734) que es el mio?

Solo cambia la generarción aleatoria de números que nos sueltan los datos.

Modifiquen la semilla para que cada uno de ustedes tenga diferentes muestras.

Contesten las siguientes preguntas:

Para qué sirve la función set.seed() y la función sample() respectivamente

La función set.seed sirve pára la generación de números aleatorios de un respectivo grupo, y la función sample muestra, valga la redundancia, una muestra de un grupo de datos diciendo los valores que se quieran colocar.

Para que sirve la función fdth()

La función se utiliza con su respectiva librería y cuando se invoca lo que nos arroja de resultado son las tablas de frecuencias de los datos requeridos.

Al crear la tabla1 con la variable edades de acuerdo a Sturges, ¿cuál es la clase con mayor y menor frecuencia?

La clase con mayor frecuencia es la de los límites de, 20.958,22.004, y la de menor es de los límites, 27.234,28.28.

Al crear la tabla2 con la variable edades ¿cuál es la clase con mayor y menor frrecuencia?

La de mayor es de los límites, 23,24, y la de menor es la de los límites, 17,18.

Cuál es la diferencia entre un histograma y un diagrama de barra?.

Resp. El histograma visualiza frecuencias de variables numéricas (edades) y la gráfica de barra refleja frecuencias de variables categóricias (variable generos que es una cadena de carecteres tipo String).

Qué representa un diagrama de tallo y hoja?, con este diagrama de tallo y hoja, ¿cuál es el valor numérico de edades con mayor frecuencia y cuál es e valor numérico de la variabe edades con menor frecuencia

Con respecto a la variable generos ¿qué hay más hombres o mujeres?, de acuerdo a sus datos. MASCULINO = Hombres, FEMENINO = Mujeres?

Existen mas personas del genero FEMENINO según lo que nos índica la gráfica colocando ctrl f y colocando el nombre.

tail(datos, 300)
##     edades   generos
## 1       23 MASCULINO
## 2       25  FEMENINO
## 3       21 MASCULINO
## 4       18 MASCULINO
## 5       22  FEMENINO
## 6       24  FEMENINO
## 7       18 MASCULINO
## 8       23 MASCULINO
## 9       25 MASCULINO
## 10      26 MASCULINO
## 11      26 MASCULINO
## 12      24 MASCULINO
## 13      23 MASCULINO
## 14      26  FEMENINO
## 15      24  FEMENINO
## 16      20  FEMENINO
## 17      27 MASCULINO
## 18      21 MASCULINO
## 19      19 MASCULINO
## 20      23  FEMENINO
## 21      23 MASCULINO
## 22      28 MASCULINO
## 23      25  FEMENINO
## 24      24  FEMENINO
## 25      19  FEMENINO
## 26      24  FEMENINO
## 27      19  FEMENINO
## 28      24 MASCULINO
## 29      26  FEMENINO
## 30      20  FEMENINO
## 31      24  FEMENINO
## 32      20 MASCULINO
## 33      22 MASCULINO
## 34      18  FEMENINO
## 35      24  FEMENINO
## 36      19 MASCULINO
## 37      19 MASCULINO
## 38      21  FEMENINO
## 39      24 MASCULINO
## 40      26  FEMENINO
## 41      25  FEMENINO
## 42      28  FEMENINO
## 43      22  FEMENINO
## 44      26  FEMENINO
## 45      20 MASCULINO
## 46      26  FEMENINO
## 47      21  FEMENINO
## 48      26  FEMENINO
## 49      19  FEMENINO
## 50      20 MASCULINO
## 51      19 MASCULINO
## 52      19  FEMENINO
## 53      24  FEMENINO
## 54      21 MASCULINO
## 55      27 MASCULINO
## 56      18 MASCULINO
## 57      27 MASCULINO
## 58      25  FEMENINO
## 59      27  FEMENINO
## 60      19  FEMENINO
## 61      20 MASCULINO
## 62      24  FEMENINO
## 63      19  FEMENINO
## 64      24  FEMENINO
## 65      27 MASCULINO
## 66      20  FEMENINO
## 67      25  FEMENINO
## 68      18  FEMENINO
## 69      27  FEMENINO
## 70      26  FEMENINO
## 71      21 MASCULINO
## 72      22 MASCULINO
## 73      28  FEMENINO
## 74      20 MASCULINO
## 75      20 MASCULINO
## 76      22  FEMENINO
## 77      18 MASCULINO
## 78      27 MASCULINO
## 79      19  FEMENINO
## 80      19  FEMENINO
## 81      20 MASCULINO
## 82      25  FEMENINO
## 83      26  FEMENINO
## 84      24 MASCULINO
## 85      26 MASCULINO
## 86      24  FEMENINO
## 87      26 MASCULINO
## 88      28  FEMENINO
## 89      18  FEMENINO
## 90      18  FEMENINO
## 91      18 MASCULINO
## 92      24  FEMENINO
## 93      20 MASCULINO
## 94      25 MASCULINO
## 95      21  FEMENINO
## 96      22  FEMENINO
## 97      19 MASCULINO
## 98      19 MASCULINO
## 99      18  FEMENINO
## 100     19 MASCULINO
## 101     22 MASCULINO
## 102     22  FEMENINO
## 103     23  FEMENINO
## 104     26  FEMENINO
## 105     24  FEMENINO
## 106     25 MASCULINO
## 107     18  FEMENINO
## 108     24 MASCULINO
## 109     21  FEMENINO
## 110     27  FEMENINO
## 111     20 MASCULINO
## 112     27  FEMENINO
## 113     23  FEMENINO
## 114     27 MASCULINO
## 115     23  FEMENINO
## 116     24  FEMENINO
## 117     27 MASCULINO
## 118     28 MASCULINO
## 119     28  FEMENINO
## 120     20 MASCULINO
## 121     28 MASCULINO
## 122     18  FEMENINO
## 123     24 MASCULINO
## 124     26  FEMENINO
## 125     18  FEMENINO
## 126     26 MASCULINO
## 127     23  FEMENINO
## 128     28  FEMENINO
## 129     24  FEMENINO
## 130     19  FEMENINO
## 131     19 MASCULINO
## 132     24  FEMENINO
## 133     20  FEMENINO
## 134     21  FEMENINO
## 135     23  FEMENINO
## 136     25 MASCULINO
## 137     24  FEMENINO
## 138     25  FEMENINO
## 139     21 MASCULINO
## 140     27 MASCULINO
## 141     25 MASCULINO
## 142     24 MASCULINO
## 143     25 MASCULINO
## 144     25 MASCULINO
## 145     28  FEMENINO
## 146     26 MASCULINO
## 147     23 MASCULINO
## 148     26  FEMENINO
## 149     25 MASCULINO
## 150     25  FEMENINO
## 151     23  FEMENINO
## 152     23 MASCULINO
## 153     27  FEMENINO
## 154     27 MASCULINO
## 155     22  FEMENINO
## 156     20  FEMENINO
## 157     21  FEMENINO
## 158     28  FEMENINO
## 159     28 MASCULINO
## 160     24  FEMENINO
## 161     21 MASCULINO
## 162     24 MASCULINO
## 163     26 MASCULINO
## 164     26  FEMENINO
## 165     21 MASCULINO
## 166     22 MASCULINO
## 167     27 MASCULINO
## 168     25 MASCULINO
## 169     22 MASCULINO
## 170     23  FEMENINO
## 171     22 MASCULINO
## 172     27 MASCULINO
## 173     27  FEMENINO
## 174     25  FEMENINO
## 175     28  FEMENINO
## 176     24  FEMENINO
## 177     21  FEMENINO
## 178     26 MASCULINO
## 179     18  FEMENINO
## 180     18 MASCULINO
## 181     25 MASCULINO
## 182     22 MASCULINO
## 183     27  FEMENINO
## 184     27 MASCULINO
## 185     20 MASCULINO
## 186     18 MASCULINO
## 187     22 MASCULINO
## 188     26 MASCULINO
## 189     21 MASCULINO
## 190     22 MASCULINO
## 191     26  FEMENINO
## 192     24  FEMENINO
## 193     24 MASCULINO
## 194     19  FEMENINO
## 195     19  FEMENINO
## 196     19  FEMENINO
## 197     26  FEMENINO
## 198     21  FEMENINO
## 199     19  FEMENINO
## 200     22 MASCULINO
## 201     20 MASCULINO
## 202     22  FEMENINO
## 203     22  FEMENINO
## 204     26 MASCULINO
## 205     24  FEMENINO
## 206     26 MASCULINO
## 207     23  FEMENINO
## 208     22  FEMENINO
## 209     23 MASCULINO
## 210     28  FEMENINO
## 211     21 MASCULINO
## 212     18  FEMENINO
## 213     26 MASCULINO
## 214     24  FEMENINO
## 215     19 MASCULINO
## 216     26  FEMENINO
## 217     23 MASCULINO
## 218     19  FEMENINO
## 219     27 MASCULINO
## 220     26  FEMENINO
## 221     20  FEMENINO
## 222     28  FEMENINO
## 223     21  FEMENINO
## 224     23  FEMENINO
## 225     19  FEMENINO
## 226     25 MASCULINO
## 227     18 MASCULINO
## 228     26  FEMENINO
## 229     19  FEMENINO
## 230     19  FEMENINO
## 231     19  FEMENINO
## 232     23 MASCULINO
## 233     18 MASCULINO
## 234     27  FEMENINO
## 235     26 MASCULINO
## 236     28 MASCULINO
## 237     28  FEMENINO
## 238     18 MASCULINO
## 239     23  FEMENINO
## 240     23  FEMENINO
## 241     26  FEMENINO
## 242     18 MASCULINO
## 243     19 MASCULINO
## 244     27  FEMENINO
## 245     24 MASCULINO
## 246     19  FEMENINO
## 247     26 MASCULINO
## 248     23 MASCULINO
## 249     26  FEMENINO
## 250     18 MASCULINO
## 251     18  FEMENINO
## 252     25 MASCULINO
## 253     20 MASCULINO
## 254     19  FEMENINO
## 255     21  FEMENINO
## 256     21  FEMENINO
## 257     22 MASCULINO
## 258     27  FEMENINO
## 259     27 MASCULINO
## 260     18  FEMENINO
## 261     19  FEMENINO
## 262     20 MASCULINO
## 263     26 MASCULINO
## 264     19  FEMENINO
## 265     28  FEMENINO
## 266     24 MASCULINO
## 267     27  FEMENINO
## 268     23  FEMENINO
## 269     28  FEMENINO
## 270     21 MASCULINO
## 271     22 MASCULINO
## 272     28 MASCULINO
## 273     21 MASCULINO
## 274     27 MASCULINO
## 275     22 MASCULINO
## 276     26  FEMENINO
## 277     27  FEMENINO
## 278     19  FEMENINO
## 279     20  FEMENINO
## 280     21  FEMENINO
## 281     28  FEMENINO
## 282     24  FEMENINO
## 283     19  FEMENINO
## 284     24 MASCULINO
## 285     27 MASCULINO
## 286     25 MASCULINO
## 287     27 MASCULINO
## 288     21  FEMENINO
## 289     18 MASCULINO
## 290     21 MASCULINO
## 291     23 MASCULINO
## 292     18  FEMENINO
## 293     21  FEMENINO
## 294     25 MASCULINO
## 295     18  FEMENINO
## 296     24 MASCULINO
## 297     26 MASCULINO
## 298     25 MASCULINO
## 299     23  FEMENINO
## 300     25  FEMENINO

Además de responder a las preguntas y puntos anteriores, describe un párrafo con tus palabras (4 renglones) de que es lo que deja el caso?

El caso es muy ytil para la generación de datos en mayoría y general una muestra de los datos que generalmente se preguntan tales las tipos de frecuencias de un grupo de datos la cual nos la representan con la función fdt, ésta nos la representan con los nombres:

#f= frecuencia absoluta
#rf= frecuencia relativa
#rf(%) frecuencia relativa porcentual
#cf= frecuencia acumulada
#cf(%)=frecuencia acumulada porcentual

Fuente:https://osoramirez.github.io/R_Para_Biologos/distribucion-de-frecuencias.html