A continuación se presenta el objetivo general de la práctica:
A continuación, se presenta los objetivos específicos que tiene la siguiente práctica:
Cargar Las Librerías Adecuadas Para El Caso
Construir Y Simular Datos Con 2 Variables De Intéres, Como Lo Son Edades Y Géneros De Personas.
Determinar Las Clases A Construir, Para Las Tablas De Frecuencias De Los Datos, A Partir, De Las Variables De Interés Edades Y Géneros.
Visualizar Las Frecuencias Con Histograma Y Gráfico De Tallo Y Hoja Para Datos Numéricos (Edades) Y Gráfico De Barra Para Datos Categórico O TipoCharacter (Géneros).
Realizar El Análisis Crítico Correspondiente Para Este Caso
Los datos agrupados son datos formados al agregar observaciones individuales de una variable en grupos, de modo que una distribución de frecuencia de estos grupos sirva como un medio conveniente para resumir o analizar los datos, es decir, es la manera de representar y analizar la información que se ha recolectado.
La idea de datos agrupados tiene que ver con definir un conjunto de clases que identifican de manera organizada un conjunto de datos.
Hay dos tipos principales de agrupación:
Agrupamiento De Datos De Variables Unidimensionales: Reemplazando números individuales por conteos en contenedores.
Agrupamiento De Datos De Variables Multidimensionales: Por alguna de las dimensiones, obteniendo la distribución de dimensiones no agrupadas, es decir, variables dependientes.
La frecuencia estadística es la cantidad de veces que se repite una observación durante la realización de un muestreo. Este concepto suele explicarse junto con un ejemplo que ilustre a qué hace referencia el término frecuencia estadística en cada caso.
En estadística, podemos identificar 4 tipos de frecuencias, las cuáles son: La Frecuencia Absoluta (Simple y Acumulada) y La Frecuencia Relativa (Simple y Acumulada).
La frecuencia absoluta es una medida estadística que nos da información acerca de la cantidad de veces que se repite un suceso al realizar un número determinado de experimentos aleatorios.
Esta medida se representa mediante las letras fi. La letra f se refiere a la palabra frecuencia y la letra i se refiere a la realización i-ésima del experimento aleatorio.
La frecuencia relativa acumulada es el resultado de ir sumando las frecuencias relativas de las observaciones o valores de una población o muestra. Esta se representa por las siglas Hi.
Para calcular la frecuencia relativa acumulada, hay que calcular primero la frecuencia absoluta (fi) y la frecuencia relativa (hi) de los valores de la población o muestra.
La regla de Sturges es un criterio utilizado para determinar el número de clases o intervalos que son necesarios para representar gráficamente un conjunto de datos estadísticos.
La fórmula para calcular el número de clases de acuerdo a Sturges es:
\[ k=1+3.322\cdot log10(N) \]
k es el número de clases.
N es el número total de observaciones de la muestra.
Log es el logaritmo común de base 10.
El rango de clase de acuerdo a Sturges está dada por:
\[ h=\frac{max(datos) - min(datos)}{k} \]
\[ k=3.5\cdot S \cdot n^{-1/3} \]
S es la desviación estándar
n el total de elementos
\[ k = 2 \cdot IQ \cdot n ^ {-\frac{1}{3}} \]
Primeramente, se necesitan cargar las librerías necesarias para poder realizar correctamente la práctica correspondiente
library(fdth) # Tablas de frecuencia
library(ggplot2) # Visualizar datos
Sembrar semilla
set.seed(1186)
n = 300
edades <- sample(x = 18:28, size = n, replace = TRUE)
generos <- sample(x = c('FEMENINO', 'MASCULINO'), size = n, replace = TRUE)
datos <- data.frame(edades, generos)
La función head() y describe o muestra la cantidad de observaciones de los que se especifica, los primeros registros.
head(datos, 10)
## edades generos
## 1 23 MASCULINO
## 2 28 FEMENINO
## 3 22 FEMENINO
## 4 19 MASCULINO
## 5 26 FEMENINO
## 6 23 MASCULINO
## 7 20 FEMENINO
## 8 25 MASCULINO
## 9 25 FEMENINO
## 10 20 FEMENINO
La función tail() muestra los últimos registros que se especifican.
tail(datos, 10)
## edades generos
## 291 21 FEMENINO
## 292 25 MASCULINO
## 293 19 MASCULINO
## 294 23 MASCULINO
## 295 22 MASCULINO
## 296 20 FEMENINO
## 297 25 FEMENINO
## 298 28 MASCULINO
## 299 19 MASCULINO
## 300 26 MASCULINO
Se utiliza la variable de interés edades del conjunto de datos
tabla.frec.edades1 <- fdt(x = datos$edades, breaks = "Sturges")
tabla.frec.edades1
## Class limits f rf rf(%) cf cf(%)
## [17.82,18.866) 29 0.10 9.67 29 9.67
## [18.866,19.912) 27 0.09 9.00 56 18.67
## [19.912,20.958) 35 0.12 11.67 91 30.33
## [20.958,22.004) 57 0.19 19.00 148 49.33
## [22.004,23.05) 25 0.08 8.33 173 57.67
## [23.05,24.096) 31 0.10 10.33 204 68.00
## [24.096,25.142) 24 0.08 8.00 228 76.00
## [25.142,26.188) 19 0.06 6.33 247 82.33
## [26.188,27.234) 25 0.08 8.33 272 90.67
## [27.234,28.28) 28 0.09 9.33 300 100.00
tabla.frec.edades2 <- fdt(x = datos$edades, start = min(datos$edades)-1, end = max(datos$edades)+1, h = 1)
tabla.frec.edades2
## Class limits f rf rf(%) cf cf(%)
## [17,18) 0 0.00 0.00 0 0.00
## [18,19) 29 0.10 9.67 29 9.67
## [19,20) 27 0.09 9.00 56 18.67
## [20,21) 35 0.12 11.67 91 30.33
## [21,22) 29 0.10 9.67 120 40.00
## [22,23) 28 0.09 9.33 148 49.33
## [23,24) 25 0.08 8.33 173 57.67
## [24,25) 31 0.10 10.33 204 68.00
## [25,26) 24 0.08 8.00 228 76.00
## [26,27) 19 0.06 6.33 247 82.33
## [27,28) 25 0.08 8.33 272 90.67
## [28,29) 28 0.09 9.33 300 100.00
Un histograma es un representación gráfica organizada que describe frecuencias de clases de datos numéricos en forma de barra.
ggplot(data = datos) +
geom_histogram(aes(x = edades), fill = "blue", binwidth = 0.5)
La función hist() no requiere librería y se puede utilizar directamente para representar un histograma y determina frecuencia. En este ejemplo con valores similares a la tabla.frec.edades2.
hist(datos$edades, breaks = (min(edades)-1):(max(edades)+1), main = "Histograma edades de 18 a 28", xlab = "Edades", ylab = "Frecuencia")
La función stem() representa un digrama de tallo y hoja. El diagrama de tallo y hoja identifica frecuencias de clases en formato textual.
stem(datos$edades)
##
## The decimal point is at the |
##
## 18 | 00000000000000000000000000000
## 19 | 000000000000000000000000000
## 20 | 00000000000000000000000000000000000
## 21 | 00000000000000000000000000000
## 22 | 0000000000000000000000000000
## 23 | 0000000000000000000000000
## 24 | 0000000000000000000000000000000
## 25 | 000000000000000000000000
## 26 | 0000000000000000000
## 27 | 0000000000000000000000000
## 28 | 0000000000000000000000000000
Acumulado con tabla2
# Pendiente
ggplot() +
geom_line(aes(x = tabla.frec.edades2$table$`Class limits`, y = tabla.frec.edades2$table$cf))+
geom_point(aes(x = tabla.frec.edades2$table$`Class limits`, y = tabla.frec.edades2$table$cf))
## `geom_line()`: Each group consists of only one observation.
## ℹ Do you need to adjust the group aesthetic?
Se utiliza la variable de interés generos del conjunto de datos
tabla.frec.generos <- fdt_cat(datos$generos)
tabla.frec.generos
## Category f rf rf(%) cf cf(%)
## MASCULINO 160 0.53 53.33 160 53.33
## FEMENINO 140 0.47 46.67 300 100.00
ggplot(data = datos) + geom_bar(fill="gray",color="green",aes(x = generos))
Llegado al final de esta práctica, se logra concluir que, que un dato agrupo es aquella información recabada por medio de una recopilación. De igual manera, son clasificados en función de un criterio, en grupos o secciones, mostrando una frecuencia para cada uno de estas agrupaciones, es decir, la cantidad de veces que se repite un análisis durante la realización de muestras estadísticas, sobre pequeñas subdivisiones de la misma.
Por otro lado, durante la realización de la práctica, se implementó el método set.seed(), el cual permite fijar una semilla y un generador de números aleatorios, para que se vuelvan reutilizables estos mismos valores, es decir, si se invoca al método set.seed(), con un número específico como argumento obtendremos los mismos resultados. El establecer una semilla dentro de un programa en R, facilita a reproducir estudios de simulación, además, ayuda a la depuración del código.
A su vez, gracias a la implementación de la función sample(), se pueden generar números aleatorios enteros, es decir, no son de tipo flotante o decimal. Dentro de sus parámetros, podemos incluir el intervalo, el número de datos a generar (Puede ser el tamaño de una población o una muestra) y si se quiere repetir alguno de estos valores.
Del mismo modo, gracias al cargar o importar el paquete o librería fdth, es posible mediante la función fdt(), crear una tabla de frecuencias donde nos represente las frecuencias obtenidas a partir de los datos generados aleatoriamente.
Dentro de la Tabla1 se creó una tabla de frecuencias a partir de la fórmula de Sturges para determinar las clases, para el agrupamiento de los datos, el grupo con un rango de [24.096,25.142) tiene la frecuencia menor (24) y el grupo con rango de [20.958,22.004) tiene una frecuencia mayor (57). De igual manera, para la Tabla2 se creó una tabla de frecuencias a partir de la fórmula para determinar las clases, para el agrupamiento de los datos, el grupo con un rango de [17,18) tiene la frecuencia menor (0) y el grupo con rango de [20,21) tiene una frecuencia mayor (35).
Para la visualización de los datos, se emplea un histograma que permite visualizar frecuencias de variables numéricas (edades) y la gráfica de barra refleja frecuencias de variables categóricas (variable géneros que es una cadena de caracteres tipo String).
Por otro lado, un diagrama de tallo y hoja es son una forma de organizar los datos a través de su valor de lugar para mostrar la distribución de los datos. Los valores de lugar se muestran ascendentes hacia abajo en una columna o tallo, típicamente, pero no siempre, de diez en diez. Por ejemplo, el número menor del diagrama de tallo y hoja es 26 (edad), y el número mayo es de 20 (edad).
Finalmente, los datos generados aleatoriamente del género, arrojaron que existen en el estudio muestral "propuesto" de 300 individuos, 160 pertenecen a hombres (53%) y 140 pertenecen a mujeres (47%)