1 Los Objetivos De La Práctica

1.1 * El Objetivo General De La Práctica

A continuación se presenta el objetivo general de la práctica:

  • Agrupar Los Datos Recolectados (Generados Aleatoriamente) Y Describir Visualmente La Información Recabada, De Las Variables, Tanto De “Edad”Y Como De “Genéros”, Empleando La Función Fdt Y Fdt_Cat De La Librería Fdth, Respectivamente.

1.2 * Los Objetivos Específicos De La Práctica

A continuación, se presenta los objetivos específicos que tiene la siguiente práctica:

  • Cargar Las Librerías Adecuadas Para El Caso

  • Construir Y Simular Datos Con 2 Variables De Intéres, Como Lo Son Edades Y Géneros De Personas.

  • Determinar Las Clases A Construir, Para Las Tablas De Frecuencias De Los Datos, A Partir, De Las Variables De Interés Edades Y Géneros.

  • Visualizar Las Frecuencias Con Histograma Y Gráfico De Tallo Y Hoja Para Datos Numéricos (Edades) Y Gráfico De Barra Para Datos Categórico O TipoCharacter (Géneros).

  • Realizar El Análisis Crítico Correspondiente Para Este Caso

2 Investigaciones Pertinentes

2.1 * Los Datos Agrupados

Los datos agrupados son datos formados al agregar observaciones individuales de una variable en grupos, de modo que una distribución de frecuencia de estos grupos sirva como un medio conveniente para resumir o analizar los datos, es decir, es la manera de representar y analizar la información que se ha recolectado.

La idea de datos agrupados tiene que ver con definir un conjunto de clases que identifican de manera organizada un conjunto de datos.

Hay dos tipos principales de agrupación:

  • Agrupamiento De Datos De Variables Unidimensionales: Reemplazando números individuales por conteos en contenedores.

  • Agrupamiento De Datos De Variables Multidimensionales: Por alguna de las dimensiones, obteniendo la distribución de dimensiones no agrupadas, es decir, variables dependientes.

2.2 * La Frecuencia Estadística

La frecuencia estadística es la cantidad de veces que se repite una observación durante la realización de un muestreo. Este concepto suele explicarse junto con un ejemplo que ilustre a qué hace referencia el término frecuencia estadística en cada caso.

En estadística, podemos identificar 4 tipos de frecuencias, las cuáles son: La Frecuencia Absoluta (Simple y Acumulada) y La Frecuencia Relativa (Simple y Acumulada).

2.2.1 * La Frecuencia Absoluta Simple

  • La frecuencia absoluta es una medida estadística que nos da información acerca de la cantidad de veces que se repite un suceso al realizar un número determinado de experimentos aleatorios.

  • Esta medida se representa mediante las letras fi. La letra f se refiere a la palabra frecuencia y la letra i se refiere a la realización i-ésima del experimento aleatorio.

2.2.2 * La Frecuencia Absoluta Acumulada

  • La frecuencia acumulada es aquella que se obtiene al sumar todas las frecuencias absolutas inferiores o iguales al valor en cuestión. Se representa con Ni .

2.2.3 * La Frecuencia Relativa Simple

  • La relación de la frecuencia con respeto al número de elementos n. Es el cociente entre la frecuencia absoluta de un determinado valor y el número total de datos. La suma de la frecuencia relativa es 1.

2.2.4 * La Frecuencia Relativa Acumulada

  • La frecuencia relativa acumulada es el resultado de ir sumando las frecuencias relativas de las observaciones o valores de una población o muestra. Esta se representa por las siglas Hi.

  • Para calcular la frecuencia relativa acumulada, hay que calcular primero la frecuencia absoluta (fi) y la frecuencia relativa (hi) de los valores de la población o muestra.

2.2.5 * La Frecuencia Porcentual

  • Es la representación porcentual de la frecuencia relativa con respecto al 100%, es decir multiplicar la frecuencia relativa por 100. La suma de la frecuencia porcentual (%) debe ser el 100%.

2.3 * Los Puntos Medios Y Los Límites

  • Los límites de clase son los valores mínimos y máximos de una clase, los intervalos de clase es la diferencia entre límite superior y límite inferior y los pintos medios es el valor medio entre cada rango de cada clase.

2.4 * Las Clases

  • Las clases definen los valores únicos del conjunto de datos o un intervalo que define y agrupa cierto conjunto de datos. Las clases clasifican y agrupan el total de los datos.

2.4.1 * Las Fórmulas Para Determinar Las Clases

2.4.1.1 * Regla de Sturges

  • La regla de Sturges es un criterio utilizado para determinar el número de clases o intervalos que son necesarios para representar gráficamente un conjunto de datos estadísticos.

  • La fórmula para calcular el número de clases de acuerdo a Sturges es:

\[ k=1+3.322\cdot log10(N) \]

  • k es el número de clases.

  • N es el número total de observaciones de la muestra.

  • Log es el logaritmo común de base 10.

El rango de clase de acuerdo a Sturges está dada por:

\[ h=\frac{max(datos) - min(datos)}{k} \]

2.4.1.2 * Regla de Scott

\[ k=3.5\cdot S \cdot n^{-1/3} \]

  • S es la desviación estándar

  • n el total de elementos

2.4.1.3 * Regla de Freedman & Diaconis (FD)

\[ k = 2 \cdot IQ \cdot n ^ {-\frac{1}{3}} \]

  • IQ es el el rango intercuartílico
  • n es el total de los datos

3 Metodología Empleada En La Práctica

Primeramente, se necesitan cargar las librerías necesarias para poder realizar correctamente la práctica correspondiente

3.1 * Cargar Librerías

library(fdth)     # Tablas de frecuencia
library(ggplot2)  # Visualizar datos

3.2 * Crear Datos

Sembrar semilla

set.seed(1186)
n = 300
edades <- sample(x = 18:28, size = n, replace = TRUE)
generos <- sample(x = c('FEMENINO', 'MASCULINO'), size = n, replace = TRUE)
datos <- data.frame(edades, generos)

3.3 * Mostrar Los Primeros Diez Registros

La función head() y describe o muestra la cantidad de observaciones de los que se especifica, los primeros registros.

head(datos, 10)
##    edades   generos
## 1      23 MASCULINO
## 2      28  FEMENINO
## 3      22  FEMENINO
## 4      19 MASCULINO
## 5      26  FEMENINO
## 6      23 MASCULINO
## 7      20  FEMENINO
## 8      25 MASCULINO
## 9      25  FEMENINO
## 10     20  FEMENINO

3.4 * Mostrar Los Últimos Diez Registros

La función tail() muestra los últimos registros que se especifican.

tail(datos, 10)
##     edades   generos
## 291     21  FEMENINO
## 292     25 MASCULINO
## 293     19 MASCULINO
## 294     23 MASCULINO
## 295     22 MASCULINO
## 296     20  FEMENINO
## 297     25  FEMENINO
## 298     28 MASCULINO
## 299     19 MASCULINO
## 300     26 MASCULINO

3.5 * Crear Tabla De Frecuencias Y Visualizar Datos

3.5.1 * La Variable Edades

Se utiliza la variable de interés edades del conjunto de datos

tabla.frec.edades1 <- fdt(x = datos$edades, breaks = "Sturges")
tabla.frec.edades1
##     Class limits  f   rf rf(%)  cf  cf(%)
##   [17.82,18.866) 29 0.10  9.67  29   9.67
##  [18.866,19.912) 27 0.09  9.00  56  18.67
##  [19.912,20.958) 35 0.12 11.67  91  30.33
##  [20.958,22.004) 57 0.19 19.00 148  49.33
##   [22.004,23.05) 25 0.08  8.33 173  57.67
##   [23.05,24.096) 31 0.10 10.33 204  68.00
##  [24.096,25.142) 24 0.08  8.00 228  76.00
##  [25.142,26.188) 19 0.06  6.33 247  82.33
##  [26.188,27.234) 25 0.08  8.33 272  90.67
##   [27.234,28.28) 28 0.09  9.33 300 100.00
tabla.frec.edades2 <- fdt(x = datos$edades, start = min(datos$edades)-1, end = max(datos$edades)+1, h = 1)
tabla.frec.edades2
##  Class limits  f   rf rf(%)  cf  cf(%)
##       [17,18)  0 0.00  0.00   0   0.00
##       [18,19) 29 0.10  9.67  29   9.67
##       [19,20) 27 0.09  9.00  56  18.67
##       [20,21) 35 0.12 11.67  91  30.33
##       [21,22) 29 0.10  9.67 120  40.00
##       [22,23) 28 0.09  9.33 148  49.33
##       [23,24) 25 0.08  8.33 173  57.67
##       [24,25) 31 0.10 10.33 204  68.00
##       [25,26) 24 0.08  8.00 228  76.00
##       [26,27) 19 0.06  6.33 247  82.33
##       [27,28) 25 0.08  8.33 272  90.67
##       [28,29) 28 0.09  9.33 300 100.00

3.5.2 * El Histograma

Un histograma es un representación gráfica organizada que describe frecuencias de clases de datos numéricos en forma de barra.

ggplot(data = datos) +
  geom_histogram(aes(x = edades), fill = "blue", binwidth = 0.5)

3.5.3 * Un Histograma Usando hist()

La función hist() no requiere librería y se puede utilizar directamente para representar un histograma y determina frecuencia. En este ejemplo con valores similares a la tabla.frec.edades2.

hist(datos$edades, breaks = (min(edades)-1):(max(edades)+1), main = "Histograma edades de 18 a 28", xlab = "Edades", ylab = "Frecuencia")

3.5.4 * El Diagrama De Tallo Y Hoja

La función stem() representa un digrama de tallo y hoja. El diagrama de tallo y hoja identifica frecuencias de clases en formato textual.

stem(datos$edades)
## 
##   The decimal point is at the |
## 
##   18 | 00000000000000000000000000000
##   19 | 000000000000000000000000000
##   20 | 00000000000000000000000000000000000
##   21 | 00000000000000000000000000000
##   22 | 0000000000000000000000000000
##   23 | 0000000000000000000000000
##   24 | 0000000000000000000000000000000
##   25 | 000000000000000000000000
##   26 | 0000000000000000000
##   27 | 0000000000000000000000000
##   28 | 0000000000000000000000000000

3.5.5 * La Gráfica De Frecuencia Acumulada

Acumulado con tabla2

# Pendiente
ggplot() +
  geom_line(aes(x = tabla.frec.edades2$table$`Class limits`, y = tabla.frec.edades2$table$cf))+
  geom_point(aes(x = tabla.frec.edades2$table$`Class limits`, y = tabla.frec.edades2$table$cf)) 
## `geom_line()`: Each group consists of only one observation.
## ℹ Do you need to adjust the group aesthetic?

3.5.6 * La Variable Géneros

Se utiliza la variable de interés generos del conjunto de datos

tabla.frec.generos <- fdt_cat(datos$generos)
tabla.frec.generos
##   Category   f   rf rf(%)  cf  cf(%)
##  MASCULINO 160 0.53 53.33 160  53.33
##   FEMENINO 140 0.47 46.67 300 100.00

3.5.7 * El Diagrama O Gráfica De Barra

ggplot(data = datos) + geom_bar(fill="gray",color="green",aes(x = generos))

4 * Análisis Crítico De Los Datos Obtenidos

4.1 * Interpretación De La Práctica

Llegado al final de esta práctica, se logra concluir que, que un dato agrupo es aquella información recabada por medio de una recopilación. De igual manera, son clasificados en función de un criterio, en grupos o secciones, mostrando una frecuencia para cada uno de estas agrupaciones, es decir, la cantidad de veces que se repite un análisis durante la realización de muestras estadísticas, sobre pequeñas subdivisiones de la misma.

Por otro lado, durante la realización de la práctica, se implementó el método set.seed(), el cual permite fijar una semilla y un generador de números aleatorios, para que se vuelvan reutilizables estos mismos valores, es decir, si se invoca al método set.seed(), con un número específico como argumento obtendremos los mismos resultados. El establecer una semilla dentro de un programa en R, facilita a reproducir estudios de simulación, además, ayuda a la depuración del código.

A su vez, gracias a la implementación de la función sample(), se pueden generar números aleatorios enteros, es decir, no son de tipo flotante o decimal. Dentro de sus parámetros, podemos incluir el intervalo, el número de datos a generar (Puede ser el tamaño de una población o una muestra) y si se quiere repetir alguno de estos valores.

Del mismo modo, gracias al cargar o importar el paquete o librería fdth, es posible mediante la función fdt(), crear una tabla de frecuencias donde nos represente las frecuencias obtenidas a partir de los datos generados aleatoriamente.

Dentro de la Tabla1 se creó una tabla de frecuencias a partir de la fórmula de Sturges para determinar las clases, para el agrupamiento de los datos, el grupo con un rango de [24.096,25.142) tiene la frecuencia menor (24) y el grupo con rango de [20.958,22.004) tiene una frecuencia mayor (57). De igual manera, para la Tabla2 se creó una tabla de frecuencias a partir de la fórmula para determinar las clases, para el agrupamiento de los datos, el grupo con un rango de [17,18) tiene la frecuencia menor (0) y el grupo con rango de [20,21) tiene una frecuencia mayor (35).

Para la visualización de los datos, se emplea un histograma que permite visualizar frecuencias de variables numéricas (edades) y la gráfica de barra refleja frecuencias de variables categóricas (variable géneros que es una cadena de caracteres tipo String). 

Por otro lado, un diagrama de tallo y hoja es son una forma de organizar los datos a través de su valor de lugar para mostrar la distribución de los datos. Los valores de lugar se muestran ascendentes hacia abajo en una columna o tallo, típicamente, pero no siempre, de diez en diez. Por ejemplo, el número menor del diagrama de tallo y hoja es 26 (edad), y el número mayo es de 20 (edad).

Finalmente, los datos generados aleatoriamente del género, arrojaron que existen en el estudio muestral "propuesto" de 300 individuos, 160 pertenecen a hombres (53%) y 140 pertenecen a mujeres (47%)