Lectura de DataSet en Formato JSON

JSON (JavaScript Object Notation) es un formato basado en texto estándar para representar datos estructurados en la sintaxis de objetos de JavaScript. Es comúnmente utilizado para transmitir datos en aplicaciones web (por ejemplo: enviar algunos datos desde el servidor al cliente, así estos datos pueden ser mostrados en páginas web, o vice versa).

Para conocer de una mejor manera como es que funciona y se estructura este tipo de archivo, a continuación, se presenta la interpretación de un DataSet en este formato que aloja información acerca de los participantes de maratón de larga distancia. En base a su información, se creara una grafica de caja, un histograma y un grafico de pastel,de los cuales se realizara un analisis y se sacara una conclusión. A continuacion se muestra el proceso para realizar dicho analisis.

Lecura de DataSet en formato JSON.

El primero de los pasos para realizar un analisis del DataSet fue cargarlo en el entrono de RStudio, para ello, fue realizada la siguiente serie de actividades:

Carga de las diversas librerias que serian utilizadas, en este caso:

rjson.
ggplot2.
plotly.

library(rjson)
library(ggplot2)

## Warning: package 'ggplot2' was built under R version 4.1.3

library (plotly)

## Warning: package 'plotly' was built under R version 4.1.3

## 
## Attaching package: 'plotly'

## The following object is masked from 'package:ggplot2':
## 
##     last_plot

## The following object is masked from 'package:stats':
## 
##     filter

## The following object is masked from 'package:graphics':
## 
##     layout

Posteriomente, se creara la variable denominada “datos”, a la cual se le asignara la informacion que se encuntre en el archivo JSON.

datos <- fromJSON (file="c:/R/InfoDataset.json")

Interpretacion del DataSet.

Con la finalidad de conocer cuales son los datos que se alojan dentro del DataSet JSON se utilzio la funcion “str”, la cual ayuda a identificar que infromacion existe dentro del archivo.

str(datos)

## List of 6
##  $ id                 : chr [1:1000] "0922612439" "7873900738" "9236600638" "0759527245" ...
##  $ Nombre_Participante: chr [1:1000] "Dur" "Harri" "Kat" "Mord" ...
##  $ Numero_Participante: num [1:1000] 310 96 295 119 59 20 32 84 161 35 ...
##  $ Edad               : num [1:1000] 41 28 19 35 37 35 39 43 37 37 ...
##  $ Genero             : chr [1:1000] "Genderqueer" "Male" "Male" "Female" ...
##  $ Metros_Recorridos  : num [1:1000] 705 1463 2937 943 1737 ...

El DataSet contiene informacion referente a la informacion de un maraton, dentro del cual se alojan unicamente 1000 regsitros, de los cuales, mediante el uso de esta funcion, se lograran vizualizar los diversos datos que se contienen:

Id: Que es de tipo char y su valor es una cadena numerica de 10 digitos.
Nombre del participante: Es de tipo char y muestra los diversos nombres de los participantes.
Numero que le fue asignado: Es de tipo numerico y muestra el numero que fue asignado a los participantes.
Edad: Es de tipo numerico y muestra la edad de los participantes.
Genero: Es que tipo char y muestra el genero de los participantes.
Metros recorridos. Es de tipo numerico y muestra los metros recorridos por los participantes del maraton.

Filtrado y limpieza de datos.

Ya que el DataSet no cuenta con campos nulos que puedan afectar su análisis, no se realizo una limpieza de los datos alojados en el mismo.

Por otro lado, para el filtrado de la informacion, se realizo una tabla, esto, con la finalidad de vizualziar los datos de mejor manera e identificar cuales son los que se ajustan mejor a un analisis. Para ello se creo la tabla llamada “DatosDF y se utilizo la funcion”DataFrame, a la cual se le asigno el valor de “datos”, correspodiente a la informacion deel DataSet.

datosDF <- as.data.frame(datos)

Posteriormente, para visualizar que las columnas fueron creadas correctamente se utilizó la función summary, para así ver la información referente a las mismas.

Se muestra su nombre, longitud, tipo, el campo mínimo, el campo máximo, la mediana y los cuartiles.

summary(datosDF)

##       id            Nombre_Participante Numero_Participante      Edad      
##  Length:1000        Length:1000         Min.   :  1.0       Min.   :17.00  
##  Class :character   Class :character    1st Qu.: 84.0       1st Qu.:24.00  
##  Mode  :character   Mode  :character    Median :176.5       Median :31.00  
##                                         Mean   :174.3       Mean   :31.05  
##                                         3rd Qu.:264.0       3rd Qu.:38.00  
##                                         Max.   :350.0       Max.   :45.00  
##     Genero          Metros_Recorridos
##  Length:1000        Min.   :   2.0   
##  Class :character   1st Qu.: 769.2   
##  Mode  :character   Median :1489.0   
##                     Mean   :1495.4   
##                     3rd Qu.:2265.0   
##                     Max.   :3000.0

Analisis de los datos (Grafica de caja).

Se selecciono el diagrama de caja para visualizar con mayor distribución los datos referentes a los metros recorridos por los participantes de la carrera.

Para ello, se creo una figura en la que mediante la librería plotly se le asigno la tabla de datos creada, la variable que se graficaria (Metros_ Recorridos), el tipo (de caja) y el método de cuartil (inclusivo).

fig <- plot_ly(data=datosDF, y = ~Metros_Recorridos, type = "box", quartilemethod = "inclusive", name = "Metros recorridos por los participantes del maraton")
fig

Mediante esta grafica se puede observar que hubo participantes que no corrieron, esto, debido a que el grafico comienza desde el valor, además el numero mas alto de metros que se alcanzo fue 3000.

Se encuentra que los datos se muestran de manera simétrica, ya que la mediana se encuentra ubicada en el centro de la caja. Esto nos indica que si hubo una cantidad considerable de participantes que corrieron gran cantidad de metros en el maraton.

Analisis de los datos (Histograma)

Un histograma es la representación gráfica en forma de barras, que simboliza la distribución de un conjunto de datos. Sirven para obtener una “primera vista” general, o panorama, de la distribución de la población, o de la muestra, respecto a una característica, cuantitativa y continua.

Se selecciono un histograma para visualizar con mayor distribución los datos referentes a los géneros a los que pertenecen los participantes del maratón. Para ello, se creó una figura en la que mediante la librería plotly se le asigno la tabla de datos creada, la variable que se graficaría (Genero), el tipo (histograma) y el color (en base al género).

fig <- plot_ly(data = datosDF, x = ~Genero, type = "histogram", color = ~Genero)
fig

En base a los datos arrojados por el histograma, los participantes del maratón cuentan con varios géneros, tales como Agenero, Bigenero, Mujer, Genero Fluido, género queer, Hombre, No binario, Poly gender. Dentro del grafico se puede observar que, a pesar de haber gran cantidad de géneros, dentro de la población estudiada las personas que se identifican con sexo femenino fueron las que participaron en mayor medida dentro de la carrera, estas con un total de 459. Luego, le siguen las personas con género masculino con un total de 444.

Con ayuda de este grafico se puede concluir que el género con el que se identifica una persona si infiere en la decisión de participar en un maratón, ya que es muy baja la cantidad de personas que al identificarse con otro género (que no es femenino o masculino) participan en este tipo de actividades.

Analisis de los datos (Garfica de pastel)

Una gráfica de pastel o gráfica circular es un tipo de representación para el análisis de datos estadísticos. Tiene la forma de un disco dividido en sectores, cuyas áreas son proporcionales a los porcentajes de los distintos componentes de la población estadística.

Se selecciono un gráfico de pastel para visualizar con mayor distribución los datos referentes a las edades entre las que oscilan los participantes del maratón. Para ello, se creó una figura en la que mediante la librería plotly se le asigno la tabla de datos creada, la variable que se graficaría (Edad), el tipo (pastel) y el titulo que la identificaría.

fig <- plot_ly(data = datosDF, labels = ~Edad, type = 'pie', title = 'Edad de los participantes')
fig

En base al grafico se puede visualizar que las edades entre las que oscilan los participantes van desde los 18 a los 45 años y que todas son muy proporcionales entre sí, es decir, existen una cantidad similar entre los diferentes rangos de edades. El mayor número de personas que participan en estas actividades son de 39 a 45 años, ya que es allí en donde mediante el grafico, se muestra el mayor número de porcentaje

Con ayuda de esta información, se pueden tomar la decisión de en próximos maratones invitar a personas de las edades que más porcentaje representan, ya que así se tendría un mayor número de afluencia en la actividad.