Actividad 3. Análisis de datos

Datos de venta de libros

El presente reporte de análisis de datos es en base a un archivo JSON, el cual contiene datos sobre venta de libros

Paso 1. Leer datos en formato JSON a través de R

Para poder leer los datos, se requiere de las librerías PLOTLY, JSON y GGPLOT.

Importación de librerías

## Warning: package 'plotly' was built under R version 4.1.3

## Loading required package: ggplot2

## Warning: package 'ggplot2' was built under R version 4.1.3

## 
## Attaching package: 'plotly'

## The following object is masked from 'package:ggplot2':
## 
##     last_plot

## The following object is masked from 'package:stats':
## 
##     filter

## The following object is masked from 'package:graphics':
## 
##     layout

Lectura del archivo JSON

libros <- fromJSON(file="c:/R/InfoDataset.json")
str(libros)

## List of 9
##  $ id            : chr [1:1000] "9169543100" "2162573989" "4793058094" "9498715742" ...
##  $ nombre_libro  : chr [1:1000] "Soundtracker" "Macario" "Restless Blood (Levoton veri)" "Árido Movie" ...
##  $ autor1000]    : chr "Arlena Kenningham"
##  $ genero        : chr [1:1000] "Action|Horror|Thriller" "Drama" "Action|Horror|Sci-Fi|Western" "Comedy|Drama" ...
##  $ no_paginas    : num [1:1000] 400 600 241 565 148 588 341 524 321 315 ...
##  $ no_capitulos  : num [1:1000] 35 2 40 98 10 62 18 64 43 91 ...
##  $ estrellas     : num [1:1000] 4 5 4 3 1 1 2 3 2 2 ...
##  $ estado_lectura: logi [1:1000] FALSE FALSE FALSE FALSE FALSE TRUE ...
##  $ disponibles   : num [1:1000] 33 14 35 26 48 40 22 25 47 41 ...

Paso 2. Interpretación de la información del dataset

De acuerdo a la información visualizada, se trata de datos de libros y sus diferentes características, tales como: Id, Nombre del libro, Autor, Género literario, No. de páginas, No. de capítulos, Estrellas, Estado de lectura y Disponibles.

Paso 3. Filtrar y limpiar datos proporcionados

Puesto que el dataframe no contiene datos nulos y se encuentra bien estructurado para su interpretación gráfica, solo se manda llamar la información a manera de tabla para su visualización.

Identificación de los datos del dataframe

librosDF <- as.data.frame(libros)
summary(librosDF)

##       id            nombre_libro        autor1000.           genero         
##  Length:1000        Length:1000        Length:1000        Length:1000       
##  Class :character   Class :character   Class :character   Class :character  
##  Mode  :character   Mode  :character   Mode  :character   Mode  :character  
##                                                                             
##                                                                             
##                                                                             
##    no_paginas     no_capitulos      estrellas     estado_lectura 
##  Min.   :  1.0   Min.   :  1.00   Min.   :1.000   Mode :logical  
##  1st Qu.:151.0   1st Qu.: 28.00   1st Qu.:2.000   FALSE:509      
##  Median :294.0   Median : 51.50   Median :3.000   TRUE :491      
##  Mean   :297.8   Mean   : 52.11   Mean   :2.909                  
##  3rd Qu.:447.5   3rd Qu.: 77.00   3rd Qu.:4.000                  
##  Max.   :600.0   Max.   :100.00   Max.   :5.000                  
##   disponibles   
##  Min.   : 6.00  
##  1st Qu.:16.00  
##  Median :27.00  
##  Mean   :27.74  
##  3rd Qu.:39.00  
##  Max.   :50.00

Paso 4. Ralización de gráficas interactivas

En base a los datos obtenidos, se opta por graficar algunos de sus campos en relación con otro.

Gráfica de pastel sobre los puntajes de Estrellas de los Libros.

fig <- plot_ly(data = librosDF, labels = ~estrellas, type = 'pie')
fig

En la siguiente gráfica se puede observar que las calificaciones de los libros están muy divididas entre las cinco posibles puntuaciones, esto porque varían por muy poco los datos.

Gráfica de barras sobre los libros disponibles.

fig <- plot_ly(data=librosDF, y = ~disponibles, type = "box", 
               quartilemethod = "linear", name = "Cantidad de libros disponibles")
fig

La gráfica de cajas muestra datos referentes a la cantidad de libros a la venta, lo cual se interpreta como que la máxima es de 50 en stock y la mínima es 6, mientras que el rango de la “caja” es de 39 a 16, obteniendo un promedio de 27 libros disponibles.

Conclusión

Una vez que se ha analizado la informción y se interpreta se puede concluir que el análisis de los datos es muy importante para muchos aspectos pues si se trata de ventas, estos pueden generar un alto impacto en la economía del negocio. Tal es el caso del presente dataframe, que permite visualizar los datos de manera gráfica y así ayudar a la toma de decisiones.