En este estudio se exploró una base de datos descargada desde Kaggle que se enfoca en los 100 libros más vendidos en Amazon durante el período de 2009 a 2021. Se utilizaron herramientas como RStudio para realizar análisis de datos y visualizaciones, lo que permitió obtener información valiosa sobre tendencias en la industria editorial, como la obtención de resultados de la Identificación de autores populares,Géneros literarios populares,Precios de libros, Tipos de portadas populares, Cambios en los libros más populares por año este análisis de datos proporciona información valiosa para las editoriales y autores, permitiéndoles adaptar estrategias de publicación, diseño y marketing a las preferencias de los lectores y las tendencias del mercado editorial. La industria editorial debe estar preparada para adaptarse a nuevas generaciones y tendencias para seguir atrayendo a nuevos lectores y mantener su relevancia.
Amazon es una empresa mundialmente reconocida en el ámbito del comercio electrónico, ya que ofrece una amplia gama de productos que abarcan desde libros y música hasta muebles, ropa y servicios de transmisión. Este estudio se centra en la exploración de una base de datos descargada desde Kaggle, que se enfoca en los 100 libros más vendidos en Amazon durante el período de 2009 a 2021. Durante esos 12 años, la base de datos ha acumulado información detallada sobre los 100 libros más populares de cada año, incluyendo datos sobre la cubierta, autores, títulos, calificaciones, precios y la cantidad de reseñas que cada libro ha recibido.
Nuestro objetivo es aprovechar herramientas como gráficos y tablas a través de RStudio para obtener una comprensión más profunda de esta base de datos. Esto nos permitirá identificar patrones recurrentes y proporcionar información valiosa tanto a editoriales como a escritores para ayudarlos a entender las tendencias en géneros literarios, temas de interés y preferencias de formato, como por ejemplo si los lectores se inclinan más por libros electrónicos, audiolibros o ediciones físicas. Esta información resulta fundamental para que adapten sus estrategias de publicación de acuerdo a las preferencias de los lectores. Además, estos datos como los libros más vendidos desempeñan un papel crucial en la toma de decisiones comerciales, como la selección de libros para su publicación, la fijación de precios y la planificación de campañas de marketing. El análisis de datos de ventas de un libro también puede ser esencial para evaluar su éxito y determinar si justifica una segunda edición o la continuación de una serie
1.Primeramente Antes de poder llevar a cabo esta investigación se necesitó descargar el programa de Rstudio para más adelante poder realizar las gráficas.
2.En la página de Kaggle se descargó la base de datos llamada “TOP 100 BEST SELLING BOOKS ON AMAZON 2009-2021”. Después de descargada la base de datos se examinó a detalle la información la cual contenía un total de 8 columnas y 1921 filas.
df=read.csv("https://docs.google.com/spreadsheets/d/e/2PACX-1vS9CQ7bXpRGqCkQzwqbZowjd7NSD2FssxhRC6TrPhRougc-nkDMxe2jFlzx-uaVyfbV5k95skxKJak1/pub?output=csv")
3.En Rstudio con la ayuda de la función read.csv() nos ayudo para leer el archivo en formato CSV y cargar los datos en un objeto de datos en R. Los datos leídos se almacenan en un tipo de objeto llamado Data.frame.
setwd("C:/Users/jimed/OneDrive/Documentos/BIOINFORMATICA")
df=read.csv("TOP 100 LIBROS MAS VENDIDOS.csv")
4.Después de cargar los datos de la base de datos, se procedió a seleccionar la información más relevante y se asignó a un nuevo objeto llamado df para las columnas, luego se utilizó la función class para determinar el tipo de datos de cada columna. Este proceso permitió conocer la naturaleza de los datos contenidos en cada columna y facilitó la comprensión de la estructura de la base de datos.
## [1] "X" "price" "ranks" "title"
## [5] "no_of_reviews" "ratings" "author" "cover_type"
## [9] "year" "genre"
## [1] "integer"
## [1] "numeric"
## [1] "character"
## [1] "character"
## [1] "numeric"
## [1] "character"
## [1] "character"
## [1] "character"
5.Se adoptó un enfoque similar para crear las primeras cuatro gráficas, ya que la base de datos era relativamente pequeña en términos de columnas pero contenía una gran cantidad de información en las filas. El objetivo principal era optimizar las visualizaciones para que fueran más comprensibles.Por eso se buscó determinar la frecuencia de ocurrencia de ciertos elementos en las columnas, como los autores, géneros, precios y tipos de cobertura de libros. Estos resultados se analizaron para identificar los elementos que se repetían con mayor frecuencia, despues se creó una subtabla que contenía estos datos seleccionados, y se utilizó la función barplotpara generar gráficos que representaran de manera más uniforme la información. Este enfoque permitió presentar de manera más efectiva la distribución y la frecuencia de los elementos claves en las columnas seleccionadas, facilitando la interpretación de los datos y resaltando los patrones relevantes en la base de datos.
frec_autor=table(df$author)
View(frec_autor)
plot(table(author))
#quitamos a los que tiene pocos libros
subtabla=df[df$author=="Rick Riordan"|
df$author=="Jeff Kinney"|
df$author=="Suzanne Collins"|
df$author=="John Grisham"|
df$author=="Dr. Seuss"
,]
barplot(table(subtabla$author),main="Autores más vendidos",
col=c("Pink","Purple","blue","green","yellow"),xlab="Autores",
ylab="Libros",ylim = c(0,25))
#///////////////////////////////////////////////////////////////////////////
frec_genre=table(df$genre)
View(frec_genre)
plot(table(genre))
#Pusimos el género mas repetido
subtabla3=df[df$genre=="Non Fiction"|
df$genre=="Fiction"
,]
barplot(table(subtabla3$genre),main="Tipo de género",
col=c("Pink","Purple"),xlab="Género",
ylab="Frecuencia",ylim = c(0,800))
#///////////////////////////////////////////////////////////////////////////
colors()
#saber los precios mas repetidos
frec_price=table(df$price)
View(frec_price)
plot(table(price))
subtabla2=df[df$price=="9.99"|
df$price=="6.99"|
df$price=="9.49"|
df$price=="4.98"|
df$price=="4.99"|
df$price=="8.99"|
df$price=="5.99"|
df$price=="8.48"|
df$price=="8.55"|
df$price=="18.29"
,]
barplot(table(subtabla2$price),main="Precios más comunes",
col=c("yellowgreen","lightskyblue","deeppink4","dodgerblue2","darkgray",
"darkcyan","grey97","mintcream","sienna","gold4"),
,xlab="Precios", ylab="Frecuencia",ylim = c(0,30))
#///////////////////////////////////////////////////////////////////////////
#///////////////////////////////////////////////////////////////////////////
frec_cover_type=table(df$cover_type)
View(frec_cover_type)
plot(table(cover_type))
#Pusimos los tipos de pasta mas repetidas
frec_cover_type=table(df$cover_type)
View(frec_cover_type)
plot(table(cover_type))
subtabla3=df[df$cover_type=="Hardcover"|
df$cover_type=="Paperback"|
df$cover_type=="Board book"|
df$cover_type=="Mass Market Paperback"
,]
barplot(table(subtabla3$cover_type),main="Tipos de tapa",
col=c("lightgrey","lightgreen","darkkhaki","aliceblue"),
xlab="Pasta", ylab="Frecuencia",ylim = c(0,700))
6.Se realizaron dos instalaciones de librerías: kableExtra, que permite mejorar la apariencia y personalización de la tabla, y tidyverse, que facilita filtrar, transformar, resumir y visualizar datos de una manera más estructurada.Esta elección se basó en el objetivo de identificar los libros más populares de cada año, en lugar de tener que analizar cien libros por cada año. El paquete tidyverse fue valioso para filtrar los datos de la base mediante varios parámetros, mientras que kableExtra contribuyó a separar el año y el título de cada libro en un formato más legible. Esta combinación de herramientas simplificó el proceso de extracción de la información relevante y la presentación de los resultados de una manera más clara y efectiva.
#Libro mas popular del 2009 al 2021
df_2009=df[df$year==2009,]
df_2009=df_2009[df_2009$ratings==max(df_2009$ratings),]
df_2009=df_2009$title
df_2009=df_2009[1]
df_2010=df[df$year==2010,]
df_2010=df_2010[df_2010$ratings==max(df_2010$ratings),]
df_2010=df_2010$title
df_2010=df_2010[1]
df_2011=df[df$year==2011,]
df_2011=df_2011[df_2011$ratings==max(df_2011$ratings),]
df_2011=df_2011$title
df_2011=df_2011[1]
df_2012=df[df$year==2012,]
df_2012=df_2012[df_2012$ratings==max(df_2012$ratings),]
df_2012=df_2012$title
df_2012=df_2012[1]
df_2013=df[df$year==2013,]
df_2013=df_2013[df_2013$ratings==max(df_2013$ratings),]
df_2013=df_2013$title
df_2013=df_2013[1]
df_2014=df[df$year==2014,]
df_2014=df_2014[df_2014$ratings==max(df_2014$ratings),]
df_2014=df_2014$title
df_2014=df_2014[1]
df_2015=df[df$year==2015,]
df_2015=df_2015[df_2015$ratings==max(df_2015$ratings),]
df_2015=df_2015$title
df_2015=df_2015[1]
df_2016=df[df$year==2011,]
df_2016=df_2016[df_2016$ratings==max(df_2016$ratings),]
df_2016=df_2016$title
df_2016=df_2016[1]
df_2017=df[df$year==2017,]
df_2017=df_2017[df_2017$ratings==max(df_2017$ratings),]
df_2017=df_2017$title
df_2017=df_2017[1]
df_2018=df[df$year==2011,]
df_2018=df_2018[df_2018$ratings==max(df_2018$ratings),]
df_2018=df_2018$title
df_2018=df_2018[1]
df_2019=df[df$year==2019,]
df_2019=df_2019[df_2019$ratings==max(df_2019$ratings),]
df_2019=df_2019$title
df_2019=df_2019[1]
df_2020=df[df$year==2020,]
df_2020=df_2020[df_2020$ratings==max(df_2020$ratings),]
df_2020=df_2020$title
df_2020=df_2020[1]
df_2021=df[df$year==2021,]
df_2021=df_2021[df_2021$ratings==max(df_2021$ratings),]
df_2021=df_2021$title
df_2021=df_2021[1]
x=2009:2021
Libros=c(df_2009,
df_2011,
df_2011,
df_2012,
df_2013,
df_2014,
df_2015,
df_2016,
df_2017,
df_2018,
df_2019,
df_2020,
df_2021
)
tablachila=data.frame(x,Libros)
kable(tablachila)%>%kable_styling(
bootstrap_options = "striped",
full_width = F
)
La gráfica nos muestra la frecuencia de 5 autores cuyas obras figuraron
en el top 100 de libros más vendidos entre 2009 y 2021 está herramienta
es útil para identificar a los autores con presencia sostenida en la
industria editorial y que han mantenido su popularidad a lo largo del
tiempo. Además, esta información puede revelar las preferencias de los
lectores a lo largo de los años y las tendencias en cuanto a autores y
géneros literarios populares. Esto proporciona valiosa información para
que autores y editoriales analicen qué autores tienen éxito a largo
plazo y cuáles géneros son consistentemente populares, así pueden llegar
a tener una mejor perspectiva del interés del público antes de lanzar un
libro y aumentar sus posibilidades de éxito tanto para la editorial como
para el autor.
La gráfica muestra la estimación de frecuencia de géneros literarios más
comunes que se encontraron en la base de datos. Es interesante notar que
en Amazon, los libros se agrupan principalmente en ficción y no ficción
debido a la falta de categorización precisa. Sin embargo, esta
información sigue siendo valiosa para comprender qué géneros literarios
son consistentemente populares entre los lectores, lo que ayuda a
satisfacer las demandas del público y permite a las editoriales
diversificar sus catálogos para mantenerse relevantes y atraer a una
amplia audiencia. Estos datos son esenciales para comprender la dinámica
de la industria editorial y las oportunidades de mercado en diferentes
géneros.
Esta visualización presenta los precios más comunes a lo largo de un
período de 12 años (2009-2021). Estas representaciones gráficas son
valiosas para ayudar a las editoriales y autores a comprender los rangos
de precios que los lectores están dispuestos a pagar por libros, lo que
puede influir en la determinación de precios en futuras publicaciones.
Además, permiten evaluar si los precios de los libros más vendidos son
accesibles para un público amplio, lo que puede impulsar la lectura y
atraer a más lectores a realizar compras. También es una forma de que
las editoriales evalúen su competitividad en el mercado en función de
los precios de los libros, lo que es esencial para diseñar nuevas
estrategias de marketing y promoción, dado que los precios desempeñan un
papel crucial en las decisiones de compra de los lectores.
A partir de esta gráfica, se puede observar el tipo de portada que se
identifica con mayor frecuencia en la base de datos. Esta información es
crucial para que las editoriales puedan comprender y reunir las
preferencias de diseño que atraen más a los lectores. Esto puede influir
en la elección y diseño de portadas para futuras publicaciones, ya que
una portada de calidad es fundamental para la percepción de un libro y
su capacidad para atraer al público. Conocer cuáles tipos de portadas
son populares es esencial, ya que puede influir en las estrategias de
marketing y reducir los costos de producción de diferentes ediciones.
Además, es importante para los lectores poder adquirir ediciones
especiales o con portadas únicas, por lo que recopilar esta información
puede ayudar a crear experiencias únicas para los lectores al elegir un
libro.
## ── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
## ✔ dplyr 1.1.3 ✔ readr 2.1.4
## ✔ forcats 1.0.0 ✔ stringr 1.5.0
## ✔ ggplot2 3.4.3 ✔ tibble 3.2.1
## ✔ lubridate 1.9.3 ✔ tidyr 1.3.0
## ✔ purrr 1.0.2
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::group_rows() masks kableExtra::group_rows()
## ✖ dplyr::lag() masks stats::lag()
## ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors
| x | Libros |
|---|---|
| 2009 | Where the Wild Things Are |
| 2010 | Jesus Calling, Padded Hardcover, with Scripture references |
| 2011 | Jesus Calling, Padded Hardcover, with Scripture references |
| 2012 | NA |
| 2013 | Rush Revere and the Brave Pilgrims: Time-Travel Adventures with Exceptional Americans (1) |
| 2014 | Jesus Calling, Padded Hardcover, with Scripture references |
| 2015 | Humans of New York : Stories |
| 2016 | Jesus Calling, Padded Hardcover, with Scripture references |
| 2017 | Oh, the Places You’ll Go! |
| 2018 | Jesus Calling, Padded Hardcover, with Scripture references |
| 2019 | NA |
| 2020 | A Promised Land |
| 2021 | I Love You to the Moon and Back |
La recopilación de los libros más populares de cada año puede ser de gran utilidad para las empresas editoriales y autores. Al analizar patrones a lo largo del tiempo, como es el caso del año 2010, 2011, 2016 y 2018 que se pude observar que el mejor libro fue uno religioso”Jesús Calling”, esto demuestra que el interés del público varía y no siempre se centra en libros dirigidos al público juvenil. Por eso es importante identificar los libros que han capturado la atención de lectores y críticos puede ser esencial para seguir las tendencias y cambios en la literatura, lo que ayuda a las empresas editoriales y autores a tomar decisiones informadas sobre qué tipo de libros producir y promocionar.
Las visualizaciones nos han ayudado a representar la frecuencia de los datos más importantes de la base de datos, que es muy densa. Estas herramientas han facilitado la comprensión de la información, ya que nos permiten identificar características útiles para tomar decisiones estratégicas en el mundo de las editoriales. Gracias a estos datos, podemos entender cambios en las preferencias de lectura de los lectores y poder adaptar estas nuevas características para que puedan seguir manteniendo su interés en los libros y seguir fomentando la innovación para a traer a nuevos lectores.
Amazon. (n.d.). Libros. Recuperado el 24 de octubre de 2023, de https://www.amazon.com/-/es/Libros/b?ie=UTF8&node=283155
Colombia - Estadísticas del libro en Colombia ESECCL 2012 - 2014. (2015, 25 agosto). Microdatos. Recuperado 24 de octubre de 2023, de https://microdatos.dane.gov.co/index.php/catalog/368
ComunidadBaratz. (2018, 24 mayo). Los 20 libros más vendidos en el mundo. Comunidad Baratz. Recuperado 24 de octubre de 2023, de https://www.comunidadbaratz.com/blog/los-20-libros-mas-vendidos-en-el-mundo/
Duque, A. G. (2020, 15 septiembre). Cómo funciona el algoritmo de Amazon para vender tu libro - marketing online para escritores. Marketing Online para escritores. Recuperado 24 de octubre de 2023, de https://marketingonlineparaescritores.com/algoritmo-amazon-libro/
Learnbyexample. (2020, 20 abril). R plot() function. Learn By Example. Recuperado 24 de octubre de 2023, de https://www.learnbyexample.org/r-plot-function/
Martí, R. (2023, 8 junio). Bestsellers: los 100 libros más vendidos de la historia. Esquire. Recuperado 24 de octubre de 2023, de https://www.esquire.com/es/actualidad/libros/g36987397/libros-mas-vendidos-historia-best-sellers/
TOP 100 BEST SELLING BOOKS ON AMAZON 2009-2021. (2022, 16 octubre). Kaggle. Recuperado 25 de octubre de 2023, de https://www.kaggle.com/datasets/abdulhamidadavize/top-100-best-selling-books-on-amazon-20092021
Urrutia, D. (2023, 16 de octubre). Qué es Amazonas | Definición, historia y evolución . Arimetría. Obtenido el 24 de octubre de 2023 de https://www.arimetrics.com/glosario-digital/amazon
Zhu, H. (2021, 19 febrero). Create awesome HTML table with Knitr::Kable and KableExtra. Recuperado 24 de octubre de 2023, de https://cran.r-project.org/web/packages/kableExtra/vignettes/awesome_table_in_html.html