P1

Realice todo el trabajo de datos de la Actividad 3 hasta la pregunta 4 (incluyendola). Además cargue el paquete ggplot2 que se utilizará en esta actividad. Utilice la base A4.

P1

Cargue la base de datos A4.csv y los paquetes que son necesarios para trabajar un data.table.

install.packages("data.table")
install.packages("ggplot2")
library(data.table)
library(ggplot2)
A4<-fread("A4.csv", fill = T)

P2

Revise la base de datos y elimine las aplicaciones que se encuentran duplicadas.

duplicated(A4)
A4<-A4[!duplicated(app)]

P3

Cree un nuevo objeto que contenga las siguientes variables de interés: app,category,rating,reviews,installs,type, price y contentrating.

Nuevo<-A4[, .(app,category,rating,reviews,installs,type,price,contentrating)]

P4

Para el objeto anterior, elimine la categoría 1.9 de la variable category

Nuevo<-Nuevo[!Nuevo$category==1.9,]

P2a

Cree un gráfico de barra con ggplot que contenga el conteo de cada categoría de la base de datos que ha generado en la pregunta 1.

ggplot(data=Nuevo, aes(x=category))+geom_bar()

P2b

Agregar etiquetas a los ejes, títulos, subtítulos y fuente al gráfico anterior. Además, deje de manera legible las categrías del eje x.

ggplot(data=Nuevo, aes(category, fill=category))+geom_bar()+labs(x="Categorías", y="Cantidad", title="Cantidad por categoría", subtitle="Número de aplicaciones por categoría", caption="Fuente: Base de datos aplicaciones de Google Play Store")+theme(axis.text.x = element_text(angle=90, vjust=0.6), axis.text.x.top = element_text(size=0.05), plot.title = element_text(size=20))+scale_fill_discrete(name=NULL, labels=NULL, breaks=NULL)

P3

Cree un scatter-plot con ggplot que muestre la relación entre el número de comentarios (reviews) (eje x) y el rating (eje y).

Nuevo<-Nuevo[, id:=row.names(Nuevo)]
Nuevo$id<-as.numeric(Nuevo$id)
muestra<-sample(x=1:nrow(Nuevo), size=0.01*nrow(Nuevo))
ggplot(data=Nuevo[id%in%muestra], aes(x=reviews, y=rating, color=category))+geom_point()+labs(x="Reviews", y="Rating", title="Relación entre reviews y rating", caption="Fuente: Base de datos aplicaciones de Google Play Store")+theme(plot.title=element_text(size=20))+scale_color_discrete(name=NULL, labels=NULL, breaks=NULL)

P4

Realice un histograma doble con ggplot que muestre la distribución del precio (price) de las aplicaciones para las categorías SOCIAL y PHOTOGRAPHY. Es decir, un histograma para cada categoría pero en un mismo gráfico como muestra el diagrama de ejemplo.

ggplot(data=Nuevo[category=="SOCIAL" | category=="PHOTOGRAPHY"],aes(x=price, fill=category)) + geom_histogram(bins=50)+facet_wrap(facets="category")+labs(x="Precio", y="Cantidad", title="Cantidad de apps según precio y categoría", caption="Fuente: Base de datos aplicaciones de Google Play Store")+scale_fill_discrete(name=NULL, labels=NULL, breaks=NULL)

.