Actividad 4

P1

Realice todo el trabajo de datos de la Actividad 3 hasta la pregunta 4 (incluyendola). Además cargue el paquete ggplot2 que se utilizará en esta actividad. Utilice la base A4

  1. Cargue la base de datos A4.csv y los paquetes que sean necesario para trabajar un data.table.
install.packages("ggplot2")
install.packages("data.table")
library(data.table)
library(ggplot2)
datos<-fread("A4.csv",fill=TRUE)
  1. Revise la base de datos y elimine las aplicaciones que se encuentran duplicadas.
class(datos)
head(datos)
names(datos)
datos<-datos[!duplicated(app)]
  1. Cree un nuevo objeto que contenga las siguientes variables de interés: App,Category,Rating,Reviews,Installs,Type,Price y Content Rating.
datos1<-datos[,.(app,category,rating,reviews,installs,type,price,`contentrating`)]
  1. Para el objeto anterior, elimine la categoría 1.9 de la variable Category
datos1<-datos1[category!="1.9"]

P2

  1. Cree un gráfico de barra con ggplot que contenga el conteo de cada categoría de la base de datos que ha generado en la pregunta 1.

Pista: Es normal la saturación del gráfico por la cantidad de categorías.

install.packages("lubridate") 
install.packages("treemap")
library(lubridate)
library(treemap)
ggplot(data=datos1,aes(x=category)) + geom_bar()

  1. Agregar etiquetas a los ejes, títulos, subtítulos y fuente al gráfico anterior. Además, deje de manera legible las categrías del eje x.
ggplot(data=datos1,aes(x=category)) + geom_bar() +  labs(x="", y="Cantidad", title = "Conteo de categorias", subtitle = "de la Base de Datos", caption = "Fuente: base de aplicaciones de Google Play Store") + scale_color_discrete(name="Categoria")+
  theme(axis.text.x = element_text(angle=90, vjust=0.5),
        axis.text.x.top = element_text(size=0.05),
        plot.title = element_text(size=15))

P3

Cree un scatter-plot con ggplot que muestre la relación entre el número de comentarios (reviews) (eje x) y el rating (eje y).

ggplot(data=datos1,aes(x=reviews, y=rating)) + geom_point() + labs(x="Reviews", y="Rating ", title = "Relación entre Reviews y Rating ", subtitle = "de la Base de Datos", caption = "Fuente: Base de aplicaciones de Google Play Store") + scale_color_discrete(name="")

P4

Realice un histograma doble con ggplot que muestre la distribución del precio (price) de las aplicaciones para las categorías SOCIAL y PHOTOGRAPHY. Es decir, un histograma para cada categoría pero en un mismo gráfico como muestra el diagrama de ejemplo.

precio<-datos1[category %in% c("SOCIAL","PHOTOGRAPHY")] 
ggplot(data = precio, aes(x = price)) + geom_histogram(bins= 25) + facet_wrap("category") + labs(x="Precios", y="Cantidad ", title = "Histograma categoria Social y Photography ", subtitle = "de la distribución del Precio", caption = "Fuente: Base de aplicaciones de Google Play Store ") + scale_color_discrete(name="")