P1. Cargue las librerias y base de datos.
rm(list =ls())
library(data.table)
library(ggplot2)
library(janitor)
library(plotly)
library(RColorBrewer)
Path <- "C:/Users/klaus/Documents/Data_Science/Tarea_2/"
store <- fread(paste0(Path, "Superstore.csv"))
library(tidyverse)
library(lubridate)
store<-store%>%
mutate(`Order Date` = mdy(`Order Date`),
`Ship Date` = mdy(`Ship Date`),
ship = `Ship Date` - `Order Date`)
store$`Order Date` <- as.Date(store$`Order Date`)
P2. Haga un grafico de boxplot que muestre el versus de los metodos de entrega y la rapidez de delivery.
store[, shipn := as.numeric(str_extract(ship, pattern = "[:digit:]+"))]
names(store)[names(store) == "Ship Mode"] <- "Shipmode"
ggplot(store, aes(x=Shipmode, y=shipn)) + geom_boxplot() + labs(x="Metodo de entrega", y="Dias de envio")
P3. ¿En que estado hubo mas ventas? ¿y ganancias? Realice dos graficos distintos que muestren esta información.
ventas <- store[, sum(Sales), by=State]
ganancias <- store[, sum(Profit), by=State]
data_ventas <- merge(ventas, ganancias, by="State")
names(data_ventas)[names(data_ventas) == "V1.x"] <- "Ventas"
names(data_ventas)[names(data_ventas) == "V1.y"] <- "Ganancias"
ggplot(data_ventas, aes(x=State, y=Ventas)) + geom_bar(stat = "identity")
ggplot(data_ventas, aes(x=State, y=Ganancias)) + geom_bar(stat = "identity")
P4. Estan ilegibles los nombres del eje x, arregle esto, además agregue título, subtítulo, fuente que sea Kaggle, y renombre los ejes, tanto x como y.
ggplot(data_ventas, aes(x=State, y=Ventas)) + geom_bar(stat = "identity") + labs(x = "Estado", y = "Ventas", title = "Ventas", subtitle = "Por estado", caption = "Fuente: Kaggle") + theme(axis.text.x = element_text(angle=90, vjust=0.5))
ggplot(data_ventas, aes(x=State, y=Ganancias)) + geom_bar(stat = "identity") + labs(x = "Estado", y = "Ganancias", title = "Ganancias", subtitle = "Por estado", caption = "Fuente: Kaggle") + theme(axis.text.x = element_text(angle=90, vjust=0.5))
P5. Al parecer coincide el estado con más ganancias y ventas, realice un gráfico que muestre la categoría que se vende más en ese estado según su subcategoría, ¿Qué es lo que más se vende?
cal <- store[State == "California"]
cal <- cal[,.(`Order Date`, Category, `Sub-Category`, Quantity, Sales)]
cal[, TotalSub := sum(Quantity), by=`Sub-Category`]
ggplot(cal, aes(x=Category, y=TotalSub, fill=`Sub-Category`)) + geom_bar(stat = "identity", position = "dodge") + labs(x="Cantidad", y="Categoria", title = "Unidades Vendidas en California", subtitle = "Por Catergoría", caption = "Fuente: Kaggle")
Lo que mas se vende es la sub-categoría de “Paper”.
P6. Realice un gráfico de lineas de las sumas de las ventas por año en el estado de California en la categoría muebles.
cal <- cal[, Year := as.numeric(format(`Order Date`, format="%Y"))]
cal[, TotalY := sum(Sales), by=.(Category,Year)]
ggplot(cal[Category == "Furniture"], aes(x=Year, y=TotalY)) + geom_point() + geom_smooth() + labs(x="Año", y="Ventas", title= "Ventas Anuales de California", subtitle = "en la Categoría de Muebles", caption = "Fuente: Kaggle")
P7. ¿Cual es el porcentaje de ventas que contribuye el estado de California al país?
vpais <- store[,sum(Sales), by=State]
vpais[, TotalP := sum(V1)]
vpais[, Porcentaje := (V1/TotalP)*100]
x <- ggplot(vpais, aes(x=State, y=Porcentaje, text=paste("Estado:", State, "|", "Porcentaje:", round(Porcentaje, digits = 2), "%"))) + geom_bar(stat = "identity") + labs(x = "", y = "Porcentaje", title = "Contribución de Ventas por Estado", caption = "Fuente: Keggle") + theme(axis.text.x = element_text(angle=90, vjust=0.5))
ggplotly(x, tooltip = "text")
Al consultar la informacion que nos entrega el grafico, podemos saber que el estado de California contribuye en un 19,92% de las ventas totales del pais.