P1. Cargue las librerias y base de datos.

rm(list =ls())
library(data.table)
library(ggplot2)
library(janitor)
library(plotly)
library(RColorBrewer)
Path <- "C:/Users/klaus/Documents/Data_Science/Tarea_2/"
store <- fread(paste0(Path, "Superstore.csv"))
library(tidyverse)
library(lubridate)
store<-store%>%
  mutate(`Order Date` = mdy(`Order Date`),
         `Ship Date` = mdy(`Ship Date`),
         ship = `Ship Date` - `Order Date`)
store$`Order Date` <- as.Date(store$`Order Date`)

P2. Haga un grafico de boxplot que muestre el versus de los metodos de entrega y la rapidez de delivery.

store[, shipn := as.numeric(str_extract(ship, pattern = "[:digit:]+"))]
names(store)[names(store) == "Ship Mode"] <- "Shipmode"
ggplot(store, aes(x=Shipmode, y=shipn)) + geom_boxplot() + labs(x="Metodo de entrega", y="Dias de envio")

P3. ¿En que estado hubo mas ventas? ¿y ganancias? Realice dos graficos distintos que muestren esta información.

ventas <- store[, sum(Sales), by=State]
ganancias <- store[, sum(Profit), by=State]
data_ventas <- merge(ventas, ganancias, by="State")
names(data_ventas)[names(data_ventas) == "V1.x"] <- "Ventas"
names(data_ventas)[names(data_ventas) == "V1.y"] <- "Ganancias"

ggplot(data_ventas, aes(x=State, y=Ventas)) + geom_bar(stat = "identity")

ggplot(data_ventas, aes(x=State, y=Ganancias)) + geom_bar(stat = "identity")

P4. Estan ilegibles los nombres del eje x, arregle esto, además agregue título, subtítulo, fuente que sea Kaggle, y renombre los ejes, tanto x como y.

ggplot(data_ventas, aes(x=State, y=Ventas)) + geom_bar(stat = "identity") + labs(x = "Estado", y = "Ventas", title = "Ventas", subtitle = "Por estado", caption = "Fuente: Kaggle") + theme(axis.text.x = element_text(angle=90, vjust=0.5))

ggplot(data_ventas, aes(x=State, y=Ganancias)) + geom_bar(stat = "identity") + labs(x = "Estado", y = "Ganancias", title = "Ganancias", subtitle = "Por estado", caption = "Fuente: Kaggle") + theme(axis.text.x = element_text(angle=90, vjust=0.5))

P5. Al parecer coincide el estado con más ganancias y ventas, realice un gráfico que muestre la categoría que se vende más en ese estado según su subcategoría, ¿Qué es lo que más se vende?

cal <- store[State == "California"]
cal <- cal[,.(`Order Date`, Category, `Sub-Category`, Quantity, Sales)]
cal[, TotalSub := sum(Quantity), by=`Sub-Category`]

ggplot(cal, aes(x=Category, y=TotalSub, fill=`Sub-Category`)) + geom_bar(stat = "identity", position = "dodge") + labs(x="Cantidad", y="Categoria", title = "Unidades Vendidas en California", subtitle = "Por Catergoría", caption = "Fuente: Kaggle")

Lo que mas se vende es la sub-categoría de “Paper”.

P6. Realice un gráfico de lineas de las sumas de las ventas por año en el estado de California en la categoría muebles.

cal <- cal[, Year := as.numeric(format(`Order Date`, format="%Y"))]
cal[, TotalY := sum(Sales), by=.(Category,Year)]

ggplot(cal[Category == "Furniture"], aes(x=Year, y=TotalY)) + geom_point() + geom_smooth() + labs(x="Año", y="Ventas", title= "Ventas Anuales de California", subtitle = "en la Categoría de Muebles", caption = "Fuente: Kaggle")

P7. ¿Cual es el porcentaje de ventas que contribuye el estado de California al país?

vpais <- store[,sum(Sales), by=State]
vpais[, TotalP := sum(V1)]
vpais[, Porcentaje := (V1/TotalP)*100]

x <- ggplot(vpais, aes(x=State, y=Porcentaje, text=paste("Estado:", State, "|", "Porcentaje:", round(Porcentaje, digits = 2), "%"))) + geom_bar(stat = "identity") + labs(x = "", y = "Porcentaje", title = "Contribución de Ventas por Estado", caption = "Fuente: Keggle") + theme(axis.text.x = element_text(angle=90, vjust=0.5))
ggplotly(x, tooltip = "text")

Al consultar la informacion que nos entrega el grafico, podemos saber que el estado de California contribuye en un 19,92% de las ventas totales del pais.