#{sql connection=} #1 #SELECT "Address" FROM Customers; #2 #SELECT DISTINCT City FROM Customers; #3 #SELECT * FROM Customers #WHERE City = 'Berlin' OR City = 'Madrid'; #4 #SELECT * #FROM Orders #LEFT JOIN Customers #ON Orders.CustomerID=Customers.CustomerID; #5 #SELECT COUNT(CustomerID),City #FROM Customers #GROUP BY City #ORDER BY COUNT(CustomerID) DESC; #

#1 Importa los datos del archivo en CSV “Market_size” del repo del curso, estos se usarán para las 4 siguientes preguntas. En este chunk deberás poner todas las librerías utilizadas.
library(dplyr)
## Warning: package 'dplyr' was built under R version 4.1.3
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
library(readr)
## Warning: package 'readr' was built under R version 4.1.3
library(tidyr)
## Warning: package 'tidyr' was built under R version 4.1.3
library(stringr)
## Warning: package 'stringr' was built under R version 4.1.3
library(ggplot2)
## Warning: package 'ggplot2' was built under R version 4.1.3
datos <- read.csv("C:/Users/Rodrigo/Desktop/TEC/Concentracion/Market_size.csv", skip = 5, fileEncoding = "latin1")
View(datos)
str(datos)
## 'data.frame':    1712 obs. of  12 variables:
##  $ Geography       : chr  "Azerbaijan" "Azerbaijan" "Azerbaijan" "Azerbaijan" ...
##  $ Category        : chr  "HW Soft Drinks - modelled" "HW Soft Drinks - modelled" "Soft Drinks" "Soft Drinks" ...
##  $ Data.Type       : chr  "Retail Volume" "Retail Value RSP" "Off-trade Volume" "Off-trade Value RSP" ...
##  $ Unit            : chr  "million litres" "AZN million" "million litres" "AZN million" ...
##  $ Current.Constant: chr  "-" "Current Prices" "-" "Current Prices" ...
##  $ X2017           : chr  "176.4" "264.6" "465.4" "542.0" ...
##  $ X2018           : chr  "190.2" "308.6" "514.7" "617.7" ...
##  $ X2019           : chr  "207.7" "354.8" "571.7" "701.3" ...
##  $ X2020           : chr  "220.7" "382.1" "583.3" "723.7" ...
##  $ X2021           : chr  "232.5" "420.9" "651.2" "846.5" ...
##  $ X2022           : chr  "248.7" "469.1" "708.3" "1,059.1" ...
##  $ X2023           : chr  "267.1" "528.9" "751.9" "1,244.2" ...
datos$X2017 <- as.numeric(datos$X2017)
## Warning: NAs introducidos por coerción
datos$X2018 <- as.numeric(datos$X2018)
## Warning: NAs introducidos por coerción
datos$X2019 <- as.numeric(datos$X2019)
## Warning: NAs introducidos por coerción
datos$X2020 <- as.numeric(datos$X2020)
## Warning: NAs introducidos por coerción
datos$X2021 <- as.numeric(datos$X2021)
## Warning: NAs introducidos por coerción
datos$X2022 <- as.numeric(datos$X2022)
## Warning: NAs introducidos por coerción
datos$X2023 <- as.numeric(datos$X2023)
## Warning: NAs introducidos por coerción
datos <- na.omit(datos)
#2 Genera una tabla que muestre los precios del 2023 para México de todas las categorías de bebidas.
p2023 = datos %>% 
  filter(Geography == "Mexico") %>% 
  select(Geography, Category, X2023) %>% 
  group_by(Geography, Category) %>% 
  summarise(precio = sum(X2023, na.rm = TRUE))
## `summarise()` has grouped output by 'Geography'. You can override using the
## `.groups` argument.
View(p2023)
#3 Genera una tabla que muestre por país y por categoría el precio por litro promedio de bebidas de cada año. Hint. Market Size
pl <- datos %>%
  select(Geography, Category, X2017, X2018, X2019, X2020, X2021, X2022, X2023) %>%
  group_by(Geography, Category) %>%
  summarise(`p_2017` = mean(X2017),
            `p_2018` = mean(X2018),
            `p_2019` = mean(X2019),
            `p_2020` = mean(X2020),
            `p_2021` = mean(X2021),
            `p_2022` = mean(X2022),
            `p_2023` = mean(X2023))
## `summarise()` has grouped output by 'Geography'. You can override using the
## `.groups` argument.
View(pl)
#4 A partir de la tabla anterior, genera un gráfico que muestre solo los países que inician con la letra “B” y sus precios por año contable. Recuerda usa tu creatividad, puedes usar geometrías vistas en clase u otras nuevas!
pl_b = pl %>% filter(str_starts(Geography, "B"))
nueva_pl = pl_b %>% 
  pivot_longer(cols = c("p_2017", "p_2018", "p_2019", "p_2020", "p_2021", "p_2022", "p_2023"),
               names_to = "Año",
               values_to = "precio")
print(ggplot(nueva_pl, aes(x = Año, y = precio, fill = Geography)) +
  geom_col() +
  labs(title = "Precios por año con paises con 'B'",
       x = "Año",
       y = "Precio") +
  scale_fill_manual(values = c("red", "blue", "green", "orange")))

#5 Genera un mapa de calor, que muestre al menos 1 de los dos valores numéricos de los datos de Market (Litros o Precios) en función de cualquier variable. Se creativo con los colores!
print(ggplot(filter(datos, Geography %in% c("Mexico", "USA", "Canada")), aes(Category, Geography, fill = X2023)) + 
  geom_tile() + 
  scale_fill_gradient(low = "blue", high = "red") +
  labs(title = "Precios de America del norte en el 2023",
       x = "Categoría",
       y = "Paises",
       fill = "Precios") + 
    theme(axis.text.x = element_text(angle = 90, vjust = 0.2)))