Ejercicio en Clase: Población

## Instalar paquetes y llamar librerias

#install.packages("forecast")
library(forecast)
#install.packages("tidyverse")
library(tidyverse)
#install.packages("ggplot2")
library(ggplot2)

Importar la base de datos

poblacion <- read.csv("/Users/gilmenchaca/Documents/OTROS/TEC/SEMESTRE 8/RAUL/population.csv")

Entender la base de datos

summary(poblacion)
##     state                year        population      
##  Length:6020        Min.   :1900   Min.   :   43000  
##  Class :character   1st Qu.:1930   1st Qu.:  901483  
##  Mode  :character   Median :1960   Median : 2359000  
##                     Mean   :1960   Mean   : 3726003  
##                     3rd Qu.:1990   3rd Qu.: 4541883  
##                     Max.   :2019   Max.   :39512223
str(poblacion)
## 'data.frame':    6020 obs. of  3 variables:
##  $ state     : chr  "AK" "AK" "AK" "AK" ...
##  $ year      : int  1950 1951 1952 1953 1954 1955 1956 1957 1958 1959 ...
##  $ population: int  135000 158000 189000 205000 215000 222000 224000 231000 224000 224000 ...
head(poblacion)
##   state year population
## 1    AK 1950     135000
## 2    AK 1951     158000
## 3    AK 1952     189000
## 4    AK 1953     205000
## 5    AK 1954     215000
## 6    AK 1955     222000

Serie de tiempo en Texas

poblacion_texas <- poblacion %>% filter(state=="TX")

ggplot(poblacion_texas, aes(x=year, y=population)) + geom_line() +
  labs(title = "Pobalcion de Texas", x="Año", y="Población")

ts_texas <- ts(poblacion_texas$population,start=1900, frequency = 1) # serie de tiempo anual por eso frequency esta en 1 
# Seride de tiempo trimestral
# ts_texas <- ts(pobalcion_texas$population,start=1900, frequency = 4) # serie de tiempo trimestral
# ts_texas <- ts(pobalcion_texas$population,start=1900,8, frequency = 1) # serie de tiempo mensual que empieza en agosto

arima_texas <- auto.arima(ts_texas)
summary(arima_texas)
## Series: ts_texas 
## ARIMA(0,2,2) 
## 
## Coefficients:
##           ma1      ma2
##       -0.5950  -0.1798
## s.e.   0.0913   0.0951
## 
## sigma^2 = 1.031e+10:  log likelihood = -1527.14
## AIC=3060.28   AICc=3060.5   BIC=3068.6
## 
## Training set error measures:
##                    ME     RMSE      MAE       MPE      MAPE      MASE
## Training set 12147.62 99818.31 59257.39 0.1046163 0.5686743 0.2672197
##                     ACF1
## Training set -0.02136734
pronostico_texas <- forecast(arima_texas, level=95, h = 10)
pronostico_texas
##      Point Forecast    Lo 95    Hi 95
## 2020       29398472 29199487 29597457
## 2021       29806827 29463665 30149990
## 2022       30215183 29742956 30687410
## 2023       30623538 30024100 31222977
## 2024       31031894 30303359 31760429
## 2025       31440249 30579246 32301253
## 2026       31848605 30851090 32846119
## 2027       32256960 31118581 33395339
## 2028       32665316 31381587 33949044
## 2029       33073671 31640070 34507272
plot(pronostico_texas, main = "Pronostico de poblacion de Texas")

Ejercicio en clase lunes 17: Mapa

Instalar paquetes y llamar librerias

#install.packages("forecast")
library(forecast)
#install.packages("tidyverse")
library(tidyverse)
#install.packages("ggplot2")
library(ggplot2)
#install.packages("maps")
library(maps)

Importar la base de datos

poblacion <- read.csv("/Users/gilmenchaca/Documents/OTROS/TEC/SEMESTRE 8/RAUL/population.csv")

Entender la base de datos

summary(poblacion)
##     state                year        population      
##  Length:6020        Min.   :1900   Min.   :   43000  
##  Class :character   1st Qu.:1930   1st Qu.:  901483  
##  Mode  :character   Median :1960   Median : 2359000  
##                     Mean   :1960   Mean   : 3726003  
##                     3rd Qu.:1990   3rd Qu.: 4541883  
##                     Max.   :2019   Max.   :39512223
str(poblacion)
## 'data.frame':    6020 obs. of  3 variables:
##  $ state     : chr  "AK" "AK" "AK" "AK" ...
##  $ year      : int  1950 1951 1952 1953 1954 1955 1956 1957 1958 1959 ...
##  $ population: int  135000 158000 189000 205000 215000 222000 224000 231000 224000 224000 ...
head(poblacion)
##   state year population
## 1    AK 1950     135000
## 2    AK 1951     158000
## 3    AK 1952     189000
## 4    AK 1953     205000
## 5    AK 1954     215000
## 6    AK 1955     222000

Serie de tiempo en Texas

poblacion_texas <- poblacion %>% filter(state=="TX")

ggplot(poblacion_texas, aes(x=year, y=population)) + geom_line() +
  labs(title = "Pobalcion de Texas", x="Año", y="Población")

ts_texas <- ts(poblacion_texas$population,start=1900, frequency = 1) # serie de tiempo anual por eso frequency esta en 1 
# Seride de tiempo trimestral
# ts_texas <- ts(pobalcion_texas$population,start=1900, frequency = 4) # serie de tiempo trimestral
# ts_texas <- ts(pobalcion_texas$population,start=1900,8, frequency = 1) # serie de tiempo mensual que empieza en agosto

arima_texas <- auto.arima(ts_texas)
summary(arima_texas)
## Series: ts_texas 
## ARIMA(0,2,2) 
## 
## Coefficients:
##           ma1      ma2
##       -0.5950  -0.1798
## s.e.   0.0913   0.0951
## 
## sigma^2 = 1.031e+10:  log likelihood = -1527.14
## AIC=3060.28   AICc=3060.5   BIC=3068.6
## 
## Training set error measures:
##                    ME     RMSE      MAE       MPE      MAPE      MASE
## Training set 12147.62 99818.31 59257.39 0.1046163 0.5686743 0.2672197
##                     ACF1
## Training set -0.02136734
pronostico_texas <- forecast(arima_texas, level=95, h = 10)
pronostico_texas
##      Point Forecast    Lo 95    Hi 95
## 2020       29398472 29199487 29597457
## 2021       29806827 29463665 30149990
## 2022       30215183 29742956 30687410
## 2023       30623538 30024100 31222977
## 2024       31031894 30303359 31760429
## 2025       31440249 30579246 32301253
## 2026       31848605 30851090 32846119
## 2027       32256960 31118581 33395339
## 2028       32665316 31381587 33949044
## 2029       33073671 31640070 34507272
plot(pronostico_texas, main = "Pronostico de poblacion de Texas")

Crear un mapa por decada

# Crear un mapa de EEUU por decada, con un gradiente verde-rojo de la poblacion por estado, desde 1950 hasta2050
map(database = "state")
map(database = "state", regions="Texas", col="red", fill = TRUE, add=TRUE)

# Filter data for the year 1950
poblacion_1950 <- poblacion %>%
  filter(year == 1950)

# Convert state abbreviations to full names for mapping
state_names <- data.frame(
  state = state.abb, 
  full_name = tolower(state.name)
)

# Merge full state names with population data
poblacion_1950 <- merge(poblacion_1950, state_names, by.x = "state", by.y = "state")

# Get US states map data
us_states <- map_data("state")

# Merge map data with population data
map_data_1950 <- merge(us_states, poblacion_1950, by.x = "region", by.y = "full_name")

# Plot the map
ggplot(data = map_data_1950, aes(x = long, y = lat, group = group, fill = population)) +
  geom_polygon(color = "black", size = 0.3) +
  scale_fill_gradient(low = "green", high = "red", name = "Población") +
  theme_minimal() +
  theme(axis.text = element_blank(), axis.ticks = element_blank(),
        axis.title = element_blank(), panel.grid = element_blank()) +
  labs(title = "Poblacion de EUA 1950")
## Warning: Using `size` aesthetic for lines was deprecated in ggplot2 3.4.0.
## ℹ Please use `linewidth` instead.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.

Haz click aquí para revisar la version completa de los mapas

Actividad 2. Leche saborizada Hershey’s

Instalar paquetes y llamar librerías

#install.packages("forecast")
library(forecast)
#install.packages("tidyverse")
library(tidyverse)
#install.packages("ggplot2")
library(ggplot2)
#install.packages("maps")
library(maps)
#install.packages("readxl")
library(readxl)

#install.packages("knitr")
#install.packages("kableExtra")

# Cargar librerías
library(knitr)
library(kableExtra)

Importar base de datos

ventas <- read_excel("/Users/gilmenchaca/Documents/OTROS/TEC/SEMESTRE 8/RAUL/Ventas_Históricas_Lechitas.xlsx")

Modelo ARIMA

ts_ventas <- ts(ventas$Ventas,start=c(2017,1), frequency = 12)
autoplot(ts_ventas) + labs(title = "Ventas de leche saborizada Hershey's", x = "Tiempo" , y = "Miles de Dólares")

arima_ventas <- auto.arima(ts_ventas)
summary(arima_ventas)
## Series: ts_ventas 
## ARIMA(1,0,0)(1,1,0)[12] with drift 
## 
## Coefficients:
##          ar1     sar1     drift
##       0.6383  -0.5517  288.8979
## s.e.  0.1551   0.2047   14.5026
## 
## sigma^2 = 202701:  log likelihood = -181.5
## AIC=371   AICc=373.11   BIC=375.72
## 
## Training set error measures:
##                    ME    RMSE    MAE        MPE      MAPE       MASE      ACF1
## Training set 25.22158 343.864 227.17 0.08059932 0.7069542 0.06491044 0.2081026
pronostico_ventas <- forecast(arima_ventas, level=95, h = 12)
pronostico_ventas
##          Point Forecast    Lo 95    Hi 95
## Jan 2020       35498.90 34616.48 36381.32
## Feb 2020       34202.17 33155.28 35249.05
## Mar 2020       36703.01 35596.10 37809.92
## Apr 2020       36271.90 35141.44 37402.36
## May 2020       37121.98 35982.07 38261.90
## Jun 2020       37102.65 35958.90 38246.40
## Jul 2020       37151.04 36005.73 38296.34
## Aug 2020       38564.64 37418.70 39710.58
## Sep 2020       38755.22 37609.03 39901.42
## Oct 2020       39779.02 38632.72 40925.32
## Nov 2020       38741.63 37595.28 39887.97
## Dec 2020       38645.86 37499.50 39792.22
autoplot(pronostico_ventas) + labs(title = "Pronostico de ventas 2020 de lecehe saborizada Hershey's", x="Tiempo", y = "Miles de Dólares")

Modelo de regresion lineal

ventas$mes <- 1:36
regresion_ventas <- lm(Ventas ~ mes, data = ventas)
summary(regresion_ventas)
## 
## Call:
## lm(formula = Ventas ~ mes, data = ventas)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -2075.79  -326.41    33.74   458.40  1537.04 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 24894.67     275.03   90.52   <2e-16 ***
## mes           298.37      12.96   23.02   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 808 on 34 degrees of freedom
## Multiple R-squared:  0.9397, Adjusted R-squared:  0.9379 
## F-statistic: 529.8 on 1 and 34 DF,  p-value: < 2.2e-16
siguiente_anio <- data.frame(mes=37:48)
prediccion_regresion <- predict(regresion_ventas, siguiente_anio)
prediccion_regresion
##        1        2        3        4        5        6        7        8 
## 35934.49 36232.86 36531.23 36829.61 37127.98 37426.35 37724.73 38023.10 
##        9       10       11       12 
## 38321.47 38619.85 38918.22 39216.59
plot(ventas$mes, ventas$Ventas, main = "Pronostico de Ventas 20220 de leche saborizadas Hershey's", xlab = "Tiempo", ylab = "Miles de Dólares")
abline(regresion_ventas, col = "blue")
points(siguiente_anio$mes, prediccion_regresion, col = "red")

prediccion_reales <- predict(regresion_ventas, ventas)

MAPE <- mean(abs((ventas$Ventas - prediccion_reales)/ventas$Ventas))*100
MAPE
## [1] 2.011297

Conclusiones

El mejor modelo que se adapta a la serie es el SARIMA con un MAPE DE 0.71%, comparado con la de regresion lineal que su MAPE es de 2.01%.
Para el siguiente año, la proyección de ventas es la siguiente:

tabla <- data.frame(
  `Mes y Año` = c("Jan 2020", "Feb 2020", "Mar 2020", "Apr 2020", "May 2020",
                  "Jun 2020", "Jul 2020", "Aug 2020", "Sep 2020", "Oct 2020"),
  Esperado = c(35498.90, 34202.17, 36703.01, 36271.90, 37121.98, 
               37102.65, 37151.04, 38564.64, 38755.22, 39779.02),
  Pesimista = c(34616.48, 33155.28, 35596.10, 35141.44, 35982.07, 
                35958.90, 36005.73, 37418.70, 37609.03, 38632.72),
  Optimista = c(36381.32, 35249.05, 37809.92, 37402.36, 38261.90, 
                38246.40, 38296.34, 39710.58, 39901.42, 40925.32)
)

# Generar tabla con kable
tabla %>%
  kable("html", caption = "Proyección Financiera 2020") %>%
  kable_styling(full_width = FALSE, bootstrap_options = c("striped", "hover"))
Proyección Financiera 2020
Mes.y.Año Esperado Pesimista Optimista
Jan 2020 35498.90 34616.48 36381.32
Feb 2020 34202.17 33155.28 35249.05
Mar 2020 36703.01 35596.10 37809.92
Apr 2020 36271.90 35141.44 37402.36
May 2020 37121.98 35982.07 38261.90
Jun 2020 37102.65 35958.90 38246.40
Jul 2020 37151.04 36005.73 38296.34
Aug 2020 38564.64 37418.70 39710.58
Sep 2020 38755.22 37609.03 39901.42
Oct 2020 39779.02 38632.72 40925.32
ventas_por_anio <- read.csv("/Users/gilmenchaca/Documents/OTROS/TEC/SEMESTRE 8/RAUL/ventas_por_anio.csv")
ggplot(ventas_por_anio, aes(x=mes, y=ventas, col=as.factor(anio),group=anio)) + geom_line() + 
  labs(title = "Ventas de leche saborizada Hershey's por año", x="Ventas",y="Miles de Dólares")

Nuestra recomendación seria realizar campañas publicitarias para aumentar el consumo de leches saborizadas Hershey’s en el primer semestre del año.

