Producción mensual de energía en Colombia.

El conjunto de datos proporciona estadísticas mensuales de electricidad de la Agencia Internacional de Energía (AIE) para múltiples países y territorios en todo el mundo. Incluye información sobre la generación de electricidad mensual desde 2010 hasta 2022. La producción de energía se mide en gigavatios-hora (GWh) y abarca una variedad de productos energéticos, incluyendo hidroeléctrica, eólica, solar, geotérmica, nuclear, combustibles fósiles y otros. Estos datos pueden ser útiles para analizar las tendencias de consumo y producción de electricidad a nivel mundial y regional, así como para evaluar el impacto ambiental de la industria eléctrica.

Se procede a cargar la base de datos

library(readxl)
library(readr)
library(readr)
df<- read_csv("DataViz_R/dataset_energy.csv") 
## Rows: 47159 Columns: 12
## ── Column specification ────────────────────────────────────────────────────────
## Delimiter: ","
## chr (5): COUNTRY, CODE_TIME, TIME, MONTH_NAME, PRODUCT
## dbl (7): YEAR, MONTH, VALUE, DISPLAY_ORDER, yearToDate, previousYearToDate, ...
## 
## ℹ Use `spec()` to retrieve the full column specification for this data.
## ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.

Se visualiza la base de datos

str(df)
## spc_tbl_ [47,159 × 12] (S3: spec_tbl_df/tbl_df/tbl/data.frame)
##  $ COUNTRY           : chr [1:47159] "Argentina" "Argentina" "Argentina" "Argentina" ...
##  $ CODE_TIME         : chr [1:47159] "JAN2020" "JAN2020" "JAN2020" "JAN2020" ...
##  $ TIME              : chr [1:47159] "January 2020" "January 2020" "January 2020" "January 2020" ...
##  $ YEAR              : num [1:47159] 2020 2020 2020 2020 2020 2020 2020 2020 2020 2020 ...
##  $ MONTH             : num [1:47159] 1 1 1 1 1 1 1 1 1 1 ...
##  $ MONTH_NAME        : chr [1:47159] "January" "January" "January" "January" ...
##  $ PRODUCT           : chr [1:47159] "Hydro" "Wind" "Solar" "Geothermal" ...
##  $ VALUE             : num [1:47159] 2393 677 106 0 0 ...
##  $ DISPLAY_ORDER     : num [1:47159] 1 2 3 4 5 6 7 8 9 10 ...
##  $ yearToDate        : num [1:47159] 23614 9318 1331 0 0 ...
##  $ previousYearToDate: num [1:47159] 2694.1 285.6 40.1 0 0 ...
##  $ share             : num [1:47159] 0.192 0.0543 0.0085 0 0 ...
##  - attr(*, "spec")=
##   .. cols(
##   ..   COUNTRY = col_character(),
##   ..   CODE_TIME = col_character(),
##   ..   TIME = col_character(),
##   ..   YEAR = col_double(),
##   ..   MONTH = col_double(),
##   ..   MONTH_NAME = col_character(),
##   ..   PRODUCT = col_character(),
##   ..   VALUE = col_double(),
##   ..   DISPLAY_ORDER = col_double(),
##   ..   yearToDate = col_double(),
##   ..   previousYearToDate = col_double(),
##   ..   share = col_double()
##   .. )
##  - attr(*, "problems")=<externalptr>
unique(df$COUNTRY)
##  [1] "Argentina"           "Australia"           "Austria"            
##  [4] "Belgium"             "Brazil"              "Bulgaria"           
##  [7] "Canada"              "Chile"               "Colombia"           
## [10] "Croatia"             "Cyprus"              "Czech Republic"     
## [13] "Denmark"             "Estonia"             "Finland"            
## [16] "France"              "Germany"             "Greece"             
## [19] "Hungary"             "IEA Total"           "Iceland"            
## [22] "India"               "Ireland"             "Italy"              
## [25] "Japan"               "Korea"               "Latvia"             
## [28] "Lithuania"           "Luxembourg"          "Malta"              
## [31] "Mexico"              "Netherlands"         "New Zealand"        
## [34] "North Macedonia"     "Norway"              "OECD Americas"      
## [37] "OECD Asia Oceania"   "OECD Europe"         "OECD Total"         
## [40] "Poland"              "Portugal"            "Republic of Turkiye"
## [43] "Romania"             "Serbia"              "Slovak Republic"    
## [46] "Slovenia"            "Spain"               "Sweden"             
## [49] "Switzerland"         "United Kingdom"      "United States"      
## [52] "Costa Rica"

Favor seguir continuar con los codigos de Kaggle

Actividad

Tomar la base de datos y aplicar las distribuciones de la media de la variable Value en cualquier pais de tu interes.

Modelo de ejemplo.

Planteamiento del problema: Tomando como pais de referencia se toman los datos correspondientes a Colombia en la base de datos. El objetivo es entender la variabilidad de las muestras tomadas de la variable VALUE relacionada con los valores de producción/consumo de energía para Colombia.

Pregunta del problema: ¿Cuál es la media esperada de la variable VALUE para Colombia, y cuál es la distribución muestral de la media si tomamos muestras de tamaño 𝑛=40?

Este análisis permitirá estimar con mayor precisión el valor promedio de energía en Colombia y analizar la variabilidad de las medias obtenidas a partir de diferentes muestras.

Pasos a seguir:

  • Filtrar los datos para Colombia.

  • Calcular la media y desviación estándar de la variable VALUE para Colombia.

  • Simular la distribución muestral de la media con un tamaño de muestra de n=40.

  • Calcular la media y error estándar de la distribución muestral.

  • Graficar la distribución muestral de la media.

# Paso 1: Cargar los datos y filtrar por Colombia
colombia_data <- subset(df, COUNTRY == "Colombia")

# Paso 2: Calcular la media y desviación estándar poblacional
population_mean_col <- mean(colombia_data$VALUE, na.rm = TRUE)
population_std_col <- sd(colombia_data$VALUE, na.rm = TRUE)

# Paso 3: Configurar el tamaño de muestra y número de simulaciones
sample_size <- 40
num_samples <- 1000
set.seed(123)  # Para reproducibilidad

# Simular la distribución muestral de la media
sample_means_col <- replicate(num_samples, {
  sample_data <- sample(colombia_data$VALUE, sample_size, replace = TRUE)
  mean(sample_data)
})

# Paso 4: Calcular la media muestral y el error estándar
sampling_mean_col <- mean(sample_means_col)
sampling_std_error_col <- sd(sample_means_col)

# Paso 5: Graficar la distribución muestral de la media
hist(sample_means_col, breaks = 30, main = "Distribución Muestral de la Media (Colombia)", 
     xlab = "Media Muestral", col = "lightgreen", border = "black")
abline(v = sampling_mean_col, col = "red", lwd = 2, lty = 2)

Favor replicar con otro pais.