El conjunto de datos proporciona estadísticas mensuales de electricidad de la Agencia Internacional de Energía (AIE) para múltiples países y territorios en todo el mundo. Incluye información sobre la generación de electricidad mensual desde 2010 hasta 2022. La producción de energía se mide en gigavatios-hora (GWh) y abarca una variedad de productos energéticos, incluyendo hidroeléctrica, eólica, solar, geotérmica, nuclear, combustibles fósiles y otros. Estos datos pueden ser útiles para analizar las tendencias de consumo y producción de electricidad a nivel mundial y regional, así como para evaluar el impacto ambiental de la industria eléctrica.
Se procede a cargar la base de datos
library(readxl)
library(readr)
library(readr)
df<- read_csv("DataViz_R/dataset_energy.csv")
## Rows: 47159 Columns: 12
## ── Column specification ────────────────────────────────────────────────────────
## Delimiter: ","
## chr (5): COUNTRY, CODE_TIME, TIME, MONTH_NAME, PRODUCT
## dbl (7): YEAR, MONTH, VALUE, DISPLAY_ORDER, yearToDate, previousYearToDate, ...
##
## ℹ Use `spec()` to retrieve the full column specification for this data.
## ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.
Se visualiza la base de datos
str(df)
## spc_tbl_ [47,159 × 12] (S3: spec_tbl_df/tbl_df/tbl/data.frame)
## $ COUNTRY : chr [1:47159] "Argentina" "Argentina" "Argentina" "Argentina" ...
## $ CODE_TIME : chr [1:47159] "JAN2020" "JAN2020" "JAN2020" "JAN2020" ...
## $ TIME : chr [1:47159] "January 2020" "January 2020" "January 2020" "January 2020" ...
## $ YEAR : num [1:47159] 2020 2020 2020 2020 2020 2020 2020 2020 2020 2020 ...
## $ MONTH : num [1:47159] 1 1 1 1 1 1 1 1 1 1 ...
## $ MONTH_NAME : chr [1:47159] "January" "January" "January" "January" ...
## $ PRODUCT : chr [1:47159] "Hydro" "Wind" "Solar" "Geothermal" ...
## $ VALUE : num [1:47159] 2393 677 106 0 0 ...
## $ DISPLAY_ORDER : num [1:47159] 1 2 3 4 5 6 7 8 9 10 ...
## $ yearToDate : num [1:47159] 23614 9318 1331 0 0 ...
## $ previousYearToDate: num [1:47159] 2694.1 285.6 40.1 0 0 ...
## $ share : num [1:47159] 0.192 0.0543 0.0085 0 0 ...
## - attr(*, "spec")=
## .. cols(
## .. COUNTRY = col_character(),
## .. CODE_TIME = col_character(),
## .. TIME = col_character(),
## .. YEAR = col_double(),
## .. MONTH = col_double(),
## .. MONTH_NAME = col_character(),
## .. PRODUCT = col_character(),
## .. VALUE = col_double(),
## .. DISPLAY_ORDER = col_double(),
## .. yearToDate = col_double(),
## .. previousYearToDate = col_double(),
## .. share = col_double()
## .. )
## - attr(*, "problems")=<externalptr>
unique(df$COUNTRY)
## [1] "Argentina" "Australia" "Austria"
## [4] "Belgium" "Brazil" "Bulgaria"
## [7] "Canada" "Chile" "Colombia"
## [10] "Croatia" "Cyprus" "Czech Republic"
## [13] "Denmark" "Estonia" "Finland"
## [16] "France" "Germany" "Greece"
## [19] "Hungary" "IEA Total" "Iceland"
## [22] "India" "Ireland" "Italy"
## [25] "Japan" "Korea" "Latvia"
## [28] "Lithuania" "Luxembourg" "Malta"
## [31] "Mexico" "Netherlands" "New Zealand"
## [34] "North Macedonia" "Norway" "OECD Americas"
## [37] "OECD Asia Oceania" "OECD Europe" "OECD Total"
## [40] "Poland" "Portugal" "Republic of Turkiye"
## [43] "Romania" "Serbia" "Slovak Republic"
## [46] "Slovenia" "Spain" "Sweden"
## [49] "Switzerland" "United Kingdom" "United States"
## [52] "Costa Rica"
Favor seguir continuar con los codigos de Kaggle
Tomar la base de datos y aplicar las distribuciones de la media de la
variable Value en cualquier pais de tu interes.
Planteamiento del problema: Tomando como pais de referencia se toman los datos correspondientes a Colombia en la base de datos. El objetivo es entender la variabilidad de las muestras tomadas de la variable VALUE relacionada con los valores de producción/consumo de energía para Colombia.
Pregunta del problema: ¿Cuál es la media esperada de la variable VALUE para Colombia, y cuál es la distribución muestral de la media si tomamos muestras de tamaño 𝑛=40?
Este análisis permitirá estimar con mayor precisión el valor promedio de energía en Colombia y analizar la variabilidad de las medias obtenidas a partir de diferentes muestras.
Pasos a seguir:
Filtrar los datos para Colombia.
Calcular la media y desviación estándar de la variable VALUE para Colombia.
Simular la distribución muestral de la media con un tamaño de muestra de n=40.
Calcular la media y error estándar de la distribución muestral.
Graficar la distribución muestral de la media.
# Paso 1: Cargar los datos y filtrar por Colombia
colombia_data <- subset(df, COUNTRY == "Colombia")
# Paso 2: Calcular la media y desviación estándar poblacional
population_mean_col <- mean(colombia_data$VALUE, na.rm = TRUE)
population_std_col <- sd(colombia_data$VALUE, na.rm = TRUE)
# Paso 3: Configurar el tamaño de muestra y número de simulaciones
sample_size <- 40
num_samples <- 1000
set.seed(123) # Para reproducibilidad
# Simular la distribución muestral de la media
sample_means_col <- replicate(num_samples, {
sample_data <- sample(colombia_data$VALUE, sample_size, replace = TRUE)
mean(sample_data)
})
# Paso 4: Calcular la media muestral y el error estándar
sampling_mean_col <- mean(sample_means_col)
sampling_std_error_col <- sd(sample_means_col)
# Paso 5: Graficar la distribución muestral de la media
hist(sample_means_col, breaks = 30, main = "Distribución Muestral de la Media (Colombia)",
xlab = "Media Muestral", col = "lightgreen", border = "black")
abline(v = sampling_mean_col, col = "red", lwd = 2, lty = 2)
Favor replicar con otro pais.