Ejercicio 5 Parte 2
- Realice una exploración y un análisis descriptivo completo
(incluyendo tablas de resumen y gráficos) de la base de datos disponible
en este enlace. Incluya gráficos que presenten los datos sobre un mapa
de Colombia, para visualizar la distribución geográfica de los precios
de los combustibles en el país (2018-2024).
library(dplyr)
#library(tidyr)
file_paths <- c(
"C:/Users/CEDIS RECEPCION/Downloads/energia/precios (19).csv",
"C:/Users/CEDIS RECEPCION/Downloads/energia/precios (20).csv",
"C:/Users/CEDIS RECEPCION/Downloads/energia/precios (21).csv",
"C:/Users/CEDIS RECEPCION/Downloads/energia/precios (22).csv")
energia <- file_paths %>%
lapply(read.csv) %>%
bind_rows()
# View the combined data
head(energia)
## BANDERA NOMBRE.COMERCIAL PRODUCTO
## 1 TERPEL ESTACION DE SERVICIO BALSA SAN JOSE GASOLINA MOTOR
## 2 TERPEL ESTACION DE SERVICIO DISTRIBUIDORA EL PORVENIR DIESEL
## 3 TERPEL ESTACION DE SERVICIO BALSA SAN JOSE DIESEL
## 4 TERPEL ESTACION DE SERVICIO DISTRIBUIDORA EL PORVENIR GASOLINA MOTOR
## 5 TERPEL BALSA EL CONDOR GASOLINA MOTOR
## 6 TERPEL BALSA EL CONDOR DIESEL
## FECHA.REGISTRO DEPARTAMENTO MUNICIPIO VALOR.PRECIO
## 1 01-Oct-2022 AMAZONAS LETICIA 10398
## 2 01-Oct-2022 AMAZONAS LETICIA 11820
## 3 01-Oct-2022 AMAZONAS LETICIA 10371
## 4 01-Oct-2022 AMAZONAS LETICIA 12010
## 5 01-Oct-2022 AMAZONAS LETICIA 10397
## 6 01-Oct-2022 AMAZONAS LETICIA 10736
- La estructura de los datos está compuesta por 7 variables de 269510
observaciones o registros desde enero de 2023 hasta diciembre de
2023.
- 6 de las 7 variables son de clase ‘character’, lo que significa que
son datos categóricos.
- El precio de la gasolina es la unica variable numérica.
VALOR.PRECIO (Valor del Precio)
- Mínimo: 0 (El precio mínimo es 0, lo cual podría indicar productos
gratuitos o posiblemente datos faltantes que no han sido
limpiados).
- 1er Cuartil (25%): 9250 (El 25% de los datos tiene un valor por
debajo de esta cifra).
- Mediana (50%): 10700 (Este es el punto medio de los datos, con el
50% de los precios por debajo y el 50% por encima de este valor).
- Media: 11495 (El promedio de los precios en todas las
observaciones).
- 3er Cuartil (75%): 12690 (El 75% de los datos tiene un valor por
debajo de esta cifra).
- Máximo: 14750147 (Este valor máximo extremadamente alto sugiere que
puede haber valores atípicos en el conjunto de datos).
- NA’s: No hay valores faltantes en esta variable ni en el conjunto de
datos.
library(readr)
library(dplyr)
library(knitr)
library(reactable)
library(ggplot2)
library(gridExtra)
library(VIM)
library(naniar)
library(e1071)
str(energia)
## 'data.frame': 269510 obs. of 7 variables:
## $ BANDERA : chr "TERPEL" "TERPEL" "TERPEL" "TERPEL" ...
## $ NOMBRE.COMERCIAL: chr "ESTACION DE SERVICIO BALSA SAN JOSE" "ESTACION DE SERVICIO DISTRIBUIDORA EL PORVENIR" "ESTACION DE SERVICIO BALSA SAN JOSE" "ESTACION DE SERVICIO DISTRIBUIDORA EL PORVENIR" ...
## $ PRODUCTO : chr "GASOLINA MOTOR" "DIESEL" "DIESEL" "GASOLINA MOTOR" ...
## $ FECHA.REGISTRO : chr "01-Oct-2022" "01-Oct-2022" "01-Oct-2022" "01-Oct-2022" ...
## $ DEPARTAMENTO : chr "AMAZONAS" "AMAZONAS" "AMAZONAS" "AMAZONAS" ...
## $ MUNICIPIO : chr "LETICIA" "LETICIA" "LETICIA" "LETICIA" ...
## $ VALOR.PRECIO : num 10398 11820 10371 12010 10397 ...
dim(energia)
## [1] 269510 7
names(energia)
## [1] "BANDERA" "NOMBRE.COMERCIAL" "PRODUCTO" "FECHA.REGISTRO"
## [5] "DEPARTAMENTO" "MUNICIPIO" "VALOR.PRECIO"
reactable(energia, searchable = TRUE, pagination = TRUE, defaultPageSize = 10)