Para el procesamiento del año de inicio de producción de los yacimientos mundiales de hidrocarburos, se cargan las librerías necesarias. dplyr gestiona la manipulación de los registros productivos, readxl permite la lectura del dataset en formato Excel, mientras que knitr, kableExtra y e1071 estructuran los resultados y calculan los indicadores estadísticos.
Se carga el dataset mundial de extracción de petróleo y gas, conformado por 49,212 registros de campos, yacimientos y plantas extractivas distribuidas en distintos países. Para este análisis se trabaja con la variable que registra el año de inicio de operación comercial de cada unidad productiva.
datos <- read_excel("dataset_mundial_petro.xlsx")
cat("Dimensiones del dataset:", nrow(datos), "filas y", ncol(datos), "columnas\n")## Dimensiones del dataset: 49212 filas y 32 columnas
Se extrae la variable Production Start Year, que indica el año en que cada yacimiento de petróleo o gas inició formalmente su actividad extractiva comercial. Tras eliminar valores ausentes se obtienen 1,947 registros válidos que abarcan desde 1896 hasta 2027.
production_year <- as.numeric(datos$`Production start year`)
production_year <- production_year[!is.na(production_year)]
cat("Total de registros válidos:", length(production_year), "\n")## Total de registros válidos: 1947
## Primeros 10 valores: 1951 2009 1969 1979 1987 1998 1981 2005 1985 2002
Se cuantifica el número de yacimientos extractivos que iniciaron operaciones por década, con el fin de identificar los periodos de mayor expansión de la actividad productiva de petróleo y gas a nivel mundial.
conteo <- as.data.frame(table(production_year))
colnames(conteo) <- c("Año de Inicio de Producción", "Frecuencia Absoluta")
cat("Total de años únicos registrados:", nrow(conteo), "\n")## Total de años únicos registrados: 91
cat("Año con más inicios de producción:", conteo[which.max(conteo$`Frecuencia Absoluta`), 1],
"con", max(conteo$`Frecuencia Absoluta`), "registros\n")## Año con más inicios de producción: 82 con 70 registros
Se construye la tabla de frecuencias agrupando los inicios de producción por décadas, incluyendo frecuencia absoluta, relativa y acumulada ascendente y descendente, para visualizar la evolución histórica de la actividad extractiva mundial de hidrocarburos.
decada <- floor(production_year / 10) * 10
tabla_decadas <- as.data.frame(table(decada))
colnames(tabla_decadas) <- c("Década", "ni")
tabla_decadas <- tabla_decadas %>%
mutate(
`hi (%)` = paste0(round(ni / sum(ni) * 100, 2), "%"),
`Ni Asc` = cumsum(ni),
`Ni Dsc` = sum(ni) - cumsum(ni) + ni,
`Hi Asc` = paste0(round(cumsum(ni / sum(ni)) * 100, 2), "%"),
`Hi Dsc` = paste0(round((sum(ni) - cumsum(ni) + ni) / sum(ni) * 100, 2), "%")
)
kable(tabla_decadas, align = "c", caption = "Tabla de Frecuencias por Década — Production Start Year") %>%
kable_styling(bootstrap_options = c("striped", "hover", "condensed", "bordered"),
full_width = FALSE,
position = "center") %>%
row_spec(0, bold = TRUE, background = "#d9d9d9", color = "black")| Década | ni | hi (%) | Ni Asc | Ni Dsc | Hi Asc | Hi Dsc |
|---|---|---|---|---|---|---|
| 1890 | 1 | 0.05% | 1 | 1947 | 0.05% | 100% |
| 1910 | 3 | 0.15% | 4 | 1946 | 0.21% | 99.95% |
| 1920 | 3 | 0.15% | 7 | 1943 | 0.36% | 99.79% |
| 1930 | 11 | 0.56% | 18 | 1940 | 0.92% | 99.64% |
| 1940 | 13 | 0.67% | 31 | 1929 | 1.59% | 99.08% |
| 1950 | 56 | 2.88% | 87 | 1916 | 4.47% | 98.41% |
| 1960 | 119 | 6.11% | 206 | 1860 | 10.58% | 95.53% |
| 1970 | 152 | 7.81% | 358 | 1741 | 18.39% | 89.42% |
| 1980 | 178 | 9.14% | 536 | 1589 | 27.53% | 81.61% |
| 1990 | 345 | 17.72% | 881 | 1411 | 45.25% | 72.47% |
| 2000 | 426 | 21.88% | 1307 | 1066 | 67.13% | 54.75% |
| 2010 | 495 | 25.42% | 1802 | 640 | 92.55% | 32.87% |
| 2020 | 145 | 7.45% | 1947 | 145 | 100% | 7.45% |
El gráfico de barras muestra la distribución de los 1,947 yacimientos de petróleo y gas según la década en que iniciaron su producción. Se evidencia un crecimiento sostenido desde la década de 1960, alcanzando su punto máximo en la década de 2010 con 495 yacimientos, lo que representa el 25.42% del total.
ggplot(tabla_decadas, aes(x = Década, y = ni)) +
geom_bar(stat = "identity", fill = "#e74c3c", color = "white", alpha = 0.85) +
labs(
title = "Gráfica No 1: Inicios de Producción por Década",
x = "Década",
y = "Número de Yacimientos (ni)",
caption = "Fuente: Dataset Mundial de Petróleo y Gas"
) +
theme_minimal(base_size = 12) +
theme(
plot.title = element_text(face = "bold", hjust = 0.5),
axis.text.x = element_text(angle = 45, hjust = 1)
)La ojiva permite visualizar cómo se acumula la actividad productiva a lo largo del tiempo. La curva ascendente indica que el 67.13% de los yacimientos ya estaban en producción para el año 2000, mientras que la curva descendente confirma que el 32.87% restante inició operaciones a partir de la década de 2010.
tabla_ojiva <- tabla_decadas %>%
mutate(
NiAsc = cumsum(ni),
NiDsc = sum(ni) - cumsum(ni) + ni,
Decada_num = as.numeric(as.character(Década))
)
ggplot(tabla_ojiva, aes(x = Decada_num)) +
geom_line(aes(y = NiAsc, color = "Ascendente"), size = 1.2) +
geom_point(aes(y = NiAsc, color = "Ascendente"), size = 2.5) +
geom_line(aes(y = NiDsc, color = "Descendente"), size = 1.2) +
geom_point(aes(y = NiDsc, color = "Descendente"), size = 2.5) +
scale_color_manual(values = c("Ascendente" = "#e74c3c", "Descendente" = "#2980b9")) +
labs(
title = "Gráfica No 2: Frecuencia Acumulada de Inicios de Producción",
x = "Década",
y = "Frecuencia Acumulada",
color = "Tipo",
caption = "Fuente: Dataset Mundial de Petróleo y Gas"
) +
theme_minimal(base_size = 12) +
theme(
plot.title = element_text(face = "bold", hjust = 0.5),
axis.text.x = element_text(angle = 45, hjust = 1)
)El diagrama de cajas revela que el 50% central de los yacimientos inició producción entre 1986 y 2013, con una mediana de 2002. Se observan valores atípicos en los extremos inferiores correspondientes a yacimientos históricos que operan desde finales del siglo XIX.
df_plot <- data.frame(año = production_year)
ggplot(df_plot, aes(y = año)) +
geom_boxplot(fill = "#e67e22", color = "#1a252f", alpha = 0.8, width = 0.4) +
labs(
title = "Gráfica No 3: Dispersión del Año de Inicio de Producción",
y = "Año de Inicio de Producción",
caption = "Fuente: Dataset Mundial de Petróleo y Gas"
) +
theme_minimal(base_size = 13) +
theme(plot.title = element_text(face = "bold", hjust = 0.5))A continuación se presentan los indicadores estadísticos que resumen el comportamiento del año de inicio de producción de los yacimientos de petróleo y gas a nivel mundial.
variable <- "Production Start Year"
rango <- max(production_year) - min(production_year)
media <- round(mean(production_year), 2)
mediana <- round(median(production_year), 2)
moda_val <- as.numeric(names(sort(table(production_year), decreasing = TRUE)[1]))
varianza <- round(var(production_year), 2)
desv_est <- round(sd(production_year), 2)
cv <- round((desv_est / media) * 100, 2)
asimetria <- round(skewness(production_year), 4)
curtosis <- round(kurtosis(production_year), 4)
indicadores <- data.frame(
Variable = variable,
Rango = rango,
`Media (X)` = media,
`Mediana (Me)` = mediana,
`Moda (Mo)` = moda_val,
`Varianza (V)` = varianza,
`Desv. Est. (Sd)` = desv_est,
`C.V. (%)` = cv,
`Asimetría (As)` = asimetria,
`Curtosis (K)` = curtosis,
check.names = FALSE
)
kable(indicadores, align = "c",
caption = "Indicadores Estadísticos — Production Start Year") %>%
kable_styling(bootstrap_options = c("striped", "hover", "condensed", "bordered"),
full_width = TRUE,
position = "center") %>%
row_spec(0, bold = TRUE, background = "#d9d9d9", color = "black")| Variable | Rango | Media (X) | Mediana (Me) | Moda (Mo) | Varianza (V) | Desv. Est. (Sd) | C.V. (%) | Asimetría (As) | Curtosis (K) |
|---|---|---|---|---|---|---|---|---|---|
| Production Start Year | 131 | 1997.75 | 2002 | 2016 | 375.87 | 19.39 | 0.97 | -1.0544 | 1.0164 |