Variable Original: Production Start Year


1 Cargar Librerías

Para el procesamiento del año de inicio de producción de los yacimientos mundiales de hidrocarburos, se cargan las librerías necesarias. dplyr gestiona la manipulación de los registros productivos, readxl permite la lectura del dataset en formato Excel, mientras que knitr, kableExtra y e1071 estructuran los resultados y calculan los indicadores estadísticos.

library(dplyr)
library(ggplot2)
library(knitr)
library(kableExtra)
library(readxl)
library(e1071)

2 Cargar Datos

Se carga el dataset mundial de extracción de petróleo y gas, conformado por 49,212 registros de campos, yacimientos y plantas extractivas distribuidas en distintos países. Para este análisis se trabaja con la variable que registra el año de inicio de operación comercial de cada unidad productiva.

datos <- read_excel("dataset_mundial_petro.xlsx")
cat("Dimensiones del dataset:", nrow(datos), "filas y", ncol(datos), "columnas\n")
## Dimensiones del dataset: 49212 filas y 32 columnas

3 Extraer la Variable

Se extrae la variable Production Start Year, que indica el año en que cada yacimiento de petróleo o gas inició formalmente su actividad extractiva comercial. Tras eliminar valores ausentes se obtienen 1,947 registros válidos que abarcan desde 1896 hasta 2027.

production_year <- as.numeric(datos$`Production start year`)
production_year <- production_year[!is.na(production_year)]
cat("Total de registros válidos:", length(production_year), "\n")
## Total de registros válidos: 1947
cat("Primeros 10 valores:", head(production_year, 10), "\n")
## Primeros 10 valores: 1951 2009 1969 1979 1987 1998 1981 2005 1985 2002

4 Conteo

Se cuantifica el número de yacimientos extractivos que iniciaron operaciones por década, con el fin de identificar los periodos de mayor expansión de la actividad productiva de petróleo y gas a nivel mundial.

conteo <- as.data.frame(table(production_year))
colnames(conteo) <- c("Año de Inicio de Producción", "Frecuencia Absoluta")
cat("Total de años únicos registrados:", nrow(conteo), "\n")
## Total de años únicos registrados: 91
cat("Año con más inicios de producción:", conteo[which.max(conteo$`Frecuencia Absoluta`), 1], 
    "con", max(conteo$`Frecuencia Absoluta`), "registros\n")
## Año con más inicios de producción: 82 con 70 registros

5 Tabla de Frecuencia

Se construye la tabla de frecuencias agrupando los inicios de producción por décadas, incluyendo frecuencia absoluta, relativa y acumulada ascendente y descendente, para visualizar la evolución histórica de la actividad extractiva mundial de hidrocarburos.

decada <- floor(production_year / 10) * 10
tabla_decadas <- as.data.frame(table(decada))
colnames(tabla_decadas) <- c("Década", "ni")

tabla_decadas <- tabla_decadas %>%
  mutate(
    `hi (%)` = paste0(round(ni / sum(ni) * 100, 2), "%"),
    `Ni Asc` = cumsum(ni),
    `Ni Dsc` = sum(ni) - cumsum(ni) + ni,
    `Hi Asc` = paste0(round(cumsum(ni / sum(ni)) * 100, 2), "%"),
    `Hi Dsc` = paste0(round((sum(ni) - cumsum(ni) + ni) / sum(ni) * 100, 2), "%")
  )

kable(tabla_decadas, align = "c", caption = "Tabla de Frecuencias por Década — Production Start Year") %>%
  kable_styling(bootstrap_options = c("striped", "hover", "condensed", "bordered"),
                full_width = FALSE,
                position = "center") %>%
  row_spec(0, bold = TRUE, background = "#d9d9d9", color = "black")
Tabla de Frecuencias por Década — Production Start Year
Década ni hi (%) Ni Asc Ni Dsc Hi Asc Hi Dsc
1890 1 0.05% 1 1947 0.05% 100%
1910 3 0.15% 4 1946 0.21% 99.95%
1920 3 0.15% 7 1943 0.36% 99.79%
1930 11 0.56% 18 1940 0.92% 99.64%
1940 13 0.67% 31 1929 1.59% 99.08%
1950 56 2.88% 87 1916 4.47% 98.41%
1960 119 6.11% 206 1860 10.58% 95.53%
1970 152 7.81% 358 1741 18.39% 89.42%
1980 178 9.14% 536 1589 27.53% 81.61%
1990 345 17.72% 881 1411 45.25% 72.47%
2000 426 21.88% 1307 1066 67.13% 54.75%
2010 495 25.42% 1802 640 92.55% 32.87%
2020 145 7.45% 1947 145 100% 7.45%

6 Gráficas

6.1 Gráfica

El gráfico de barras muestra la distribución de los 1,947 yacimientos de petróleo y gas según la década en que iniciaron su producción. Se evidencia un crecimiento sostenido desde la década de 1960, alcanzando su punto máximo en la década de 2010 con 495 yacimientos, lo que representa el 25.42% del total.

ggplot(tabla_decadas, aes(x = Década, y = ni)) +
  geom_bar(stat = "identity", fill = "#e74c3c", color = "white", alpha = 0.85) +
  labs(
    title = "Gráfica No 1: Inicios de Producción por Década",
    x = "Década",
    y = "Número de Yacimientos (ni)",
    caption = "Fuente: Dataset Mundial de Petróleo y Gas"
  ) +
  theme_minimal(base_size = 12) +
  theme(
    plot.title = element_text(face = "bold", hjust = 0.5),
    axis.text.x = element_text(angle = 45, hjust = 1)
  )


6.2 Gráfica

La ojiva permite visualizar cómo se acumula la actividad productiva a lo largo del tiempo. La curva ascendente indica que el 67.13% de los yacimientos ya estaban en producción para el año 2000, mientras que la curva descendente confirma que el 32.87% restante inició operaciones a partir de la década de 2010.

tabla_ojiva <- tabla_decadas %>%
  mutate(
    NiAsc = cumsum(ni),
    NiDsc = sum(ni) - cumsum(ni) + ni,
    Decada_num = as.numeric(as.character(Década))
  )

ggplot(tabla_ojiva, aes(x = Decada_num)) +
  geom_line(aes(y = NiAsc, color = "Ascendente"), size = 1.2) +
  geom_point(aes(y = NiAsc, color = "Ascendente"), size = 2.5) +
  geom_line(aes(y = NiDsc, color = "Descendente"), size = 1.2) +
  geom_point(aes(y = NiDsc, color = "Descendente"), size = 2.5) +
  scale_color_manual(values = c("Ascendente" = "#e74c3c", "Descendente" = "#2980b9")) +
  labs(
    title = "Gráfica No 2: Frecuencia Acumulada de Inicios de Producción",
    x = "Década",
    y = "Frecuencia Acumulada",
    color = "Tipo",
    caption = "Fuente: Dataset Mundial de Petróleo y Gas"
  ) +
  theme_minimal(base_size = 12) +
  theme(
    plot.title = element_text(face = "bold", hjust = 0.5),
    axis.text.x = element_text(angle = 45, hjust = 1)
  )


6.3 Gráfica

El diagrama de cajas revela que el 50% central de los yacimientos inició producción entre 1986 y 2013, con una mediana de 2002. Se observan valores atípicos en los extremos inferiores correspondientes a yacimientos históricos que operan desde finales del siglo XIX.

df_plot <- data.frame(año = production_year)

ggplot(df_plot, aes(y = año)) +
  geom_boxplot(fill = "#e67e22", color = "#1a252f", alpha = 0.8, width = 0.4) +
  labs(
    title = "Gráfica No 3: Dispersión del Año de Inicio de Producción",
    y = "Año de Inicio de Producción",
    caption = "Fuente: Dataset Mundial de Petróleo y Gas"
  ) +
  theme_minimal(base_size = 13) +
  theme(plot.title = element_text(face = "bold", hjust = 0.5))


7 Indicadores Estadísticos

A continuación se presentan los indicadores estadísticos que resumen el comportamiento del año de inicio de producción de los yacimientos de petróleo y gas a nivel mundial.

variable  <- "Production Start Year"
rango     <- max(production_year) - min(production_year)
media     <- round(mean(production_year), 2)
mediana   <- round(median(production_year), 2)
moda_val  <- as.numeric(names(sort(table(production_year), decreasing = TRUE)[1]))
varianza  <- round(var(production_year), 2)
desv_est  <- round(sd(production_year), 2)
cv        <- round((desv_est / media) * 100, 2)
asimetria <- round(skewness(production_year), 4)
curtosis  <- round(kurtosis(production_year), 4)

indicadores <- data.frame(
  Variable          = variable,
  Rango             = rango,
  `Media (X)`       = media,
  `Mediana (Me)`    = mediana,
  `Moda (Mo)`       = moda_val,
  `Varianza (V)`    = varianza,
  `Desv. Est. (Sd)` = desv_est,
  `C.V. (%)`        = cv,
  `Asimetría (As)`  = asimetria,
  `Curtosis (K)`    = curtosis,
  check.names = FALSE
)

kable(indicadores, align = "c",
      caption = "Indicadores Estadísticos — Production Start Year") %>%
  kable_styling(bootstrap_options = c("striped", "hover", "condensed", "bordered"),
                full_width = TRUE,
                position = "center") %>%
  row_spec(0, bold = TRUE, background = "#d9d9d9", color = "black")
Indicadores Estadísticos — Production Start Year
Variable Rango Media (X) Mediana (Me) Moda (Mo) Varianza (V) Desv. Est. (Sd) C.V. (%) Asimetría (As) Curtosis (K)
Production Start Year 131 1997.75 2002 2016 375.87 19.39 0.97 -1.0544 1.0164