Se cargan las librerías necesarias para el análisis estadístico del año de inicio de producción de los yacimientos mundiales de petróleo y gas.
Se importa el dataset mundial de extracción de petróleo y gas con 49,212 registros, analizando específicamente el año en que cada yacimiento inició su operación comercial.
datos <- read_excel("dataset_mundial_petro.xlsx")
cat("Dimensiones del dataset:", nrow(datos), "filas y", ncol(datos), "columnas\n")## Dimensiones del dataset: 49212 filas y 32 columnas
Se extrae la variable Production Start Year, que indica el año en que cada yacimiento inició su producción comercial de petróleo o gas. Tras depurar los valores ausentes se obtienen 1,947 registros válidos que abarcan desde 1896 hasta 2027.
production_year <- as.numeric(datos$`Production start year`)
production_year <- production_year[!is.na(production_year)]
cat("Total de registros válidos:", length(production_year), "\n")## Total de registros válidos: 1947
## Primeros 10 valores: 1951 2009 1969 1979 1987 1998 1981 2005 1985 2002
Se contabiliza el número de yacimientos que iniciaron la producción, identificando los periodos de mayor expansión productiva en la industria de petróleo y gas.
conteo <- as.data.frame(table(production_year))
colnames(conteo) <- c("Año de Inicio de Producción", "Frecuencia Absoluta")
cat("Total de años únicos registrados:", nrow(conteo), "\n")## Total de años únicos registrados: 91
cat("Año con más inicios de producción:", conteo[which.max(conteo$`Frecuencia Absoluta`), 1],
"con", max(conteo$`Frecuencia Absoluta`), "registros\n")## Año con más inicios de producción: 82 con 70 registros
Se agrupan los inicios de producción por décadas mostrando frecuencia absoluta, relativa y acumulada, para analizar la evolución de la actividad extractiva mundial de hidrocarburos.
decada <- floor(production_year / 10) * 10
tabla_decadas <- as.data.frame(table(decada))
colnames(tabla_decadas) <- c("Década", "ni")
tabla_decadas <- tabla_decadas %>%
mutate(
`hi (%)` = paste0(round(ni / sum(ni) * 100, 2), "%"),
`Ni Asc` = cumsum(ni),
`Ni Dsc` = sum(ni) - cumsum(ni) + ni,
`Hi Asc` = paste0(round(cumsum(ni / sum(ni)) * 100, 2), "%"),
`Hi Dsc` = paste0(round((sum(ni) - cumsum(ni) + ni) / sum(ni) * 100, 2), "%")
)
kable(tabla_decadas, align = "c", caption = "Tabla de Frecuencias por Década — Production Start Year") %>%
kable_styling(bootstrap_options = c("striped", "hover", "condensed", "bordered"),
full_width = FALSE,
position = "center") %>%
row_spec(0, bold = TRUE, background = "#d9d9d9", color = "black")| Década | ni | hi (%) | Ni Asc | Ni Dsc | Hi Asc | Hi Dsc |
|---|---|---|---|---|---|---|
| 1890 | 1 | 0.05% | 1 | 1947 | 0.05% | 100% |
| 1910 | 3 | 0.15% | 4 | 1946 | 0.21% | 99.95% |
| 1920 | 3 | 0.15% | 7 | 1943 | 0.36% | 99.79% |
| 1930 | 11 | 0.56% | 18 | 1940 | 0.92% | 99.64% |
| 1940 | 13 | 0.67% | 31 | 1929 | 1.59% | 99.08% |
| 1950 | 56 | 2.88% | 87 | 1916 | 4.47% | 98.41% |
| 1960 | 119 | 6.11% | 206 | 1860 | 10.58% | 95.53% |
| 1970 | 152 | 7.81% | 358 | 1741 | 18.39% | 89.42% |
| 1980 | 178 | 9.14% | 536 | 1589 | 27.53% | 81.61% |
| 1990 | 345 | 17.72% | 881 | 1411 | 45.25% | 72.47% |
| 2000 | 426 | 21.88% | 1307 | 1066 | 67.13% | 54.75% |
| 2010 | 495 | 25.42% | 1802 | 640 | 92.55% | 32.87% |
| 2020 | 145 | 7.45% | 1947 | 145 | 100% | 7.45% |