Este documento analiza la rápida expansión en la perforación de pozos petroleros durante la primera mitad del siglo XX (1900-1950). Debido al crecimiento acelerado de la industria en esta etapa, aplicaremos un modelo de regresión exponencial para ajustar los datos históricos y proyectar la tendencia de crecimiento hacia el año 1960.
library(dplyr)
library(ggplot2)
datos <- read.csv(
"Petroleo_Ontaro.csv",
header = TRUE,
sep = ";",
stringsAsFactors = FALSE
)
# Extraer año de inicio de perforación
datos$YEAR <- as.numeric(substr(datos$SPUD_DATE, 1, 4))
# Filtrar datos válidos
datos <- datos[!is.na(datos$YEAR) & datos$YEAR > 1800, ]
# Conteo de pozos por año
tabla <- table(datos$YEAR)
df <- data.frame(
YEAR = as.numeric(names(tabla)),
POZOS = as.numeric(tabla)
)
# Filtrar rango de interés y eliminar años con pocos pozos
df <- df[df$POZOS >= 10 & df$YEAR >= 1900 & df$YEAR <= 1950, ]
# Variable independiente: Año
X <- df$YEAR
# Variable dependiente: Número de pozos
Y <- df$POZOS
cat("Variable independiente (X): Año de perforación\n")
## Variable independiente (X): Año de perforación
cat("Variable dependiente (Y): Número de pozos\n")
## Variable dependiente (Y): Número de pozos
Se plantea la conjetura del modelo exponencial como:
\[ Y = a \cdot e^{b \cdot X} + \epsilon \]
y su versión linealizada:
\[ \log(Y) = \log(a) + b \cdot X \]
# Ajuste del modelo mediante transformación logarítmica
modelo_exp <- lm(log(Y) ~ X)
# Parámetros
a <- exp(coef(modelo_exp)[1])
b <- coef(modelo_exp)[2]
# Predicción sobre los datos originales para calcular R
Y_pred <- a * exp(b * X)
# Coeficiente de correlación R
R <- cor(Y, Y_pred)
cat("MODELO EXPONENCIAL\n")
## MODELO EXPONENCIAL
cat("y = a * exp(b * X)\n")
## y = a * exp(b * X)
cat("a =", round(a, 4), "\n")
## a = 0
cat("b =", round(b, 6), "\n")
## b = 0.043155
cat("R =", round(R, 4), "\n")
## R = 0.8874
if (R > 0.7) {
cat("El modelo presenta una relación fuerte entre las variables.\n")
} else if (R > 0.4) {
cat("El modelo presenta una relación moderada entre las variables.\n")
} else {
cat("El modelo presenta una relación débil entre las variables.\n")
}
## El modelo presenta una relación fuerte entre las variables.
# Punto a proyectar
anio_prediccion <- 1960
prediccion <- round(a * exp(b * anio_prediccion), 0)
# Curva exponencial
YEAR_seq <- seq(min(X), anio_prediccion, length.out = 300)
POZOS_exp <- a * exp(b * YEAR_seq)
df_curva <- data.frame(YEAR = YEAR_seq, POZOS = POZOS_exp)
ggplot(df, aes(x = X, y = Y)) +
geom_point(color = "steelblue", size = 3, alpha = 0.6) +
geom_line(data = df_curva, aes(x = YEAR, y = POZOS),
color = "firebrick1", size = 1.3) +
geom_point(aes(x = anio_prediccion, y = prediccion),
color = "gold", size = 4, shape = 18) +
geom_text(aes(x = anio_prediccion, y = prediccion,
label = paste("Predicción:", prediccion)),
hjust = -0.2, vjust = -0.6, color = "darkgoldenrod", fontface = "bold") +
labs(
title = "Regresión Exponencial: Número de Pozos",
subtitle = paste("Modelo ajustado | R =", round(R, 3)),
x = "Año",
y = "Número de Pozos"
) +
theme_minimal()
cat("Para el año", anio_prediccion,
"se estiman:", prediccion, "pozos.\n")
## Para el año 1960 se estiman: 760 pozos.
En el análisis de pozos petroleros se observa una relación exponencial positiva entre el número de pozos perforados y el año. El modelo se describe mediante una función exponencial creciente que tiene por ecuación log(Y)=log(a)+b⋅X que refleja el incremento progresivo de la actividad de perforación a lo largo del tiempo. El coeficiente de correlación R= 0.887 indica una fuerte asociación entre ambas variables, lo que demuestra un buen ajuste del modelo. A partir del modelo, se estima que para el año 1960 el número de pozos perforados es aproximadamente 760.