1. Introducción

Este documento analiza la rápida expansión en la perforación de pozos petroleros durante la primera mitad del siglo XX (1900-1950). Debido al crecimiento acelerado de la industria en esta etapa, aplicaremos un modelo de regresión exponencial para ajustar los datos históricos y proyectar la tendencia de crecimiento hacia el año 1960.

2. Cargar datos

library(dplyr)
library(ggplot2)

datos <- read.csv(
  "Petroleo_Ontaro.csv",
  header = TRUE,
  sep = ";",
  stringsAsFactors = FALSE
)

3. Depuración de datos

# Extraer año de inicio de perforación
datos$YEAR <- as.numeric(substr(datos$SPUD_DATE, 1, 4))

# Filtrar datos válidos
datos <- datos[!is.na(datos$YEAR) & datos$YEAR > 1800, ]

# Conteo de pozos por año
tabla <- table(datos$YEAR)
df <- data.frame(
  YEAR  = as.numeric(names(tabla)),
  POZOS = as.numeric(tabla)
)

# Filtrar rango de interés y eliminar años con pocos pozos
df <- df[df$POZOS >= 10 & df$YEAR >= 1900 & df$YEAR <= 1950, ]

4. Definición de variables

# Variable independiente: Año
X <- df$YEAR

# Variable dependiente: Número de pozos
Y <- df$POZOS

cat("Variable independiente (X): Año de perforación\n")
## Variable independiente (X): Año de perforación
cat("Variable dependiente (Y): Número de pozos\n")
## Variable dependiente (Y): Número de pozos

5. Conjetura

Se plantea la conjetura del modelo exponencial como:

\[ Y = a \cdot e^{b \cdot X} + \epsilon \]

y su versión linealizada:

\[ \log(Y) = \log(a) + b \cdot X \]

6. Parámetros del modelo

# Ajuste del modelo mediante transformación logarítmica
modelo_exp <- lm(log(Y) ~ X)

# Parámetros
a <- exp(coef(modelo_exp)[1])
b <- coef(modelo_exp)[2]

# Predicción sobre los datos originales para calcular R
Y_pred <- a * exp(b * X)

# Coeficiente de correlación R
R <- cor(Y, Y_pred)

cat("MODELO EXPONENCIAL\n")
## MODELO EXPONENCIAL
cat("y = a * exp(b * X)\n")
## y = a * exp(b * X)
cat("a =", round(a, 4), "\n")
## a = 0
cat("b =", round(b, 6), "\n")
## b = 0.043155
cat("R =", round(R, 4), "\n")
## R = 0.8874

7. Test

if (R > 0.7) {
  cat("El modelo presenta una relación fuerte entre las variables.\n")
} else if (R > 0.4) {
  cat("El modelo presenta una relación moderada entre las variables.\n")
} else {
  cat("El modelo presenta una relación débil entre las variables.\n")
}
## El modelo presenta una relación fuerte entre las variables.

8. Visualización del modelo

# Punto a proyectar
anio_prediccion <- 1960
prediccion <- round(a * exp(b * anio_prediccion), 0)

# Curva exponencial
YEAR_seq <- seq(min(X), anio_prediccion, length.out = 300)
POZOS_exp <- a * exp(b * YEAR_seq)
df_curva <- data.frame(YEAR = YEAR_seq, POZOS = POZOS_exp)

ggplot(df, aes(x = X, y = Y)) +
  geom_point(color = "steelblue", size = 3, alpha = 0.6) +
  geom_line(data = df_curva, aes(x = YEAR, y = POZOS),
            color = "firebrick1", size = 1.3) +
  geom_point(aes(x = anio_prediccion, y = prediccion),
             color = "gold", size = 4, shape = 18) +
  geom_text(aes(x = anio_prediccion, y = prediccion,
                label = paste("Predicción:", prediccion)),
            hjust = -0.2, vjust = -0.6, color = "darkgoldenrod", fontface = "bold") +
  labs(
    title = "Regresión Exponencial: Número de Pozos",
    subtitle = paste("Modelo ajustado | R =", round(R, 3)),
    x = "Año",
    y = "Número de Pozos"
  ) +
  theme_minimal()

9. Estimación

cat("Para el año", anio_prediccion,
    "se estiman:", prediccion, "pozos.\n")
## Para el año 1960 se estiman: 760 pozos.

10. Conclusión

En el análisis de pozos petroleros se observa una relación exponencial positiva entre el número de pozos perforados y el año. El modelo se describe mediante una función exponencial creciente que tiene por ecuación log(Y)=log(a)+b⋅X que refleja el incremento progresivo de la actividad de perforación a lo largo del tiempo. El coeficiente de correlación R= 0.887 indica una fuerte asociación entre ambas variables, lo que demuestra un buen ajuste del modelo. A partir del modelo, se estima que para el año 1960 el número de pozos perforados es aproximadamente 760.