setwd("/cloud/project/datos")
datos <- read.csv("Petroleo_Ontaro.csv", header=T, dec=".", sep=";")


depth_date_raw <- datos$TOTAL_DEPTH_REACHED_DATE


depth_date_raw <- trimws(gsub("\\+00", "", depth_date_raw))


fechas_convertidas <- as.POSIXct(depth_date_raw, format = "%Y/%m/%d %H:%M:%S", tz = "UTC")


años <- as.numeric(format(fechas_convertidas, "%Y"))


años <- años[!is.na(años) & años > 1800 & años <= as.numeric(format(Sys.Date(), "%Y"))]


decadas <- floor(años / 10) * 10

# --- CALCULAR FRECUENCIAS ---
frecuencia <- table(decadas)
frecuencia_relativa <- prop.table(frecuencia) * 100
frecuencia_acum <- cumsum(frecuencia)
frecuencia_relativa_acum <- cumsum(frecuencia_relativa)

# --- TABLA DE FRECUENCIAS ---
tabla_frecuencias_decadas <- data.frame(
  Decada = as.numeric(names(frecuencia)),
  Frecuencia = as.vector(frecuencia),
  Frecuencia_Relativa = round(as.vector(frecuencia_relativa), 2),
  Frecuencia_Acum = as.vector(frecuencia_acum),
  Frecuencia_Relativa_Acum = round(frecuencia_relativa_acum, 2)
)

# --- MOSTRAR TABLA ---
print("Tabla de Frecuencias por Décadas:")
## [1] "Tabla de Frecuencias por Décadas:"
print(tabla_frecuencias_decadas)
##      Decada Frecuencia Frecuencia_Relativa Frecuencia_Acum
## 1860   1860         27                0.10              27
## 1870   1870        381                1.46             408
## 1880   1880         35                0.13             443
## 1890   1890        225                0.86             668
## 1900   1900       1180                4.52            1848
## 1910   1910       1180                4.52            3028
## 1920   1920       1561                5.98            4589
## 1930   1930       3242               12.43            7831
## 1940   1940       3598               13.79           11429
## 1950   1950       3900               14.95           15329
## 1960   1960       2361                9.05           17690
## 1970   1970       4402               16.87           22092
## 1980   1980       2061                7.90           24153
## 1990   1990        970                3.72           25123
## 2000   2000        839                3.22           25962
## 2010   2010        129                0.49           26091
##      Frecuencia_Relativa_Acum
## 1860                     0.10
## 1870                     1.56
## 1880                     1.70
## 1890                     2.56
## 1900                     7.08
## 1910                    11.61
## 1920                    17.59
## 1930                    30.01
## 1940                    43.80
## 1950                    58.75
## 1960                    67.80
## 1970                    84.67
## 1980                    92.57
## 1990                    96.29
## 2000                    99.51
## 2010                   100.00
# --- GRÁFICA DE BARRAS ---
barplot(frecuencia,
        main = "Frecuencia de Pozos por Década - Año de finalización de perforación",
        col = "steelblue",
        xlab = "Década",
        ylab = "Cantidad de Pozos")

# --- OJIVA ASCENDENTE ---
plot(as.numeric(names(frecuencia_acum)), frecuencia_acum,
     type = "b", pch = 19, col = "darkgreen",
     main = "Ojiva Ascendente - Año de finalización de perforación",
     xlab = "Década", ylab = "Frecuencia Acumulada")

# --- OJIVA DESCENDENTE ---
frecuencia_acum_desc <- rev(cumsum(rev(frecuencia)))
plot(as.numeric(names(frecuencia_acum_desc)), frecuencia_acum_desc,
     type = "b", pch = 19, col = "firebrick",
     main = "Ojiva Descendente - Año de finalización de perforación",
     xlab = "Década", ylab = "Frecuencia Acumulada Descendente")

# --- OJIVAS COMBINADAS + MEDIANA ---
mediana <- median(años, na.rm = TRUE)
plot(as.numeric(names(frecuencia_acum)), frecuencia_acum,
     type = "b", pch = 19, col = "darkgreen",
     main = "Ojivas Ascendente y Descendente Año de finalización de perforación",
     xlab = "Década", ylab = "Frecuencia Acumulada",
     ylim = c(0, max(frecuencia_acum)))

lines(as.numeric(names(frecuencia_acum_desc)), frecuencia_acum_desc,
      type = "b", pch = 19, col = "firebrick")

abline(v = mediana, col = "blue", lty = 2, lwd = 2)
text(mediana, max(frecuencia_acum) * 0.95, labels = paste("Mediana:", mediana),
     col = "blue", pos = 4)

# --- BOXPLOT ---
boxplot(años, horizontal = TRUE, col = "orange",
        main = "Distribución de Años - Año de finalización de perforación",
        xlab = "Año")

# Conclusion

conclusion <- "El análisis de la variable  (Año de finalización de perforación) muestra un crecimiento sostenido de la actividad petrolera desde comienzos del siglo XX, alcanzando su mayor auge entre 1930 y 1970, la cantidad de pozos finalizados disminuye progresivamente, reflejando una etapa de madurez y estabilización en la industria petrolera de Ontario."