setwd("/cloud/project/datos")
datos <- read.csv("Petroleo_Ontaro.csv", header=T, dec=".", sep=";")




spud_date_raw <- datos$SPUD_DATE


spud_date_raw <- trimws(gsub("\\+00", "", spud_date_raw))


fechas_convertidas <- as.POSIXct(spud_date_raw, format = "%Y/%m/%d %H:%M:%S", tz = "UTC")


años <- as.numeric(format(fechas_convertidas, "%Y"))


años <- años[!is.na(años) & años > 1800 & años <= as.numeric(format(Sys.Date(), "%Y"))]


decadas <- floor(años / 10) * 10

# --- CALCULAR FRECUENCIAS ---
frecuencia <- table(decadas)
frecuencia_relativa <- prop.table(frecuencia) * 100
frecuencia_acum <- cumsum(frecuencia)
frecuencia_relativa_acum <- cumsum(frecuencia_relativa)

# --- TABLA DE FRECUENCIAS ---
tabla_frecuencias_decadas <- data.frame(
  Decada = as.numeric(names(frecuencia)),
  Frecuencia = as.vector(frecuencia),
  Frecuencia_Relativa = round(as.vector(frecuencia_relativa), 2),
  Frecuencia_Acum = as.vector(frecuencia_acum),
  Frecuencia_Relativa_Acum = round(frecuencia_relativa_acum, 2)
)

# --- MOSTRAR TABLA ---
print("Tabla de Frecuencias por Décadas:")
## [1] "Tabla de Frecuencias por Décadas:"
print(tabla_frecuencias_decadas)
##      Decada Frecuencia Frecuencia_Relativa Frecuencia_Acum
## 1860   1860         25                0.09              25
## 1870   1870         13                0.05              38
## 1880   1880         30                0.11              68
## 1890   1890        222                0.84             290
## 1900   1900        929                3.52            1219
## 1910   1910       1080                4.09            2299
## 1920   1920       1545                5.85            3844
## 1930   1930       3216               12.17            7060
## 1940   1940       3594               13.60           10654
## 1950   1950       3888               14.72           14542
## 1960   1960       2290                8.67           16832
## 1970   1970       5615               21.25           22447
## 1980   1980       2067                7.82           24514
## 1990   1990        958                3.63           25472
## 2000   2000        828                3.13           26300
## 2010   2010        121                0.46           26421
##      Frecuencia_Relativa_Acum
## 1860                     0.09
## 1870                     0.14
## 1880                     0.26
## 1890                     1.10
## 1900                     4.61
## 1910                     8.70
## 1920                    14.55
## 1930                    26.72
## 1940                    40.32
## 1950                    55.04
## 1960                    63.71
## 1970                    84.96
## 1980                    92.78
## 1990                    96.41
## 2000                    99.54
## 2010                   100.00
# --- GRÁFICA DE BARRAS ---
barplot(frecuencia,
        main = "Frecuencia de Pozos por Década Año de inicio de perforación",
        col = "steelblue", xlab = "Década", ylab = "Cantidad de Pozos")

# --- OJIVA ASCENDENTE ---
plot(as.numeric(names(frecuencia_acum)), frecuencia_acum,
     type = "b", pch = 19, col = "darkgreen",
     main = "Ojiva Ascendente Año de inicio de perforación",
     xlab = "Década", ylab = "Frecuencia Acumulada")

# --- OJIVA DESCENDENTE ---
frecuencia_acum_desc <- rev(cumsum(rev(frecuencia)))
plot(as.numeric(names(frecuencia_acum_desc)), frecuencia_acum_desc,
     type = "b", pch = 19, col = "firebrick",
     main = "Ojiva Descendente Año de inicio de perforación",
     xlab = "Década", ylab = "Frecuencia Acumulada Descendente")

# --- OJIVAS COMBINADAS + MEDIANA ---
mediana <- median(años, na.rm = TRUE)
plot(as.numeric(names(frecuencia_acum)), frecuencia_acum,
     type = "b", pch = 19, col = "darkgreen",
     main = "Ojivas Ascendente y Descendente (SPUD_DATE)",
     xlab = "Década", ylab = "Frecuencia Acumulada",
     ylim = c(0, max(frecuencia_acum)))

lines(as.numeric(names(frecuencia_acum_desc)), frecuencia_acum_desc,
      type = "b", pch = 19, col = "firebrick")

abline(v = mediana, col = "blue", lty = 2, lwd = 2)
text(mediana, max(frecuencia_acum) * 0.95, labels = paste("Mediana:", mediana),
     col = "blue", pos = 4)

# --- BOXPLOT ---
boxplot(años, horizontal = TRUE, col = "orange",
        main = "Distribución de Años de Año de inicio de perforación", xlab = "Año")

# Conclusion

conclusion <- "El análisis de la variable  (Año de inicio de perforación) muestra que la actividad petrolera en Ontario comenzó lentamente a fines del siglo XIX, alcanzando su mayor auge entre 1930 y 1970, especialmente en la década de 1970. 
La mediana, ubicada alrededor de 1958, indica que más de la mitad de las perforaciones ocurrieron antes de esa fecha, reflejando un ciclo de expansión y posterior estabilización de la industria petrolera en la región."