setwd("/cloud/project/datos")
datos <- read.csv("Petroleo_Ontaro.csv", header=T, dec=".", sep=";")
spud_date_raw <- datos$SPUD_DATE
spud_date_raw <- trimws(gsub("\\+00", "", spud_date_raw))
fechas_convertidas <- as.POSIXct(spud_date_raw, format = "%Y/%m/%d %H:%M:%S", tz = "UTC")
años <- as.numeric(format(fechas_convertidas, "%Y"))
años <- años[!is.na(años) & años > 1800 & años <= as.numeric(format(Sys.Date(), "%Y"))]
decadas <- floor(años / 10) * 10
# --- CALCULAR FRECUENCIAS ---
frecuencia <- table(decadas)
frecuencia_relativa <- prop.table(frecuencia) * 100
frecuencia_acum <- cumsum(frecuencia)
frecuencia_relativa_acum <- cumsum(frecuencia_relativa)
# --- TABLA DE FRECUENCIAS ---
tabla_frecuencias_decadas <- data.frame(
Decada = as.numeric(names(frecuencia)),
Frecuencia = as.vector(frecuencia),
Frecuencia_Relativa = round(as.vector(frecuencia_relativa), 2),
Frecuencia_Acum = as.vector(frecuencia_acum),
Frecuencia_Relativa_Acum = round(frecuencia_relativa_acum, 2)
)
# --- MOSTRAR TABLA ---
print("Tabla de Frecuencias por Décadas:")
## [1] "Tabla de Frecuencias por Décadas:"
print(tabla_frecuencias_decadas)
## Decada Frecuencia Frecuencia_Relativa Frecuencia_Acum
## 1860 1860 25 0.09 25
## 1870 1870 13 0.05 38
## 1880 1880 30 0.11 68
## 1890 1890 222 0.84 290
## 1900 1900 929 3.52 1219
## 1910 1910 1080 4.09 2299
## 1920 1920 1545 5.85 3844
## 1930 1930 3216 12.17 7060
## 1940 1940 3594 13.60 10654
## 1950 1950 3888 14.72 14542
## 1960 1960 2290 8.67 16832
## 1970 1970 5615 21.25 22447
## 1980 1980 2067 7.82 24514
## 1990 1990 958 3.63 25472
## 2000 2000 828 3.13 26300
## 2010 2010 121 0.46 26421
## Frecuencia_Relativa_Acum
## 1860 0.09
## 1870 0.14
## 1880 0.26
## 1890 1.10
## 1900 4.61
## 1910 8.70
## 1920 14.55
## 1930 26.72
## 1940 40.32
## 1950 55.04
## 1960 63.71
## 1970 84.96
## 1980 92.78
## 1990 96.41
## 2000 99.54
## 2010 100.00
# --- GRÁFICA DE BARRAS ---
barplot(frecuencia,
main = "Frecuencia de Pozos por Década Año de inicio de perforación",
col = "steelblue", xlab = "Década", ylab = "Cantidad de Pozos")

# --- OJIVA ASCENDENTE ---
plot(as.numeric(names(frecuencia_acum)), frecuencia_acum,
type = "b", pch = 19, col = "darkgreen",
main = "Ojiva Ascendente Año de inicio de perforación",
xlab = "Década", ylab = "Frecuencia Acumulada")

# --- OJIVA DESCENDENTE ---
frecuencia_acum_desc <- rev(cumsum(rev(frecuencia)))
plot(as.numeric(names(frecuencia_acum_desc)), frecuencia_acum_desc,
type = "b", pch = 19, col = "firebrick",
main = "Ojiva Descendente Año de inicio de perforación",
xlab = "Década", ylab = "Frecuencia Acumulada Descendente")

# --- OJIVAS COMBINADAS + MEDIANA ---
mediana <- median(años, na.rm = TRUE)
plot(as.numeric(names(frecuencia_acum)), frecuencia_acum,
type = "b", pch = 19, col = "darkgreen",
main = "Ojivas Ascendente y Descendente (SPUD_DATE)",
xlab = "Década", ylab = "Frecuencia Acumulada",
ylim = c(0, max(frecuencia_acum)))
lines(as.numeric(names(frecuencia_acum_desc)), frecuencia_acum_desc,
type = "b", pch = 19, col = "firebrick")
abline(v = mediana, col = "blue", lty = 2, lwd = 2)
text(mediana, max(frecuencia_acum) * 0.95, labels = paste("Mediana:", mediana),
col = "blue", pos = 4)

# --- BOXPLOT ---
boxplot(años, horizontal = TRUE, col = "orange",
main = "Distribución de Años de Año de inicio de perforación", xlab = "Año")

# Conclusion
conclusion <- "El análisis de la variable (Año de inicio de perforación) muestra que la actividad petrolera en Ontario comenzó lentamente a fines del siglo XIX, alcanzando su mayor auge entre 1930 y 1970, especialmente en la década de 1970.
La mediana, ubicada alrededor de 1958, indica que más de la mitad de las perforaciones ocurrieron antes de esa fecha, reflejando un ciclo de expansión y posterior estabilización de la industria petrolera en la región."