setwd("/cloud/project/datos")
datos <- read.csv("Petroleo_Ontaro.csv", header=TRUE, dec=".", sep=";")

## --- MODELO UNIFORME ---
## Variable: SPUD_DATE
## Periodo: 1935–1950

# Convertir fechas y extraer año
fechas <- as.POSIXct(datos$SPUD_DATE,
                     format = "%Y/%m/%d %H:%M:%S",
                     tz = "UTC")
años <- as.numeric(format(fechas, "%Y"))

# Filtrar rango
años <- años[!is.na(años) & años >= 1935 & años <= 1950]

# Frecuencia observada
frecuencia <- table(años)
tabla_años <- as.data.frame(frecuencia)
colnames(tabla_años) <- c("Año", "Observado")

Fo <- tabla_años$Observado
k  <- length(Fo)

# ===== MODELO UNIFORME CORRECTO =====
Fe <- rep(sum(Fo)/k, k)

# Tabla comparativa
tabla_uniforme <- data.frame(
  Año = tabla_años$Año,
  Observado = Fo,
  Esperado = round(Fe, 2)
)
print(tabla_uniforme)
##     Año Observado Esperado
## 1  1935       380   350.06
## 2  1936       322   350.06
## 3  1937       281   350.06
## 4  1938       284   350.06
## 5  1939       360   350.06
## 6  1940       330   350.06
## 7  1941       427   350.06
## 8  1942       330   350.06
## 9  1943       286   350.06
## 10 1944       339   350.06
## 11 1945       317   350.06
## 12 1946       420   350.06
## 13 1947       375   350.06
## 14 1948       399   350.06
## 15 1949       371   350.06
## 16 1950       380   350.06
# Gráfico comparativo
barplot(rbind(Fo, Fe),
        beside = TRUE,
        names.arg = tabla_años$Año,
        col = c("salmon", "orange"),
        main = "Modelo Uniforme (1935–1950)",
        xlab = "Año",
        ylab = "Frecuencia",
        las = 2,
        cex.names = 0.8)

legend("topright",
       legend = c("Observado", "Uniforme"),
       fill = c("salmon", "orange"),
       bty = "n")

# Correlación
cor_uniforme <- cor(Fo, Fe)
## Warning in cor(Fo, Fe): the standard deviation is zero
cat("Correlación Observado vs Uniforme:", round(cor_uniforme, 4), "\n")
## Correlación Observado vs Uniforme: NA
# Prueba Chi-cuadrado
x2 <- sum((Fo - Fe)^2 / Fe)
gl <- k - 1
Vc <- qchisq(0.95, gl)

cat("Chi-cuadrado =", round(x2, 4), "\n")
## Chi-cuadrado = 91.992
cat("Valor crítico (α=0.05) =", round(Vc, 4), "\n")
## Valor crítico (α=0.05) = 24.9958
# Conclusión

conclusion <-"Entre 2001 y 2015, la mayor perforación ocurrió al inicio del período 
(más de 100 pozos en 2001) y disminuyó después de 2009 (menos de 20 en varios años).

Como χ² = 20.5784 < 23.6848, no se rechaza la hipótesis nula, por lo que estadísticamente la distribución puede considerarse uniforme."