ANÁLISIS ESTADÍSTICO: AÑO DE INICIO

1. CARGA DE DATOS Y LIBRERÍAS

library(knitr)
library(dplyr)
library(e1071)

# Ajuste de ruta
setwd("C:/Users/HP/Documents/PROYECTO ESTADISTICA/RStudio")
datos <- read.csv("tablap.csv", header = TRUE, dec = ",", sep = ";")

# Definición de la variable
inicio <- datos$Spud.Initiation.year

2. TABLA DE DISTRIBUCION AGRUPADA

# Clasificación por décadas (Bucle FOR)
clasificacion <- character(length(inicio))
for(i in seq_along(inicio)){
  if(!is.na(inicio[i])){
    if(inicio[i] >= 1950 & inicio[i] < 1960){
      clasificacion[i] <- "1950-1959"
    } else if(inicio[i] >= 1960 & inicio[i] < 1970){
      clasificacion[i] <- "1960-1969"
    } else if(inicio[i] >= 1970 & inicio[i] < 1980){
      clasificacion[i] <- "1970-1979"
    } else if(inicio[i] >= 1980 & inicio[i] < 1990){
      clasificacion[i] <- "1980-1989"
    } else if(inicio[i] >= 1990 & inicio[i] < 2000){
      clasificacion[i] <- "1990-1999"
    } else if(inicio[i] >= 2000 & inicio[i] < 2010){
      clasificacion[i] <- "2000-2009"
    } else if(inicio[i] >= 2010 & inicio[i] < 2020){
      clasificacion[i] <- "2010-2019"
    } else if(inicio[i] >= 2020 & inicio[i] <= 2030){
      clasificacion[i] <- "2020-2029"
    } else {
      clasificacion[i] <- NA
    }
  } else {
    clasificacion[i] <- NA
  }
}

clasificacion <- na.omit(clasificacion)
orden_intervalos <- c("1950-1959", "1960-1969", "1970-1979", "1980-1989", 
                      "1990-1999", "2000-2009", "2010-2019", "2020-2029")
clasificacion <- factor(clasificacion, levels = orden_intervalos)

# Cálculo de frecuencias
ni <- table(clasificacion)
total_datos <- sum(ni)
hi <- round(as.numeric(ni) / total_datos * 100, 2) 
Ni_asc <- cumsum(ni)
Hi_asc <- cumsum(hi)
Ni_des <- rev(cumsum(rev(ni)))
Hi_des <- rev(cumsum(rev(hi)))

# Tabla de Frecuencias
TDF_Completa <- data.frame(Intervalo = orden_intervalos, ni = as.numeric(ni), hi = hi,
                           Ni_asc = as.numeric(Ni_asc), Hi_asc = round(Hi_asc, 2),
                           Ni_des = as.numeric(Ni_des), Hi_des = round(Hi_des, 2))

TDF_Final <- rbind(TDF_Completa, data.frame(Intervalo="TOTAL", ni=total_datos, hi=100, 
                                            Ni_asc=NA, Hi_asc=NA, Ni_des=NA, Hi_des=NA))

kable(TDF_Final, format = "markdown", caption = "Tabla N°1: Frecuencias de Año de inicio de Perforacion")
Tabla N°1: Frecuencias de Año de inicio de Perforacion
Intervalo ni hi Ni_asc Hi_asc Ni_des Hi_des
1950-1959 1130 9.00 1130 9.00 12561 100.00
1960-1969 873 6.95 2003 15.95 11431 91.00
1970-1979 1416 11.27 3419 27.22 10558 84.05
1980-1989 1741 13.86 5160 41.08 9142 72.78
1990-1999 1687 13.43 6847 54.51 7401 58.92
2000-2009 5223 41.58 12070 96.09 5714 45.49
2010-2019 477 3.80 12547 99.89 491 3.91
2020-2029 14 0.11 12561 100.00 14 0.11
TOTAL 12561 100.00 NA NA NA NA

3. GRÁFICAS DE DISTRIBUCIÓN

par(mar = c(7, 4, 4, 2) + 0.1)
color_abs <- "#76D7C4" 
color_rel <- "#F1948A" 

# Grafica 1: Absoluta Local
barplot(ni, names.arg = orden_intervalos, las = 2, col = color_abs, 
        xlab = "Año de inicio", ylab = "Cantidad (ni)",
        main = "Gráfica Nº1: Distribución de frecuencia absoluta del año de inicio 
        de perforacion")

# Grafica 2: Absoluta Global
barplot(ni, names.arg = orden_intervalos, las = 2, col = "darkgrey", 
        ylim = c(0, total_datos), xlab = "Año de inicio", ylab = "Cantidad (ni)",
        main = "Gráfica Nº2: Distribución de frecuencia absoluta del año
  de inicio de perforacion")

# Grafica 3: Relativa Local
barplot(hi, names.arg = orden_intervalos, las = 2, col = color_rel, 
        xlab = "Año de inicio", ylab = "Porcentaje (%)",
        main = "Gráfica Nº3: Distribucion de frecuencia relativa del año de 
        inicio de perforacion")

# Grafica 4: Relativa Global
barplot(hi, names.arg = orden_intervalos, las = 2, col = "grey50", 
        ylim = c(0, 100), xlab = "Año de inicio", ylab = "Porcentaje (%)",
        main = "Gráfica Nº4: Distribucion de frecuencia relativa del año de 
        inicio de perforacion")

# --- OJIVAS ---
posicion_x <- 1:length(ni)

# Grafica 5: Ojiva Ni
plot(posicion_x, Ni_asc, type = "o", pch = 19, col = "blue", xaxt = "n", 
     xlab = "Año de inicio", ylab = "Frecuencia acumulada (Ni)",
     main = "Grafica Nº5: Ojiva combinada del año de inicio de perforacion")
axis(1, at = posicion_x, labels = orden_intervalos, las = 2, cex.axis = 0.7)
lines(posicion_x, Ni_des, type = "o", pch = 18, col = "red")
legend("right", legend = c("Ascendente", "Descendente"), col = c("blue", "red"), pch = c(19, 18), bty = "n")

# Grafica 6: Ojiva Hi
plot(posicion_x, Hi_asc, type = "o", pch = 19, col = "blue", xaxt = "n", ylim = c(0, 100), 
     xlab = "Año de inicio", ylab = "Porcentaje acumulado (Hi)",
     main = "Grafica Nº6: Ojiva combinada del año de inicio de perforacion")
axis(1, at = posicion_x, labels = orden_intervalos, las = 2, cex.axis = 0.7)
lines(posicion_x, Hi_des, type = "o", pch = 18, col = "black")
legend("right", legend = c("Ascendente", "Descendente"), col = c("blue", "black"), pch = c(19, 18), bty = "n")

# Grafica 7: Boxplot
boxplot(inicio, horizontal = TRUE, col = "lightblue", 
        xlab = "Año", main = "Grafica N.7: Distribución de frecuencia del año de inicio de perforacion")

4. INDICADORES ESTADISTICOS

# Cálculos de Indicadores
media_x <- mean(inicio, na.rm = TRUE)
val_min <- min(inicio, na.rm = TRUE)
val_max <- max(inicio, na.rm = TRUE)
mediana_Me <- median(inicio, na.rm = TRUE)
desv_estandar <- sd(inicio, na.rm = TRUE)
coef_variacion <- ((desv_estandar / media_x) * 100)
asimetria_As <- skewness(inicio, na.rm = TRUE)
curtosis_K <- kurtosis(inicio, na.rm = TRUE)

# Tabla de Indicadores
TablaIndicadores <- data.frame("Año de inicio", val_min, val_max, round(media_x, 2), 
                               mediana_Me, round(desv_estandar, 2), 
                               round(coef_variacion, 2), round(asimetria_As, 2), 
                               round(curtosis_K, 2))
colnames(TablaIndicadores) <- c("Variable", "minimo", "maximo", "x", "Me", "sd", "Cv (%)", "As", "K")

kable(TablaIndicadores, format = "markdown", caption = "Tabla N.3. Indicadores estadisticos")
Tabla N.3. Indicadores estadisticos
Variable minimo maximo x Me sd Cv (%) As K
Año de inicio 1950 2020 1990.09 1997 17.33 0.87 -0.69 -0.71

5. TABLA DE OUTLIERS

Tabla N.4: Outliers de la variable
Outliers Minimo Maximo
0 0 0

6. CONCLUSIÓN

## La variable anio de inicio presenta valores que fluctuan entre 1950 y 2020, con una concentracion en torno a la mediana de 1997. La desviacion estandar de 17.33 indica que se trata de un conjunto homogeneo, influenciado por la presencia de 0 valores atipicos ubicados en el extremo izquierdo de la distribucion. La acumulacion de valores se encuentra en la parte alta de la variable, lo que evidencia que la mayoria de los inicios se realizaron en periodos recientes. Por todo lo anterior mencionado, el comportamiento de la variable es medianamente beneficioso, debido a que los registros modernos cuentan con informacion geologica mas confiable y mejor documentada.