# 1. Configurar directorio y cargar datos
setwd("/cloud/project/proyecto")

datos <- read.csv("archivo depurado nuevo 12.csv",
                  header = TRUE, sep = ";", dec = ".")


# Variable Dirección


direcao <- datos$DIRECAO
tabla_cruda_direcao <- sort(table(direcao), decreasing = TRUE)

top_n_direcao <- 3

top_n_valores_direcao <- names(tabla_cruda_direcao)[1:top_n_direcao]

direcao_agrupado <- ifelse(direcao %in% top_n_valores_direcao, direcao, "OTROS")

tabla_agrupada_direcao <- table(direcao_agrupado)

# TABLA DE FRECUENCIAS

Tabla_Direcao <- data.frame(
  DIRECAO = names(tabla_agrupada_direcao),
  ni = as.numeric(tabla_agrupada_direcao)
)

# Cálculo del porcentaje
Tabla_Direcao$hi_porcentaje <- round((Tabla_Direcao$ni / sum(Tabla_Direcao$ni)) * 100, 2)

# Agregar fila TOTAL
Tabla_Direcao <- rbind(
  Tabla_Direcao,
  data.frame(DIRECAO = "TOTAL",
             ni = sum(Tabla_Direcao$ni),
             hi_porcentaje = 100)
)

print(Tabla_Direcao)
##      DIRECAO    ni hi_porcentaje
## 1 Direcional  5560         18.80
## 2 Horizontal  1232          4.17
## 3   Vertical 22783         77.03
## 4      TOTAL 29575        100.00
#----------------------------------------------------
# COLORES
#----------------------------------------------------
library(RColorBrewer)
colores_direcao <- brewer.pal(n = length(tabla_agrupada_direcao), name = "Set2")

# GRÁFICOS DE BARRAS

# Frecuencia absoluta
barplot(tabla_agrupada_direcao,
        main = "Gráfica No 16: Distribución de Dirección",
        col = colores_direcao,
        las = 1,
        cex.names = 0.6,
        cex.axis = 0.6,
        xlab = "Direcao", ylab = "Cantidad")

# Frecuencia absoluta con límite Y
barplot(tabla_agrupada_direcao,
        main = "Gráfica No 16.1: Distribución de la frecuencia de Dirección",
        col = colores_direcao,
        las = 1,
        cex.names = 0.6,
        cex.axis = 0.6,
        ylim = c(0, max(tabla_agrupada_direcao) + 5),
        xlab = "Direcao", ylab = "Cantidad")

# Frecuencia relativa (%)
barplot(Tabla_Direcao$hi_porcentaje[Tabla_Direcao$DIRECAO != "TOTAL"],
        main = "Gráfica No 16.2: Distribución de la frecuencia relativa de Dirección (local)",
        names.arg = Tabla_Direcao$DIRECAO[Tabla_Direcao$DIRECAO != "TOTAL"],
        col = colores_direcao,
        las = 1,
        cex.names = 0.6,
        cex.axis = 0.6,
        xlab = "Direcao", ylab = "Porcentaje")

# Frecuencia relativa con límite Y
barplot(Tabla_Direcao$hi_porcentaje[Tabla_Direcao$DIRECAO != "TOTAL"],
        main = "Gráfica No 16.3: Distribución de la frecuencia relativa de Dirección (global)",
        names.arg = Tabla_Direcao$DIRECAO[Tabla_Direcao$DIRECAO != "TOTAL"],
        col = colores_direcao,
        las = 1,
        cex.names = 0.6,
        cex.axis = 0.6,
        ylim = c(0, 100),
        xlab = "Direcao", ylab = "Porcentaje")

# DIAGRAMA CIRCULAR

pie_data_direcao <- Tabla_Direcao$ni[Tabla_Direcao$DIRECAO != "TOTAL"]
pie_percent_direcao <- Tabla_Direcao$hi_porcentaje[Tabla_Direcao$DIRECAO != "TOTAL"]

etiquetas_pie_direcao <- paste0(pie_percent_direcao, "%")

n_colores_pie <- max(3, length(pie_data_direcao))

pie(pie_data_direcao,
    labels = etiquetas_pie_direcao,
    main = "Gráfica No 16.4: Distribución Porcentual de Dirección",
    col = brewer.pal(n = n_colores_pie, name = "Set3"),
    radius = 0.7,
    cex = 0.8)

# Leyenda 
legend(x = 1.2, y = -0.3,
       legend = Tabla_Direcao$DIRECAO[Tabla_Direcao$DIRECAO != "TOTAL"],
       fill = brewer.pal(n = n_colores_pie, name = "Set3"),
       title = "Dirección",
       cex = 0.5)

# Conclusion

conclusion <-"La mayoría de los pozos en el conjunto de datos son Verticales (77.03%), seguidos de Direcional (18.80%) y Horizontal (4.17%). Esto indica que la perforación vertical es la técnica más utilizada para la extración del petróleo"