#CARGAR LOS DATOS
setwd("/cloud/project/")
#datos<-read.csv(nombre_del_archivo,encabezado,los decimales,como esta separado)
datos<-read.csv("/cloud/project/proyecto inferencial/brasil depurada 12.csv",
                header=T, dec=".",sep=";")


#Estadistica Inferencial
#Varibles Nominales
#Operador
c_operador<-datos$OPERADOR
TDFc_operador<- table(c_operador)
TDFc_operador
## c_operador
##                Alcom             Allpetro            Alvopetro 
##                   11                    1                   16 
##         Amerada Hess             Anadarko              Arclima 
##                    3                   15                    1 
##   Aurizônia Petróleo            BG Brasil            BP Brasil 
##                   16                    9                    3 
##            BP Energy                Cemes    Central Resources 
##                   12                    1                    6 
##       Chevron Brasil        Chevron Frade                Cisco 
##                    1                   65                    1 
## Cowan Petróleo e Gás         Devon Brasil        Dommo Energia 
##                    3                   13                  115 
##                Egesa              Eni Oil           EPG Brasil 
##                    3                    9                    8 
##              Espigão   Esso Expl Offshore    Esso Explor e Des 
##                    2                    1                    1 
##    ExxonMobil Brasil       Geopark Brasil            Great Oil 
##                    4                    2                    2 
##         Guto & Cacal              Imetame             Integral 
##                    2                   61                    1 
##                  IPI               Karoon                Leros 
##                    4                    8                    1 
##          Maha Energy             Marítima            Máxima 07 
##                   14                    2                    1 
##                 Newo                 Nord           Norteoleum 
##                   10                    5                   23 
##    Nova Petróleo Rec              Oceania      Oeste de Canoas 
##                   57                    1                    4 
##          ONGC Campos           OP Energia              Panergy 
##                    1                   18                    5 
## Parnaíba Gás Natural        Partex Brasil       Perenco Brasil 
##                  121                   52                    4 
##              Perícia        Petra Energia            Petrobras 
##                    9                   28                25142 
##      Petrogal Brasil              Petroil         PetroRio O&G 
##                   43                   19                   52 
##         Petrosynergy              Phoenix                Proen 
##                  142                   12                    1 
##              Quantra       Queiroz Galvão        Recôncavo E&P 
##                   12                   19                   41 
##       Repsol Sinopec              Rosneft              Santana 
##                   13                   13                   47 
##                  SHB                Shell         Shell Brasil 
##                   40                    3                  115 
##        Silver Marlin                Sipet       Statoil Brasil 
##                    5                    2                   10 
##   Statoil Brasil O&G     Tecpetrol Brasil                  Tek 
##                  106                    1                    3 
##        Texaco BM-C-5  Total E&P do Brasil               Unocal 
##                    2                    8                    2 
##          UP Petróleo       UTC Engenharia                Vanco 
##                    6                    1                    3 
##              Vipetro        W. Washington  Wintershall BM-S-14 
##                   19                    2                    3
Tabla_Operador <- as.data.frame(TDFc_operador)
hi <- Tabla_Operador$Freq/sum(Tabla_Operador$Freq)
hi
##  [1] 4.128664e-04 3.753331e-05 6.005330e-04 1.125999e-04 5.629997e-04
##  [6] 3.753331e-05 6.005330e-04 3.377998e-04 1.125999e-04 4.503997e-04
## [11] 3.753331e-05 2.251999e-04 3.753331e-05 2.439665e-03 3.753331e-05
## [16] 1.125999e-04 4.879330e-04 4.316331e-03 1.125999e-04 3.377998e-04
## [21] 3.002665e-04 7.506662e-05 3.753331e-05 3.753331e-05 1.501332e-04
## [26] 7.506662e-05 7.506662e-05 7.506662e-05 2.289532e-03 3.753331e-05
## [31] 1.501332e-04 3.002665e-04 3.753331e-05 5.254664e-04 7.506662e-05
## [36] 3.753331e-05 3.753331e-04 1.876666e-04 8.632661e-04 2.139399e-03
## [41] 3.753331e-05 1.501332e-04 3.753331e-05 6.755996e-04 1.876666e-04
## [46] 4.541531e-03 1.951732e-03 1.501332e-04 3.377998e-04 1.050933e-03
## [51] 9.436625e-01 1.613932e-03 7.131329e-04 1.951732e-03 5.329730e-03
## [56] 4.503997e-04 3.753331e-05 4.503997e-04 7.131329e-04 1.538866e-03
## [61] 4.879330e-04 4.879330e-04 1.764066e-03 1.501332e-03 1.125999e-04
## [66] 4.316331e-03 1.876666e-04 7.506662e-05 3.753331e-04 3.978531e-03
## [71] 3.753331e-05 1.125999e-04 7.506662e-05 3.002665e-04 7.506662e-05
## [76] 2.251999e-04 3.753331e-05 1.125999e-04 7.131329e-04 7.506662e-05
## [81] 1.125999e-04
sum(hi)
## [1] 1
hi_porc <- hi * 100
sum(hi_porc)
## [1] 100
Tabla_Operador <- data.frame(Tabla_Operador, hi_porc)

total <- data.frame(
  c_operador = "Total", 
  Freq  = sum(Tabla_Operador$Freq), 
  hi_porc  = "100%"  
)

Tabla_Operador <- rbind(Tabla_Operador, total)

colnames(Tabla_Operador)[colnames(Tabla_Operador) == "c_operador"] <- "Operador"
names(Tabla_Operador)
## [1] "Operador" "Freq"     "hi_porc"
colnames(Tabla_Operador)[colnames(Tabla_Operador) == "Freq"] <- "ni"
names(Tabla_Operador)
## [1] "Operador" "ni"       "hi_porc"
colnames(Tabla_Operador)[colnames(Tabla_Operador) == "hi_porc"] <- "Probabilidad"
names(Tabla_Operador)
## [1] "Operador"     "ni"           "Probabilidad"
#Agrupar datos
operador <- datos$OPERADOR
tabla_cruda_operador <- sort(table(operador), decreasing = TRUE)
top_n_operador <- 3
top_n_valores_operador <- names(tabla_cruda_operador)[1:top_n_operador]
operador_agrupado <- ifelse(operador %in% top_n_valores_operador, operador, "OTROS")
tabla_agrupada_operador <- table(operador_agrupado)
Tabla_Operador <- data.frame(
  OPERADOR = names(tabla_agrupada_operador),
  ni = as.numeric(tabla_agrupada_operador)
)
Tabla_Operador$hi_porcentaje <- round((Tabla_Operador$ni / sum(Tabla_Operador$ni)) * 100, 2)
Tabla_Operador <- rbind(
  Tabla_Operador,
  data.frame(OPERADOR = "TOTAL",
             ni = sum(Tabla_Operador$ni),
             hi_porcentaje = 100)
)
print(Tabla_Operador)
##               OPERADOR    ni hi_porcentaje
## 1                OTROS  4170         14.10
## 2 Parnaíba Gás Natural   121          0.41
## 3            Petrobras 25142         85.01
## 4         Petrosynergy   142          0.48
## 5                TOTAL 29575        100.00
barplot(Tabla_Operador$hi_porcentaje[Tabla_Operador$OPERADOR != "TOTAL"],
        main = "Grafica No 01: Distribucion por Operador",
        names.arg = Tabla_Operador$OPERADOR[Tabla_Operador$OPERADOR != "TOTAL"],
        col = "green",
        las = 1,
        cex.names = 0.8,
        cex.axis = 0.8,
        xlab = "OPERADOR", ylab = "Probabilidad")

barplot(Tabla_Operador$hi_porcentaje[Tabla_Operador$OPERADOR != "TOTAL"],
        main = "Grafica No 01: Distribucion por Operador",
        names.arg = Tabla_Operador$OPERADOR[Tabla_Operador$OPERADOR != "TOTAL"],
        col = "green",
        las = 1,
        cex.names = 0.8,
        cex.axis = 0.8,
        ylim = c(0, 100),
        xlab = "OPERADOR", ylab = "Probabilidad")

# Conclusion

conclusion <-"Los datos indican que la probabilidad de que una observación corresponda al operador Petrobras es muy alta, con un 85.01%, lo que refleja su gran presencia en la muestra. Por otro lado, la probabilidad de que la observación provenga de otros operadores agrupados es del 14.10%, y las probabilidades individuales de los demás operadores son menores al 1%."