#CARGAR LOS DATOS
setwd("/cloud/project/")
#datos<-read.csv(nombre_del_archivo,encabezado,los decimales,como esta separado)
datos<-read.csv("/cloud/project/proyecto inferencial/brasil depurada 12.csv",
header=T, dec=".",sep=";")
#Estadistica Inferencial
#Varibles Nominales
#Operador
c_operador<-datos$OPERADOR
TDFc_operador<- table(c_operador)
TDFc_operador
## c_operador
## Alcom Allpetro Alvopetro
## 11 1 16
## Amerada Hess Anadarko Arclima
## 3 15 1
## Aurizônia Petróleo BG Brasil BP Brasil
## 16 9 3
## BP Energy Cemes Central Resources
## 12 1 6
## Chevron Brasil Chevron Frade Cisco
## 1 65 1
## Cowan Petróleo e Gás Devon Brasil Dommo Energia
## 3 13 115
## Egesa Eni Oil EPG Brasil
## 3 9 8
## Espigão Esso Expl Offshore Esso Explor e Des
## 2 1 1
## ExxonMobil Brasil Geopark Brasil Great Oil
## 4 2 2
## Guto & Cacal Imetame Integral
## 2 61 1
## IPI Karoon Leros
## 4 8 1
## Maha Energy Marítima Máxima 07
## 14 2 1
## Newo Nord Norteoleum
## 10 5 23
## Nova Petróleo Rec Oceania Oeste de Canoas
## 57 1 4
## ONGC Campos OP Energia Panergy
## 1 18 5
## Parnaíba Gás Natural Partex Brasil Perenco Brasil
## 121 52 4
## Perícia Petra Energia Petrobras
## 9 28 25142
## Petrogal Brasil Petroil PetroRio O&G
## 43 19 52
## Petrosynergy Phoenix Proen
## 142 12 1
## Quantra Queiroz Galvão Recôncavo E&P
## 12 19 41
## Repsol Sinopec Rosneft Santana
## 13 13 47
## SHB Shell Shell Brasil
## 40 3 115
## Silver Marlin Sipet Statoil Brasil
## 5 2 10
## Statoil Brasil O&G Tecpetrol Brasil Tek
## 106 1 3
## Texaco BM-C-5 Total E&P do Brasil Unocal
## 2 8 2
## UP Petróleo UTC Engenharia Vanco
## 6 1 3
## Vipetro W. Washington Wintershall BM-S-14
## 19 2 3
Tabla_Operador <- as.data.frame(TDFc_operador)
hi <- Tabla_Operador$Freq/sum(Tabla_Operador$Freq)
hi
## [1] 4.128664e-04 3.753331e-05 6.005330e-04 1.125999e-04 5.629997e-04
## [6] 3.753331e-05 6.005330e-04 3.377998e-04 1.125999e-04 4.503997e-04
## [11] 3.753331e-05 2.251999e-04 3.753331e-05 2.439665e-03 3.753331e-05
## [16] 1.125999e-04 4.879330e-04 4.316331e-03 1.125999e-04 3.377998e-04
## [21] 3.002665e-04 7.506662e-05 3.753331e-05 3.753331e-05 1.501332e-04
## [26] 7.506662e-05 7.506662e-05 7.506662e-05 2.289532e-03 3.753331e-05
## [31] 1.501332e-04 3.002665e-04 3.753331e-05 5.254664e-04 7.506662e-05
## [36] 3.753331e-05 3.753331e-04 1.876666e-04 8.632661e-04 2.139399e-03
## [41] 3.753331e-05 1.501332e-04 3.753331e-05 6.755996e-04 1.876666e-04
## [46] 4.541531e-03 1.951732e-03 1.501332e-04 3.377998e-04 1.050933e-03
## [51] 9.436625e-01 1.613932e-03 7.131329e-04 1.951732e-03 5.329730e-03
## [56] 4.503997e-04 3.753331e-05 4.503997e-04 7.131329e-04 1.538866e-03
## [61] 4.879330e-04 4.879330e-04 1.764066e-03 1.501332e-03 1.125999e-04
## [66] 4.316331e-03 1.876666e-04 7.506662e-05 3.753331e-04 3.978531e-03
## [71] 3.753331e-05 1.125999e-04 7.506662e-05 3.002665e-04 7.506662e-05
## [76] 2.251999e-04 3.753331e-05 1.125999e-04 7.131329e-04 7.506662e-05
## [81] 1.125999e-04
sum(hi)
## [1] 1
hi_porc <- hi * 100
sum(hi_porc)
## [1] 100
Tabla_Operador <- data.frame(Tabla_Operador, hi_porc)
total <- data.frame(
c_operador = "Total",
Freq = sum(Tabla_Operador$Freq),
hi_porc = "100%"
)
Tabla_Operador <- rbind(Tabla_Operador, total)
colnames(Tabla_Operador)[colnames(Tabla_Operador) == "c_operador"] <- "Operador"
names(Tabla_Operador)
## [1] "Operador" "Freq" "hi_porc"
colnames(Tabla_Operador)[colnames(Tabla_Operador) == "Freq"] <- "ni"
names(Tabla_Operador)
## [1] "Operador" "ni" "hi_porc"
colnames(Tabla_Operador)[colnames(Tabla_Operador) == "hi_porc"] <- "Probabilidad"
names(Tabla_Operador)
## [1] "Operador" "ni" "Probabilidad"
#Agrupar datos
operador <- datos$OPERADOR
tabla_cruda_operador <- sort(table(operador), decreasing = TRUE)
top_n_operador <- 3
top_n_valores_operador <- names(tabla_cruda_operador)[1:top_n_operador]
operador_agrupado <- ifelse(operador %in% top_n_valores_operador, operador, "OTROS")
tabla_agrupada_operador <- table(operador_agrupado)
Tabla_Operador <- data.frame(
OPERADOR = names(tabla_agrupada_operador),
ni = as.numeric(tabla_agrupada_operador)
)
Tabla_Operador$hi_porcentaje <- round((Tabla_Operador$ni / sum(Tabla_Operador$ni)) * 100, 2)
Tabla_Operador <- rbind(
Tabla_Operador,
data.frame(OPERADOR = "TOTAL",
ni = sum(Tabla_Operador$ni),
hi_porcentaje = 100)
)
print(Tabla_Operador)
## OPERADOR ni hi_porcentaje
## 1 OTROS 4170 14.10
## 2 Parnaíba Gás Natural 121 0.41
## 3 Petrobras 25142 85.01
## 4 Petrosynergy 142 0.48
## 5 TOTAL 29575 100.00
barplot(Tabla_Operador$hi_porcentaje[Tabla_Operador$OPERADOR != "TOTAL"],
main = "Grafica No 01: Distribucion por Operador",
names.arg = Tabla_Operador$OPERADOR[Tabla_Operador$OPERADOR != "TOTAL"],
col = "green",
las = 1,
cex.names = 0.8,
cex.axis = 0.8,
xlab = "OPERADOR", ylab = "Probabilidad")

barplot(Tabla_Operador$hi_porcentaje[Tabla_Operador$OPERADOR != "TOTAL"],
main = "Grafica No 01: Distribucion por Operador",
names.arg = Tabla_Operador$OPERADOR[Tabla_Operador$OPERADOR != "TOTAL"],
col = "green",
las = 1,
cex.names = 0.8,
cex.axis = 0.8,
ylim = c(0, 100),
xlab = "OPERADOR", ylab = "Probabilidad")

# Conclusion
conclusion <-"Los datos indican que la probabilidad de que una observación corresponda al operador Petrobras es muy alta, con un 85.01%, lo que refleja su gran presencia en la muestra. Por otro lado, la probabilidad de que la observación provenga de otros operadores agrupados es del 14.10%, y las probabilidades individuales de los demás operadores son menores al 1%."