DISTRITO

1 Cargar datos

setwd("/cloud/project")
datos <- read.csv("DATOS.csv", header = TRUE, sep = ";" , dec = ".")
str(datos)
## 'data.frame':    10190 obs. of  17 variables:
##  $ Distrito_edit                        : chr  "1" "1" "1" "1" ...
##  $ Year_edit_Fecha_del_derrame          : int  2013 2013 2013 2013 2013 2013 2013 2013 2013 2013 ...
##  $ Mes_edit_Fecha_del_derrame           : int  6 3 4 4 6 6 3 9 10 6 ...
##  $ Categoria_Instalaciones              : chr  "Instalacion fija" "Pozos" "Pozos" "Pozos" ...
##  $ Operacion_general                    : chr  "Produccion" "Otro" "Produccion" "Produccion" ...
##  $ Categoria_Fuente                     : chr  NA "Tanques/Almacenamiento" "Lineas/Tuberias" "Infraestructura Fija" ...
##  $ Grupo_causas_probable                : chr  NA "Afectaciones externas" "Factores humanos" "Problemas tecnicos" ...
##  $ Liberacion_petroleo_crudo_edicion    : num  0 0 0 0 0 ...
##  $ Edicion_recuperacion_petroleo_crudo  : num  NA 0 0 0 0 0 0 0 0 NA ...
##  $ Volumen_liberado_Cond_Final          : num  0 0 0 10 0 0 0 1 0 0 ...
##  $ Liberacion_agua_de_produccion_edicion: num  6720 3780 5040 420 10920 ...
##  $ Liberacion_volumen_gas               : num  0 0 0 0 0 0 0 0 0 0 ...
##  $ Volumen_condensado_recuperado        : num  NA 0 0 1 0 0 0 0 0 NA ...
##  $ Edicion_Recuperacion_agua_producida  : num  NA 420 4620 0 10920 ...
##  $ Derrame_sobre_agua_limpio            : chr  "NO" "NO" "NO" "NO" ...
##  $ Estado_general                       : chr  "Observaciones tecnicas" NA NA NA ...
##  $ Codigo_area                          : int  1 1 1 1 1 1 1 1 1 3 ...

DISTRITO

2 Extraer variable

Distrito <- datos$Distrito_edit 
TDFDistrito <- table(Distrito)

3 Tabla de distribución de frecuencias

Tabla <- as.data.frame(TDFDistrito)  # Frecuencia Absoluta
# Cambiar el nombre de la columna "Freq" a "ni"
colnames(Tabla)[colnames(Tabla) == "Freq"] <- "ni"
fo_norm <- Tabla$ni / sum(Tabla$ni)  # Frecuencia Relativa
fo <- fo_norm * 100 
sum(fo)
## [1] 100
Tabla$fo <- fo
total_ni <- sum(Tabla$ni)  
total_fo <- sum(Tabla$fo)  
fila_total <- data.frame(Distrito = "Total", ni = total_ni, fo = total_fo)
Tabla <- rbind(Tabla, fila_total)
print(Tabla)
##    Distrito    ni          fo
## 1         1   430   4.2198234
## 2        10   506   4.9656526
## 3         2   217   2.1295388
## 4         3   726   7.1246320
## 5         4   278   2.7281649
## 6         5    53   0.5201178
## 7         6   212   2.0804711
## 8        6E   122   1.1972522
## 9        7B   153   1.5014720
## 10       7C   960   9.4210010
## 11        8  5023  49.2934249
## 12       8A  1323  12.9833170
## 13        9   187   1.8351325
## 14    Total 10190 100.0000000

4 Gráficas de distribución de frecuencia

Diagrama de barras ni Se creó un diagrama de barras con la frecuencia absoluta.

# Ajustar márgenes
par(mar = c(8, 4, 3, 2))

# Frecuencia Absoluta
barplot(TDFDistrito,
        main = "Gráfica No.1: Distribución de cada Distrito",
        xlab = "",
        ylab = "Cantidad",
        col = "darkviolet",
        las = 3, 
        cex.names = 0.8,
        cex.axis = 0.9,
        cex.main = 1.2,
        ylim = c(0, max(TDFDistrito) * 1.2),
        border = "black")
mtext("Distrito", side = 1, line = 5, cex = 1.1)
abline(h = pretty(range(TDFDistrito), n = 5), col = "gray85", lty = "dotted")

Diagrama de barras fo Se creó un diagrama de barras con la frecuencia relativa.

porcentajes <- TDFDistrito / sum(TDFDistrito) * 100  
par(mar = c(8, 4, 3, 2)) 
barplot(porcentajes,
        main = "Gráfica No.2: Distribución porcentual de cada Distrito",
        xlab = "",
        ylab = "Porcentaje",
        col = "darkmagenta",
        las = 3, 
        cex.names = 0.8,
        cex.axis = 0.9,
        cex.main = 1.2,
        ylim = c(0, max(porcentajes) * 1.2),
        border = "black")
mtext("Distritos", side = 1, line = 5, cex = 1.1)
abline(h = pretty(range(porcentajes), n = 5), col = "gray85", lty = "dotted")

5 Modelo de Probabilidad

P_Distrito_edit <- Tabla$ni / sum(Tabla$ni)
P_Distrito_edit <- P_Distrito_edit[Tabla$Distrito != "Total"]
nombres_Distrito <- Tabla$Distrito[Tabla$Distrito != "Total"]

barplot(P_Distrito_edit,
        main = "Gráfica Nº3: Distribución de Probabilidad de cada Distrito",
        xlab = "Distrito", ylab = "Probabilidad",
        col = "steelblue",
        names.arg = nombres_Distrito,
        las = 3,
        cex.names = 0.8)

5.1 Probabilidad

# ¿Cuál es la probabilidad de que ocurra un derrame en el distrito 6E?
nombre_distrito <- "6E"
probabilidad_6E <- round(
  (Tabla$ni[Tabla$Distrito == nombre_distrito] / sum(Tabla$ni[Tabla$Distrito != "Total"])) * 100,
  1
)

print(paste("La probabilidad es de:", probabilidad_6E, "%"))
## [1] "La probabilidad es de: 1.2 %"