Horas_BE

##1. Carga de Datos
library(readxl)
datos <- read_excel("C:/Users/LEO/Documents/Producción Campo Sacha.csv.xlsx")
str(datos)

## tibble [8,344 × 31] (S3: tbl_df/tbl/data.frame)
##  $ mes                   : chr [1:8344] "Ene" "Ene" "Ene" "Ene" ...
##  $ día                   : num [1:8344] 1 1 1 1 1 1 1 1 1 1 ...
##  $ Pozo                  : chr [1:8344] "SACHA-001A" "SACHA-019A" "SACHA-052B" "SACHA-083A" ...
##  $ Campo                 : chr [1:8344] "SACHA" "SACHA" "SACHA" "SACHA" ...
##  $ Reservorio            : chr [1:8344] "U" "U" "U INFERIOR" "HOLLIN INFERIOR" ...
##  $ Bpd                   : num [1:8344] NA 53 249 139 186 136 NA 456 161 164 ...
##  $ Bppd_BH               : num [1:8344] 159 NA NA NA NA NA 155 NA NA NA ...
##  $ Bfpd_BE               : num [1:8344] NA 534 346 1158 1163 ...
##  $ Bfpd_BH               : num [1:8344] 695 NA NA NA NA NA 441 NA NA NA ...
##  $ Bapd_BE               : num [1:8344] NA 481 97 1019 977 ...
##  $ Bapd_BH               : num [1:8344] 536 NA NA NA NA NA 286 NA NA NA ...
##  $ Bsw_BE                : num [1:8344] NA 90.1 28 88 84 ...
##  $ Bsw_BH                : num [1:8344] 77.1 NA NA NA NA ...
##  $ Api_BE                : num [1:8344] NA 26.7 27.8 27.7 24 20.5 NA 28.5 29.9 26.3 ...
##  $ Api_BH                : num [1:8344] 27.8 NA NA NA NA NA 23.2 NA NA NA ...
##  $ Gas_BE                : num [1:8344] NA 10.76 50.55 1.11 27.9 ...
##  $ Gas_BH                : num [1:8344] 32.3 NA NA NA NA ...
##  $ Salinidad_BE          : num [1:8344] NA 15920 30227 1600 13000 ...
##  $ Salinidad_BH          : num [1:8344] 10800 NA NA NA NA NA 3800 NA NA NA ...
##  $ Rgl_BE                : num [1:8344] NA 20.15 146.1 0.96 23.99 ...
##  $ Rgl_BH                : num [1:8344] 46.5 NA NA NA NA ...
##  $ Gor_BE                : num [1:8344] NA 203.02 203.01 7.99 150 ...
##  $ Gor_BH                : num [1:8344] 203 NA NA NA NA ...
##  $ Horas_BE              : num [1:8344] NA 4 5 4 4 10 NA 4 10 10 ...
##  $ Horas_BH              : num [1:8344] 4 NA NA NA NA NA 4 NA NA NA ...
##  $ Bomba_BE              : chr [1:8344] NA "SF-320|SF-320|SF-900|SFGH2500/520/180/9259" "RC 1000|RC 1000|RC 1000/300/120/9250" "P23/68/30/7000" ...
##  $ Bomba_BH              : chr [1:8344] "JET  12K/0//0" NA NA NA ...
##  $ Frecuencia Operaciones: num [1:8344] NA 65 62 46 59 52 NA 58.5 57 54 ...
##  $ Voltaje               : num [1:8344] NA 479 457 364 440 452 NA 475 455 439 ...
##  $ Amperaje              : num [1:8344] NA 29 35 14 59 30 NA 23 35 34 ...
##  $ Presión Intake        : num [1:8344] NA 484 406 0 345 162 NA 546 338 0 ...

##2.Extraer la variable continua 
Horas_BE <- datos$Horas_BE 
Horas_BE <- as.numeric(Horas_BE)
Horas_BE <- na.omit(Horas_BE)

##3. Cálculo de intervalos (sturges)
R <- max(Horas_BE) - min(Horas_BE)
k <- floor(1 + (3.3 * log10(length(Horas_BE))))
A <- R / k

liminf <- seq(from = min(Horas_BE), 
              by = A, 
              length.out = k)

limsup <- liminf + A
limsup[k] <- max(Horas_BE)

MC <- (liminf + limsup) / 2

##4.Tabla de distribución de frecuencias
#4.1 Frecuencia absoluta
ni <- numeric(k)
for (i in 1:k) {
  if (i == k) {
    ni[i] <- sum(Horas_BE >= liminf[i] & Horas_BE <= limsup[i])
  } else {
    ni[i] <- sum(Horas_BE >= liminf[i] & Horas_BE < limsup[i])
  }
}

#4.2 Frecuencias relativas y acumuladas
hi <- (ni / length(Horas_BE)) * 100
Niasc <- cumsum(ni)
Nidsc <- rev(cumsum(rev(ni)))
Hiasc <- cumsum(hi)
Hidsc <- rev(cumsum(rev(hi)))

#4.3 Tabla de frecuencias
tabla_Horas_BE <- data.frame(
  Límite_Inferior = round(liminf, 2),
  Límite_Superior = round(limsup, 2),
  Marca_Clase = round(MC, 2),
  ni = ni,
  hi_porc = round(hi, 2),
  Ni_asc = Niasc,
  Ni_dsc = Nidsc,
  Hiasc_porc = round(Hiasc, 2),
  Hidsc_porc = round(Hidsc, 2))

# TABLA 1 CON GT()
library(gt)
library(dplyr)

## 
## Adjuntando el paquete: 'dplyr'

## The following objects are masked from 'package:stats':
## 
##     filter, lag

## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union

library(e1071)
tabla_Horas_BE %>%
  gt() %>%
  tab_header(
    title = md("**Tabla 1: Distribución de Frecuencias de Horas_BE**"),
    subtitle = md("Campo Sacha | Método Sturges")  
  ) %>%
  tab_source_note(
    source_note = md("**Campo Sacha**")
  ) %>%  # ¡SOLO UN PARÉNTESIS AQUÍ!
  cols_label(
    Límite_Inferior = "L. Inferior",
    Límite_Superior = "L. Superior", 
    Marca_Clase = "Marca Clase",
    hi_porc = "hi %",
    Ni_asc = "Ni Asc.",
    Ni_dsc = "Ni Desc.",
    Hiasc_porc = "Hi Asc. %",
    Hidsc_porc = "Hi Desc. %"
  ) %>%
  fmt_number(
    columns = c(Límite_Inferior, Límite_Superior, Marca_Clase),
    decimals = 2
  ) %>%
  fmt_number(
    columns = c(hi_porc, Hiasc_porc, Hidsc_porc),
    decimals = 2,
    pattern = "{x}%"
  )

L. Inferior	L. Superior	Marca Clase	ni	hi %	Ni Asc.	Ni Desc.	Hi Asc. %	Hi Desc. %
Tabla 1: Distribución de Frecuencias de Horas_BE
Campo Sacha \| Método Sturges
1.00	2.77	1.88	145	1.88%	145	7705	1.88%	100.00%
2.77	4.54	3.65	2287	29.68%	2432	7560	31.56%	98.12%
4.54	6.31	5.42	4390	56.98%	6822	5273	88.54%	68.44%
6.31	8.08	7.19	599	7.77%	7421	883	96.31%	11.46%
8.08	9.85	8.96	22	0.29%	7443	284	96.60%	3.69%
9.85	11.62	10.73	103	1.34%	7546	262	97.94%	3.40%
11.62	13.38	12.50	106	1.38%	7652	159	99.31%	2.06%
13.38	15.15	14.27	2	0.03%	7654	53	99.34%	0.69%
15.15	16.92	16.04	0	0.00%	7654	51	99.34%	0.66%
16.92	18.69	17.81	2	0.03%	7656	51	99.36%	0.66%
18.69	20.46	19.58	2	0.03%	7658	49	99.39%	0.64%
20.46	22.23	21.35	1	0.01%	7659	47	99.40%	0.61%
22.23	24.00	23.12	46	0.60%	7705	46	100.00%	0.60%
Campo Sacha

##5. Gráficos
#5.1 Histograma
hist(Horas_BE,
     main = "Gráfica No.1: Distribución de Horas_BE - Campo Sacha",
     breaks = seq(min(Horas_BE), max(Horas_BE) + A, by = A),
     xlab = "Horas_BE",
     ylab = "Cantidad",
     col = "lightblue",
     border = "darkblue",
     xaxt = "n")  # IMPORTANTE: Suprimir eje X automático

# Eje X personalizado con MARCAS DE CLASE
axis(1, at = MC,  # Posiciones: Marcas de Clase
     labels = round(MC, 2),  # Etiquetas: valores redondeados
     las = 1)  # Etiquetas horizontales

#5.2 Ojivas
x_asc <- c(min(liminf), limsup)
y_asc <- c(0, Niasc)
x_desc <- c(liminf, max(limsup))
y_desc <- c(Nidsc, 0)
x_range <- range(c(x_asc, x_desc))
y_range <- c(0, max(c(y_asc, y_desc)))

plot(x_asc, y_asc, type = "o", col = "skyblue",
     main = "Gráfica No.2: Ojivas Ascendente y Descendente de Horas_BE",
     xlab = "Horas_BE",
     ylab = "Frecuencia acumulada",
     xlim = x_range, ylim = y_range,
     xaxt = "n", pch = 16, lwd = 2)

axis(1, at = pretty(x_range), 
     labels = format(pretty(x_range), scientific = FALSE))
axis(2, at = pretty(y_range))

lines(x_desc, y_desc, type = "o", col = "steelblue4", pch = 17, lwd = 2)

legend("right", 
       legend = c("Ojiva Ascendente", "Ojiva Descendente"),
       col = c("skyblue", "steelblue4"), 
       pch = c(16, 17), 
       lty = 1, 
       lwd = 2,
       cex = 0.8)

#5.3 Diagramas de cajas
boxplot(Horas_BE, 
        horizontal = TRUE, 
        col = "steelblue",
        main = "Gráfica No.3: Distribución de Horas_BE - Campo Sacha",
        xlab = "Horas_BE",
        xaxt = "n")

axis(1, at = pretty(Horas_BE), 
     labels = format(pretty(Horas_BE), scientific = FALSE))

# Outliers

outliers <- boxplot.stats(Horas_BE)$out
cat("\nNúmero de outliers:", length(outliers), "\n")

## 
## Número de outliers: 1028

if(length(outliers) > 0) {
  cat("Outliers:", round(outliers, 2), "\n")
}

## Outliers: 10 10 10 10 7 8 8 8 8 1 2 8 10 2 8 10 10 24 8 8 24 8 8 8 8 10 12 8 12 8 18 8 2 2 2 10 8 8 8 1 10 8 24 8 10 8 12 8 8 10 8 7 7 8 10 8 8 24 8 12 12 2 8 8 8 10 10 8 7 12 8 7 9 7 8 8 10 24 8 8 10 8 7 2 24 8 8 1 8 12 7 2 10 7 7 7 12 7 2 8 10 8 12 12 2 10 10 8 1 2 10 18 7 8 24 7 1 8 8 8 7 8 8 7 7 7 9 7 8 10 8 8 12 12 8 12 1 8 8 10 8 2 12 12 7 9 24 2 12 1 10 8 8 7 12 8 12 1 1 8 8 12 9 8 12 8 24 8 7 12 12 7 7 2 8 9 8 8 12 8 2 7 8 2 2 7 2 10 8 7 9 7 12 7 10 8 24 8 8 24 1 24 24 24 12 8 8 12 8 2 7 8 9 8 8 1 24 24 8 8 10 2 1 7 2 24 7 9 9 7 2 8 8 8 8 7 7 10 8 12 24 2 2 24 1 7 8 2 10 8 24 8 7 2 7 8 24 24 9 8 8 12 8 10 8 12 24 2 7 7 8 7 7 2 1 8 8 8 10 8 7 7 8 2 10 8 10 12 7 10 8 10 8 24 7 7 8 8 24 24 24 8 12 12 8 1 2 8 7 10 12 24 8 8 8 8 8 12 1 12 8 2 12 7 8 8 8 2 8 8 8 24 8 7 8 2 7 12 8 2 12 8 7 1 8 8 8 8 8 12 12 8 7 7 7 2 2 10 8 11 8 7 24 2 8 8 7 8 8 8 7 1 2 8 8 10 8 8 7 11 8 1 8 7 12 8 8 8 2 8 8 10 8 7 7 10 8 12 12 7 2 8 8 8 8 8 11 8 8 2 8 8 8 8 12 8 12 8 12 12 8 9 8 8 8 7 2 8 8 7 2 8 7 1 2 10 8 12 24 9 8 8 7 2 8 8 8 24 8 8 12 12 1 10 8 2 8 12 2 2 8 12 2 12 7 12 2 1 8 12 7 2 10 10 12 8 2 7 12 8 2 10 8 12 12 2 7 2 2 8 2 8 2 2 2 7 7 8 12 2 7 8 7 12 12 2 1 2 2 7 12 2 2 7 24 10 8 7 7 8 24 7 8 8 10 1 10 8 8 8 19 10 7 7 7 10 8 8 8 7 2 7 8 8 8 8 8 8 12 7 2 7 8 10 24 8 2 7 7 1 8 7 8 2 8 24 7 10 8 10 8 7 7 7 7 7 7 7 8 8 19 10 10 8 8 8 7 1 2 2 7 2 2 8 8 7 8 2 2 7 8 10 8 2 10 8 7 2 8 8 7 12 12 8 8 12 7 24 8 7 8 8 10 2 7 10 2 12 7 7 7 21 12 7 1 10 10 8 11 10 7 8 8 10 8 10 12 9 7 2 8 8 7 7 7 8 7 8 12 12 10 10 9 7 24 2 10 7 8 8 7 10 8 7 7 2 10 8 7 10 8 7 8 8 24 7 1 10 10 8 7 8 8 10 8 8 8 10 7 2 8 9 7 2 10 8 7 8 8 2 2 1 12 8 7 12 8 12 1 1 7 12 7 10 12 8 10 8 10 8 8 7 12 8 7 8 8 8 8 8 9 8 8 7 2 7 8 10 9 8 8 7 7 7 7 7 7 10 7 10 8 8 7 10 8 7 1 7 24 7 2 2 8 7 8 12 10 7 8 7 7 7 8 7 10 7 8 1 7 8 10 8 8 12 7 8 7 7 9 7 12 12 7 7 7 10 7 7 7 8 7 7 24 1 7 7 12 7 7 8 7 8 7 7 7 9 7 8 8 8 8 8 8 8 12 1 8 7 7 7 7 8 10 8 8 8 7 8 8 12 9 8 8 7 7 8 8 7 8 8 8 24 7 8 8 8 14 8 7 8 8 12 12 12 12 12 8 8 7 8 1 7 8 12 7 8 7 7 7 8 8 12 12 8 8 10 8 9 1 8 7 1 1 1 7 8 8 1 8 1 8 8 8 8 7 8 8 7 2 7 8 12 8 14 8 7 7 8 1 1 1 24 12 10 10 7 8 10 9 8 7 1 8 7 8 8 7 7 12 8 2 8 10 8 12 8 7 7 12 7 7 12 24 10 8 12 8 8 7 8 8 2 8 7 10 24 8 8 8 7 8 10 12 12 7 7 8 7 8 7 7 1 12 2 7 8 8 7 8 2 24 8 8 7 7 8 7 2 8 8 2 7 2 8 10 12 8 8 7 8 12 7 8 12 10 8 7 10

##6. Indicadores estadísticos 
get_mode_interval <- function() {
  idx <- which.max(ni)
  return(paste0("[", round(liminf[idx], 2), ", ", round(limsup[idx], 2), "]"))
}

media <- mean(Horas_BE)
mediana <- median(Horas_BE)
moda_intervalo <- get_mode_interval()
desv <- sd(Horas_BE)
varianza <- var(Horas_BE)
cv <- (desv / media) * 100
asim <- skewness(Horas_BE)
curt <- kurtosis(Horas_BE)     

# CREAR DATA.FRAME DE INDICADORES (¡ESTA PARTE FALTABA!)
indicadores <- data.frame(
  Indicador = c("Mínimo", "Máximo", "Media", "Mediana", "Moda (intervalo)",
                "Desviación Estándar", "Varianza", "Coef. Variación (%)",
                "Asimetría", "Curtosis", "N° Outliers"),
  Valor = c(round(min(Horas_BE), 2), round(max(Horas_BE), 2),
            round(media, 2), round(mediana, 2), moda_intervalo,
            round(desv, 2), round(varianza, 2), round(cv, 2),
            round(asim, 2), round(curt, 2), length(outliers))
)

# TABLA 2 CON GT()
indicadores %>%
  gt() %>%
  tab_header(
    title = md("**Tabla 2: Indicadores Estadísticos de Horas_BE**")
  ) %>%
  tab_source_note(
    source_note = md("**Campo Sacha**")
  ) %>%
  cols_label(
    Indicador = "Indicador",
    Valor = "Valor"
  ) %>%
  tab_style(
    style = cell_text(weight = "bold"),
    locations = cells_body(columns = Indicador)
  )

Indicador	Valor
Tabla 2: Indicadores Estadísticos de Horas_BE
Mínimo	1
Máximo	24
Media	5.21
Mediana	5
Moda (intervalo)	[4.54, 6.31]
Desviación Estándar	2.16
Varianza	4.67
Coef. Variación (%)	41.43
Asimetría	4.64
Curtosis	34.41
N° Outliers	1028
Campo Sacha

##7. Conclusión 
#La variable Horas_BE fluctúa entre 3.00 H y 24.00 H y sus valores están en torno a los 4.00 H (media = 4.83 H), con una desviación estándar de 2.00 H siendo un conjunto de valores heterogéneos  (CV = 41.48%) cuyos valores se concentran en el intervalo modal [3.00, 5.1] H y con distribución leptocúrtica (K = 32.84) y sesgo pronunciado hacia la derecha (As = 4.73) a excepción de los 49 valores atípicos identificados, por lo tanto el comportamiento de la variable indica un proceso mayoritariamente estable con mediciones consistentes en el rango principal, aunque con presencia significativa de lecturas extremas que requieren análisis particular.

Horas_BE

Leonardo Ruiz

2025-12-18