Variable Cuantitativa Continua: Produccion de Petroleo
1. Carga y Preparacion de Datos
datos <- read_delim("PRODUCCION_DE_POZOS.csv", delim = ";")
## Warning: One or more parsing issues, call `problems()` on your data frame for details,
## e.g.:
## dat <- vroom(...)
## problems(dat)
## Rows: 400759 Columns: 40
## ── Column specification ────────────────────────────────────────────────────────
## Delimiter: ";"
## chr (27): idempresa, prod_pet, prod_gas, prod_agua, tef, tipoextraccion, ti...
## dbl (10): anio, mes, idpozo, iny_agua, iny_gas, iny_co2, iny_otro, vida_uti...
## lgl (2): rectificado, habilitado
## dttm (1): fechaingreso
##
## ℹ Use `spec()` to retrieve the full column specification for this data.
## ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.
2. Preparacion de la Variable
x <- as.numeric(gsub(",", ".", datos$prod_pet))
## Warning: NAs introducidos por coerción
x <- x[!is.na(x)]
p01 <- quantile(x, 0.01)
p99 <- quantile(x, 0.99)
x_lim <- x[x >= p01 & x <= p99]
3. Tabla de Frecuencias por Intervalos (Sturges)
k <- round(1 + 3.322 * log10(length(x_lim)))
intervalos <- cut(x_lim, breaks = k)
ni_pp <- as.numeric(table(intervalos))
hi_pp <- ni_pp / sum(ni_pp) * 100
Ni_pp <- cumsum(ni_pp)
Hi_pp <- cumsum(hi_pp)
niveles <- levels(intervalos)
Tabla Nro. 1
tabla_pp <- data.frame(
Intervalo = niveles,
ni = ni_pp,
hi = round(hi_pp, 4),
Ni = Ni_pp,
Hi = round(Hi_pp, 4)
)
tabla_pp_r <- tabla_pp %>%
add_row(
Intervalo = "Total",
ni = sum(ni_pp),
hi = round(sum(hi_pp), 4),
Ni = NA,
Hi = NA
)
tabla_pp_r %>%
gt() %>%
tab_header(
title = md("**Tabla Nro. 1**"),
subtitle = md("Distribucion por intervalos de la produccion de petroleo en pozos no convencionales")
) %>%
cols_label(
Intervalo = "Intervalo (m3)",
ni = "Frec. absoluta (ni)",
hi = "Frec. relativa (%)",
Ni = "Frec. abs. acumulada",
Hi = "Frec. rel. acumulada (%)"
) %>%
tab_source_note(
source_note = md("Elaborado por: Grupo - Carrera de Petroleos")
) %>%
opt_all_caps() %>%
tab_style(
style = cell_text(weight = "bold"),
locations = cells_body(rows = Intervalo == "Total")
)
| Tabla Nro. 1 |
| Distribucion por intervalos de la produccion de petroleo en pozos no convencionales |
| Intervalo (m3) |
Frec. absoluta (ni) |
Frec. relativa (%) |
Frec. abs. acumulada |
Frec. rel. acumulada (%) |
| (-4.35,229] |
292973 |
83.3762 |
292973 |
83.3762 |
| (229,458] |
15077 |
4.2907 |
308050 |
87.6669 |
| (458,687] |
10108 |
2.8766 |
318158 |
90.5435 |
| (687,916] |
7100 |
2.0206 |
325258 |
92.5640 |
| (916,1.15e+03] |
4708 |
1.3398 |
329966 |
93.9039 |
| (1.15e+03,1.37e+03] |
3616 |
1.0291 |
333582 |
94.9329 |
| (1.37e+03,1.6e+03] |
3053 |
0.8688 |
336635 |
95.8018 |
| (1.6e+03,1.83e+03] |
2567 |
0.7305 |
339202 |
96.5323 |
| (1.83e+03,2.06e+03] |
2142 |
0.6096 |
341344 |
97.1419 |
| (2.06e+03,2.29e+03] |
1854 |
0.5276 |
343198 |
97.6695 |
| (2.29e+03,2.52e+03] |
1522 |
0.4331 |
344720 |
98.1027 |
| (2.52e+03,2.75e+03] |
1362 |
0.3876 |
346082 |
98.4903 |
| (2.75e+03,2.98e+03] |
1128 |
0.3210 |
347210 |
98.8113 |
| (2.98e+03,3.21e+03] |
920 |
0.2618 |
348130 |
99.0731 |
| (3.21e+03,3.44e+03] |
835 |
0.2376 |
348965 |
99.3107 |
| (3.44e+03,3.67e+03] |
749 |
0.2132 |
349714 |
99.5239 |
| (3.67e+03,3.89e+03] |
637 |
0.1813 |
350351 |
99.7052 |
| (3.89e+03,4.12e+03] |
549 |
0.1562 |
350900 |
99.8614 |
| (4.12e+03,4.36e+03] |
487 |
0.1386 |
351387 |
100.0000 |
| Total |
351387 |
100.0000 |
NA |
NA |
| Elaborado por: Grupo - Carrera de Petroleos |
4. Graficas
Histograma
par(mar = c(6, 5, 4, 2))
hist(
x_lim,
breaks = k,
col = "gray80",
border = "white",
main = "Histograma de la produccion de petroleo",
xlab = "Produccion de petroleo (m3)",
ylab = "Frecuencia absoluta"
)

Poligono de Frecuencias
h <- hist(x_lim, breaks = k, plot = FALSE)
mid <- h$mids
plot(
mid,
h$counts,
type = "b",
pch = 19,
col = "steelblue",
lwd = 2,
main = "Poligono de frecuencias - Produccion de petroleo",
xlab = "Produccion de petroleo (m3)",
ylab = "Frecuencia absoluta"
)
grid()

Ojiva
plot(
mid,
cumsum(h$counts),
type = "b",
pch = 19,
col = "darkorange",
lwd = 2,
main = "Ojiva - Produccion de petroleo acumulada",
xlab = "Produccion de petroleo (m3)",
ylab = "Frecuencia acumulada"
)
grid()

5. Boxplot
par(mar = c(4, 6, 4, 2))
boxplot(
x_lim,
horizontal = TRUE,
col = "lightblue",
main = "Boxplot - Produccion de petroleo",
xlab = "Produccion de petroleo (m3)"
)

6. Indicadores Estadisticos
media_pp <- round(mean(x_lim), 4)
mediana_pp <- round(median(x_lim), 4)
sd_pp <- round(sd(x_lim), 4)
cv_pp <- round((sd_pp / media_pp) * 100, 4)
q1_pp <- round(quantile(x_lim, 0.25), 4)
q3_pp <- round(quantile(x_lim, 0.75), 4)
Tabla Nro. 2
data.frame(
Variable = "Produccion de Petroleo",
Media = media_pp,
Mediana = mediana_pp,
Desv_Est = sd_pp,
CV_pct = cv_pp,
Q1 = q1_pp,
Q3 = q3_pp
) %>%
gt() %>%
tab_header(
title = md("**Tabla Nro. 2**"),
subtitle = md("Indicadores estadisticos de produccion de petroleo")
) %>%
cols_label(
Variable = "Variable",
Media = "Media (m3)",
Mediana = "Mediana (m3)",
Desv_Est = "Desviacion Estandar",
CV_pct = "Coef Variacion (%)",
Q1 = "Q1",
Q3 = "Q3"
) %>%
tab_source_note(
source_note = md("Elaborado por: Grupo - Carrera de Petroleos")
)
| Tabla Nro. 2 |
| Indicadores estadisticos de produccion de petroleo |
| Variable |
Media (m3) |
Mediana (m3) |
Desviacion Estandar |
Coef Variacion (%) |
Q1 |
Q3 |
| Produccion de Petroleo |
211.5172 |
3.63 |
578.9429 |
273.7096 |
0 |
68.97 |
| Elaborado por: Grupo - Carrera de Petroleos |
7. Conclusion
cat(
"La variable Produccion de Petroleo es cuantitativa continua.",
"Se analizaron",
length(x_lim),
"datos validos con una media de",
media_pp,
"m3 y una mediana de",
mediana_pp,
"m3.",
"La desviacion estandar es",
sd_pp,
"m3 y el coeficiente de variacion es",
cv_pp,
"%, lo que indica variabilidad en la produccion."
)
## La variable Produccion de Petroleo es cuantitativa continua. Se analizaron 351387 datos validos con una media de 211.5172 m3 y una mediana de 3.63 m3. La desviacion estandar es 578.9429 m3 y el coeficiente de variacion es 273.7096 %, lo que indica variabilidad en la produccion.