library(dplyr)
library(knitr)
library(kableExtra)
library(ggplot2)
datos <- read.csv("datos_vale.csv", sep = ";", stringsAsFactors = FALSE)
# Filtrar valores válidos
gas_data <- datos %>%
filter(PRODUCES_GAS %in% c("Yes", "No")) %>%
pull(PRODUCES_GAS)
gas_data <- factor(gas_data, levels = c("Yes", "No"))
Descripción de la Variable
| Nombre original |
PRODUCES_GAS |
| Nombre asignado |
produce_gas (Produce Gas) |
| Tipo |
Cualitativa |
| Subtipo |
Nominal |
| Dominio |
{Yes, No} |
| Rango |
Binario: indica si el pozo produce gas |
| Unidad de medida |
No aplica |
| Escala de medida |
Nominal |
Tabla de Distribución de Frecuencias
n_total <- length(gas_data)
freq_abs <- table(gas_data)
freq_rel <- prop.table(freq_abs)
tabla_gas <- data.frame(
"Produce Gas" = names(freq_abs),
"Frecuencia (ni)" = as.integer(freq_abs),
"Porcentaje (hi)" = round(as.numeric(freq_rel) * 100, 2),
"Porcentaje (fracción)"= round(as.numeric(freq_rel), 4),
check.names = FALSE
)
kable(
tabla_gas,
caption = "Cuadro No. 2 — Distribución de Frecuencias de la Variable Produce Gas,<br>Pozos petroleros de Kansas, 2025.",
align = c("l", "r", "r", "r"),
booktabs = TRUE
) %>%
kable_styling(
bootstrap_options = c("striped", "hover", "condensed", "bordered"),
full_width = FALSE,
position = "center"
) %>%
row_spec(0, background = "#d9d9d9", bold = TRUE) %>%
column_spec(1, bold = TRUE)
Cuadro No. 2 — Distribución de Frecuencias de la Variable Produce
Gas,
Pozos petroleros de Kansas, 2025.
|
Produce Gas
|
Frecuencia (ni)
|
Porcentaje (hi)
|
Porcentaje (fracción)
|
|
Yes
|
36902
|
38.46
|
0.3846
|
|
No
|
59056
|
61.54
|
0.6154
|
kable(
tabla_gas,
caption = "Cuadro No. 2 — Distribución de Frecuencias de la Variable Produce Gas,<br>Pozos petroleros de Kansas, 2025.",
align = c("l", "r", "r", "r"),
booktabs = TRUE
) %>%
kable_styling(
bootstrap_options = c("striped", "hover", "condensed", "bordered"),
full_width = FALSE,
position = "center"
) %>%
row_spec(0, background = "#d9d9d9", bold = TRUE) %>%
column_spec(1, bold = TRUE)
Cuadro No. 2 — Distribución de Frecuencias de la Variable Produce
Gas,
Pozos petroleros de Kansas, 2025.
|
Produce Gas
|
Frecuencia (ni)
|
Porcentaje (hi)
|
Porcentaje (fracción)
|
|
Yes
|
36902
|
38.46
|
0.3846
|
|
No
|
59056
|
61.54
|
0.6154
|
cat(paste0("**Total: n = ", n_total, "**"))
## **Total: n = 95958**
Tabla de Indicadores
moda_val <- names(which.max(freq_abs))
indicadores <- data.frame(
Indicador = c("Tamaño de muestra (n)", "Moda", "Categoría mayoritaria", "Frecuencia máxima", "Frecuencia mínima"),
Valor = c(
n_total,
moda_val,
moda_val,
max(freq_abs),
min(freq_abs)
)
)
kable(
indicadores,
caption = "Tabla de Indicadores — Variable Produce Gas",
align = c("l", "r")
) %>%
kable_styling(
bootstrap_options = c("striped", "bordered"),
full_width = FALSE,
position = "center"
) %>%
row_spec(0, background = "#d9d9d9", bold = TRUE)
Tabla de Indicadores — Variable Produce Gas
|
Indicador
|
Valor
|
|
Tamaño de muestra (n)
|
95958
|
|
Moda
|
No
|
|
Categoría mayoritaria
|
No
|
|
Frecuencia máxima
|
59056
|
|
Frecuencia mínima
|
36902
|
Gráficas
Diagrama de Barras (Frecuencia Absoluta)
df_plot <- as.data.frame(freq_abs)
colnames(df_plot) <- c("categoria", "frecuencia")
ggplot(df_plot, aes(x = categoria, y = frecuencia)) +
geom_bar(stat = "identity", fill = "gray40", color = "black", width = 0.5) +
geom_text(aes(label = frecuencia), vjust = -0.5, size = 4) +
labs(
title = "Figura 1. Diagrama de Barras — Produce Gas\n(Frecuencia Absoluta)",
x = "Produce Gas",
y = "Frecuencia Absoluta (ni)"
) +
theme_classic() +
theme(
plot.title = element_text(hjust = 0.5, size = 12),
axis.title = element_text(size = 11),
axis.text = element_text(size = 10)
)

Diagrama de Barras (Porcentaje)
df_plot2 <- as.data.frame(freq_rel * 100)
colnames(df_plot2) <- c("categoria", "porcentaje")
ggplot(df_plot2, aes(x = categoria, y = porcentaje)) +
geom_bar(stat = "identity", fill = "gray55", color = "black", width = 0.5) +
geom_text(aes(label = paste0(round(porcentaje, 2), "%")), vjust = -0.5, size = 4) +
labs(
title = "Figura 2. Diagrama de Barras — Produce Gas\n(Porcentaje)",
x = "Produce Gas",
y = "Porcentaje (%)"
) +
theme_classic() +
theme(
plot.title = element_text(hjust = 0.5, size = 12),
axis.title = element_text(size = 11),
axis.text = element_text(size = 10)
)

Diagrama Circular (Distribución Porcentual)
df_pie <- as.data.frame(freq_rel)
colnames(df_pie) <- c("categoria", "proporcion")
df_pie$porcentaje <- round(df_pie$proporcion * 100, 2)
df_pie$etiqueta <- paste0(df_pie$categoria, "\n", df_pie$porcentaje, "%")
grises <- c("Yes" = "gray30", "No" = "gray75")
ggplot(df_pie, aes(x = "", y = proporcion, fill = categoria)) +
geom_col(width = 1, color = "white") +
coord_polar(theta = "y") +
scale_fill_manual(values = grises) +
geom_text(aes(label = etiqueta),
position = position_stack(vjust = 0.5),
color = "white", size = 4.5, fontface = "bold") +
labs(
title = "Figura 3. Diagrama Circular — Produce Gas\n(Distribución Porcentual)",
fill = "Categoría"
) +
theme_void() +
theme(
plot.title = element_text(hjust = 0.5, size = 12),
legend.title = element_text(size = 10),
legend.text = element_text(size = 10)
)

Interpretación
La variable Produce Gas (PRODUCES_GAS) es de tipo
cualitativa nominal con dominio binario {Yes, No}. Del total de
95,958 pozos con datos válidos, el
61.54% (n = 59,056) no produce gas,
mientras que el 38.46% (n = 36,902) sí lo hace. La moda
es la categoría “No”, lo que indica que la mayoría de
los pozos registrados en Kansas no tienen producción activa de gas
natural. Esto contrasta con la variable de producción de petróleo, donde
la mayoría sí produce, sugiriendo que el crudo es el recurso dominante
en esta región, con una proporción menor de pozos orientados a la
extracción de gas natural. ```