Se carga el conjunto de datos de arrendamientos de hidrocarburos del estado de Kansas, EE.UU., registrados por el Kansas Geological Survey.
ruta_archivo <- "C:/Users/thann/OneDrive/Escritorio/ESTADISTICA.LOL/datos_vale.csv"
datos_vale <- read_delim(
ruta_archivo,
delim = ";",
show_col_types = FALSE
)
cat("Base de datos cargada correctamente.\n")
## Base de datos cargada correctamente.
cat("Total de registros (filas):", nrow(datos_vale), "\n")
## Total de registros (filas): 104173
La variable PRODUCES_GAS (Produce Gas) indica si el
arrendamiento registra producción de gas natural. Se filtran únicamente
los valores válidos: Yes (Sí) y No.
x_raw <- datos_vale %>%
filter(PRODUCES_OIL %in% c("Yes", "No")) %>%
mutate(
produce_petroleo = case_when(
PRODUCES_OIL == "Yes" ~ "Sí",
PRODUCES_OIL == "No" ~ "No"
)
) %>%
pull(produce_petroleo)
n <- length(x_raw)
cat("Observaciones válidas:", n, "\n")
## Observaciones válidas: 95960
cat("Valores únicos:", length(unique(x_raw)), "\n")
## Valores únicos: 2
| Criterio | Clasificación |
|---|---|
| Nombre | Produce Gas |
| Nombre técnico | PRODUCES_GAS |
| Tipo | Cualitativa |
| Subtipo | Nominal dicotómica |
| Dominio | {Sí, No} |
| Rango | 2 categorías |
| Unidad | No aplica |
| Escala | Nominal |
| Fuente | Kansas Geological Survey – Kansas, EE.UU. |
Justificación: La variable toma únicamente dos valores posibles (Sí/No), sin orden natural entre ellos. Corresponde a una variable cualitativa nominal dicotómica. Se construye la tabla de distribución de frecuencias con frecuencia absoluta, porcentual y en fracción.
Se construye la tabla de distribución de frecuencias de la variable cualitativa nominal Produce Gas, correspondiente a los arrendamientos de hidrocarburos registrados en Kansas, EE.UU., durante el período histórico disponible (n = 95,960).
freq_abs <- table(x_raw)
categorias <- names(freq_abs)
ni <- as.integer(freq_abs)
hi_pct <- ni / n * 100
hi_frac <- ni / n
tabla_df <- data.frame(
Categoria = categorias,
ni = ni,
hi_pct = sprintf("%.2f%%", hi_pct),
hi_frac = sprintf("%.4f", hi_frac),
stringsAsFactors = FALSE
)
total_row <- data.frame(
Categoria = "**TOTAL**",
ni = n,
hi_pct = "100.00%",
hi_frac = "1.0000",
stringsAsFactors = FALSE
)
tabla_df$ni <- as.character(tabla_df$ni)
total_row$ni <- as.character(total_row$ni)
tabla_final <- bind_rows(tabla_df, total_row)
kable(
tabla_final,
caption = paste0(
"Cuadro N°1: Distribución de Frecuencias de la Variable Cualitativa Nominal Produce Gas, ",
"registrada en los arrendamientos de hidrocarburos del estado de Kansas, EE.UU., ",
"período histórico disponible (n = ", format(n, big.mark = ","), " registros válidos)."
),
col.names = c("Produce Gas", "Frecuencia (nᵢ)", "Porcentaje (hᵢ %)", "Porcentaje en fracción (hᵢ)"),
align = c("l", "c", "c", "c"),
escape = FALSE
) %>%
kable_styling(
bootstrap_options = c("striped", "hover", "condensed", "bordered"),
full_width = TRUE, font_size = 12
) %>%
row_spec(0, bold = TRUE, background = "#d3d3d3", color = "black") %>%
row_spec(nrow(tabla_final), bold = TRUE, background = "#a9a9a9", color = "black")
| Produce Gas | Frecuencia (nᵢ) | Porcentaje (hᵢ %) | Porcentaje en fracción (hᵢ) |
|---|---|---|---|
| No | 39216 | 40.87% | 0.4087 |
| Sí | 56744 | 59.13% | 0.5913 |
| TOTAL | 95960 | 100.00% | 1.0000 |
moda_val <- names(sort(table(x_raw), decreasing = TRUE))[1]
moda_n <- max(table(x_raw))
indicadores <- data.frame(
Indicador = c(
"Tamaño muestral (n)",
"Número de categorías",
"Moda",
"Frecuencia de la moda",
"Porcentaje de la moda"
),
Valor = c(
format(n, big.mark = ","),
length(unique(x_raw)),
moda_val,
format(moda_n, big.mark = ","),
paste0(round(moda_n / n * 100, 2), "%")
),
stringsAsFactors = FALSE
)
kable(
indicadores,
caption = "Cuadro N°2: Indicadores de la Variable Cualitativa Nominal Produce Gas, arrendamientos de hidrocarburos, Kansas, EE.UU.",
col.names = c("Indicador", "Valor"),
align = c("l", "c")
) %>%
kable_styling(
bootstrap_options = c("striped", "hover", "condensed", "bordered"),
full_width = FALSE, font_size = 12
) %>%
row_spec(0, bold = TRUE, background = "#d3d3d3", color = "black")
| Indicador | Valor |
|---|---|
| Tamaño muestral (n) | 95,960 |
| Número de categorías | 2 |
| Moda | Sí |
| Frecuencia de la moda | 56,744 |
| Porcentaje de la moda | 59.13% |
freq_ord <- sort(table(x_raw), decreasing = TRUE)
colores_g <- gray(seq(0.35, 0.75, length.out = length(freq_ord)))
par(mar = c(5, 6, 7, 2))
bp <- barplot(
as.numeric(freq_ord),
names.arg = names(freq_ord),
col = colores_g,
border = "black",
ylim = c(0, max(as.numeric(freq_ord)) * 1.18),
xlab = "", ylab = "", main = "", las = 1
)
text(bp, as.numeric(freq_ord) + max(as.numeric(freq_ord)) * 0.02,
labels = format(as.numeric(freq_ord), big.mark = ","), cex = 0.9)
mtext("Frecuencia Absoluta (nᵢ)", side = 2, line = 4.5, cex = 1)
mtext("Produce Gas", side = 1, line = 3, cex = 1)
mtext(
"Gráfica N°1: Diagrama de Barras — Frecuencia Absoluta\nde la Variable Produce Gas, Kansas, EE.UU.",
side = 3, line = 3.5, cex = 0.9, font = 2
)
pct_ord <- sort(table(x_raw) / n * 100, decreasing = TRUE)
par(mar = c(5, 6, 7, 2))
bp2 <- barplot(
as.numeric(pct_ord),
names.arg = names(pct_ord),
col = colores_g,
border = "black",
ylim = c(0, max(as.numeric(pct_ord)) * 1.18),
xlab = "", ylab = "", main = "", las = 1
)
text(bp2, as.numeric(pct_ord) + max(as.numeric(pct_ord)) * 0.02,
labels = paste0(round(as.numeric(pct_ord), 2), "%"), cex = 0.9)
mtext("Porcentaje (hᵢ %)", side = 2, line = 4.5, cex = 1)
mtext("Produce Gas", side = 1, line = 3, cex = 1)
mtext(
"Gráfica N°2: Diagrama de Barras — Porcentaje\nde la Variable Produce Gas, Kansas, EE.UU.",
side = 3, line = 3.5, cex = 0.9, font = 2
)
pct_circ <- table(x_raw) / n * 100
grises_c <- gray(c(0.35, 0.72))
par(mar = c(2, 2, 6, 2))
pie(
as.numeric(pct_circ),
labels = paste0(names(pct_circ), "\n", round(as.numeric(pct_circ), 2), "%"),
col = grises_c,
border = "black",
main = ""
)
mtext(
"Gráfica N°3: Diagrama Circular — Distribución Porcentual\nde la Variable Produce Gas, Kansas, EE.UU.",
side = 3, line = 3.5, cex = 0.9, font = 2
)
La variable Produce Gas indica si cada arrendamiento registrado en Kansas genera producción de gas natural. Con base en los 95,960 registros válidos analizados se pueden extraer las siguientes conclusiones:
Distribución general. La categoría predominante es “No” (no produce gas), con 39,216 arrendamientos (40.87% del total), mientras que 56,744 arrendamientos (59.13%) sí registran producción de gas.
Moda. La categoría modal es “Sí”, lo que indica que la mayoría de los arrendamientos de hidrocarburos en Kansas no tiene producción activa de gas natural, diferenciándose así del patrón observado en la producción de petróleo.
Interpretación geoeconómica. La menor proporción de arrendamientos con producción de gas sugiere que Kansas históricamente ha sido un estado predominantemente petrolero. Los campos gasíferos representan aproximadamente un tercio del total de arrendamientos activos, lo que podría indicar también un subregistro o reconversión de pozos hacia producción exclusiva de petróleo. La comparación con la variable Produce Petróleo evidencia la complementariedad entre ambas fuentes de hidrocarburos en el territorio kansano.
Autor: Valeska Araujo | Análisis Estadístico — Kansas Hydrocarbon Leases Dataset