Nombre del Campo (inferencial)

1. Configuración y Carga de Datos

Se carga el conjunto de datos de arrendamientos de hidrocarburos del estado de Kansas, EE.UU., registrados por el Kansas Geological Survey.

ruta_archivo <- "C:/Users/thann/OneDrive/Escritorio/ESTADISTICA.LOL/datos_vale.csv"

datos_vale <- read_delim(
  ruta_archivo,
  delim = ";",
  show_col_types = FALSE
)

cat("Base de datos cargada correctamente.\n")

## Base de datos cargada correctamente.

cat("Total de registros (filas):", nrow(datos_vale), "\n")

## Total de registros (filas): 104173

2. Extracción y Limpieza de la Variable

La variable FIELD_NAME (Nombre del Campo) identifica el campo petrolífero al que pertenece cada arrendamiento. Se eliminan los registros sin valor (NA o vacíos). Para el análisis se presentan los Top 10 campos más frecuentes.

x_raw <- datos_vale %>%
  filter(!is.na(FIELD_NAME), FIELD_NAME != "") %>%
  pull(FIELD_NAME)

n <- length(x_raw)

cat("Observaciones válidas:", n, "\n")

## Observaciones válidas: 84454

cat("Campos distintos:", length(unique(x_raw)), "\n")

## Campos distintos: 7122

3. Identificación de la Variable

Criterio	Clasificación
Nombre	Nombre del Campo
Nombre técnico	FIELD_NAME
Tipo	Cualitativa
Subtipo	Nominal policotómica
Dominio	Nombres de campos petrolíferos registrados en Kansas
Rango	Múltiples categorías
Unidad	No aplica
Escala	Nominal
Fuente	Kansas Geological Survey – Kansas, EE.UU.

Justificación: La variable registra nombres geográficos de campos sin orden natural entre ellos. Corresponde a una variable cualitativa nominal policotómica. Se analiza a través de la distribución de frecuencias de los 10 campos más representativos.

4. Tabla de Distribución de Frecuencias

Se presentan los Top 10 campos con mayor número de arrendamientos registrados en Kansas, EE.UU. (n total = 84,454).

freq_abs   <- sort(table(x_raw), decreasing = TRUE)
top10      <- head(freq_abs, 10)
categorias <- names(top10)
ni         <- as.integer(top10)
hi_pct     <- ni / n * 100
hi_frac    <- ni / n

tabla_df <- data.frame(
  Categoria = categorias,
  ni        = ni,
  hi_pct    = sprintf("%.2f%%", hi_pct),
  hi_frac   = sprintf("%.4f",   hi_frac),
  stringsAsFactors = FALSE
)

total_row <- data.frame(
  Categoria = "**TOTAL (muestra completa)**",
  ni        = n,
  hi_pct    = "100.00%",
  hi_frac   = "1.0000",
  stringsAsFactors = FALSE
)

tabla_df$ni  <- as.character(tabla_df$ni)
total_row$ni <- as.character(total_row$ni)

tabla_final <- bind_rows(tabla_df, total_row)

kable(
  tabla_final,
  caption = paste0(
    "Cuadro N°1: Distribución de Frecuencias — Top 10 Campos Petrolíferos, ",
    "arrendamientos de hidrocarburos del estado de Kansas, EE.UU., ",
    "período histórico disponible (n total = ", format(n, big.mark = ","), " registros válidos)."
  ),
  col.names = c("Nombre del Campo", "Frecuencia (nᵢ)", "Porcentaje (hᵢ %)", "Porcentaje en fracción (hᵢ)"),
  align     = c("l", "c", "c", "c"),
  escape    = FALSE
) %>%
  kable_styling(
    bootstrap_options = c("striped", "hover", "condensed", "bordered"),
    full_width = TRUE, font_size = 12
  ) %>%
  row_spec(0, bold = TRUE, background = "#d3d3d3", color = "black") %>%
  row_spec(nrow(tabla_final), bold = TRUE, background = "#a9a9a9", color = "black")

Cuadro N°1: Distribución de Frecuencias — Top 10 Campos Petrolíferos, arrendamientos de hidrocarburos del estado de Kansas, EE.UU., período histórico disponible (n total = 84,454 registros válidos).
Nombre del Campo	Frecuencia (nᵢ)	Porcentaje (hᵢ %)	Porcentaje en fracción (hᵢ)
HUGOTON GAS AREA	8113	9.61%	0.0961
CHEROKEE BASIN COAL AREA	4549	5.39%	0.0539
PANOMA GAS AREA	2703	3.20%	0.0320
Spivey-Grabs-Basil	1613	1.91%	0.0191
UNKNOWN	1301	1.54%	0.0154
Chase-Silica	1224	1.45%	0.0145
PAOLA-RANTOUL	994	1.18%	0.0118
HUMBOLDT-CHANUTE	799	0.95%	0.0095
TRAPP	741	0.88%	0.0088
Aetna Gas Area	707	0.84%	0.0084
TOTAL (muestra completa)	84454	100.00%	1.0000

5. Representación Gráfica

5.1 Gráfica N°1 — Diagrama de Barras (Frecuencia Absoluta — Top 10)

top10_ord <- sort(head(table(x_raw), 10), decreasing = TRUE)
colores_g <- gray(seq(0.30, 0.80, length.out = length(top10_ord)))

par(mar = c(10, 6, 7, 2))
bp <- barplot(
  as.numeric(top10_ord),
  names.arg = names(top10_ord),
  col       = colores_g,
  border    = "black",
  ylim      = c(0, max(as.numeric(top10_ord)) * 1.18),
  xlab      = "", ylab = "", main = "", las = 2, cex.names = 0.7
)
text(bp, as.numeric(top10_ord) + max(as.numeric(top10_ord)) * 0.02,
     labels = format(as.numeric(top10_ord), big.mark = ","), cex = 0.8)
mtext("Frecuencia Absoluta (nᵢ)", side = 2, line = 4.5, cex = 1)
mtext("Nombre del Campo",          side = 1, line = 8.5, cex = 1)
mtext(
  "Gráfica N°1: Diagrama de Barras — Frecuencia Absoluta\nTop 10 Campos Petrolíferos, Kansas, EE.UU.",
  side = 3, line = 3.5, cex = 0.9, font = 2
)

5.2 Gráfica N°2 — Diagrama de Barras (Porcentaje — Top 10)

pct_ord <- sort(head(table(x_raw), 10) / n * 100, decreasing = TRUE)

par(mar = c(10, 6, 7, 2))
bp2 <- barplot(
  as.numeric(pct_ord),
  names.arg = names(pct_ord),
  col       = colores_g,
  border    = "black",
  ylim      = c(0, max(as.numeric(pct_ord)) * 1.18),
  xlab      = "", ylab = "", main = "", las = 2, cex.names = 0.7
)
text(bp2, as.numeric(pct_ord) + max(as.numeric(pct_ord)) * 0.02,
     labels = paste0(round(as.numeric(pct_ord), 2), "%"), cex = 0.8)
mtext("Porcentaje (hᵢ %)", side = 2, line = 4.5, cex = 1)
mtext("Nombre del Campo",   side = 1, line = 8.5, cex = 1)
mtext(
  "Gráfica N°2: Diagrama de Barras — Porcentaje\nTop 10 Campos Petrolíferos, Kansas, EE.UU.",
  side = 3, line = 3.5, cex = 0.9, font = 2
)

5.3 Gráfica N°3 — Diagrama Circular (Distribución Porcentual — Top 10)

pct_circ <- head(table(x_raw), 10) / n * 100
grises_c <- gray(seq(0.15, 0.85, length.out = length(pct_circ)))

par(mar = c(2, 2, 6, 12), xpd = TRUE)
pie(
  as.numeric(pct_circ),
  labels  = paste0(round(as.numeric(pct_circ), 2), "%"),
  col     = grises_c,
  border  = "black",
  main    = "",
  radius  = 1,
  cex     = 0.85
)
legend(
  x      = 1.2,
  y      = 1,
  legend = names(pct_circ),
  fill   = grises_c,
  cex    = 0.7,
  title  = "Campo",
  bty    = "n"
)
mtext(
  "Gráfica N°3: Diagrama Circular — Distribución Porcentual\nTop 10 Campos Petrolíferos, Kansas, EE.UU.",
  side = 3, line = 3.5, cex = 0.9, font = 2
)

6. Tabla de Indicadores

moda_val <- names(sort(table(x_raw), decreasing = TRUE))[1]
moda_n   <- max(table(x_raw))

indicadores_h <- data.frame(
  `Tamaño muestral (n)`      = format(n, big.mark = ","),
  `Número de campos únicos`  = as.character(length(unique(x_raw))),
  `Campo modal`              = moda_val,
  `Frecuencia del campo modal` = format(moda_n, big.mark = ","),
  `Porcentaje del campo modal` = paste0(round(moda_n / n * 100, 2), "%"),
  check.names = FALSE,
  stringsAsFactors = FALSE
)

kable(
  indicadores_h,
  caption = "Cuadro N°2: Indicadores de la Variable Cualitativa Nominal Nombre del Campo, arrendamientos de hidrocarburos, Kansas, EE.UU.",
  align = "c",
  escape = FALSE
) %>%
  kable_styling(
    bootstrap_options = c("striped", "hover", "condensed", "bordered"),
    full_width = TRUE, font_size = 12
  ) %>%
  row_spec(0, bold = TRUE, background = "#d3d3d3", color = "black")

Cuadro N°2: Indicadores de la Variable Cualitativa Nominal Nombre del Campo, arrendamientos de hidrocarburos, Kansas, EE.UU.
Tamaño muestral (n)	Número de campos únicos	Campo modal	Frecuencia del campo modal	Porcentaje del campo modal
84,454	7122	HUGOTON GAS AREA	8,113	9.61%

7. Conclusión

El análisis de la variable Nombre del Campo revela la distribución geográfica de los arrendamientos de hidrocarburos en Kansas. Con 7122 campos distintos registrados, el campo modal es “HUGOTON GAS AREA”, concentrando el 9.61% de los registros y reflejando la importancia histórica de este campo en la producción estatal.

Autor: Araujo Valeska | Análisis Estadístico — Kansas Hydrocarbon Leases Dataset