1. Configuración y Carga de Datos

Se carga el conjunto de datos de arrendamientos de hidrocarburos del estado de Kansas, EE.UU., registrados por el Kansas Geological Survey.

ruta_archivo <- "C:/Users/thann/OneDrive/Escritorio/ESTADISTICA.LOL/datos_vale.csv"

datos_vale <- read_delim(
  ruta_archivo,
  delim = ";",
  show_col_types = FALSE
)

cat("Base de datos cargada correctamente.\n")
## Base de datos cargada correctamente.
cat("Total de registros (filas):", nrow(datos_vale), "\n")
## Total de registros (filas): 104173

2. Extracción y Limpieza de la Variable

La variable FIELD_NAME (Nombre del Campo) identifica el campo petrolífero al que pertenece cada arrendamiento. Se eliminan los registros sin valor (NA o vacíos). Para el análisis se presentan los Top 10 campos más frecuentes.

x_raw <- datos_vale %>%
  filter(!is.na(FIELD_NAME), FIELD_NAME != "") %>%
  pull(FIELD_NAME)

n <- length(x_raw)

cat("Observaciones válidas:", n, "\n")
## Observaciones válidas: 84454
cat("Campos distintos:", length(unique(x_raw)), "\n")
## Campos distintos: 7122

3. Identificación de la Variable

Criterio Clasificación
Nombre Nombre del Campo
Nombre técnico FIELD_NAME
Tipo Cualitativa
Subtipo Nominal policotómica
Dominio Nombres de campos petrolíferos registrados en Kansas
Rango Múltiples categorías
Unidad No aplica
Escala Nominal
Fuente Kansas Geological Survey – Kansas, EE.UU.

Justificación: La variable registra nombres geográficos de campos sin orden natural entre ellos. Corresponde a una variable cualitativa nominal policotómica. Se analiza a través de la distribución de frecuencias de los 10 campos más representativos.


4. Tabla de Distribución de Frecuencias

Se presentan los Top 10 campos con mayor número de arrendamientos registrados en Kansas, EE.UU. (n total = 84,454).

freq_abs   <- sort(table(x_raw), decreasing = TRUE)
top10      <- head(freq_abs, 10)
categorias <- names(top10)
ni         <- as.integer(top10)
hi_pct     <- ni / n * 100
hi_frac    <- ni / n

tabla_df <- data.frame(
  Categoria = categorias,
  ni        = ni,
  hi_pct    = sprintf("%.2f%%", hi_pct),
  hi_frac   = sprintf("%.4f",   hi_frac),
  stringsAsFactors = FALSE
)

total_row <- data.frame(
  Categoria = "**TOTAL (muestra completa)**",
  ni        = n,
  hi_pct    = "100.00%",
  hi_frac   = "1.0000",
  stringsAsFactors = FALSE
)

tabla_df$ni  <- as.character(tabla_df$ni)
total_row$ni <- as.character(total_row$ni)

tabla_final <- bind_rows(tabla_df, total_row)

kable(
  tabla_final,
  caption = paste0(
    "Cuadro N°1: Distribución de Frecuencias — Top 10 Campos Petrolíferos, ",
    "arrendamientos de hidrocarburos del estado de Kansas, EE.UU., ",
    "período histórico disponible (n total = ", format(n, big.mark = ","), " registros válidos)."
  ),
  col.names = c("Nombre del Campo", "Frecuencia (nᵢ)", "Porcentaje (hᵢ %)", "Porcentaje en fracción (hᵢ)"),
  align     = c("l", "c", "c", "c"),
  escape    = FALSE
) %>%
  kable_styling(
    bootstrap_options = c("striped", "hover", "condensed", "bordered"),
    full_width = TRUE, font_size = 12
  ) %>%
  row_spec(0, bold = TRUE, background = "#d3d3d3", color = "black") %>%
  row_spec(nrow(tabla_final), bold = TRUE, background = "#a9a9a9", color = "black")
Cuadro N°1: Distribución de Frecuencias — Top 10 Campos Petrolíferos, arrendamientos de hidrocarburos del estado de Kansas, EE.UU., período histórico disponible (n total = 84,454 registros válidos).
Nombre del Campo Frecuencia (nᵢ) Porcentaje (hᵢ %) Porcentaje en fracción (hᵢ)
HUGOTON GAS AREA 8113 9.61% 0.0961
CHEROKEE BASIN COAL AREA 4549 5.39% 0.0539
PANOMA GAS AREA 2703 3.20% 0.0320
Spivey-Grabs-Basil 1613 1.91% 0.0191
UNKNOWN 1301 1.54% 0.0154
Chase-Silica 1224 1.45% 0.0145
PAOLA-RANTOUL 994 1.18% 0.0118
HUMBOLDT-CHANUTE 799 0.95% 0.0095
TRAPP 741 0.88% 0.0088
Aetna Gas Area 707 0.84% 0.0084
TOTAL (muestra completa) 84454 100.00% 1.0000

5. Representación Gráfica

5.1 Gráfica N°1 — Diagrama de Barras (Frecuencia Absoluta — Top 10)

top10_ord <- sort(head(table(x_raw), 10), decreasing = TRUE)
colores_g <- gray(seq(0.30, 0.80, length.out = length(top10_ord)))

par(mar = c(10, 6, 7, 2))
bp <- barplot(
  as.numeric(top10_ord),
  names.arg = names(top10_ord),
  col       = colores_g,
  border    = "black",
  ylim      = c(0, max(as.numeric(top10_ord)) * 1.18),
  xlab      = "", ylab = "", main = "", las = 2, cex.names = 0.7
)
text(bp, as.numeric(top10_ord) + max(as.numeric(top10_ord)) * 0.02,
     labels = format(as.numeric(top10_ord), big.mark = ","), cex = 0.8)
mtext("Frecuencia Absoluta (nᵢ)", side = 2, line = 4.5, cex = 1)
mtext("Nombre del Campo",          side = 1, line = 8.5, cex = 1)
mtext(
  "Gráfica N°1: Diagrama de Barras — Frecuencia Absoluta\nTop 10 Campos Petrolíferos, Kansas, EE.UU.",
  side = 3, line = 3.5, cex = 0.9, font = 2
)

5.2 Gráfica N°2 — Diagrama de Barras (Porcentaje — Top 10)

pct_ord <- sort(head(table(x_raw), 10) / n * 100, decreasing = TRUE)

par(mar = c(10, 6, 7, 2))
bp2 <- barplot(
  as.numeric(pct_ord),
  names.arg = names(pct_ord),
  col       = colores_g,
  border    = "black",
  ylim      = c(0, max(as.numeric(pct_ord)) * 1.18),
  xlab      = "", ylab = "", main = "", las = 2, cex.names = 0.7
)
text(bp2, as.numeric(pct_ord) + max(as.numeric(pct_ord)) * 0.02,
     labels = paste0(round(as.numeric(pct_ord), 2), "%"), cex = 0.8)
mtext("Porcentaje (hᵢ %)", side = 2, line = 4.5, cex = 1)
mtext("Nombre del Campo",   side = 1, line = 8.5, cex = 1)
mtext(
  "Gráfica N°2: Diagrama de Barras — Porcentaje\nTop 10 Campos Petrolíferos, Kansas, EE.UU.",
  side = 3, line = 3.5, cex = 0.9, font = 2
)

5.3 Gráfica N°3 — Diagrama Circular (Distribución Porcentual — Top 10)

pct_circ <- head(table(x_raw), 10) / n * 100
grises_c <- gray(seq(0.15, 0.85, length.out = length(pct_circ)))

par(mar = c(2, 2, 6, 12), xpd = TRUE)
pie(
  as.numeric(pct_circ),
  labels  = paste0(round(as.numeric(pct_circ), 2), "%"),
  col     = grises_c,
  border  = "black",
  main    = "",
  radius  = 1,
  cex     = 0.85
)
legend(
  x      = 1.2,
  y      = 1,
  legend = names(pct_circ),
  fill   = grises_c,
  cex    = 0.7,
  title  = "Campo",
  bty    = "n"
)
mtext(
  "Gráfica N°3: Diagrama Circular — Distribución Porcentual\nTop 10 Campos Petrolíferos, Kansas, EE.UU.",
  side = 3, line = 3.5, cex = 0.9, font = 2
)


6. Tabla de Indicadores

moda_val <- names(sort(table(x_raw), decreasing = TRUE))[1]
moda_n   <- max(table(x_raw))

indicadores_h <- data.frame(
  `Tamaño muestral (n)`      = format(n, big.mark = ","),
  `Número de campos únicos`  = as.character(length(unique(x_raw))),
  `Campo modal`              = moda_val,
  `Frecuencia del campo modal` = format(moda_n, big.mark = ","),
  `Porcentaje del campo modal` = paste0(round(moda_n / n * 100, 2), "%"),
  check.names = FALSE,
  stringsAsFactors = FALSE
)

kable(
  indicadores_h,
  caption = "Cuadro N°2: Indicadores de la Variable Cualitativa Nominal Nombre del Campo, arrendamientos de hidrocarburos, Kansas, EE.UU.",
  align = "c",
  escape = FALSE
) %>%
  kable_styling(
    bootstrap_options = c("striped", "hover", "condensed", "bordered"),
    full_width = TRUE, font_size = 12
  ) %>%
  row_spec(0, bold = TRUE, background = "#d3d3d3", color = "black")
Cuadro N°2: Indicadores de la Variable Cualitativa Nominal Nombre del Campo, arrendamientos de hidrocarburos, Kansas, EE.UU.
Tamaño muestral (n) Número de campos únicos Campo modal Frecuencia del campo modal Porcentaje del campo modal
84,454 7122 HUGOTON GAS AREA 8,113 9.61%

7. Conclusión

El análisis de la variable Nombre del Campo revela la distribución geográfica de los arrendamientos de hidrocarburos en Kansas. Con 7122 campos distintos registrados, el campo modal es “HUGOTON GAS AREA”, concentrando el 9.61% de los registros y reflejando la importancia histórica de este campo en la producción estatal.


Autor: Araujo Valeska | Análisis Estadístico — Kansas Hydrocarbon Leases Dataset