1. Configuración y Carga de Datos

Se carga el conjunto de datos de arrendamientos de hidrocarburos del estado de Kansas, EE.UU., registrados por el Kansas Geological Survey.

ruta_archivo <- "C:/Users/thann/OneDrive/Escritorio/ESTADISTICA.LOL/daataset/oil_and_gas_leases_data.csv.csv"

datos_vale <- read_csv(
  ruta_archivo,
  show_col_types = FALSE
)

cat("Base de datos cargada correctamente.\n")
## Base de datos cargada correctamente.
cat("Total de registros (filas):", nrow(datos_vale), "\n")
## Total de registros (filas): 47757

2. Extracción y Limpieza de la Variable

La variable LONGITUDE_LATITUDE_SOURCE (Fuente de Coordenadas) identifica el método o sistema utilizado para registrar las coordenadas geográficas de cada arrendamiento. Se eliminan los registros sin valor (NA o vacíos).

x_raw <- datos_vale %>%
  filter(!is.na(LONGITUDE_LATITUDE_SOURCE), LONGITUDE_LATITUDE_SOURCE != "") %>%
  pull(LONGITUDE_LATITUDE_SOURCE)

n <- length(x_raw)

cat("Observaciones válidas:", n, "\n")
## Observaciones válidas: 47757
cat("Fuentes distintas:", length(unique(x_raw)), "\n")
## Fuentes distintas: 2

3. Identificación de la Variable

Criterio Clasificación
Nombre Fuente de Coordenadas
Nombre técnico LONGITUDE_LATITUDE_SOURCE
Tipo Cualitativa
Subtipo Nominal policotómica
Dominio Métodos/sistemas de georreferenciación registrados
Rango Múltiples categorías
Unidad No aplica
Escala Nominal
Fuente Kansas Geological Survey – Kansas, EE.UU.

Justificación: La variable identifica el origen de los datos de localización sin establecer un orden jerárquico entre las fuentes. Corresponde a una variable cualitativa nominal policotómica. Se construye la tabla de distribución de frecuencias con frecuencia absoluta, porcentual y en fracción.


4. Tabla de Distribución de Frecuencias

Se construye la tabla de distribución de frecuencias de la variable Fuente de Coordenadas, correspondiente a los arrendamientos de hidrocarburos registrados en Kansas, EE.UU. (n = 47,757).

freq_abs   <- sort(table(x_raw), decreasing = TRUE)
categorias <- names(freq_abs)
ni         <- as.integer(freq_abs)
hi_pct     <- ni / n * 100
hi_frac    <- ni / n

tabla_df <- data.frame(
  Categoria = categorias,
  ni        = ni,
  hi_pct    = sprintf("%.2f%%", hi_pct),
  hi_frac   = sprintf("%.4f",   hi_frac),
  stringsAsFactors = FALSE
)

total_row <- data.frame(
  Categoria = "**TOTAL**",
  ni        = n,
  hi_pct    = "100.00%",
  hi_frac   = "1.0000",
  stringsAsFactors = FALSE
)

tabla_df$ni  <- as.character(tabla_df$ni)
total_row$ni <- as.character(total_row$ni)

tabla_final <- bind_rows(tabla_df, total_row)

kable(
  tabla_final,
  caption = paste0(
    "Cuadro N°1: Distribución de Frecuencias de la Variable Cualitativa Nominal Fuente de Coordenadas, ",
    "registrada en los arrendamientos de hidrocarburos del estado de Kansas, EE.UU., ",
    "período histórico disponible (n = ", format(n, big.mark = ","), " registros válidos)."
  ),
  col.names = c("Fuente de Coordenadas", "Frecuencia (nᵢ)", "Porcentaje (hᵢ %)", "Porcentaje en fracción (hᵢ)"),
  align     = c("l", "c", "c", "c"),
  escape    = FALSE
) %>%
  kable_styling(
    bootstrap_options = c("striped", "hover", "condensed", "bordered"),
    full_width = TRUE, font_size = 12
  ) %>%
  row_spec(0, bold = TRUE, background = "#d3d3d3", color = "black") %>%
  row_spec(nrow(tabla_final), bold = TRUE, background = "#a9a9a9", color = "black")
Cuadro N°1: Distribución de Frecuencias de la Variable Cualitativa Nominal Fuente de Coordenadas, registrada en los arrendamientos de hidrocarburos del estado de Kansas, EE.UU., período histórico disponible (n = 47,757 registros válidos).
Fuente de Coordenadas Frecuencia (nᵢ) Porcentaje (hᵢ %) Porcentaje en fracción (hᵢ)
CENTER_OF_SECTION 26553 55.60% 0.5560
QUARTER_CALLS 21204 44.40% 0.4440
TOTAL 47757 100.00% 1.0000

5. Representación Gráfica

5.1 Gráfica N°1 — Diagrama de Barras (Frecuencia Absoluta)

freq_ord  <- sort(table(x_raw), decreasing = TRUE)
colores_g <- gray(seq(0.30, 0.80, length.out = length(freq_ord)))

par(mar = c(9, 6, 7, 2))
bp <- barplot(
  as.numeric(freq_ord),
  names.arg = names(freq_ord),
  col       = colores_g,
  border    = "black",
  ylim      = c(0, max(as.numeric(freq_ord)) * 1.18),
  xlab      = "", ylab = "", main = "", las = 2, cex.names = 0.75
)
text(bp, as.numeric(freq_ord) + max(as.numeric(freq_ord)) * 0.02,
     labels = format(as.numeric(freq_ord), big.mark = ","), cex = 0.85)
mtext("Frecuencia Absoluta (nᵢ)", side = 2, line = 4.5, cex = 1)
mtext("Fuente de Coordenadas",     side = 1, line = 7.5, cex = 1)
mtext(
  "Gráfica N°1: Diagrama de Barras — Frecuencia Absoluta\nde la Variable Fuente de Coordenadas, Kansas, EE.UU.",
  side = 3, line = 3.5, cex = 0.9, font = 2
)

5.2 Gráfica N°2 — Diagrama de Barras (Porcentaje)

pct_ord <- sort(table(x_raw) / n * 100, decreasing = TRUE)

par(mar = c(9, 6, 7, 2))
bp2 <- barplot(
  as.numeric(pct_ord),
  names.arg = names(pct_ord),
  col       = colores_g,
  border    = "black",
  ylim      = c(0, max(as.numeric(pct_ord)) * 1.18),
  xlab      = "", ylab = "", main = "", las = 2, cex.names = 0.75
)
text(bp2, as.numeric(pct_ord) + max(as.numeric(pct_ord)) * 0.02,
     labels = paste0(round(as.numeric(pct_ord), 2), "%"), cex = 0.85)
mtext("Porcentaje (hᵢ %)",    side = 2, line = 4.5, cex = 1)
mtext("Fuente de Coordenadas", side = 1, line = 7.5, cex = 1)
mtext(
  "Gráfica N°2: Diagrama de Barras — Porcentaje\nde la Variable Fuente de Coordenadas, Kansas, EE.UU.",
  side = 3, line = 3.5, cex = 0.9, font = 2
)

5.3 Gráfica N°3 — Diagrama Circular (Distribución Porcentual)

pct_circ <- table(x_raw) / n * 100
grises_c <- gray(seq(0.15, 0.85, length.out = length(pct_circ)))

par(mar = c(2, 2, 6, 12), xpd = TRUE)
pie(
  as.numeric(pct_circ),
  labels  = paste0(round(as.numeric(pct_circ), 2), "%"),
  col     = grises_c,
  border  = "black",
  main    = "",
  radius  = 1,
  cex     = 0.85
)
legend(
  x      = 1.2,
  y      = 1,
  legend = names(pct_circ),
  fill   = grises_c,
  cex    = 0.75,
  title  = "Fuente",
  bty    = "n"
)
mtext(
  "Gráfica N°3: Diagrama Circular — Distribución Porcentual\nde la Variable Fuente de Coordenadas, Kansas, EE.UU.",
  side = 3, line = 3.5, cex = 0.9, font = 2
)


6. Tabla de Indicadores

moda_val <- names(sort(table(x_raw), decreasing = TRUE))[1]
moda_n   <- max(table(x_raw))

indicadores_h <- data.frame(
  `Tamaño muestral (n)`   = format(n, big.mark = ","),
  `Número de categorías`  = as.character(length(unique(x_raw))),
  `Moda`                  = moda_val,
  `Frecuencia de la moda` = format(moda_n, big.mark = ","),
  `Porcentaje de la moda` = paste0(round(moda_n / n * 100, 2), "%"),
  check.names = FALSE,
  stringsAsFactors = FALSE
)

kable(
  indicadores_h,
  caption = "Cuadro N°2: Indicadores de la Variable Cualitativa Nominal Fuente de Coordenadas, arrendamientos de hidrocarburos, Kansas, EE.UU.",
  align = "c",
  escape = FALSE
) %>%
  kable_styling(
    bootstrap_options = c("striped", "hover", "condensed", "bordered"),
    full_width = TRUE, font_size = 12
  ) %>%
  row_spec(0, bold = TRUE, background = "#d3d3d3", color = "black")
Cuadro N°2: Indicadores de la Variable Cualitativa Nominal Fuente de Coordenadas, arrendamientos de hidrocarburos, Kansas, EE.UU.
Tamaño muestral (n) Número de categorías Moda Frecuencia de la moda Porcentaje de la moda
47,757 2 CENTER_OF_SECTION 26,553 55.6%

7. Conclusión

El análisis de la variable Fuente de Coordenadas revela los sistemas de georreferenciación utilizados para registrar la ubicación de los arrendamientos en Kansas. Con 2 fuentes distintas identificadas, la fuente modal es “CENTER_OF_SECTION”, que representa el 55.6% de los registros, evidenciando el método de localización predominante en la base de datos.


Autor: Araujo Valeska | Análisis Estadístico — Kansas Hydrocarbon Leases Dataset