1. Configuración y Carga de Datos

Se carga el conjunto de datos de arrendamientos de hidrocarburos del estado de Kansas, EE.UU., registrados por el Kansas Geological Survey.

ruta_archivo <- "C:/Users/thann/OneDrive/Escritorio/ESTADISTICA.LOL/datos_vale.csv"

datos_vale <- read_delim(
  ruta_archivo,
  delim = ";",
  show_col_types = FALSE
)

cat("Base de datos cargada correctamente.\n")
## Base de datos cargada correctamente.
cat("Total de registros (filas):", nrow(datos_vale), "\n")
## Total de registros (filas): 104173

2. Extracción y Limpieza de la Variable

La variable PRODUCES_GAS (Produce Gas) indica si el arrendamiento registra producción de gas. Se filtran únicamente los valores válidos: Yes (Sí) y No.

x_raw <- datos_vale %>%
  filter(PRODUCES_GAS %in% c("Yes", "No")) %>%
  mutate(
    produce_gas = case_when(
      PRODUCES_GAS == "Yes" ~ "Sí",
      PRODUCES_GAS == "No"  ~ "No"
    )
  ) %>%
  pull(produce_gas)

n <- length(x_raw)

cat("Observaciones válidas:", n, "\n")
## Observaciones válidas: 95958
cat("Valores únicos:", length(unique(x_raw)), "\n")
## Valores únicos: 2

3. Identificación de la Variable

Criterio Clasificación
Nombre Produce Gas
Nombre técnico PRODUCES_GAS
Tipo Cualitativa
Subtipo Nominal dicotómica
Dominio {Sí, No}
Rango 2 categorías
Unidad No aplica
Escala Nominal
Fuente Kansas Geological Survey – Kansas, EE.UU.

Justificación: La variable toma únicamente dos valores posibles (Sí/No), sin orden natural entre ellos. Corresponde a una variable cualitativa nominal dicotómica. Se construye la tabla de distribución de frecuencias con frecuencia absoluta, porcentual y en fracción.


4. Tabla de Distribución de Frecuencias

Se construye la tabla de distribución de frecuencias de la variable cualitativa nominal Produce Gas, correspondiente a los arrendamientos de hidrocarburos registrados en Kansas, EE.UU., durante el período histórico disponible (n = 95,958).

freq_abs  <- table(x_raw)
categorias <- names(freq_abs)
ni        <- as.integer(freq_abs)
hi_pct    <- ni / n * 100
hi_frac   <- ni / n

tabla_df <- data.frame(
  Categoria  = categorias,
  ni         = ni,
  hi_pct     = sprintf("%.2f%%", hi_pct),
  hi_frac    = sprintf("%.4f",   hi_frac),
  stringsAsFactors = FALSE
)

total_row <- data.frame(
  Categoria = "**TOTAL**",
  ni        = n,
  hi_pct    = "100.00%",
  hi_frac   = "1.0000",
  stringsAsFactors = FALSE
)

tabla_df$ni <- as.character(tabla_df$ni)
total_row$ni <- as.character(total_row$ni)

tabla_final <- bind_rows(tabla_df, total_row)

kable(
  tabla_final,
  caption = paste0(
    "Cuadro N°1: Distribución de Frecuencias de la Variable Cualitativa Nominal Produce Gas, ",
    "registrada en los arrendamientos de hidrocarburos del estado de Kansas, EE.UU., ",
    "período histórico disponible (n = ", format(n, big.mark = ","), " registros válidos)."
  ),
  col.names = c("Produce Gas", "Frecuencia (nᵢ)", "Porcentaje (hᵢ %)", "Porcentaje en fracción (hᵢ)"),
  align     = c("l", "c", "c", "c"),
  escape    = FALSE
) %>%
  kable_styling(
    bootstrap_options = c("striped", "hover", "condensed", "bordered"),
    full_width = TRUE, font_size = 12
  ) %>%
  row_spec(0, bold = TRUE, background = "#d3d3d3", color = "black") %>%
  row_spec(nrow(tabla_final), bold = TRUE, background = "#a9a9a9", color = "black")
Cuadro N°1: Distribución de Frecuencias de la Variable Cualitativa Nominal Produce Gas, registrada en los arrendamientos de hidrocarburos del estado de Kansas, EE.UU., período histórico disponible (n = 95,958 registros válidos).
Produce Gas Frecuencia (nᵢ) Porcentaje (hᵢ %) Porcentaje en fracción (hᵢ)
No 59056 61.54% 0.6154
36902 38.46% 0.3846
TOTAL 95958 100.00% 1.0000

5. Representación Gráfica

5.1 Gráfica N°1 — Diagrama de Barras (Frecuencia Absoluta)

freq_ord  <- sort(table(x_raw), decreasing = TRUE)
colores_g <- gray(seq(0.35, 0.75, length.out = length(freq_ord)))

par(mar = c(5, 6, 7, 2))
bp <- barplot(
  as.numeric(freq_ord),
  names.arg = names(freq_ord),
  col       = colores_g,
  border    = "black",
  ylim      = c(0, max(as.numeric(freq_ord)) * 1.18),
  xlab      = "", ylab = "", main = "", las = 1
)
text(bp, as.numeric(freq_ord) + max(as.numeric(freq_ord)) * 0.02,
     labels = format(as.numeric(freq_ord), big.mark = ","), cex = 0.9)
mtext("Frecuencia Absoluta (nᵢ)", side = 2, line = 4.5, cex = 1)
mtext("Produce Gas",              side = 1, line = 3,   cex = 1)
mtext(
  "Gráfica N°1: Diagrama de Barras — Frecuencia Absoluta\nde la Variable Produce Gas, Kansas, EE.UU.",
  side = 3, line = 3.5, cex = 0.9, font = 2
)

5.2 Gráfica N°2 — Diagrama de Barras (Porcentaje)

pct_ord <- sort(table(x_raw) / n * 100, decreasing = TRUE)

par(mar = c(5, 6, 7, 2))
bp2 <- barplot(
  as.numeric(pct_ord),
  names.arg = names(pct_ord),
  col       = colores_g,
  border    = "black",
  ylim      = c(0, max(as.numeric(pct_ord)) * 1.18),
  xlab      = "", ylab = "", main = "", las = 1
)
text(bp2, as.numeric(pct_ord) + max(as.numeric(pct_ord)) * 0.02,
     labels = paste0(round(as.numeric(pct_ord), 2), "%"), cex = 0.9)
mtext("Porcentaje (hᵢ %)", side = 2, line = 4.5, cex = 1)
mtext("Produce Gas",        side = 1, line = 3,   cex = 1)
mtext(
  "Gráfica N°2: Diagrama de Barras — Porcentaje\nde la Variable Produce Gas, Kansas, EE.UU.",
  side = 3, line = 3.5, cex = 0.9, font = 2
)

5.3 Gráfica N°3 — Diagrama Circular (Distribución Porcentual)

pct_circ  <- table(x_raw) / n * 100
grises_c  <- gray(c(0.35, 0.72))

par(mar = c(2, 2, 6, 2))
pie(
  as.numeric(pct_circ),
  labels  = paste0(names(pct_circ), "\n", round(as.numeric(pct_circ), 2), "%"),
  col     = grises_c,
  border  = "black",
  main    = ""
)
mtext(
  "Gráfica N°3: Diagrama Circular — Distribución Porcentual\nde la Variable Produce Gas, Kansas, EE.UU.",
  side = 3, line = 3.5, cex = 0.9, font = 2
)


6. Tabla de Indicadores

moda_val <- names(sort(table(x_raw), decreasing = TRUE))[1]
moda_n   <- max(table(x_raw))

indicadores_h <- data.frame(
  `Tamaño muestral (n)`   = format(n, big.mark = ","),
  `Número de categorías`  = as.character(length(unique(x_raw))),
  `Moda`                  = moda_val,
  `Frecuencia de la moda` = format(moda_n, big.mark = ","),
  `Porcentaje de la moda` = paste0(round(moda_n / n * 100, 2), "%"),
  check.names = FALSE,
  stringsAsFactors = FALSE
)

kable(
  indicadores_h,
  caption = "Cuadro N°2: Indicadores de la Variable Cualitativa Nominal Produce Gas, arrendamientos de hidrocarburos, Kansas, EE.UU.",
  align = "c",
  escape = FALSE
) %>%
  kable_styling(
    bootstrap_options = c("striped", "hover", "condensed", "bordered"),
    full_width = TRUE, font_size = 12
  ) %>%
  row_spec(0, bold = TRUE, background = "#d3d3d3", color = "black")
Cuadro N°2: Indicadores de la Variable Cualitativa Nominal Produce Gas, arrendamientos de hidrocarburos, Kansas, EE.UU.
Tamaño muestral (n) Número de categorías Moda Frecuencia de la moda Porcentaje de la moda
95,958 2 No 59,056 61.54%

7. Conclusión

El análisis estadístico de la variable Produce Gas muestra el comportamiento de los arrendamientos de hidrocarburos en Kansas respecto a la producción de gas. La categoría modal es “No”, lo que evidencia la tendencia predominante en los registros de arrendamientos del estado de Kansas.


Autor: Araujo Valeska | Análisis Estadístico — Kansas Hydrocarbon Leases Dataset