Produce Petróleo (inferencial)

1. Configuración y Carga de Datos

Se carga el conjunto de datos de arrendamientos de hidrocarburos del estado de Kansas, EE.UU., registrados por el Kansas Geological Survey.

ruta_archivo <- "C:/Users/thann/OneDrive/Escritorio/ESTADISTICA.LOL/datos_vale.csv"

datos_vale <- read_delim(
  ruta_archivo,
  delim = ";",
  show_col_types = FALSE
)

cat("Base de datos cargada correctamente.\n")

## Base de datos cargada correctamente.

cat("Total de registros (filas):", nrow(datos_vale), "\n")

## Total de registros (filas): 104173

ruta_archivo <- "C:/Users/thann/OneDrive/Escritorio/ESTADISTICA.LOL/datos_vale.csv"

datos_vale <- read_delim(
  ruta_archivo,
  delim = ";",
  show_col_types = FALSE
)

cat("Base de datos cargada correctamente.\n")

## Base de datos cargada correctamente.

cat("Total de registros (filas):", nrow(datos_vale), "\n")

## Total de registros (filas): 104173

2. Extracción y Limpieza de la Variable

La variable PRODUCES_OIL (Produce Petróleo) indica si el arrendamiento registra producción de petróleo. Se filtran únicamente los valores válidos: Yes (Sí) y No.

x_raw <- datos_vale %>%
  filter(PRODUCES_OIL %in% c("Yes", "No")) %>%
  mutate(
    produce_petroleo = case_when(
      PRODUCES_OIL == "Yes" ~ "Sí",
      PRODUCES_OIL == "No"  ~ "No"
    )
  ) %>%
  pull(produce_petroleo)

n <- length(x_raw)

cat("Observaciones válidas:", n, "\n")

## Observaciones válidas: 95960

cat("Valores únicos:", length(unique(x_raw)), "\n")

## Valores únicos: 2

x_raw <- datos_vale %>%
  filter(PRODUCES_OIL %in% c("Yes", "No")) %>%
  mutate(
    produce_petroleo = case_when(
      PRODUCES_OIL == "Yes" ~ "Sí",
      PRODUCES_OIL == "No"  ~ "No"
    )
  ) %>%
  pull(produce_petroleo)

n <- length(x_raw)

cat("Observaciones válidas:", n, "\n")

## Observaciones válidas: 95960

cat("Valores únicos:", length(unique(x_raw)), "\n")

## Valores únicos: 2

3. Identificación de la Variable

Criterio	Clasificación
Nombre	Produce Petróleo
Nombre técnico	PRODUCES_OIL
Tipo	Cualitativa
Subtipo	Nominal dicotómica
Dominio	{Sí, No}
Rango	2 categorías
Unidad	No aplica
Escala	Nominal
Fuente	Kansas Geological Survey – Kansas, EE.UU.

Justificación: La variable toma únicamente dos valores posibles (Sí/No), sin orden natural entre ellos. Corresponde a una variable cualitativa nominal dicotómica. Se construye la tabla de distribución de frecuencias con frecuencia absoluta, porcentual y en fracción.

4. Tabla de Distribución de Frecuencias

Se construye la tabla de distribución de frecuencias de la variable cualitativa nominal Produce Petróleo, correspondiente a los arrendamientos de hidrocarburos registrados en Kansas, EE.UU., durante el período histórico disponible (n = 95,960).

freq_abs  <- table(x_raw)
categorias <- names(freq_abs)
ni        <- as.integer(freq_abs)
hi_pct    <- ni / n * 100
hi_frac   <- ni / n

tabla_df <- data.frame(
  Categoria  = categorias,
  ni         = ni,
  hi_pct     = sprintf("%.2f%%", hi_pct),
  hi_frac    = sprintf("%.4f",   hi_frac),
  stringsAsFactors = FALSE
)

total_row <- data.frame(
  Categoria = "**TOTAL**",
  ni        = n,
  hi_pct    = "100.00%",
  hi_frac   = "1.0000",
  stringsAsFactors = FALSE
)

tabla_df$ni <- as.character(tabla_df$ni)
total_row$ni <- as.character(total_row$ni)

tabla_final <- bind_rows(tabla_df, total_row)

kable(
  tabla_final,
  caption = paste0(
    "Cuadro N°1: Distribución de Frecuencias de la Variable Cualitativa Nominal Produce Petróleo, ",
    "registrada en los arrendamientos de hidrocarburos del estado de Kansas, EE.UU., ",
    "período histórico disponible (n = ", format(n, big.mark = ","), " registros válidos)."
  ),
  col.names = c("Produce Petróleo", "Frecuencia (nᵢ)", "Porcentaje (hᵢ %)", "Porcentaje en fracción (hᵢ)"),
  align     = c("l", "c", "c", "c"),
  escape    = FALSE
) %>%
  kable_styling(
    bootstrap_options = c("striped", "hover", "condensed", "bordered"),
    full_width = TRUE, font_size = 12
  ) %>%
  row_spec(0, bold = TRUE, background = "#d3d3d3", color = "black") %>%
  row_spec(nrow(tabla_final), bold = TRUE, background = "#a9a9a9", color = "black")

Cuadro N°1: Distribución de Frecuencias de la Variable Cualitativa Nominal Produce Petróleo, registrada en los arrendamientos de hidrocarburos del estado de Kansas, EE.UU., período histórico disponible (n = 95,960 registros válidos).
Produce Petróleo	Frecuencia (nᵢ)	Porcentaje (hᵢ %)	Porcentaje en fracción (hᵢ)
No	39216	40.87%	0.4087
Sí	56744	59.13%	0.5913
TOTAL	95960	100.00%	1.0000

5. Tabla de Indicadores

moda_val <- names(sort(table(x_raw), decreasing = TRUE))[1]
moda_n   <- max(table(x_raw))

indicadores <- data.frame(
  Indicador = c(
    "Tamaño muestral (n)",
    "Número de categorías",
    "Moda",
    "Frecuencia de la moda",
    "Porcentaje de la moda"
  ),
  Valor = c(
    format(n, big.mark = ","),
    length(unique(x_raw)),
    moda_val,
    format(moda_n, big.mark = ","),
    paste0(round(moda_n / n * 100, 2), "%")
  ),
  stringsAsFactors = FALSE
)

kable(
  indicadores,
  caption = "Cuadro N°2: Indicadores de la Variable Cualitativa Nominal Produce Petróleo, arrendamientos de hidrocarburos, Kansas, EE.UU.",
  col.names = c("Indicador", "Valor"),
  align = c("l", "c")
) %>%
  kable_styling(
    bootstrap_options = c("striped", "hover", "condensed", "bordered"),
    full_width = FALSE, font_size = 12
  ) %>%
  row_spec(0, bold = TRUE, background = "#d3d3d3", color = "black")

Cuadro N°2: Indicadores de la Variable Cualitativa Nominal Produce Petróleo, arrendamientos de hidrocarburos, Kansas, EE.UU.
Indicador	Valor
Tamaño muestral (n)	95,960
Número de categorías	2
Moda	Sí
Frecuencia de la moda	56,744
Porcentaje de la moda	59.13%

6. Representación Gráfica

6.1 Gráfica N°1 — Diagrama de Barras (Frecuencia Absoluta)

freq_ord  <- sort(table(x_raw), decreasing = TRUE)
colores_g <- gray(seq(0.35, 0.75, length.out = length(freq_ord)))

par(mar = c(5, 6, 7, 2))
bp <- barplot(
  as.numeric(freq_ord),
  names.arg = names(freq_ord),
  col       = colores_g,
  border    = "black",
  ylim      = c(0, max(as.numeric(freq_ord)) * 1.18),
  xlab      = "", ylab = "", main = "", las = 1
)
text(bp, as.numeric(freq_ord) + max(as.numeric(freq_ord)) * 0.02,
     labels = format(as.numeric(freq_ord), big.mark = ","), cex = 0.9)
mtext("Frecuencia Absoluta (nᵢ)", side = 2, line = 4.5, cex = 1)
mtext("Produce Petróleo",         side = 1, line = 3,   cex = 1)
mtext(
  "Gráfica N°1: Diagrama de Barras — Frecuencia Absoluta\nde la Variable Produce Petróleo, Kansas, EE.UU.",
  side = 3, line = 3.5, cex = 0.9, font = 2
)

6.2 Gráfica N°2 — Diagrama de Barras (Porcentaje)

pct_ord <- sort(table(x_raw) / n * 100, decreasing = TRUE)

par(mar = c(5, 6, 7, 2))
bp2 <- barplot(
  as.numeric(pct_ord),
  names.arg = names(pct_ord),
  col       = colores_g,
  border    = "black",
  ylim      = c(0, max(as.numeric(pct_ord)) * 1.18),
  xlab      = "", ylab = "", main = "", las = 1
)
text(bp2, as.numeric(pct_ord) + max(as.numeric(pct_ord)) * 0.02,
     labels = paste0(round(as.numeric(pct_ord), 2), "%"), cex = 0.9)
mtext("Porcentaje (hᵢ %)", side = 2, line = 4.5, cex = 1)
mtext("Produce Petróleo",   side = 1, line = 3,   cex = 1)
mtext(
  "Gráfica N°2: Diagrama de Barras — Porcentaje\nde la Variable Produce Petróleo, Kansas, EE.UU.",
  side = 3, line = 3.5, cex = 0.9, font = 2
)

6.3 Gráfica N°3 — Diagrama Circular (Distribución Porcentual)

pct_circ  <- table(x_raw) / n * 100
grises_c  <- gray(c(0.35, 0.72))

par(mar = c(2, 2, 6, 2))
pie(
  as.numeric(pct_circ),
  labels  = paste0(names(pct_circ), "\n", round(as.numeric(pct_circ), 2), "%"),
  col     = grises_c,
  border  = "black",
  main    = ""
)
mtext(
  "Gráfica N°3: Diagrama Circular — Distribución Porcentual\nde la Variable Produce Petróleo, Kansas, EE.UU.",
  side = 3, line = 3.5, cex = 0.9, font = 2
)

7. Interpretación

La variable Produce Petróleo indica si cada arrendamiento registrado en Kansas genera producción de petróleo. Con base en los 95,960 registros válidos analizados se pueden extraer las siguientes conclusiones:

Distribución general. La categoría predominante es “Sí” (produce petróleo), con 56,744 arrendamientos (59.13% del total), mientras que 39,216 arrendamientos (40.87%) no registran producción de petróleo.

Moda. La categoría modal es “Sí”, lo que evidencia que la mayoría de los arrendamientos de hidrocarburos en Kansas corresponde a explotaciones con producción activa de petróleo.

Interpretación geoeconómica. El hecho de que más de la mitad de los arrendamientos registren producción petrolera refleja la relevancia histórica de Kansas como estado productor de petróleo en los Estados Unidos. La proporción de arrendamientos sin producción activa puede corresponder a campos en abandono, exploración o reconversión a producción de gas.

Autor: Araujo Valeska | Análisis Estadístico — Kansas Hydrocarbon Leases Dataset