Se carga el conjunto de datos de arrendamientos de hidrocarburos del estado de Kansas, EE.UU., registrados por el Kansas Geological Survey.
ruta_archivo <- "C:/Users/thann/OneDrive/Escritorio/ESTADISTICA.LOL/datos_vale.csv"
datos_vale <- read_delim(
ruta_archivo,
delim = ";",
show_col_types = FALSE
)
cat("Base de datos cargada correctamente.\n")
## Base de datos cargada correctamente.
cat("Total de registros (filas):", nrow(datos_vale), "\n")
## Total de registros (filas): 104173
La variable FIELD_NAME (Nombre del Campo) identifica el campo petrolífero al que pertenece cada arrendamiento. Se eliminan los registros sin valor (NA o vacíos). Para el análisis se presentan los Top 10 campos más frecuentes.
x_raw <- datos_vale %>%
filter(!is.na(FIELD_NAME), FIELD_NAME != "") %>%
pull(FIELD_NAME)
n <- length(x_raw)
cat("Observaciones válidas:", n, "\n")
## Observaciones válidas: 84454
cat("Campos distintos:", length(unique(x_raw)), "\n")
## Campos distintos: 7122
| Criterio | Clasificación |
|---|---|
| Nombre | Nombre del Campo |
| Nombre técnico | FIELD_NAME |
| Tipo | Cualitativa |
| Subtipo | Nominal policotómica |
| Dominio | Nombres de campos petrolíferos registrados en Kansas |
| Rango | Múltiples categorías |
| Unidad | No aplica |
| Escala | Nominal |
| Fuente | Kansas Geological Survey – Kansas, EE.UU. |
Justificación: La variable registra nombres geográficos de campos sin orden natural entre ellos. Corresponde a una variable cualitativa nominal policotómica. Se analiza a través de la distribución de frecuencias de los 10 campos más representativos.
Se presentan los Top 10 campos con mayor número de arrendamientos registrados en Kansas, EE.UU. (n total = 84,454).
freq_abs <- sort(table(x_raw), decreasing = TRUE)
top10 <- head(freq_abs, 10)
categorias <- names(top10)
ni <- as.integer(top10)
hi_pct <- ni / n * 100
hi_frac <- ni / n
tabla_df <- data.frame(
Categoria = categorias,
ni = ni,
hi_pct = sprintf("%.2f%%", hi_pct),
hi_frac = sprintf("%.4f", hi_frac),
stringsAsFactors = FALSE
)
total_row <- data.frame(
Categoria = "**TOTAL (muestra completa)**",
ni = n,
hi_pct = "100.00%",
hi_frac = "1.0000",
stringsAsFactors = FALSE
)
tabla_df$ni <- as.character(tabla_df$ni)
total_row$ni <- as.character(total_row$ni)
tabla_final <- bind_rows(tabla_df, total_row)
kable(
tabla_final,
caption = paste0(
"Cuadro N°1: Distribución de Frecuencias — Top 10 Campos Petrolíferos, ",
"arrendamientos de hidrocarburos del estado de Kansas, EE.UU., ",
"período histórico disponible (n total = ", format(n, big.mark = ","), " registros válidos)."
),
col.names = c("Nombre del Campo", "Frecuencia (nᵢ)", "Porcentaje (hᵢ %)", "Porcentaje en fracción (hᵢ)"),
align = c("l", "c", "c", "c"),
escape = FALSE
) %>%
kable_styling(
bootstrap_options = c("striped", "hover", "condensed", "bordered"),
full_width = TRUE, font_size = 12
) %>%
row_spec(0, bold = TRUE, background = "#d3d3d3", color = "black") %>%
row_spec(nrow(tabla_final), bold = TRUE, background = "#a9a9a9", color = "black")
| Nombre del Campo | Frecuencia (nᵢ) | Porcentaje (hᵢ %) | Porcentaje en fracción (hᵢ) |
|---|---|---|---|
| HUGOTON GAS AREA | 8113 | 9.61% | 0.0961 |
| CHEROKEE BASIN COAL AREA | 4549 | 5.39% | 0.0539 |
| PANOMA GAS AREA | 2703 | 3.20% | 0.0320 |
| Spivey-Grabs-Basil | 1613 | 1.91% | 0.0191 |
| UNKNOWN | 1301 | 1.54% | 0.0154 |
| Chase-Silica | 1224 | 1.45% | 0.0145 |
| PAOLA-RANTOUL | 994 | 1.18% | 0.0118 |
| HUMBOLDT-CHANUTE | 799 | 0.95% | 0.0095 |
| TRAPP | 741 | 0.88% | 0.0088 |
| Aetna Gas Area | 707 | 0.84% | 0.0084 |
| TOTAL (muestra completa) | 84454 | 100.00% | 1.0000 |
top10_ord <- sort(head(table(x_raw), 10), decreasing = TRUE)
colores_g <- gray(seq(0.30, 0.80, length.out = length(top10_ord)))
par(mar = c(10, 6, 7, 2))
bp <- barplot(
as.numeric(top10_ord),
names.arg = names(top10_ord),
col = colores_g,
border = "black",
ylim = c(0, max(as.numeric(top10_ord)) * 1.18),
xlab = "", ylab = "", main = "", las = 2, cex.names = 0.7
)
text(bp, as.numeric(top10_ord) + max(as.numeric(top10_ord)) * 0.02,
labels = format(as.numeric(top10_ord), big.mark = ","), cex = 0.8)
mtext("Frecuencia Absoluta (nᵢ)", side = 2, line = 4.5, cex = 1)
mtext("Nombre del Campo", side = 1, line = 8.5, cex = 1)
mtext(
"Gráfica N°1: Diagrama de Barras — Frecuencia Absoluta\nTop 10 Campos Petrolíferos, Kansas, EE.UU.",
side = 3, line = 3.5, cex = 0.9, font = 2
)
pct_ord <- sort(head(table(x_raw), 10) / n * 100, decreasing = TRUE)
par(mar = c(10, 6, 7, 2))
bp2 <- barplot(
as.numeric(pct_ord),
names.arg = names(pct_ord),
col = colores_g,
border = "black",
ylim = c(0, max(as.numeric(pct_ord)) * 1.18),
xlab = "", ylab = "", main = "", las = 2, cex.names = 0.7
)
text(bp2, as.numeric(pct_ord) + max(as.numeric(pct_ord)) * 0.02,
labels = paste0(round(as.numeric(pct_ord), 2), "%"), cex = 0.8)
mtext("Porcentaje (hᵢ %)", side = 2, line = 4.5, cex = 1)
mtext("Nombre del Campo", side = 1, line = 8.5, cex = 1)
mtext(
"Gráfica N°2: Diagrama de Barras — Porcentaje\nTop 10 Campos Petrolíferos, Kansas, EE.UU.",
side = 3, line = 3.5, cex = 0.9, font = 2
)
pct_circ <- head(table(x_raw), 10) / n * 100
grises_c <- gray(seq(0.15, 0.85, length.out = length(pct_circ)))
par(mar = c(2, 2, 6, 12), xpd = TRUE)
pie(
as.numeric(pct_circ),
labels = paste0(round(as.numeric(pct_circ), 2), "%"),
col = grises_c,
border = "black",
main = "",
radius = 1,
cex = 0.85
)
legend(
x = 1.2,
y = 1,
legend = names(pct_circ),
fill = grises_c,
cex = 0.7,
title = "Campo",
bty = "n"
)
mtext(
"Gráfica N°3: Diagrama Circular — Distribución Porcentual\nTop 10 Campos Petrolíferos, Kansas, EE.UU.",
side = 3, line = 3.5, cex = 0.9, font = 2
)
moda_val <- names(sort(table(x_raw), decreasing = TRUE))[1]
moda_n <- max(table(x_raw))
indicadores_h <- data.frame(
`Tamaño muestral (n)` = format(n, big.mark = ","),
`Número de campos únicos` = as.character(length(unique(x_raw))),
`Campo modal` = moda_val,
`Frecuencia del campo modal` = format(moda_n, big.mark = ","),
`Porcentaje del campo modal` = paste0(round(moda_n / n * 100, 2), "%"),
check.names = FALSE,
stringsAsFactors = FALSE
)
kable(
indicadores_h,
caption = "Cuadro N°2: Indicadores de la Variable Cualitativa Nominal Nombre del Campo, arrendamientos de hidrocarburos, Kansas, EE.UU.",
align = "c",
escape = FALSE
) %>%
kable_styling(
bootstrap_options = c("striped", "hover", "condensed", "bordered"),
full_width = TRUE, font_size = 12
) %>%
row_spec(0, bold = TRUE, background = "#d3d3d3", color = "black")
| Tamaño muestral (n) | Número de campos únicos | Campo modal | Frecuencia del campo modal | Porcentaje del campo modal |
|---|---|---|---|---|
| 84,454 | 7122 | HUGOTON GAS AREA | 8,113 | 9.61% |
El análisis de la variable Nombre del Campo revela la distribución geográfica de los arrendamientos de hidrocarburos en Kansas. Con 7122 campos distintos registrados, el campo modal es “HUGOTON GAS AREA”, concentrando el 9.61% de los registros y reflejando la importancia histórica de este campo en la producción estatal.
Autor: Araujo Valeska | Análisis Estadístico — Kansas Hydrocarbon Leases Dataset