2026-06-26Se carga el conjunto de datos de arrendamientos de hidrocarburos del estado de Kansas, EE.UU., registrados por el Kansas Geological Survey.
ruta_archivo <- "C:/Users/thann/OneDrive/Escritorio/ESTADISTICA.LOL/daataset/oil_and_gas_leases_data.csv.csv"
datos_vale <- read_csv(
ruta_archivo,
show_col_types = FALSE
)
cat("Base de datos cargada correctamente.\n")
## Base de datos cargada correctamente.
cat("Total de registros (filas):", nrow(datos_vale), "\n")
## Total de registros (filas): 47757
La variable LONGITUDE_LATITUDE_SOURCE (Fuente de Coordenadas) identifica el método o sistema utilizado para registrar las coordenadas geográficas de cada arrendamiento. Se eliminan los registros sin valor (NA o vacíos).
x_raw <- datos_vale %>%
filter(!is.na(LONGITUDE_LATITUDE_SOURCE), LONGITUDE_LATITUDE_SOURCE != "") %>%
pull(LONGITUDE_LATITUDE_SOURCE)
n <- length(x_raw)
cat("Observaciones válidas:", n, "\n")
## Observaciones válidas: 47757
cat("Fuentes distintas:", length(unique(x_raw)), "\n")
## Fuentes distintas: 2
| Criterio | Clasificación |
|---|---|
| Nombre | Fuente de Coordenadas |
| Nombre técnico | LONGITUDE_LATITUDE_SOURCE |
| Tipo | Cualitativa |
| Subtipo | Nominal policotómica |
| Dominio | Métodos/sistemas de georreferenciación registrados |
| Rango | Múltiples categorías |
| Unidad | No aplica |
| Escala | Nominal |
| Fuente | Kansas Geological Survey – Kansas, EE.UU. |
Justificación: La variable identifica el origen de los datos de localización sin establecer un orden jerárquico entre las fuentes. Corresponde a una variable cualitativa nominal policotómica. Se construye la tabla de distribución de frecuencias con frecuencia absoluta, porcentual y en fracción.
Se construye la tabla de distribución de frecuencias de la variable Fuente de Coordenadas, correspondiente a los arrendamientos de hidrocarburos registrados en Kansas, EE.UU. (n = 47,757).
freq_abs <- sort(table(x_raw), decreasing = TRUE)
categorias <- names(freq_abs)
ni <- as.integer(freq_abs)
hi_pct <- ni / n * 100
hi_frac <- ni / n
tabla_df <- data.frame(
Categoria = categorias,
ni = ni,
hi_pct = sprintf("%.2f%%", hi_pct),
hi_frac = sprintf("%.4f", hi_frac),
stringsAsFactors = FALSE
)
total_row <- data.frame(
Categoria = "**TOTAL**",
ni = n,
hi_pct = "100.00%",
hi_frac = "1.0000",
stringsAsFactors = FALSE
)
tabla_df$ni <- as.character(tabla_df$ni)
total_row$ni <- as.character(total_row$ni)
tabla_final <- bind_rows(tabla_df, total_row)
kable(
tabla_final,
caption = paste0(
"Cuadro N°1: Distribución de Frecuencias de la Variable Cualitativa Nominal Fuente de Coordenadas, ",
"registrada en los arrendamientos de hidrocarburos del estado de Kansas, EE.UU., ",
"período histórico disponible (n = ", format(n, big.mark = ","), " registros válidos)."
),
col.names = c("Fuente de Coordenadas", "Frecuencia (nᵢ)", "Porcentaje (hᵢ %)", "Porcentaje en fracción (hᵢ)"),
align = c("l", "c", "c", "c"),
escape = FALSE
) %>%
kable_styling(
bootstrap_options = c("striped", "hover", "condensed", "bordered"),
full_width = TRUE, font_size = 12
) %>%
row_spec(0, bold = TRUE, background = "#d3d3d3", color = "black") %>%
row_spec(nrow(tabla_final), bold = TRUE, background = "#a9a9a9", color = "black")
| Fuente de Coordenadas | Frecuencia (nᵢ) | Porcentaje (hᵢ %) | Porcentaje en fracción (hᵢ) |
|---|---|---|---|
| CENTER_OF_SECTION | 26553 | 55.60% | 0.5560 |
| QUARTER_CALLS | 21204 | 44.40% | 0.4440 |
| TOTAL | 47757 | 100.00% | 1.0000 |
freq_ord <- sort(table(x_raw), decreasing = TRUE)
colores_g <- gray(seq(0.30, 0.80, length.out = length(freq_ord)))
par(mar = c(9, 6, 7, 2))
bp <- barplot(
as.numeric(freq_ord),
names.arg = names(freq_ord),
col = colores_g,
border = "black",
ylim = c(0, max(as.numeric(freq_ord)) * 1.18),
xlab = "", ylab = "", main = "", las = 2, cex.names = 0.75
)
text(bp, as.numeric(freq_ord) + max(as.numeric(freq_ord)) * 0.02,
labels = format(as.numeric(freq_ord), big.mark = ","), cex = 0.85)
mtext("Frecuencia Absoluta (nᵢ)", side = 2, line = 4.5, cex = 1)
mtext("Fuente de Coordenadas", side = 1, line = 7.5, cex = 1)
mtext(
"Gráfica N°1: Diagrama de Barras — Frecuencia Absoluta\nde la Variable Fuente de Coordenadas, Kansas, EE.UU.",
side = 3, line = 3.5, cex = 0.9, font = 2
)
pct_ord <- sort(table(x_raw) / n * 100, decreasing = TRUE)
par(mar = c(9, 6, 7, 2))
bp2 <- barplot(
as.numeric(pct_ord),
names.arg = names(pct_ord),
col = colores_g,
border = "black",
ylim = c(0, max(as.numeric(pct_ord)) * 1.18),
xlab = "", ylab = "", main = "", las = 2, cex.names = 0.75
)
text(bp2, as.numeric(pct_ord) + max(as.numeric(pct_ord)) * 0.02,
labels = paste0(round(as.numeric(pct_ord), 2), "%"), cex = 0.85)
mtext("Porcentaje (hᵢ %)", side = 2, line = 4.5, cex = 1)
mtext("Fuente de Coordenadas", side = 1, line = 7.5, cex = 1)
mtext(
"Gráfica N°2: Diagrama de Barras — Porcentaje\nde la Variable Fuente de Coordenadas, Kansas, EE.UU.",
side = 3, line = 3.5, cex = 0.9, font = 2
)
pct_circ <- table(x_raw) / n * 100
grises_c <- gray(seq(0.15, 0.85, length.out = length(pct_circ)))
par(mar = c(2, 2, 6, 12), xpd = TRUE)
pie(
as.numeric(pct_circ),
labels = paste0(round(as.numeric(pct_circ), 2), "%"),
col = grises_c,
border = "black",
main = "",
radius = 1,
cex = 0.85
)
legend(
x = 1.2,
y = 1,
legend = names(pct_circ),
fill = grises_c,
cex = 0.75,
title = "Fuente",
bty = "n"
)
mtext(
"Gráfica N°3: Diagrama Circular — Distribución Porcentual\nde la Variable Fuente de Coordenadas, Kansas, EE.UU.",
side = 3, line = 3.5, cex = 0.9, font = 2
)
moda_val <- names(sort(table(x_raw), decreasing = TRUE))[1]
moda_n <- max(table(x_raw))
indicadores_h <- data.frame(
`Tamaño muestral (n)` = format(n, big.mark = ","),
`Número de categorías` = as.character(length(unique(x_raw))),
`Moda` = moda_val,
`Frecuencia de la moda` = format(moda_n, big.mark = ","),
`Porcentaje de la moda` = paste0(round(moda_n / n * 100, 2), "%"),
check.names = FALSE,
stringsAsFactors = FALSE
)
kable(
indicadores_h,
caption = "Cuadro N°2: Indicadores de la Variable Cualitativa Nominal Fuente de Coordenadas, arrendamientos de hidrocarburos, Kansas, EE.UU.",
align = "c",
escape = FALSE
) %>%
kable_styling(
bootstrap_options = c("striped", "hover", "condensed", "bordered"),
full_width = TRUE, font_size = 12
) %>%
row_spec(0, bold = TRUE, background = "#d3d3d3", color = "black")
| Tamaño muestral (n) | Número de categorías | Moda | Frecuencia de la moda | Porcentaje de la moda |
|---|---|---|---|---|
| 47,757 | 2 | CENTER_OF_SECTION | 26,553 | 55.6% |
El análisis de la variable Fuente de Coordenadas revela los sistemas de georreferenciación utilizados para registrar la ubicación de los arrendamientos en Kansas. Con 2 fuentes distintas identificadas, la fuente modal es “CENTER_OF_SECTION”, que representa el 55.6% de los registros, evidenciando el método de localización predominante en la base de datos.
Autor: Araujo Valeska | Análisis Estadístico — Kansas Hydrocarbon Leases Dataset