Se carga el conjunto de datos de arrendamientos de hidrocarburos del estado de Kansas, EE.UU., registrados por el Kansas Geological Survey.
ruta_archivo <- "C:/Users/thann/OneDrive/Escritorio/ESTADISTICA.LOL/datos_vale.csv"
datos_vale <- read_delim(
ruta_archivo,
delim = ";",
show_col_types = FALSE
)
cat("Base de datos cargada correctamente.\n")
## Base de datos cargada correctamente.
cat("Total de registros (filas):", nrow(datos_vale), "\n")
## Total de registros (filas): 104173
La variable PRODUCES_OIL (Produce Petróleo) indica
si el arrendamiento registra producción de petróleo. Se filtran
únicamente los valores válidos: Yes (Sí) y
No.
x_raw <- datos_vale %>%
filter(PRODUCES_OIL %in% c("Yes", "No")) %>%
mutate(
produce_petroleo = case_when(
PRODUCES_OIL == "Yes" ~ "Sí",
PRODUCES_OIL == "No" ~ "No"
)
) %>%
pull(produce_petroleo)
n <- length(x_raw)
cat("Observaciones válidas:", n, "\n")
## Observaciones válidas: 95960
cat("Valores únicos:", length(unique(x_raw)), "\n")
## Valores únicos: 2
| Criterio | Clasificación |
|---|---|
| Nombre | Produce Petróleo |
| Nombre técnico | PRODUCES_OIL |
| Tipo | Cualitativa |
| Subtipo | Nominal dicotómica |
| Dominio | {Sí, No} |
| Rango | 2 categorías |
| Unidad | No aplica |
| Escala | Nominal |
| Fuente | Kansas Geological Survey – Kansas, EE.UU. |
Justificación: La variable toma únicamente dos valores posibles (Sí/No), sin orden natural entre ellos. Corresponde a una variable cualitativa nominal dicotómica. Se construye la tabla de distribución de frecuencias con frecuencia absoluta, porcentual y en fracción.
Se construye la tabla de distribución de frecuencias de la variable cualitativa nominal Produce Petróleo, correspondiente a los arrendamientos de hidrocarburos registrados en Kansas, EE.UU., durante el período histórico disponible (n = 95,960).
freq_abs <- table(x_raw)
categorias <- names(freq_abs)
ni <- as.integer(freq_abs)
hi_pct <- ni / n * 100
hi_frac <- ni / n
tabla_df <- data.frame(
Categoria = categorias,
ni = ni,
hi_pct = sprintf("%.2f%%", hi_pct),
hi_frac = sprintf("%.4f", hi_frac),
stringsAsFactors = FALSE
)
total_row <- data.frame(
Categoria = "**TOTAL**",
ni = n,
hi_pct = "100.00%",
hi_frac = "1.0000",
stringsAsFactors = FALSE
)
tabla_df$ni <- as.character(tabla_df$ni)
total_row$ni <- as.character(total_row$ni)
tabla_final <- bind_rows(tabla_df, total_row)
kable(
tabla_final,
caption = paste0(
"Cuadro N°1: Distribución de Frecuencias de la Variable Cualitativa Nominal Produce Petróleo, ",
"registrada en los arrendamientos de hidrocarburos del estado de Kansas, EE.UU., ",
"período histórico disponible (n = ", format(n, big.mark = ","), " registros válidos)."
),
col.names = c("Produce Petróleo", "Frecuencia (nᵢ)", "Porcentaje (hᵢ %)", "Porcentaje en fracción (hᵢ)"),
align = c("l", "c", "c", "c"),
escape = FALSE
) %>%
kable_styling(
bootstrap_options = c("striped", "hover", "condensed", "bordered"),
full_width = TRUE, font_size = 12
) %>%
row_spec(0, bold = TRUE, background = "#d3d3d3", color = "black") %>%
row_spec(nrow(tabla_final), bold = TRUE, background = "#a9a9a9", color = "black")
| Produce Petróleo | Frecuencia (nᵢ) | Porcentaje (hᵢ %) | Porcentaje en fracción (hᵢ) |
|---|---|---|---|
| No | 39216 | 40.87% | 0.4087 |
| Sí | 56744 | 59.13% | 0.5913 |
| TOTAL | 95960 | 100.00% | 1.0000 |
freq_ord <- sort(table(x_raw), decreasing = TRUE)
colores_g <- gray(seq(0.35, 0.75, length.out = length(freq_ord)))
par(mar = c(5, 6, 7, 2))
bp <- barplot(
as.numeric(freq_ord),
names.arg = names(freq_ord),
col = colores_g,
border = "black",
ylim = c(0, max(as.numeric(freq_ord)) * 1.18),
xlab = "", ylab = "", main = "", las = 1
)
text(bp, as.numeric(freq_ord) + max(as.numeric(freq_ord)) * 0.02,
labels = format(as.numeric(freq_ord), big.mark = ","), cex = 0.9)
mtext("Frecuencia Absoluta (nᵢ)", side = 2, line = 4.5, cex = 1)
mtext("Produce Petróleo", side = 1, line = 3, cex = 1)
mtext(
"Gráfica N°1: Diagrama de Barras — Frecuencia Absoluta\nde la Variable Produce Petróleo, Kansas, EE.UU.",
side = 3, line = 3.5, cex = 0.9, font = 2
)
pct_ord <- sort(table(x_raw) / n * 100, decreasing = TRUE)
par(mar = c(5, 6, 7, 2))
bp2 <- barplot(
as.numeric(pct_ord),
names.arg = names(pct_ord),
col = colores_g,
border = "black",
ylim = c(0, max(as.numeric(pct_ord)) * 1.18),
xlab = "", ylab = "", main = "", las = 1
)
text(bp2, as.numeric(pct_ord) + max(as.numeric(pct_ord)) * 0.02,
labels = paste0(round(as.numeric(pct_ord), 2), "%"), cex = 0.9)
mtext("Porcentaje (hᵢ %)", side = 2, line = 4.5, cex = 1)
mtext("Produce Petróleo", side = 1, line = 3, cex = 1)
mtext(
"Gráfica N°2: Diagrama de Barras — Porcentaje\nde la Variable Produce Petróleo, Kansas, EE.UU.",
side = 3, line = 3.5, cex = 0.9, font = 2
)
pct_circ <- table(x_raw) / n * 100
grises_c <- gray(c(0.35, 0.72))
par(mar = c(2, 2, 6, 2))
pie(
as.numeric(pct_circ),
labels = paste0(names(pct_circ), "\n", round(as.numeric(pct_circ), 2), "%"),
col = grises_c,
border = "black",
main = ""
)
mtext(
"Gráfica N°3: Diagrama Circular — Distribución Porcentual\nde la Variable Produce Petróleo, Kansas, EE.UU.",
side = 3, line = 3.5, cex = 0.9, font = 2
)
moda_val <- names(sort(table(x_raw), decreasing = TRUE))[1]
moda_n <- max(table(x_raw))
indicadores_h <- data.frame(
`Tamaño muestral (n)` = format(n, big.mark = ","),
`Número de categorías` = as.character(length(unique(x_raw))),
`Moda` = moda_val,
`Frecuencia de la moda` = format(moda_n, big.mark = ","),
`Porcentaje de la moda` = paste0(round(moda_n / n * 100, 2), "%"),
check.names = FALSE,
stringsAsFactors = FALSE
)
kable(
indicadores_h,
caption = "Cuadro N°2: Indicadores de la Variable Cualitativa Nominal Produce Petróleo, arrendamientos de hidrocarburos, Kansas, EE.UU.",
align = "c",
escape = FALSE
) %>%
kable_styling(
bootstrap_options = c("striped", "hover", "condensed", "bordered"),
full_width = TRUE, font_size = 12
) %>%
row_spec(0, bold = TRUE, background = "#d3d3d3", color = "black")
| Tamaño muestral (n) | Número de categorías | Moda | Frecuencia de la moda | Porcentaje de la moda |
|---|---|---|---|---|
| 95,960 | 2 | Sí | 56,744 | 59.13% |
El comportamiento y situación actual del análisis estadístico de los arrendamientos de petróleo y gas en Kansas, se explica a través de la variable Produce Petróleo tiene como valor más frecuente la moda. La categoría modal es “Sí”, lo que evidencia que la mayoría de los arrendamientos de hidrocarburos en Kansas corresponde a explotaciones con producción activa de petróleo.
Autor: Araujo Valeska | Análisis Estadístico — Kansas Hydrocarbon Leases Dataset