library(dplyr)
library(knitr)
library(kableExtra)
library(ggplot2)
datos <- read.csv("datos_vale.csv", sep = ";", stringsAsFactors = FALSE)

# Filtrar valores válidos
gas_data <- datos %>%
  filter(PRODUCES_GAS %in% c("Yes", "No")) %>%
  pull(PRODUCES_GAS)

gas_data <- factor(gas_data, levels = c("Yes", "No"))

Descripción de la Variable

Atributo Descripción
Nombre original PRODUCES_GAS
Nombre asignado produce_gas (Produce Gas)
Tipo Cualitativa
Subtipo Nominal
Dominio {Yes, No}
Rango Binario: indica si el pozo produce gas
Unidad de medida No aplica
Escala de medida Nominal

Tabla de Distribución de Frecuencias

n_total <- length(gas_data)
freq_abs <- table(gas_data)
freq_rel <- prop.table(freq_abs)

tabla_gas <- data.frame(
  "Produce Gas"          = names(freq_abs),
  "Frecuencia (ni)"      = as.integer(freq_abs),
  "Porcentaje (hi)"      = round(as.numeric(freq_rel) * 100, 2),
  "Porcentaje (fracción)"= round(as.numeric(freq_rel), 4),
  check.names = FALSE
)

kable(
  tabla_gas,
  caption = "Cuadro No. 2 — Distribución de Frecuencias de la Variable Produce Gas,<br>Pozos petroleros de Kansas, 2025.",
  align  = c("l", "r", "r", "r"),
  booktabs = TRUE
) %>%
  kable_styling(
    bootstrap_options = c("striped", "hover", "condensed", "bordered"),
    full_width = FALSE,
    position   = "center"
  ) %>%
  row_spec(0, background = "#d9d9d9", bold = TRUE) %>%
  column_spec(1, bold = TRUE) 
Cuadro No. 2 — Distribución de Frecuencias de la Variable Produce Gas,
Pozos petroleros de Kansas, 2025.
Produce Gas Frecuencia (ni) Porcentaje (hi) Porcentaje (fracción)
Yes 36902 38.46 0.3846
No 59056 61.54 0.6154
kable(
  tabla_gas,
  caption = "Cuadro No. 2 — Distribución de Frecuencias de la Variable Produce Gas,<br>Pozos petroleros de Kansas, 2025.",
  align  = c("l", "r", "r", "r"),
  booktabs = TRUE
) %>%
  kable_styling(
    bootstrap_options = c("striped", "hover", "condensed", "bordered"),
    full_width = FALSE,
    position   = "center"
  ) %>%
  row_spec(0, background = "#d9d9d9", bold = TRUE) %>%
  column_spec(1, bold = TRUE)
Cuadro No. 2 — Distribución de Frecuencias de la Variable Produce Gas,
Pozos petroleros de Kansas, 2025.
Produce Gas Frecuencia (ni) Porcentaje (hi) Porcentaje (fracción)
Yes 36902 38.46 0.3846
No 59056 61.54 0.6154
  cat(paste0("**Total: n = ", n_total, "**"))
## **Total: n = 95958**

Tabla de Indicadores

moda_val <- names(which.max(freq_abs))

indicadores <- data.frame(
  Indicador = c("Tamaño de muestra (n)", "Moda", "Categoría mayoritaria", "Frecuencia máxima", "Frecuencia mínima"),
  Valor = c(
    n_total,
    moda_val,
    moda_val,
    max(freq_abs),
    min(freq_abs)
  )
)

kable(
  indicadores,
  caption = "Tabla de Indicadores — Variable Produce Gas",
  align = c("l", "r")
) %>%
  kable_styling(
    bootstrap_options = c("striped", "bordered"),
    full_width = FALSE,
    position = "center"
  ) %>%
  row_spec(0, background = "#d9d9d9", bold = TRUE)
Tabla de Indicadores — Variable Produce Gas
Indicador Valor
Tamaño de muestra (n) 95958
Moda No
Categoría mayoritaria No
Frecuencia máxima 59056
Frecuencia mínima 36902

Gráficas

Diagrama de Barras (Frecuencia Absoluta)

df_plot <- as.data.frame(freq_abs)
colnames(df_plot) <- c("categoria", "frecuencia")

ggplot(df_plot, aes(x = categoria, y = frecuencia)) +
  geom_bar(stat = "identity", fill = "gray40", color = "black", width = 0.5) +
  geom_text(aes(label = frecuencia), vjust = -0.5, size = 4) +
  labs(
    title = "Figura 1. Diagrama de Barras — Produce Gas\n(Frecuencia Absoluta)",
    x     = "Produce Gas",
    y     = "Frecuencia Absoluta (ni)"
  ) +
  theme_classic() +
  theme(
    plot.title = element_text(hjust = 0.5, size = 12),
    axis.title = element_text(size = 11),
    axis.text  = element_text(size = 10)
  )

Diagrama de Barras (Porcentaje)

df_plot2 <- as.data.frame(freq_rel * 100)
colnames(df_plot2) <- c("categoria", "porcentaje")

ggplot(df_plot2, aes(x = categoria, y = porcentaje)) +
  geom_bar(stat = "identity", fill = "gray55", color = "black", width = 0.5) +
  geom_text(aes(label = paste0(round(porcentaje, 2), "%")), vjust = -0.5, size = 4) +
  labs(
    title = "Figura 2. Diagrama de Barras — Produce Gas\n(Porcentaje)",
    x     = "Produce Gas",
    y     = "Porcentaje (%)"
  ) +
  theme_classic() +
  theme(
    plot.title = element_text(hjust = 0.5, size = 12),
    axis.title = element_text(size = 11),
    axis.text  = element_text(size = 10)
  )

Diagrama Circular (Distribución Porcentual)

df_pie <- as.data.frame(freq_rel)
colnames(df_pie) <- c("categoria", "proporcion")
df_pie$porcentaje <- round(df_pie$proporcion * 100, 2)
df_pie$etiqueta <- paste0(df_pie$categoria, "\n", df_pie$porcentaje, "%")

grises <- c("Yes" = "gray30", "No" = "gray75")

ggplot(df_pie, aes(x = "", y = proporcion, fill = categoria)) +
  geom_col(width = 1, color = "white") +
  coord_polar(theta = "y") +
  scale_fill_manual(values = grises) +
  geom_text(aes(label = etiqueta),
            position = position_stack(vjust = 0.5),
            color = "white", size = 4.5, fontface = "bold") +
  labs(
    title = "Figura 3. Diagrama Circular — Produce Gas\n(Distribución Porcentual)",
    fill  = "Categoría"
  ) +
  theme_void() +
  theme(
    plot.title   = element_text(hjust = 0.5, size = 12),
    legend.title = element_text(size = 10),
    legend.text  = element_text(size = 10)
  )


Interpretación

La variable Produce Gas (PRODUCES_GAS) es de tipo cualitativa nominal con dominio binario {Yes, No}. Del total de 95,958 pozos con datos válidos, el 61.54% (n = 59,056) no produce gas, mientras que el 38.46% (n = 36,902) sí lo hace. La moda es la categoría “No”, lo que indica que la mayoría de los pozos registrados en Kansas no tienen producción activa de gas natural. Esto contrasta con la variable de producción de petróleo, donde la mayoría sí produce, sugiriendo que el crudo es el recurso dominante en esta región, con una proporción menor de pozos orientados a la extracción de gas natural. ```