# VARIABLE CUALITATIVA NOMINAL: PROVINCIA
# Proyecto: Producción de pozos de gas y petróleo no convencional
# Grupo - Carrera de Petróleos
# 2026

# =========================================================
# 1. CARGA Y PREPARACIÓN DE LOS DATOS
# =========================================================

library(readr)
library(dplyr)
library(gt)

# Evita notación científica
options(scipen = 999)

# Lectura del archivo CSV (exportado desde Excel)
datos <- read_delim(
  "PRODUCCION_DE_POZOS.csv",
  delim = ";"
)

# =========================================================
# 2. IDENTIFICACIÓN DE LAS PROVINCIAS
# =========================================================

# Eliminación de valores perdidos
provincia_data <- datos$provincia[!is.na(datos$provincia)]

# Orden de provincias (de mayor a menor frecuencia)
provincias <- c(
  "Neuquén", "Rio Negro", "Santa Cruz",
  "Mendoza", "Chubut", "Salta"
)

# =========================================================
# 3. TABLA DE FRECUENCIAS
# =========================================================

# 3.1. Frecuencia absoluta
ni_p <- table(factor(provincia_data, levels = provincias))
ni_p <- as.numeric(ni_p)

# 3.2. Frecuencia relativa
hi_p <- ni_p / sum(ni_p) * 100

# =========================================================
# 3.3. ELABORACIÓN DE LA TABLA
# =========================================================

tabla_provincias <- data.frame(
  Provincia = provincias,
  ni = ni_p,
  hi = hi_p
)

# Fila total
tabla_provincias_r <- tabla_provincias %>%
  add_row(
    Provincia = "Total",
    ni = sum(ni_p),
    hi = sum(hi_p)
  )

# =========================================================
# 3.4. PRESENTACIÓN DE LA TABLA
# =========================================================

tabla_provincias_presentacion <- tabla_provincias_r %>%
  mutate(
    hi = round(hi, 4)
  )

tabla_provincias_presentacion %>%
  gt() %>%
  tab_header(
    title    = md("**Tabla Nro. 1**"),
    subtitle = md("Distribución por provincia de la frecuencia de producción en pozos de gas y petróleo no convencional")
  ) %>%
  cols_label(
    Provincia = "Provincia",
    ni        = "Frecuencia absoluta (ni)",
    hi        = "Frecuencia relativa (%)"
  ) %>%
  tab_source_note(
    source_note = md("Elaborado por: Grupo – Carrera de Petróleos")
  ) %>%
  opt_all_caps() %>%
  tab_style(
    style     = cell_text(weight = "bold"),
    locations = cells_body(rows = Provincia == "Total")
  )
Tabla Nro. 1
Distribución por provincia de la frecuencia de producción en pozos de gas y petróleo no convencional
Provincia Frecuencia absoluta (ni) Frecuencia relativa (%)
Neuquén 0 0.0000
Rio Negro 28277 59.6360
Santa Cruz 15679 33.0669
Mendoza 3026 6.3818
Chubut 249 0.5251
Salta 185 0.3902
Total 47416 100.0000
Elaborado por: Grupo – Carrera de Petróleos
# =========================================================
# 4. DIAGRAMAS DE BARRAS
# =========================================================

# =========================================================
# 4.1. FRECUENCIA ABSOLUTA
# =========================================================

par(mar = c(9, 5, 4, 2))

barplot(
  ni_p,
  names.arg = provincias,
  las       = 2,
  col       = "gray80",
  main      = "Gráfica 1: Distribución por provincia de la frecuencia absoluta\nde producción en pozos no convencionales",
  ylab      = "Frecuencia absoluta (ni)",
  xlab      = "",
  ylim      = c(0, max(ni_p) * 1.15)
)

# =========================================================
# 4.2. FRECUENCIA RELATIVA
# =========================================================

par(mar = c(9, 5, 4, 2))

barplot(
  hi_p,
  names.arg = provincias,
  las       = 2,
  col       = "lightblue",
  main      = "Gráfica 2: Distribución por provincia de la frecuencia relativa\nde producción en pozos no convencionales",
  ylab      = "",
  xlab      = "",
  ylim      = c(0, max(hi_p) * 1.15)
)

# =========================================================
# 5. DIAGRAMA CIRCULAR
# =========================================================

hi_p_red <- round(hi_p, 4)

colores <- c(
  "#66c2a5", "#fc8d62", "#8da0cb",
  "#e78ac3", "#a6d854", "#ffd92f"
)

pie(
  hi_p_red,
  col    = colores,
  labels = paste0(hi_p_red, " %"),
  main   = "Gráfica 3: Distribución porcentual por provincia\nde producción en pozos no convencionales"
)

legend(
  "topright",
  legend = provincias,
  fill   = colores,
  cex    = 0.7,
  bty    = "n"
)

# =========================================================
# 6. INDICADORES ESTADÍSTICOS
# =========================================================

# 6.1. Moda

indice_moda  <- which.max(ni_p)
moda_prov    <- provincias[indice_moda]
moda_valor   <- ni_p[indice_moda]
moda_hi      <- round(hi_p[indice_moda], 4)

# =========================================================
# 6.2. TABLA RESUMEN
# =========================================================

tabla_resumen <- data.frame(
  Variable   = "Provincia",
  Indicador  = "Moda",
  Resultado  = paste0(
    moda_prov,
    " (",
    moda_valor,
    " registros, ",
    moda_hi,
    "%)"
  )
)

tabla_resumen %>%
  gt() %>%
  tab_header(
    title    = md("**Tabla Nro. 2**"),
    subtitle = md("Indicadores estadísticos de la variable provincia en pozos no convencionales")
  ) %>%
  cols_label(
    Variable  = "Variable analizada",
    Indicador = "Indicador estadístico",
    Resultado = "Resultado"
  ) %>%
  tab_source_note(
    source_note = md("Elaborado por: Grupo – Carrera de Petróleos")
  ) %>%
  opt_all_caps() %>%
  tab_style(
    style     = cell_text(weight = "bold"),
    locations = cells_body()
  )
Tabla Nro. 2
Indicadores estadísticos de la variable provincia en pozos no convencionales
Variable analizada Indicador estadístico Resultado
Provincia Moda Rio Negro (28277 registros, 59.636%)
Elaborado por: Grupo – Carrera de Petróleos
# =========================================================
# 7. CONCLUSIÓN
# =========================================================

cat(
  "La variable Provincia corresponde a una variable cualitativa nominal, ",
  "empleada para identificar la distribución geográfica de la producción ",
  "de pozos de gas y petróleo no convencional. El análisis realizado ",
  "permitió identificar que la provincia con mayor frecuencia de registros fue ",
  moda_prov,
  ", con un total de ",
  moda_valor,
  " registros equivalentes al ",
  moda_hi,
  "% del total analizado."
)
## La variable Provincia corresponde a una variable cualitativa nominal,  empleada para identificar la distribución geográfica de la producción  de pozos de gas y petróleo no convencional. El análisis realizado  permitió identificar que la provincia con mayor frecuencia de registros fue  Rio Negro , con un total de  28277  registros equivalentes al  59.636 % del total analizado.