Variable Original: STATE

Nombre Variable: ESTADO
Tipo: Cualitativa Nominal
Escala: Nominal

Justificación de la variable

El estado administrativo responsable de cada mina es variable de interés porque las emisiones de CO2, NOx y CH4 están registradas en razón de esta variable. Cada instalación hereda el valor de emisión del estado al que pertenece administrativamente según STATE.


1. Carga y Preparación de los Datos

library(dplyr)
library(gt)

datos  <- read.csv("~/Estudio/TERCER SEMESTRE/Estadistica/Dataset.csv",
                   sep = ";", stringsAsFactors = FALSE)
ESTADO <- trimws(as.character(datos$STATE))
ESTADO <- ESTADO[!is.na(ESTADO) & ESTADO != ""]
n      <- length(ESTADO)

cat("Variable  : STATE\n")
## Variable  : STATE
cat("Nombre    : ESTADO\n")
## Nombre    : ESTADO
cat("n validos :", n, "\n")
## n validos : 2996

2. Agrupación por Región Geográfica

# Se agrupan los 48 estados en 8 regiones para tabla de max 10 filas
region <- character(length(ESTADO))

for (i in 1:length(ESTADO)) {
  if (ESTADO[i] %in% c("KY","WV","VA","PA","TN")) {
    region[i] <- "Appalachia"
  } else if (ESTADO[i] %in% c("AL","GA","MS","AR","LA","FL","SC","NC","TX","OK")) {
    region[i] <- "Sur"
  } else if (ESTADO[i] %in% c("OH","IN","MI","NY","MD","NJ","CT","MA","VT","NH","ME","RI","DE")) {
    region[i] <- "Noreste"
  } else if (ESTADO[i] %in% c("IL","MO","KS","IA","MN","WI","ND","SD","NE")) {
    region[i] <- "Centro"
  } else if (ESTADO[i] %in% c("AZ","NM","CO","UT","NV","CA")) {
    region[i] <- "Suroeste"
  } else if (ESTADO[i] %in% c("WA","OR","ID","MT","WY")) {
    region[i] <- "Noroeste"
  } else if (ESTADO[i] %in% c("AK","HI")) {
    region[i] <- "Alaska/Hawaii"
  } else {
    region[i] <- "Otros"
  }
}

cat("Distribución por región:\n")
## Distribución por región:
print(table(region))
## region
## Alaska/Hawaii    Appalachia        Centro       Noreste      Noroeste 
##            22          1509           148           359           123 
##         Otros           Sur      Suroeste 
##             3           507           325

3. Tabla de Distribución de Frecuencias

3.1 Cálculo de Frecuencias

TDF <- as.data.frame(table(region)) %>%
  rename(Region = region, fi = Freq) %>%
  arrange(desc(fi)) %>%
  mutate(
    fri    = round(fi / n * 100, 2),
    Ni_asc = cumsum(fi),
    Ni_des = rev(cumsum(rev(fi))),
    Hi_asc = round(cumsum(fri), 2),
    Hi_des = round(rev(cumsum(rev(fri))), 2)
  )

TDF_total <- TDF %>%
  add_row(
    Region = "Total",
    fi     = sum(TDF$fi),
    fri    = round(sum(TDF$fri), 2),
    Ni_asc = max(TDF$Ni_asc),
    Ni_des = min(TDF$Ni_des),
    Hi_asc = max(TDF$Hi_asc),
    Hi_des = min(TDF$Hi_des)
  )

3.2 Tabla de Frecuencias (Salida Básica)

print(TDF_total)
##          Region   fi    fri Ni_asc Ni_des Hi_asc Hi_des
## 1    Appalachia 1509  50.37   1509   2996  50.37 100.00
## 2           Sur  507  16.92   2016   1487  67.29  49.63
## 3       Noreste  359  11.98   2375    980  79.27  32.71
## 4      Suroeste  325  10.85   2700    621  90.12  20.73
## 5        Centro  148   4.94   2848    296  95.06   9.88
## 6      Noroeste  123   4.11   2971    148  99.17   4.94
## 7 Alaska/Hawaii   22   0.73   2993     25  99.90   0.83
## 8         Otros    3   0.10   2996      3 100.00   0.10
## 9         Total 2996 100.00   2996      3 100.00   0.10

3.3 Presentación de la Tabla

TDF_total %>%
  gt() %>%
  tab_header(
    title    = md("**Tabla 1**"),
    subtitle = md("Distribución de frecuencias por región geográfica — STATE")
  ) %>%
  cols_label(
    Region = "Región", fi = "fi",
    fri    = "fri (%)",
    Ni_asc = "Ni Asc.", Ni_des = "Ni Desc.",
    Hi_asc = "Hi Asc. %", Hi_des = "Hi Desc. %"
  ) %>%
  tab_style(
    style     = cell_text(weight = "bold"),
    locations = cells_body(rows = Region == "Total")
  ) %>%
  tab_source_note(md("Fuente: Dataset MSHA — Instalaciones Mineras EE.UU."))
Tabla 1
Distribución de frecuencias por región geográfica — STATE
Región fi fri (%) Ni Asc. Ni Desc. Hi Asc. % Hi Desc. %
Appalachia 1509 50.37 1509 2996 50.37 100.00
Sur 507 16.92 2016 1487 67.29 49.63
Noreste 359 11.98 2375 980 79.27 32.71
Suroeste 325 10.85 2700 621 90.12 20.73
Centro 148 4.94 2848 296 95.06 9.88
Noroeste 123 4.11 2971 148 99.17 4.94
Alaska/Hawaii 22 0.73 2993 25 99.90 0.83
Otros 3 0.10 2996 3 100.00 0.10
Total 2996 100.00 2996 3 100.00 0.10
Fuente: Dataset MSHA — Instalaciones Mineras EE.UU.

4. Diagramas de Barras

4.1 Frecuencia Absoluta

par(mar = c(8, 5, 4, 2))
barplot(
  TDF_graf$fi,
  names.arg = TDF_graf$Region,
  las       = 2,
  col       = "#C00000",
  main      = "Gráfica 1: Frecuencia Absoluta — ESTADO por Región",
  ylab      = "Frecuencia absoluta (fi)",
  cex.names = 0.9,
  cex.axis  = 0.9
)

4.2 Frecuencia Relativa

par(mar = c(8, 5, 4, 2))
barplot(
  TDF_graf$fri,
  names.arg = TDF_graf$Region,
  las       = 2,
  col       = "#FF9999",
  main      = "Gráfica 2: Frecuencia Relativa — ESTADO por Región",
  ylab      = "Frecuencia relativa (%)",
  ylim      = c(0, max(TDF_graf$fri) + 5),
  cex.names = 0.9,
  cex.axis  = 0.9
)


5. Diagrama Circular

colores <- c("#C00000","#FF9999","#7B0000","#FF6666",
             "#FF3333","#CC0000","#FF0000","#FFB3B3")

par(mar = c(5, 4, 4, 10), xpd = TRUE)
pie(
  TDF_graf$fri,
  labels = NA,
  col    = colores[1:nrow(TDF_graf)],
  main   = "Gráfica 3: Distribución Porcentual — ESTADO por Región"
)
legend(
  x      = 1.2,
  y      = 0,
  legend = paste0(TDF_graf$Region, " (", TDF_graf$fri, "%)"),
  fill   = colores[1:nrow(TDF_graf)],
  cex    = 0.8,
  bty    = "n"
)

par(xpd = FALSE)

6. Indicadores Estadísticos

6.1 Moda

moda_idx <- which.max(TDF_graf$fi)
moda     <- TDF_graf$Region[moda_idx]
moda_fi  <- TDF_graf$fi[moda_idx]
moda_fri <- TDF_graf$fri[moda_idx]

cat("Moda:", moda, "(", moda_fi, "instalaciones,", moda_fri, "%)\n")
## Moda: Appalachia ( 1509 instalaciones, 50.37 %)

6.2 Tabla Resumen de Indicadores

data.frame(
  Variable  = "Estado administrativo (STATE)",
  Indicador = "Moda",
  Resultado = paste0(moda, " (", moda_fi, " instalaciones, ", moda_fri, "%)")
) %>%
  gt() %>%
  tab_header(
    title    = md("**Tabla 2**"),
    subtitle = md("Indicadores estadísticos — ESTADO por región")
  ) %>%
  cols_label(
    Variable  = "Variable analizada",
    Indicador = "Indicador estadístico",
    Resultado = "Resultado"
  ) %>%
  tab_style(
    style     = cell_text(weight = "bold"),
    locations = cells_body()
  ) %>%
  tab_source_note(md("Fuente: Dataset MSHA — Instalaciones Mineras EE.UU."))
Tabla 2
Indicadores estadísticos — ESTADO por región
Variable analizada Indicador estadístico Resultado
Estado administrativo (STATE) Moda Appalachia (1509 instalaciones, 50.37%)
Fuente: Dataset MSHA — Instalaciones Mineras EE.UU.

7. Conclusión

cat(sprintf(
"La variable ESTADO representa el estado administrativo responsable
de cada instalacion minera. A diferencia de MSTATE que indica la
ubicacion fisica, STATE es la variable en razon de la cual se
registran las emisiones de CO2, NOx y CH4 para el anio 2018.

Se agruparon los %d registros validos en 8 regiones geograficas
para facilitar el analisis estadistico.

La region con mayor responsabilidad administrativa sobre
instalaciones mineras es %s con %d registros que representan
el %.2f%% del total.

Esta distribucion es clave para el proyecto: al ser STATE la
variable que vincula cada mina con su nivel de emisiones
estatales, la region de mayor concentracion administrativa es
tambien la que mayor impacto tiene en los niveles de CO2, NOx
y CH4 reportados en 2018.\n",
  n, moda, moda_fi, moda_fri
))
## La variable ESTADO representa el estado administrativo responsable
## de cada instalacion minera. A diferencia de MSTATE que indica la
## ubicacion fisica, STATE es la variable en razon de la cual se
## registran las emisiones de CO2, NOx y CH4 para el anio 2018.
## 
## Se agruparon los 2996 registros validos en 8 regiones geograficas
## para facilitar el analisis estadistico.
## 
## La region con mayor responsabilidad administrativa sobre
## instalaciones mineras es Appalachia con 1509 registros que representan
## el 50.37% del total.
## 
## Esta distribucion es clave para el proyecto: al ser STATE la
## variable que vincula cada mina con su nivel de emisiones
## estatales, la region de mayor concentracion administrativa es
## tambien la que mayor impacto tiene en los niveles de CO2, NOx
## y CH4 reportados en 2018.