Variable Original: MSTATE

Nombre Variable: ESTADO_MINA
Tipo: Cualitativa Nominal
Escala: Nominal

Justificación de la variable

El estado donde se ubica físicamente cada mina es la variable geográfica principal del proyecto. Permite identificar qué regiones concentran mayor actividad minera y correlacionarlas con los niveles de emisiones de CO2, NOx y CH4 por estado.


1. Carga y Preparación de los Datos

library(dplyr)
library(gt)

datos       <- read.csv("~/Estudio/TERCER SEMESTRE/Estadistica/Dataset.csv",
                        sep = ";", stringsAsFactors = FALSE)
ESTADO_MINA <- trimws(as.character(datos$MSTATE))
ESTADO_MINA <- ESTADO_MINA[!is.na(ESTADO_MINA) & ESTADO_MINA != ""]
n           <- length(ESTADO_MINA)

cat("Variable  : MSTATE\n")
## Variable  : MSTATE
cat("Nombre    : ESTADO_MINA\n")
## Nombre    : ESTADO_MINA
cat("n validos :", n, "\n")
## n validos : 2921

2. Agrupación por Región Geográfica

# Se agrupan los 48 estados en 8 regiones para tabla de max 10 filas
region <- character(length(ESTADO_MINA))

for (i in 1:length(ESTADO_MINA)) {
  if (ESTADO_MINA[i] %in% c("KY","WV","VA","PA","TN")) {
    region[i] <- "Appalachia"
  } else if (ESTADO_MINA[i] %in% c("AL","GA","MS","AR","LA","FL","SC","NC","TX","OK")) {
    region[i] <- "Sur"
  } else if (ESTADO_MINA[i] %in% c("OH","IN","MI","NY","MD","NJ","CT","MA","VT","NH","ME","RI","DE")) {
    region[i] <- "Noreste"
  } else if (ESTADO_MINA[i] %in% c("IL","MO","KS","IA","MN","WI","ND","SD","NE")) {
    region[i] <- "Centro"
  } else if (ESTADO_MINA[i] %in% c("AZ","NM","CO","UT","NV","CA")) {
    region[i] <- "Suroeste"
  } else if (ESTADO_MINA[i] %in% c("WA","OR","ID","MT","WY")) {
    region[i] <- "Noroeste"
  } else if (ESTADO_MINA[i] %in% c("AK","HI")) {
    region[i] <- "Alaska/Hawaii"
  } else {
    region[i] <- "Otros"
  }
}

cat("Distribución por región:\n")
## Distribución por región:
print(table(region))
## region
## Alaska/Hawaii    Appalachia        Centro       Noreste      Noroeste 
##            20          1506           153           346           130 
##         Otros           Sur      Suroeste 
##             3           464           299

3. Tabla de Distribución de Frecuencias

3.1 Cálculo de Frecuencias

TDF <- as.data.frame(table(region)) %>%
  rename(Region = region, fi = Freq) %>%
  arrange(desc(fi)) %>%
  mutate(
    fri    = round(fi / n * 100, 2),
    Ni_asc = cumsum(fi),
    Ni_des = rev(cumsum(rev(fi))),
    Hi_asc = round(cumsum(fri), 2),
    Hi_des = round(rev(cumsum(rev(fri))), 2)
  )

TDF_total <- TDF %>%
  add_row(
    Region = "Total",
    fi     = sum(TDF$fi),
    fri    = round(sum(TDF$fri), 2),
    Ni_asc = max(TDF$Ni_asc),
    Ni_des = min(TDF$Ni_des),
    Hi_asc = max(TDF$Hi_asc),
    Hi_des = min(TDF$Hi_des)
  )

3.2 Tabla de Frecuencias (Salida Básica)

print(TDF_total)
##          Region   fi    fri Ni_asc Ni_des Hi_asc Hi_des
## 1    Appalachia 1506  51.56   1506   2921  51.56 100.00
## 2           Sur  464  15.88   1970   1415  67.44  48.44
## 3       Noreste  346  11.85   2316    951  79.29  32.56
## 4      Suroeste  299  10.24   2615    605  89.53  20.71
## 5        Centro  153   5.24   2768    306  94.77  10.47
## 6      Noroeste  130   4.45   2898    153  99.22   5.23
## 7 Alaska/Hawaii   20   0.68   2918     23  99.90   0.78
## 8         Otros    3   0.10   2921      3 100.00   0.10
## 9         Total 2921 100.00   2921      3 100.00   0.10

3.3 Presentación de la Tabla

TDF_total %>%
  gt() %>%
  tab_header(
    title    = md("**Tabla 1**"),
    subtitle = md("Distribución de frecuencias por región geográfica — MSTATE")
  ) %>%
  cols_label(
    Region = "Región", fi = "fi",
    fri    = "fri (%)",
    Ni_asc = "Ni Asc.", Ni_des = "Ni Desc.",
    Hi_asc = "Hi Asc. %", Hi_des = "Hi Desc. %"
  ) %>%
  tab_style(
    style     = cell_text(weight = "bold"),
    locations = cells_body(rows = Region == "Total")
  ) %>%
  tab_source_note(md("Fuente: Dataset MSHA — Instalaciones Mineras EE.UU."))
Tabla 1
Distribución de frecuencias por región geográfica — MSTATE
Región fi fri (%) Ni Asc. Ni Desc. Hi Asc. % Hi Desc. %
Appalachia 1506 51.56 1506 2921 51.56 100.00
Sur 464 15.88 1970 1415 67.44 48.44
Noreste 346 11.85 2316 951 79.29 32.56
Suroeste 299 10.24 2615 605 89.53 20.71
Centro 153 5.24 2768 306 94.77 10.47
Noroeste 130 4.45 2898 153 99.22 5.23
Alaska/Hawaii 20 0.68 2918 23 99.90 0.78
Otros 3 0.10 2921 3 100.00 0.10
Total 2921 100.00 2921 3 100.00 0.10
Fuente: Dataset MSHA — Instalaciones Mineras EE.UU.

4. Diagramas de Barras

4.1 Frecuencia Absoluta

par(mar = c(8, 5, 4, 2))
barplot(
  TDF_graf$fi,
  names.arg = TDF_graf$Region,
  las       = 2,
  col       = "#2E75B6",
  main      = "Gráfica 1: Frecuencia Absoluta — ESTADO_MINA por Región",
  ylab      = "Frecuencia absoluta (fi)",
  cex.names = 0.9,
  cex.axis  = 0.9
)

4.2 Frecuencia Relativa

par(mar = c(8, 5, 4, 2))
barplot(
  TDF_graf$fri,
  names.arg = TDF_graf$Region,
  las       = 2,
  col       = "#AEC6E8",
  main      = "Gráfica 2: Frecuencia Relativa — ESTADO_MINA por Región",
  ylab      = "Frecuencia relativa (%)",
  ylim      = c(0, max(TDF_graf$fri) + 5),
  cex.names = 0.9,
  cex.axis  = 0.9
)


5. Diagrama Circular

colores <- c("#1f78b4","#33a02c","#e31a1c","#ff7f00",
             "#6a3d9a","#b15928","#a6cee3","#b2df8a")

par(mar = c(5, 4, 4, 10), xpd = TRUE)
pie(
  TDF_graf$fri,
  labels = NA,
  col    = colores[1:nrow(TDF_graf)],
  main   = "Gráfica 3: Distribución Porcentual — ESTADO_MINA por Región"
)
legend(
  x      = 1.2,
  y      = 0,
  legend = paste0(TDF_graf$Region, " (", TDF_graf$fri, "%)"),
  fill   = colores[1:nrow(TDF_graf)],
  cex    = 0.8,
  bty    = "n"
)

par(xpd = FALSE)

6. Indicadores Estadísticos

6.1 Moda

moda_idx <- which.max(TDF_graf$fi)
moda     <- TDF_graf$Region[moda_idx]
moda_fi  <- TDF_graf$fi[moda_idx]
moda_fri <- TDF_graf$fri[moda_idx]

cat("Moda:", moda, "(", moda_fi, "instalaciones,", moda_fri, "%)\n")
## Moda: Appalachia ( 1506 instalaciones, 51.56 %)

6.2 Tabla Resumen de Indicadores

data.frame(
  Variable  = "Estado de la mina (MSTATE)",
  Indicador = "Moda",
  Resultado = paste0(moda, " (", moda_fi, " instalaciones, ", moda_fri, "%)")
) %>%
  gt() %>%
  tab_header(
    title    = md("**Tabla 2**"),
    subtitle = md("Indicadores estadísticos — ESTADO_MINA por región")
  ) %>%
  cols_label(
    Variable  = "Variable analizada",
    Indicador = "Indicador estadístico",
    Resultado = "Resultado"
  ) %>%
  tab_style(
    style     = cell_text(weight = "bold"),
    locations = cells_body()
  ) %>%
  tab_source_note(md("Fuente: Dataset MSHA — Instalaciones Mineras EE.UU."))
Tabla 2
Indicadores estadísticos — ESTADO_MINA por región
Variable analizada Indicador estadístico Resultado
Estado de la mina (MSTATE) Moda Appalachia (1506 instalaciones, 51.56%)
Fuente: Dataset MSHA — Instalaciones Mineras EE.UU.

7. Conclusión

cat(sprintf(
"La variable ESTADO_MINA fue agrupada en 8 regiones geograficas
para facilitar su analisis estadistico. El total de registros
validos es de %d instalaciones mineras.

La region con mayor concentracion de instalaciones mineras es
%s con %d registros que representan el %.2f%% del total.

Esta distribucion geografica no es uniforme: la region de
Appalachia concentra la mayor actividad minera del pais,
lo cual es consistente con la hipotesis del proyecto de que
existe una correlacion positiva entre densidad minera por
estado y los niveles de emisiones de CO2, NOx y CH4
reportados para el anio 2018.\n",
  n, moda, moda_fi, moda_fri
))
## La variable ESTADO_MINA fue agrupada en 8 regiones geograficas
## para facilitar su analisis estadistico. El total de registros
## validos es de 2921 instalaciones mineras.
## 
## La region con mayor concentracion de instalaciones mineras es
## Appalachia con 1506 registros que representan el 51.56% del total.
## 
## Esta distribucion geografica no es uniforme: la region de
## Appalachia concentra la mayor actividad minera del pais,
## lo cual es consistente con la hipotesis del proyecto de que
## existe una correlacion positiva entre densidad minera por
## estado y los niveles de emisiones de CO2, NOx y CH4
## reportados para el anio 2018.