Variable Cualitativa Nominal: Estado Administrativo (STATE)

Variable Original: `STATE`

Nombre Variable: ESTADO
Tipo: Cualitativa Nominal
Escala: Nominal

Justificación de la variable

El estado administrativo responsable de cada mina es variable de interés porque las emisiones de CO2, NOx y CH4 están registradas en razón de esta variable. Cada instalación hereda el valor de emisión del estado al que pertenece administrativamente según STATE.

1. Carga y Preparación de los Datos

library(dplyr)
library(gt)

datos  <- read.csv("~/Estudio/TERCER SEMESTRE/Estadistica/Dataset.csv",
                   sep = ";", stringsAsFactors = FALSE)
ESTADO <- trimws(as.character(datos$STATE))
ESTADO <- ESTADO[!is.na(ESTADO) & ESTADO != ""]
n      <- length(ESTADO)

cat("Variable  : STATE\n")

## Variable  : STATE

cat("Nombre    : ESTADO\n")

## Nombre    : ESTADO

cat("n validos :", n, "\n")

## n validos : 2996

2. Agrupación por Región Geográfica

# Se agrupan los 48 estados en 8 regiones para tabla de max 10 filas
region <- character(length(ESTADO))

for (i in 1:length(ESTADO)) {
  if (ESTADO[i] %in% c("KY","WV","VA","PA","TN")) {
    region[i] <- "Appalachia"
  } else if (ESTADO[i] %in% c("AL","GA","MS","AR","LA","FL","SC","NC","TX","OK")) {
    region[i] <- "Sur"
  } else if (ESTADO[i] %in% c("OH","IN","MI","NY","MD","NJ","CT","MA","VT","NH","ME","RI","DE")) {
    region[i] <- "Noreste"
  } else if (ESTADO[i] %in% c("IL","MO","KS","IA","MN","WI","ND","SD","NE")) {
    region[i] <- "Centro"
  } else if (ESTADO[i] %in% c("AZ","NM","CO","UT","NV","CA")) {
    region[i] <- "Suroeste"
  } else if (ESTADO[i] %in% c("WA","OR","ID","MT","WY")) {
    region[i] <- "Noroeste"
  } else if (ESTADO[i] %in% c("AK","HI")) {
    region[i] <- "Alaska/Hawaii"
  } else {
    region[i] <- "Otros"
  }
}

cat("Distribución por región:\n")

## Distribución por región:

print(table(region))

## region
## Alaska/Hawaii    Appalachia        Centro       Noreste      Noroeste 
##            22          1509           148           359           123 
##         Otros           Sur      Suroeste 
##             3           507           325

3. Tabla de Distribución de Frecuencias

3.1 Cálculo de Frecuencias

TDF <- as.data.frame(table(region)) %>%
  rename(Region = region, fi = Freq) %>%
  arrange(desc(fi)) %>%
  mutate(
    fri    = round(fi / n * 100, 2),
    Ni_asc = cumsum(fi),
    Ni_des = rev(cumsum(rev(fi))),
    Hi_asc = round(cumsum(fri), 2),
    Hi_des = round(rev(cumsum(rev(fri))), 2)
  )

TDF_total <- TDF %>%
  add_row(
    Region = "Total",
    fi     = sum(TDF$fi),
    fri    = round(sum(TDF$fri), 2),
    Ni_asc = max(TDF$Ni_asc),
    Ni_des = min(TDF$Ni_des),
    Hi_asc = max(TDF$Hi_asc),
    Hi_des = min(TDF$Hi_des)
  )

3.2 Tabla de Frecuencias (Salida Básica)

print(TDF_total)

##          Region   fi    fri Ni_asc Ni_des Hi_asc Hi_des
## 1    Appalachia 1509  50.37   1509   2996  50.37 100.00
## 2           Sur  507  16.92   2016   1487  67.29  49.63
## 3       Noreste  359  11.98   2375    980  79.27  32.71
## 4      Suroeste  325  10.85   2700    621  90.12  20.73
## 5        Centro  148   4.94   2848    296  95.06   9.88
## 6      Noroeste  123   4.11   2971    148  99.17   4.94
## 7 Alaska/Hawaii   22   0.73   2993     25  99.90   0.83
## 8         Otros    3   0.10   2996      3 100.00   0.10
## 9         Total 2996 100.00   2996      3 100.00   0.10

3.3 Presentación de la Tabla

TDF_total %>%
  gt() %>%
  tab_header(
    title    = md("**Tabla 1**"),
    subtitle = md("Distribución de frecuencias por región geográfica — STATE")
  ) %>%
  cols_label(
    Region = "Región", fi = "fi",
    fri    = "fri (%)",
    Ni_asc = "Ni Asc.", Ni_des = "Ni Desc.",
    Hi_asc = "Hi Asc. %", Hi_des = "Hi Desc. %"
  ) %>%
  tab_style(
    style     = cell_text(weight = "bold"),
    locations = cells_body(rows = Region == "Total")
  ) %>%
  tab_source_note(md("Fuente: Dataset MSHA — Instalaciones Mineras EE.UU."))

Región	fi	fri (%)	Ni Asc.	Ni Desc.	Hi Asc. %	Hi Desc. %
Tabla 1
Distribución de frecuencias por región geográfica — STATE
Appalachia	1509	50.37	1509	2996	50.37	100.00
Sur	507	16.92	2016	1487	67.29	49.63
Noreste	359	11.98	2375	980	79.27	32.71
Suroeste	325	10.85	2700	621	90.12	20.73
Centro	148	4.94	2848	296	95.06	9.88
Noroeste	123	4.11	2971	148	99.17	4.94
Alaska/Hawaii	22	0.73	2993	25	99.90	0.83
Otros	3	0.10	2996	3	100.00	0.10
Total	2996	100.00	2996	3	100.00	0.10
Fuente: Dataset MSHA — Instalaciones Mineras EE.UU.

4. Diagramas de Barras

4.1 Frecuencia Absoluta

par(mar = c(8, 5, 4, 2))
barplot(
  TDF_graf$fi,
  names.arg = TDF_graf$Region,
  las       = 2,
  col       = "#C00000",
  main      = "Gráfica 1: Frecuencia Absoluta — ESTADO por Región",
  ylab      = "Frecuencia absoluta (fi)",
  cex.names = 0.9,
  cex.axis  = 0.9
)

4.2 Frecuencia Relativa

par(mar = c(8, 5, 4, 2))
barplot(
  TDF_graf$fri,
  names.arg = TDF_graf$Region,
  las       = 2,
  col       = "#FF9999",
  main      = "Gráfica 2: Frecuencia Relativa — ESTADO por Región",
  ylab      = "Frecuencia relativa (%)",
  ylim      = c(0, max(TDF_graf$fri) + 5),
  cex.names = 0.9,
  cex.axis  = 0.9
)

5. Diagrama Circular

colores <- c("#C00000","#FF9999","#7B0000","#FF6666",
             "#FF3333","#CC0000","#FF0000","#FFB3B3")

par(mar = c(5, 4, 4, 10), xpd = TRUE)
pie(
  TDF_graf$fri,
  labels = NA,
  col    = colores[1:nrow(TDF_graf)],
  main   = "Gráfica 3: Distribución Porcentual — ESTADO por Región"
)
legend(
  x      = 1.2,
  y      = 0,
  legend = paste0(TDF_graf$Region, " (", TDF_graf$fri, "%)"),
  fill   = colores[1:nrow(TDF_graf)],
  cex    = 0.8,
  bty    = "n"
)

par(xpd = FALSE)

6. Indicadores Estadísticos

6.1 Moda

moda_idx <- which.max(TDF_graf$fi)
moda     <- TDF_graf$Region[moda_idx]
moda_fi  <- TDF_graf$fi[moda_idx]
moda_fri <- TDF_graf$fri[moda_idx]

cat("Moda:", moda, "(", moda_fi, "instalaciones,", moda_fri, "%)\n")

## Moda: Appalachia ( 1509 instalaciones, 50.37 %)

6.2 Tabla Resumen de Indicadores

data.frame(
  Variable  = "Estado administrativo (STATE)",
  Indicador = "Moda",
  Resultado = paste0(moda, " (", moda_fi, " instalaciones, ", moda_fri, "%)")
) %>%
  gt() %>%
  tab_header(
    title    = md("**Tabla 2**"),
    subtitle = md("Indicadores estadísticos — ESTADO por región")
  ) %>%
  cols_label(
    Variable  = "Variable analizada",
    Indicador = "Indicador estadístico",
    Resultado = "Resultado"
  ) %>%
  tab_style(
    style     = cell_text(weight = "bold"),
    locations = cells_body()
  ) %>%
  tab_source_note(md("Fuente: Dataset MSHA — Instalaciones Mineras EE.UU."))

Variable analizada	Indicador estadístico	Resultado
Tabla 2
Indicadores estadísticos — ESTADO por región
Estado administrativo (STATE)	Moda	Appalachia (1509 instalaciones, 50.37%)
Fuente: Dataset MSHA — Instalaciones Mineras EE.UU.

7. Conclusión

cat(sprintf(
"La variable ESTADO representa el estado administrativo responsable
de cada instalacion minera. A diferencia de MSTATE que indica la
ubicacion fisica, STATE es la variable en razon de la cual se
registran las emisiones de CO2, NOx y CH4 para el anio 2018.

Se agruparon los %d registros validos en 8 regiones geograficas
para facilitar el analisis estadistico.

La region con mayor responsabilidad administrativa sobre
instalaciones mineras es %s con %d registros que representan
el %.2f%% del total.

Esta distribucion es clave para el proyecto: al ser STATE la
variable que vincula cada mina con su nivel de emisiones
estatales, la region de mayor concentracion administrativa es
tambien la que mayor impacto tiene en los niveles de CO2, NOx
y CH4 reportados en 2018.\n",
  n, moda, moda_fi, moda_fri
))

## La variable ESTADO representa el estado administrativo responsable
## de cada instalacion minera. A diferencia de MSTATE que indica la
## ubicacion fisica, STATE es la variable en razon de la cual se
## registran las emisiones de CO2, NOx y CH4 para el anio 2018.
## 
## Se agruparon los 2996 registros validos en 8 regiones geograficas
## para facilitar el analisis estadistico.
## 
## La region con mayor responsabilidad administrativa sobre
## instalaciones mineras es Appalachia con 1509 registros que representan
## el 50.37% del total.
## 
## Esta distribucion es clave para el proyecto: al ser STATE la
## variable que vincula cada mina con su nivel de emisiones
## estatales, la region de mayor concentracion administrativa es
## tambien la que mayor impacto tiene en los niveles de CO2, NOx
## y CH4 reportados en 2018.

Variable Cualitativa Nominal: Estado Administrativo (STATE)

Análisis de Correlación entre Actividad Minera y Emisiones de CO2, NOx y CH4

2026-06-04

Variable Original: `STATE`

Justificación de la variable

1. Carga y Preparación de los Datos

2. Agrupación por Región Geográfica

3. Tabla de Distribución de Frecuencias

3.1 Cálculo de Frecuencias

3.2 Tabla de Frecuencias (Salida Básica)

3.3 Presentación de la Tabla

4. Diagramas de Barras

4.1 Frecuencia Absoluta

4.2 Frecuencia Relativa

5. Diagrama Circular

6. Indicadores Estadísticos

6.1 Moda

6.2 Tabla Resumen de Indicadores

7. Conclusión

Variable Cualitativa Nominal: Estado Administrativo (STATE)

Análisis de Correlación entre Actividad Minera y Emisiones de CO2, NOx y CH4

2026-06-04

Variable Original: STATE

Justificación de la variable

1. Carga y Preparación de los Datos

2. Agrupación por Región Geográfica

3. Tabla de Distribución de Frecuencias

3.1 Cálculo de Frecuencias

3.2 Tabla de Frecuencias (Salida Básica)

3.3 Presentación de la Tabla

4. Diagramas de Barras

4.1 Frecuencia Absoluta

4.2 Frecuencia Relativa

5. Diagrama Circular

6. Indicadores Estadísticos

6.1 Moda

6.2 Tabla Resumen de Indicadores

7. Conclusión

Variable Original: `STATE`