STATENombre Variable: ESTADO
Tipo: Cualitativa Nominal
Escala: Nominal
El estado administrativo responsable de cada mina es variable de interés porque las emisiones de CO2, NOx y CH4 están registradas en razón de esta variable. Cada instalación hereda el valor de emisión del estado al que pertenece administrativamente según STATE.
library(dplyr)
library(gt)
datos <- read.csv("~/Estudio/TERCER SEMESTRE/Estadistica/Dataset.csv",
sep = ";", stringsAsFactors = FALSE)
ESTADO <- trimws(as.character(datos$STATE))
ESTADO <- ESTADO[!is.na(ESTADO) & ESTADO != ""]
n <- length(ESTADO)
cat("Variable : STATE\n")## Variable : STATE
## Nombre : ESTADO
## n validos : 2996
# Se agrupan los 48 estados en 8 regiones para tabla de max 10 filas
region <- character(length(ESTADO))
for (i in 1:length(ESTADO)) {
if (ESTADO[i] %in% c("KY","WV","VA","PA","TN")) {
region[i] <- "Appalachia"
} else if (ESTADO[i] %in% c("AL","GA","MS","AR","LA","FL","SC","NC","TX","OK")) {
region[i] <- "Sur"
} else if (ESTADO[i] %in% c("OH","IN","MI","NY","MD","NJ","CT","MA","VT","NH","ME","RI","DE")) {
region[i] <- "Noreste"
} else if (ESTADO[i] %in% c("IL","MO","KS","IA","MN","WI","ND","SD","NE")) {
region[i] <- "Centro"
} else if (ESTADO[i] %in% c("AZ","NM","CO","UT","NV","CA")) {
region[i] <- "Suroeste"
} else if (ESTADO[i] %in% c("WA","OR","ID","MT","WY")) {
region[i] <- "Noroeste"
} else if (ESTADO[i] %in% c("AK","HI")) {
region[i] <- "Alaska/Hawaii"
} else {
region[i] <- "Otros"
}
}
cat("Distribución por región:\n")## Distribución por región:
## region
## Alaska/Hawaii Appalachia Centro Noreste Noroeste
## 22 1509 148 359 123
## Otros Sur Suroeste
## 3 507 325
TDF <- as.data.frame(table(region)) %>%
rename(Region = region, fi = Freq) %>%
arrange(desc(fi)) %>%
mutate(
fri = round(fi / n * 100, 2),
Ni_asc = cumsum(fi),
Ni_des = rev(cumsum(rev(fi))),
Hi_asc = round(cumsum(fri), 2),
Hi_des = round(rev(cumsum(rev(fri))), 2)
)
TDF_total <- TDF %>%
add_row(
Region = "Total",
fi = sum(TDF$fi),
fri = round(sum(TDF$fri), 2),
Ni_asc = max(TDF$Ni_asc),
Ni_des = min(TDF$Ni_des),
Hi_asc = max(TDF$Hi_asc),
Hi_des = min(TDF$Hi_des)
)## Region fi fri Ni_asc Ni_des Hi_asc Hi_des
## 1 Appalachia 1509 50.37 1509 2996 50.37 100.00
## 2 Sur 507 16.92 2016 1487 67.29 49.63
## 3 Noreste 359 11.98 2375 980 79.27 32.71
## 4 Suroeste 325 10.85 2700 621 90.12 20.73
## 5 Centro 148 4.94 2848 296 95.06 9.88
## 6 Noroeste 123 4.11 2971 148 99.17 4.94
## 7 Alaska/Hawaii 22 0.73 2993 25 99.90 0.83
## 8 Otros 3 0.10 2996 3 100.00 0.10
## 9 Total 2996 100.00 2996 3 100.00 0.10
TDF_total %>%
gt() %>%
tab_header(
title = md("**Tabla 1**"),
subtitle = md("Distribución de frecuencias por región geográfica — STATE")
) %>%
cols_label(
Region = "Región", fi = "fi",
fri = "fri (%)",
Ni_asc = "Ni Asc.", Ni_des = "Ni Desc.",
Hi_asc = "Hi Asc. %", Hi_des = "Hi Desc. %"
) %>%
tab_style(
style = cell_text(weight = "bold"),
locations = cells_body(rows = Region == "Total")
) %>%
tab_source_note(md("Fuente: Dataset MSHA — Instalaciones Mineras EE.UU."))| Tabla 1 | ||||||
| Distribución de frecuencias por región geográfica — STATE | ||||||
| Región | fi | fri (%) | Ni Asc. | Ni Desc. | Hi Asc. % | Hi Desc. % |
|---|---|---|---|---|---|---|
| Appalachia | 1509 | 50.37 | 1509 | 2996 | 50.37 | 100.00 |
| Sur | 507 | 16.92 | 2016 | 1487 | 67.29 | 49.63 |
| Noreste | 359 | 11.98 | 2375 | 980 | 79.27 | 32.71 |
| Suroeste | 325 | 10.85 | 2700 | 621 | 90.12 | 20.73 |
| Centro | 148 | 4.94 | 2848 | 296 | 95.06 | 9.88 |
| Noroeste | 123 | 4.11 | 2971 | 148 | 99.17 | 4.94 |
| Alaska/Hawaii | 22 | 0.73 | 2993 | 25 | 99.90 | 0.83 |
| Otros | 3 | 0.10 | 2996 | 3 | 100.00 | 0.10 |
| Total | 2996 | 100.00 | 2996 | 3 | 100.00 | 0.10 |
| Fuente: Dataset MSHA — Instalaciones Mineras EE.UU. | ||||||
colores <- c("#C00000","#FF9999","#7B0000","#FF6666",
"#FF3333","#CC0000","#FF0000","#FFB3B3")
par(mar = c(5, 4, 4, 10), xpd = TRUE)
pie(
TDF_graf$fri,
labels = NA,
col = colores[1:nrow(TDF_graf)],
main = "Gráfica 3: Distribución Porcentual — ESTADO por Región"
)
legend(
x = 1.2,
y = 0,
legend = paste0(TDF_graf$Region, " (", TDF_graf$fri, "%)"),
fill = colores[1:nrow(TDF_graf)],
cex = 0.8,
bty = "n"
)moda_idx <- which.max(TDF_graf$fi)
moda <- TDF_graf$Region[moda_idx]
moda_fi <- TDF_graf$fi[moda_idx]
moda_fri <- TDF_graf$fri[moda_idx]
cat("Moda:", moda, "(", moda_fi, "instalaciones,", moda_fri, "%)\n")## Moda: Appalachia ( 1509 instalaciones, 50.37 %)
data.frame(
Variable = "Estado administrativo (STATE)",
Indicador = "Moda",
Resultado = paste0(moda, " (", moda_fi, " instalaciones, ", moda_fri, "%)")
) %>%
gt() %>%
tab_header(
title = md("**Tabla 2**"),
subtitle = md("Indicadores estadísticos — ESTADO por región")
) %>%
cols_label(
Variable = "Variable analizada",
Indicador = "Indicador estadístico",
Resultado = "Resultado"
) %>%
tab_style(
style = cell_text(weight = "bold"),
locations = cells_body()
) %>%
tab_source_note(md("Fuente: Dataset MSHA — Instalaciones Mineras EE.UU."))| Tabla 2 | ||
| Indicadores estadísticos — ESTADO por región | ||
| Variable analizada | Indicador estadístico | Resultado |
|---|---|---|
| Estado administrativo (STATE) | Moda | Appalachia (1509 instalaciones, 50.37%) |
| Fuente: Dataset MSHA — Instalaciones Mineras EE.UU. | ||
cat(sprintf(
"La variable ESTADO representa el estado administrativo responsable
de cada instalacion minera. A diferencia de MSTATE que indica la
ubicacion fisica, STATE es la variable en razon de la cual se
registran las emisiones de CO2, NOx y CH4 para el anio 2018.
Se agruparon los %d registros validos en 8 regiones geograficas
para facilitar el analisis estadistico.
La region con mayor responsabilidad administrativa sobre
instalaciones mineras es %s con %d registros que representan
el %.2f%% del total.
Esta distribucion es clave para el proyecto: al ser STATE la
variable que vincula cada mina con su nivel de emisiones
estatales, la region de mayor concentracion administrativa es
tambien la que mayor impacto tiene en los niveles de CO2, NOx
y CH4 reportados en 2018.\n",
n, moda, moda_fi, moda_fri
))## La variable ESTADO representa el estado administrativo responsable
## de cada instalacion minera. A diferencia de MSTATE que indica la
## ubicacion fisica, STATE es la variable en razon de la cual se
## registran las emisiones de CO2, NOx y CH4 para el anio 2018.
##
## Se agruparon los 2996 registros validos en 8 regiones geograficas
## para facilitar el analisis estadistico.
##
## La region con mayor responsabilidad administrativa sobre
## instalaciones mineras es Appalachia con 1509 registros que representan
## el 50.37% del total.
##
## Esta distribucion es clave para el proyecto: al ser STATE la
## variable que vincula cada mina con su nivel de emisiones
## estatales, la region de mayor concentracion administrativa es
## tambien la que mayor impacto tiene en los niveles de CO2, NOx
## y CH4 reportados en 2018.