MSTATENombre Variable: ESTADO_MINA
Tipo: Cualitativa Nominal
Escala: Nominal
El estado donde se ubica físicamente cada mina es la variable geográfica principal del proyecto. Permite identificar qué regiones concentran mayor actividad minera y correlacionarlas con los niveles de emisiones de CO2, NOx y CH4 por estado.
library(dplyr)
library(gt)
datos <- read.csv("~/Estudio/TERCER SEMESTRE/Estadistica/Dataset.csv",
sep = ";", stringsAsFactors = FALSE)
ESTADO_MINA <- trimws(as.character(datos$MSTATE))
ESTADO_MINA <- ESTADO_MINA[!is.na(ESTADO_MINA) & ESTADO_MINA != ""]
n <- length(ESTADO_MINA)
cat("Variable : MSTATE\n")## Variable : MSTATE
## Nombre : ESTADO_MINA
## n validos : 2921
# Se agrupan los 48 estados en 8 regiones para tabla de max 10 filas
region <- character(length(ESTADO_MINA))
for (i in 1:length(ESTADO_MINA)) {
if (ESTADO_MINA[i] %in% c("KY","WV","VA","PA","TN")) {
region[i] <- "Appalachia"
} else if (ESTADO_MINA[i] %in% c("AL","GA","MS","AR","LA","FL","SC","NC","TX","OK")) {
region[i] <- "Sur"
} else if (ESTADO_MINA[i] %in% c("OH","IN","MI","NY","MD","NJ","CT","MA","VT","NH","ME","RI","DE")) {
region[i] <- "Noreste"
} else if (ESTADO_MINA[i] %in% c("IL","MO","KS","IA","MN","WI","ND","SD","NE")) {
region[i] <- "Centro"
} else if (ESTADO_MINA[i] %in% c("AZ","NM","CO","UT","NV","CA")) {
region[i] <- "Suroeste"
} else if (ESTADO_MINA[i] %in% c("WA","OR","ID","MT","WY")) {
region[i] <- "Noroeste"
} else if (ESTADO_MINA[i] %in% c("AK","HI")) {
region[i] <- "Alaska/Hawaii"
} else {
region[i] <- "Otros"
}
}
cat("Distribución por región:\n")## Distribución por región:
## region
## Alaska/Hawaii Appalachia Centro Noreste Noroeste
## 20 1506 153 346 130
## Otros Sur Suroeste
## 3 464 299
TDF <- as.data.frame(table(region)) %>%
rename(Region = region, fi = Freq) %>%
arrange(desc(fi)) %>%
mutate(
fri = round(fi / n * 100, 2),
Ni_asc = cumsum(fi),
Ni_des = rev(cumsum(rev(fi))),
Hi_asc = round(cumsum(fri), 2),
Hi_des = round(rev(cumsum(rev(fri))), 2)
)
TDF_total <- TDF %>%
add_row(
Region = "Total",
fi = sum(TDF$fi),
fri = round(sum(TDF$fri), 2),
Ni_asc = max(TDF$Ni_asc),
Ni_des = min(TDF$Ni_des),
Hi_asc = max(TDF$Hi_asc),
Hi_des = min(TDF$Hi_des)
)## Region fi fri Ni_asc Ni_des Hi_asc Hi_des
## 1 Appalachia 1506 51.56 1506 2921 51.56 100.00
## 2 Sur 464 15.88 1970 1415 67.44 48.44
## 3 Noreste 346 11.85 2316 951 79.29 32.56
## 4 Suroeste 299 10.24 2615 605 89.53 20.71
## 5 Centro 153 5.24 2768 306 94.77 10.47
## 6 Noroeste 130 4.45 2898 153 99.22 5.23
## 7 Alaska/Hawaii 20 0.68 2918 23 99.90 0.78
## 8 Otros 3 0.10 2921 3 100.00 0.10
## 9 Total 2921 100.00 2921 3 100.00 0.10
TDF_total %>%
gt() %>%
tab_header(
title = md("**Tabla 1**"),
subtitle = md("Distribución de frecuencias por región geográfica — MSTATE")
) %>%
cols_label(
Region = "Región", fi = "fi",
fri = "fri (%)",
Ni_asc = "Ni Asc.", Ni_des = "Ni Desc.",
Hi_asc = "Hi Asc. %", Hi_des = "Hi Desc. %"
) %>%
tab_style(
style = cell_text(weight = "bold"),
locations = cells_body(rows = Region == "Total")
) %>%
tab_source_note(md("Fuente: Dataset MSHA — Instalaciones Mineras EE.UU."))| Tabla 1 | ||||||
| Distribución de frecuencias por región geográfica — MSTATE | ||||||
| Región | fi | fri (%) | Ni Asc. | Ni Desc. | Hi Asc. % | Hi Desc. % |
|---|---|---|---|---|---|---|
| Appalachia | 1506 | 51.56 | 1506 | 2921 | 51.56 | 100.00 |
| Sur | 464 | 15.88 | 1970 | 1415 | 67.44 | 48.44 |
| Noreste | 346 | 11.85 | 2316 | 951 | 79.29 | 32.56 |
| Suroeste | 299 | 10.24 | 2615 | 605 | 89.53 | 20.71 |
| Centro | 153 | 5.24 | 2768 | 306 | 94.77 | 10.47 |
| Noroeste | 130 | 4.45 | 2898 | 153 | 99.22 | 5.23 |
| Alaska/Hawaii | 20 | 0.68 | 2918 | 23 | 99.90 | 0.78 |
| Otros | 3 | 0.10 | 2921 | 3 | 100.00 | 0.10 |
| Total | 2921 | 100.00 | 2921 | 3 | 100.00 | 0.10 |
| Fuente: Dataset MSHA — Instalaciones Mineras EE.UU. | ||||||
colores <- c("#1f78b4","#33a02c","#e31a1c","#ff7f00",
"#6a3d9a","#b15928","#a6cee3","#b2df8a")
par(mar = c(5, 4, 4, 10), xpd = TRUE)
pie(
TDF_graf$fri,
labels = NA,
col = colores[1:nrow(TDF_graf)],
main = "Gráfica 3: Distribución Porcentual — ESTADO_MINA por Región"
)
legend(
x = 1.2,
y = 0,
legend = paste0(TDF_graf$Region, " (", TDF_graf$fri, "%)"),
fill = colores[1:nrow(TDF_graf)],
cex = 0.8,
bty = "n"
)moda_idx <- which.max(TDF_graf$fi)
moda <- TDF_graf$Region[moda_idx]
moda_fi <- TDF_graf$fi[moda_idx]
moda_fri <- TDF_graf$fri[moda_idx]
cat("Moda:", moda, "(", moda_fi, "instalaciones,", moda_fri, "%)\n")## Moda: Appalachia ( 1506 instalaciones, 51.56 %)
data.frame(
Variable = "Estado de la mina (MSTATE)",
Indicador = "Moda",
Resultado = paste0(moda, " (", moda_fi, " instalaciones, ", moda_fri, "%)")
) %>%
gt() %>%
tab_header(
title = md("**Tabla 2**"),
subtitle = md("Indicadores estadísticos — ESTADO_MINA por región")
) %>%
cols_label(
Variable = "Variable analizada",
Indicador = "Indicador estadístico",
Resultado = "Resultado"
) %>%
tab_style(
style = cell_text(weight = "bold"),
locations = cells_body()
) %>%
tab_source_note(md("Fuente: Dataset MSHA — Instalaciones Mineras EE.UU."))| Tabla 2 | ||
| Indicadores estadísticos — ESTADO_MINA por región | ||
| Variable analizada | Indicador estadístico | Resultado |
|---|---|---|
| Estado de la mina (MSTATE) | Moda | Appalachia (1506 instalaciones, 51.56%) |
| Fuente: Dataset MSHA — Instalaciones Mineras EE.UU. | ||
cat(sprintf(
"La variable ESTADO_MINA fue agrupada en 8 regiones geograficas
para facilitar su analisis estadistico. El total de registros
validos es de %d instalaciones mineras.
La region con mayor concentracion de instalaciones mineras es
%s con %d registros que representan el %.2f%% del total.
Esta distribucion geografica no es uniforme: la region de
Appalachia concentra la mayor actividad minera del pais,
lo cual es consistente con la hipotesis del proyecto de que
existe una correlacion positiva entre densidad minera por
estado y los niveles de emisiones de CO2, NOx y CH4
reportados para el anio 2018.\n",
n, moda, moda_fi, moda_fri
))## La variable ESTADO_MINA fue agrupada en 8 regiones geograficas
## para facilitar su analisis estadistico. El total de registros
## validos es de 2921 instalaciones mineras.
##
## La region con mayor concentracion de instalaciones mineras es
## Appalachia con 1506 registros que representan el 51.56% del total.
##
## Esta distribucion geografica no es uniforme: la region de
## Appalachia concentra la mayor actividad minera del pais,
## lo cual es consistente con la hipotesis del proyecto de que
## existe una correlacion positiva entre densidad minera por
## estado y los niveles de emisiones de CO2, NOx y CH4
## reportados para el anio 2018.