Variable Original: MINE_TYPE

Nombre Variable: TIPO_MINA
Tipo: Cualitativa Nominal
Escala: Nominal

Justificación de la variable

El tipo de mina es clave para el proyecto porque diferentes modalidades de explotación generan distintos niveles de emisiones. Identificar qué tipos predominan permite entender qué sectores mineros tienen mayor impacto ambiental en términos de CO2, NOx y CH4.


1. Carga y Preparación de los Datos

library(dplyr)
library(gt)

datos     <- read.csv("~/Estudio/TERCER SEMESTRE/Estadistica/Dataset.csv",
                      sep = ";", stringsAsFactors = FALSE)
TIPO_MINA <- trimws(as.character(datos$MINE_TYPE))
TIPO_MINA <- TIPO_MINA[!is.na(TIPO_MINA) & TIPO_MINA != ""]
n         <- length(TIPO_MINA)

cat("Variable  : MINE_TYPE\n")
## Variable  : MINE_TYPE
cat("Nombre    : TIPO_MINA\n")
## Nombre    : TIPO_MINA
cat("n validos :", n, "\n")
## n validos : 2922

2. Recodificación de Categorías

# Se reemplazan los codigos numericos por etiquetas descriptivas
codigos   <- c("1","2","3","4","5","6","10","11","12")
etiquetas <- c("1-Underground","2-Surface","3-Strip","4-Auger",
               "5-Culm/Refuse","6-Dredge","10-In Situ",
               "11-Mill/Prep Plant","12-Shops/Yards")

etiq <- TIPO_MINA
for (i in seq_along(codigos)) {
  etiq[etiq == codigos[i]] <- etiquetas[i]
}

cat("Categorías encontradas:\n")
## Categorías encontradas:
print(table(etiq))
## etiq
##      1-Underground         10-In Situ 11-Mill/Prep Plant     12-Shops/Yards 
##                 69                  5                757                964 
##          2-Surface            3-Strip            4-Auger      5-Culm/Refuse 
##                 19                  4                104                366 
##           6-Dredge 
##                634

3. Tabla de Distribución de Frecuencias

3.1 Cálculo de Frecuencias

TDF <- as.data.frame(table(etiq)) %>%
  rename(Tipo = etiq, fi = Freq) %>%
  arrange(desc(fi)) %>%
  mutate(
    fri    = round(fi / n * 100, 2),
    Ni_asc = cumsum(fi),
    Ni_des = rev(cumsum(rev(fi))),
    Hi_asc = round(cumsum(fri), 2),
    Hi_des = round(rev(cumsum(rev(fri))), 2)
  )

TDF_total <- TDF %>%
  add_row(
    Tipo   = "Total",
    fi     = sum(TDF$fi),
    fri    = round(sum(TDF$fri), 2),
    Ni_asc = max(TDF$Ni_asc),
    Ni_des = min(TDF$Ni_des),
    Hi_asc = max(TDF$Hi_asc),
    Hi_des = min(TDF$Hi_des)
  )

3.2 Tabla de Frecuencias (Salida Básica)

print(TDF_total)
##                  Tipo   fi    fri Ni_asc Ni_des Hi_asc Hi_des
## 1      12-Shops/Yards  964  32.99    964   2922  32.99 100.01
## 2  11-Mill/Prep Plant  757  25.91   1721   1958  58.90  67.02
## 3            6-Dredge  634  21.70   2355   1201  80.60  41.11
## 4       5-Culm/Refuse  366  12.53   2721    567  93.13  19.41
## 5             4-Auger  104   3.56   2825    201  96.69   6.88
## 6       1-Underground   69   2.36   2894     97  99.05   3.32
## 7           2-Surface   19   0.65   2913     28  99.70   0.96
## 8          10-In Situ    5   0.17   2918      9  99.87   0.31
## 9             3-Strip    4   0.14   2922      4 100.01   0.14
## 10              Total 2922 100.01   2922      4 100.01   0.14

3.3 Presentación de la Tabla

TDF_total %>%
  gt() %>%
  tab_header(
    title    = md("**Tabla 1**"),
    subtitle = md("Distribución de frecuencias por tipo de mina — MINE_TYPE")
  ) %>%
  cols_label(
    Tipo   = "Tipo de Mina", fi = "fi",
    fri    = "fri (%)",
    Ni_asc = "Ni Asc.", Ni_des = "Ni Desc.",
    Hi_asc = "Hi Asc. %", Hi_des = "Hi Desc. %"
  ) %>%
  tab_style(
    style     = cell_text(weight = "bold"),
    locations = cells_body(rows = Tipo == "Total")
  ) %>%
  tab_source_note(md("Fuente: Dataset MSHA — Instalaciones Mineras EE.UU."))
Tabla 1
Distribución de frecuencias por tipo de mina — MINE_TYPE
Tipo de Mina fi fri (%) Ni Asc. Ni Desc. Hi Asc. % Hi Desc. %
12-Shops/Yards 964 32.99 964 2922 32.99 100.01
11-Mill/Prep Plant 757 25.91 1721 1958 58.90 67.02
6-Dredge 634 21.70 2355 1201 80.60 41.11
5-Culm/Refuse 366 12.53 2721 567 93.13 19.41
4-Auger 104 3.56 2825 201 96.69 6.88
1-Underground 69 2.36 2894 97 99.05 3.32
2-Surface 19 0.65 2913 28 99.70 0.96
10-In Situ 5 0.17 2918 9 99.87 0.31
3-Strip 4 0.14 2922 4 100.01 0.14
Total 2922 100.01 2922 4 100.01 0.14
Fuente: Dataset MSHA — Instalaciones Mineras EE.UU.

4. Diagramas de Barras

4.1 Frecuencia Absoluta

par(mar = c(10, 5, 4, 2))
barplot(
  TDF_graf$fi,
  names.arg = TDF_graf$Tipo,
  las       = 2,
  col       = "#ED7D31",
  main      = "Gráfica 1: Frecuencia Absoluta — TIPO_MINA",
  ylab      = "Frecuencia absoluta (fi)",
  cex.names = 0.85,
  cex.axis  = 0.9
)

4.2 Frecuencia Relativa

par(mar = c(10, 5, 4, 2))
barplot(
  TDF_graf$fri,
  names.arg = TDF_graf$Tipo,
  las       = 2,
  col       = "#F9C49A",
  main      = "Gráfica 2: Frecuencia Relativa — TIPO_MINA",
  ylab      = "Frecuencia relativa (%)",
  ylim      = c(0, max(TDF_graf$fri) + 5),
  cex.names = 0.85,
  cex.axis  = 0.9
)


5. Diagrama Circular

colores <- c("#ED7D31","#F9C49A","#C55A11","#F4B183",
             "#843D0A","#FFAB5C","#FF7F0E","#FF6A00","#E25400")

par(mar = c(5, 4, 4, 12), xpd = TRUE)
pie(
  TDF_graf$fri,
  labels = NA,
  col    = colores[1:nrow(TDF_graf)],
  main   = "Gráfica 3: Distribución Porcentual — TIPO_MINA"
)
legend(
  x      = 1.2,
  y      = 0,
  legend = paste0(TDF_graf$Tipo, " (", TDF_graf$fri, "%)"),
  fill   = colores[1:nrow(TDF_graf)],
  cex    = 0.75,
  bty    = "n"
)

par(xpd = FALSE)

6. Indicadores Estadísticos

6.1 Moda

moda_idx <- which.max(TDF_graf$fi)
moda     <- TDF_graf$Tipo[moda_idx]
moda_fi  <- TDF_graf$fi[moda_idx]
moda_fri <- TDF_graf$fri[moda_idx]

cat("Moda:", moda, "(", moda_fi, "instalaciones,", moda_fri, "%)\n")
## Moda: 12-Shops/Yards ( 964 instalaciones, 32.99 %)

6.2 Tabla Resumen de Indicadores

data.frame(
  Variable  = "Tipo de mina (MINE_TYPE)",
  Indicador = "Moda",
  Resultado = paste0(moda, " (", moda_fi, " instalaciones, ", moda_fri, "%)")
) %>%
  gt() %>%
  tab_header(
    title    = md("**Tabla 2**"),
    subtitle = md("Indicadores estadísticos — TIPO_MINA")
  ) %>%
  cols_label(
    Variable  = "Variable analizada",
    Indicador = "Indicador estadístico",
    Resultado = "Resultado"
  ) %>%
  tab_style(
    style     = cell_text(weight = "bold"),
    locations = cells_body()
  ) %>%
  tab_source_note(md("Fuente: Dataset MSHA — Instalaciones Mineras EE.UU."))
Tabla 2
Indicadores estadísticos — TIPO_MINA
Variable analizada Indicador estadístico Resultado
Tipo de mina (MINE_TYPE) Moda 12-Shops/Yards (964 instalaciones, 32.99%)
Fuente: Dataset MSHA — Instalaciones Mineras EE.UU.

7. Conclusión

cat(sprintf(
"La variable TIPO_MINA clasifica las instalaciones mineras segun
su modalidad de explotacion. El total de registros validos es
de %d instalaciones.

El tipo de mina mas frecuente es %s con %d registros que
representan el %.2f%% del total de la muestra.

Esta distribucion es relevante para el proyecto porque los tipos
de mina predominantes determinan el nivel de emisiones generadas.
Las operaciones de superficie y plantas de procesamiento son las
que mayor impacto tienen sobre las emisiones de CO2, NOx y CH4
reportadas por estado en 2018, lo que refuerza la hipotesis de
correlacion entre el tipo de actividad minera y el volumen de
gases emitidos.\n",
  n, moda, moda_fi, moda_fri
))
## La variable TIPO_MINA clasifica las instalaciones mineras segun
## su modalidad de explotacion. El total de registros validos es
## de 2922 instalaciones.
## 
## El tipo de mina mas frecuente es 12-Shops/Yards con 964 registros que
## representan el 32.99% del total de la muestra.
## 
## Esta distribucion es relevante para el proyecto porque los tipos
## de mina predominantes determinan el nivel de emisiones generadas.
## Las operaciones de superficie y plantas de procesamiento son las
## que mayor impacto tienen sobre las emisiones de CO2, NOx y CH4
## reportadas por estado en 2018, lo que refuerza la hipotesis de
## correlacion entre el tipo de actividad minera y el volumen de
## gases emitidos.