ANÁLISIS INFERENCIAL

CARGA DE DATOS Y LIBRERÍAS

# Limpiar entorno
rm(list = ls())

# Librerías
if (!require("dplyr")) install.packages("dplyr")
if (!require("stringr")) install.packages("stringr")
if (!require("gt")) install.packages("gt")

library(dplyr)
library(stringr)
library(gt)

# Cargar datos
datos <- read.csv("D:/provincias_estados_unidos_2500.csv")

cat("✓ Datos cargados correctamente\n")
## ✓ Datos cargados correctamente
cat("✓ Número de observaciones:", nrow(datos), "\n")
## ✓ Número de observaciones: 2500
# Extraer variable

df_provincia <- data.frame(

  provincia = toupper(trimws(datos$PROVINCIA))

)

# Reemplazar categorías

df_provincia$provincia <- case_when(

# --- ESTADOS DEL NORTE ---

df_provincia$provincia %in% c(

"WASHINGTON", "OREGON", "IDAHO", "MONTANA", "NORTH DAKOTA",

"SOUTH DAKOTA", "MINNESOTA", "WISCONSIN", "MICHIGAN", "WYOMING",

"MAINE", "NEW HAMPSHIRE", "VERMONT", "MASSACHUSETTS",

"RHODE ISLAND", "CONNECTICUT", "NEW YORK"

) ~ "Norte",

# --- ESTADOS DEL CENTRO ---

df_provincia$provincia %in% c(

"NEVADA", "UTAH", "COLORADO", "NEBRASKA", "IOWA",

"ILLINOIS", "INDIANA", "OHIO", "CALIFORNIA", "SUR DE CALIFORNIA",

"NORTE DE CALIFORNIA", "KANSAS", "MISSOURI", "KENTUCKY",

"WEST VIRGINIA", "VIRGINIA", "MARYLAND", "DELAWARE",

"PENNSYLVANIA", "NEW JERSEY"

) ~ "Centro",

# --- ESTADOS DEL SUR ---

df_provincia$provincia %in% c(

"ARIZONA", "NEW MEXICO", "TEXAS", "OKLAHOMA", "ARKANSAS",

"LOUISIANA", "MISSISSIPPI", "ALABAMA", "TENNESSEE",

"NORTH CAROLINA", "SOUTH CAROLINA", "GEORGIA", "FLORIDA"

) ~ "Sur",

TRUE ~ "Centro"

)

# Orden de categorías

orden_provincia <- c(

"Norte",

"Centro",

"Sur",

"Sin registro"

)

# Convertir en factor ordenado

df_provincia$provincia <- factor(

df_provincia$provincia,

levels = orden_provincia

)

TABLA DE DISTRIBUCIÓN DE PROBABILIDAD

# Frecuencias y probabilidades

ni <- table(df_provincia$provincia)

hi <- round(prop.table(ni), 4)

P <- round(hi * 100, 2)

# Crear tabla base

tabla_finalprovincia <- data.frame(

Provincia = names(ni),

ni = as.numeric(ni),

hi = as.numeric(hi),

P = as.numeric(P)

)

# Fila TOTAL

fila_total <- data.frame(

Provincia = "TOTAL",

ni = sum(tabla_finalprovincia$ni),

hi = round(sum(tabla_finalprovincia$hi), 4),

P = round(sum(tabla_finalprovincia$P), 2)

)

# Agregar TOTAL

tabla_finalprovincia <- rbind(

tabla_finalprovincia,

fila_total

)

tabla_finalprovincia
##      Provincia   ni     hi      P
## 1        Norte  914 0.3656  36.56
## 2       Centro  978 0.3912  39.12
## 3          Sur  608 0.2432  24.32
## 4 Sin registro    0 0.0000   0.00
## 5        TOTAL 2500 1.0000 100.00
# Tabla gt

tabla_provincia_gt <- tabla_finalprovincia %>%

gt() %>%

tab_header(

title = md("**Tabla N° 1**"),

subtitle = md("Distribución de probabilidad de la ubicación regional de las muestras geoquímicas y geológicas en depósitos minerales de Estados Unidos")

) %>%

tab_source_note(

source_note = md("Autor: Grupo 2")

) %>%

tab_options(

table.border.top.color = "black",

table.border.bottom.color = "black",

heading.border.bottom.color = "black",

heading.border.bottom.width = px(2),

column_labels.border.top.color = "black",

column_labels.border.bottom.color = "black",

column_labels.border.bottom.width = px(2),

table_body.hlines.color = "gray",

table_body.border.bottom.color = "black",

row.striping.include_table_body = TRUE

) %>%

tab_style(

style = cell_text(weight = "bold"),

locations = cells_body(rows = Provincia == "TOTAL")

)

tabla_provincia_gt
Tabla N° 1
Distribución de probabilidad de la ubicación regional de las muestras geoquímicas y geológicas en depósitos minerales de Estados Unidos
Provincia ni hi P
Norte 914 0.3656 36.56
Centro 978 0.3912 39.12
Sur 608 0.2432 24.32
Sin registro 0 0.0000 0.00
TOTAL 2500 1.0000 100.00
Autor: Grupo 2

TABLA DE DISTRIBUCIÓN DE PROBABILIDAD AGRUPADA

# Frecuencias acumuladas

Ni <- cumsum(ni)

Hi <- round(cumsum(hi), 4)

Pi <- round(cumsum(P), 2)

# Tabla agrupada

tabla_agrupada <- data.frame(

Provincia = names(ni),

ni = as.numeric(ni),

hi = as.numeric(hi),

P = as.numeric(P),

Ni = Ni,

Hi = Hi,

Pi = Pi

)

tabla_agrupada
##                 Provincia  ni     hi     P   Ni     Hi     Pi
## Norte               Norte 914 0.3656 36.56  914 0.3656  36.56
## Centro             Centro 978 0.3912 39.12 1892 0.7568  75.68
## Sur                   Sur 608 0.2432 24.32 2500 1.0000 100.00
## Sin registro Sin registro   0 0.0000  0.00 2500 1.0000 100.00
# Tabla agrupada gt

tabla_agrupada_gt <- tabla_agrupada %>%

gt() %>%

tab_header(

title = md("**Tabla N° 2**"),

subtitle = md("Distribución acumulada de probabilidad de las regiones analizadas")

) %>%

tab_source_note(

source_note = md("Autor: Grupo 2")

)

tabla_agrupada_gt
Tabla N° 2
Distribución acumulada de probabilidad de las regiones analizadas
Provincia ni hi P Ni Hi Pi
Norte 914 0.3656 36.56 914 0.3656 36.56
Centro 978 0.3912 39.12 1892 0.7568 75.68
Sur 608 0.2432 24.32 2500 1.0000 100.00
Sin registro 0 0.0000 0.00 2500 1.0000 100.00
Autor: Grupo 2

GRÁFICAS DE DISTRIBUCIÓN DE PROBABILIDAD

# Extraer probabilidades sin TOTAL

P_global <- as.numeric(

tabla_finalprovincia$P[
1:(nrow(tabla_finalprovincia)-1)
]

)

# Gráfico de barras

barplot(

P_global,

main = "Gráfica Nº1: Distribución regional de muestras geoquímicas\ny geológicas en depósitos minerales de Estados Unidos",

cex.main = 0.8,

xlab = "Región",

ylab = "Probabilidad (%)",

col = "blue",

names.arg = tabla_finalprovincia$Provincia[
1:(nrow(tabla_finalprovincia)-1)
],

cex.names = 0.9,

ylim = c(0, 100),

las = 1

)

CÁLCULO DE PROBABILIDAD

# Eliminar fila TOTAL

tabla_sin_total <- tabla_finalprovincia[

tabla_finalprovincia$Provincia != "TOTAL",

]

# Extraer probabilidad Centro

prob_centro <- tabla_sin_total$P[

tabla_sin_total$Provincia == "Centro"

]

# Gráfico explicativo

plot(

1,

type = "n",

axes = FALSE,

xlab = "",

ylab = ""

)

text(

x = 1,
y = 1,

labels = paste(

"Cálculo de probabilidad\n(Estimación general)\n\n",

"¿Qué probabilidad existe de que una muestra\n",

"geoquímica o geológica analizada en depósitos\n",

"minerales de Estados Unidos provenga de la\n",

"región Centro?\n\n",

"Probabilidad = ", prob_centro, " (%)",

sep = ""

),

cex = 1.3,

col = "black",

font = 2

)

CONCLUSIONES

"La distribución regional de las muestras geoquímicas y geológicas presenta diferencias probabilísticas entre las regiones Norte, Centro y Sur de Estados Unidos. La región Centro registra la mayor participación relativa dentro del conjunto de observaciones, indicando una mayor concentración de muestras provenientes de esta zona. Las gráficas acumuladas y porcentuales permiten visualizar el comportamiento probabilístico regional y facilitan la interpretación espacial de los depósitos minerales analizados."
## [1] "La distribución regional de las muestras geoquímicas y geológicas presenta diferencias probabilísticas entre las regiones Norte, Centro y Sur de Estados Unidos. La región Centro registra la mayor participación relativa dentro del conjunto de observaciones, indicando una mayor concentración de muestras provenientes de esta zona. Las gráficas acumuladas y porcentuales permiten visualizar el comportamiento probabilístico regional y facilitan la interpretación espacial de los depósitos minerales analizados."