ANÁLISIS INFERENCIAL

CARGA DE DATOS Y LIBRERÍAS

# Limpiar entorno
rm(list = ls())

# Librerías
if (!require("dplyr")) install.packages("dplyr")
if (!require("stringr")) install.packages("stringr")
if (!require("gt")) install.packages("gt")

library(dplyr)
library(stringr)
library(gt)

# Cargar datos
datos <- read.csv("D:/provincias_estados_unidos_2500.csv")

cat("✓ Datos cargados correctamente\n")

## ✓ Datos cargados correctamente

cat("✓ Número de observaciones:", nrow(datos), "\n")

## ✓ Número de observaciones: 2500

# Extraer variable

df_provincia <- data.frame(

  provincia = toupper(trimws(datos$PROVINCIA))

)

# Reemplazar categorías

df_provincia$provincia <- case_when(

# --- ESTADOS DEL NORTE ---

df_provincia$provincia %in% c(

"WASHINGTON", "OREGON", "IDAHO", "MONTANA", "NORTH DAKOTA",

"SOUTH DAKOTA", "MINNESOTA", "WISCONSIN", "MICHIGAN", "WYOMING",

"MAINE", "NEW HAMPSHIRE", "VERMONT", "MASSACHUSETTS",

"RHODE ISLAND", "CONNECTICUT", "NEW YORK"

) ~ "Norte",

# --- ESTADOS DEL CENTRO ---

df_provincia$provincia %in% c(

"NEVADA", "UTAH", "COLORADO", "NEBRASKA", "IOWA",

"ILLINOIS", "INDIANA", "OHIO", "CALIFORNIA", "SUR DE CALIFORNIA",

"NORTE DE CALIFORNIA", "KANSAS", "MISSOURI", "KENTUCKY",

"WEST VIRGINIA", "VIRGINIA", "MARYLAND", "DELAWARE",

"PENNSYLVANIA", "NEW JERSEY"

) ~ "Centro",

# --- ESTADOS DEL SUR ---

df_provincia$provincia %in% c(

"ARIZONA", "NEW MEXICO", "TEXAS", "OKLAHOMA", "ARKANSAS",

"LOUISIANA", "MISSISSIPPI", "ALABAMA", "TENNESSEE",

"NORTH CAROLINA", "SOUTH CAROLINA", "GEORGIA", "FLORIDA"

) ~ "Sur",

TRUE ~ "Centro"

)

# Orden de categorías

orden_provincia <- c(

"Norte",

"Centro",

"Sur",

"Sin registro"

)

# Convertir en factor ordenado

df_provincia$provincia <- factor(

df_provincia$provincia,

levels = orden_provincia

)

TABLA DE DISTRIBUCIÓN DE PROBABILIDAD

# Frecuencias y probabilidades

ni <- table(df_provincia$provincia)

hi <- round(prop.table(ni), 4)

P <- round(hi * 100, 2)

# Crear tabla base

tabla_finalprovincia <- data.frame(

Provincia = names(ni),

ni = as.numeric(ni),

hi = as.numeric(hi),

P = as.numeric(P)

)

# Fila TOTAL

fila_total <- data.frame(

Provincia = "TOTAL",

ni = sum(tabla_finalprovincia$ni),

hi = round(sum(tabla_finalprovincia$hi), 4),

P = round(sum(tabla_finalprovincia$P), 2)

)

# Agregar TOTAL

tabla_finalprovincia <- rbind(

tabla_finalprovincia,

fila_total

)

tabla_finalprovincia

##      Provincia   ni     hi      P
## 1        Norte  914 0.3656  36.56
## 2       Centro  978 0.3912  39.12
## 3          Sur  608 0.2432  24.32
## 4 Sin registro    0 0.0000   0.00
## 5        TOTAL 2500 1.0000 100.00

# Tabla gt

tabla_provincia_gt <- tabla_finalprovincia %>%

gt() %>%

tab_header(

title = md("**Tabla N° 1**"),

subtitle = md("Distribución de probabilidad de la ubicación regional de las muestras geoquímicas y geológicas en depósitos minerales de Estados Unidos")

) %>%

tab_source_note(

source_note = md("Autor: Grupo 2")

) %>%

tab_options(

table.border.top.color = "black",

table.border.bottom.color = "black",

heading.border.bottom.color = "black",

heading.border.bottom.width = px(2),

column_labels.border.top.color = "black",

column_labels.border.bottom.color = "black",

column_labels.border.bottom.width = px(2),

table_body.hlines.color = "gray",

table_body.border.bottom.color = "black",

row.striping.include_table_body = TRUE

) %>%

tab_style(

style = cell_text(weight = "bold"),

locations = cells_body(rows = Provincia == "TOTAL")

)

tabla_provincia_gt

Provincia	ni	hi	P
Tabla N° 1
Distribución de probabilidad de la ubicación regional de las muestras geoquímicas y geológicas en depósitos minerales de Estados Unidos
Norte	914	0.3656	36.56
Centro	978	0.3912	39.12
Sur	608	0.2432	24.32
Sin registro	0	0.0000	0.00
TOTAL	2500	1.0000	100.00
Autor: Grupo 2

TABLA DE DISTRIBUCIÓN DE PROBABILIDAD AGRUPADA

# Frecuencias acumuladas

Ni <- cumsum(ni)

Hi <- round(cumsum(hi), 4)

Pi <- round(cumsum(P), 2)

# Tabla agrupada

tabla_agrupada <- data.frame(

Provincia = names(ni),

ni = as.numeric(ni),

hi = as.numeric(hi),

P = as.numeric(P),

Ni = Ni,

Hi = Hi,

Pi = Pi

)

tabla_agrupada

##                 Provincia  ni     hi     P   Ni     Hi     Pi
## Norte               Norte 914 0.3656 36.56  914 0.3656  36.56
## Centro             Centro 978 0.3912 39.12 1892 0.7568  75.68
## Sur                   Sur 608 0.2432 24.32 2500 1.0000 100.00
## Sin registro Sin registro   0 0.0000  0.00 2500 1.0000 100.00

# Tabla agrupada gt

tabla_agrupada_gt <- tabla_agrupada %>%

gt() %>%

tab_header(

title = md("**Tabla N° 2**"),

subtitle = md("Distribución acumulada de probabilidad de las regiones analizadas")

) %>%

tab_source_note(

source_note = md("Autor: Grupo 2")

)

tabla_agrupada_gt

Provincia	ni	hi	P	Ni	Hi	Pi
Tabla N° 2
Distribución acumulada de probabilidad de las regiones analizadas
Norte	914	0.3656	36.56	914	0.3656	36.56
Centro	978	0.3912	39.12	1892	0.7568	75.68
Sur	608	0.2432	24.32	2500	1.0000	100.00
Sin registro	0	0.0000	0.00	2500	1.0000	100.00
Autor: Grupo 2

GRÁFICAS DE DISTRIBUCIÓN DE PROBABILIDAD

# Extraer probabilidades sin TOTAL

P_global <- as.numeric(

tabla_finalprovincia$P[
1:(nrow(tabla_finalprovincia)-1)
]

)

# Gráfico de barras

barplot(

P_global,

main = "Gráfica Nº1: Distribución regional de muestras geoquímicas\ny geológicas en depósitos minerales de Estados Unidos",

cex.main = 0.8,

xlab = "Región",

ylab = "Probabilidad (%)",

col = "blue",

names.arg = tabla_finalprovincia$Provincia[
1:(nrow(tabla_finalprovincia)-1)
],

cex.names = 0.9,

ylim = c(0, 100),

las = 1

)

CÁLCULO DE PROBABILIDAD

# Eliminar fila TOTAL

tabla_sin_total <- tabla_finalprovincia[

tabla_finalprovincia$Provincia != "TOTAL",

]

# Extraer probabilidad Centro

prob_centro <- tabla_sin_total$P[

tabla_sin_total$Provincia == "Centro"

]

# Gráfico explicativo

plot(

1,

type = "n",

axes = FALSE,

xlab = "",

ylab = ""

)

text(

x = 1,
y = 1,

labels = paste(

"Cálculo de probabilidad\n(Estimación general)\n\n",

"¿Qué probabilidad existe de que una muestra\n",

"geoquímica o geológica analizada en depósitos\n",

"minerales de Estados Unidos provenga de la\n",

"región Centro?\n\n",

"Probabilidad = ", prob_centro, " (%)",

sep = ""

),

cex = 1.3,

col = "black",

font = 2

)

CONCLUSIONES

"La distribución regional de las muestras geoquímicas y geológicas presenta diferencias probabilísticas entre las regiones Norte, Centro y Sur de Estados Unidos. La región Centro registra la mayor participación relativa dentro del conjunto de observaciones, indicando una mayor concentración de muestras provenientes de esta zona. Las gráficas acumuladas y porcentuales permiten visualizar el comportamiento probabilístico regional y facilitan la interpretación espacial de los depósitos minerales analizados."

## [1] "La distribución regional de las muestras geoquímicas y geológicas presenta diferencias probabilísticas entre las regiones Norte, Centro y Sur de Estados Unidos. La región Centro registra la mayor participación relativa dentro del conjunto de observaciones, indicando una mayor concentración de muestras provenientes de esta zona. Las gráficas acumuladas y porcentuales permiten visualizar el comportamiento probabilístico regional y facilitan la interpretación espacial de los depósitos minerales analizados."

PROVINCIAS INFERENCIAL

Grupo 2

2026-05-27

ANÁLISIS INFERENCIAL

CARGA DE DATOS Y LIBRERÍAS

TABLA DE DISTRIBUCIÓN DE PROBABILIDAD

TABLA DE DISTRIBUCIÓN DE PROBABILIDAD AGRUPADA

GRÁFICAS DE DISTRIBUCIÓN DE PROBABILIDAD

CÁLCULO DE PROBABILIDAD

CONCLUSIONES