CARGA DE DATOS Y LIBRERÍAS

# CARGA DE DATOS
datos <- read.csv("C:/Users/Grace/Downloads/dataset_geologico_limpio_80.csv",
                  header = TRUE,
                  sep = ",",
                  dec = ".",
                  stringsAsFactors = FALSE)

# LIMPIEZA DE LA VARIABLE
arcilla_raw <- as.numeric(gsub("[^0-9.-]", "", datos$CLAY_PCT))

arcilla <- na.omit(arcilla_raw)
arcilla <- arcilla[arcilla >= 0 & arcilla <= 100]

# Número de datos
n <- length(arcilla)
# CARGA DE LIBRERÍAS
library(gt)
library(dplyr)
## 
## Adjuntando el paquete: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
library(knitr)
library(e1071)
library(moments)
## 
## Adjuntando el paquete: 'moments'
## The following objects are masked from 'package:e1071':
## 
##     kurtosis, moment, skewness

TABLA DE DISTRIBUCIÓN DE FRECUENCIA

TABLA DE DISTRIBUCIÓN DE CANTIDAD POR STURGES

# Número de datos
n <- length(arcilla)

k_sturges <- round(1 + 3.3 * log10(n))

# Según recomendación de la asignatura se utilizan
# máximo 10 clases para facilitar la interpretación gráfica
k <- 10

# Mínimo y máximo
minimo <- min(arcilla)
maximo <- max(arcilla)

# Rango y amplitud
R <- maximo - minimo
A <- R / k

# Límites Inferiores y Superiores
Li <- round(seq(from = minimo, to = maximo - A + 1e-6, by = A), 2)
Ls <- round(Li + A, 2)
Ls[length(Ls)] <- maximo

# Marca de clase
MC <- round((Li + Ls)/2, 2)

# Frecuencia absoluta
ni <- numeric(length(Li))
for(i in 1:length(Li)){
  if(i == length(Li)){
    ni[i] <- sum(arcilla >= Li[i] & arcilla <= Ls[i])
  } else {
    ni[i] <- sum(arcilla >= Li[i] & arcilla < Ls[i])
  }
}

# Frecuencia relativa
hi <- round((ni / sum(ni)) * 100,2)

# Frecuencias acumuladas
Niasc <- cumsum(ni)
Nidsc <- rev(cumsum(rev(ni)))
Hiasc <- round(cumsum(hi), 2)
Hidsc <- round(rev(cumsum(rev(hi))), 2)

# Tabla Sturges
TDArcilla <- round(data.frame(
  Li, Ls, MC, ni, hi, Niasc, Nidsc, Hiasc, Hidsc
), 2)

# Fila TOTAL
fila_total <- data.frame(
  Li = "TOTAL",
  Ls = "",
  MC = "",
  ni = sum(TDArcilla$ni),
  hi = round(sum(TDArcilla$hi), 2),
  Niasc = "",
  Nidsc = "",
  Hiasc = "",
  Hidsc = ""
)

TDArcilla_p <- rbind(TDArcilla, fila_total)

TABLA FINAL STURGES CON GT

TablaArcilla <- TDArcilla_p %>%
  gt() %>%
  tab_header(
    title = md("**Tabla Nº1**"),
    subtitle = md("Tabla de distribución de cantidad de Arcilla (%)<br>por regla de Sturges")
  ) %>%
  tab_source_note(source_note = md("Autor: Grupo 2")) %>%
  tab_options(
    table.border.top.color = "black",
    table.border.bottom.color = "black",
    table.border.top.style = "solid",
    table.border.bottom.style = "solid",
    column_labels.border.top.color = "black",
    column_labels.border.bottom.color = "black",
    column_labels.border.bottom.width = px(2),
    row.striping.include_table_body = TRUE,
    heading.border.bottom.color = "black",
    heading.border.bottom.width = px(2)
  ) %>%
  tab_style(style = cell_text(weight = "bold"), 
            locations = cells_body(rows = Li == "TOTAL"))
TablaArcilla
Tabla Nº1
Tabla de distribución de cantidad de Arcilla (%)
por regla de Sturges
Li Ls MC ni hi Niasc Nidsc Hiasc Hidsc
0 9.47 4.74 15641 57.42 15641 27239 57.42 100.02
9.47 18.94 14.21 3759 13.80 19400 11598 71.22 42.6
18.94 28.41 23.68 2448 8.99 21848 7839 80.21 28.8
28.41 37.88 33.15 2042 7.50 23890 5391 87.71 19.81
37.88 47.35 42.62 1375 5.05 25265 3349 92.76 12.31
47.36 56.83 52.09 800 2.94 26065 1974 95.7 7.26
56.83 66.3 61.56 528 1.94 26593 1174 97.64 4.32
66.3 75.77 71.03 391 1.44 26984 646 99.08 2.38
75.77 85.24 80.5 206 0.76 27190 255 99.84 0.94
85.24 94.71 89.97 49 0.18 27239 49 100.02 0.18
TOTAL 27239 100.02
Autor: Grupo 2

TABLA DE DISTRIBUCIÓN AGRUPADA

# Histograma utilizando 10 clases
# (criterio adoptado para facilitar la interpretación)
histograma_arcilla <- hist(
  arcilla,
  breaks = k,
  plot = FALSE
)

# Límites Inferiores y Superiores
lis <- histograma_arcilla$breaks[1:(length(histograma_arcilla$breaks)-1)]
lss <- histograma_arcilla$breaks[2:length(histograma_arcilla$breaks)]

# Marca de clase
MC_f <- round(histograma_arcilla$mids, 2)

# Frecuencia absoluta
ni_f <- histograma_arcilla$counts

# Frecuencia relativa
hi_f <- round((ni_f / sum(ni_f)) * 100, 2)

# Frecuencias acumuladas
Niasc_f <- cumsum(ni_f)
Nidsc_f <- rev(cumsum(rev(ni_f)))
Hiasc_f <- round(cumsum(hi_f), 2)
Hidsc_f <- round(rev(cumsum(rev(hi_f))), 2)

# Tabla Simplificada
TDArcilla_f <- round(data.frame(
  Li = lis,
  Ls = lss,
  MC = MC_f,
  ni = ni_f,
  hi = hi_f,
  Niasc = Niasc_f,
  Nidsc = Nidsc_f,
  Hiasc = Hiasc_f,
  Hidsc = Hidsc_f
), 2)

# Fila TOTAL
fila_total_f <- data.frame(
  Li = "TOTAL",
  Ls = "",
  MC = "",
  ni = sum(TDArcilla_f$ni),
  hi = round(sum(TDArcilla_f$hi), 1),
  Niasc = "",
  Nidsc = "",
  Hiasc = "",
  Hidsc = ""
)

TDArcilla_t <- rbind(TDArcilla_f, fila_total_f)

TABLA SIMPLIFICADA FINAL CON GT

TablaArcilla_simp <- TDArcilla_t %>%
  gt() %>%
  tab_header(
    title = md("**Tabla Nº2**"),
    subtitle = md("Tabla de distribución simplificada de Arcilla (%)<br>obtenida mediante el histograma")
  ) %>%
  tab_source_note(source_note = md("Autor: Grupo 2")) %>%
  tab_options(
    table.border.top.color = "black",
    table.border.bottom.color = "black",
    table.border.top.style = "solid",
    table.border.bottom.style = "solid",
    column_labels.border.top.color = "black",
    column_labels.border.bottom.color = "black",
    column_labels.border.bottom.width = px(2),
    row.striping.include_table_body = TRUE,
    heading.border.bottom.color = "black",
    heading.border.bottom.width = px(2)
  ) %>%
  tab_style(
    style = cell_text(weight = "bold"),
    locations = cells_body(rows = Li == "TOTAL")
  )
TablaArcilla_simp
Tabla Nº2
Tabla de distribución simplificada de Arcilla (%)
obtenida mediante el histograma
Li Ls MC ni hi Niasc Nidsc Hiasc Hidsc
0 10 5 15876 58.28 15876 27240 58.28 100
10 20 15 3849 14.13 19725 11364 72.41 41.72
20 30 25 2475 9.09 22200 7515 81.5 27.59
30 40 35 2072 7.61 24272 5040 89.11 18.5
40 50 45 1285 4.72 25557 2968 93.83 10.89
50 60 55 725 2.66 26282 1683 96.49 6.17
60 70 65 474 1.74 26756 958 98.23 3.51
70 80 75 341 1.25 27097 484 99.48 1.77
80 90 85 134 0.49 27231 143 99.97 0.52
90 100 95 9 0.03 27240 9 100 0.03
TOTAL 27240 100.00
Autor: Grupo 2

GRÁFICAS DE DISTRIBUCIÓN DE FRECUENCIA

# Histograma de frecuencia absoluta local
# Representa la cantidad observada en cada intervalo

hist(arcilla,
     breaks = k,
     main = "Gráfica Nº1: Distribución de cantidad de Arcilla
     en Sedimentos Marinos (Local)",
     xlab = "Arcilla (%)",
     ylab = "Cantidad",
     col = "gray",
     border = "black")

# Histograma de frecuencia absoluta global
# Escalado respecto al tamaño total de la muestra

hist(arcilla,
     breaks = k,
     main = "Gráfica Nº2: Distribución de cantidad de Arcilla
     en Sedimentos Marinos (Global)",
     xlab = "Arcilla (%)",
     ylab = "Cantidad",
     col = "lightgray",
     border = "black",
     ylim = c(0, n * 1.05))

# Histograma de frecuencia relativa local
# Muestra el porcentaje observado en cada intervalo

barplot(hi_f,
        space = 0,
        names.arg = lss,
        main = "Gráfica Nº3: Distribución de cantidad en porcentaje de Arcilla
        en Sedimentos Marinos (Local)",
        col = "gray",
        xlab = "Arcilla (%) - Límite Superior",
        ylab = "Porcentaje",
        ylim = c(0, max(hi_f)*1.1),
        las = 2,
        cex.names = 0.75)

# Histograma de frecuencia relativa global
# Escala porcentual completa de 0 a 100 %

barplot(hi_f,
        space = 0,
        names.arg = lss,
        main = "Gráfica Nº4: Distribución de cantidad en porcentaje de Arcilla
        en Sedimentos Marinos (Global)",
        col = "gray",
        xlab = "Arcilla (%) - Límite Superior",
        ylab = "Porcentaje",
        ylim = c(0,100),
        las = 2,
        cex.names = 0.75)

# Ojiva combinada Ni
plot(lss, Nidsc_f, type="o", pch=19, cex=1.2,
     main="Gráfica Nº5: Ojiva combinada de Arcilla (Ni)",
     ylab="Cantidad acumulada",
     col="blue",
     xlab="Arcilla (%)",
     lwd=2)

lines(lis, Niasc_f, type="o", pch=19, cex=1.2, col="red", lwd=2)

legend("topleft",
       legend=c("Descendente","Ascendente"),
       col=c("blue","red"),
       pch=19,
       lwd=2)

# Ojiva combinada Hi
plot(lss, Hidsc_f, type="o", pch=19, cex=1.2,
     main="Gráfica Nº6: Ojiva combinada de Arcilla (Hi)",
     ylab="Porcentaje acumulado",
     col="blue",
     xlab="Arcilla (%)",
     ylim=c(0,100),
     lwd=2)

lines(lis, Hiasc_f, type="o", pch=19, cex=1.2, col="red", lwd=2)

legend("topleft",
       legend=c("Descendente","Ascendente"),
       col=c("blue","red"),
       pch=19,
       lwd=2)

# DIAGRAMA DE CAJA
boxplot(arcilla,
        horizontal = TRUE,
        main = "Gráfica Nº7: Distribución de cantidad de Arcilla
        en Sedimentos Marinos",
        xlab = "Arcilla (%)",
        col = "lightblue")

# Justificación:
# Se emplea frecuencia relativa local (Hi) para representar
# la distribución porcentual de los datos y facilitar la
# comparación entre intervalos.
# Histograma con Hi (Frecuencia Relativa Local)

h_rel <- hist(
  arcilla,
  breaks = k,
  plot = FALSE
)

hist(
  arcilla,
  breaks = k,
  probability = TRUE,
  freq = FALSE,
  main = "Gráfica N°8: Histograma y Diagrama de Caja Superpuesto - Arcilla (%)",
  xlab = "Arcilla (%)",
  ylab = "Hi (%)",
  col = "lightgray",
  border = "black"
)

# Superposición del boxplot

boxplot(
  arcilla,
  horizontal = TRUE,
  add = TRUE,
  axes = FALSE,

  # Altura donde se dibuja
  at = max(h_rel$density)*0.85,

  # Grosor de la caja
  boxwex = max(h_rel$density)*0.15,

  col = rgb(0,0.65,1,0.55),
  border = "darkblue",
  lwd = 2
)

# Justificación:
# Para la representación conjunta del histograma y polígono
# se emplea la frecuencia relativa local (Hi), ya que permite
# visualizar la proporción de observaciones en cada intervalo
# y facilita la interpretación probabilística de la distribución.

breaks <- pretty(arcilla, n = 10)

# Histograma
h <- hist(arcilla,
          breaks = breaks,
          probability = TRUE,
          col = "lightgray",
          border = "black",
          main = "Gráfica N°9: Histograma y Polígono de Frecuencia Relativa de Arcilla (%)",
          xlab = "Arcilla (%)",
          ylab = "Frecuencia Relativa")

# Marcas de clase
marcas_clase <- h$mids

# Frecuencias relativas
frecuencia_relativa <- h$density

# Amplitud de clase
A <- diff(h$breaks)[1]

# Polígono cerrado
x_poly <- c(marcas_clase[1] - A,
            marcas_clase,
            marcas_clase[length(marcas_clase)] + A)

y_poly <- c(0,
            frecuencia_relativa,
            0)

# Dibujar polígono
lines(x_poly,
      y_poly,
      type = "o",
      col = "blue",
      lwd = 2,
      pch = 16)

# Leyenda
legend("topright",
       legend = "Polígono de Frecuencia Relativa",
       col = "blue",
       lwd = 2,
       pch = 16,
       bty = "n")

INDICADORES ESTADÍSTICOS

# Cálculo de indicadores estadísticos

# Media aritmética (x̄)
media <- mean(arcilla)

# Mediana (Me)
mediana <- median(arcilla)

# Desviación estándar muestral (s)
desv <- sd(arcilla)

# Coeficiente de variación (CV)
CV <- round((desv/media)*100,2)

# Coeficiente de asimetría (As)
asimetria <- round(skewness(arcilla),2)

# Coeficiente de curtosis (K)
curtosis <- round(kurtosis(arcilla),2)

# Valor mínimo (Min)
minimo <- min(arcilla)

# Valor máximo (Max)
maximo <- max(arcilla)

# Tabla de indicadores estadísticos
TablaIndicadores <- data.frame(
  Variable = "Arcilla (%)",
  Min = round(minimo,2),      # Mínimo
  Max = round(maximo,2),      # Máximo
  Media = round(media,2),     # x̄
  Me = round(mediana,2),      # Mediana
  s = round(desv,2),          # Desviación estándar
  CV = CV,                    # Coeficiente de variación
  As = asimetria,             # Asimetría
  K = curtosis                # Curtosis
)

TablaIndicadores
##      Variable Min   Max Media   Me     s     CV   As    K
## 1 Arcilla (%)   0 94.71 14.21 5.37 18.39 129.46 1.55 4.89
# Tabla mejorada de indicadores estadísticos
TablaIndicadores %>%
  gt() %>%
  cols_label(
    Min = "Min",
    Max = "Max",
    Media = "x̄",
    Me = "Me",
    s = "s",
    CV = "Cv",
    As = "As",
    K = "K"
  ) %>%
  tab_header(
    title = md("**Tabla Nº3**"),
    subtitle = md("Indicadores estadísticos de la variable Arcilla (%)")
  ) %>%
  tab_source_note(
    source_note = md("Autor: Grupo 2")
  )
Tabla Nº3
Indicadores estadísticos de la variable Arcilla (%)
Variable Min Max Me s Cv As K
Arcilla (%) 0 94.71 14.21 5.37 18.39 129.46 1.55 4.89
Autor: Grupo 2

OUTLIERS

# OUTLIERS
outliers <- boxplot.stats(arcilla)$out

num_outliers <- length(outliers)

min_out <- ifelse(num_outliers > 0, round(min(outliers),2), NA)
max_out <- ifelse(num_outliers > 0, round(max(outliers),2), NA)

TablaOutliers <- data.frame(
  Cantidad_Outliers = num_outliers,
  Minimo = min_out,
  Maximo = max_out
)

TablaOutliers
##   Cantidad_Outliers Minimo Maximo
## 1              1275  55.43  94.71
#Tabla Mejorada 
TablaOutliers %>%
  gt() %>%
  tab_header(
    title = md("**Tabla Nº4**"),
    subtitle = md("Valores atípicos de la variable Arcilla (%)")
  ) %>%
  tab_source_note(
    source_note = md("Autor: Grupo 2")
  )
Tabla Nº4
Valores atípicos de la variable Arcilla (%)
Cantidad_Outliers Minimo Maximo
1275 55.43 94.71
Autor: Grupo 2

CONCLUSIÓN

La variable Arcilla (%) presenta valores que fluctúan entre 0 y 94.71 %, con una media de 14.21 % y una mediana de 5.37 %, lo que indica que la mayoría de los datos se concentra en valores bajos. La desviación estándar de 18.39 % y el coeficiente de variación de 129.46 % evidencian una alta variabilidad en el conjunto de datos.

La asimetría positiva (1.55) muestra que la distribución está sesgada hacia la derecha debido a la presencia de valores atípicos en los rangos superiores, mientras que la curtosis (4.89) confirma la existencia de observaciones extremas. En general, los sedimentos analizados presentan predominantemente bajos contenidos de arcilla, aunque algunos registros alcanzan concentraciones considerablemente elevadas, influyendo en el comportamiento estadístico de la variable.