# CARGA DE DATOS
datos <- read.csv("C:/Users/Grace/Downloads/dataset_geologico_limpio_80.csv",
header = TRUE,
sep = ",",
dec = ".",
stringsAsFactors = FALSE)
# LIMPIEZA DE LA VARIABLE
arcilla_raw <- as.numeric(gsub("[^0-9.-]", "", datos$CLAY_PCT))
arcilla <- na.omit(arcilla_raw)
arcilla <- arcilla[arcilla >= 0 & arcilla <= 100]
# Número de datos
n <- length(arcilla)
# CARGA DE LIBRERÍAS
library(gt)
library(dplyr)
##
## Adjuntando el paquete: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
library(knitr)
library(e1071)
library(moments)
##
## Adjuntando el paquete: 'moments'
## The following objects are masked from 'package:e1071':
##
## kurtosis, moment, skewness
TABLA DE DISTRIBUCIÓN DE CANTIDAD POR STURGES
# Número de datos
n <- length(arcilla)
k_sturges <- round(1 + 3.3 * log10(n))
# Según recomendación de la asignatura se utilizan
# máximo 10 clases para facilitar la interpretación gráfica
k <- 10
# Mínimo y máximo
minimo <- min(arcilla)
maximo <- max(arcilla)
# Rango y amplitud
R <- maximo - minimo
A <- R / k
# Límites Inferiores y Superiores
Li <- round(seq(from = minimo, to = maximo - A + 1e-6, by = A), 2)
Ls <- round(Li + A, 2)
Ls[length(Ls)] <- maximo
# Marca de clase
MC <- round((Li + Ls)/2, 2)
# Frecuencia absoluta
ni <- numeric(length(Li))
for(i in 1:length(Li)){
if(i == length(Li)){
ni[i] <- sum(arcilla >= Li[i] & arcilla <= Ls[i])
} else {
ni[i] <- sum(arcilla >= Li[i] & arcilla < Ls[i])
}
}
# Frecuencia relativa
hi <- round((ni / sum(ni)) * 100,2)
# Frecuencias acumuladas
Niasc <- cumsum(ni)
Nidsc <- rev(cumsum(rev(ni)))
Hiasc <- round(cumsum(hi), 2)
Hidsc <- round(rev(cumsum(rev(hi))), 2)
# Tabla Sturges
TDArcilla <- round(data.frame(
Li, Ls, MC, ni, hi, Niasc, Nidsc, Hiasc, Hidsc
), 2)
# Fila TOTAL
fila_total <- data.frame(
Li = "TOTAL",
Ls = "",
MC = "",
ni = sum(TDArcilla$ni),
hi = round(sum(TDArcilla$hi), 2),
Niasc = "",
Nidsc = "",
Hiasc = "",
Hidsc = ""
)
TDArcilla_p <- rbind(TDArcilla, fila_total)
TABLA FINAL STURGES CON GT
TablaArcilla <- TDArcilla_p %>%
gt() %>%
tab_header(
title = md("**Tabla Nº1**"),
subtitle = md("Tabla de distribución de cantidad de Arcilla (%)<br>por regla de Sturges")
) %>%
tab_source_note(source_note = md("Autor: Grupo 2")) %>%
tab_options(
table.border.top.color = "black",
table.border.bottom.color = "black",
table.border.top.style = "solid",
table.border.bottom.style = "solid",
column_labels.border.top.color = "black",
column_labels.border.bottom.color = "black",
column_labels.border.bottom.width = px(2),
row.striping.include_table_body = TRUE,
heading.border.bottom.color = "black",
heading.border.bottom.width = px(2)
) %>%
tab_style(style = cell_text(weight = "bold"),
locations = cells_body(rows = Li == "TOTAL"))
TablaArcilla
| Tabla Nº1 | ||||||||
| Tabla de distribución de cantidad de Arcilla (%) por regla de Sturges |
||||||||
| Li | Ls | MC | ni | hi | Niasc | Nidsc | Hiasc | Hidsc |
|---|---|---|---|---|---|---|---|---|
| 0 | 9.47 | 4.74 | 15641 | 57.42 | 15641 | 27239 | 57.42 | 100.02 |
| 9.47 | 18.94 | 14.21 | 3759 | 13.80 | 19400 | 11598 | 71.22 | 42.6 |
| 18.94 | 28.41 | 23.68 | 2448 | 8.99 | 21848 | 7839 | 80.21 | 28.8 |
| 28.41 | 37.88 | 33.15 | 2042 | 7.50 | 23890 | 5391 | 87.71 | 19.81 |
| 37.88 | 47.35 | 42.62 | 1375 | 5.05 | 25265 | 3349 | 92.76 | 12.31 |
| 47.36 | 56.83 | 52.09 | 800 | 2.94 | 26065 | 1974 | 95.7 | 7.26 |
| 56.83 | 66.3 | 61.56 | 528 | 1.94 | 26593 | 1174 | 97.64 | 4.32 |
| 66.3 | 75.77 | 71.03 | 391 | 1.44 | 26984 | 646 | 99.08 | 2.38 |
| 75.77 | 85.24 | 80.5 | 206 | 0.76 | 27190 | 255 | 99.84 | 0.94 |
| 85.24 | 94.71 | 89.97 | 49 | 0.18 | 27239 | 49 | 100.02 | 0.18 |
| TOTAL | 27239 | 100.02 | ||||||
| Autor: Grupo 2 | ||||||||
TABLA DE DISTRIBUCIÓN AGRUPADA
# Histograma utilizando 10 clases
# (criterio adoptado para facilitar la interpretación)
histograma_arcilla <- hist(
arcilla,
breaks = k,
plot = FALSE
)
# Límites Inferiores y Superiores
lis <- histograma_arcilla$breaks[1:(length(histograma_arcilla$breaks)-1)]
lss <- histograma_arcilla$breaks[2:length(histograma_arcilla$breaks)]
# Marca de clase
MC_f <- round(histograma_arcilla$mids, 2)
# Frecuencia absoluta
ni_f <- histograma_arcilla$counts
# Frecuencia relativa
hi_f <- round((ni_f / sum(ni_f)) * 100, 2)
# Frecuencias acumuladas
Niasc_f <- cumsum(ni_f)
Nidsc_f <- rev(cumsum(rev(ni_f)))
Hiasc_f <- round(cumsum(hi_f), 2)
Hidsc_f <- round(rev(cumsum(rev(hi_f))), 2)
# Tabla Simplificada
TDArcilla_f <- round(data.frame(
Li = lis,
Ls = lss,
MC = MC_f,
ni = ni_f,
hi = hi_f,
Niasc = Niasc_f,
Nidsc = Nidsc_f,
Hiasc = Hiasc_f,
Hidsc = Hidsc_f
), 2)
# Fila TOTAL
fila_total_f <- data.frame(
Li = "TOTAL",
Ls = "",
MC = "",
ni = sum(TDArcilla_f$ni),
hi = round(sum(TDArcilla_f$hi), 1),
Niasc = "",
Nidsc = "",
Hiasc = "",
Hidsc = ""
)
TDArcilla_t <- rbind(TDArcilla_f, fila_total_f)
TABLA SIMPLIFICADA FINAL CON GT
TablaArcilla_simp <- TDArcilla_t %>%
gt() %>%
tab_header(
title = md("**Tabla Nº2**"),
subtitle = md("Tabla de distribución simplificada de Arcilla (%)<br>obtenida mediante el histograma")
) %>%
tab_source_note(source_note = md("Autor: Grupo 2")) %>%
tab_options(
table.border.top.color = "black",
table.border.bottom.color = "black",
table.border.top.style = "solid",
table.border.bottom.style = "solid",
column_labels.border.top.color = "black",
column_labels.border.bottom.color = "black",
column_labels.border.bottom.width = px(2),
row.striping.include_table_body = TRUE,
heading.border.bottom.color = "black",
heading.border.bottom.width = px(2)
) %>%
tab_style(
style = cell_text(weight = "bold"),
locations = cells_body(rows = Li == "TOTAL")
)
TablaArcilla_simp
| Tabla Nº2 | ||||||||
| Tabla de distribución simplificada de Arcilla (%) obtenida mediante el histograma |
||||||||
| Li | Ls | MC | ni | hi | Niasc | Nidsc | Hiasc | Hidsc |
|---|---|---|---|---|---|---|---|---|
| 0 | 10 | 5 | 15876 | 58.28 | 15876 | 27240 | 58.28 | 100 |
| 10 | 20 | 15 | 3849 | 14.13 | 19725 | 11364 | 72.41 | 41.72 |
| 20 | 30 | 25 | 2475 | 9.09 | 22200 | 7515 | 81.5 | 27.59 |
| 30 | 40 | 35 | 2072 | 7.61 | 24272 | 5040 | 89.11 | 18.5 |
| 40 | 50 | 45 | 1285 | 4.72 | 25557 | 2968 | 93.83 | 10.89 |
| 50 | 60 | 55 | 725 | 2.66 | 26282 | 1683 | 96.49 | 6.17 |
| 60 | 70 | 65 | 474 | 1.74 | 26756 | 958 | 98.23 | 3.51 |
| 70 | 80 | 75 | 341 | 1.25 | 27097 | 484 | 99.48 | 1.77 |
| 80 | 90 | 85 | 134 | 0.49 | 27231 | 143 | 99.97 | 0.52 |
| 90 | 100 | 95 | 9 | 0.03 | 27240 | 9 | 100 | 0.03 |
| TOTAL | 27240 | 100.00 | ||||||
| Autor: Grupo 2 | ||||||||
# Histograma de frecuencia absoluta local
# Representa la cantidad observada en cada intervalo
hist(arcilla,
breaks = k,
main = "Gráfica Nº1: Distribución de cantidad de Arcilla
en Sedimentos Marinos (Local)",
xlab = "Arcilla (%)",
ylab = "Cantidad",
col = "gray",
border = "black")
# Histograma de frecuencia absoluta global
# Escalado respecto al tamaño total de la muestra
hist(arcilla,
breaks = k,
main = "Gráfica Nº2: Distribución de cantidad de Arcilla
en Sedimentos Marinos (Global)",
xlab = "Arcilla (%)",
ylab = "Cantidad",
col = "lightgray",
border = "black",
ylim = c(0, n * 1.05))
# Histograma de frecuencia relativa local
# Muestra el porcentaje observado en cada intervalo
barplot(hi_f,
space = 0,
names.arg = lss,
main = "Gráfica Nº3: Distribución de cantidad en porcentaje de Arcilla
en Sedimentos Marinos (Local)",
col = "gray",
xlab = "Arcilla (%) - Límite Superior",
ylab = "Porcentaje",
ylim = c(0, max(hi_f)*1.1),
las = 2,
cex.names = 0.75)
# Histograma de frecuencia relativa global
# Escala porcentual completa de 0 a 100 %
barplot(hi_f,
space = 0,
names.arg = lss,
main = "Gráfica Nº4: Distribución de cantidad en porcentaje de Arcilla
en Sedimentos Marinos (Global)",
col = "gray",
xlab = "Arcilla (%) - Límite Superior",
ylab = "Porcentaje",
ylim = c(0,100),
las = 2,
cex.names = 0.75)
# Ojiva combinada Ni
plot(lss, Nidsc_f, type="o", pch=19, cex=1.2,
main="Gráfica Nº5: Ojiva combinada de Arcilla (Ni)",
ylab="Cantidad acumulada",
col="blue",
xlab="Arcilla (%)",
lwd=2)
lines(lis, Niasc_f, type="o", pch=19, cex=1.2, col="red", lwd=2)
legend("topleft",
legend=c("Descendente","Ascendente"),
col=c("blue","red"),
pch=19,
lwd=2)
# Ojiva combinada Hi
plot(lss, Hidsc_f, type="o", pch=19, cex=1.2,
main="Gráfica Nº6: Ojiva combinada de Arcilla (Hi)",
ylab="Porcentaje acumulado",
col="blue",
xlab="Arcilla (%)",
ylim=c(0,100),
lwd=2)
lines(lis, Hiasc_f, type="o", pch=19, cex=1.2, col="red", lwd=2)
legend("topleft",
legend=c("Descendente","Ascendente"),
col=c("blue","red"),
pch=19,
lwd=2)
# DIAGRAMA DE CAJA
boxplot(arcilla,
horizontal = TRUE,
main = "Gráfica Nº7: Distribución de cantidad de Arcilla
en Sedimentos Marinos",
xlab = "Arcilla (%)",
col = "lightblue")
# Justificación:
# Se emplea frecuencia relativa local (Hi) para representar
# la distribución porcentual de los datos y facilitar la
# comparación entre intervalos.
# Histograma con Hi (Frecuencia Relativa Local)
h_rel <- hist(
arcilla,
breaks = k,
plot = FALSE
)
hist(
arcilla,
breaks = k,
probability = TRUE,
freq = FALSE,
main = "Gráfica N°8: Histograma y Diagrama de Caja Superpuesto - Arcilla (%)",
xlab = "Arcilla (%)",
ylab = "Hi (%)",
col = "lightgray",
border = "black"
)
# Superposición del boxplot
boxplot(
arcilla,
horizontal = TRUE,
add = TRUE,
axes = FALSE,
# Altura donde se dibuja
at = max(h_rel$density)*0.85,
# Grosor de la caja
boxwex = max(h_rel$density)*0.15,
col = rgb(0,0.65,1,0.55),
border = "darkblue",
lwd = 2
)
# Justificación:
# Para la representación conjunta del histograma y polígono
# se emplea la frecuencia relativa local (Hi), ya que permite
# visualizar la proporción de observaciones en cada intervalo
# y facilita la interpretación probabilística de la distribución.
breaks <- pretty(arcilla, n = 10)
# Histograma
h <- hist(arcilla,
breaks = breaks,
probability = TRUE,
col = "lightgray",
border = "black",
main = "Gráfica N°9: Histograma y Polígono de Frecuencia Relativa de Arcilla (%)",
xlab = "Arcilla (%)",
ylab = "Frecuencia Relativa")
# Marcas de clase
marcas_clase <- h$mids
# Frecuencias relativas
frecuencia_relativa <- h$density
# Amplitud de clase
A <- diff(h$breaks)[1]
# Polígono cerrado
x_poly <- c(marcas_clase[1] - A,
marcas_clase,
marcas_clase[length(marcas_clase)] + A)
y_poly <- c(0,
frecuencia_relativa,
0)
# Dibujar polígono
lines(x_poly,
y_poly,
type = "o",
col = "blue",
lwd = 2,
pch = 16)
# Leyenda
legend("topright",
legend = "Polígono de Frecuencia Relativa",
col = "blue",
lwd = 2,
pch = 16,
bty = "n")
# Cálculo de indicadores estadísticos
# Media aritmética (x̄)
media <- mean(arcilla)
# Mediana (Me)
mediana <- median(arcilla)
# Desviación estándar muestral (s)
desv <- sd(arcilla)
# Coeficiente de variación (CV)
CV <- round((desv/media)*100,2)
# Coeficiente de asimetría (As)
asimetria <- round(skewness(arcilla),2)
# Coeficiente de curtosis (K)
curtosis <- round(kurtosis(arcilla),2)
# Valor mínimo (Min)
minimo <- min(arcilla)
# Valor máximo (Max)
maximo <- max(arcilla)
# Tabla de indicadores estadísticos
TablaIndicadores <- data.frame(
Variable = "Arcilla (%)",
Min = round(minimo,2), # Mínimo
Max = round(maximo,2), # Máximo
Media = round(media,2), # x̄
Me = round(mediana,2), # Mediana
s = round(desv,2), # Desviación estándar
CV = CV, # Coeficiente de variación
As = asimetria, # Asimetría
K = curtosis # Curtosis
)
TablaIndicadores
## Variable Min Max Media Me s CV As K
## 1 Arcilla (%) 0 94.71 14.21 5.37 18.39 129.46 1.55 4.89
# Tabla mejorada de indicadores estadísticos
TablaIndicadores %>%
gt() %>%
cols_label(
Min = "Min",
Max = "Max",
Media = "x̄",
Me = "Me",
s = "s",
CV = "Cv",
As = "As",
K = "K"
) %>%
tab_header(
title = md("**Tabla Nº3**"),
subtitle = md("Indicadores estadísticos de la variable Arcilla (%)")
) %>%
tab_source_note(
source_note = md("Autor: Grupo 2")
)
| Tabla Nº3 | ||||||||
| Indicadores estadísticos de la variable Arcilla (%) | ||||||||
| Variable | Min | Max | x̄ | Me | s | Cv | As | K |
|---|---|---|---|---|---|---|---|---|
| Arcilla (%) | 0 | 94.71 | 14.21 | 5.37 | 18.39 | 129.46 | 1.55 | 4.89 |
| Autor: Grupo 2 | ||||||||
# OUTLIERS
outliers <- boxplot.stats(arcilla)$out
num_outliers <- length(outliers)
min_out <- ifelse(num_outliers > 0, round(min(outliers),2), NA)
max_out <- ifelse(num_outliers > 0, round(max(outliers),2), NA)
TablaOutliers <- data.frame(
Cantidad_Outliers = num_outliers,
Minimo = min_out,
Maximo = max_out
)
TablaOutliers
## Cantidad_Outliers Minimo Maximo
## 1 1275 55.43 94.71
#Tabla Mejorada
TablaOutliers %>%
gt() %>%
tab_header(
title = md("**Tabla Nº4**"),
subtitle = md("Valores atípicos de la variable Arcilla (%)")
) %>%
tab_source_note(
source_note = md("Autor: Grupo 2")
)
| Tabla Nº4 | ||
| Valores atípicos de la variable Arcilla (%) | ||
| Cantidad_Outliers | Minimo | Maximo |
|---|---|---|
| 1275 | 55.43 | 94.71 |
| Autor: Grupo 2 | ||
La variable Arcilla (%) presenta valores que fluctúan entre 0 y 94.71 %, con una media de 14.21 % y una mediana de 5.37 %, lo que indica que la mayoría de los datos se concentra en valores bajos. La desviación estándar de 18.39 % y el coeficiente de variación de 129.46 % evidencian una alta variabilidad en el conjunto de datos.
La asimetría positiva (1.55) muestra que la distribución está sesgada hacia la derecha debido a la presencia de valores atípicos en los rangos superiores, mientras que la curtosis (4.89) confirma la existencia de observaciones extremas. En general, los sedimentos analizados presentan predominantemente bajos contenidos de arcilla, aunque algunos registros alcanzan concentraciones considerablemente elevadas, influyendo en el comportamiento estadístico de la variable.