INFORME 2: ANÁLISIS DESCRIPTIVO Y ESTIMACIONES ESTADÍSTICAS EN R

Integrantes

Santiago José Rodríguez Serrano
Raquel Sofía Padilla Caballero
Enrique De Jesús Pedrosa De La Hoz

Fecha

Marzo 2025

Introducción

La base de datos Sedimentología fue seleccionada de entre las bases de datos recomendadas por la profesora y proviene del Repositorio de Datos en GitHub: Datos Geología. Contiene información detallada sobre muestras de sedimentos recolectadas en distintos ríos, registrando variables como “Tamaño_Grano_mm”, “Velocidad_Flujo_m_s” y “Carga_Sedimentaria_mg_L”, entre otras.

Los ríos incluidos en la base de datos son: Amazonas, Danubio, Misisipi, Nilo y Yangtsé. Los tipos de sedimentos analizados en el estudio incluyen Arcilloso, Arenoso, Grava y Limoso. Las variables categóricas presentes en la base de datos son “Rio” y “Tipo_Sedimento”, mientras que las variables numéricas incluyen “Tamaño_Grano_mm”, “Velocidad_Flujo_m_s” y “Carga_Sedimentaria_mg_L”. Estas variables permiten analizar las características sedimentológicas y la dinámica fluvial en diferentes ubicaciones. En este informe, se realizará un análisis descriptivo de la base de datos y se aplicarán estimaciones estadísticas para comprender su estructura y comportamiento.

Carga de Datos en R

Importar la base de datos y verificar su estructura:

Identificación de Variables

# Identificar variables numéricas y categóricas
datos <- datos %>% mutate(across(where(is.character), as.factor))

numericas <- c("Tamaño_Grano_mm", "Velocidad_Flujo_m_s", "Carga_Sedimentaria_mg_L")
categoricas <- c("Rio", "Tipo_Sedimento")

list("Variables Numéricas" = numericas, "Variables Categóricas" = categoricas)

## $`Variables Numéricas`
## [1] "Tamaño_Grano_mm"         "Velocidad_Flujo_m_s"    
## [3] "Carga_Sedimentaria_mg_L"
## 
## $`Variables Categóricas`
## [1] "Rio"            "Tipo_Sedimento"

Parte 1: Análisis Descriptivo (50%)

Tablas Descriptivas

Resumen estadístico de las variables numéricas

skim(datos)

Data summary
Name	datos
Number of rows	100
Number of columns	6
_______________________
Column type frequency:
factor	4
numeric	2
________________________
Group variables	None

Variable type: factor

skim_variable	complete_rate	ordered	n_unique	top_counts
Rio	1	FALSE	5	Yan: 27, Ama: 25, Nil: 17, Mis: 16
Tipo_Sedimento	1	FALSE	4	Lim: 28, Arc: 24, Are: 24, Gra: 24
Tamaño_Grano_mm	1	FALSE	100	0,1: 1, 0,3: 1, 0,4: 1, 0,4: 1
Velocidad_Flujo_m_s	1	FALSE	100	0,1: 1, 0,1: 1, 0,1: 1, 0,2: 1

Variable type: numeric

skim_variable	n_missing	complete_rate	mean	sd	p0	p25	p50	p75	p100	hist
ID_Muestra	0	1	50.5	2.901000e+01	1	2.575000e+01	50.5	7.525000e+01	100	▇▇▇▇▇
Carga_Sedimentaria_mg_L	0	1	3293338826.7	1.973326e+09	33991018	1.886917e+09	3148371318.5	4.524924e+09	9833592572	▆▇▆▁▁

Frecuencia de categorías para variables categóricas

lapply(datos[categoricas], table)

## $Rio
## 
## Amazonas  Danubio Misisipi     Nilo  Yangtsé 
##       25       15       16       17       27 
## 
## $Tipo_Sedimento
## 
## Arcilloso   Arenoso     Grava    Limoso 
##        24        24        24        28

Gráficos Descriptivos

Histogramas: Para analizar la distribución de las variables numéricas

Distribución del tamaño de grano

library(dplyr)
library(ggplot2)
library(stringr)

# Convertir los valores con coma a números
datos <- datos %>%
  mutate(Tamaño_Grano_mm = as.numeric(str_replace(Tamaño_Grano_mm, ",", ".")))

# Histograma con colores tierra personalizados
datos %>% 
  ggplot(aes(x = Tamaño_Grano_mm, fill = Rio)) +
  geom_histogram(bins = 10, alpha = 0.85, color = "black") +
  scale_fill_manual(values = c("sandybrown", "wheat", "peru", "tan", "burlywood")) +
  facet_wrap(~ Rio, scales = "free_y") +
  theme_minimal() +
  theme(
    legend.position = "none",
    strip.background = element_rect(fill = "burlywood", color = NA),
    strip.text = element_text(face = "bold", color = "black"),
    panel.grid.minor = element_blank(),
    panel.grid.major = element_line(color = "gray85")
  ) +
  labs(title = "Histogramas del Tamaño de Grano por Río",
       x = "Tamaño de grano (mm)",
       y = "Frecuencia")

Distribución de la velocidad del flujo

library(dplyr)
library(ggplot2)
library(stringr)

# Asegurarse de que los datos estén en el formato correcto
datos <- datos %>%
  mutate(Velocidad_Flujo_m_s = as.numeric(str_replace(Velocidad_Flujo_m_s, ",", ".")))

# Gráfico separado por cada río
datos %>%
  ggplot(aes(x = Velocidad_Flujo_m_s, fill = Rio)) +
  geom_histogram(bins = 10, alpha = 0.8, color = "black") +
  scale_fill_manual(values = c("cyan", "lightblue", "navy", "deepskyblue", "steelblue")) +
  facet_wrap(~ Rio, scales = "free_y") +
  theme_minimal() +
  theme(legend.position = "none") +  # Quita la leyenda porque ya se separan por facetas
  labs(title = "Histogramas de Velocidad de Flujo por Río",
       x = "Velocidad del flujo (m/s)",
       y = "Frecuencia")

Distribución de la carga sedimentaria

library(dplyr)
library(ggplot2)

# Histograma de Carga Sedimentaria por Río con colores tierra
datos %>%
  ggplot(aes(x = Carga_Sedimentaria_mg_L, fill = Rio)) +
  geom_histogram(bins = 10, alpha = 0.85, color = "black") +
  scale_fill_manual(values = c("sandybrown", "wheat", "peru", "tan", "burlywood")) +
  facet_wrap(~ Rio, scales = "free_y") +
  theme_minimal() +
  theme(
    legend.position = "none",
    strip.background = element_rect(fill = "burlywood", color = NA),
    strip.text = element_text(face = "bold", color = "black"),
    panel.grid.minor = element_blank(),
    panel.grid.major = element_line(color = "gray85")
  ) +
  labs(title = "Histogramas de Carga Sedimentaria por Río",
       x = "Carga sedimentaria (mg/L)",
       y = "Frecuencia")

Frecuencia de tipo de sedimento

datos %>% 
  ggplot(aes(x = Tipo_Sedimento, fill = Tipo_Sedimento)) +
  geom_bar(alpha = 0.8, color = "black") +
  scale_fill_manual(values = c("sandybrown", "wheat", "peru", "tan", "burlywood")) +
  theme_minimal()

#### Frecuencia de tipo de sedimento

datos %>% 
  ggplot(aes(x = Tipo_Sedimento, fill = Tipo_Sedimento)) +
  geom_bar(alpha = 0.8, color = "black") +
  scale_fill_manual(values = c("sandybrown", "wheat", "peru", "tan", "burlywood")) +
  theme_minimal()

Frecuencia de cada río

datos %>% 
  ggplot(aes(x = Rio, fill = Rio)) +
  geom_bar(alpha = 0.8, color = "black") +
  scale_fill_manual(values = c("cyan", "lightblue", "navy", "deepskyblue", "steelblue")) +
  theme_minimal()

Boxplots: Para visualizar la dispersión y valores atípicos

Tamaño de grano

datos %>% 
  ggplot(aes(x = factor(Rio), y = Tamaño_Grano_mm, fill = Rio))+
  geom_boxplot() +
  scale_fill_manual(values = c("cyan", "lightblue", "navy", "deepskyblue", "steelblue")) +
  theme_minimal()

Velocidad del flujo

datos %>% 
  ggplot(aes(x = factor(Rio), y = Velocidad_Flujo_m_s, fill = Rio))+
  geom_boxplot() +
  scale_fill_manual(values = c("cyan", "lightblue", "navy", "deepskyblue", "steelblue")) +
  theme_minimal()

Carga sedimentaria

datos %>% 
  ggplot(aes(x = factor(Rio), y = Carga_Sedimentaria_mg_L, fill = Rio))+
  geom_boxplot() +
  scale_fill_manual(values = c("cyan", "lightblue", "navy", "deepskyblue", "steelblue")) +
  theme_minimal()

Parte 2: Estimaciones Estadísticas

1. Estimación de la Media con Intervalo de Confianza del 95%

Cargar paquetes necesarios

library(dplyr)
library(stringr)

# Convertir variables numéricas correctamente
datos <- datos %>%
  mutate(
    Tamaño_Grano_mm = as.numeric(str_replace(Tamaño_Grano_mm, ",", ".")),
    Velocidad_Flujo_m_s = as.numeric(str_replace(Velocidad_Flujo_m_s, ",", ".")),
    Carga_Sedimentaria_mg_L = as.numeric(str_replace(Carga_Sedimentaria_mg_L, ",", "."))
  )

# Verificar la conversión
str(datos)

## tibble [100 × 6] (S3: tbl_df/tbl/data.frame)
##  $ ID_Muestra             : num [1:100] 1 2 3 4 5 6 7 8 9 10 ...
##  $ Rio                    : Factor w/ 5 levels "Amazonas","Danubio",..: 3 3 1 5 1 4 2 1 2 5 ...
##  $ Tipo_Sedimento         : Factor w/ 4 levels "Arcilloso","Arenoso",..: 4 3 2 2 2 2 3 4 3 3 ...
##  $ Tamaño_Grano_mm        : num [1:100] 6.72 2.53 3.46 8.61 8.14 ...
##  $ Velocidad_Flujo_m_s    : num [1:100] 2.171 1.825 0.857 3.353 1.457 ...
##  $ Carga_Sedimentaria_mg_L: num [1:100] 3.15e+09 5.15e+09 1.81e+09 7.50e+09 1.21e+09 ...

summary(datos)

##    ID_Muestra           Rio       Tipo_Sedimento Tamaño_Grano_mm 
##  Min.   :  1.00   Amazonas:25   Arcilloso:24     Min.   :0.1355  
##  1st Qu.: 25.75   Danubio :15   Arenoso  :24     1st Qu.:2.5946  
##  Median : 50.50   Misisipi:16   Grava    :24     Median :4.8582  
##  Mean   : 50.50   Nilo    :17   Limoso   :28     Mean   :4.9626  
##  3rd Qu.: 75.25   Yangtsé :27                    3rd Qu.:7.0081  
##  Max.   :100.00                                  Max.   :9.9911  
##  Velocidad_Flujo_m_s Carga_Sedimentaria_mg_L
##  Min.   :0.1454      Min.   :3.399e+07      
##  1st Qu.:1.0152      1st Qu.:1.887e+09      
##  Median :1.8462      Median :3.148e+09      
##  Mean   :1.8463      Mean   :3.293e+09      
##  3rd Qu.:2.6783      3rd Qu.:4.525e+09      
##  Max.   :3.4814      Max.   :9.834e+09

# Función para calcular IC de la media
calcular_IC_media <- function(variable) {
  valores <- datos[[variable]]
  valores <- valores[!is.na(valores)]  # Eliminar NA
  
  media <- mean(valores)
  error_estandar <- sd(valores) / sqrt(length(valores))  
  ic <- qt(0.975, df = length(valores) - 1) * error_estandar
  return(c("Límite Inferior" = media - ic, "Límite Superior" = media + ic))
}

# Calcular IC para cada variable numérica
IC_media_tamano <- calcular_IC_media("Tamaño_Grano_mm")
IC_media_velocidad <- calcular_IC_media("Velocidad_Flujo_m_s")
IC_media_carga <- calcular_IC_media("Carga_Sedimentaria_mg_L")

# Mostrar resultados
IC_media_tamano

## Límite Inferior Límite Superior 
##        4.414273        5.510837

IC_media_velocidad

## Límite Inferior Límite Superior 
##        1.644997        2.047664

IC_media_carga

## Límite Inferior Límite Superior 
##      2901788052      3684889602

2. Estimación de una Proporción con Intervalo de Confianza

# Seleccionar una variable binaria (el sedimento es arenoso o no
datos$Es_Arenoso <- ifelse(datos$Tipo_Sedimento == "Arenoso", 1, 0)

# Calcular la proporción de sedimentos arenosos
proporcion_arenoso <- mean(datos$Es_Arenoso, na.rm = TRUE)

# Calcular el intervalo de confianza con prop.test
IC_proporcion_arenoso <- prop.test(sum(datos$Es_Arenoso, na.rm = TRUE), 
                                   length(na.omit(datos$Es_Arenoso)), 
                                   conf.level = 0.95)

# Mostrar resultados en el formato deseado
cat("Proporción de sedimentos arenosos:", round(proporcion_arenoso, 4), "\n")

## Proporción de sedimentos arenosos: 0.24

cat("Intervalo de confianza al 95%:\n")

## Intervalo de confianza al 95%:

cat("  Límite Inferior:", round(IC_proporcion_arenoso$conf.int[1], 6), "\n")

##   Límite Inferior: 0.162666

cat("  Límite Superior:", round(IC_proporcion_arenoso$conf.int[2], 6), "\n")

##   Límite Superior: 0.337691

3. Estimación de la Varianza con Intervalo de Confianza

calcular_IC_varianza <- function(variable) {
  n <- sum(!is.na(datos[[variable]]))  # Cantidad de datos no NA
  varianza <- var(datos[[variable]], na.rm = TRUE)  # Varianza muestral
  chi_inf <- qchisq(0.975, df = n - 1)  # Cuantil superior
  chi_sup <- qchisq(0.025, df = n - 1)  # Cuantil inferior
  
  IC_inf <- ((n - 1) * varianza) / chi_inf
  IC_sup <- ((n - 1) * varianza) / chi_sup
  
  return(c(varianza, IC_inf, IC_sup))
}

# Cálculo para cada variable numérica
IC_varianza_tamano <- calcular_IC_varianza("Tamaño_Grano_mm")
IC_varianza_velocidad <- calcular_IC_varianza("Velocidad_Flujo_m_s")
IC_varianza_carga <- calcular_IC_varianza("Carga_Sedimentaria_mg_L")

# Mostrar resultados
cat("Varianza e Intervalo de Confianza al 95%:\n")

## Varianza e Intervalo de Confianza al 95%:

cat("\nTamaño de Grano (mm):\n")

## 
## Tamaño de Grano (mm):

cat("  Varianza:", round(IC_varianza_tamano[1], 6), "\n")

##   Varianza: 7.63536

cat("  Límite Inferior:", round(IC_varianza_tamano[2], 6), "\n")

##   Límite Inferior: 5.886069

cat("  Límite Superior:", round(IC_varianza_tamano[3], 6), "\n")

##   Límite Superior: 10.30384

cat("\nVelocidad del Flujo (m/s):\n")

## 
## Velocidad del Flujo (m/s):

cat("  Varianza:", round(IC_varianza_velocidad[1], 6), "\n")

##   Varianza: 1.029563

cat("  Límite Inferior:", round(IC_varianza_velocidad[2], 6), "\n")

##   Límite Inferior: 0.793686

cat("  Límite Superior:", round(IC_varianza_velocidad[3], 6), "\n")

##   Límite Superior: 1.389385

cat("\nCarga Sedimentaria (mg/L):\n")

## 
## Carga Sedimentaria (mg/L):

cat("  Varianza:", round(IC_varianza_carga[1], 6), "\n")

##   Varianza: 3.894017e+18

cat("  Límite Inferior:", round(IC_varianza_carga[2], 6), "\n")

##   Límite Inferior: 3.001882e+18

cat("  Límite Superior:", round(IC_varianza_carga[3], 6), "\n")

##   Límite Superior: 5.254935e+18

4. Diferencia de Medias entre dos grupos (Amazonas vs Nilo)

# Función para realizar la prueba t y mostrar resultados formateados
comparar_medias <- function(variable, grupo1, grupo2) {
  prueba <- t.test(datos[[variable]] ~ datos$Rio, data = datos, subset = datos$Rio %in% c(grupo1, grupo2))
  
  cat("\nComparación de medias para", variable, "entre", grupo1, "y", grupo2, ":\n")
  cat("  Media de", grupo1, ":", round(prueba$estimate[1], 6), "\n")
  cat("  Media de", grupo2, ":", round(prueba$estimate[2], 6), "\n")
  cat("  Diferencia de medias:", round(prueba$estimate[1] - prueba$estimate[2], 6), "\n")
  cat("  Intervalo de Confianza 95%:", round(prueba$conf.int[1], 6), "a", round(prueba$conf.int[2], 6), "\n")
  cat("  Valor p:", format.pval(prueba$p.value, digits = 6), "\n")
}

# Comparación para cada variable numérica entre Amazonas y Nilo
comparar_medias("Tamaño_Grano_mm", "Amazonas", "Nilo")

## 
## Comparación de medias para Tamaño_Grano_mm entre Amazonas y Nilo :
##   Media de Amazonas : 5.340705 
##   Media de Nilo : 3.739316 
##   Diferencia de medias: 1.601389 
##   Intervalo de Confianza 95%: -0.098075 a 3.300853 
##   Valor p: 0.0640044

comparar_medias("Velocidad_Flujo_m_s", "Amazonas", "Nilo")

## 
## Comparación de medias para Velocidad_Flujo_m_s entre Amazonas y Nilo :
##   Media de Amazonas : 1.918679 
##   Media de Nilo : 1.74593 
##   Diferencia de medias: 0.172749 
##   Intervalo de Confianza 95%: -0.453464 a 0.798961 
##   Valor p: 0.579187

comparar_medias("Carga_Sedimentaria_mg_L", "Amazonas", "Nilo")

## 
## Comparación de medias para Carga_Sedimentaria_mg_L entre Amazonas y Nilo :
##   Media de Amazonas : 2975452472 
##   Media de Nilo : 3764912351 
##   Diferencia de medias: -789459879 
##   Intervalo de Confianza 95%: -2116530588 a 537610830 
##   Valor p: 0.234406

5. Diferencia de Proporciones entre dos grupos (Ejemplo: Arenoso vs Arcilloso)

calcular_IC_dif_proporciones <- function(var, grupo1, grupo2) {
  x1 <- sum(datos[[var]] == grupo1, na.rm = TRUE)
  x2 <- sum(datos[[var]] == grupo2, na.rm = TRUE)
  n1 <- sum(!is.na(datos[[var]]) & datos[[var]] %in% c(grupo1, grupo2))
  n2 <- sum(!is.na(datos[[var]]) & datos[[var]] %in% c(grupo1, grupo2))
  
  # Verificar si se puede usar prop.test o se necesita Fisher
  if (min(x1, x2) < 5) {
    test <- fisher.test(matrix(c(x1, n1 - x1, x2, n2 - x2), nrow = 2))
    conf.int <- test$conf.int
  } else {
    test <- prop.test(x = c(x1, x2), n = c(n1, n2), conf.level = 0.95, correct = TRUE)
    conf.int <- test$conf.int
  }
  
  cat("Diferencia de Proporciones\n")
  cat("Límite Inferior:", round(conf.int[1], 6), "\n")
  cat("Límite Superior:", round(conf.int[2], 6), "\n")
}

# Aplicar la función con dos tipos de sedimentos (Ejemplo: "Arenoso" vs "Arcilloso")
calcular_IC_dif_proporciones("Tipo_Sedimento", "Arenoso", "Arcilloso")

## Diferencia de Proporciones
## Límite Inferior: -0.200038 
## Límite Superior: 0.200038

Interpretaciones

Parte 1: Exploración y Análisis Descriptivo

(Agregar una interpretación sobre los análisis gráficos y descriptivos realizados en la Parte 1.)

Histogramas (Distribución de Variables Numéricas)

Distribución del Tamaño de Grano por Río
(Interpretación sobre la distribución de los tamaños de grano en los diferentes ríos.)

-> La gráfica presenta la distribución del tamaño de grano (Milímetros) de sedimentos provenientes de cinco ríos: Amazonas, Danubio, Misisipi, Nilo y Yangtsé. Los tamaños de grano se distribuyen entre 0 y 10 mm, y cada barra muestra la frecuencia de ocurrencia en distintos intervalos, diferenciando los ríos mediante colores. Se observa una clara dominancia del Amazonas, representado por el azul brillante, en todos los intervalos, lo que indica que transporta una gran cantidad de sedimentos con una amplia variedad granulométrica. El Danubio ocupa el segundo lugar en frecuencia, especialmente entre 0 y 7.5 mm, con un pico entre 6 y 7.5 mm. Le sigue el Misisipi, con mayor contribución entre 2 y 4 mm, mientras que el Nilo muestra una presencia destacada entre 4 y 6 mm. El Yangtsé, aunque tiene menor frecuencia a nivel general, aparece de forma dispersa en casi todos los intervalos, lo que sugiere cierta diversidad en los tamaños de grano.

Distribución de la Velocidad del Flujo por Río
(Análisis de cómo varía la velocidad del flujo entre los ríos y si se observan diferencias notables.)

-> La gráfica presenta la frecuencia de observaciones de velocidad de flujo del agua (m/s) para sedimentos de cinco ríos: Amazonas, Danubio, Misisipi, Nilo y Yangtsé. Las velocidades están distribuidas principalmente entre 0 y 3.5 m/s. Nuevamente, el Amazonas se destaca por dominar en casi todos los intervalos, encabezando la parte superior de cada barra del intervalo 1.5 a 3.5 m/s, lo que su capacidad para movilizar sedimentos en flujos moderados a flujos fuertes. El Yangtsé se encuentra presente en casi todos los intervalos, especialmente en los más altos (> 2 m/s), lo que sugiere que transporta sedimentos bajo condiciones de mayor energía fluvial. Por otro lado, el Misisipi predomina en todos los intervalos, con una frecuencia intermedia, lo que podría sugerir que también presenta cierta variabilidad para movilizar sedimentos de flujos > 0.5 m/s y > 3 m/s. Por sunn parte, el Danubio tiene mayor representación en velocidades bajas (< 2 m/s), lo que apunta a una dinámica fluvial más lenta y con menos energía. Por ultimo, el Nilo muestra una presencia más dispersa, lo que sugiere una menor frecuencia de flujos extremos.

Distribución de la Carga Sedimentaria por Río
(Explicación sobre la dispersión y concentración de la carga sedimentaria en los distintos ríos.)

-> La gráfica muestra la carga sedimentaria (mg/L) de cinco ríos: Amazonas, Danubio, Misisipi, Nilo y Yangtsé. La mayoría de las observaciones se concentran entre 0 y 5×10⁹ mg/L, lo que indica que este rango de carga es el más común entre todos los datos. El pico de frecuencia se encuentra alrededor de los 4.5×10⁹ mg/L, donde el Amazonas tiene una fuerte presencia, que sugiere que este río transporta grandes volúmenes de sedimento en suspensión. El Yangtsé también contribuye significativamente a lo largo de todo el rango, con una presencia especialmente marcada en los intervalos medios (2.5×10⁹ a 5×10⁹ mg/L). El Danubio y el Misisipi tienen participaciones más notables en los rangos bajos y medios, mientras que el Nilo presenta una contribución más moderada y dispersa. A medida que la carga sedimentaria aumenta hacia valores extremos (más allá de 7.5×10⁹ mg/L), la frecuencia disminuye considerablemente, pero aún se observan contribuciones esporádicas, principalmente del Yangtsé y el Amazonas.

Gráficos de Frecuencia (Categorías)

Frecuencia de Tipo de Sedimento
(Discusión sobre la distribución de los tipos de sedimentos y si algún tipo es predominante.)

-> El grafico muestra la distribución de los tipos de sedimentos: Arcilloso, Arenoso, Grava, Limoso. Se puede observar que el tipo de sedimento dominante es el Limoso, el cual se ve presentado en la ultima barra de la grafica con una color beige claro. Asimismo, para las Arcillas, Arenas y Gravas se observa un frecuencia igual de aproximadamente 25.

Frecuencia de Cada Río
(Interpretación sobre la cantidad de observaciones en cada río y su posible impacto en el análisis.)

-> La gráfica muestra que el Rio Yangtsé y el Amazonas son los ríos con mayor número de observaciones, superando mas de 20 cada uno, mientras que el Danubio, Misisipi y Nilo presentan observaciones entre 16 y 19. Esta desigualdad en la distribución de datos puede influir en el análisis y en la certeza de este, ya que los ríos con más observaciones tienden a tener una mayor proporción, lo que podría sesgar las conclusiones si no se considera esta diferencia. De manera que es importante tener en cuenta el número de registros al comparar los ríos, ya que una menor cantidad de datos podría limitar la representatividad del rio en ciertos casos.

Boxplots (Comparación entre Ríos)

Boxplot del Tamaño de Grano por Río
En el gráfico de cajas del tamaño de grano por río, se observa que el Yangtsé presenta los mayores tamaños de grano, con una mediana cercana a 6.5 mm y una alta dispersión, lo que indica gran heterogeneidad en los sedimentos transportados. Su distribución parece estar ligeramente sesgada hacia arriba, ya que el bigote superior es más corto, lo que sugiere una mayor concentración de valores grandes. El Amazonas también muestra tamaños considerables, con una mediana de aproximadamente 6 mm y una distribución relativamente simétrica, indicando una dispersión balanceada de los datos alrededor de la mediana. En contraste, el Nilo tiene la mediana más baja, cercana a 4 mm, y una distribución claramente sesgada hacia abajo, con un bigote inferior mucho más largo, lo que sugiere la presencia de muchos tamaños pequeños. El Danubio muestra una distribución ligeramente sesgada hacia abajo, con una mediana centrada pero un bigote inferior más extenso. Por su parte, el Misisipi tiene una mediana alrededor de 4.5 mm y presenta una distribución asimétrica, también con una mayor dispersión hacia los valores bajos. Aunque no se señalan outliers explícitos, la extensión de los bigotes en el Yangtsé y el Nilo sugiere la posible presencia de valores extremos, donde los tamaños de grano varían desde valores cercanos a 0 mm hasta aproximadamente 10 mm.
Boxplot de la Velocidad del Flujo por Río
En el gráfico de cajas sobre la velocidad de flujo por río, el Yangtsé destaca por tener la mayor mediana, cercana a 2.5 m/s, y una amplia dispersión que supera los 3 m/s, indicando velocidades de corriente elevadas y variables. Su distribución se muestra ligeramente sesgada hacia arriba, ya que el bigote superior es más corto, lo que indica una mayor concentración de velocidades altas. El Amazonas presenta una mediana de aproximadamente 2 m/s y una dispersión menor, con una distribución bastante simétrica, lo que sugiere una distribución equilibrada de los datos. En contraste, el Misisipi tiene la menor velocidad, con una mediana inferior a 1.5 m/s y un rango más estrecho; su distribución está ligeramente sesgada hacia abajo, ya que su bigote inferior es más largo, indicando presencia de velocidades más bajas. El Nilo, con una mediana intermedia, muestra una distribución moderadamente simétrica, mientras que el Danubio presenta una dispersión amplia y una distribución ligeramente sesgada hacia abajo, con valores más concentrados en el extremo superior del rango. Estas diferencias reflejan contrastes en la energía fluvial y las condiciones hidrológicas de cada sistema, siendo el Yangtsé y el Amazonas los de mayor energía y capacidad de transporte.
Boxplot de la Carga Sedimentaria por Río
En el gráfico de cajas de la carga sedimentaria por río, todos los ríos presentan medianas elevadas, oscilando entre aproximadamente 2.5 × 10⁹ y 3.5 × 10⁹ mg/L, siendo el Misisipi y el Nilo los que muestran las medianas más altas, mientras que el Yangtsé presenta la más baja. La variabilidad es notable en todos los casos, reflejada en los amplios rangos intercuartílicos y bigotes extendidos, lo que sugiere fluctuaciones significativas en la cantidad de sedimentos transportados, probablemente influenciadas por factores climáticos, estacionales y geográficos. En cuanto a la distribución, el Yangtsé presenta una distribución ligeramente sesgada hacia abajo, con un bigote inferior más largo y valores más concentrados hacia el extremo superior. El Amazonas muestra una distribución simétrica, con una dispersión relativamente equilibrada. El Misisipi tiene una distribución ligeramente sesgada hacia arriba, con una mayor concentración de valores altos. El Danubio y el Nilo muestran distribuciones más asimétricas, especialmente el Danubio, que tiene varios valores atípicos por encima del rango superior, lo que sugiere eventos de alta carga sedimentaria. Además, en los ríos Danubio, Misisipi, Nilo y Yangtsé se observan valores atípicos marcados, posiblemente asociados a episodios extraordinarios como crecientes o procesos erosivos intensos.

Parte 2: Estimaciones Estadísticas

1. Estimación de la Media

Parte 2(1): Los valores presentados corresponden a intervalos de confianza para la media, los cuales permiten estimar, con un 95% de confianza, el rango dentro del cual se encuentra la media poblacional de cada variable. El primer intervalo, indica que la media de la variable “tamaño de grano” muy probablemente se encuentra entre 4.414273 y 5.510837. Asimismo, el segundo intervalo, indica que la media de la velocidad de flujo se encuentra muy probablemente entre 1.644997 y 2.047664. Finalmente, el tercer intervalo indica qye la media de la carga sedimentaria se encuentra muy probablemente entre 2,901,788,052 y 3,684,889,602.

2. Estimación de una Proporción

Parte 2(2):

La proporción de sedimentos arenosos fue de 0.24, lo que indica que el 24% de los sedimentos son de tipo arenoso. El intervalo de confianza al 95%, entre 0.162666 y 0.337691, sugiere que la proporción real en la población se encuentra entre aproximadamente 16.3% y 33.8%, lo que brinda una estimación razonablemente precisa.

3. Estimación de la Varianza

Parte 2(3): Las tres variables analizadas presentan niveles distintos de dispersión. El tamaño de grano muestra una varianza de 7.63 con un intervalo de confianza relativamente amplio (5.89 a 10.30), lo que indica una alta dispersión y poca estabilidad en los tamaños de sedimento. La velocidad del flujo, con una varianza de 1.03 y un intervalo más estrecho (0.79 a 1.39), presenta una dispersión moderada, lo que sugiere mayor estabilidad en comparación con las otras variables. Por otro lado, la carga sedimentaria presenta una varianza extremadamente alta (3.89 × 10¹⁸) y un intervalo bastante amplio, lo que evidencia una gran variabilidad en los datos y, por tanto, baja estabilidad en esta variable.

4. Diferencia de Medias

Al comparar las medias entre el Amazonas y el Nilo para las tres variables, no se observan diferencias estadísticamente significativas, ya que en todos los casos los intervalos de confianza incluyen el cero y los valores p son mayores a 0.05. En el caso del tamaño de grano, aunque la diferencia de medias (1.60 mm) es relativamente notable y el valor p (0.064) se acerca al umbral de significancia, no alcanza un nivel suficiente para considerarse estadísticamente significativa. Para la velocidad del flujo, la diferencia de medias es pequeña (0.17 m/s) y el intervalo de confianza es amplio, lo que junto a un valor p de 0.579 indica claramente que no hay diferencia significativa. Finalmente, en la carga sedimentaria, la diferencia de -789 millones mg/L favorece al Nilo, pero el intervalo de confianza es tan amplio y el valor p tan alto (0.234), que también se concluye que no existe evidencia suficiente para afirmar que las medias son distintas entre estos dos ríos.

5. Diferencia de Proporciones

La diferencia de proporciones entre los grupos arenoso y arcilloso tiene un intervalo de confianza al 95% que va de -0.200038 a 0, lo que indica que no existe una diferencia estadísticamente significativa entre ambas proporciones, ya que el intervalo incluye el valor cero. Esto significa que, con el nivel de confianza establecido, no se puede afirmar que haya una mayor proporción de sedimentos arenosos o arcillosos; es posible que ambas proporciones sean similares en la población o que la diferencia observada en la muestra se deba al azar.

Informe #2

Santiago José Rodríguez Serrano, Raquel Sofía Padilla Caballero, Enrique De Jesús Pedrosa De La Hoz

Marzo 2025

INFORME 2: ANÁLISIS DESCRIPTIVO Y ESTIMACIONES ESTADÍSTICAS EN R

Integrantes

Fecha

Introducción

Carga de Datos en R

Identificación de Variables

Parte 1: Análisis Descriptivo (50%)

Tablas Descriptivas

Resumen estadístico de las variables numéricas

Frecuencia de categorías para variables categóricas

Gráficos Descriptivos

Histogramas: Para analizar la distribución de las variables numéricas

Distribución del tamaño de grano

Distribución de la velocidad del flujo

Distribución de la carga sedimentaria

Frecuencia de tipo de sedimento

Frecuencia de cada río

Boxplots: Para visualizar la dispersión y valores atípicos

Tamaño de grano

Velocidad del flujo

Carga sedimentaria

Parte 2: Estimaciones Estadísticas

1. Estimación de la Media con Intervalo de Confianza del 95%

Cargar paquetes necesarios

2. Estimación de una Proporción con Intervalo de Confianza

3. Estimación de la Varianza con Intervalo de Confianza

4. Diferencia de Medias entre dos grupos (Amazonas vs Nilo)

5. Diferencia de Proporciones entre dos grupos (Ejemplo: Arenoso vs Arcilloso)

Interpretaciones

Parte 1: Exploración y Análisis Descriptivo

Histogramas (Distribución de Variables Numéricas)

Gráficos de Frecuencia (Categorías)

Boxplots (Comparación entre Ríos)

Parte 2: Estimaciones Estadísticas

1. Estimación de la Media

2. Estimación de una Proporción

3. Estimación de la Varianza

4. Diferencia de Medias

5. Diferencia de Proporciones