0.Librerías

# -------------------------
# Cargar librerías
# -------------------------
library(dplyr)

## 
## Adjuntando el paquete: 'dplyr'

## The following objects are masked from 'package:stats':
## 
##     filter, lag

## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union

library(gt)

1.Leer Datos

# -------------------------
# Cargar datos
# -------------------------
df <- read.csv(
  "waterPollution.csv",
  sep = ",",
  stringsAsFactors = FALSE
)

2.Extracción y depuración de la variable

if (!"droughts_floods_temperature" %in% names(df)) {
  stop("La variable droughts_floods_temperature no existe en el archivo.")
}

# Extraer variable
Sequias <- df$droughts_floods_temperature

# Convertir a variable discreta
Sequias <- round(Sequias * 100)

# Eliminar valores faltantes
Sequias <- na.omit(Sequias)

3.Tabla de distribución de Frecuencias

# -------------------------
# Tabla de frecuencias
# -------------------------
tabla_freq <- as.data.frame(table(Sequias))

# Renombrar columnas

colnames(tabla_freq) <- c("Sequias", "ni")

# Frecuencia relativa
tabla_freq$hi <- (tabla_freq$ni / sum(tabla_freq$ni)) * 100

# Frecuencias acumuladas ascendentes
tabla_freq$Ni_asc <- cumsum(tabla_freq$ni)
tabla_freq$Hi_asc <- cumsum(tabla_freq$hi)

# Frecuencias acumuladas descendentes
tabla_freq$Ni_dsc <- rev(cumsum(rev(tabla_freq$ni)))
tabla_freq$Hi_dsc <- rev(cumsum(rev(tabla_freq$hi)))

# Redondear porcentajes
tabla_freq$hi <- round(tabla_freq$hi, 2)
tabla_freq$Hi_asc <- round(tabla_freq$Hi_asc, 2)
tabla_freq$Hi_dsc <- round(tabla_freq$Hi_dsc, 2)

# -------------------------
# Agregar fila de totales
# -------------------------
fila_total <- data.frame(
  Sequias = "Total",
  ni = sum(tabla_freq$ni),
  hi = 100,
  Ni_asc = "",
  Hi_asc = "",
  Ni_dsc = "",
  Hi_dsc = ""
)

tabla_final <- rbind(tabla_freq, fila_total)

# -------------------------
# Crear tabla gt
# -------------------------
tabla_gt <- tabla_final %>%
  gt() %>%
  tab_header(
    title = md("**Tabla N°1**"),
    subtitle = md("**Distribución de frecuencias de sequías en el estudio de la 
                  calidad de agua en Europa (1991-2017)**")
  ) %>%
  cols_label(
    Sequias = "Sequias",
    ni = "ni",
    hi = "hi (%)",
    Ni_asc = "Ni ↑",
    Hi_asc = "Hi ↑ (%)",
    Ni_dsc = "Ni ↓",
    Hi_dsc = "Hi ↓ (%)"
  ) %>%
  
  tab_style(
    style = cell_text(weight = "bold"),
    locations = cells_body(
      rows = Sequias == "Total"
    )
  ) %>%
  opt_row_striping()

# Mostrar tabla
tabla_gt

Sequias	ni	hi (%)	Ni ↑	Hi ↑ (%)	Ni ↓	Hi ↓ (%)
Tabla N°1
Distribución de frecuencias de sequías en el estudio de la calidad de agua en Europa (1991-2017)
0	1318	6.63	1318	6.63	19893	100
1	10240	51.48	11558	58.1	18575	93.37
2	5	0.03	11563	58.13	8335	41.9
3	4499	22.62	16062	80.74	8330	41.87
4	91	0.46	16153	81.2	3831	19.26
8	117	0.59	16270	81.79	3740	18.8
16	479	2.41	16749	84.2	3623	18.21
27	3	0.02	16752	84.21	3144	15.8
73	3141	15.79	19893	100	3141	15.79
Total	19893	100.00

4.Gráficos

4.1 Histograma (ni)

# =========================
# HISTOGRAMA  (ni)
# =========================

# Gráfico de barras ni
barplot(tabla_freq$ni,
        main = "Gráfica N°1: Distribución de sequías en el estudio de la calidad 
        de agua en Europa (1991-2017)",
        xlab = "Sequías",
        ylab = "Cantidad",
        col = "skyblue",
        ylim = c(0, max(tabla_freq$ni)),
        names.arg = tabla_freq$Sequias,
        las = 1,
        cex.names = 0.8)

4.2 Histograma General (ni)

# =========================
# HISTOGRAMA GENERAL (ni)
# =========================

#Diagrama de barras ni
barplot(tabla_freq$ni,
        main = "Gráfica N°2: Distribución general de sequías en el estudio de 
        la calidad de agua en Europa (1991-2017)",
        xlab = "Sequías",
        ylab = "Cantidad",
        col = "lightgreen",
        ylim = c(0,20000),
        names.arg = tabla_freq$Sequias,
        las = 1,
        cex.names = 0.8)

4.3 Histograma (hi)

# =========================
# HISTOGRAMA  (hi)
# =========================

# Gráfico de barras hi
barplot(tabla_freq$hi,
        main = "Gráfica N°3: Distribución porcentual de sequías en el estudio de 
        la calidad de agua en Europa (1991-2017)",
        xlab = "Sequías",
        ylab = "Porcentaje",
        col = "skyblue",
        ylim = c(0, max(tabla_freq$hi)),
        names.arg = tabla_freq$Sequias,
        las = 1,
        cex.names = 0.8)

4.4 Histograma General (hi)

# =========================
# HISTOGRAMA GENERAL (hi)
# =========================

#Diagrama de barras hi
barplot(tabla_freq$hi,
        main = "Gráfica N°4: Distribución porcentual general de sequías en el 
        estudio de la calidad de agua en Europa (1991-2017)",
        xlab = "Sequías",
        ylab = "Porcentaje",
        col = "lightgreen",
        ylim = c(0,100),
        names.arg = tabla_freq$Sequias,
        las = 1,
        cex.names = 0.8)

4.5 Boxplot

# =========================
# DIAGRAMA DE CAJA
# =========================

boxplot(
  Sequias,
  horizontal = TRUE,
  col = "orange",
  main = "Gráfica Nº5: Distribución de sequías en el estudio de 
        la calidad de agua en Europa (1991-2017)",
  xlab = "Porcentaje de sequías (%)"
)

points(
  mean(Sequias),
  1,
  pch = 19,
  col = "red"
)

legend(
  "topright",
  legend = "Media",
  pch = 19,
  col = "red"
)

4.6 Ojivas ascendentes y descendentes (Ni)

# ======================================
# OJIVAS ASCENDENTES Y DESCENDENTES (Ni)
# =======================================

# Posiciones en el eje X
x_pos <- 1:length(tabla_freq$Sequias)

# Ojiva descendente
plot(x_pos,
     tabla_freq$Ni_dsc,
     main = "Gráfica N°6: Ojiva ascendente y descendente de las sequías en el 
     estudio de la calidad de agua en Europa (1991-2017)",
     xlab = "Sequías",
     ylab = "Cantidad",
     col = "orange",
     type = "p",
     lwd = 3,
     xaxt = "n")

# Ojiva ascendente
lines(x_pos,
      tabla_freq$Ni_asc,
      col = "green",
      type = "p",
      lwd = 3)

# Etiquetas del eje X
axis(side = 1,
     at = x_pos,
     labels = tabla_freq$Sequias,
     las = 1,
     cex.axis = 0.9)

# Leyenda
legend("topright",
       legend = c("Descendente", "Ascendente"),
       col = c("orange", "green"),
       pch = 1)

4.7 Ojivas ascendentes y descendentes (Hi)

# =======================================
# OJIVAS ASCENDENTES Y DESCENDENTES (Hi)
# =======================================

# Posiciones en el eje X
x_pos <- 1:length(tabla_freq$Sequias)

# Ojiva descendente
plot(x_pos,
     tabla_freq$Hi_dsc,
     main = "Gráfica N°7:Ojiva ascendente y descendente de las sequías en el 
     estudio de la calidad de agua en Europa (1991-2017)",
     xlab = "Sequías",
     ylab = "Porcentaje",
     col = "red",
     type = "p",
     lwd = 3,
     xaxt = "n")

# Ojiva ascendente
lines(x_pos,
      tabla_freq$Hi_asc,
      col = "blue",
      type = "p",
      lwd = 3)

# Etiquetas del eje X
axis(side = 1,
     at = x_pos,
     labels = tabla_freq$Sequias,
     las = 1,
     cex.axis = 0.9)

# Leyenda
legend("topright",
       legend = c("Descendente", "Ascendente"),
       col = c("red", "blue"),
       pch = 1)

5. Tabla de Indicadores

# =========================
# INDICADORES ESTADÍSTICOS
# Variable: Sequías
# =========================

# Cargar librerías
library(dplyr)
library(gt)
library(e1071)

# =========================
# Cargar datos
# =========================

df <- read.csv(
  "waterPollution.csv",
  sep = ",",
  stringsAsFactors = FALSE
)

# =========================
# Variable discreta
# =========================

Sequias <- df$droughts_floods_temperature

# Transformar a discreta
Sequias <- round(Sequias * 100)

# Eliminar NA
Sequias <- na.omit(Sequias)

# =========================
# MEDIDAS DE TENDENCIA CENTRAL
# =========================

# Media
media <- round(mean(Sequias), 2)

# Moda
tabla_moda <- table(Sequias)
max_frecuencia <- max(tabla_moda)
moda <- names(tabla_moda)[tabla_moda == max_frecuencia]

# Mediana
mediana <- median(Sequias)

# =========================
# MEDIDAS DE DISPERSIÓN
# =========================

# Varianza
varianza <- var(Sequias)

# Desviación estándar
desviacion <- sd(Sequias)

# Coeficiente de variación
cv <- round((desviacion / media) * 100, 2)

# =========================
# MEDIDAS DE FORMA
# =========================

asimetria <- skewness(Sequias, type = 2)

curtosis <- kurtosis(Sequias)

# =========================
# VALORES ATÍPICOS
# =========================

Q1 <- quantile(Sequias, 0.25)
Q3 <- quantile(Sequias, 0.75)

RIQ <- Q3 - Q1

LI <- Q1 - 1.5 * RIQ
LS <- Q3 + 1.5 * RIQ

atipicos <- Sequias[Sequias < LI | Sequias > LS]

if(length(atipicos) > 0){
  mensaje_atipicos <- length(atipicos)
} else {
  mensaje_atipicos <- 0
}
# =========================
# TABLA RESUMEN
# =========================

tabla_indicadores_sequias <- data.frame(
  Variable = "Sequías",
  Rango = paste0("[", min(Sequias), " ; ", max(Sequias), "]"),
  X = media,
  Me = mediana,
  Mo = paste(moda, collapse = ", "),
  V = round(varianza, 2),
  Sd = round(desviacion, 2),
  Cv = cv,
  As = round(asimetria, 2),
  K = round(curtosis, 2),
  Valores_Atipicos = mensaje_atipicos,
  stringsAsFactors = FALSE
)

# =========================
# TABLA GT
# =========================

fila_sequias <- which(
  tabla_indicadores_sequias$Variable == "Sequías"
)

tabla_indicadores_sequias_gt <- tabla_indicadores_sequias %>%
  gt() %>%
  tab_header(
    title = md("**Tabla N°2**"),
    subtitle = md(
      "**Indicadores estadísticos de las sequías, en el estudio de la calidada 
      de agua en Europa (1991-2017)**"
    )
  ) %>%
  tab_source_note(
    source_note = md("Autor: Grupo 3")
  ) %>%
  tab_options(
    table.border.top.color = "black",
    table.border.bottom.color = "black",
    column_labels.border.bottom.width = px(2),
    row.striping.include_table_body = TRUE
  ) %>%
  tab_style(
    style = cell_text(weight = "bold"),
    locations = cells_body(
      rows = fila_sequias
    )
  )

# Mostrar tabla
tabla_indicadores_sequias_gt

Variable	Rango	X	Me	Mo	V	Sd	Cv	As	K	Valores_Atipicos
Tabla N°2
Indicadores estadísticos de las sequías, en el estudio de la calidada de agua en Europa (1991-2017)
Sequías	[0 ; 73]	13.17	1	1	677.16	26.02	197.59	1.84	1.45	3740
Autor: Grupo 3

6.Conclusión

# -------------------------
# Conclusión
# -------------------------

# La variable Sequías fluctúa en un rango de 0 a 73, y sus valores giran en torno a una mediana de 1, con una desviación estándar de 26.02. Dado que el coeficiente de variación es de 197.59%, se trata de un conjunto de valores extremadamente heterogéneo con una alta dispersión. Los datos presentan una asimetría positiva (1.84), lo que indica que los valores se acumulan de manera pronunciada en la parte baja de la variable (cerca del cero). Con una curtosis de 1.45 y la presencia de 3740 valores atípicos, se observa una alta variabilidad en los registros. Por lo anterior, el comportamiento de las sequías muestra eventos aislados de gran magnitud, lo cual es un indicador crítico para el estudio de la calidad del agua en Europa (1991-2017).

Sequías

Universidad Central del Ecuador

06-06-2026

0.Librerías

1.Leer Datos

2.Extracción y depuración de la variable

3.Tabla de distribución de Frecuencias

4.Gráficos

4.1 Histograma (ni)

4.2 Histograma General (ni)

4.3 Histograma (hi)

4.4 Histograma General (hi)

4.5 Boxplot

4.6 Ojivas ascendentes y descendentes (Ni)

4.7 Ojivas ascendentes y descendentes (Hi)

5. Tabla de Indicadores

6.Conclusión