#Tema: Estadística Descriptiva
#Fecha: 23/11/2025
#Autor:Anahi Sosa
#Carga de librerias
library(knitr)
library(kableExtra)

#Carga de datos
getwd()
## [1] "/cloud/project"
setwd("/cloud/project")
datos<- read.csv("china_water_pollution_data.csv",header = TRUE, sep = ",", dec = ".")

#CIUDAD
Ciudad <- datos$City
# Tabla de distribución de frecuencia
TDF_ciudad <- data.frame(table(Ciudad))
ni <- TDF_ciudad$Freq
hi <- round((ni / sum(ni)) * 100, 2)
Ciudad <- TDF_ciudad$Ciudad
TDF_ciudad <- data.frame(Ciudad, ni, hi)
Sumatoria <- data.frame(Ciudad = "TOTAL", ni = sum(ni), hi = 100)
TDF_ciudad_suma <- rbind(TDF_ciudad, Sumatoria)
colnames(TDF_ciudad_suma) <- c("Ciudad", "ni", "hi(%)")
colnames(TDF_ciudad) <- c("Ciudad", "ni", "hi (%)")

# Tabla
kable(TDF_ciudad_suma, align = 'c', 
      caption = "Tabla N°2: Tabla de Distribución de Frecuencias de las Ciudades
      de estudio de contaminación del agua en China en el año 2023") %>%
  kable_styling(full_width = FALSE, position = "center", 
                bootstrap_options = c("striped", "hover", "condensed"))
Tabla N°2: Tabla de Distribución de Frecuencias de las Ciudades de estudio de contaminación del agua en China en el año 2023
Ciudad ni hi(%)
Beijing 299 9.97
Chengdu 165 5.50
Dali 144 4.80
Guangzhou 146 4.87
Hangzhou 148 4.93
Jinan 160 5.33
Kunming 152 5.07
Luoyang 138 4.60
Mianyang 146 4.87
Nanjing 153 5.10
Ningbo 156 5.20
Qingdao 140 4.67
Shanghai 312 10.40
Shenzhen 155 5.17
Suzhou 140 4.67
Wuhan 154 5.13
Yichang 138 4.60
Zhengzhou 154 5.13
TOTAL 3000 100.00
# Diagrama de barras local
barplot(ni, main = "Gráfica N°1: Distribución de frecuencias de las ciudades
        de estudio de contaminación del agua en China en el año 2023",
        xlab = "Ciudad",
        ylab = "Cantidad",
        col = "skyblue",
        ylim = c(0,400),
        las = 2,
        cex.names = 0.6,
        names.arg = TDF_ciudad$Ciudad)

barplot(hi, main = "Gráfica N°2: Distribución porcentual de 
        las ciudades de estudio de contaminación del agua en China en el año 2023",
        xlab = "Ciudad",
        ylab = "Porcentaje",
        col = "skyblue",
        ylim = c(0,10),
        las = 2,
        cex.names = 0.6,
        names.arg = TDF_ciudad$Ciudad)

# Diagrama de barras global
barplot(ni, main = "Gráfica N°3: Distribución de frecuencias de las ciudades
        de estudio de contaminación del agua en China en el año 2023",
        xlab = "Ciudad",
        ylab = "Cantidad",
        col = "skyblue",
        ylim = c(0,3000),
        las=2,
        cex.names = 0.6,
        names.arg = TDF_ciudad$Ciudad)

barplot(hi, main = "Gráfica N°4: Distribución de frecuencias porcentual de 
las ciudades de estudio de contaminación del agua en China en el año 2023",
        xlab = "Ciudad",
        ylab = "Porcentaje (%)",
        col = "skyblue",
        ylim = c(0,100),
        las = 3,
        cex.names = 0.6,
        names.arg = TDF_ciudad$Ciudad)

# Lista de ciudades
tabla <- data.frame(
  Ciudad = c(
    "Beijing","Chengdu","Dali","Guangzhou","Hangzhou","Jinan","Kunming",
    "Luoyang","Mianyang","Nanjing","Ningbo","Qingdao","Shanghai","Shenzhen",
    "Suzhou","Wuhan","Yichang","Zhengzhou"
  ),
  ni = c(
    299,165,144,146,148,160,152,
    138,146,153,156,140,312,155,
    140,154,138,154
  ),
  hi = c(
    9.97,5.50,4.80,4.87,4.93,5.33,5.07,
    4.60,4.87,5.10,5.20,4.67,10.40,5.17,
    4.67,5.13,4.60,5.13
  )
)

tabla$Region <- c(
  "Norte",        # Beijing
  "Sudoeste",    # Chengdu
  "Sudoeste",    # Dali
  "Sur ",        # Guangzhou
  "Este",         # Hangzhou
  "Norte",        # Jinan
  "Sudoeste",    # Kunming
  "Centro",      # Luoyang
  "Sudoeste",    # Mianyang
  "Este",         # Nanjing
  "Este",         # Ningbo
  "Norte",        # Qingdao
  "Este",         # Shanghai
  "Sudoeste",        # Shenzhen
  "Este",         # Suzhou
  "Centro",      # Wuhan
  "Centro",      # Yichang
  "Centro"       # Zhengzhou
)

tabla_regiones <- aggregate(hi ~ Region, data = tabla, sum)
tabla_regiones
##     Region    hi
## 1   Centro 19.46
## 2     Este 30.30
## 3    Norte 19.97
## 4 Sudoeste 25.41
## 5     Sur   4.87
barplot(tabla_regiones$hi, main = "Gráfica N°5: Agrupación por frecuencia",
        xlab = "Ciudad",
        ylab = "Porcentaje (%)",
        col = "skyblue",
        ylim = c(0,100),
        las = 2,
        cex.names = 0.8,
        names.arg = tabla_regiones$Region)

labels_info <- sprintf("%.2f%%", tabla_regiones$hi)
pie(tabla_regiones$hi,
    main = "Gráfica N°6 Distribución porcentual de las ciudades de estudio
    de contaminación del agua en China en el año 2023 ",
    radius = 1.0,
    labels = labels_info,
    col = rev(heat.colors(10)),
    cex = 0.9,
    cex.main = 1)

legend("topright",
       legend = tabla_regiones$Region,
       fill = colores <- c(rev(heat.colors(10))),
       cex = 0.8,
       title = "Leyenda")