#Tema: Estadística Descriptiva
#Fecha: 21/11/2025
#Autor:Grupo1
#Carga de librerias
library(knitr)
library(kableExtra)

#Carga de datos
getwd()
## [1] "/cloud/project"
setwd("/cloud/project")
datos<- read.csv("china_water_pollution_data.csv",
                 header = TRUE,     sep=",", dec =  ".")
#Tablas Cualitativas Nominales
#PROVINCIA
Provincia <- datos$Province

TDF_provincia <- data.frame(table(Provincia))
ni <- TDF_provincia$Freq
hi <- round((ni / sum(ni)) * 100, 2)
Provincia <- TDF_provincia$Provincia
TDF_provincia <- data.frame(Provincia, ni, hi)
Sumatoria <- data.frame(Provincia = "TOTAL", ni = sum(ni), hi = sum(hi))

Tabla_provincia <- rbind(TDF_provincia, Sumatoria)
colnames(Tabla_provincia) <- c("Provincia", "ni", "hi(%)")

# Tabla
kable(Tabla_provincia, align = 'c', 
      caption = "Tabla N°1:Tabla de Distribución de Frecuencias de las Provincias
      de estudio de contaminación del agua en China en el año 2023") %>%
  kable_styling(full_width = FALSE, position = "center", 
                bootstrap_options = c("striped", "hover", "condensed"))
Tabla N°1:Tabla de Distribución de Frecuencias de las Provincias de estudio de contaminación del agua en China en el año 2023
Provincia ni hi(%)
Beijing 299 9.97
Guangdong 301 10.03
Henan 292 9.73
Hubei 292 9.73
Jiangsu 293 9.77
Shandong 300 10.00
Shanghai 312 10.40
Sichuan 311 10.37
Yunnan 296 9.87
Zhejiang 304 10.13
TOTAL 3000 100.00
#CIUDAD
Ciudad <- datos$City
# Tabla de distribución de frecuencia
TDF_ciudad <- data.frame(table(Ciudad))
ni <- TDF_ciudad$Freq
hi <- round((ni / sum(ni)) * 100, 2)
Ciudad <- TDF_ciudad$Ciudad
TDF_ciudad <- data.frame(Ciudad, ni, hi)
Sumatoria <- data.frame(Ciudad = "TOTAL", ni = sum(ni), hi = 100)
TDF_ciudad_suma <- rbind(TDF_ciudad, Sumatoria)
colnames(TDF_ciudad_suma) <- c("Ciudad", "ni", "hi(%)")


# Tabla
kable(TDF_ciudad_suma, align = 'c', 
      caption = "Tabla N°2: Tabla de Distribución de Frecuencias de 
      las Ciudades
      de estudio de contaminación del agua en China en el año 
      2023")%>%
  kable_styling(full_width = FALSE, position = "center", 
                bootstrap_options = c("striped", "hover", 
                                      "condensed"))
Tabla N°2: Tabla de Distribución de Frecuencias de las Ciudades de estudio de contaminación del agua en China en el año 2023
Ciudad ni hi(%)
Beijing 299 9.97
Chengdu 165 5.50
Dali 144 4.80
Guangzhou 146 4.87
Hangzhou 148 4.93
Jinan 160 5.33
Kunming 152 5.07
Luoyang 138 4.60
Mianyang 146 4.87
Nanjing 153 5.10
Ningbo 156 5.20
Qingdao 140 4.67
Shanghai 312 10.40
Shenzhen 155 5.17
Suzhou 140 4.67
Wuhan 154 5.13
Yichang 138 4.60
Zhengzhou 154 5.13
TOTAL 3000 100.00
#OBSERVACIONES
Observaciones <- datos$Remarks
# Tabla de distribución de frecuencia
TDF_observaciones <- data.frame(table(Observaciones))
ni <- TDF_observaciones$Freq
hi <- round((ni / sum(ni)) * 100, 2)
Observaciones <- TDF_observaciones$Observaciones
TDF_observaciones <- data.frame(Observaciones, ni, hi)
TDF_observaciones$Observaciones[TDF_observaciones$Observaciones 
                                     == ""]<- "-"
## Warning in `[<-.factor`(`*tmp*`, TDF_observaciones$Observaciones == "", :
## invalid factor level, NA generated
Sumatoria <- data.frame(Observaciones = "TOTAL", ni = sum(ni), hi = 
                          sum(hi))

TDF_observaciones_suma <- rbind(TDF_observaciones, Sumatoria)
colnames(TDF_observaciones_suma) <- c("Observaciones", "ni", "hi(%)")


# Tabla
kable(TDF_observaciones_suma, align = 'c', 
      caption = "Tabla N°3: Tabla de Distribuciónn de Frecuencias de 
      las Observaciones de estudio de contaminación del agua en China 
      en el año 2023") %>%
  kable_styling(full_width = FALSE, position = "center", 
                bootstrap_options = c("striped", "hover","condensed"))
Tabla N°3: Tabla de Distribuciónn de Frecuencias de las Observaciones de estudio de contaminación del agua en China en el año 2023
Observaciones ni hi(%)
NA 752 25.07
High pollution spike detected 780 26.00
Monitoring recommended 745 24.83
Requires attention 723 24.10
TOTAL 3000 100.00