#Tema: EstadÃstica Descriptiva
#Fecha: 23/11/2025
#Autor:Anahi Sosa
#Carga de librerias
library(knitr)
library(kableExtra)
#Carga de datos
getwd()
## [1] "/cloud/project"
setwd("/cloud/project")
datos<- read.csv("china_water_pollution_data.csv",header = TRUE, sep = ",", dec = ".")
#CIUDAD
Ciudad <- datos$City
# Tabla de distribución de frecuencia
TDF_ciudad <- data.frame(table(Ciudad))
ni <- TDF_ciudad$Freq
hi <- round((ni / sum(ni)) * 100, 2)
Ciudad <- TDF_ciudad$Ciudad
TDF_ciudad <- data.frame(Ciudad, ni, hi)
Sumatoria <- data.frame(Ciudad = "TOTAL", ni = sum(ni), hi = 100)
TDF_ciudad_suma <- rbind(TDF_ciudad, Sumatoria)
colnames(TDF_ciudad_suma) <- c("Ciudad", "ni", "hi(%)")
colnames(TDF_ciudad) <- c("Ciudad", "ni", "hi (%)")
# Tabla
kable(TDF_ciudad_suma, align = 'c',
caption = "Tabla N°2: Tabla de Distribución de Frecuencias de las Ciudades
de estudio de contaminación del agua en China en el año 2023") %>%
kable_styling(full_width = FALSE, position = "center",
bootstrap_options = c("striped", "hover", "condensed"))
Tabla N°2: Tabla de Distribución de Frecuencias de las Ciudades de
estudio de contaminación del agua en China en el año 2023
|
Ciudad
|
ni
|
hi(%)
|
|
Beijing
|
299
|
9.97
|
|
Chengdu
|
165
|
5.50
|
|
Dali
|
144
|
4.80
|
|
Guangzhou
|
146
|
4.87
|
|
Hangzhou
|
148
|
4.93
|
|
Jinan
|
160
|
5.33
|
|
Kunming
|
152
|
5.07
|
|
Luoyang
|
138
|
4.60
|
|
Mianyang
|
146
|
4.87
|
|
Nanjing
|
153
|
5.10
|
|
Ningbo
|
156
|
5.20
|
|
Qingdao
|
140
|
4.67
|
|
Shanghai
|
312
|
10.40
|
|
Shenzhen
|
155
|
5.17
|
|
Suzhou
|
140
|
4.67
|
|
Wuhan
|
154
|
5.13
|
|
Yichang
|
138
|
4.60
|
|
Zhengzhou
|
154
|
5.13
|
|
TOTAL
|
3000
|
100.00
|
# Diagrama de barras local
barplot(ni, main = "Gráfica N°1: Distribución de frecuencias de las ciudades
de estudio de contaminación del agua en China en el año 2023",
xlab = "Ciudad",
ylab = "Cantidad",
col = "skyblue",
ylim = c(0,400),
las = 2,
cex.names = 0.6,
names.arg = TDF_ciudad$Ciudad)

barplot(hi, main = "Gráfica N°2: Distribución porcentual de
las ciudades de estudio de contaminación del agua en China en el año 2023",
xlab = "Ciudad",
ylab = "Porcentaje",
col = "skyblue",
ylim = c(0,10),
las = 2,
cex.names = 0.6,
names.arg = TDF_ciudad$Ciudad)

# Diagrama de barras global
barplot(ni, main = "Gráfica N°3: Distribución de frecuencias de las ciudades
de estudio de contaminación del agua en China en el año 2023",
xlab = "Ciudad",
ylab = "Cantidad",
col = "skyblue",
ylim = c(0,3000),
las=2,
cex.names = 0.6,
names.arg = TDF_ciudad$Ciudad)

barplot(hi, main = "Gráfica N°4: Distribución de frecuencias porcentual de
las ciudades de estudio de contaminación del agua en China en el año 2023",
xlab = "Ciudad",
ylab = "Porcentaje (%)",
col = "skyblue",
ylim = c(0,100),
las = 3,
cex.names = 0.6,
names.arg = TDF_ciudad$Ciudad)

# Lista de ciudades
tabla <- data.frame(
Ciudad = c(
"Beijing","Chengdu","Dali","Guangzhou","Hangzhou","Jinan","Kunming",
"Luoyang","Mianyang","Nanjing","Ningbo","Qingdao","Shanghai","Shenzhen",
"Suzhou","Wuhan","Yichang","Zhengzhou"
),
ni = c(
299,165,144,146,148,160,152,
138,146,153,156,140,312,155,
140,154,138,154
),
hi = c(
9.97,5.50,4.80,4.87,4.93,5.33,5.07,
4.60,4.87,5.10,5.20,4.67,10.40,5.17,
4.67,5.13,4.60,5.13
)
)
tabla$Region <- c(
"Norte", # Beijing
"Sudoeste", # Chengdu
"Sudoeste", # Dali
"Sur ", # Guangzhou
"Este", # Hangzhou
"Norte", # Jinan
"Sudoeste", # Kunming
"Centro", # Luoyang
"Sudoeste", # Mianyang
"Este", # Nanjing
"Este", # Ningbo
"Norte", # Qingdao
"Este", # Shanghai
"Sudoeste", # Shenzhen
"Este", # Suzhou
"Centro", # Wuhan
"Centro", # Yichang
"Centro" # Zhengzhou
)
tabla_regiones <- aggregate(hi ~ Region, data = tabla, sum)
tabla_regiones
## Region hi
## 1 Centro 19.46
## 2 Este 30.30
## 3 Norte 19.97
## 4 Sudoeste 25.41
## 5 Sur 4.87
barplot(tabla_regiones$hi, main = "Gráfica N°5: Agrupación por frecuencia",
xlab = "Ciudad",
ylab = "Porcentaje (%)",
col = "skyblue",
ylim = c(0,100),
las = 2,
cex.names = 0.8,
names.arg = tabla_regiones$Region)

labels_info <- sprintf("%.2f%%", tabla_regiones$hi)
pie(tabla_regiones$hi,
main = "Gráfica N°6 Distribución porcentual de las ciudades de estudio
de contaminación del agua en China en el año 2023 ",
radius = 1.0,
labels = labels_info,
col = rev(heat.colors(10)),
cex = 0.9,
cex.main = 1)
legend("topright",
legend = tabla_regiones$Region,
fill = colores <- c(rev(heat.colors(10))),
cex = 0.8,
title = "Leyenda")
