#Tema: Estadística Descriptiva
#Fecha: 21/11/2025
#Autor:Grupo1
#Carga de librerias
library(knitr)
library(kableExtra)
#Carga de datos
getwd()
## [1] "/cloud/project"
setwd("/cloud/project")
datos<- read.csv("china_water_pollution_data.csv",
header = TRUE, sep=",", dec = ".")
#Tablas Cualitativas Nominales
#PROVINCIA
Provincia <- datos$Province
TDF_provincia <- data.frame(table(Provincia))
ni <- TDF_provincia$Freq
hi <- round((ni / sum(ni)) * 100, 2)
Provincia <- TDF_provincia$Provincia
TDF_provincia <- data.frame(Provincia, ni, hi)
Sumatoria <- data.frame(Provincia = "TOTAL", ni = sum(ni), hi = sum(hi))
Tabla_provincia <- rbind(TDF_provincia, Sumatoria)
colnames(Tabla_provincia) <- c("Provincia", "ni", "hi(%)")
# Tabla
kable(Tabla_provincia, align = 'c',
caption = "Tabla N°1:Tabla de Distribución de Frecuencias de las Provincias
de estudio de contaminación del agua en China en el año 2023") %>%
kable_styling(full_width = FALSE, position = "center",
bootstrap_options = c("striped", "hover", "condensed"))
Tabla N°1:Tabla de Distribución de Frecuencias de las Provincias de
estudio de contaminación del agua en China en el año 2023
|
Provincia
|
ni
|
hi(%)
|
|
Beijing
|
299
|
9.97
|
|
Guangdong
|
301
|
10.03
|
|
Henan
|
292
|
9.73
|
|
Hubei
|
292
|
9.73
|
|
Jiangsu
|
293
|
9.77
|
|
Shandong
|
300
|
10.00
|
|
Shanghai
|
312
|
10.40
|
|
Sichuan
|
311
|
10.37
|
|
Yunnan
|
296
|
9.87
|
|
Zhejiang
|
304
|
10.13
|
|
TOTAL
|
3000
|
100.00
|
#CIUDAD
Ciudad <- datos$City
# Tabla de distribución de frecuencia
TDF_ciudad <- data.frame(table(Ciudad))
ni <- TDF_ciudad$Freq
hi <- round((ni / sum(ni)) * 100, 2)
Ciudad <- TDF_ciudad$Ciudad
TDF_ciudad <- data.frame(Ciudad, ni, hi)
Sumatoria <- data.frame(Ciudad = "TOTAL", ni = sum(ni), hi = 100)
TDF_ciudad_suma <- rbind(TDF_ciudad, Sumatoria)
colnames(TDF_ciudad_suma) <- c("Ciudad", "ni", "hi(%)")
# Tabla
kable(TDF_ciudad_suma, align = 'c',
caption = "Tabla N°2: Tabla de Distribución de Frecuencias de
las Ciudades
de estudio de contaminación del agua en China en el año
2023")%>%
kable_styling(full_width = FALSE, position = "center",
bootstrap_options = c("striped", "hover",
"condensed"))
Tabla N°2: Tabla de Distribución de Frecuencias de las Ciudades de
estudio de contaminación del agua en China en el año 2023
|
Ciudad
|
ni
|
hi(%)
|
|
Beijing
|
299
|
9.97
|
|
Chengdu
|
165
|
5.50
|
|
Dali
|
144
|
4.80
|
|
Guangzhou
|
146
|
4.87
|
|
Hangzhou
|
148
|
4.93
|
|
Jinan
|
160
|
5.33
|
|
Kunming
|
152
|
5.07
|
|
Luoyang
|
138
|
4.60
|
|
Mianyang
|
146
|
4.87
|
|
Nanjing
|
153
|
5.10
|
|
Ningbo
|
156
|
5.20
|
|
Qingdao
|
140
|
4.67
|
|
Shanghai
|
312
|
10.40
|
|
Shenzhen
|
155
|
5.17
|
|
Suzhou
|
140
|
4.67
|
|
Wuhan
|
154
|
5.13
|
|
Yichang
|
138
|
4.60
|
|
Zhengzhou
|
154
|
5.13
|
|
TOTAL
|
3000
|
100.00
|
#OBSERVACIONES
Observaciones <- datos$Remarks
# Tabla de distribución de frecuencia
TDF_observaciones <- data.frame(table(Observaciones))
ni <- TDF_observaciones$Freq
hi <- round((ni / sum(ni)) * 100, 2)
Observaciones <- TDF_observaciones$Observaciones
TDF_observaciones <- data.frame(Observaciones, ni, hi)
TDF_observaciones$Observaciones[TDF_observaciones$Observaciones
== ""]<- "-"
## Warning in `[<-.factor`(`*tmp*`, TDF_observaciones$Observaciones == "", :
## invalid factor level, NA generated
Sumatoria <- data.frame(Observaciones = "TOTAL", ni = sum(ni), hi =
sum(hi))
TDF_observaciones_suma <- rbind(TDF_observaciones, Sumatoria)
colnames(TDF_observaciones_suma) <- c("Observaciones", "ni", "hi(%)")
# Tabla
kable(TDF_observaciones_suma, align = 'c',
caption = "Tabla N°3: Tabla de Distribuciónn de Frecuencias de
las Observaciones de estudio de contaminación del agua en China
en el año 2023") %>%
kable_styling(full_width = FALSE, position = "center",
bootstrap_options = c("striped", "hover","condensed"))
Tabla N°3: Tabla de Distribuciónn de Frecuencias de las Observaciones de
estudio de contaminación del agua en China en el año 2023
|
Observaciones
|
ni
|
hi(%)
|
|
NA
|
752
|
25.07
|
|
High pollution spike detected
|
780
|
26.00
|
|
Monitoring recommended
|
745
|
24.83
|
|
Requires attention
|
723
|
24.10
|
|
TOTAL
|
3000
|
100.00
|