# Tema: Estadística Descriptiva
# Autor: Grupo 1
# Fecha: 25/11/2025
setwd("C:/Users/LENOVO/OneDrive/Escritorio/ESTADISTICA")
datos <- read.csv("china_water_pollution_data.csv")
#Extraccion variable cualitativa nominal
Provincia <- datos$Province
#Tabla de distribución de frecuencia
TDF_Provincia <- data.frame(table(Provincia))
ni <- TDF_Provincia$Freq
sum(ni)
## [1] 3000
hi <- round((ni/sum(ni))*100,2)
sum(hi)
## [1] 100
Provincia <- TDF_Provincia$Provincia
TDF_Provincia <- data.frame(Provincia,ni,hi)
Sumatoria <- data.frame(Provincia = "Sumatoria",
ni = sum(ni),
hi = sum(hi))
TDF_Provincia_suma <- rbind(TDF_Provincia,Sumatoria)
colnames(TDF_Provincia) <- c("Provincia","ni","hi (%)")
colnames(TDF_Provincia_suma) <- c("Provincia","ni","hi (%)")
library(knitr)
## Warning: package 'knitr' was built under R version 4.5.2
library(kableExtra)
## Warning: package 'kableExtra' was built under R version 4.5.2
kable(TDF_Provincia_suma, align = 'c',
caption = "Tabla de Distribucion de Frecuencias de provincias
sobre el estudio de la contaminación dela gua en China") %>%
kable_styling(full_width = FALSE, position = "center",
bootstrap_options = c("striped", "hover", "condensed"))
Tabla de Distribucion de Frecuencias de provincias sobre el estudio de
la contaminación dela gua en China
|
Provincia
|
ni
|
hi (%)
|
|
Beijing
|
299
|
9.97
|
|
Guangdong
|
301
|
10.03
|
|
Henan
|
292
|
9.73
|
|
Hubei
|
292
|
9.73
|
|
Jiangsu
|
293
|
9.77
|
|
Shandong
|
300
|
10.00
|
|
Shanghai
|
312
|
10.40
|
|
Sichuan
|
311
|
10.37
|
|
Yunnan
|
296
|
9.87
|
|
Zhejiang
|
304
|
10.13
|
|
Sumatoria
|
3000
|
100.00
|
# Graficas
# Diagrama de barrras local
par(mar = c(10, 4, 4, 2))
par(mgp = c(6, 1, 0))
barplot(
ni,
main = "Gráfica N°1: Distribución de provincias del estudio sobre
la contaminación del agua",
xlab = "Provincia",
ylab = "Cantidad",
col = "skyblue",
ylim = c(0, 300),
names.arg = TDF_Provincia$Provincia,
las = 3
)

barplot(hi,main="Gráfica N°2: Distribución porcentual por provincias sobre la
contamincion del agua en China",
xlab = "Región",
ylab = "Porcentaje",
col = "green",
ylim = c(0,15),
names.arg=TDF_Provincia$Provincia,
las = 3)

# Diagrama de barrras global
barplot(ni,main="Gráfica N°3:Distribución de provincias del estudio sobre
la contaminación del agua ",
xlab = "Región",
ylab = "Cantidad",
col = "pink",
ylim = c(0,3000),
names.arg = TDF_Provincia$Provincia,
las = 3)

barplot(hi,main="Gráfica N°4: Distribución porcentual por provincias sobre la
contamincion del agua en China",
xlab = "Región",
ylab = "Porcentaje",
col = "skyblue",
ylim = c(0,100),
names.arg=TDF_Provincia$Provincia)

# Definir colores para 10 provincias (tonos suaves)
colores <- terrain.colors(10) # paleta suave de 10 colores
# Diagrama circular con nombres y porcentaje en cada porción
pie(hi,
main = "Gráfica N°5: Distribución por provincias del porcentaje incluidos
en el estudio sobre la contaminación del agua",
radius = 1,
labels = paste0(TDF_Provincia$Provincia, " (", TDF_Provincia$`hi (%)`, "%)"),
col = colores,
cex = 0.8,
cex.main = 1
)
# Leyenda
legend("bottomright",
legend = TDF_Provincia$Provincia,
fill = colores,
cex = 0.8,
title = "Leyenda")
