# Tema: Estadística Descriptiva
# Autor: Grupo 1
# Fecha: 25/11/2025

setwd("C:/Users/LENOVO/OneDrive/Escritorio/ESTADISTICA")
datos <- read.csv("china_water_pollution_data.csv")

#Extraccion variable cualitativa nominal
Provincia <- datos$Province

#Tabla de distribución de frecuencia
TDF_Provincia <- data.frame(table(Provincia))
ni <- TDF_Provincia$Freq
sum(ni)
## [1] 3000
hi <- round((ni/sum(ni))*100,2)
sum(hi)
## [1] 100
Provincia <- TDF_Provincia$Provincia
TDF_Provincia <- data.frame(Provincia,ni,hi)

Sumatoria <- data.frame(Provincia = "Sumatoria",
                        ni = sum(ni),
                        hi = sum(hi))

TDF_Provincia_suma <- rbind(TDF_Provincia,Sumatoria)
colnames(TDF_Provincia) <- c("Provincia","ni","hi (%)")
colnames(TDF_Provincia_suma) <- c("Provincia","ni","hi (%)")


library(knitr)
## Warning: package 'knitr' was built under R version 4.5.2
library(kableExtra)
## Warning: package 'kableExtra' was built under R version 4.5.2
kable(TDF_Provincia_suma, align = 'c',
      caption = "Tabla de Distribucion de Frecuencias de provincias
    sobre el estudio de la contaminación dela gua en China") %>%
  kable_styling(full_width = FALSE, position = "center",
                bootstrap_options = c("striped", "hover", "condensed"))
Tabla de Distribucion de Frecuencias de provincias sobre el estudio de la contaminación dela gua en China
Provincia ni hi (%)
Beijing 299 9.97
Guangdong 301 10.03
Henan 292 9.73
Hubei 292 9.73
Jiangsu 293 9.77
Shandong 300 10.00
Shanghai 312 10.40
Sichuan 311 10.37
Yunnan 296 9.87
Zhejiang 304 10.13
Sumatoria 3000 100.00
# Graficas

# Diagrama de barrras local
par(mar = c(10, 4, 4, 2))
par(mgp = c(6, 1, 0))

barplot(
  ni,
  main = "Gráfica N°1: Distribución de provincias del estudio sobre 
  la contaminación del agua",
  xlab = "Provincia",
  ylab = "Cantidad",
  col = "skyblue",
  ylim = c(0, 300),
  names.arg = TDF_Provincia$Provincia,
  las = 3   
)

barplot(hi,main="Gráfica N°2: Distribución porcentual por provincias sobre la
        contamincion del agua en China",
        xlab = "Región",
        ylab = "Porcentaje",
        col = "green",
        ylim = c(0,15),
        names.arg=TDF_Provincia$Provincia,
        las = 3)

# Diagrama de barrras global
barplot(ni,main="Gráfica N°3:Distribución de provincias del estudio sobre 
  la contaminación del agua ",
        xlab = "Región",
        ylab = "Cantidad",
        col = "pink",
        ylim = c(0,3000),
        names.arg = TDF_Provincia$Provincia,
        las = 3)

barplot(hi,main="Gráfica N°4: Distribución porcentual por provincias sobre la
        contamincion del agua en China",
        xlab = "Región",
        ylab = "Porcentaje",
        col = "skyblue",
        ylim = c(0,100),
        names.arg=TDF_Provincia$Provincia)

# Definir colores para 10 provincias (tonos suaves)
colores <- terrain.colors(10)  # paleta suave de 10 colores

# Diagrama circular con nombres y porcentaje en cada porción
pie(hi,
    main = "Gráfica N°5: Distribución por provincias del porcentaje incluidos 
    en el estudio sobre la contaminación del agua",
    radius = 1,
    labels = paste0(TDF_Provincia$Provincia, " (", TDF_Provincia$`hi (%)`, "%)"),
    col = colores,
    cex = 0.8,       
    cex.main = 1
)

# Leyenda
legend("bottomright",
       legend = TDF_Provincia$Provincia,
       fill = colores,
       cex = 0.8,
       title = "Leyenda")