Provincia

1.Carga de datos

datos <- read.csv("china_water_pollution_data.csv")

2. Extrancción de la variable

Provincia <- datos$Province

3. Tabla de distribución de frecuencia

TDF_Provincia <- data.frame(table(Provincia))
ni <- TDF_Provincia$Freq
sum(ni)

## [1] 3000

## [1] 3000
hi <- round((ni/sum(ni))*100,2)
sum(hi)

## [1] 100

## [1] 100
Provincia <- TDF_Provincia$Provincia
TDF_Provincia <- data.frame(Provincia,ni,hi)

Sumatoria <- data.frame(Provincia = "Sumatoria",
                        ni = sum(ni),
                        hi = sum(hi))

TDF_Provincia_suma <- rbind(TDF_Provincia,Sumatoria)
colnames(TDF_Provincia) <- c("Provincia","ni","hi (%)")
colnames(TDF_Provincia_suma) <- c("Provincia","ni","hi (%)")


library(knitr)
## Warning: package 'knitr' was built under R version 4.5.2
library(kableExtra)
## Warning: package 'kableExtra' was built under R version 4.5.2
kable(TDF_Provincia_suma, align = 'c',
      caption = "Tabla de Distribucion de Frecuencias de provincias
    sobre el estudio de la contaminación dela gua en China") %>%
  kable_styling(full_width = FALSE, position = "center",
                bootstrap_options = c("striped", "hover", "condensed"))

Tabla de Distribucion de Frecuencias de provincias sobre el estudio de la contaminación dela gua en China
Provincia	ni	hi (%)
Beijing	299	9.97
Guangdong	301	10.03
Henan	292	9.73
Hubei	292	9.73
Jiangsu	293	9.77
Shandong	300	10.00
Shanghai	312	10.40
Sichuan	311	10.37
Yunnan	296	9.87
Zhejiang	304	10.13
Sumatoria	3000	100.00

4. Gráficas

4.1 Diagrama de barras local

# Diagrama de barrras local
par(mar = c(10, 4, 4, 2))
par(mgp = c(6, 1, 0))

barplot(
  ni,
  main = "Gráfica N°1: Distribución de provincias del estudio sobre 
  la contaminación del agua",
  xlab = "Provincia",
  ylab = "Cantidad",
  col = "skyblue",
  ylim = c(0, 300),
  names.arg = TDF_Provincia$Provincia,
  las = 3   
)

4.2 Diagrama de barras porcentual

barplot(hi,main="Gráfica N°2: Distribución porcentual por provincias sobre la
        contamincion del agua en China",
        xlab = "Región",
        ylab = "Porcentaje",
        col = "green",
        ylim = c(0,15),
        names.arg=TDF_Provincia$Provincia,
        las = 3)

4.3 Diagrama de barras general

barplot(ni,main="Gráfica N°3:Distribución de provincias del estudio sobre 
  la contaminación del agua ",
        xlab = "Región",
        ylab = "Cantidad",
        col = "pink",
        ylim = c(0,3000),
        names.arg = TDF_Provincia$Provincia,
        las = 3)

4.4 Diagrama de barras porcentual general

barplot(hi,main="Gráfica N°4: Distribución porcentual por provincias sobre la
        contamincion del agua en China",
        xlab = "Región",
        ylab = "Porcentaje",
        col = "skyblue",
        ylim = c(0,100),
        names.arg=TDF_Provincia$Provincia)

4.5 Diagrama Circular

# Definir colores para 10 provincias (tonos suaves)
colores <- terrain.colors(10)  # paleta suave de 10 colores

# Diagrama circular con nombres y porcentaje en cada porción
pie(hi,
    main = "Gráfica N°5: Distribución por provincias del porcentaje incluidos 
    en el estudio sobre la contaminación del agua",
    radius = 1,
    labels = paste0(TDF_Provincia$Provincia, " (", TDF_Provincia$`hi (%)`, "%)"),
    col = colores,
    cex = 0.8,       
    cex.main = 1
)

# Leyenda
legend("bottomright",
       legend = TDF_Provincia$Provincia,
       fill = colores,
       cex = 0.8,
       title = "Leyenda")

5. Indicadores Estadísticos

5.1 Indicadores de Tendencia Central

# Moda (provincia con mayor frecuencia)
frecuencia_max <- max(TDF_Provincia$ni)

modas <- TDF_Provincia$Provincia[
  TDF_Provincia$ni == frecuencia_max
]

Mo_provincia <- paste(modas, collapse = " - ")
Mo_provincia

## [1] "Shanghai"

# Tabla resumen de indicadores
tabla_indicadores <- data.frame(
  "Variable" = c("Provincia"),
  "Rango" = c("-"),
  "X" = c("-"),
  "Me" = c("-"),
  "Mo" = c(Mo_provincia),
  "V" = c("-"),
  "Sd" = c("-"),
  "Cv" = c("-"),
  "As" = c("-"),
  "K" = c("-"),
  "Valores Atipicos" = c("No hay valores atípicos")
)

library(knitr)

kable(tabla_indicadores, 
      align = 'c', 
      caption = "Conclusiones de la variable Provincia")

Conclusiones de la variable Provincia
Variable	Rango	X	Me	Mo	V	Sd	Cv	As	K	Valores.Atipicos
Provincia	-	-	-	Shanghai	-	-	-	-	-	No hay valores atípicos

6. Conclusión

La provincia con mayor frecuencia dentro del estudio sobre la contaminación del agua en China es:

Shanghai.

Al tratarse de una variable cualitativa nominal, únicamente se puede determinar la moda como medida de tendencia central.