datos <- read.csv("china_water_pollution_data.csv")
Provincia <- datos$Province
TDF_Provincia <- data.frame(table(Provincia))
ni <- TDF_Provincia$Freq
sum(ni)
## [1] 3000
## [1] 3000
hi <- round((ni/sum(ni))*100,2)
sum(hi)
## [1] 100
## [1] 100
Provincia <- TDF_Provincia$Provincia
TDF_Provincia <- data.frame(Provincia,ni,hi)
Sumatoria <- data.frame(Provincia = "Sumatoria",
ni = sum(ni),
hi = sum(hi))
TDF_Provincia_suma <- rbind(TDF_Provincia,Sumatoria)
colnames(TDF_Provincia) <- c("Provincia","ni","hi (%)")
colnames(TDF_Provincia_suma) <- c("Provincia","ni","hi (%)")
library(knitr)
## Warning: package 'knitr' was built under R version 4.5.2
library(kableExtra)
## Warning: package 'kableExtra' was built under R version 4.5.2
kable(TDF_Provincia_suma, align = 'c',
caption = "Tabla de Distribucion de Frecuencias de provincias
sobre el estudio de la contaminación dela gua en China") %>%
kable_styling(full_width = FALSE, position = "center",
bootstrap_options = c("striped", "hover", "condensed"))
| Provincia | ni | hi (%) |
|---|---|---|
| Beijing | 299 | 9.97 |
| Guangdong | 301 | 10.03 |
| Henan | 292 | 9.73 |
| Hubei | 292 | 9.73 |
| Jiangsu | 293 | 9.77 |
| Shandong | 300 | 10.00 |
| Shanghai | 312 | 10.40 |
| Sichuan | 311 | 10.37 |
| Yunnan | 296 | 9.87 |
| Zhejiang | 304 | 10.13 |
| Sumatoria | 3000 | 100.00 |
# Diagrama de barrras local
par(mar = c(10, 4, 4, 2))
par(mgp = c(6, 1, 0))
barplot(
ni,
main = "Gráfica N°1: Distribución de provincias del estudio sobre
la contaminación del agua",
xlab = "Provincia",
ylab = "Cantidad",
col = "skyblue",
ylim = c(0, 300),
names.arg = TDF_Provincia$Provincia,
las = 3
)
barplot(hi,main="Gráfica N°2: Distribución porcentual por provincias sobre la
contamincion del agua en China",
xlab = "Región",
ylab = "Porcentaje",
col = "green",
ylim = c(0,15),
names.arg=TDF_Provincia$Provincia,
las = 3)
barplot(ni,main="Gráfica N°3:Distribución de provincias del estudio sobre
la contaminación del agua ",
xlab = "Región",
ylab = "Cantidad",
col = "pink",
ylim = c(0,3000),
names.arg = TDF_Provincia$Provincia,
las = 3)
barplot(hi,main="Gráfica N°4: Distribución porcentual por provincias sobre la
contamincion del agua en China",
xlab = "Región",
ylab = "Porcentaje",
col = "skyblue",
ylim = c(0,100),
names.arg=TDF_Provincia$Provincia)
# Definir colores para 10 provincias (tonos suaves)
colores <- terrain.colors(10) # paleta suave de 10 colores
# Diagrama circular con nombres y porcentaje en cada porción
pie(hi,
main = "Gráfica N°5: Distribución por provincias del porcentaje incluidos
en el estudio sobre la contaminación del agua",
radius = 1,
labels = paste0(TDF_Provincia$Provincia, " (", TDF_Provincia$`hi (%)`, "%)"),
col = colores,
cex = 0.8,
cex.main = 1
)
# Leyenda
legend("bottomright",
legend = TDF_Provincia$Provincia,
fill = colores,
cex = 0.8,
title = "Leyenda")
# Moda (provincia con mayor frecuencia)
frecuencia_max <- max(TDF_Provincia$ni)
modas <- TDF_Provincia$Provincia[
TDF_Provincia$ni == frecuencia_max
]
Mo_provincia <- paste(modas, collapse = " - ")
Mo_provincia
## [1] "Shanghai"
# Tabla resumen de indicadores
tabla_indicadores <- data.frame(
"Variable" = c("Provincia"),
"Rango" = c("-"),
"X" = c("-"),
"Me" = c("-"),
"Mo" = c(Mo_provincia),
"V" = c("-"),
"Sd" = c("-"),
"Cv" = c("-"),
"As" = c("-"),
"K" = c("-"),
"Valores Atipicos" = c("No hay valores atípicos")
)
library(knitr)
kable(tabla_indicadores,
align = 'c',
caption = "Conclusiones de la variable Provincia")
| Variable | Rango | X | Me | Mo | V | Sd | Cv | As | K | Valores.Atipicos |
|---|---|---|---|---|---|---|---|---|---|---|
| Provincia | - | - | - | Shanghai | - | - | - | - | - | No hay valores atípicos |
La provincia con mayor frecuencia dentro del estudio sobre la contaminación del agua en China es:
Shanghai.
Al tratarse de una variable cualitativa nominal, únicamente se puede determinar la moda como medida de tendencia central.