Observaciones

#Carga de Librerias 
library(kableExtra)
library(knitr)
library(dplyr)

## 
## Attaching package: 'dplyr'

## The following object is masked from 'package:kableExtra':
## 
##     group_rows

## The following objects are masked from 'package:stats':
## 
##     filter, lag

## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union

library(magrittr)
#Carga de datos
getwd()

## [1] "/cloud/project"

setwd("/cloud/project")
datos<- read.csv("china_water_pollution_data.csv",header = TRUE, sep = ",", dec = ".")
# Extracción de variable Observación
Observaciones <- datos$Remarks
 # Tabla de distribución de frecuencia
 TDF_observaciones <- data.frame(table(Observaciones))
 ni <- TDF_observaciones$Freq
 hi <- round((ni / sum(ni)) * 100, 2)
 Observaciones <- TDF_observaciones$Observaciones
 TDF_observaciones <- data.frame(Observaciones, ni, hi)
 TDF_observaciones$Observaciones <- as.character(TDF_observaciones$Observaciones)
 TDF_observaciones$Observaciones[TDF_observaciones$Observaciones == ""] <- "-"
 Sumatoria <- data.frame(Observaciones = "TOTAL", ni = sum(ni), hi = sum(hi))
TDF_observaciones_suma <- rbind(TDF_observaciones, Sumatoria)
 colnames(TDF_observaciones_suma) <- c("Observaciones", "ni", "hi(%)")
 colnames(TDF_observaciones) <- c("Observaciones", "ni", "hi (%)")
 # Tabla
 kable(TDF_observaciones_suma, align = 'c', 
 caption = "Tabla N°4: Tabla de Distribuciónn de Frecuencias de las 
 Observaciones de estudio de contaminación del agua en China en el año 2023") %>%
  kable_styling(full_width = FALSE, position = "center", 
 bootstrap_options = c("striped", "hover", "condensed"))

Tabla N°4: Tabla de Distribuciónn de Frecuencias de las Observaciones de estudio de contaminación del agua en China en el año 2023
Observaciones	ni	hi(%)
	752	25.07
High pollution spike detected	780	26.00
Monitoring recommended	745	24.83
Requires attention	723	24.10
TOTAL	3000	100.00

# Diagrama de barras local
 barplot(ni, main = "Gráfica N°1: Distribución de frecuencias de las 
  Observaciones de estudio de contaminación del agua en China en el año 2023",
                xlab = "Observaciones",
               ylab = "Cantidad",
                col = "skyblue",
                 ylim = c(0,700),
                 las = 1,
                 cex.names = 0.6,
                names.arg = TDF_observaciones$Observaciones)

  barplot(hi, main = "Gráfica N°2: Distribución porcentual de las Observaciones
de estudio de la contaminación del agua en China en el año 2023",
               xlab = "Observaciones",
               ylab = "Porcentaje",
              col = "green",
              ylim = c(0,30),
                 las = 1,
               cex.names = 0.6,
                names.arg = TDF_observaciones$Observaciones)

  # Diagrama de barras global
  barplot(ni, main = "Gráfica N°3: Distribución de frecuencias de las
Observaciones de estudio de la contaminación del agua 
en China en el año 2023",
                    xlab = "Observaciones",
                    ylab = "Cantidad",
                     col = "pink",
                    ylim = c(0,3000),
                 las=1,
                   cex.names = 0.6,
                  names.arg = TDF_observaciones$Observaciones)

   barplot(hi, main = "Gráfica N°4: Distribución de frecuencias porcentual de 
las Observaciones de estudio de la contaminacion del agua
           en China en el año 2023",
                   xlab = "Obsevaciones",
                  ylab = "Porcentaje (%)",
                  col = "skyblue",
                   ylim = c(0,100),
                    las = 1,
                   cex.names = 0.6,
                    names.arg = TDF_observaciones$Observaciones)

    labels_info <- paste(TDF_observaciones$`hi (%)`, "%")
    pie(hi,
      main = "Gráfica N°5 Distribución porcentual de las Observaciones de estudio
      de la contaminación del agua en China en el año 2023",
           radius = 1.1,
            labels = labels_info,
           col = rev(heat.colors(10)),
             cex = 0.8,
             cex.main = 1)
    legend("topright",
                legend = TDF_observaciones$Observaciones,
                fill = colores <- c(rev(heat.colors(10))),
                 cex = 0.6,
                 title = "Leyenda")

    tabla_indicadores <- data.frame("Variable" =c("Observaciones"),
                                    "Rango" = " Estaciones",
                                    "X" = " - ",
                                    "Me" = " - ",
                                    "Mo" = " Requiere atención ",
                                    "V" = " - ",
                                    "Sd" = " - ",
                                    "Cv" = " - ",
                                    "As" = " - ",
                                    "K" = " - ",
                                    "Valores Atipicos" = " - ")
    library(knitr)
    kable(tabla_indicadores, align = 'c', caption = "Conclusiones de la variable 
      Observaciones")

Conclusiones de la variable Observaciones
Variable	Rango	X	Me	Mo	V	Sd	Cv	As	K	Valores.Atipicos
Observaciones	Estaciones	-	-	Requiere atención	-	-	-	-	-	-

Observaciones

Daniela Yánez

2025-12-08