#UNIVERSIDAD CENTRAL DEL ECUADOR #Facultad en Ingenieria en GeologĆ­a, Minas, Petroleos y Ambiental #Ingenieria Ambiental #Fecha: 15-05-2025

Carga de datos y tabla de frecuencias

# Cargar librerĆ­as
library(knitr)
library(kableExtra)

# Cargar datos
getwd()
## [1] "/cloud/project"
setwd("/cloud/project")  # Asegúrate de que el CSV esté en esta carpeta
datos <- read.csv("water_pollution_disease.csv", header = TRUE, sep = ",", dec = ".")

# Extracción Variable Cualitativa nominal
PaĆ­ses <- datos$Country

# Tabla de distribución de frecuencia
TDF_paĆ­ses <- data.frame(table(PaĆ­ses))
ni <- TDF_paĆ­ses$Freq
hi <- round((ni / sum(ni)) * 100, 2)
PaĆ­ses <- TDF_paĆ­ses$PaĆ­ses
TDF_paĆ­ses <- data.frame(PaĆ­ses, ni, hi)
Sumatoria <- data.frame(PaĆ­ses = "TOTAL", ni = sum(ni), hi = sum(hi))

TDF_paĆ­ses_suma <- rbind(TDF_paĆ­ses, Sumatoria)
colnames(TDF_paĆ­ses_suma) <- c("PaĆ­ses", "ni", "hi(%)")
colnames(TDF_paĆ­ses) <- c("PaĆ­ses", "ni", "hi (%)")

# Tabla
kable(TDF_paĆ­ses_suma, align = 'c', 
      caption = "Tabla de Distribucion de Frecuencias de los Países de estudio de contaminación del agua") %>%
  kable_styling(full_width = FALSE, position = "center", 
                bootstrap_options = c("striped", "hover", "condensed"))
Tabla de Distribucion de Frecuencias de los Países de estudio de contaminación del agua
PaĆ­ses ni hi(%)
Bangladesh 291 9.70
Brazil 291 9.70
China 311 10.37
Ethiopia 293 9.77
India 290 9.67
Indonesia 304 10.13
Mexico 288 9.60
Nigeria 315 10.50
Pakistan 298 9.93
USA 319 10.63
TOTAL 3000 100.00
# Diagrama de barras local
barplot(ni, main = "GrÔfica N°1: Distribución de frecuencias de los países
        de estudio de contaminación y enfermedades",
        xlab = "PaĆ­ses",
        ylab = "Cantidad",
        col = "skyblue",
        ylim = c(0,400),
        las = 2,
        cex.names = 0.6,
        names.arg = TDF_paĆ­ses$PaĆ­ses)

barplot(hi, main = "GrÔfica N°2: Distribución porcentual de los 
        países de estudio de contaminación y enfermedades",
        xlab = "PaĆ­ses",
        ylab = "Porcentaje",
        col = "green",
        ylim = c(0,10),
        las = 2,
        cex.names = 0.6,
        names.arg = TDF_paĆ­ses$PaĆ­ses)

# Diagrama de barras global
barplot(ni, main = "GrÔfica N°3: Distribución de frecuencias de los países
        de estudio de contaminación y enfermedades",
        xlab = "PaĆ­ses",
        ylab = "Cantidad",
        col = "pink",
        ylim = c(0,3000),
        las=2,
        cex.names = 0.6,
        names.arg = TDF_paĆ­ses$PaĆ­ses)

barplot(hi, main = "GrÔfica N°4: Distribución de frecuencias porcentual de 
los países de estudio de contaminación y enfermedades",
        xlab = "PaĆ­ses",
        ylab = "Porcentaje (%)",
        col = "skyblue",
        ylim = c(0,100),
        las = 2,
        cex.names = 0.6,
        names.arg = TDF_paĆ­ses$PaĆ­ses)

labels_info <- paste(TDF_paĆ­ses$`hi (%)`, "%")
pie(hi,
    main = "GrÔfica N°5 Distribución porcentual de los países del estudio
    de contaminación y enfermedades",
    radius = 1.1,
    labels = labels_info,
    col = rev(heat.colors(10)),
    cex = 0.8,
    cex.main = 1)

legend("topright",
       legend = TDF_paĆ­ses$PaĆ­ses,
       fill = colores <- c(rev(heat.colors(10))),
       cex = 0.6,
       title = "Leyenda")