#UNIVERSIDAD CENTRAL DE ECUADOR
#Facultad de Ingeniería en Geología,Minas, Petroleos y Ambiental
#INGENIERIA AMBIENTAL
#AUTHOR: SOFIA HEREDIA
#FECHA: 14-05-2025
# Carga del conjunto de
options(repos = c(CRAN = "https://cran.rstudio.com"))
install.packages("readxl")
## Installing package into 'C:/Users/Usuario/AppData/Local/R/win-library/4.4'
## (as 'lib' is unspecified)
## package 'readxl' successfully unpacked and MD5 sums checked
## Warning: cannot remove prior installation of package 'readxl'
## Warning in file.copy(savedcopy, lib, recursive = TRUE): problema al copiar
## C:\Users\Usuario\AppData\Local\R\win-library\4.4\00LOCK\readxl\libs\x64\readxl.dll
## a C:\Users\Usuario\AppData\Local\R\win-library\4.4\readxl\libs\x64\readxl.dll:
## Permission denied
## Warning: restored 'readxl'
##
## The downloaded binary packages are in
## C:\Users\Usuario\AppData\Local\Temp\RtmpicWebS\downloaded_packages
install.packages("readr")
## Installing package into 'C:/Users/Usuario/AppData/Local/R/win-library/4.4'
## (as 'lib' is unspecified)
## package 'readr' successfully unpacked and MD5 sums checked
## Warning: cannot remove prior installation of package 'readr'
## Warning in file.copy(savedcopy, lib, recursive = TRUE): problema al copiar
## C:\Users\Usuario\AppData\Local\R\win-library\4.4\00LOCK\readr\libs\x64\readr.dll
## a C:\Users\Usuario\AppData\Local\R\win-library\4.4\readr\libs\x64\readr.dll:
## Permission denied
## Warning: restored 'readr'
##
## The downloaded binary packages are in
## C:\Users\Usuario\AppData\Local\Temp\RtmpicWebS\downloaded_packages
library(readxl)
library(readr)
datos <- read_csv("C:/Users/Usuario/Downloads/water_pollution_disease (2).csv")
## Rows: 3000 Columns: 24
## ── Column specification ────────────────────────────────────────────────────────
## Delimiter: ","
## chr (4): Country, Region, Water Source Type, Water Treatment Method
## dbl (20): Year, Contaminant Level (ppm), pH Level, Turbidity (NTU), Dissolve...
##
## ℹ Use `spec()` to retrieve the full column specification for this data.
## ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.
head(datos)
## # A tibble: 6 × 24
## Country Region Year `Water Source Type` Contaminant Level (pp…¹ `pH Level`
## <chr> <chr> <dbl> <chr> <dbl> <dbl>
## 1 Mexico North 2015 Lake 6.06 7.12
## 2 Brazil West 2017 Well 5.24 7.84
## 3 Indonesia Central 2022 Pond 0.24 6.43
## 4 Nigeria East 2016 Well 7.91 6.71
## 5 Mexico South 2005 Well 0.12 8.16
## 6 Ethiopia West 2013 Tap 2.93 8.21
## # ℹ abbreviated name: ¹`Contaminant Level (ppm)`
## # ℹ 18 more variables: `Turbidity (NTU)` <dbl>,
## # `Dissolved Oxygen (mg/L)` <dbl>, `Nitrate Level (mg/L)` <dbl>,
## # `Lead Concentration (µg/L)` <dbl>, `Bacteria Count (CFU/mL)` <dbl>,
## # `Water Treatment Method` <chr>,
## # `Access to Clean Water (% of Population)` <dbl>,
## # `Diarrheal Cases per 100,000 people` <dbl>, …
# EXTRACCION VARIABLE CUALITATIVA NOMINAL
tipo_agua <- datos$`Water Source Type`
# Tabla de distribución de frecuencia
TDF_fuentes <- data.frame(table(tipo_agua))
ni <- TDF_fuentes$Freq
sum(ni)
## [1] 3000
hi <- (ni/sum(ni))*100
sum(hi)
## [1] 100
fuentes_agua <- TDF_fuentes$tipo_agua
TDF_fuente_agua <- data.frame(fuentes_agua,ni, hi)
Sumatoria <- data.frame(fuentes_agua = "TOTAL",
ni = sum(ni),
hi = sum(hi))
TDF_fuente_suma <- rbind(TDF_fuente_agua,Sumatoria)
colnames(TDF_fuente_agua) <- c("Fuentes de Agua","ni","hi (%)")
library(knitr)
library(kableExtra)
kable(TDF_fuente_suma, align = 'c',
caption = "Tabla de Distribución de Frecuencias de fuentes de Agua donde ese realizó el muestreo
de los paises del estudio de contaminación del agua") %>%
kable_styling(full_width = FALSE, position = "center",
bootstrap_options = c("striped", "hover", "condensed"))
Tabla de Distribución de Frecuencias de fuentes de Agua donde ese
realizó el muestreo de los paises del estudio de contaminación del agua
|
fuentes_agua
|
ni
|
hi
|
|
Lake
|
481
|
16.03333
|
|
Pond
|
450
|
15.00000
|
|
River
|
538
|
17.93333
|
|
Spring
|
532
|
17.73333
|
|
Tap
|
501
|
16.70000
|
|
Well
|
498
|
16.60000
|
|
TOTAL
|
3000
|
100.00000
|
# Graficas
# Diagrama de barras local
par(mar=c(8, 4, 4, 2))
barplot(ni,
main = "Gráfica N°1: Distribución de fuentes de Agua",
xlab = "fuentes de agua",
ylab = "Cantidad",
col = "skyblue",
ylim = c(0,800),
names.arg = TDF_fuente_agua$`Fuentes de Agua`,
las = 2)

barplot(hi,main="Gráfica N°2: Distribución del porcentaje de fuentes de Agua",
xlab = "Fuente de agua",
ylab = "Porcentaje (%)",
col = "blue",
ylim = c(0,30),
names.arg=TDF_fuente_agua$`Fuentes de Agua`)

# Diagrama de barrras global
barplot(ni,main="Gráfica N°3: Distribución del tipo de fuentes de Agua utilizado",
xlab = "Fuentes de Agua",
ylab = "Cantidad",
col = "pink",
ylim = c(0,3000),
names.arg = TDF_fuente_agua$`Fuentes de Agua`)

barplot(hi,main="Gráfica N°4: Distribución del porcentaje de fuentes de Agua",
xlab = "Fuentes de Agua",
ylab = "Porcentaje (%)",
col = "skyblue",
ylim = c(0,100),
names.arg=TDF_fuente_agua$`Fuentes de Agua`)

# Diagrma circular
pie(hi,main = "Gráfica N°5: Distribución porcentual de Fuentes de Agua utilizado",
radius = 1,
labels = paste(TDF_fuente_agua$`hi (%)`,"%"),
col = colores <- c(rev(heat.colors(4))),
cex=1,
cex.main=1.4)
legend("topright",
legend = TDF_fuente_agua$`Fuentes de Agua`,
fill = colores <- c(rev(heat.colors(4))),
cex = 0.95,
title = "Leyenda")

# Indicadores estadísticos
# MODA
# No tiene moda ya que todas las barras se encuentran semejantes y en
# comparacion con eldiagrama de barras local es inperceptible la diferencia