setwd("C:/Users/LENOVO/OneDrive/Escritorio/ESTADISTICA")
datos <- read.csv("water_pollution_disease.csv")

#Extraccion variable cualitativa nominal
Region <- datos$Region

#Tabla de distribución de frecuencia
TDF_region <- data.frame(table(Region))
ni <- TDF_region$Freq
sum(ni)
## [1] 3000
hi <- round((ni/sum(ni))*100,2)
sum(hi)
## [1] 100
Region <- TDF_region$Region
TDF_region <- data.frame(Region,ni,hi)

Sumatoria <- data.frame(Region = "Sumatoria",
                        ni = sum(ni),
                        hi = sum(hi))

TDF_region_suma <- rbind(TDF_region,Sumatoria)
colnames(TDF_region) <- c("Region","ni","hi (%)")
colnames(TDF_region_suma) <- c("Region","ni","hi (%)")


library(knitr)
library(kableExtra)

kable(TDF_region_suma, align = 'c',
      caption = "Tabla de Distribucion de Frecuencias regional 
      de los paises incluidos en el estudio sobre la contaminación dela gua") %>%
  kable_styling(full_width = FALSE, position = "center",
                bootstrap_options = c("striped", "hover", "condensed"))
Tabla de Distribucion de Frecuencias regional de los paises incluidos en el estudio sobre la contaminación dela gua
Region ni hi (%)
Central 611 20.37
East 625 20.83
North 590 19.67
South 580 19.33
West 594 19.80
Sumatoria 3000 100.00
# Graficas

# Diagrama de barrras local
barplot(ni,main="Gráfica N°1: Distribución geográfica regional de los países del
        estudio sobre la contaminación del agua",
        xlab = "Región",
        ylab = "Cantidad",
        col = "skyblue",
        ylim = c(0,600),
        names.arg=TDF_region$Region)

barplot(hi,main="Gráfica N°2: Distribución porcentual por región de los Países 
        incluidos en el estudio sobre la contaminación del agua",
        xlab = "Región",
        ylab = "Porcentaje",
        col = "green",
        ylim = c(0,30),
        names.arg=TDF_region$Region)

# Diagrama de barrras global
barplot(ni,main="Gráfica N°3: Distribución geográfica regional de los países del
        estudio sobre la contaminación del agua",
        xlab = "Región",
        ylab = "Cantidad",
        col = "pink",
        ylim = c(0,3000),
        names.arg = TDF_region$Region)

barplot(hi,main="Gráfica N°4: Distribución porcentual por región de los Países 
        incluidos en el estudio sobre la contaminación del agua",
        xlab = "Región",
        ylab = "Porcentaje",
        col = "skyblue",
        ylim = c(0,80),
        names.arg=TDF_region$Region)

# Diagrma circular
pie(hi,main = "Gráfica N°5: Distribución regional del porcentaje de los países 
    incluidos en el estudio sobre la contaminación del agua",
    radius = 1,
    labels = paste0(TDF_region$`hi (%)`,"%"),
    col = colores <- c(rev(heat.colors(4))),
    cex=1,
    cex.main=1)

legend("bottomright",
       legend = TDF_region$Region,
       fill = colores <- c(rev(heat.colors(4))),
       cex = 0.9,
       title = "Leyenda")

# Indicadores estadísticos
# MODA
# No tiene moda ya que todas las barras se encuentran semejantes y en
# comparacion con eldiagrama de barras local es inperceptible la diferencia