setwd("C:/Users/LENOVO/OneDrive/Escritorio/ESTADISTICA")
datos <- read.csv("water_pollution_disease.csv")
#Extraccion variable cualitativa nominal
Region <- datos$Region
#Tabla de distribución de frecuencia
TDF_region <- data.frame(table(Region))
ni <- TDF_region$Freq
sum(ni)
## [1] 3000
hi <- round((ni/sum(ni))*100,2)
sum(hi)
## [1] 100
Region <- TDF_region$Region
TDF_region <- data.frame(Region,ni,hi)
Sumatoria <- data.frame(Region = "Sumatoria",
ni = sum(ni),
hi = sum(hi))
TDF_region_suma <- rbind(TDF_region,Sumatoria)
colnames(TDF_region) <- c("Region","ni","hi (%)")
colnames(TDF_region_suma) <- c("Region","ni","hi (%)")
library(knitr)
library(kableExtra)
kable(TDF_region_suma, align = 'c',
caption = "Tabla de Distribucion de Frecuencias regional
de los paises incluidos en el estudio sobre la contaminación dela gua") %>%
kable_styling(full_width = FALSE, position = "center",
bootstrap_options = c("striped", "hover", "condensed"))
Tabla de Distribucion de Frecuencias regional de los paises incluidos en
el estudio sobre la contaminación dela gua
|
Region
|
ni
|
hi (%)
|
|
Central
|
611
|
20.37
|
|
East
|
625
|
20.83
|
|
North
|
590
|
19.67
|
|
South
|
580
|
19.33
|
|
West
|
594
|
19.80
|
|
Sumatoria
|
3000
|
100.00
|
# Graficas
# Diagrama de barrras local
barplot(ni,main="Gráfica N°1: Distribución geográfica regional de los países del
estudio sobre la contaminación del agua",
xlab = "Región",
ylab = "Cantidad",
col = "skyblue",
ylim = c(0,600),
names.arg=TDF_region$Region)

barplot(hi,main="Gráfica N°2: Distribución porcentual por región de los Países
incluidos en el estudio sobre la contaminación del agua",
xlab = "Región",
ylab = "Porcentaje",
col = "green",
ylim = c(0,30),
names.arg=TDF_region$Region)

# Diagrama de barrras global
barplot(ni,main="Gráfica N°3: Distribución geográfica regional de los países del
estudio sobre la contaminación del agua",
xlab = "Región",
ylab = "Cantidad",
col = "pink",
ylim = c(0,3000),
names.arg = TDF_region$Region)

barplot(hi,main="Gráfica N°4: Distribución porcentual por región de los Países
incluidos en el estudio sobre la contaminación del agua",
xlab = "Región",
ylab = "Porcentaje",
col = "skyblue",
ylim = c(0,80),
names.arg=TDF_region$Region)

# Diagrma circular
pie(hi,main = "Gráfica N°5: Distribución regional del porcentaje de los países
incluidos en el estudio sobre la contaminación del agua",
radius = 1,
labels = paste0(TDF_region$`hi (%)`,"%"),
col = colores <- c(rev(heat.colors(4))),
cex=1,
cex.main=1)
legend("bottomright",
legend = TDF_region$Region,
fill = colores <- c(rev(heat.colors(4))),
cex = 0.9,
title = "Leyenda")

# Indicadores estadísticos
# MODA
# No tiene moda ya que todas las barras se encuentran semejantes y en
# comparacion con eldiagrama de barras local es inperceptible la diferencia