UNIVERSIDAD CENTRAL DEL ECUADOR

ESTUDIO ESTADƍSTICO DE LA CONTAMINACIƓN DEL SUELO Y SU IMPACTO EN LA SALUD

FECHA: 19/11/2025

#EstadĆ­stica Descriptiva

#19/11/2025


#Cargar los datos 

library(gt)
library(dplyr)

setwd("/cloud/project")
datos<-read.csv("soil_pollution_diseases.csv",header = TRUE,dec = ".",sep = ",")


#Tablas Cualitativas Nominales

#PaĆ­s

PaĆ­s <- datos$Country
#Tabla de distribución de frecuencia
TDF_PaĆ­s<- data.frame(table(PaĆ­s))
ni <- TDF_PaĆ­s$Freq
hi <- round((ni / sum(ni)) *100,2)
PaĆ­s <- TDF_PaĆ­s$PaĆ­s
TDF_PaĆ­s <- data.frame(PaĆ­s,ni,hi)
Summary <- data.frame(PaĆ­s = "TOTAL", ni=sum(ni), hi = 100)

TDF_PaĆ­s_suma <- rbind(TDF_PaĆ­s,Summary)

colnames(TDF_PaĆ­s_suma) <- c("PaĆ­s", "ni", "hi(%)")

# TABLA 

TDF_PaĆ­s_suma %>%
  gt() %>%
  tab_header(
    title = md("*Tabla Nro. 2*"),
    subtitle = md("**Tabla de distribución de los Países*")
  ) %>%
  tab_source_note(
    source_note = md("Autor: Grupo 3")
  ) %>%
  tab_options(
    table.border.top.color = "black",
    table.border.bottom.color = "black",
    table.border.top.style = "solid",
    table.border.bottom.style = "solid",
    column_labels.border.top.color = "black",
    column_labels.border.bottom.color = "black",
    column_labels.border.bottom.width = px(2),
    row.striping.include_table_body = TRUE,
    heading.border.bottom.color = "black",
    heading.border.bottom.width = px(2),
    table_body.hlines.color = "gray",
    table_body.border.bottom.color = "black"
  )
Tabla Nro. 2
*Tabla de distribución de los Países
PaĆ­s ni hi(%)
Australia 278 9.27
Brazil 293 9.77
China 319 10.63
Germany 283 9.43
India 311 10.37
Kenya 271 9.03
Mexico 314 10.47
Nigeria 309 10.30
Pakistan 305 10.17
USA 317 10.57
TOTAL 3000 100.00
Autor: Grupo 3
#Graficas

# Diagrama de barrras local ni

barplot(ni, main = "GrÔfica N°6: Distribución de los países",
        xlab = "PaĆ­ses",
        ylab = "Cantidad",
        col = "red",
        ylim = c(0,400),
        las = 2,
        cex.names = 0.6,
        names.arg = TDF_PaĆ­s$PaĆ­s)

#Diagrama de barras global ni 

barplot(ni, main = "GrÔfica N°7: Distribución de los países de estudio",
        xlab = "PaĆ­ses",
        ylab = "Cantidad",
        col = "skyblue",
        ylim = c(0,3000),
        las=2,
        cex.names = 0.6,
        names.arg = TDF_PaĆ­s$PaĆ­s)

#Diagrama de barras local hi(%)

barplot(hi, main = "GrÔfica N°8: Distribución porcentual 
        de los paĆ­ses de estudio",
        xlab = "PaĆ­ses",
        ylab = "Porcentaje",
        col = "green",
        ylim = c(0,15),
        las = 2,
        cex.names = 0.6,
        names.arg = TDF_PaĆ­s$PaĆ­s)

#Diagrama de barras global hi(%)

barplot(hi, main = "GrÔfica N°9: Distribución porcentual de 
los paĆ­ses de estudio",
        xlab = "PaĆ­ses",
        ylab = "Porcentaje",
        col = "blue",
        ylim = c(0,100),
        las = 2,
        cex.names = 0.6,
        names.arg = TDF_PaĆ­s$PaĆ­s)

#Diagrama circular 


# Etiquetas con nĆŗmero + sĆ­mbolo %
etiquetas <- paste0(hi, " %")


colores <- c("yellow", "khaki1", "gold", "orange", "darkorange", "red")


par(mar = c(2, 2, 4, 6))

pie(
  hi,
  labels = etiquetas,
  col = colores,
  main = "GrÔfica N°10 Distribución porcentual de los países de estudio",
  cex = 1
)

legend(
  "topright",
  legend = TDF_PaĆ­s$PaĆ­s,
  fill = colores,
  title = "Leyenda",
  cex = 0.6,
  xpd = TRUE
)

# INDICADORES

# Función de moda
moda <- function(x) {
  frec <- table(x)         
  names(frec)[which.max(frec)]  
}

# Moda de la variable Paises
moda(datos$Country)
## [1] "China"