UNIVERSIDAD CENTRAL DEL ECUADOR

PROYECTO:ESTUDIO ESTADÍSTICO DE LA CONTAMINACIÓN DEL SUELO Y SU IMPACTO EN LA SALUD

AUTORES:JUAN ARTEAGA, MARÍA JOSÉ CALO, RONALD CARRERA, ANDRE LABANDA, ALEXANDER SAILEMA

FECHA: 22/11/2025

#Estadistica Descriptiva

#Juan Arteaga

#19/11/2025

library(dplyr)
library(gt)

datos<-read.csv("soil_pollution_diseases.csv",header = TRUE,dec = ".",
                sep = ",")


#Tablas Cualitativas Nominales

#Region

Region<-datos$Region

# Tabla de distribución de frecuencia

TDF_Region<-data.frame(table(Region))

ni <- TDF_Region$Freq
hi <- round((ni / sum(ni)) * 100, 2)
Region <- TDF_Region$Region
TDF_Region <- data.frame(Region, ni, hi)
Summary <- data.frame(Region = "TOTAL", ni = sum(ni),hi = 100)

TDF_Region_suma<-rbind(TDF_Region, Summary)
colnames(TDF_Region_suma) <- c("Región", "ni", "hi(%)")

# TABLA 

TDF_Region_suma %>%
  gt() %>%
  tab_header(
    title = md("*Tabla Nro. 1*"),
    subtitle = md("**Tabla de distribución de frecuencias de las regiones del estudio ambiental**")
  ) %>%
  tab_source_note(
    source_note = md("Autor: Grupo 3")
  ) %>%
  tab_options(
    table.border.top.color = "black",
    table.border.bottom.color = "black",
    table.border.top.style = "solid",
    table.border.bottom.style = "solid",
    column_labels.border.top.color = "black",
    column_labels.border.bottom.color = "black",
    column_labels.border.bottom.width = px(2),
    row.striping.include_table_body = TRUE,
    heading.border.bottom.color = "black",
    heading.border.bottom.width = px(2),
    table_body.hlines.color = "gray",
    table_body.border.bottom.color = "black"
  )
Tabla Nro. 1
Tabla de distribución de frecuencias de las regiones del estudio ambiental
Región ni hi(%)
Africa 518 17.27
Asia 528 17.60
Australia 489 16.30
Europe 483 16.10
North America 490 16.33
South America 492 16.40
TOTAL 3000 100.00
Autor: Grupo 3
#Estadística Descriptiva
#Santiago Labanda
#19/11/2025

library(gt)
library(dplyr)


#Cargar los datos 


datos<-read.csv("soil_pollution_diseases.csv",header = TRUE,dec = ".",sep = ",")



#Tablas Cualitativas Nominales

#País
País <- datos$Country
#Tabla de distribución de frecuencia
TDF_País<- data.frame(table(País))
ni <- TDF_País$Freq
hi <- round((ni / sum(ni)) *100,2)
País <- TDF_País$País
TDF_País <- data.frame(País,ni,hi)
Summary <- data.frame(País = "TOTAL", ni=sum(ni), hi = 100)

TDF_País_suma <- rbind(TDF_País,Summary)

colnames(TDF_País_suma) <- c("País", "ni", "hi(%)")

# TABLA 

TDF_País_suma %>%
  gt() %>%
  tab_header(
    title = md("*Tabla Nro. 2*"),
    subtitle = md("**Tabla de distribución de frecuencias del País donde ocurrio el caso**")
  ) %>%
  tab_source_note(
    source_note = md("Autor: Grupo 3")
  ) %>%
  tab_options(
    table.border.top.color = "black",
    table.border.bottom.color = "black",
    table.border.top.style = "solid",
    table.border.bottom.style = "solid",
    column_labels.border.top.color = "black",
    column_labels.border.bottom.color = "black",
    column_labels.border.bottom.width = px(2),
    row.striping.include_table_body = TRUE,
    heading.border.bottom.color = "black",
    heading.border.bottom.width = px(2),
    table_body.hlines.color = "gray",
    table_body.border.bottom.color = "black"
  )
Tabla Nro. 2
Tabla de distribución de frecuencias del País donde ocurrio el caso
País ni hi(%)
Australia 278 9.27
Brazil 293 9.77
China 319 10.63
Germany 283 9.43
India 311 10.37
Kenya 271 9.03
Mexico 314 10.47
Nigeria 309 10.30
Pakistan 305 10.17
USA 317 10.57
TOTAL 3000 100.00
Autor: Grupo 3
#Tablas Cualitativas Nominales
library(readr)
datos<-read.csv("soil_pollution_diseases.csv",header = TRUE,dec = ".",sep = ",")
# Variable

library(dplyr)
library(gt)
# TABLA DE FRECUENCIAS pollutant_type

Pollutant <- datos$Pollutant_Type
# Tabla de distribuciones

TDF_pollutant <- data.frame(table(Pollutant))

# Frecuencia absoluta

ni <- TDF_pollutant$Freq

# Frecuencia relativa en %

hi <- round((ni / sum(ni)) * 100, 2)

# Crear tabla final

TDF_pollutant <- data.frame(
  `Tipo de Contaminante` = TDF_pollutant$Pollutant,
  `ni` = ni,
  `hi %` = hi
)

# Fila total

TDF_pollutant_final <- rbind(
  TDF_pollutant,
  data.frame(
    `Tipo de Contaminante` = "TOTAL",
    `ni` = sum(ni),
    `hi %` = 100
  )
)

# ===============================

# TABLA 

TDF_pollutant_final %>%
  gt() %>%
  tab_header(
    title = md("*Tabla Nro. 3*"),
    subtitle = md("**Tabla de distribución de frecuencias del tipo de contaminante del suelo identificado**")
  ) %>%
  tab_source_note(
    source_note = md("Autor: Grupo 3")
  ) %>%
  tab_options(
    table.border.top.color = "black",
    table.border.bottom.color = "black",
    table.border.top.style = "solid",
    table.border.bottom.style = "solid",
    column_labels.border.top.color = "black",
    column_labels.border.bottom.color = "black",
    column_labels.border.bottom.width = px(2),
    row.striping.include_table_body = TRUE,
    heading.border.bottom.color = "black",
    heading.border.bottom.width = px(2),
    table_body.hlines.color = "gray",
    table_body.border.bottom.color = "black"
  )
Tabla Nro. 3
Tabla de distribución de frecuencias del tipo de contaminante del suelo identificado
Tipo.de.Contaminante ni hi..
Arsenic 489 16.30
Cadmium 516 17.20
Chromium 509 16.97
Lead 529 17.63
Mercury 458 15.27
Pesticides 499 16.63
TOTAL 3000 100.00
Autor: Grupo 3
library(dplyr)
library(gt)

# TABLA DE FRECUENCIAS crop_type
Crop <- datos$Crop_Type

# Tabla de distribuciones

TDF_crop <- data.frame(table(Crop))

# Frecuencia absoluta

ni <- TDF_crop$Freq

# Frecuencia relativa en %

hi <- round((ni / sum(ni)) * 100, 2)

# Crear tabla final

TDF_crop <- data.frame(
  `Tipo de Cultivo` = TDF_crop$Crop,
  `ni` = ni,
  `hi %` = hi
)

# Fila total

TDF_crop_final <- rbind(
  TDF_crop,
  data.frame(
    `Tipo de Cultivo` = "TOTAL",
    `ni` = sum(ni),
    `hi %` = 100
  )
)

# TABLA 

TDF_crop_final %>%
  gt() %>%
  tab_header(
    title = md("*Tabla Nro. 4*"),
    subtitle = md("**Tabla de distribución de frecuencias del tipo de cultivo afectado en el área analizada**")
  ) %>%
  tab_source_note(
    source_note = md("Autor: Grupo 3")
  ) %>%
  tab_options(
    table.border.top.color = "black",
    table.border.bottom.color = "black",
    table.border.top.style = "solid",
    table.border.bottom.style = "solid",
    column_labels.border.top.color = "black",
    column_labels.border.bottom.color = "black",
    column_labels.border.bottom.width = px(2),
    row.striping.include_table_body = TRUE,
    heading.border.bottom.color = "black",
    heading.border.bottom.width = px(2),
    table_body.hlines.color = "gray",
    table_body.border.bottom.color = "black"
  )
Tabla Nro. 4
Tabla de distribución de frecuencias del tipo de cultivo afectado en el área analizada
Tipo.de.Cultivo ni hi..
Corn 526 17.53
Cotton 485 16.17
Potato 493 16.43
Rice 483 16.10
Soybean 497 16.57
Wheat 516 17.20
TOTAL 3000 100.00
Autor: Grupo 3
#Estadistica Descriptiva

#María Jóse Calo

#20/11/2025

library(gt)
library(dplyr)

#Cargar Datos

datos<-read.csv("soil_pollution_diseases.csv",header = TRUE,dec = ".",
                sep = ",")


#Tablas Cualitativas Nominales

#Práctica Agrícola 


Práctica_Agrícola <- datos$Farming_Practice

#Tabla de Distribucion de Frecuencia

TDF_Práctica_Agrícola <-data.frame(table(Práctica_Agrícola))

ni <- TDF_Práctica_Agrícola$Freq
hi <- round((ni / sum(ni)) * 100, 2)
Práctica_Agrícola <- TDF_Práctica_Agrícola$Práctica_Agrícola
TDF_Práctica_Agrícola <- data.frame(Práctica_Agrícola, ni, hi)
Summary <- data.frame(Práctica_Agrícola = "TOTAL", ni = sum(ni),hi = 100)
TDF_Práctica_Agrícola <- rbind(TDF_Práctica_Agrícola,Summary)
colnames(TDF_Práctica_Agrícola) <- c("Práctica Agrícola", "ni", "hi(%)")

# TABLA 

TDF_Práctica_Agrícola %>%
  gt() %>%
  tab_header(
    title = md("*Tabla Nro. 5*"),
    subtitle = md("**Tabla de distribución de frecuencias de la Práctica Agrícola registrada**")
  ) %>%
  tab_source_note(
    source_note = md("Autor: Grupo 3")
  ) %>%
  tab_options(
    table.border.top.color = "black",
    table.border.bottom.color = "black",
    table.border.top.style = "solid",
    table.border.bottom.style = "solid",
    column_labels.border.top.color = "black",
    column_labels.border.bottom.color = "black",
    column_labels.border.bottom.width = px(2),
    row.striping.include_table_body = TRUE,
    heading.border.bottom.color = "black",
    heading.border.bottom.width = px(2),
    table_body.hlines.color = "gray",
    table_body.border.bottom.color = "black"
  )
Tabla Nro. 5
Tabla de distribución de frecuencias de la Práctica Agrícola registrada
Práctica Agrícola ni hi(%)
Conventional 780 26.00
Integrated 750 25.00
Organic 709 23.63
Permaculture 761 25.37
TOTAL 3000 100.00
Autor: Grupo 3
#Estadística Descriptiva
#Santiago Labanda
#19/11/2025

library(gt)
library(dplyr)



datos<-read.csv("soil_pollution_diseases.csv",header = TRUE,dec = ".",sep = ",")




#Tablas Cualitativas Nominales

#Industria Cercana
Industria_Cercana <- datos$Nearby_Industry
#Tabla de distribución de frecuencia
TDF_Industria_Cercana <- data.frame(table(Industria_Cercana))
ni <- TDF_Industria_Cercana$Freq
hi <- round((ni / sum(ni)) *100,2)
Industria_Cercana <- TDF_Industria_Cercana$Industria_Cercana
TDF_Industria_Cercana <- data.frame(Industria_Cercana,ni,hi)
Summary <- data.frame(Industria_Cercana = "TOTAL", ni=sum(ni), hi = 100)

TDF_Industria_Cercana <- rbind(TDF_Industria_Cercana,Summary)



colnames(TDF_Industria_Cercana) <- c("Industria Cercana", "ni", "hi(%)")


# TABLA 

TDF_Industria_Cercana %>%
  gt() %>%
  tab_header(
    title = md("*Tabla Nro. 6*"),
    subtitle = md("**Tabla de distribución de las Industrias Cercanas al lugar de estudio**")
  ) %>%
  tab_source_note(
    source_note = md("Autor: Grupo 3")
  ) %>%
  tab_options(
    table.border.top.color = "black",
    table.border.bottom.color = "black",
    table.border.top.style = "solid",
    table.border.bottom.style = "solid",
    column_labels.border.top.color = "black",
    column_labels.border.bottom.color = "black",
    column_labels.border.bottom.width = px(2),
    row.striping.include_table_body = TRUE,
    heading.border.bottom.color = "black",
    heading.border.bottom.width = px(2),
    table_body.hlines.color = "gray",
    table_body.border.bottom.color = "black"
  )
Tabla Nro. 6
Tabla de distribución de las Industrias Cercanas al lugar de estudio
Industria Cercana ni hi(%)
Agriculture 621 20.70
Chemical 619 20.63
Mining 594 19.80
None 582 19.40
Textile 584 19.47
TOTAL 3000 100.00
Autor: Grupo 3
#Estadistica Descriptiva

#Juan Arteaga

#19/11/2025

library(dplyr)
library(gt)

#Cargar los Datos
datos<-read.csv("soil_pollution_diseases.csv",header = TRUE,dec = ".",
                sep = ",")



#Tablas Cualitativas Nominales

#Water_Source_Type

Tipo_Fuente_Agua<-datos$Water_Source_Type

# Tabla de distribución de frecuencia

TDF_Tipo_Fuente_Agua<-data.frame(table(Tipo_Fuente_Agua))

ni <- TDF_Tipo_Fuente_Agua$Freq
hi <- round((ni / sum(ni)) * 100, 2)
Tipo_Fuente_Agua <- TDF_Tipo_Fuente_Agua$Tipo_Fuente_Agua
TDF_Tipo_Fuente_Agua <- data.frame(Tipo_Fuente_Agua, ni, hi)
Summary <- data.frame(Tipo_Fuente_Agua = "TOTAL", ni = sum(ni),hi = 100)

TDF_Tipo_Fuente_Agua_suma<-rbind(TDF_Tipo_Fuente_Agua, Summary)
colnames(TDF_Tipo_Fuente_Agua_suma) <- c("Tipo Fuente Agua", "ni", "hi(%)")

# TABLA 

TDF_Tipo_Fuente_Agua_suma %>%
  gt() %>%
  tab_header(
    title = md("*Tabla Nro. 7*"),
    subtitle = md("**Tabla de distribución de frecuencias de los Tipos de Fuente de Agua utilizada en la zona**")
  ) %>%
  tab_source_note(
    source_note = md("Autor: Grupo 3")
  ) %>%
  tab_options(
    table.border.top.color = "black",
    table.border.bottom.color = "black",
    table.border.top.style = "solid",
    table.border.bottom.style = "solid",
    column_labels.border.top.color = "black",
    column_labels.border.bottom.color = "black",
    column_labels.border.bottom.width = px(2),
    row.striping.include_table_body = TRUE,
    heading.border.bottom.color = "black",
    heading.border.bottom.width = px(2),
    table_body.hlines.color = "gray",
    table_body.border.bottom.color = "black"
  )
Tabla Nro. 7
Tabla de distribución de frecuencias de los Tipos de Fuente de Agua utilizada en la zona
Tipo Fuente Agua ni hi(%)
Irrigation Canal 591 19.70
Lake 596 19.87
Rainwater 602 20.07
River 592 19.73
Well 619 20.63
TOTAL 3000 100.00
Autor: Grupo 3
#Estadistica Descriptiva

#Alexander Sailema

#20/11/2025
library(gt)
library(dplyr)

#Cargar Datos

datos<-read.csv("soil_pollution_diseases.csv",header = TRUE,dec = ".",
                sep = ",")

#Tablas Cualitativas 

#Textura Suelo

Textura_Suelo <- datos$Soil_Texture

#Tabla de Distribucion de Frecuencia

TDF_Textura_Suelo <-data.frame(table(Textura_Suelo))

ni <- TDF_Textura_Suelo$Freq
hi <- round((ni / sum(ni)) * 100, 2)
Textura_Suelo <- TDF_Textura_Suelo$Textura_Suelo

TDF_Textura_Suelo <- data.frame(Textura_Suelo, ni, hi)

Summary <- data.frame(Textura_Suelo = "TOTAL", ni = sum(ni),hi = 100)
TDF_Textura_Suelo <- rbind(TDF_Textura_Suelo,Summary)
colnames(TDF_Textura_Suelo) <- c("Textura Suelo", "ni", "hi(%)")


# TABLA 

TDF_Textura_Suelo %>%
  gt() %>%
  tab_header(
    title = md("*Tabla Nro. 8*"),
    subtitle = md("**Tabla de distribución de frecuencias de la Textura de Suelo del sitio evaluado**")
  ) %>%
  tab_source_note(
    source_note = md("Autor: Grupo 3")
  ) %>%
  tab_options(
    table.border.top.color = "black",
    table.border.bottom.color = "black",
    table.border.top.style = "solid",
    table.border.bottom.style = "solid",
    column_labels.border.top.color = "black",
    column_labels.border.bottom.color = "black",
    column_labels.border.bottom.width = px(2),
    row.striping.include_table_body = TRUE,
    heading.border.bottom.color = "black",
    heading.border.bottom.width = px(2),
    table_body.hlines.color = "gray",
    table_body.border.bottom.color = "black"
  )
Tabla Nro. 8
Tabla de distribución de frecuencias de la Textura de Suelo del sitio evaluado
Textura Suelo ni hi(%)
Clay 718 23.93
Loamy 770 25.67
Sandy 756 25.20
Silty 756 25.20
TOTAL 3000 100.00
Autor: Grupo 3
#Estadistica Descriptiva

#Alexander Sailema

#20/11/2025


#Cargar Datos


datos<-read.csv("soil_pollution_diseases.csv",header = TRUE,dec = ".",
                sep = ",")

#Tablas Cualitativas 

#Enfermedad

Enfermedad <- datos$Disease_Type

#Tabla de Distribucion de Frecuencia De los Tipos de Enfermedades

TDF_Enfermedad <-data.frame(table(Enfermedad))

ni <- TDF_Enfermedad$Freq
hi <- round((ni / sum(ni)) * 100, 2)
Enfermedad <- TDF_Enfermedad$Enfermedad

TDF_Enfermedad <- data.frame(Enfermedad, ni, hi)

Summary <- data.frame(Enfermedad = "TOTAL", ni = sum(ni),hi = 100)
TDF_Enfermedad <- rbind(TDF_Enfermedad,Summary)
colnames(TDF_Enfermedad) <- c("Enfermedad", "ni", "hi(%)")


# TABLA 

TDF_Enfermedad %>%
  gt() %>%
  tab_header(
    title = md("*Tabla Nro. 9*"),
    subtitle = md("**Tabla de distribución de frecuencias de las distintas Enfermedades asociadas al contaminante**")
  ) %>%
  tab_source_note(
    source_note = md("Autor: Grupo 3")
  ) %>%
  tab_options(
    table.border.top.color = "black",
    table.border.bottom.color = "black",
    table.border.top.style = "solid",
    table.border.bottom.style = "solid",
    column_labels.border.top.color = "black",
    column_labels.border.bottom.color = "black",
    column_labels.border.bottom.width = px(2),
    row.striping.include_table_body = TRUE,
    heading.border.bottom.color = "black",
    heading.border.bottom.width = px(2),
    table_body.hlines.color = "gray",
    table_body.border.bottom.color = "black"
  )
Tabla Nro. 9
Tabla de distribución de frecuencias de las distintas Enfermedades asociadas al contaminante
Enfermedad ni hi(%)
Cancer 622 20.73
Gastrointestinal Disease 578 19.27
Neurological Disorder 597 19.90
Respiratory Issues 581 19.37
Skin Disease 622 20.73
TOTAL 3000 100.00
Autor: Grupo 3
#Estadistica Descriptiva

#María Jóse Calo

#20/11/2025

library(gt)
library(dplyr)

#Cargar Datos


datos<-read.csv("soil_pollution_diseases.csv",header = TRUE,dec = ".",
                sep = ",")


#Tablas Cualitativas Nominales

#Síntomas de Salud 


Síntomas_de_Salud <- datos$Health_Symptoms

#Tabla de Distribucion de Frecuencia

TDF_Síntomas_de_Salud <-data.frame(table(Síntomas_de_Salud))

ni <- TDF_Síntomas_de_Salud$Freq 
hi <- round((ni / sum(ni)) * 100, 2)
Síntomas_de_Salud <- TDF_Síntomas_de_Salud$Síntomas_de_Salud
TDF_Síntomas_de_Salud <- data.frame(Síntomas_de_Salud, ni, hi)
Summary <- data.frame(Síntomas_de_Salud = "TOTAL", ni = sum(ni),hi = 100)
TDF_Síntomas_de_Salud <- rbind(TDF_Síntomas_de_Salud,Summary)
colnames(TDF_Síntomas_de_Salud) <- c("Síntomas de Salud", "ni", "hi(%)")

# TABLA 

TDF_Síntomas_de_Salud %>%
  gt() %>%
  tab_header(
    title = md("*Tabla Nro. 10*"),
    subtitle = md("**Tabla de distribución de frecuencias de los Síntomas de Salud en la población afectada**")
  ) %>%
  tab_source_note(
    source_note = md("Autor: Grupo 3")
  ) %>%
  tab_options(
    table.border.top.color = "black",
    table.border.bottom.color = "black",
    table.border.top.style = "solid",
    table.border.bottom.style = "solid",
    column_labels.border.top.color = "black",
    column_labels.border.bottom.color = "black",
    column_labels.border.bottom.width = px(2),
    row.striping.include_table_body = TRUE,
    heading.border.bottom.color = "black",
    heading.border.bottom.width = px(2),
    table_body.hlines.color = "gray",
    table_body.border.bottom.color = "black"
  )
Tabla Nro. 10
Tabla de distribución de frecuencias de los Síntomas de Salud en la población afectada
Síntomas de Salud ni hi(%)
Abdominal Pain 473 15.77
Breathing Difficulty 514 17.13
Fatigue 502 16.73
Headache 488 16.27
Nausea 500 16.67
Rash 523 17.43
TOTAL 3000 100.00
Autor: Grupo 3
#Estadística Descriptiva
#Santiago Labanda
#19/11/2025

library(gt)
library(dplyr)



datos<-read.csv("soil_pollution_diseases.csv",header = TRUE,dec = ".",sep = ",")



#Tablas Cualitativas Nominales

#Medida de Mitigación
Medida_Mitigación <- datos$Mitigation_Measure
#Tabla de distribución de frecuencia
TDF_Medida_Mitigación <- data.frame(table(Medida_Mitigación))
ni <- TDF_Medida_Mitigación$Freq
hi <- round((ni / sum(ni)) *100,2)
Medida_Mitigación <- TDF_Medida_Mitigación$Medida_Mitigación
TDF_Medida_Mitigación <- data.frame(Medida_Mitigación,ni,hi)
Summary <- data.frame(Medida_Mitigación = "TOTAL", ni=sum(ni), hi = 100)

TDF_Medida_Mitigación <- rbind(TDF_Medida_Mitigación,Summary)
View(TDF_Industria_Cercana)


colnames(TDF_Medida_Mitigación) <- c("Medida de Mitigación", "ni", "hi(%)")


# TABLA 

TDF_Medida_Mitigación %>%
  gt() %>%
  tab_header(
    title = md("*Tabla Nro. 11*"),
    subtitle = md("**Tabla de distribución de las Medidas de Mitigación aplicadas**")
  ) %>%
  tab_source_note(
    source_note = md("Autor: Grupo 3")
  ) %>%
  tab_options(
    table.border.top.color = "black",
    table.border.bottom.color = "black",
    table.border.top.style = "solid",
    table.border.bottom.style = "solid",
    column_labels.border.top.color = "black",
    column_labels.border.bottom.color = "black",
    column_labels.border.bottom.width = px(2),
    row.striping.include_table_body = TRUE,
    heading.border.bottom.color = "black",
    heading.border.bottom.width = px(2),
    table_body.hlines.color = "gray",
    table_body.border.bottom.color = "black"
  )
Tabla Nro. 11
Tabla de distribución de las Medidas de Mitigación aplicadas
Medida de Mitigación ni hi(%)
Chemical Neutralization 564 18.80
Community Awareness 592 19.73
Crop Rotation 626 20.87
Government Regulation 622 20.73
Soil Remediation 596 19.87
TOTAL 3000 100.00
Autor: Grupo 3