UNIVERSIDAD CENTRAL DEL ECUADOR

PROYECTO:ESTUDIO ESTADÍSTICO DE LA CONTAMINACIÓN DEL SUELO Y SU IMPACTO EN LA SALUD

FECHA: 1/12/2025

#Estadistica Descriptiva

#Juan Arteaga

#1/12/2025

#VARIABLE CUALITATIVA ORDINAL:

#Cargar los Datos

setwd("C:/Users/arian/OneDrive/Escritorio/3 SEMESTRE/ESTADISTICA Y PROBABILIDAD")
datos<-read.csv("soil_pollution_diseases.csv",header = TRUE,dec = ".",
                sep = ",")
str(datos)

## 'data.frame':    3000 obs. of  24 variables:
##  $ Case_ID                      : chr  "CASE_100000" "CASE_100001" "CASE_100002" "CASE_100003" ...
##  $ Date_Reported                : chr  "12/9/2024" "1/1/2024" "24/2/2025" "24/9/2024" ...
##  $ Region                       : chr  "Africa" "Africa" "Europe" "Asia" ...
##  $ Country                      : chr  "Pakistan" "Germany" "Germany" "USA" ...
##  $ Pollutant_Type               : chr  "Lead" "Lead" "Lead" "Lead" ...
##  $ Pollutant_Concentration_mg_kg: int  7804 1633 16733 8923 9393 12347 644 1171 11161 12159 ...
##  $ Soil_pH                      : int  83 796 535 566 764 518 489 814 524 819 ...
##  $ Temperature_C                : int  356 310 164 314 170 123 339 191 439 131 ...
##  $ Humidity_.                   : int  649 731 338 305 586 912 530 697 781 347 ...
##  $ Rainfall_mm                  : int  624 82 1217 1169 2370 3863 488 1247 3758 181 ...
##  $ Crop_Type                    : chr  "Wheat" "Potato" "Soybean" "Wheat" ...
##  $ Farming_Practice             : chr  "Integrated" "Permaculture" "Organic" "Permaculture" ...
##  $ Nearby_Industry              : chr  "Mining" "Mining" "Chemical" "None" ...
##  $ Water_Source_Type            : chr  "Well" "Irrigation Canal" "River" "Irrigation Canal" ...
##  $ Soil_Texture                 : chr  "Sandy" "Silty" "Clay" "Silty" ...
##  $ Soil_Organic_Matter_.        : int  198 971 549 398 94 818 52 544 90 359 ...
##  $ Disease_Type                 : chr  "Gastrointestinal Disease" "Cancer" "Gastrointestinal Disease" "Neurological Disorder" ...
##  $ Disease_Severity             : chr  "Moderate" "Mild" "Severe" "Severe" ...
##  $ Health_Symptoms              : chr  "Breathing Difficulty" "Breathing Difficulty" "Nausea" "Fatigue" ...
##  $ Age_Group_Affected           : chr  "Adults" "Elderly" "Children" "Adults" ...
##  $ Gender_Most_Affected         : chr  "Male" "Both" "Both" "Male" ...
##  $ Mitigation_Measure           : chr  "Government Regulation" "Community Awareness" "Soil Remediation" "Community Awareness" ...
##  $ Case_Resolved                : chr  "No" "Yes" "Yes" "Yes" ...
##  $ Follow_Up_Required           : chr  "Yes" "No" "No" "No" ...

#Tipo_Contaminante

Tipo_Contaminante<-datos$Pollutant_Type

# Tabla de distribución de frecuencia

TDF_Tipo_Contaminante<-data.frame(table(Tipo_Contaminante))

ni <- TDF_Tipo_Contaminante$Freq
hi <- round((ni / sum(ni)) * 100, 2)
Tipo_Contaminante <- TDF_Tipo_Contaminante$Tipo_Contaminante
TDF_Tipo_Contaminante <- data.frame(Tipo_Contaminante, ni, hi)
Summary <- data.frame(Tipo_Contaminante = "TOTAL", ni = sum(ni),hi = 100)

TDF_Tipo_Contaminante_Suma<-rbind(TDF_Tipo_Contaminante, Summary)
colnames(TDF_Tipo_Contaminante) <- c("Tipo_Contaminante", "ni", "hi(%)")



# Limpiar espacios en blanco 
TDF_Tipo_Contaminante_Suma$Tipo_Contaminante <- trimws(TDF_Tipo_Contaminante_Suma$Tipo_Contaminante)

#Ordenar la tabla en el orden deseado

niveles_ordenados <- c("Mercury", "Arsenic", "Lead",
                       "Cadmium", "Chromium",
                       "Pesticides", "TOTAL")

TDF_Tipo_Contaminante_Suma$Tipo_Contaminante <- factor(
  TDF_Tipo_Contaminante_Suma$Tipo_Contaminante,
  levels = niveles_ordenados
)


TDF_Tipo_Contaminante_Suma <- TDF_Tipo_Contaminante_Suma[
  order(TDF_Tipo_Contaminante_Suma$Tipo_Contaminante),
]


# TABLA 
library(dplyr)
library(gt)

TDF_Tipo_Contaminante_Suma %>%
  gt() %>%
  tab_header(
    title = md("*Tabla Nro. 2*"),
    subtitle = md("**Distribución de frecuencias de los Tipos de contaminantes según su peligrosidad**")
  ) %>%
  tab_source_note(
    source_note = md("Autor: Grupo 3")
  ) %>%
  tab_options(
    table.border.top.color = "black",
    table.border.bottom.color = "black",
    table.border.top.style = "solid",
    table.border.bottom.style = "solid",
    column_labels.border.top.color = "black",
    column_labels.border.bottom.color = "black",
    column_labels.border.bottom.width = px(2),
    row.striping.include_table_body = TRUE,
    heading.border.bottom.color = "black",
    heading.border.bottom.width = px(2),
    table_body.hlines.color = "gray",
    table_body.border.bottom.color = "black"
  )

Tipo_Contaminante	ni	hi
Tabla Nro. 2
Distribución de frecuencias de los Tipos de contaminantes según su peligrosidad
Mercury	458	15.27
Arsenic	489	16.30
Lead	529	17.63
Cadmium	516	17.20
Chromium	509	16.97
Pesticides	499	16.63
TOTAL	3000	100.00
Autor: Grupo 3

#Graficas
# Diagrama de barrras local ni

barplot(ni, main = "Gráfica N°6: Distribución de frecuencias 
        de los Tipos de contaminantes según su peligrosidad ",
        xlab = "Tipos de Contaminante",
        ylab = "Cantidad",
        col = "red",
        ylim = c(0,600),
        las = 2,
        cex.names = 0.6,
        names.arg = TDF_Tipo_Contaminante$Tipo_Contaminante)

#Diagrama de barras global ni 

barplot(ni, main = "Gráfica N°7: Distribución de frecuencias 
        de los Tipos de contaminantes según su peligrosidad",
        xlab = "Tipo de Contaminante",
        ylab = "Cantidad",
        col = "skyblue",
        ylim = c(0,3000),
        las=2,
        cex.names = 0.5,
        names.arg = TDF_Tipo_Contaminante$Tipo_Contaminante)

#Diagrama de barras local hi(%)

barplot(hi, main = "Gráfica N°8: Distribución de frecuencias porcentual
        de los Tipos de contaminantes según su peligrosidad",
        xlab = "Tipo de Contaminante",
        ylab = "Porcentaje",
        col = "green",
        ylim = c(0,40),
        las = 2,
        cex.names = 0.6,
        names.arg = TDF_Tipo_Contaminante$Tipo_Contaminante)

#Diagrama de barras global hi(%)

barplot(hi, main = "Gráfica N°9: Distribución de frecuencias porcentual 
        de los Tipos de contaminantes según su peligrosidad",
        xlab = "Tipo de Contaminante",
        ylab = "Porcentaje",
        col = "blue",
        ylim = c(0,100),
        las = 2,
        cex.names = 0.6,
        names.arg = TDF_Tipo_Contaminante$Tipo_Contaminante)

#Diagrama circular

etiqueta_pie <- paste(TDF_Tipo_Contaminante$hi, "%")
pie(hi,
    main = "Gráfica N°10 Distribución porcentual
    de los Tipos de contaminantes según su peligrosidad",
    radius = 1,
    labels = etiqueta_pie,
    col = rev(heat.colors(length(hi))),
    cex = 0.9,
    cex.main = 1)

legend("topright",
       legend = TDF_Tipo_Contaminante$Tipo_Contaminante,
       fill = colores <- c(rev(heat.colors(10))),
       cex = 0.9,
       title = "Leyenda")

VARIABLE CUALITATIVA ORDINAL UNIVERSIDAD CENTRAL DEL ECUADOR

UNIVERSIDAD CENTRAL DEL ECUADOR

PROYECTO:ESTUDIO ESTADÍSTICO DE LA CONTAMINACIÓN DEL SUELO Y SU IMPACTO EN LA SALUD

FECHA: 1/12/2025