La contaminación es uno de los temas actuales más preocupantes a nivel mundial. Existen diversos tipos de contaminación que pueden afectar a todo tipo de poblaciones, pero geográficamente las condiciones pueden marcar tendencias de las consecuencias ambientales y sociales a partir de aspectos políticos, financieros, empresariales, sociales y de gestión de los estados sobre su propio territorio.
En el presente estudio se lleva a cabo el análisis de la contaminación asociada al agua, el aire y la tierra a nivel mundial, con la información respectiva a distintos factores (especialmente ambientales, industriales y estructurales) de 81 países alredeor del mundo, haciendo uso de las herramientas pertinentes al Aprendizaje No Supervisado.
El informe presenta un marco teórico correspondiente a los conceptos relevantes para la completa comprensión del estudio, se presenta la metodología general llevada a cabo, un análisis descriptivo de las variables utilizadas, la estimación del modelo de Análisis de Componentes Principales (ACP) y el proceso de clusterización, junto la discusión de los resultados obtenidos. Finalmente, se concluye el estudio y se expone la bibliografía.
Palabras Clave: contaminación, Análisis de Componentes Principales (ACP), clusterización, varianza.
Para el completo entendimiento del desarrollo de este estudio es necesario hacer énfasis en conceptos teóricos estadísticos y respecto al tema analizado.
Partículas PM2.5: Se trata de partículas de menos de 2.5 micrómetros que se encuentran en el aire, contaminándolo y afectando a la salud respiratoria de las personas expuestas a ellas.
Estandarización: Es un proceso que tiene como propósito garantizar que un conjunto de datos o variables sea uniforme, es decir, conserven una misma escala independientemente de la unidad de medida (toneladas, kilogramos, habitantes, etc.) que determine cada uno de los elementos tratados, esto mediante la aplicación de normas o un modelo determinado.
Análisis de Componentes Principales (ACP): El análisis de componentes principales (ACP) es un método estadístico aplicado por Karl Pearson en 1901, pensado para simplificar la complejidad de espacios muestrales con múltiples dimensiones pero manteniendo su información. Dicho de otra forma, este método utiliza variables cuantitativas para reducir la dimensión de un gran conjunto de datos mediante la creación de nuevas variables con el fin de caracterizar a cada individuo, las cuales son llamadas componentes principales y están dadas por la siguiente combinación lineal:
El método ACP es muy útil de usar antes de hacer uso de otras técnicas estadísticas, pues condensa la información de los datos por medio de la búsqueda que realiza en otras dimensiones del dataset de los componentes principales para definir la estructura base, reduciéndolo a menos variables no relacionadas entre sí y manteniendo la mayor cantidad de información original, por lo que es primordial disponer del valor de las variables originales para calcular los componentes.
Clusterización: El análisis de clúster, también conocido como análisis de conglomerado, es una técnica estadística multivariante que busca agrupar elementos (o variables) tratando de lograr la máxima homogeneidad en cada grupo y la mayor diferencia entre estos.
El objetivo principal del análisis de conglomerados es la identificación de grupos de manera que la variabilidad intraclase sea inferior a la variabilidad entre clases. Este método tiene una gran importancia en la aplicación dentro de muchas áreas de investigación; sin embargo, con los beneficios del análisis de clúster posee ciertas desventajas. Se trata de una técnica descriptiva, ateórica y no inferencial.
Este análisis no tiene bases estadísticas para deducir inferencias estadísticas sobre una población a partir de una muestra, es un método que se basa en criterios geométricos y es utilizado fundamentalmente como una técnica exploratoria, descriptiva pero no explicativa. Por otra parte, la solución al análisis de clúster depende totalmente de las variables utilizadas, la adición o destrucción de las variables relevantes que pueden tener un impacto substancial sobre la solución resultante.
K-means es un algoritmo de clustering ampliamente utilizado en el aprendizaje automático no supervisado para agrupar conjuntos de datos en k grupos (o clusters). El objetivo es dividir los datos en grupos que sean lo más similares posible entre sí.
En el proceso de K-means, el analista debe especificar previamente el número de grupos (k) que se desea obtener. El algoritmo clasifica los objetos en diferentes grupos, de manera que los objetos dentro de un mismo grupo sean lo más parecidos entre sí.
Para ver la clasificación del conjunto de datos del modelo, se utiliza el método de Ward, presentado por Joe H. Ward, el cual considera todos los clusters y el algoritmo calcula la suma de las distancias al cuadrado dentro de cada uno, para posteriormente fusionarlos y lograr minimizarlos. Se caracteriza por la siguiente ecuación.
Para llevar a cabo este estudio se hizo uso de la metodología general catalogada en 5 pasos primordiales:
Los conceptos de los métodos correspondientes al Análisis No Supervisado fueron obviados, por lo cual se incluyen en un marco teórico expuesto con anterioridad que tiene el propósito de proporcionar la información relevante a considerar para el total entendimiento del informe de estudio.
Dentro de la sección de metodología se conservan los primeros dos pasos a seguir, donde se aborda un mecanismo de desarrollo pertinente a la temática de estudio; sin embargo, los dos siguientes se conforman como apartados del informe que buscan abarcar el estudio acogiendo la metodología estadística correspondiente.
Finalmente, se ecnuentra el quinto apartado que pretende resumir y enfatizar los puntos importantes dentro del estudio y las respuestas obtenidas.
Para seleccionar las variables se realizó un chequeo de aquellos aspectos que pueden contribuir a los tres tipos de contaminación estudiados: en el agua, en el aire y en la tierra. Con este criterio presente, se justifica cada una de las variables dentro del estudio.
Partículas PM2.5: Explica la suspención de partículas contaminantes en el aire por kilómetro cúbico. Esta variable ayuda a clasificar países con baja calidad del aire que puede verse influenciada por la presencia de industrias, alta urbanización o poca regulación del uso de combustibles fósiles.
Muertes por agua contaminada: Proporciona la cantidad de habitantes de la zona que han muerto por ingerir o tener contacto con agua contaminada por múltiples factores. Un país con gran cantidad de muertes puede atribuirse a una baja calidad del agua, un mal saneamiento o una pobre potabilización de la misma.
Degradación del suelo orgánico: Explica la utilidad o falta de esta en suelos cultivables y el aumento en la variable abre la posibilidad de países industrializados en el sector agrícola o la presencia de eventos naturales o intencionados al daño ambiental repercudido a las tierras.
Superficie urbana (Kilómetros cuadrados): Representa las zonas urbanizadas de un país, en este caso, medidas en kilómetros cuadrados. Una mayor expansión de la superficie urbana conlleva intrínsecamente el aumento de industrias, zonas vehiculares, reducción de espacios verdes, aglomeración poblacional y posible aumento de daños ambientales.
Densidad poblacional (habitantes por kilometro cuadrado): Mide la concentración de personas en una superficie. Una mayor densidad poblacional suele indicar mayor contaminación, debido a que hay mayor congestión vehicular, mayor consumo de energía y mayor cantidad de industrias o fábricas.
Fertilizantes utilizados por hectárea de tierra cultivable (kilogramos): Representa el uso de fertilizantes en la agricultura. Su uso trae consigo degradación de suelos, contaminación a cuerpos de agua y generación de partículas contaminantes del aire. Su aumento puede implicar la presencia de industrias agrícolas de alto impacto y falta de regulaciones políticas e industriales.
Emisión de gases de efecto invernadero (toneladas): Representa el total de emisiones de gases de efecto invernadero en cada país, expresado en toneladas de CO2 equivalente. A una mayor emisión generada, se puede concluir un alto desarrollo industrial y extensión urbanizada.
Incendios forestales: Muestra la cantidad de incendios en zonas forestadas no intencionados y, por ende, poco controlados. A una mayor cantidad de estos casos, se puede hablar de una mayor emisión de gases de efecto invernadero, pérdida de suelo cultivable y zonas verdes, afectación a cuerpos de agua e incluso pérdida de fauna.
Plásticos mal gestionados (Porcentaje): Expresa el porcentaje de plástico que se gestiona sin regulación y que pueden generar contaminación de diversas formas, ya sea siendo dejados en vertederos ilegales, desembocados en el mar o incluso siendo quemados.
Electricidad generada a partir de combustibles fósiles (Porcentaje): Deja en evidencia la proporción de electricidad generada por combustibles fósiles como carbón, petróleo o gas natural. Esta variable puede indicar falta de desarrollo estructural y tecnológico y contaminación del aire.
Saneamiento seguro (Porcentaje): Indica la calidad del saneamiento de un país. Ante un aumento de la variable se puede concluir un interés estatal comprometido, poco riesgo de salubre para los habitantes y una contaminación del agua escaza.
Muertes causadas por desastres naturales: Muestra una cantidad que permite indicar la frecuencia de accidentes mortales ante reacciones de la naturaleza. Su aumento puede indicar la gravedad de estas situaciones y una tendencia a daños ambientales por múltiples causas que pueden generar contaminación a corto plazo de los hechos.
Desperdicio de alimentos (kilogramos): Indica la cantidad en que los desechos orgánicos no son tratados y traen consigo contaminación del aire. Su comportamiento puede dejar en evidencia la responsabilidad social de los habitantes y la gestión estatal.
Contaminación generada por industrias: Representa el porcentaje de contribución de las industrias a la contaminación de diversos tipos. Además de exponer la calidad de desarrollo económico de un país, puede expresar la regulación gubernamental e industrial.
Tras la selección de las variables pertinentes para la realización del estudio se procedió a realizar una base de datos donde se filtró la información correspondiente a 81 países de todo el mundo. Estos datos fueron estandarizados logrando así mantener una media igual a 0 (cero) y una desviación estándar igual a 1 (uno).
Finalmente se obtiene la base final con la cual se trabaja el modelo estudiado. Esta se muestra a continuación.
library(jsonlite)
library(tidyverse)
library(DT)
library(factoextra)
library(FactoClass)
library(ggplot2)
library(plotly)
library(dplyr)
library(ggcorrplot)
library(scales)
#AIRE CONTAMINADO pm2,5 (pm2,5/km3)
d1 <- read.csv("pm25-air-pollution.csv")
df1<-d1 %>%
filter(Year==2019) %>%
rename(CONT.AIR=Concentrations.of.fine.particulate.matter..PM2.5....Residence.area.type..Total) %>%
select(-Code)%>%
rename(PAIS=Entity)
# MUERTES AGUA CONTAMINADA (hab)
d2 <- read.csv("Muertes_agua_contaminada.csv")
df2<-d2 %>%
filter(Year==2019) %>%
rename(MU.AGUA.CONT=X3.9.2...Mortality.rate.attributed.to.unsafe.water..unsafe.sanitation.and.lack.of.hygiene.from.diarrhoea..intestinal.nematode.infections..malnutrition.and.acute.respiratory.infections..deaths.per.100.000.population....SH_STA_WASHARI) %>%
select(-Code)%>%
rename(PAIS=Entity)
# DEGRADACION DEL SUELO ORGANICO
d3 <- read.csv("Degradacion_Suelo_Organico.csv")
df3<-d3 %>%
rename(DEG.SU.ORG=X2019..YR2019.) %>%
select(-Country.Code, -Series.Name, -Series.Code)%>%
rename(PAIS=Country.Name) %>%
mutate(DEG.SU.ORG = as.numeric(DEG.SU.ORG)) %>%
filter(!is.na(DEG.SU.ORG))
# SUPERFICIE URBANAS (Km2)
d4 <- read.csv("urban-area.csv")
df4<-d4 %>%
filter(Year==2019) %>%
rename(SUP.URB=Land.use..Built.up.area) %>%
select(-Code)%>%
rename(PAIS=Entity)
# DENSIDAD POBLACIONAL (hab/km2)
d5 <- read.csv("population-density.csv")
df5<-d5 %>%
filter(Year==2019) %>%
rename(DEN.POB=Population.density) %>%
select(-Code)%>%
rename(PAIS=Entity)
# USO DE FERTILIZANTES POR TIERRA CULTIVABLE (Kg)
d6 <- read.csv("Fertilizantes.csv")
df6<-d6 %>%
filter(Year==2019) %>%
rename(FERT.TIE.CULT=Fertilizer.consumption..kilograms.per.hectare.of.arable.land.) %>%
select(-Code)%>%
rename(PAIS=Entity)
# EMISIONES GASES EFECTO INVERNADERO (ton)
d7 <- read.csv("Emisiones_GEI.csv")
df7<-d7 %>%
filter(Year==2019) %>%
rename(EMI.GEI=Annual.greenhouse.gas.emissions.in.CO..equivalents) %>%
select(-Code)%>%
rename(PAIS=Entity)
# INCENDIOS FORESTALES (cant)
d8 <- read.csv("annual-number-of-fires.csv")
df8 <- d8 %>%
filter(Year==2019) %>%
rename(INC.FOR=Annual.number.of.fires) %>%
select(-Code) %>%
rename(PAIS=Entity)
# PLASTICOS MAL GESTIONADOS (%)
d9 <- read.csv("Plasticos_mal_gestionados.csv")
df9 <- d9 %>%
filter(Year==2019) %>%
rename(PLAST.MAL.GEST=Share.of.global.mismanaged.plastic.waste) %>%
select(-Code) %>%
rename(PAIS=Entity)
# PRODUCCION DE ELECTRICIDAD DE FUENTES FOSILES (%)
d10 <- read.csv("Electricidad_FF.csv")
df10<-d10 %>%
filter(Year==2019) %>%
rename(PROD.ELEC.FOS=Fossil.fuels.....electricity) %>%
select(-Code)%>%
rename(PAIS=Entity)
# SANEAMIENTO SEGURO (%)
d11 <- read.csv("Saneamiento_Seguro.csv")
df11<-d11 %>%
filter(Year==2019) %>%
rename(SAN.SEG=Share.of.the.population.using.safely.managed.sanitation.services) %>%
select(-Code)%>%
rename(PAIS=Entity)
# MUERTES DESASTRES NATURALES (hab)
d12 <- read.csv("deaths-from-natural-disasters.csv")
df12<-d12 %>%
filter(Year==2019) %>%
rename(MUE.DES.NAT=Total.deaths.from.natural.disasters.among.both.sexes) %>%
select(-Code)%>%
rename(PAIS=Entity)
# DESPERDICIO DE ALIMENTOS (kg)
d13 <- read.csv("food-waste.csv")
df13<-d13 %>%
filter(Year==2019) %>%
rename(DESP.ALI=X12.3.1...Food.waste.per.capita..KG....AG_FOOD_WST_PC...Households) %>%
select(-Code, -X12.3.1...Food.waste.per.capita..KG....AG_FOOD_WST_PC...Out.of.home.consumption, -X12.3.1...Food.waste.per.capita..KG....AG_FOOD_WST_PC...Retail)%>%
rename(PAIS=Entity)
#CONTAMINACIÓN POR INDUSTRIAS
d14 <- read.csv("Contaminacion_Industrial.csv")
df14<-d14 %>%
rename(CONT.IND=X2019..YR2019.) %>%
select(-Country.Code, -Series.Code,-Series.Name) %>%
rename(PAIS=Country.Name) %>%
mutate(CONT.IND = as.numeric(CONT.IND)) %>%
filter(!is.na(CONT.IND))
BASE1<-merge(df1,df2)
BASE2<-merge(BASE1,df3)
BASE3<-merge(BASE2,df4)
BASE4<-merge(BASE3, df5)
BASE5<-merge(BASE4,df6)
BASE6<-merge(BASE5,df7)
BASE7<-merge(BASE6,df8)
BASE8<-merge(BASE7,df9)
BASE9<-merge(BASE8,df10)
BASE10<-merge(BASE9,df11)
BASE11<-merge(BASE10,df12)
BASE12<-merge(BASE11,df13)
BASE_FINAL<-merge(BASE12,df14) %>%
rename(YEAR=Year)
#colnames(BASE_FINAL)
#count(BASE_FINAL, PAIS)
#View(BASE_FINAL)
BASE_FINAL_MODELO<-BASE_FINAL %>%
select(-YEAR)
#str(BASE_FINAL_MODELO)
rownames(BASE_FINAL_MODELO) <- BASE_FINAL_MODELO$PAIS
BASE_FINAL_MODELO$PAIS <- NULL
View(BASE_FINAL_MODELO)
datatable(BASE_FINAL_MODELO)
Anterior a desarrollar el modelo, se realiza un análisis descriptivo de las 14 variables que fueron seleccionadas. Para esto se muestran estadísticas correspondientes a la media, mediana, desviación estándar y el rango en que se conservan cada una de las variables, además de un gráfico de correlación entre ellas y diagramas de caja a las tres variables explicativas de cada tipo de contaminación.
numericas <- sapply(BASE_FINAL, is.numeric)
datos_num <- BASE_FINAL[, numericas]
datos_finales <- select(datos_num, -YEAR)
media <- sapply(datos_finales, mean, na.rm = TRUE)
mediana <- sapply(datos_finales, median, na.rm = TRUE)
desv <- sapply(datos_finales, sd, na.rm = TRUE)
minimo <- sapply(datos_finales, min, na.rm = TRUE)
maximo <- sapply(datos_finales, max, na.rm = TRUE)
ESTADISTICAS <- rbind(
Media = media,
Mediana = mediana,
Desviación_estándar = desv,
Mínimo = minimo,
Máximo = maximo
)
View(ESTADISTICAS)
datatable(ESTADISTICAS)
En estos diagramas se visualiza varias variables con un coeficiente de correlación considerable; por ejemplo, se tiene que hay una correlación positiva entre las variables de Emisiones de Gases de Efecto Invernadero y la Contaminación Industrial, lo que quiere decir que ambas tienen un crecimiento directamente proporcional. Por otro lado, se puede observar que hay variables con una correlación negativa, tales como Muertes por Agua Contaminada y Saneamiento Seguro, dándonos a entender que estas tiene un crecimiento inversamente proporcional. Aunque se observa un marco lógico para la interpretación de correlación entre estas variables, también se evidencia variables con una alta correlación pero con poco sentido lógico al momento de interpretar. Este es el caso de Muertes por Desastres Naturales y Plástico Mal Gestionado, ya que por más que esta tenga una relación directamente proporcional no se halla cómo un aumento de la cantidad del plástico mal gestionado pueda incrementar las muertes por desastres naturales.
graf<-ggplot(BASE_FINAL, aes(x = CONT.IND, y = EMI.GEI)) +
geom_point(color = "#0A9396", size = 2, alpha = 2) +
scale_x_continuous(labels = label_number())+
scale_y_continuous(labels = label_number())+
labs(x = "CONTAMINACIÓN INDUSTRIAL",
y = "GASES EFECTO INVERNADERO",
title = "RELACIÓN ENTRE CONTAMINACION INDUSTRIAL Y GASES EFECTO INVERNADERO") +
theme_minimal()
ggplotly(graf)
En este gráfico se puede visualizar la relación que tienen las variables de Emisiones de Gases de Efecto Invernadero y Contaminación Industrial. En él se comprueba lo dicho en el gráfico anterior, visualizando de manera más explícita la relación directamente proporcional que presentan estas variables, concluyendo que si hay un aumento en la contaminación industrial también aumentará la cantidad de emisión de gases de efecto invernadero. Además se muestra que la mayoría de datos están agrupados en la zona del origen del gráfico y solo hay un dato con coeficientes altos. Este último dato podría tratarse de un país con niveles extremos de contaminación industrial y emisión de gases de efecto invernadero, asumiendo así de que se trata de un país altamente industrializado y con un fuerte impacto ambiental.
graf1<-ggplot(BASE_FINAL, aes(x = CONT.IND, y = PLAST.MAL.GEST)) +
geom_point(color = "#0A9396", size = 2, alpha = 2) +
scale_x_continuous(labels = label_number())+
scale_y_continuous(labels = label_percent(scale = 1))+
labs(x = "CONTAMINACIÓN INDUSTRIAL",
y = "PLÁSTICO MAL GESTIONADO",
title = "RELACIÓN ENTRE PLÁSTICO MAL GESTIONADO y CONTAMINACION INDUSTRIAL") +
theme_minimal()
ggplotly(graf1)
En este gráfico se observa la relación entre la Contaminación Industrial y el Plástico Mal Gestionado, encontrando nuevamente un agrupamiento en la zona del origen del gráfico y pocos datos alejados. Aquellos datos alejados se pueden atribuir nuevamente a países altamente industrializados, debido a la alta contaminación industrial y países con un protocolo para el manejo de plásticos pobre gracias a la gran cantidad de plásticos mal gestionados. También existe una relación directamente proporcional; sin embargo, en este caso se puede decir que con un coeficiente de relación un poco más bajo ya que este gráfico presenta puntos los cuales no cumplen con la relación, teniendo un aumento en la contaminación pero no necesariamente un aumento en los plásticos mal gestionados. La razón detrás de esto se debe a la varianza que tienen los datos al ser de una amplia cantidad de países.
graf2<-ggplot(BASE_FINAL, aes(x = MU.AGUA.CONT, y = SAN.SEG)) +
geom_point(color = "#0A9396", size = 2, alpha = 2) +
scale_x_continuous(labels = label_number())+
scale_y_continuous(labels = label_percent(scale = 1))+
labs(x = "MUERTES POR AGUA CONTAMINADA",
y = "SANEAMIENTO SEGURO",
title = "RELACION ENTRE MUERTES POR AGUA CONTAMINADA y SANEAMIENTO SEGURO") +
theme_minimal()
ggplotly(graf2)
En este gráfico se expone la relación entre las Muertes por Agua Contaminada y un Saneamiento Seguro, identificando que hay una relación inversamente proporcional, es decir, a un mayor porcentaje de saneamiento seguro menor es la cantidad de muertes por agua contaminada. En el diagrama se visualiza cómo la mayoría de datos están agrupados en la esquina superior izquierda, siendo estos países con un saneamiento seguro por arriba del 75% y una menor tasa de muertes; sin embargo, también se muestran datos de países con un porcentaje de saneamiento considerablemente bajo y una tasa de muertes por agua contaminada alta, concluyendo así que estos datos se tratan de países los cuales están en un contexto de alta vulnerabilidad y probablemente condiciones precarias. Cabe resaltar que a partir de este gráfico es posible decir que un saneamiento adecuado protege la salud publica de la población.
Haciendo uso de los conceptos presentados en el marco teórico del presente documento y tomando en cuenta el desarrollo de la metodología anteriormente expuesta, este apartado muestra el proceso de aplicación de las herramientas del Aprendizaje No Supervisado y el análisis de la temática en torno a los resultados obtenidos.
Al aplicar el método ACP a las 14 variables de estudio se obtuvo 14 componentes, cada uno de ellos con su respectivo porcentaje de varianza explicada. En el siguiente gráfico se observan los resultados.
resultado.base <- prcomp(BASE_FINAL_MODELO, scale = TRUE)
#resultado.base
fviz_eig(resultado.base,addlabels = TRUE)
Como se logra evidenciar, las dos primeras componentes ofrecen el mejor equilibrio entre simplicidad y captura de la información, por lo cual son las componentes seleccionadas para continuar con el análisis del modelo. Esta decisión se justifica a lo largo del informe, pero inicialmente se argumenta mediante esta sencilla evidencia: La Componente 1 absorbe el 25.8% de la varianza, la Componente 2 añade 19%, de modo que entre ambas ya explican el 44.8% de la variabilidad total. La Componente 3 suma apenas un 10.9% más logrando así un 55.7% acumulado; sin embargo, es necesario tener en cuenta que cada dimensión adicional complica el análisis, y en este caso el salto de información no justifica la complejidad extra, lo cual será reforzado posteriormente.
Ahora bien, considerando el estudio de las dos primeras dimensiones, a continuación se presenta el gráfico de variables que permite otorgarle una denominación a cada dimensión de acuerdo al aporte de cada variable original.
fviz_pca_var(resultado.base,
col.var = "contrib", # Color by contributions to the PC
gradient.cols = c("#00AFBB", "#E7B800", "#FC4E07"),
repel = TRUE,
axes = c(1,2)# Avoid text overlapping
)
Factor 1: Al examinar este factor se evidencia la presencia de variables con color más rojizo y vectores más largos que representan las Emisiones De Gases De Efecto Invernadero (24.7%), la Contaminación Por Industrias (18.8%), el Porcentaje de Plásticos Mal Gestionados (21.1%) y los KM² de Superficie Urbana(13.3%). Estos cuatro indicadores, que se proyectan casi paralelos al eje horizontal (Dim1), acumulan un 77.9% de la contribución a la creación de esta dimensión, Dado al aporte de estas variables a la dimensión, es posible interpretar al factor como Superpotencias Industriales.
La razón radica en que estas variables se relacionan con tópicos que competen a contaminación industrial y países con alta superficie urbana. En cuanto a variables que podrían aportar a esta dimensión pero no fueron tenidas en cuenta, se tiene a las Muertes por Desastres Naturales (12.5%), esta no se tuvo en cuenta debido a que el objetivo de elegir variables era facilitar el darle un nombre e interpretación al factor y que además tuviesen la contribución más alta y que entre ellas tuviesen una contribución homogénea.
Factor 2: Se puede observar que aquellas variables que poseen una contribución más fuerte a la dimensión 2 son aquellas con color rojizo intenso y cercanía al eje vertical, en este caso, las Muertes por Agua Contaminada (17.8%) y el Saneamiento Seguro (19.3%). Estas dos variables son a su vez opuestas, pues representan dos extremos de un mismo gradiente de salud pública. Acumulan un 37.1% de la formación del factor.
También se evidencia que aparece la variable Contaminación del Aire (16,8 %). Incluirla podría denotar una estrecha relación frente al eje de la salud pública, debido a que las tres variables mencionadas se alinean midiendo desde ángulos distintos el mismo fenómeno: la capacidad de un país para proteger la salud de su población frente a agentes ambientales nocivos.
A partir de lo anteriormente mencionado, esta dimensión es interpretada como Riesgo Sanitario y Calidad Ambiental, ya que recoge desde países con infraestructuras de saneamiento robustas (bajas muertes por agua insalubre) hasta aquellos con altos riesgos en salud pública derivados de agua y aire contaminados.
Ahora bien, complementando el análisis del modelo y continuando con la justificación de excluir el estudio de la dimensión 3, se presenta el gráfico de variables con dicho factor presente.
fviz_pca_var(resultado.base,
col.var = "contrib", # Color by contributions to the PC
gradient.cols = c("#00AFBB", "#E7B800", "#FC4E07"),
repel = TRUE,
axes = c(1,3)# Avoid text overlapping
)
Inicialmente se presenta el gráfico de individuos, construido sobre la Dimensión 1: Superpotencias Industriales (25,8%) y la Dimensión 2: Riesgo Sanitario y Calidad Ambiental (19%).
fviz_pca_ind(resultado.base,
col.ind = "cos2", # Color by the quality of representation
gradient.cols = c("#00AFBB", "#E7B800", "#FC4E07"),
repel = TRUE
)
En este gráfico se revelan cuatro perfiles de países bien diferenciados.
En el cuadrante inferior izquierdo, China y Estados Unidos aparecen como las grandes potencias manufactureras con la huella industrial más intensa , pero también con sistemas de saneamiento y tratamiento de agua robustos que reducen el riesgo sanitario.
En el cuadrante superior izquierdo, India ocupa una posición de fuerte industrialización acompañada de brechas en infraestructuras hídricas y alta mortalidad por agua contaminada y polución del aire (Dim2 positiva).
Hacia el cuadrante superior derecho se agrupan numerosas naciones africanas tales como, Nigeria, Senegal, Benín y Somalia, caracterizadas por baja dependencia industrial pero déficit en saneamiento y elevada vulnerabilidad a enfermedades ambientales.
Finalmente, en el cuadrante inferior derecho emergen países de Europa Occidental, Canadá, Australia y Nueva Zelanda: economías con baja emisión de CO₂, excelentes coberturas de saneamiento y, por ende, bajo riesgo sanitario .Esta gráfica confirma la relevancia de ambos factores para segmentar a los países según sus perfiles medioambientales y de salud pública.
Seguidamente, el gráfico biplot permite ver cómo cada país se sitúa en relación con los distintos perfiles ambientales y sanitarios definidos por la dimensión 1 y la dimensión 2.
fviz_pca_biplot(resultado.base, repel = TRUE,
col.var = "#2E9FDF", # Variables colorhttp://127.0.0.1:42643/graphics/825d07f2-7982-46ca-b890-06099cf2a2d0.png
col.ind = "#696969",
axes=c(1,2)# Individuals color
)
En el extremo izquierdo, China aparece alineada con las flechas de Emisiones de Gases de Efecto Invernadero y Contaminación Industrial, confirmando su posición como megapotencia cuya principal carga ambiental es la industria pesada. Muy cerca, Estados Unidos se proyecta hacia abajo en Dim2, coincidiendo además con la flecha de Superficie Urbana, lo que subraya un modelo industrial consolidado pero con infraestructuras sanitarias robustas.
Hacia arriba y a la izquierda, India se ubica entre Contaminación Industrial y Muertes por Agua Contaminada, reflejando su rápido crecimiento relacionado a brechas en saneamiento y calidad del agua. Por su parte, en la región superior derecha se agrupan Nigeria, Senegal y otras naciones africanas, muy cercanas a la flecha de Muertes por Agua Contaminada y Contaminación del Aire, lo que denota un perfil de bajo desarrollo industrial pero con alta vulnerabilidad sanitaria.
En la zona inferior derecha, países como Alemania, Suecia y Nueva Zelanda se proyectan hacia la flecha de Saneamiento Seguro, reforzando su carácter de economías con baja huella industrial y excelentes sistemas de tratamiento de agua. Entre medio, en torno al origen, quedan países con perfiles mixtos o intermedios, donde ningún factor domina de forma extrema.
Después de identificar la tendencia de comportamiento de los países de acuerdo a las dos dimensiones seleccionadas y ciertas similitudes económicas, sociales y geográficas, se da paso al proceso de clusterización para identificar de una manera más exacta la conformación de individuos grupos.
Inicialmente se obtiene la gráfica del número óptimo de clusters por generar a partir del “método del codo”.
En este se observa que la cantidad óptima de clusters son 2. Siguiendo la recomendación del programa se obtienen los siguientes grupos.
Como se puede observar, el ejercicio de análisis se torna tedioso debido a que existe un desbalance entre la cantidad de países que alberga cada uno de los clusters, por lo cual no hay forma de hacer una distinción exacta del segundo de ellos tras contener una gran diversidad de individuos dentro de él. Por esto, se decide que la cantidad acertada de clusters a catalogar serán 3, como se evidencia a continuación.
De esta forma, es posible explicar con mayor exactitud el comportamiento de los países acorde a sus similitudes frente al tema de la contaminzación, siendo la siguiente:
En el primer cluster se agrupan países con niveles de desarrollo medio a alto, que se ubican mayoritariamente en la parte superior derecha del gráfico de clusters agrupados, contribuyendo de manera moderada a la dimensión 1 y a la dimensión 2. Esto indica que estos países presentan niveles intermedios de contaminación ambiental, sin ubicarse en los extremos más críticos. Aunque muchos de ellos tienen un grado elevado de industrialización y urbanización, también cuentan con mejores sistemas de saneamiento y políticas ambientales activas, cuentan con una mejor capacidad institucional que les permite avanzar hacia una gestión ambiental más sostenible. Geográficamente, este cluster está compuesto principalmente por países de América como Colombia, Brasil, Chile, Canadá, México; y por países de Europa como Alemania, Francia, España, Países Bajos, Suecia.
Este cluster representa un perfil de países que se encuentran en un punto de equilibrio entre el desarrollo económico y la gestión ambiental, donde los impactos ambientales generados por las actividades industriales están siendo abordados mediante estrategias de mitigación y adaptación que reflejan un mayor compromiso con el medio ambiente.
Este cluster está conformado principalmente por países de África y Asia, entre ellos Bangladesh, Nigeria, Ghana, Burkina Faso, Filipinas, Tanzania, Camboya, Togo, y otros como Arabia Saudita y Tailandia. Este grupo de países se ubica en la parte inferior derecha del gráfico de clusters agrupados, donde las variables dominantes están relacionadas con los altos niveles de contaminación del aire, saneamiento deficiente, alta densidad poblacional y mal manejo de residuos plásticos. La contribución de este cluster se asocia principalmente a la dimensión 1, lo que indica que en estos países se presenta un alto impacto ambiental vinculado a factores como la pobreza, el crecimiento urbano desordenado y la limitada capacidad institucional de ejercer políticas ambientales y de saneamiento seguro. La falta de una estructura ambiental adecuada se refleja en que la mayoría de estos países presentan altas tasas de muertes por agua contaminada, baja cobertura de servicios sanitarios y efectos del cambio climático. Este cluster agrupa países en desarrollo que presentan vulnerabilidades ambientales significativas y consecuencias humanas críticas.
En el tercer cluster encontramos a China, India y Estados Unidos, países que comparten un patrón común de una alta contaminación ambiental, esto debido a su gran actividad industrial, sus densas poblaciones y la emisión de diversos contaminantes. Estos países producen una alta emisión de gases de efecto invernadero debido a su dependencia a combustibles fósiles (India y China tienen una dependencia significativa al carbón, y Estados Unidos al petróleo y gas natural), también generan a gran escala residuos que contaminan el aire, el agua y el suelo a causa de actividades industriales y manufactureras. Asimismo, su gran densidad poblacional y superficie urbana ejerce presión sobre los recursos naturales y la calidad ambiental, debido a que al haber tanta población e urbanización se genera una alta demanda de energía, alimentos y materias primas, lo que afecta negativamente al medio ambiente, como lo pueden ser el uso de fertilizantes o la degradación de suelo orgánico.
Según el gráfico, China e India se encuentran más alejados del centro y cercanos a la dimensión 1, lo que significa que son caracterizados por esta dimensión nombrada anteriormente como “Superpotencias Industriales” , lo que confirma que sí son países con una alta contaminación debido a su industrialización. Asimismo, Estados Unidos también es caracterizado por esta dimensión, la diferencia es que se encuentra también cercano a la parte de abajo de la dimensión 2, lo que significa que a pesar de tener una gran contaminación ambiental también cuenta con mejores condiciones sanitarias que China e India que se encuentran más arriba.
Durante el desarrollo del informe fue posible observar el uso de las herramientas asociadas al Aprendizaje No Supervisado y las técnicas de Clusterización. Inicialmente se contó con 14 variables de 81 países recogiendo la información pertinente a la temática de estudio: la contaminación en agua, tierra y aire. Se observó, mediante datos estadísticos, el comportamiento inidividual y la correlación entre variables de aquellas que fueron seleccionadas inicialmente. Se redujo la dimensión de los datos y, tras un proceso de análisis, se explicaron las dimensiones 1 y 2 determinadas como Superpotencias Industriales y Riesgo Sanitario y Calidad Ambiental, obteniendo finalmente un 44.8% de varianza acumulada. Se determinaron 3 agrupaciones para categorizar el comportamiento de los 81 países estudiados y, finalmente, se logró concluir los puntos importantes dentro del estudio.
El desarrollo de este estudio permitió entender cómo se agrupan los países según su impacto ambiental y las condiciones de salud pública que estos tienen. Al reducir la complejidad de los datos a dos grandes dimensiones fue posible identificar patrones precisos que ayudan a explicar las diferencias entre estos, lo cual no solo permite ver qué países enfrentan mayores desafíos ambientales, sino también quiénes están mejor preparados para proteger a sus ciudadanos frente a estos riesgos. Fue posible encontrar una fuerte diferencia entre países, ya que su grado de industrialización, la responsabilidad estatal, su desarrollo económico, sus condiciones sociales y su localización juegan un papel importante para determinar el tipo de contaminación mayormente presente en el país, el nivel de impacto que se tiene a nivel ambiental y la forma en que se ven afectados sus ciudadanos.
Amat, J. (n.d.). Clustering y heatmaps: aprendizaje no supervisado. cienciadedatos.net. https://cienciadedatos.net/documentos/37_clustering_y_heatmaps#Introducci%C3%B3n
Leyton, D., Vivas, F., & Rojas, L. (2022, marzo). Análisis de componentes principales (ACP). RPubs. https://rpubs.com/laurarojasmar/ACP
Tejada, D. (2023, mayo 28). Chapter 4 “K-means clustering”. RPubs. https://rpubs.com/Dariel1102/1046632
Unsupervised learning ‘credit card clients’. (2022, July 17). Orlando Joaqui Barandica. https://www.joaquibarandica.com/post/ansupervised/