En aquest informe treballem amb el conjunt de dades dels llocs declarats Patrimoni Mundial per la UNESCO. Aquest dataset inclou informació sobre la localització, categoria patrimonial, regió, any d’inscripció i descripció dels diferents espais reconeguts arreu del món.
L’objectiu principal és explorar les dades mitjançant tècniques de visualització i anàlisi de text utilitzant R i diferents llibreries de representació gràfica.
library(readxl)
library(tidyverse)
dades_unesco <- read_excel("whc-sites-2025.xls")
Per iniciar l’exploració de les dades, s’ha elaborat una representació de la distribució temporal dels llocs Patrimoni Mundial segons l’any en què van ser inscrits a la llista de la UNESCO.
hist(dades_unesco$date_inscribed,
main = "Distribució temporal del Patrimoni Mundial",
xlab = "Any d'inscripció",
ylab = "Freqüència (Nombre de llocs)",
col = "pink")
Després d’observar la distribució temporal, analitzem la presència de cada tipus de patrimoni dins el conjunt de dades. Aquesta classificació permet comparar el pes del patrimoni cultural, natural i mixt.
ggplot(dades_unesco, aes(x = category)) +
geom_bar(fill = "purple") +
coord_flip() +
ggtitle("Nombre de llocs segons la categoria patrimonial") +
xlab("Categoria") +
ylab("Nombre de llocs")
El gràfic mostra que la categoria cultural és clarament la més representada dins el conjunt de dades. Els llocs naturals tenen una presència menor, mentre que els llocs mixtos són molt menys freqüents.
Per continuar l’anàlisi, representem la distribució dels llocs Patrimoni Mundial segons la regió geogràfica. Això permet identificar quines zones del món concentren un nombre més elevat de llocs reconeguts per la UNESCO.
dades_regions <- dades_unesco %>%
filter(!str_detect(region_en, ","))
ggplot(dades_regions, aes(x = region_en)) +
geom_bar(fill = "blue") +
coord_flip() +
ggtitle("Nombre de llocs per regió") +
xlab("Regió") +
ylab("Nombre de llocs")
El gràfic mostra que Europa i Amèrica del Nord és la regió amb més llocs inscrits, seguida d’Àsia i el Pacífic. La resta de regions tenen una presència menor dins el conjunt de dades analitzat.
Per complementar l’anàlisi estadística, representem la distribució geogràfica dels llocs Patrimoni Mundial utilitzant les coordenades del conjunt de dades. Aquest mapa permet observar la concentració espacial dels llocs reconeguts per la UNESCO arreu del món.
library(maps)
ggplot(dades_unesco) +
borders("world", fill = "gray90", color = "white") +
geom_point(aes(x = longitude, y = latitude),
color = "darkred",
alpha = 0.6,
size = 1.5) +
ggtitle("Distribució mundial dels llocs Patrimoni UNESCO") +
xlab("Longitud") +
ylab("Latitud")
El mapa mostra una elevada concentració de llocs Patrimoni Mundial a Europa, especialment a la zona mediterrània. També s’observa una presència important de llocs a Àsia i Amèrica, mentre que algunes zones d’Àfrica presenten una menor densitat de llocs reconeguts.
A continuació, es representa la distribució geogràfica diferenciant els llocs segons la seva categoria patrimonial. Aquesta visualització permet comparar la presència del patrimoni cultural i natural a escala mundial.
ggplot(dades_unesco) +
borders("world", fill = "gray90", color = "white") +
geom_point(aes(x = longitude,
y = latitude,
color = category),
alpha = 0.7,
size = 2) +
ggtitle("Distribució dels llocs UNESCO segons categoria patrimonial") +
xlab("Longitud") +
ylab("Latitud")
La representació evidencia que el patrimoni cultural és predominant en moltes regions del món, especialment a Europa i Àsia. Els llocs naturals apareixen més dispersos i sovint associats a espais protegits o grans àrees naturals.
En aquest apartat es realitza una anàlisi textual del camp short_description del conjunt de dades de la UNESCO. L’objectiu és identificar les paraules més freqüents utilitzades en les descripcions dels llocs Patrimoni Mundial i detectar conceptes recurrents relacionats amb el patrimoni cultural i natural.
Per fer-ho, s’utilitzen eines del paquet tidytext, que
permeten separar els textos en paraules individuals (tokens),
eliminar paraules buides (stopwords) i calcular la freqüència
dels termes més utilitzats.
library(tidyverse)
library(tidytext)
textos <- dades_unesco %>%
select(short_description_en) %>%
drop_na()
Per poder fer el recompte, primer s’ha seleccionat el camp de descripció i s’han separat els textos en paraules individuals. Aquest procés permet transformar les descripcions en una llista de termes que després es poden comptabilitzar.
paraules <- textos %>%
unnest_tokens(word, short_description_en)
paraules <- paraules %>%
filter(!str_detect(word, "^<")) %>%
filter(str_detect(word, "[a-z]")) %>%
filter(!word %in% c("em", "p"))
Com que en el text apareixen moltes paraules buides, com articles, preposicions o connectors, s’han eliminat amb la llista de stopwords en anglès. D’aquesta manera, l’anàlisi se centra en paraules amb més significat.
paraules_net <- paraules %>%
anti_join(stop_words, by = "word")
freq_paraules <- paraules_net %>%
count(word, sort = TRUE)
Un cop netejades les paraules, s’ha fet el recompte de freqüències i s’han seleccionat els deu termes més repetits. Aquests resultats s’han representat en un gràfic de barres per veure de manera clara quines paraules tenen més presència en les descripcions.
top_paraules <- freq_paraules %>%
slice_max(n, n = 10)
ggplot(top_paraules,
aes(x = reorder(word, n), y = n)) +
geom_col(fill = "darkred") +
coord_flip() +
labs(title = "Paraules més freqüents a les descripcions UNESCO",
x = "Paraula",
y = "Freqüència") +
theme_minimal()
El gràfic mostra que les paraules més freqüents estan relacionades amb elements històrics, culturals i territorials, com ara century, site, city, built, property o landscape. Això indica que les descripcions de la UNESCO fan molta referència a l’antiguitat dels llocs, al seu valor arquitectònic i al seu context territorial.
Finalment, s’ha elaborat un núvol de paraules per representar visualment els termes més recurrents. En aquest tipus de gràfic, les paraules que apareixen amb una mida més gran són les que tenen una freqüència més elevada dins el conjunt de descripcions.
library(wordcloud2)
wordcloud2(freq_paraules,
size = 0.8,
color = "random-light",
backgroundColor = "white")
El núvol de paraules confirma la presència destacada de termes vinculats al patrimoni històric i cultural. Paraules com century, site, city, landscape o buildings tenen molt pes, fet que reforça la idea que les descripcions destaquen sobretot el valor històric, arquitectònic i paisatgístic dels llocs UNESCO.