En aquest informe treballem amb el conjunt de dades dels llocs declarats Patrimoni Mundial per la UNESCO. Aquests llocs poden ser monuments, ciutats, paisatges naturals, jaciments arqueològics o altres espais amb un valor patrimonial destacat.

GRÀFICS

library(readxl)

datos_unesco <- read_excel("unesco.xls")

Per començar, hem representat la distribució temporal dels llocs declarats Patrimoni Mundial a partir de l’any d’inscripció. Podem veure en quins períodes la UNESCO va incorporar més llocs a la seva llista i si les declaracions s’han mantingut estables o han tingut moments de més intensitat.

hist(datos_unesco$date_inscribed, 
     main = "Distribució temporal del Patrimoni Mundial",
     xlab = "Any d'inscripció",
     ylab = "Freqüència (Nombre de llocs)",
     col = "lightblue")

Per analitzar les dades amb més detall, en aquest segon histograma (que sería el mateix gràfic) es mostren les inscripcions any per any, en lloc d’agrupar-les en blocs de cinc com a l’anterior. Tots dos gràfics serveixen per contrastar la tendència general amb les dades exactes, i es poden identificar pics concrets que en la visió agrupada anterior quedarien més camuflats.

library(tidyverse)
ggplot(datos_unesco, aes(x = date_inscribed)) + 
  geom_histogram(binwidth = 1, fill = "steelblue", color = "white") +
  ggtitle("Distribució temporal del patrimoni mundial") +
  xlab("Any d'inscripció") +
  ylab("Freqüència")

Després d’observar l’evolució temporal, hem volgut mirar quin tipus de patrimoni predomina dins el conjunt de dades. Per això hem representat els llocs segons la seva categoria: Cultural, Natural o Mixed.

Veiem que la categoria Cultural és la més nombrosa. Això ens indica que la major part dels llocs reconeguts per la UNESCO corresponen a monuments, centres històrics, jaciments, edificis o altres espais vinculats amb la cultura. El patrimoni Natural té menys presència, però continua sent important, mentre que els llocs Mixed són els menys freqüents perquè combinen valors culturals i naturals.

ggplot(datos_unesco, aes(x = category)) +
  geom_bar(fill = "lightgreen") +
  coord_flip() +
  ggtitle("Distribució dels llocs segons la categoria patrimonial") +
  xlab("Categoria") +
  ylab("Nombre de llocs")

Per completar aquest apartat, s’ha relacionat la categoria patrimonial amb la regió. D’aquesta manera podem veure com es reparteix territorialment el patrimoni.

El mapa de calor ens permet comparar les regions i detectar on hi ha més presència de patrimoni Cultural, Natural o Mixed. Les zones amb un color més intens indiquen un nombre més alt de llocs. Així podem veure que la distribució del Patrimoni Mundial no és igual a totes les regions i que alguns tipus de patrimoni tenen més pes en determinades parts del món.

df_categoria_regio <- datos_unesco %>%
  count(region_en, category)

ggplot(df_categoria_regio, aes(x = category, y = region_en, fill = n)) +
  geom_tile() +
  scale_fill_gradient(low = "white", high = "steelblue") +
  ggtitle("Distribució de les categories patrimonials per regió") +
  xlab("Categoria") +
  ylab("Regió")

MAPES

En aquest primer mapa s’ha volgut representar la localització dels llocs declarats Patrimoni Mundial per la UNESCO. Cada punt correspon a un lloc del dataset i s’ha situat a partir de les seves coordenades geogràfiques. Podem observar que en aquest cas la distribució no és pas homogènia.

Europa concentra molts punts, mentre que en altres zones del món els llocs apareixen més separats. Podem dir, doncs, que el reconeixement del Patrimoni Mundial té una presència territorial desigual i que algunes regions acumulen molts més llocs inscrits que d’altres.

library(tidyverse)
library(maps)


ggplot() + 
  borders("world", fill = "white") +
  geom_point(data = datos_unesco, 
             aes(x = longitude, y = latitude),
             color = "red",
             size = 1,
             alpha = 0.5) +
  ggtitle("Distribució mundial dels llocs Patrimoni Mundial") +
  xlab("Longitud") +
  ylab("Latitud")

A continuació, hem utilitzat les mateixes coordenades, però ara diferenciant els llocs segons la seva categoria patrimonial. D’aquesta manera podem veure si els béns culturals, naturals i mixtos tenen una distribució semblant o si apareixen més concentrats en determinades zones. Podem comparar visualment la presència del patrimoni cultural, natural i mixt a escala mundial.

ggplot() + 
  borders("world", fill = "white") +
  geom_point(data = datos_unesco, 
             aes(x = longitude, y = latitude, color = category),
             size = 1,
             alpha = 0.6) +
  ggtitle("Distribució dels llocs segons la categoria patrimonial") +
  xlab("Longitud") +
  ylab("Latitud")

ANÀLISI DE TEXT

En aquest apartat hem treballat amb el camp short_description_en, que conté una breu descripció en anglès de cada lloc declarat Patrimoni Mundial. L’objectiu és veure quines paraules apareixen amb més freqüència i detectar alguns termes recurrents en la manera com la UNESCO descriu aquests espais.

Per fer aquesta representació, s’han separat les descripcions en paraules individuals, eliminat les paraules buides en anglès i després s’ha comptat la freqüència de cada terme per tal de passar a una lectura més clara dels conceptes que més es repeteixen.

library(tidyverse)
library(tidytext)
library(wordcloud2)
library(readxl)

datos_unesco <- read_excel("unesco.xls")
descriptions <- tibble(num_lloc = seq_along(datos_unesco$short_description_en),
                       text = datos_unesco$short_description_en)
paraules <- descriptions %>%
  unnest_tokens(word, text)
paraules2 <- paraules %>%
  anti_join(stop_words)
paraules2 <- paraules2 %>%
  filter(word != "p",
         word != "em",
         word != "th")
freq.paraules <- paraules2 %>%
  count(word, sort = TRUE)

freq.paraules
## # A tibble: 11,715 × 2
##    word             n
##    <chr>        <int>
##  1 century        750
##  2 site           520
##  3 city           346
##  4 built          334
##  5 property       287
##  6 landscape      279
##  7 centuries      262
##  8 species        262
##  9 buildings      258
## 10 architecture   244
## # ℹ 11,705 more rows

A partir del recompte de paraules, s’han representat les més freqüents en un gràfic de barres per visualitzar ordenadament quins termes tenen més presència dins les descripcions dels llocs UNESCO.

Els resultats mostren que apareixen paraules com “century”, “site”, “city”, “built”, “property” o “landscape”. Això ens indica que les descripcions fan molta referència a aspectes, ja siguin històrics, arquitectònics o territorials. Per tant, a partir d’aquest gràfic podem identificar ràpidament alguns dels temes principals que es repeteixen en el conjunt de dades.

frequents <- freq.paraules %>%
  top_n(10, n)

ggplot(frequents, aes(x = word, y = n)) +
  geom_col() +
  coord_flip() +
  labs(title = "Paraules més freqüents a les descripcions",
       x = "Paraula",
       y = "Freqüència") +
  theme_minimal()

Després del gràfic de barres, s’ha creat un núvol de paraules amb els termes més repetits, que ens permet veure d’un cop d’ull quines paraules tenen més pes dins les descripcions.

Les paraules que apareixen amb una mida més gran són les més freqüents. Per això, el núvol complementa el gràfic anterior perquè ens proporciona una imatge general del vocabulari més habitual utilitzat per descriure el Patrimoni Mundial.

wordcloud2(freq.paraules)