L’activitat consisteix a analitzar les dades dels llocs declarats Patrimoni de la Humanitat de la UNESCO (1.248 en total). L’objectiu és explorar aquestes dades utilitzant R, generant gràfics i mapes per visualitzar la informació de manera clara.
Les dades es classifiquen en tres categories principals: cultural, natural i mixt. El conjunt de dades és ric i complex, ja que conté 49 variables (columnes) que permeten estudiar diferents característiques dels llocs patrimonials.
En els seguents punts analitzarem les diferents variables a traves de grafics.
comencem carregant el conjunt de dades
library(readxl)
library(tidyverse)
dadesUnesco<- read_excel("unesco.xls")
Per començar amb l’exploració de les dades, s’ha elaborat una distribucio del tipus de categoria del patrimoni.
ggplot(dadesUnesco, aes(x = category, fill = category)) +
geom_bar() +
labs(title = "Cantidad de Sitios por Categoría", x = "Categoría", y = "Total") +
theme_minimal()
Com es pot observar en el grafic hi ha tres tipus de llocs patrimonials: naturals, culturals i mixed. SEmbla ser que el que guanya sense rival es el del tipus cultural. A prop dels 1.000 llocs. En canvi, el natural es troba entre els 200-250.
En el seguent grafic es tractare de representar la distribucio. Es a dir, es veurea la quantitat de llocs que van ser inscrits com a patrimoni cultural en un periode desde l’inici fins l’actualitat.
S’ha de començar resumint les dades i a continuacio es crea el grafic.
evolucio_anys <- dadesUnesco %>%
count(date_inscribed)
ggplot(evolucio_anys, aes(x = date_inscribed, y = n)) +
geom_line(color = "blue") +
labs(title = "Evolució Temporal de les Inscripcions",
x = "Any",
y = "Llocs inscrits") +
theme_classic()
Finalment, en el tercer grafic es representa els principals paisos amb mes llocs patrimonials.
Per començar, crearem l’objecte “principals_paisos” i a continuació crearem el gràfic.
principals_paisos <- dadesUnesco %>%
count(states_name_es, sort = TRUE) %>%
head(10)
ggplot(principals_paisos, aes(x = reorder(states_name_es, n), y = n)) +
geom_col(fill = "red") +
coord_flip() +
labs(title = " 10 Països amb Més Patrimonis", x = "País", y = "Quantitat") +
theme_classic()
El gràfic de barres mostra els deu primers paisos amb mes recursos patrimonials. Sembla que China te el primer lloc, italia el segon, Francia el tercer i Irán l’ultim.
Crearem un mapa per mostrar els llocs declarats patrimoni de la humanitat en els diferents paisos. Utilitzarem la funcio ggplot per fer un gràfic
Mapa 1 Distribució dels monuments arreu del mon
mapa_mon <- map_data("world")
ggplot() +
geom_polygon(data = mapa_mon, aes(x = long, y = lat, group = group), fill = "gray", color = "white") +
geom_point(data = dadesUnesco, aes(x = longitude, y = latitude, color = category), alpha = 0.5) +
labs(title = "Mapa Global de Llocs UNESCO",
x = "Longitud",
y = "Latitud",
color = "Categoria") +
theme_classic()
## Warning: Removed 1 row containing missing values or values outside the scale range
## (`geom_point()`).
El mapa mostrea els llocs declarats patrimoni estan distribuits per tot el mon. No obstant, en el gràfic s’observa que predominen en Europa i Asia.
Mapa 2 Concentració de llocs per pais
En aquest punt generarem un mapa, en el que que cada pais sera d’un color depenent de la quantitat d’elements patrimonials.
ggplot() +
geom_polygon(data = mapa_mon, aes(x = long, y = lat, group = group), fill = "gray", color = "white") +
geom_bin2d(data = dadesUnesco, aes(x = longitude, y = latitude), bins = 60) +
scale_fill_gradient(low = "#dceefb", high = "#0747a6") +
labs(title = "Punts de Major Concentració de Llocs UNESCO",
x = "Longitud",
y = "Latitud",
fill = "Densitat") +
theme_classic()
## Warning: Removed 1 row containing non-finite outside the scale range
## (`stat_bin2d()`).
El mapa identifica clarament les regions i paisos amb major densitat. A mesura que el color es torna mes fort, augmenta la quantitat de patrimoni.
Per fer l’analisis textual seleccionarem unicament la columna short_description_en, ja que conte les respostex en text que necessitem. A continuacio, eliminarem les etiquetes html de la cela mitjançant la funcio str_remove_all().
El seguent pas que farem el proces de toenitzacio, que consisteix a dividir cada descripció en paraules individuals. Aquest pas es realitza amb la funció unnest_tokens().
A mes, es van eliminar les stop words (paraules buides), és a dir, paraules molt freqüents de l’anglès com ara the, and, of o in, que no aporten informació significativa sobre el contingut.
Finalment, es va calcular la freqüència d’aparició de cada paraula amb la funció count(), obtenint una llista ordenada de les paraules més utilitzades en les descripcions.
textos <- dadesUnesco |>
select(short_description_en) |>
mutate(short_description_en =
str_remove_all(short_description_en, "<.*?>"))
freq <- textos |>
unnest_tokens(word, short_description_en) |>
anti_join(stop_words) |>
count(word, sort = TRUE)
## Joining with `by = join_by(word)`
freq |>
slice_max(n, n = 20) |>
ggplot(aes(reorder(word, n), n)) +
geom_col() +
coord_flip()
freq |>
with(wordcloud(word,
n,
max.words = 100))
Finalment, s’ha generat un núvol de paraules utilitzant les 100 paraules més freqüents. En aquesta representació visual, la mida de cada paraula és proporcional al nombre de vegades que apareix en les descripcions.
Les paraules més grans corresponen als termes més repetits i permeten identificar visualment els temes predominants dins del conjunt de llocs declarats Patrimoni de la Humanitat. Aquesta tècnica ofereix una visió general ràpida dels conceptes més significatius.