Χωρικός και σημασιολογικός εμπλουτισμός, αναζήτηση και οπτικοποίηση αδόμητου κειμένου
Ευάγγελος Παπαδιάς, Μάρτης 2018
Σκοπός
- Εξαγωγή ονομασιών τοποθεσίας (NER) και προσδιορισμός των θέσεών τους στο χώρο (Geocoding).
- Οργάνωση της χωρικής ιεραρχίας που συνδέει διαφορετικές τοποθεσίες μέσα από ευρύτερες που τις περιέχουν.
- Σημασιολογικός εμπλουτισμός.
- Eντοπισμός της αναφοράς εννοιών του δικτύου GEOTHNK και υπολογισμός της συχνότητας εμφάνισης τους.
- Οργάνωση της ιεραρχίας κάθε έννοιας του δικτύου.
- Εξαγωγή νοηματικού περιεχομένου. Noun phrases που περιέχουν έννοιες του δικτύου.
- Να δοκιμαστεί η δύναμη της R και του RStudio στην ανάλυση κειμένου και την παρουσίαση.
The R logo is © 2016 The R Foundation.
Δεδομένα
- 159 μοναδικά εκπαιδευτικά σενάρια σε portable document format (.pdf). Παράδειγμα
- Δεδομένα που συνοδεύουν και χαρακτηρίζουν κάθε σενάριο, όπως τίτλος, γλώσσα γραφής, λέξεις κλειδιά, επιστημονικά πεδία, τοποθεσίες έννοιες του χώρου στις οποίες αυτό αναφέρεται, σύνδεσμος του τεκμηρίου στο αποθετήριο.
- Δίκτυο εννοιών που αφορούν το χώρο (Kavouras et al., 2017). 327 χωρικές έννοιες (ορισμοί Wordnet), 3 επίπεδα ιεραρχίας, 15 συστάδες, 802 ταξονομικές σχέσεις.
Workflow χωρικού εμπλουτισμού
- Βήματα εργασίας
- Εφαρμογή 3 λογισμικών NER σε δοκιμαστικά κείμενα για τη διερεύνηση της ποιότητας προσδιορισμού τοποθεσιών και της ταχύτητας επεξεργασίας.
- Εφαρμογή του καταλληλότερου στα δεδομένα που συλλέχθηκαν
- Εφαρμογή αυτόματης διαδικασίας γεωκωδικοποίησης με τρεις διαδικτυακές υπηρεσίες στις τοποθεσίες που καθόρισαν οι συγγραφείς (64) για διερεύνηση της ποιότητας προσδιορισμού.
- Εφαρμογή του καταλληλότερου στις ονομασίες που “αλιεύθηκαν”
- Έλεγχος ποιότητας αποτελέσματος γεωκωδικοποίησης και διόρθωση σφαλμάτων
- Προσδιορισμός διοικητικής ιεραρχίας τοποθεσιών
Named entity Recognition (Δοκιμή)
Δοκιμάστηκαν τρείς αλγόριθμοι προσδιορισμού ονομασίας τοποθεσίας
- coreNLP, Stanford University
- spaCy, python library
- openNLP, Apache Foundation
ως προς την ποιότητα σε δυο περιλήψεις διατριβών, Κείμενο 1, Κείμενο 2
ως προς την ταχύτητα σε έγγραφο 467 σελίδων στην Αγγλική γλώσσα σε μηχάνημα με επεξεργαστή Intel Core2 Duo CPU E8400 3.00GHz και μνήμη RAM 5.7GiB. (testing app)
Εξαγωγή τοπονυμίων
- 202 μοναδικές ονομασίες σε 80 από τα 159 σενάρια που συλλέχθηκαν.
- 30 λανθασμένες οντότητες ως τοποθεσία
## [1] " Description " " Google Earth " " Longitude "
## [4] " Power Point " " Greek " " This "
## [7] " N " " WGS " " Forest Lesson "
## [10] " Step2 " " PLANTELE " " Toate "
## [13] "Homer’s Odyssey " "Tasiouli Georgia" " Marin Sorescu "
- 12 οντότητες χωρίς πρακτική σημασία, όπως πλανήτες, ιστορικές τοποθεσίες άλλης εποχής και ασαφείς ονομασίες τοποθεσίας
## [1] " Jupiter " " Mars " " Pluto "
## [4] " Cassiopeia " " Neptune " " Judea "
## [7] " Iudeea " " Babylon " " Pangaea "
## [10] " Great Sea " "The City Center" " Wonderland "
- Τελικά από τις 202 μοναδικές τοποθεσίες που εντοπίστηκαν, οι 160 επιλέχθηκε να προωθηθούν στο επόμενο στάδιο
Γεωκωδικοποίηση (Δοκιμή)
Δοκιμάστηκαν τρείς διαδικτυακές υπηρεσίες (API), (testing app)
- Google Maps
- OpenStreetMap.org, (nominatim)
- Geonames
στις 64 μοναδικές ονομασίες τοποθεσίας που καθόρισαν οι συγγραφείς των σεναρίων
Τα υψηλά ποσοστά οφείλονται στη δομημένη μορφή των τοποθεσιών κατά την υποβολή.
Τελική γεωκωδικοποίηση
Οι 160 ονομασίες προωθήθηκαν στο web service του Geonames
- 131 ταυτίστηκαν επιτυχώς με τον πρώτο υποψήφιο της λίστας που επιστράφηκε (81.88%)
- 7 από αυτά ταυτίστηκαν σωστά με το δεύτερο υποψήφιο της λίστας
## [1] " Spain " "Salisbury" " Ithaca " " France " " Andros " " Ireland "
## [7] "Salamina "
- 8 ταυτίστηκαν χειροκίνητα
## [1] "Central Athens" " UK " " Monastiraki " " Parthenon "
## [5] " US " " Greenland " " Thera " " Greenwich "
- δεν βρέθηκε ταύτιση για 14
## [1] "Balkan Peninsula Natural Zones" " Burgas Lake "
## [3] " Gheorgheni Lake " " Atanasovsko Lake "
## [5] " Thission " " Aegean Archipelago "
## [7] " Aegean Greece " " Apahida village "
## [9] " Parthenon Gallery " " Cyclades island "
## [11] " Nineveh Citadel " " Ninive Citadel "
## [13] " Dionysou Aeropagitou " " Athenian Acropolis "
- 146 προσδιορίστηκαν σωστά
Το ποσοστό επιτυχίας που φτάνει το 80% και επιτυγχάνει η αυτόματη διαδικασία χωρίς καμία απολύτως διαδικασία αποσαφήνισης, καθιστούν το web service του καταλόγου Geonames ένα πολύτιμο εργαλείο σε προγραμματιστικές διαδικασίες όπως στην παρούσα
Εξαγωγή ιεραρχίας
- Διοικητική ιεραρχία τοποθεσιών σύμφωνα με το Geonames
Πρόβλημα το Earth -> Western Europe.
Χωρικός εμπλουτισμός
Συγγραφείς -> 64 μοναδικές τοποθεσίες σε 25 σενάρια.
NER -> 146 μοναδικές τοποθεσίες σε 80 σενάρια.
Ιεραρχία πόλης Shumen: Earth -> Europe -> Republic of Bulgaria -> Oblast Shumen -> Obshtina Shumen -> Shumen. Ιεραρχία Μουσείου του Λούβρου στο Παρίσι: Earth -> Europe -> Republic of France -> Île-de-France -> Paris -> Musée du Louvre.
Αναζητώντας σενάρια που αναφέρονται στην Ευρώπη, στα αποτελέσματα θα περιέχονται και τα 2 παραπάνω σενάρια.
Workflow σημασιολογικού εμπλουτισμού
- Βήματα εργασίας
- Αφαίρεση πληροφορίας που περιλαμβάνεται στα συνοδευτικά δεδομένα (τίτλος, χωρικές έννοιες, τοποθεσίες, επιστημονικά πεδία κλπ), επικεφαλίδες ενοτήτων (οι λεζάντες των εικόνων διατηρήθηκαν).
- Λημματοποίηση, ανάλυση μερών του λόγου (part of speech tagging).
- Εντοπισμός των χωρικών εννοιών και υπολογισμός συχνότητας εμφάνισης.
- Εξαγωγή προτάσεων.
- Εξαγωγή noun phrases που περιέχουν έννοιες του δικτύου.
- Εξαγωγή ιεραρχίας των εννοιών από το γράφο.
Παράδειγμα annotation
Κείμενο προς επεξεργασία : “The teacher prepares a role play game in the classroom before visiting the complex. The learners are divided into 2 groups – visitors and hosts.”
Χωρικές έννοιες
- Προβλήματα που αντιμετωπίστηκαν :
- έννοιες που περιέχονται σε άλλες έννοιες (“map” και “map projection”).
- έννοιες με το ίδιο λεκτικό αλλά άλλη περιγραφή.
η διαδικασία πρόσθεσε κατά μέσο όρο τρεις χωρικές έννοιες ανά σενάριο που οι συγγραφείς δεν είχαν αναφέρει.
Noun phrases
Ως φράσεις κλειδιά καθορίστηκαν εκείνες οι φράσεις που αποτελούνται από συνδυασμούς επιθέτων, ουσιαστικών (κοινά και συγκεκριμένα), προθέσεων καθώς και άρθρων ορισμού (Handler et.al., 2016), περιέχουν μια έννοια του δικτύου με συχνότητα εμφάνισης τουλάχιστον 2.
Σενάριο με τίτλο : “Perceptual image of an urban environment.”
Ιεραρχία κόμβων
οι κόμβοι των clusters αφαιρέθηκαν.