Χωρικός και σημασιολογικός εμπλουτισμός, αναζήτηση και οπτικοποίηση αδόμητου κειμένου
Ευάγγελος Παπαδιάς, Μαργαρίτα Κόκλα, Ελένη Τομαή, Οκτώβριος 2018
Σκοπός
- Εξαγωγή ονομασιών τοποθεσίας (NER) και προσδιορισμός των θέσεών τους στο χώρο (Geocoding).
- Οργάνωση της χωρικής ιεραρχίας που συνδέει διαφορετικές τοποθεσίες μέσα από ευρύτερες που τις περιέχουν.
- Σημασιολογικός εμπλουτισμός.
- Eντοπισμός της αναφοράς εννοιών του δικτύου GEOTHNK και υπολογισμός της συχνότητας εμφάνισης τους.
- Οργάνωση της ιεραρχίας κάθε έννοιας του δικτύου.
- Εξαγωγή νοηματικού περιεχομένου. Noun phrases που περιέχουν έννοιες του δικτύου.
- Να δοκιμαστούν οι δυνατότητες της R και του RStudio στην ανάλυση κειμένου και την παρουσίαση.
The R logo is © 2016 The R Foundation.
Δεδομένα
- 159 μοναδικά εκπαιδευτικά σενάρια σε portable document format (.pdf). Παράδειγμα
- Δεδομένα που συνοδεύουν και χαρακτηρίζουν κάθε σενάριο, όπως τίτλος, γλώσσα γραφής, λέξεις κλειδιά, επιστημονικά πεδία, τοποθεσίες έννοιες του χώρου στις οποίες αυτό αναφέρεται, σύνδεσμος του τεκμηρίου στο αποθετήριο.
- 11 άρθρα από το διεθνή διαδικτυακό τύπο (πολιτική, λογοτεχνία, περιήγηση).
- Δίκτυο εννοιών που αφορούν το χώρο (Kavouras et al., 2016). 327 χωρικές έννοιες (ορισμοί Wordnet), 3 επίπεδα ιεραρχίας, 15 συστάδες, 802 ταξονομικές σχέσεις.
Workflow χωρικού εμπλουτισμού
- Βήματα εργασίας
- Εφαρμογή 3 λογισμικών NER σε δοκιμαστικά κείμενα για τη διερεύνηση της ποιότητας προσδιορισμού τοποθεσιών και της ταχύτητας επεξεργασίας.
- Εφαρμογή του καταλληλότερου στα δεδομένα που συλλέχθηκαν.
- Εφαρμογή αυτόματης διαδικασίας γεωκωδικοποίησης με τρεις διαδικτυακές υπηρεσίες στις τοποθεσίες που καθόρισαν οι συγγραφείς (64) για διερεύνηση της ποιότητας προσδιορισμού.
- Εφαρμογή του καταλληλότερου στις ονομασίες που “αλιεύθηκαν”.
- Έλεγχος ποιότητας αποτελέσματος γεωκωδικοποίησης και διόρθωση σφαλμάτων.
- Προσδιορισμός διοικητικής ιεραρχίας τοποθεσιών.
Named entity Recognition (Δοκιμή)
Δοκιμάστηκαν τρείς αλγόριθμοι προσδιορισμού ονομασίας τοποθεσίας
- coreNLP, Stanford University
- spaCy, python library
- openNLP, Apache Foundation
ως προς την ποιότητα σε δυο περιλήψεις διατριβών, Κείμενο 1, Κείμενο 2
ως προς την ταχύτητα σε έγγραφο 467 σελίδων στην Αγγλική γλώσσα σε μηχάνημα με επεξεργαστή Intel Core2 Duo CPU E8400 3.00GHz και μνήμη RAM 5.7GiB. (testing app)
Γεωκωδικοποίηση (Δοκιμή)
Δοκιμάστηκαν τρείς διαδικτυακές υπηρεσίες (API), (testing app)
- Google Maps
- OpenStreetMap.org, (nominatim)
- Geonames
στις 64 μοναδικές ονομασίες τοποθεσίας που καθόρισαν οι συγγραφείς των σεναρίων
Τα υψηλά ποσοστά οφείλονται στη δομημένη μορφή των τοποθεσιών κατά την υποβολή.
Χωρικός εμπλουτισμός
Συγγραφείς -> 64 μοναδικές τοποθεσίες σε 25 σενάρια.
NER -> 146 μοναδικές τοποθεσίες σε 76 σενάρια.
Ιεραρχία πόλης Shumen: Earth -> Europe -> Republic of Bulgaria -> Oblast Shumen -> Obshtina Shumen -> Shumen. Ιεραρχία Μουσείου του Λούβρου στο Παρίσι: Earth -> Europe -> Republic of France -> Île-de-France -> Paris -> Musée du Louvre.
Αναζητώντας σενάρια που αναφέρονται στην Ευρώπη, στα αποτελέσματα θα περιέχονται και τα 2 παραπάνω σενάρια.
Workflow σημασιολογικού εμπλουτισμού
- Βήματα εργασίας
- Αφαίρεση πληροφορίας που περιλαμβάνεται στα συνοδευτικά δεδομένα (τίτλος, χωρικές έννοιες, τοποθεσίες, επιστημονικά πεδία κλπ), επικεφαλίδες ενοτήτων (οι λεζάντες των εικόνων διατηρήθηκαν).
- Λημματοποίηση, ανάλυση μερών του λόγου (part of speech tagging).
- Εντοπισμός των χωρικών εννοιών και υπολογισμός συχνότητας εμφάνισης.
- Εξαγωγή προτάσεων.
- Εξαγωγή noun phrases που περιέχουν έννοιες του δικτύου.
- Εξαγωγή ιεραρχίας των εννοιών από το γράφο.
Noun phrases
Ως φράσεις κλειδιά καθορίστηκαν εκείνες οι φράσεις που αποτελούνται από συνδυασμούς επιθέτων, ουσιαστικών (κοινά και συγκεκριμένα), προθέσεων καθώς και άρθρων ορισμού (Handler et.al., 2016), περιέχουν μια έννοια του δικτύου με συχνότητα εμφάνισης τουλάχιστον 2.
Σενάριο με τίτλο : “Perceptual image of an urban environment.”
Ιεραρχία κόμβων
οι κόμβοι των clusters αφαιρέθηκαν.