Χωρικός και σημασιολογικός εμπλουτισμός αδόμητου κειμένου


Ευάγγελος Παπαδιάς

Σκοπός

  1. Εξαγωγή ονομασιών τοποθεσίας (NER) και προσδιορισμός των θέσεών τους στο χώρο (Geocoding).
  2. Οργάνωση της χωρικής ιεραρχίας που συνδέει διαφορετικές τοποθεσίες μέσα από ευρύτερες που τις περιέχουν.
  1. Eντοπισμός της αναφοράς εννοιών του δικτύου GEOTHNK και υπολογισμός της συχνότητας εμφάνισης τους.
  2. Οργάνωση της ιεραρχίας κάθε έννοιας του δικτύου.
  3. Εξαγωγή νοηματικού περιεχομένου. Noun phrases που περιέχουν έννοιες του δικτύου.
The R logo is © 2016 The R Foundation.

Αδόμητο κείμενο

Ο όρος αδόμητο ή αμορφοποίητο κείμενο (unstructured text) αναφέρεται σε κείμενο στο οποίο η πληροφορία που περιέχεται και έχει τη μορφή λεκτικών αναφορών, δεν έχει συνταχθεί με καθορισμένο τρόπο, δεν είναι γνωστό σε τι αναφέρεται σημασιολογικά και δεν μπορεί να ταξινομηθεί σε πεδία βάσης δεδομένων με κανονικοποιημένη μορφή. Τέτοια κείμενα παράγονται καθημερινά κάθε φορά που γράφουμε ένα email, ένα σύντομο μήνυμα, ένα έγγραφο, όταν κοινοποιούμε κάτι στα μέσα κοινωνικής δικτύωσης κ.α. Έστω το παρακάτω τμήμα ενός πίνακα δεδομένων :

Δεδομένα

Workflow χωρικού εμπλουτισμού


- Βήματα εργασίας

  1. Εφαρμογή 3 λογισμικών NER σε δοκιμαστικά κείμενα για τη διερεύνηση της ποιότητας προσδιορισμού τοποθεσιών και της ταχύτητας επεξεργασίας.
  2. Εφαρμογή του καταλληλότερου στα δεδομένα που συλλέχθηκαν
  3. Εφαρμογή αυτόματης διαδικασίας γεωκωδικοποίησης με τρεις διαδικτυακές υπηρεσίες στις τοποθεσίες που καθόρισαν οι συγγραφείς (64) για διερεύνηση της ποιότητας προσδιορισμού.
  4. Εφαρμογή του καταλληλότερου στις ονομασίες που “αλιεύθηκαν”
  5. Έλεγχος ποιότητας αποτελέσματος γεωκωδικοποίησης και διόρθωση σφαλμάτων
  6. Προσδιορισμός διοικητικής ιεραρχίας τοποθεσιών

Named entity Recognition (Δοκιμή)

Δοκιμάστηκαν τρείς αλγόριθμοι προσδιορισμού ονομασίας τοποθεσίας

ως προς την ποιότητα σε δυο περιλήψεις διατριβών, Κείμενο 1, Κείμενο 2

ως προς την ταχύτητα σε έγγραφο 467 σελίδων στην Αγγλική γλώσσα σε μηχάνημα με επεξεργαστή Intel Core2 Duo CPU E8400 3.00GHz και μνήμη RAM 5.7GiB. (testing app)

Εξαγωγή τοπονυμίων

##  [1] "  Description   " "  Google Earth  " "   Longitude    "
##  [4] "  Power Point   " "     Greek      " "      This      "
##  [7] "       N        " "      WGS       " " Forest Lesson  "
## [10] "     Step2      " "    PLANTELE    " "     Toate      "
## [13] "Homer’s Odyssey " "Tasiouli Georgia" " Marin Sorescu  "
##  [1] "    Jupiter    " "     Mars      " "     Pluto     "
##  [4] "  Cassiopeia   " "    Neptune    " "     Judea     "
##  [7] "    Iudeea     " "    Babylon    " "    Pangaea    "
## [10] "   Great Sea   " "The City Center" "  Wonderland   "

Αυτόματη Γεωκωδικοποίηση (Δοκιμή)

Δοκιμάστηκαν τρείς διαδικτυακές υπηρεσίες (API), (testing app)

στις 64 μοναδικές ονομασίες τοποθεσίας που καθόρισαν οι συγγραφείς των σεναρίων

Τα υψηλά ποσοστά οφείλονται στη δομημένη μορφή των τοποθεσιών κατά την υποβολή.

Τελική αυτόματη γεωκωδικοποίηση

Οι 160 ονομασίες προωθήθηκαν στο web service του Geonames

## [1] "  Spain  " "Salisbury" " Ithaca  " " France  " " Andros  " " Ireland "
## [7] "Salamina "
## [1] "Central Athens" "      UK      " " Monastiraki  " "  Parthenon   "
## [5] "      US      " "  Greenland   " "    Thera     " "  Greenwich   "
##  [1] "Balkan Peninsula Natural Zones" "         Burgas Lake          "
##  [3] "       Gheorgheni Lake        " "       Atanasovsko Lake       "
##  [5] "           Thission           " "      Aegean Archipelago      "
##  [7] "        Aegean Greece         " "       Apahida village        "
##  [9] "      Parthenon Gallery       " "       Cyclades island        "
## [11] "       Nineveh Citadel        " "        Ninive Citadel        "
## [13] "     Dionysou Aeropagitou     " "      Athenian Acropolis      "

Το ποσοστό επιτυχίας που φτάνει το 80% και επιτυγχάνει η αυτόματη διαδικασία χωρίς καμία απολύτως διαδικασία αποσαφήνισης, καθιστούν το web service του καταλόγου Geonames ένα πολύτιμο εργαλείο σε προγραμματιστικές διαδικασίες όπως στην παρούσα

Γεωκωδικοποίηση σε ονομασίες ιστορικών χαρτών

Source: Sylvia Ioannou Foundation Collection.

(Εφαρμογή ημιαυτόματης γεωκωδικοποίησης τοπωνυμίων Μεσογείου)

Ottoman map Geocoding Workflow

Ανάπτυξη αλγορίθμου γεωκωδικοποίησης ?????


Source: https://giphy.com/.

Εξαγωγή ιεραρχίας

Πρόβλημα το Earth -> Western Europe.

Χωρικός εμπλουτισμός

  1. Συγγραφείς -> 64 μοναδικές τοποθεσίες σε 25 σενάρια.
    NER -> 146 μοναδικές τοποθεσίες σε 80 σενάρια.

  2. Ιεραρχία πόλης Shumen:
    Earth -> Europe -> Republic of Bulgaria -> Oblast Shumen -> Obshtina Shumen -> Shumen.
    Ιεραρχία Μουσείου του Λούβρου στο Παρίσι:
    Earth -> Europe -> Republic of France -> Île-de-France -> Paris -> Musée du Louvre.

Αναζητώντας σενάρια που αναφέρονται στην Ευρώπη, στα αποτελέσματα θα περιέχονται και τα 2 παραπάνω σενάρια.

Διάγραμμα τοποθεσιών

Workflow σημασιολογικού εμπλουτισμού


- Βήματα εργασίας

  1. Αφαίρεση πληροφορίας που περιλαμβάνεται στα συνοδευτικά δεδομένα (τίτλος, χωρικές έννοιες, τοποθεσίες, επιστημονικά πεδία κλπ), επικεφαλίδες ενοτήτων (οι λεζάντες των εικόνων διατηρήθηκαν).
  2. Λημματοποίηση, ανάλυση μερών του λόγου (part of speech tagging).
  3. Εντοπισμός των χωρικών εννοιών και υπολογισμός συχνότητας εμφάνισης.
  4. Εξαγωγή προτάσεων.
  5. Εξαγωγή noun phrases που περιέχουν έννοιες του δικτύου.
  6. Εξαγωγή ιεραρχίας των εννοιών από το γράφο.

Διαδικασία σχολιασμού κειμένου (annotation)

- tokenization : Κατά τη διαδικασία αυτή αναγνωρίζονται και σημαίνονται οι λέξεις, οι αριθμοί, τα σημεία στίξης, τα κενά, τα σύμβολα χαρακτήρων όπως οι παρενθέσεις και τα εισαγωγικά και προσδιορίζονται οι θέσεις τους (αρχή και τέλος) μέσα στο σώμα του κειμένου.
- sentense spliting : αναγνώριση και ο διαχωρισμός των προτάσεων
- Part of speech tagging, POS : αναγνώριση για κάθε token το μέρος του λόγου με το οποίο αυτό χρησιμοποιείται μέσα στην κάθε πρόταση.
- lemmantization : αναγνώριση για κάθε token (τεκμήριο) η λεξική ρίζα από την οποία προέρχεται (lemma), για παράδειγμα η ρίζα του επιθέτου Cities είναι το city και του ρήματος showing το show
- parsing : συντακτική ανάλυση

Source: Manning et. al., 2014.

Παράδειγμα annotation

Κείμενο προς επεξεργασία : “The teacher prepares a role play game in the classroom before visiting the complex. The learners are divided into 2 groups – visitors and hosts.”

Χωρικές έννοιες

  1. έννοιες που περιέχονται σε άλλες έννοιες (“map” και “map projection”).
  2. έννοιες με το ίδιο λεκτικό αλλά άλλη περιγραφή.

η διαδικασία πρόσθεσε κατά μέσο όρο τρεις χωρικές έννοιες ανά σενάριο που οι συγγραφείς δεν είχαν αναφέρει.

Διάγραμμα εννοιων

Noun phrases

Ως φράσεις κλειδιά καθορίστηκαν εκείνες οι φράσεις που αποτελούνται από συνδυασμούς επιθέτων, ουσιαστικών (κοινά και συγκεκριμένα), προθέσεων καθώς και άρθρων ορισμού (Handler et.al., 2016), περιέχουν μια έννοια του δικτύου με συχνότητα εμφάνισης τουλάχιστον 2.

Σενάριο με τίτλο : “Perceptual image of an urban environment.”

Ιεραρχία κόμβων


οι κόμβοι των clusters αφαιρέθηκαν.

Overall workflow

Δημιουργία εφαρμογών

χρησιμοποιήθηκε το πακέτο shiny

http://littleactuary.github.io/blog/Web-application-framework-with-Shiny/

Συμπεράσματα


Εφαρμογές :

Επισκόπηση σεναρίων και δικτύου χωρικών εννοιών.

Εφαρμογή της μεθόδου στα 11 κείμενα του διεθνή τύπου.

Χωρική αναζήτηση με σημασιολογική ταξινόμηση.