Χωρικός και σημασιολογικός εμπλουτισμός, αναζήτηση και οπτικοποίηση αδόμητου κειμένου


Ευάγγελος Παπαδιάς, Μαργαρίτα Κόκλα, Ελένη Τομαή, Οκτώβριος 2018

Σκοπός

  1. Εξαγωγή ονομασιών τοποθεσίας (NER) και προσδιορισμός των θέσεών τους στο χώρο (Geocoding).
  2. Οργάνωση της χωρικής ιεραρχίας που συνδέει διαφορετικές τοποθεσίες μέσα από ευρύτερες που τις περιέχουν.
  1. Eντοπισμός της αναφοράς εννοιών του δικτύου GEOTHNK και υπολογισμός της συχνότητας εμφάνισης τους.
  2. Οργάνωση της ιεραρχίας κάθε έννοιας του δικτύου.
  3. Εξαγωγή νοηματικού περιεχομένου. Noun phrases που περιέχουν έννοιες του δικτύου.
The R logo is © 2016 The R Foundation.

Δεδομένα

Workflow χωρικού εμπλουτισμού


- Βήματα εργασίας

  1. Εφαρμογή 3 λογισμικών NER σε δοκιμαστικά κείμενα για τη διερεύνηση της ποιότητας προσδιορισμού τοποθεσιών και της ταχύτητας επεξεργασίας.
  2. Εφαρμογή του καταλληλότερου στα δεδομένα που συλλέχθηκαν.
  3. Εφαρμογή αυτόματης διαδικασίας γεωκωδικοποίησης με τρεις διαδικτυακές υπηρεσίες στις τοποθεσίες που καθόρισαν οι συγγραφείς (64) για διερεύνηση της ποιότητας προσδιορισμού.
  4. Εφαρμογή του καταλληλότερου στις ονομασίες που “αλιεύθηκαν”.
  5. Έλεγχος ποιότητας αποτελέσματος γεωκωδικοποίησης και διόρθωση σφαλμάτων.
  6. Προσδιορισμός διοικητικής ιεραρχίας τοποθεσιών.

Named entity Recognition (Δοκιμή)

Δοκιμάστηκαν τρείς αλγόριθμοι προσδιορισμού ονομασίας τοποθεσίας

ως προς την ποιότητα σε δυο περιλήψεις διατριβών, Κείμενο 1, Κείμενο 2

ως προς την ταχύτητα σε έγγραφο 467 σελίδων στην Αγγλική γλώσσα σε μηχάνημα με επεξεργαστή Intel Core2 Duo CPU E8400 3.00GHz και μνήμη RAM 5.7GiB. (testing app)

Γεωκωδικοποίηση (Δοκιμή)

Δοκιμάστηκαν τρείς διαδικτυακές υπηρεσίες (API), (testing app)

στις 64 μοναδικές ονομασίες τοποθεσίας που καθόρισαν οι συγγραφείς των σεναρίων

Τα υψηλά ποσοστά οφείλονται στη δομημένη μορφή των τοποθεσιών κατά την υποβολή.

Χωρικός εμπλουτισμός

  1. Συγγραφείς -> 64 μοναδικές τοποθεσίες σε 25 σενάρια.
    NER -> 146 μοναδικές τοποθεσίες σε 76 σενάρια.

  2. Ιεραρχία πόλης Shumen:
    Earth -> Europe -> Republic of Bulgaria -> Oblast Shumen -> Obshtina Shumen -> Shumen.
    Ιεραρχία Μουσείου του Λούβρου στο Παρίσι:
    Earth -> Europe -> Republic of France -> Île-de-France -> Paris -> Musée du Louvre.

Αναζητώντας σενάρια που αναφέρονται στην Ευρώπη, στα αποτελέσματα θα περιέχονται και τα 2 παραπάνω σενάρια.

Workflow σημασιολογικού εμπλουτισμού


- Βήματα εργασίας

  1. Αφαίρεση πληροφορίας που περιλαμβάνεται στα συνοδευτικά δεδομένα (τίτλος, χωρικές έννοιες, τοποθεσίες, επιστημονικά πεδία κλπ), επικεφαλίδες ενοτήτων (οι λεζάντες των εικόνων διατηρήθηκαν).
  2. Λημματοποίηση, ανάλυση μερών του λόγου (part of speech tagging).
  3. Εντοπισμός των χωρικών εννοιών και υπολογισμός συχνότητας εμφάνισης.
  4. Εξαγωγή προτάσεων.
  5. Εξαγωγή noun phrases που περιέχουν έννοιες του δικτύου.
  6. Εξαγωγή ιεραρχίας των εννοιών από το γράφο.

Διάγραμμα εννοιών

Noun phrases

Ως φράσεις κλειδιά καθορίστηκαν εκείνες οι φράσεις που αποτελούνται από συνδυασμούς επιθέτων, ουσιαστικών (κοινά και συγκεκριμένα), προθέσεων καθώς και άρθρων ορισμού (Handler et.al., 2016), περιέχουν μια έννοια του δικτύου με συχνότητα εμφάνισης τουλάχιστον 2.

Σενάριο με τίτλο : “Perceptual image of an urban environment.”

Ιεραρχία κόμβων


οι κόμβοι των clusters αφαιρέθηκαν.

Συνολική ροή εργασίας

Συμπεράσματα


Εφαρμογές :

Επισκόπηση σεναρίων και δικτύου χωρικών εννοιών.

Εφαρμογή της μεθόδου στα 11 κείμενα του διεθνή τύπου.

Χωρική αναζήτηση με σημασιολογική ταξινόμηση.