Ο όρος αδόμητο ή αμορφοποίητο κείμενο (unstructured text) αναφέρεται σε κείμενο στο οποίο η πληροφορία που περιέχεται και έχει τη μορφή λεκτικών αναφορών, δεν έχει συνταχθεί με καθορισμένο τρόπο, δεν είναι γνωστό σε τι αναφέρεται σημασιολογικά και δεν μπορεί να ταξινομηθεί σε πεδία βάσης δεδομένων με κανονικοποιημένη μορφή. Τέτοια κείμενα παράγονται καθημερινά κάθε φορά που γράφουμε ένα email, ένα σύντομο μήνυμα, ένα έγγραφο, όταν κοινοποιούμε κάτι στα μέσα κοινωνικής δικτύωσης κ.α. Έστω το παρακάτω τμήμα ενός πίνακα δεδομένων :
- Βήματα εργασίας
Δοκιμάστηκαν τρείς αλγόριθμοι προσδιορισμού ονομασίας τοποθεσίας
ως προς την ποιότητα σε δυο περιλήψεις διατριβών, Κείμενο 1, Κείμενο 2
ως προς την ταχύτητα σε έγγραφο 467 σελίδων στην Αγγλική γλώσσα σε μηχάνημα με επεξεργαστή Intel Core2 Duo CPU E8400 3.00GHz και μνήμη RAM 5.7GiB. (testing app)
## [1] " Description " " Google Earth " " Longitude "
## [4] " Power Point " " Greek " " This "
## [7] " N " " WGS " " Forest Lesson "
## [10] " Step2 " " PLANTELE " " Toate "
## [13] "Homer’s Odyssey " "Tasiouli Georgia" " Marin Sorescu "
## [1] " Jupiter " " Mars " " Pluto "
## [4] " Cassiopeia " " Neptune " " Judea "
## [7] " Iudeea " " Babylon " " Pangaea "
## [10] " Great Sea " "The City Center" " Wonderland "
Δοκιμάστηκαν τρείς διαδικτυακές υπηρεσίες (API), (testing app)
στις 64 μοναδικές ονομασίες τοποθεσίας που καθόρισαν οι συγγραφείς των σεναρίων
Τα υψηλά ποσοστά οφείλονται στη δομημένη μορφή των τοποθεσιών κατά την υποβολή.
Οι 160 ονομασίες προωθήθηκαν στο web service του Geonames
## [1] " Spain " "Salisbury" " Ithaca " " France " " Andros " " Ireland "
## [7] "Salamina "
## [1] "Central Athens" " UK " " Monastiraki " " Parthenon "
## [5] " US " " Greenland " " Thera " " Greenwich "
## [1] "Balkan Peninsula Natural Zones" " Burgas Lake "
## [3] " Gheorgheni Lake " " Atanasovsko Lake "
## [5] " Thission " " Aegean Archipelago "
## [7] " Aegean Greece " " Apahida village "
## [9] " Parthenon Gallery " " Cyclades island "
## [11] " Nineveh Citadel " " Ninive Citadel "
## [13] " Dionysou Aeropagitou " " Athenian Acropolis "
Το ποσοστό επιτυχίας που φτάνει το 80% και επιτυγχάνει η αυτόματη διαδικασία χωρίς καμία απολύτως διαδικασία αποσαφήνισης, καθιστούν το web service του καταλόγου Geonames ένα πολύτιμο εργαλείο σε προγραμματιστικές διαδικασίες όπως στην παρούσα
Πρόβλημα το Earth -> Western Europe.
Συγγραφείς -> 64 μοναδικές τοποθεσίες σε 25 σενάρια.
NER -> 146 μοναδικές τοποθεσίες σε 80 σενάρια.
Αναζητώντας σενάρια που αναφέρονται στην Ευρώπη, στα αποτελέσματα θα περιέχονται και τα 2 παραπάνω σενάρια.
- Βήματα εργασίας
- tokenization : Κατά τη διαδικασία αυτή αναγνωρίζονται και σημαίνονται οι λέξεις, οι αριθμοί, τα σημεία στίξης, τα κενά, τα σύμβολα χαρακτήρων όπως οι παρενθέσεις και τα εισαγωγικά και προσδιορίζονται οι θέσεις τους (αρχή και τέλος) μέσα στο σώμα του κειμένου.
- sentense spliting : αναγνώριση και ο διαχωρισμός των προτάσεων
- Part of speech tagging, POS : αναγνώριση για κάθε token το μέρος του λόγου με το οποίο αυτό χρησιμοποιείται μέσα στην κάθε πρόταση.
- lemmantization : αναγνώριση για κάθε token (τεκμήριο) η λεξική ρίζα από την οποία προέρχεται (lemma), για παράδειγμα η ρίζα του επιθέτου Cities είναι το city και του ρήματος showing το show
- parsing : συντακτική ανάλυση
Κείμενο προς επεξεργασία : “The teacher prepares a role play game in the classroom before visiting the complex. The learners are divided into 2 groups – visitors and hosts.”
η διαδικασία πρόσθεσε κατά μέσο όρο τρεις χωρικές έννοιες ανά σενάριο που οι συγγραφείς δεν είχαν αναφέρει.
Ως φράσεις κλειδιά καθορίστηκαν εκείνες οι φράσεις που αποτελούνται από συνδυασμούς επιθέτων, ουσιαστικών (κοινά και συγκεκριμένα), προθέσεων καθώς και άρθρων ορισμού (Handler et.al., 2016), περιέχουν μια έννοια του δικτύου με συχνότητα εμφάνισης τουλάχιστον 2.
Σενάριο με τίτλο : “Perceptual image of an urban environment.”
χρησιμοποιήθηκε το πακέτο shiny
Προσφορά ηλεκτρονικών γεω-υπηρεσιών για δεδομένα κειμένου με απλό τρόπο.
Σύνθετη αναζήτηση με χωρικά και σημασιολογικά κριτήρια.
Ταξινόμηση αποτελεσμάτων αναζήτησης.
Εφαρμογές :
Επισκόπηση σεναρίων και δικτύου χωρικών εννοιών.