class: center, top, title-slide .title[ # İLT668, Yedinci Ders ] .subtitle[ ## Bilgisayar Tabanlı Metin Analizi ve Metin Madenciliği ] .author[ ### Umut Yener Kara ] .date[ ### 13 Nisan, 2023
Güncelleme: Nis 18, 2023 ] --- class: inverse #.left[Bilgisayar Tabanlı Metin Analizi ve Metin Madenciliği: Genel Bakış] --- ## Neden Metin Madenciliği? Niteliksel bir veri türü olarak metinler sosyal bilimlerin başlangıcından beri başat bir veri türü olagelmiştir. Alanda geleneksel hale gelmiş sayısız metin analizi yöntemi vardır: İçerik analizi, tematik analiz, söylem analizi, şema analizi, anlatı analizi, kültürel alan analizi ve nicesi. Son yıllarda dijitalleşme ve bilgisayar teknolojilerindeki ilerlemelerle birlikte çok sayıda bilgisayar tabanlı metin analizi tekniği geliştirilmekte ve benimsenmektedir. -- **Avantajları** * Büyük ölçekli * Sistematik * Hızlı -- **Dezavantajları** * Dijital verilerin düzensizliği ve kirliliği * Yüzeysel * İnsan dilinin nüanslarını ve karmaşıklığını hesaba katamama -- **NOT:** Bilgisayar tabanlı metin analizi uygulamaları farklı alanlarda farklı isimlerle geçebilmektedir: Text mining, Corpus linguistics, Natural Language Processing (NLP), Automated Content Analysis, Computer Assisted Text Analysis, Computational Linguistics. --- ## .left[Ana Veri Kaynakları ve Veri Toplama Teknikleri] **Veri kaynakları** * Sosyal medya * İnternet siteleri * Hazır veri tabanları, örn. LexisNexis, Gutenberg * Açık veri setleri * Arşivler -- **Veri toplama teknikleri** * *API*'lar (*Application Programming Interfaces*) * Web kazıma (*scraping*) * Basılı kaynaklar için *OCR* (Optik karakter tanıma) --- ##.left[Bilgisayar Tabanlı Metin Analizinin Dört İlkesi] **Kaynak:** Grimmer ve Steward (2013).Text as Data: The Promise and Pitfalls of Automatic Content Analysis Methods for Political Texts -- **1.** Dile dair bütün niceliksel modeller yanlıştır ama bazıları kullanışlıdır. -- **2.** Metinler için niceliksel yöntemler insanların becerilerini ve kaynaklarını arttırır, onları ikame etmez. -- **3.** Otomatik metin analizi için genelgeçer en iyi yöntem diye bir şey yoktur. -- **4.** Teyit et. Teyit et. Teyit et. --- ## Terminoloji * **Belge(Document)**: bağımsız bir metin; örn. blog postları, tweetler, yorumlar, haber metinleri -- * **Terim(Term)**: eşsiz tekil kelimeler veya kelime kombinasyonları -- * **Külliyat(Corpus)**: metin belgelerinin tamamından oluşan veri seti -- * **Token**: terimlerin kullanımları (occurence) -- * **Tokenization**: Belgeleri tokenlera ayırma prosedürü -- * **N-gram**: Bir belge içerisindeki tokenlerin birimi, **unigram** tekil kelimeler, **bigram** kelime çiftleri -- * **Kelime çantası(Bag of words)**: Yaygın metin temsil modeli, düzensiz tokenler ve kullanım sıklıklarından oluşur -- * **Document Term Matrix (DTM)**, **Term Document Matrix (TDM)**: Belge ve terimlerin bulunduğu yaygın matris türleri --- ## Ön Hazırlık (preprocessing) **Hedef:** Metinleri analize hazır hale getirmek **Yaygın adımlar:** -- 1. Bütün harfleri küçük harfe dönüştürme, noktalama işaretlerini ve sayıları kaldırma -- 2. Kelimelerin düzenini kaldırma: (**Kelime Çantası** Varsayımı) -- 3. Dolgu kelimelerini (**stopwords**) kaldırma -- 4. Benzer terimleri köklerine indirgeme: **Stemmization**, **Lemmatization** -- 5. **Çıktı**: Terimlerin belgelerde kaç kez geçtiğinden oluşan bir veri seti (veri çerçevesi veya matris olabilir) --- ## Tokenlara Ayırma **Örnek cümle:** .content-box-blue[ `Büyük sanayi, Amerika'nın keşfiyle temelleri atılan dünya pazarını kurdu.`] **Unigram**: `[büyük, sanayi, Amerikanın, keşfiyle, temelleri, atılan, dünya, pazarını, kurdu]` <br> -- **Bigram**: `[büyük sanayi, sanayi Amerikanın, Amerikanın keşfiyle, keşfiyle temelleri, temelleri atılan, atılan dünya, dünya pazarını, pazarını kurdu]` <br> -- **Trigram**: `[büyük sanayi Amerikanın, sanayi Amerikanın keşfiyle, Amerikanın keşfiyle temelleri, keşfiyle temelleri atılan, atılan dünya pazarını, dünya pazarını kurdu]` --- ##.left[Kelime Çantası Modeli Neden İş Görüyor?] -- 1. **İş görmeyebilir**: Teyit etmek zaruridir (analize göre değişir) -- 2. **Metinlerin merkezi eğilimi**: Kelimeler bize genelde metnin ne hakkında olduğu konusunda fikir verir: -- 3. **Sonuçlar öyle söylemektedir**: Kelime çantası varsayımının pek çok uygulamada etkinliği kanıtlanmıştır --- ## Kitap Önerisi .center[ <img src="data:image/png;base64,#images/text_as_data.jpg" width="45%" /> ]