TÜRKÇE METİNLERDE DENETİMLİ VE SÖZLÜK TABANLI DUYGU ANALİZİ YAKLAŞIMLARININ KARŞILAŞTIRILMASI. Burak İbrahim SEVİNDİ

Transkript

1 TÜRKÇE METİNLERDE DENETİMLİ VE SÖZLÜK TABANLI DUYGU ANALİZİ YAKLAŞIMLARININ KARŞILAŞTIRILMASI Burak İbrahim SEVİNDİ YÜKSEK LİSANS TEZİ BİLGİSAYAR MÜHENDİSLİĞİ GAZİ ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ OCAK 2013 ANKARA

2

3 TÜRKÇE METİNLERDE DENETİMLİ VE SÖZLÜK TABANLI DUYGU ANALİZİ YAKLAŞIMLARININ KARŞILAŞTIRILMASI Burak İbrahim SEVİNDİ YÜKSEK LİSANS TEZİ BİLGİSAYAR MÜHENDİSLİĞİ GAZİ ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ OCAK 2013 ANKARA

4 Burak İbrahim SEVİNDİ tarafından hazırlanan TÜRKÇE METİNLERDE DENETİMLİ VE SÖZLÜK TABANLI DUYGU ANALİZİ YAKLAŞIMLARININ KARŞILAŞTIRILMASI adlı bu tezin yüksek lisans tezi olarak uygun olduğunu onaylarım. Yrd. Doç. Dr. Hacer KARACAN Tez Danışmanı, Bilgisayar Mühendisliği.. Bu çalışma, jürimiz tarafından oy birliği ile Bilgisayar Mühendisliği Ana Bilim Dalında Yüksek Lisans Tezi olarak kabul edilmiştir. Prof. Dr. M. Ali AKCAYOL Bilgisayar Mühendisliği, Gazi Üniversitesi.. Doç. Dr. Erdoğan DOĞDU Bilgisayar Mühendisliği, TOBB ETÜ.. Yrd. Doç. Dr. Hacer KARACAN Bilgisayar Mühendisliği, Gazi Üniversitesi.. Tez Savunma Tarihi: 25/01/2013 Bu tez ile G.Ü. Fen Bilimleri Enstitüsü Yönetim Kurulu Yüksek Lisans derecesini onamıştır. Prof. Dr. Şeref SAĞIROĞLU Fen Bilimleri Enstitüsü Müdürü.

5 TEZ BİLDİRİMİ Tez içindeki bütün bilgilerin etik davranış ve akademik kurallar çerçevesinde elde edilerek sunulduğunu, ayrıca tez yazım kurallarına uygun olarak hazırlanan bu çalışmada bana ait olmayan her türlü ifade ve bilginin kaynağına eksiksiz atıf yapıldığını bildiririm. Burak İbrahim SEVİNDİ

6 iv TÜRKÇE METİNLERDE DENETİMLİ VE SÖZLÜK TABANLI DUYGU ANALİZİ YAKLAŞIMLARININ KARŞILAŞTIRILMASI (Yüksek Lisans Tezi) Burak İbrahim SEVİNDİ GAZİ ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ Ocak 2013 ÖZET World Wide Web (WWW) daha etkileşimli bir hal aldıkça, görüşlerini paylaşan kullanıcıların sayısı artmıştır. Kullanıcılar; ürünler, hizmetler, markalar, şirketler, haberler, vb. hakkında görüşlerini paylaşmaktadırlar. Bu paylaşım için, kişisel bloglar, Facebook ve Twitter gibi sosyal ağlar, çevrimiçi gazeteler ve e-ticaret siteleri gibi birçok araç ve teknolojileri kullanmaktadırlar. Bu durum da beraberinde bir görüş patlaması getirmiştir. Artık, örneğin bir ürün hakkında Web üzerinden paylaşılan bütün yorumları okumak, hem ürün sahibi şirket hem de ürünü alacak kullanıcı açısından imkânsız hale gelmiştir. Duygu Analizi bu tip problemler üzerine ortaya çıkmış olan bir çalışma alanıdır. Duygu analizi, bir bütüncedeki görüş bildiren metin kısımlarını belirleme, bu metin kısımlarını ifade ettikleri görüşe göre sınıflandırma ve görüşleri kolayca anlaşılabilir özetler halinde kullanıcıya sunma işlerini kapsar. Bu çalışmada, Duygu Analizi alanında yapılan güncel bilimsel çalışmalarda sıkça kullanılan iki yöntem karşılaştırılmıştır. Bu yöntemler, makine öğrenmesi yaklaşımlarıyla yapılan duygu analizi ve sözlük tabanlı yaklaşımlarla yapılan duygu analizi olarak sıralanabilir. Makine öğrenmesi yaklaşımları, etiketli eğitim verisi üzerinden öğrenmeyi gerçekleştirdiği için, denetimli yaklaşımlardır. Öte yandan, sözlük tabanlı yaklaşmlar, çekirdek bir terim kümesinden başlayıp, WordNet gibi anlamsal bir veritabanı yardımıyla bu sözlüğü bir duygu

7 v sözlüğüne dönüştüren ve bu duygu sözlüğünü de duygu analizi işlemlerinde bir kaynak olarak kullanan yarı denetimli yaklaşımalrdır. Bu çalışmada, belirtilen yöntemler Türkçe bir veri setine uygulanıp, elde edilen sonuçlar yorumlanmıştır. Bilim Kodu : Anahtar Kelimeler : duygu analizi, görüş madenciliği, görüş çıkartma Sayfa Adedi : 98 Tez Yöneticisi : Yrd. Doç. Dr. Hacer KARACAN

8 vi COMPARISON OF SUPERVISED AND DICTIONARY BASED SENTIMENT ANALYSIS APPROACHES ON TURKISH TEXT (M.Sc. Thesis) Burak İbrahim SEVİNDİ GAZİ UNIVERSITY INSTITUTE OF SCIENCE AND TECHNOLOGY January 2013 ABSTRACT The more the World Wide Web (WWW) gets interactive, the more users share their opinions on it. Users share their opinions on products, services, brands, companies, news, etc. They share their opinions by using tools and technology, such as personal blogs, social networks like Facebook and Twitter, online newspapers, and e-commerce sites. This situation brings about an explosion of opinions. For example, it is not possible anymore to read all opinions shared on Web about a product, for both the company that sells the product and for users that buy it. Sentiment analysis is a research area for solving these kinds of problems. Sentiment Analysis encompasses operations such as determining the opinion bearing parts of a text, classifying the text by its sentiment orientation, presenting the opinions to users in easily understandable summarizations. In this work, two frequently used approaches by current research on Sentiment Analysis are compared. These approaches are sentiment analysis by using machine learning techniques and dictionary based sentiment analysis. Machine learning techniques are supervised techniques because they are based on learning from labeled training data. Dictionary based approach on the other hand, is a semi-supervised approach which starts from a seed sentiment vocabulary and extends this vocabulary by means of a semantic database such as WordNet to a sentiment dictionary and uses this dictionary as a resource for

9 vii sentiment classification tasks. In this work, specified approaches are applied to a Turkish dataset and results are discussed. Science Code : Key Words : sentiment analysis, opinion mining, opinion extraction Page Number : 98 Advisor : Assist. Prof. Dr. Hacer KARACAN

10 viii TEŞEKKÜR Çalışmalarımda manevi desteğini her zaman yanımda hissettiğim annem Dildar SEVİNDİ ye, kardeşim Sıla SEVİNDİ ye ve yakın arkadaşım Leona R. W. ya; her konuda bana yardımcı olup yönlendiren tez danışmanım Yrd. Doç. Dr. Hacer KARACAN a ve önerileriyle tezime katkıda bulunan yakın arkadaşlarım Seyfullah DEMİR ve Gonca Hülya DOĞAN a teşekkürü bir borç bilirim.

11 ix İÇİNDEKİLER Sayfa ÖZET... iv ABSTRACT... vi TEŞEKKÜR... viii ÇİZELGELERİN LİSTESİ... xi ŞEKİLLERİN LİSTESİ... xiii SİMGELER VE KISALTMALAR... xiv 1. GİRİŞ KAYNAK ARAŞTIRMASI Görüş Madenciliğinde Kullanılan Öznitelikler Kelimeler, ifadeler ve n-gram lar POS etiketleri Bağımlılık bilgisi Kelime-altı öznitelikler Diğer öznitelikler Görüş Kutbu Sınıflandırma Görüş sözlüğü oluşturma Sözlük tabanlı görüş kutbu sınıflandırma Makine öğrenmesi yaklaşımlarıyla görüş kutbu sınıflandırma Görüş kutbu sınıflandırmada konu belirleme Görüş Çıkartma Görüş Hedefi Belirleme UYGULANAN YÖNTEMLER... 34

12 x Sayfa 3.1. Kullanılan Veri Seti Makine Öğrenmesi Metotlarıyla Görüş Kutbu Belirleme Kullanılan sınıflandırıcılar Veri setinde yapılan filtrelemeler ve düzeltmeler Kullanılan terim skorlama yöntemleri Kullanılan sonuç değerlendirme yöntemleri Kelime kökleri kullanılarak elde edilen sınıflandırma sonuçları Kelime kökleri kullanılarak elde edilen sonuçların yorumlanması Ekli kelimelerin sonuçlara etkisi Bilinmeyen terimlerin sonuçlara etkisi Terim sıklığı ile terim varlık/yokluk durumunun etkisi Etkisiz kelimeleri elemenin etkisi Görüş Sözlüğü Tabanlı Duygu Analizi ve Sınıflandırma Türkçe WordNet veritabanı SentiWordNet görüş sözlüğü ve SentiWordNet in Türkçeleştirilmesi Türkçe SentiWordNet kullanılarak yapılan sınıflandırma sonuçları SONUÇ VE ÖNERİLER KAYNAKLAR EKLER Ek-1 Etkisiz Kelimeler Listesi Ek-2 En Yüksek Skorlu 40 Pozitif ve 40 Negatif Terim Ek-3 Sonuçların Hata Matrisleri ÖZGEÇMİŞ... 98

13 xi ÇİZELGELERİN LİSTESİ Çizelge Sayfa Çizelge 2.1. Sözlük tabanlı yaklaşımla cümle bazında görüş kutbu sınıflandırma Çizelge 2.2. Sözlük tabanlı yaklaşımda doküman bazında görüş kutbu sınıflandırma Çizelge 2.3. Dilsel kalıp örnekleme Çizelge 3.1. Yorum sınıf dağılımları Çizelge 3.2. C4.5 Sınıflandırma Sonuçları (n-gram boyu = 1) Çizelge 3.3. KNN Sınıflandırma Sonuçları (n-gram boyu = 1) Çizelge 3.4. Naive Bayes Sınıflandırma Sonuçları (n-gram boyu = 1) Çizelge 3.5. SVM Sınıflandırma Sonuçları (n-gram boyu = 1) Çizelge 3.6. C4.5 Sınıflandırma Sonuçları (n-gram boyu = 2) Çizelge 3.7. KNN Sınıflandırma Sonuçları (n-gram boyu = 2) Çizelge 3.8. Naive Bayes Sınıflandırma Sonuçları (n-gram boyu = 2) Çizelge 3.9. SVM Sınıflandırma Sonuçları (n-gram boyu = 2) Çizelge C4.5 Sınıflandırma Sonuçları (n-gram boyu = 3) Çizelge KNN Sınıflandırma Sonuçları (n-gram boyu = 3) Çizelge Naive Bayes Sınıflandırma Sonuçları (n-gram boyu = 3) Çizelge SVM Sınıflandırma Sonuçları (n-gram boyu = 1) Çizelge SVM Sınıflandırma Sonuçları (n-gram boyu = 1) (Köklere ayrıştırma Çizelge SVM Sınıflandırma Sonuçları (n-gram boyu = 1) (Köklere ayrıştırma Çizelge Etkisiz kelimeleri elemenin sonuçlara etkisi (SVM) Çizelge Türkçe WordNet'teki "mükemmel" kelimesi kaydının bir kısmı... 60

14 xii Çizelge Sayfa Çizelge SentiWordNet Yapısı Çizelge Örnek SentiWordNet Satırı Çizelge SentiWordNet'i Türkçeleştirme Algoritması Çizelge Türkçe Görüş Sözlüğü kullanan sınıflandırıcı algoritması Çizelge Türkçe görüş sözlüğü ile yapılan sınıflandırma sonuçları... 65

15 xiii Şekil ŞEKİLLERİN LİSTESİ Sayfa Şekil 2.1. Bağımlılık bilgisi... 7 Şekil 2.2. Etiket yayılımı algoritması Şekil 2.3. Minimum kesit Şekil 2.4. Çizge yayılımı algoritması Şekil 2.5. Doğrudan bağımlılık Şekil 2.6. Dolaylı bağımlılık Şekil 2.7. Bir bayes ağı (sol) ve Y düğümü için Markov örtüsü (sağ) Şekil 3.1. Pozitif yorumların skorlara göre dağılımı Şekil 3.2. Negatif yorumların skorlara göre dağılımı Şekil 3.3. SVM destek vektörleri ve hiper düzlemi Şekil 3.4. Karar ağacı örneği Şekil 3.5. A-TF ve TF ilişkisi Şekil 3.6. LA-TF ve TF ilişkisi Şekil 3.7. L-TF ve TF ilişkisi Şekil 3.8. N-TF ve TF ilişkisi Şekil 3.9. TF*IDF Skorlama İçin Sınıflandırıcı Sonuçları... 57

16 xiv SİMGELER VE KISALTMALAR Bu çalışmada kullanılmış bazı simgeler ve kısaltmalar, açıklamaları ile birlikte aşağıda sunulmuştur. Kısaltmalar Açıklama A-TF B-TF CRF DF FN FP HMM IDF KNN LA-TF LDA LSA L-TF N-TF PMI POS SVM TF TN TP WWW Augmented TF Boolean TF Conditional Random Fields Document Frequency False Negative False Positive Hidden Markov Model Inverse Document Frequency K-Nearest Neighbour Log-Average TF Latent Dirichlet Allocation Latent Semantic Analysis Logaritmik TF Normalized TF Pointwise Mutual Information Part of Speech Support Vector Machine Term Frequency True Negative True Positive World Wide Web

17 1 1. GİRİŞ Görüş madenciliği metinlerdeki görüş bildiren kısımları belirlemek ve bunları çeşitli açılardan sınıflandırmak amacıyla ortaya çıkmış olan bir araştırma alanıdır. Görüş madenciliğinde, doğal dil işleme, berimsel dilbilim, makine öğrenmesi ve veri madenciliği gibi bilgisayar bilimi alanlarında geliştirilmiş tekniklerden faydalanılır. Görüş madenciliği çalışmaları birçok alt çalışmadan oluşur. Bunlar, görüş çıkartma, görüşlerin kutbunu belirleme ve görüş hedefi çıkartma olarak sıralanabilir. Görüş çıkartma, bir dokümandaki, cümledeki veya ifadedeki görüş bildiren kısımları belirlemektir. Örneğin bir haberle ilgili bilgi veren gazete makalesi muhtemelen nesnel bir metindir. Haberde geçen kişilerden yapılan alıntılar veya haberle ilgili kullanıcı yorumları ise görüş bildiren kısımlar içeriyor olabilir. Benzer şekilde, bir ürün değerlendirme sitesinde, bir kullanıcının yaptığı Ekran çözünürlüğü muhteşem, ancak ekran biraz kalın gibi duruyor. yorumu, görüş bildiren bir yorumdur. Görüş kutbu (duygu kutbu) belirleme, görüş bildiren bir metnin olumlu bir görüş mü yoksa olumsuz bir görüş mü bildirdiğini belirlemektir.. Örneğin Aracın koltukları çok konforlu. olumlu bir görüş bildirir. Ancak Motor sesi çok yüksek. olumsuz bir görüş bildirir. Görüş kutbu belirleme işlemi, doküman, cümle veya kelime / ifade bazında yapılabilir. Doküman tabanlı görüş kutbu sınıflandırma, birçok cümleden oluşan ve cümlelerin bir anlamsal bütünlük içinde yer aldığı metin kısımlarının görüş kutbunu belirlemeye çalışmaktır. Örneğin bir ürün sitesinde, kullanıcının ürün hakkında yaptığı yorum, birçok cümleden oluşan bir doküman olarak düşünülebilir. Görüş kutbu belirlenirken, denetimli ve yarı denetimli yaklaşımlar uygulanmaktadır. Denetimli yaklaşımlarda, bir sınıflandırıcı eğitim verisi ile eğitilip, test verisi üzerinden sınıflandırma başarısı ölçülür. Yarı denetimli yaklaşımlarda, çekirdek bir

18 2 terim listesi, WordNet 1 benzeri bir veritabanı kullanılarak genişletilir ve duygu kutbu bilinen bir terimler listesi, yani bir görüş sözlüğü elde edilmiş olunur. Sınıflandırılacak metinlerde görüş sözlüğündeki terimler bulunuyorsa bu terimlere göre sınıflandırma yapılır. Ancak bu yaklaşım bazı zorlukları beraberinde getirir. Örneğin, her ne kadar bazı kelimelerin görüş kutupları global bir geçerliliğe sahip olsa da, bazı görüş kutbu kelimeleri, kullanıldıkları alana göre değişen kutuplara sahip olabilir. Örneğin harika kelimesi alandan bağımsız olarak global pozitif bir kutba sahipken, sesli kelimesi, bir araç motoru için negatif, ancak örneğin bir çalgı aleti için pozitif bir kutba sahip olabilir. Başka bir zorluk da, bir cümlede birden çok ve birbiriyle çelişen görüş kutuplarının olmasıdır. Ekran çözünürlüğü muhteşem, ancak ekran biraz kalın gibi duruyor. cümlesi buna örnek olarak gösterilebilir. Bu cümlede, bilgisayarın ekran çözünürlüğü hakkında olumlu bir görüş bildirilirken, ekranın kalınlığı olumsuz bir özellik olarak gösterilmiştir. Görüş hedefleri, kendileri hakkında görüş bildirilen varlıklardır. Görüş madenciliğinde, metnin görüş bildiren kısımlarını belirleme ve bu kısımların görüş kutbunu belirlemeye ek olarak, görüş hedeflerini belirleme de önemli bir yer tutmaktadır. Örneğin yine Ekran çözünürlüğü muhteşem, ancak ekran biraz kalın gibi duruyor. cümlesi göz önüne alındığında, cümlede pozitif ve negatif görüş bildiren ifadeler yer almaktadır. Bu haliyle cümle bazında görüş kutbu belirlemek, çelişen görüş kutuplarının varlığı nedeniyle uygun durmamaktadır. Onun yerine cümledeki görüş hedeflerini belirleyerek, bu hedefler hakkında ifade edilen görüşleri ortaya çıkarmak daha anlamlı olacaktır. Bu cümlede geçen görüş hedefleri ekran çözünürlüğü ve ekran olarak sıralanabilir. Bu tez çalışması kapsamında, görüş çıkartma, görüş kutbu belirleme ve görüş hedefi belirleme üzerine yapılan önceki araştırmalar incelenerek, bu araştırmalardaki görüş kutbu belirleme yaklaşımları Türkçe için uygulanmaya çalışılmıştır. İlerleyen kısımlarda ayrıntılarından bahsedilecek olan iki yaklaşım, Türkçe metinlerin görüş Örneğin alındığı web sitesi:

19 3 kutbu sınıflandırmasındaki başarıları açısından kıyaslanmıştır. Bu yaklaşımlar, makine öğrenmesi yaklaşımları ve sözlük tabanlı yaklaşımlar olarak sıralanabilir. Tezin temel başlıkları şu şekilde özetlenebilir: Bölüm 2 de, görüş madenciliği ile ilgili literatürde yapılan çalışmaların özeti bulunmaktadır. Bölüm 3 tezde uygulanan yöntemler ve elde edilen sonuçlar hakkında bilgi vermektedir. Bu bölümde, kullanılan veri seti hakkında ve oluşturulan Türkçe görüş sözlüğü hakkında bilgi, makine öğrenmesi yaklaşımları ve sözlük tabanlı yaklaşımlarla ilgili deney sonuçları bulunmaktadır. 4 üncü bölümde ise, elde edilen sonuçların genel olarak yorumlanması ve ileride bu konu üzerine yapılacak çalışmalar için bazı öneriler bulunmaktadır.

20 4 2. KAYNAK ARAŞTIRMASI Bu kısımda görüş madenciliği üzerine yapılmış olan kaynaklarda geçen çalışmalardan ve yöntemlerden bahsedilmiştir. Bu çalışmalar, genellikle İngilizce metinler üzerinde yapılmıştır. Yapılan çalışmalardaki ana başlıklar, kullanılan öznitelikler (bölüm 2.1), görüş kutbu belirleme (bölüm 2.2), görüş çıkartma (bölüm 2.3) ve görüş hedefi belirleme (bölüm 2.4) olarak sıralanabilir Görüş Madenciliğinde Kullanılan Öznitelikler Makine öğrenmesi ve veri madenciliği uygulamalarının önemli adımlarından biri, işlenecek veriyi bir öznitelik vektörü şeklinde temsil edebilmektir. Görüş madenciliğinde de durum farksızdır. Bir metni iyi bir şekilde temsil edecek bir öznitelik vektörüne dönüştürmek, görüş madenciliğinin temel adımlarından biridir. Görüş Madenciliği ile ilgili araştırmaların birçoğunda, kullanılacak özniteliklerin seçimi konusunda yöntemler geliştirilmiş ve bunların sistemin başarısına etkisi ölçülmüştür. Bu kısımda, görüş madenciliğinde kullanılan öznitelikler hakkında bilgi verilmiştir Kelimeler, ifadeler ve n-gram lar Kelimeler, basitçe 1 uzunluktaki n-gram öznitelikler olarak düşünülebilir. İfadeler ise bir veya daha fazla kelimenin bir araya gelerek oluşturdukları kelime gruplarıdır. İfadelerin yüksek değerlikli n-gram lardan (2-gram, 3-gram, 4-gram, vb.) farkı, dilsel kalıplar olmaları, başlı başına bir anlama sahip olmaları ve ifadeleri oluşturan kelime sayısının sabit olmamasıdır. Örneğin, çocuk oyuncağı kalıbı, bir ürünün kullanım kolaylığını anlatırken kullanabilen bir ifade olabilir. Görüş madenciliği üzerine yapılan birçok araştırmada kelimeler ve ifadeler en temel özniteliklerdir [1, 3, 5, 6, 8-13, 16, 17, 21-23, 25-27, 29, 30, 33, 34, 36, 37, 39, 40,

21 5 42]. Kelime ve ifade özniteliklerinin görüş madenciliğinde yaygın olarak kullanılmasının nedeni, genellikle sözlük tabanlı görüş kutbu belirleme çalışmalarının yaygın olmasına bağlanabilir. Görüş kutbu sözlüğü, kelimeler ve ifadeler bazında oluşturulmaktadır. Bu amaçla, WordNet benzeri bir veritabanı, belirli POS etiketlerine göre bir önyükleme metoduyla taranıp, görüş kutbu belli olan bir sözlük oluşturulmaktadır [1, 6, 8, 9, 11, 16, 17, 21-23, 26, 33]. Bu işlemin ayrıntısından kısmında bahsedilmiştir. Görüş kutbu sözlüğü oluşturulduktan sonra, sözlükteki kelimeler kullanılarak cümle, doküman ve bütünce bazında sınıflandırma yapılmaktadır. Görüş kutbu belirlenirken, olumsuzlama kelimelerinin dikkate alınması önemli bir noktadır. Örneğin Filmin senaryosu iyi değildi. cümlesi, sadece iyi kelimesi göz önünde bulundurulduğunda olumlu bir cümle gibi gözükmektedir. Ancak değil kelimesi göz önüne alındığında, cümlenin olumsuz olduğu ortaya çıkar. Araştırmaların bazıları bu tür olumsuzlama kelimelerini göz önüne almıştır [1-3, 5, 6, 25, 32]. N-gram lar, bir bütüncede arka arkaya sıralanmış n tane kelimenin bir araya getirilmesiyle oluşturulan özniteliklerdir. Örneğin Laptop ın pili en az iki saat dayanıyor. cümlesindeki 3 uzunluktaki n-gram lar <laptop ın pili en>, <pili en az>, <en az iki> <az iki saat> ve <iki saat dayanıyor> olarak sıralanabilir. Örnekten de anlaşılabileceği gibi, n-gramlar ın herhangi bir anlama sahip olması gerekmez. Basitçe birbirini takip eden n tane kelime, n-gram yapısı oluşturur. Görüş madenciliği araştırmalarına, n-gram öznitelikler genellikle sözlük tabanlı olmayan makine öğrenmesi yaklaşımlarında öznitelik olarak kullanılmaktadırlar [2, 14, 20, 28, 35, 43, 44, 47]. Genellikle yüksek değerlikli n-gram ların (örneğin 3-gram lar 2- gram lara göre daha yüksek değerliklidir), görüş kutbu belirlemede daha iyi sonuç verdiği gözlemlenmiştir [2, 14] POS etiketleri POS etiketleri, bir cümlede geçen kelimelerin türlerini belirtir. Sıfat, ad, zamir, zarf, fiil, temel POS etiketleridir.

22 6 Görüş çıkartma, görüş kutbu belirleme ve görüş hedefi çıkartma işlemlerinde POS etiketleri önemli bir yer tutar. Genellikle, bir bütüncede görüş belirten kelimeler aranırken sıfat ve zarflara bakılmaktadır [1, 6, 8, 11, 12, 14, 15, 21]. Görüş hedefi çıkartma işlemi yapılırken ise genellikle adlar göz önünde bulundurulmaktadır [1, 22, 27]. Nadir olsa da zamirleri göz önünde bulunduran çalışmalar da mevcuttur. Örneğin [24] te, cümlelerin görüş kutbu sınıflandırması yapılmadan önce etken/edilgen ayrımı yapılmıştır. Bu ayrımı yapmak için cümlelerde kişi zamirlerinin var olup olmadığına bakılmıştır. Çalışmalara sözlük tabanlı yaklaşımlar / makine öğrenmesi yaklaşımları açılarından bakıldığında, sözlük tabanlı yaklaşımlarda POS etiketlerinin yaygın olarak kullanıldığı görülmektedir. Sözlük tabanlı yaklaşımların bir kısmında, genellikle eş anlamlılık / karşıt anlamlılık gibi ilişkileri göz önünde bulunduran bir önyükleme metoduyla, belirli POS etiketlerine sahip olan kelimeler, görüş kutbu skorlarıyla birlikte sözlüğe eklenmektedir [6, 8, 9, 11, 13, 16, 17, 21]. Bu işlem sırasında, sözcükler arası ilişkilerin tanımlı olduğu WordNet gibi veritabanları kullanılmaktadır. Diğer sözlük tabanlı yaklaşımlarda, kelimeler arası eş anlamlılık / karşıt anlamlılık ilişkileri yerine, aynı POS etiketine sahip kelimelerin bağlamsal benzerliği göz önüne alınmaktadır [1, 10, 12]. Bağlamsal benzerlikler PMI, LSA gibi metotlar kullanılarak hesaplanmaktadır. Sözlük tabanlı yaklaşımlarda POS etiketleri, önyükleme ile genişletilen sözlüğe eklenecek kelimelerin türlerini kısıtlarken, makine öğrenmesi yaklaşımlarında ise herhangi bir kısıt koymaktan öte, basit birer öznitelik olarak kullanılmaktadır [14, 41]. Son olarak, kural tabanlı yaklaşımlarda POS etiketlerinin kullanımının yaygın olduğu görülmektedir [4, 7, 15, 43, 45, 46, 48]. Kurallar, kelime ve ifadelerin POS etiketlerine göre oluşturulan kalıplardır. Örneğin <RB JJ NN> toplamda üç kelime / ifade içeren bir kuraldır ve çok iyi film kalıbı bu kurala uyan bir örnektir. RB ilk kelimenin bir zarf olduğunu, JJ ikinci kelimenin bir sıfat olduğunu NN ise üçüncü

23 7 kelimenin bir ad olduğunu belirtir. Bu şekilde oluşturulan kurallar özellikle cümle bazında öznellik/nesnellik ayrımı yapmada sıkça kullanılmaktadır [43, 45, 46, 48] Bağımlılık bilgisi Bağımlılık bilgisi, bir cümleyi oluşturan her yapının arasında yer alan bire-bir ilişkilerden oluşan bilgidir. Bir cümleyi oluşturan yapılar kelimeler, ifadeler ve noktalama işaretleridir. Bağımlılık yapılarının temelinde, bir cümlede, bir yapı haricindeki (kök yapı) diğer bütün yapıların, cümledeki başka bir yapıya bağımlı olduğu kabulü yatar. Örneğin The conventions can vary cümlesinin bağımlılık bilgisi Şekil 2.1 de gösterilmiştir. Şekil 2.1. Bağımlılık bilgisi Cümleyi oluşturan yapılar arasındaki bağımlılıkların tipi de önemlidir. can ile vary kelimeleri arasında aux (yardımcı fiil) ilişkisi bulunmaktadır ve bu ilişki can fiilinin vary fiili için yardımcı bir fiil olduğunu gösterir. Bağımlılık bilgileri, sadece kelimelerin göz önünde bulundurulduğu sözlük tabanlı yaklaşımlara göre daha karmaşıktır ve anlamsal açıdan daha fazla ayrıntıyı temsil edebilir. Örneğin The medicine kills cancer cells. cümlesi sadece kelimeler göz önünde bulundurularak çözümlenirse, kill ve cancer gibi iki olumsuz kelime nedeniyle, olumsuz olarak sınıflandırılabilir. Ancak bir bağımlılık yapısında, cancer cells kelimelerinin birlikte bir tamlama oluşturdukları ve bu tamlamanın kills fiiline bağlı olduğu ortaya çıkacak, dolayısıyla cümlenin olumlu bir anlamı olabileceği göz önünde bulundurulacaktır. Bu tarz karmaşık bağımlılık ilişkilerini öznitelik olarak kullanan çalışmalar literatürde mevcuttur [19, 26, 31].

24 Kelime-altı öznitelikler Kelime altı öznitelikler harf n-gram ları, fonem n-gram ları ve prozodik özellikler olarak sıralanabilir. Harf n-gram ları, aynen kelime n-gram ları gibi n tane harfin yan yana gelmesiyle oluşan birimlerdir. Örneğin uluslararası kelimesindeki 4 uzunluktaki harf n- gram ları ulus lusl usla slar lara arar rara aras rası şeklinde sıralanabilir. Bunlardan bazıları kelimenin türüyle ilgili bilgi verebilir. Fonem n-gram ları kelimenin telaffuzuna yönelik n-gram lardır ve bu yüzden, İngilizce gibi yazılışı ve okunuşu birbirinden farklı olan dillerde anlamlıdır. Fonem n-gram ları, bir kelimedeki n tane fonemin yan yana getirilmesiyle oluşurlar. Örneğin sign kelimesinin gn kısmı bir fonemdir ve /ŋ/ işaretiyle temsil edilir. Prozodi, konuşmayla ilgili bir özniteliktir ve konuşmanın ses ile ilgili özelliklerini kapsar. Bunlar, ses frekansındaki değişimler, sesin yüksekliği gibi özelliklerdir. Kelime altı öznitelikleri kullanarak yapılan öznellik belirleme ve görüş kutbu sınıflandırma çalışmalarında, bu özniteliklerin birlikte kullanımının, bu alanlarda kayda değer sonuçlar verdiği gösterilmiştir [44, 47] Diğer öznitelikler Araştırmaların bazılarında, önceki bölümlerde sıralanan standart özniteliklere ek olarak bazı ilginç öznitelikler de kullanılmıştır. Bunlardan biri, Web üzerinde kullanıcıların sıklıkla kullandığı yüz ifadeleridir. Örneğin genellikle olumlu bir görüşü temsil eden :) :D gibi ifadeler ve olumsuz bir görüşü temsil eden :( :/ gibi ifadeler bunlara örnek olarak gösterilebilir. [14] te Twitter mesajlarından oluşan ve olumlu / olumsuz görüş etiketlerine sahip bir eğitim veri seti, bu ifadeler taranarak oluşturulmuştur.

25 9 Bazı çalışmalarda çözümlenen Web platformuna özel bazı göstergelerin öznitelik olarak kullanıldığı görülmektedir. Örneğin [28] de kullanıcıların Twitter da birbirini takip etme durumu ve birbirlerinden bahsetme durumu öznitelik olarak kullanılmıştır. Hatta birbirini takip eden kullanıcıların, belirli konularda yüksek oranda benzer kutba sahip görüşlerde bulundukları tespit edilmiştir. [22] de otel, lokanta gibi yerel servisler için kullanıcı yorumlarının görüş kutbunun belirlenmeye çalışıldığı bir araştırma yapılmıştır. Kullanıcıların yorumlara ek olarak sağladıkları ve servisin kalitesini gösteren puanlamalar (yıldız sayıları) öznitelik olarak göz önünde bulundurulmuştur. [32] de yapılan çalışmada, bir sanal gerçeklik ortamında kullanıcıların birbirleriyle girdikleri metinsel diyalogların görüş kutbu sınıflandırması yapılmaya çalışılmış ve büyük / küçük harf kullanımı, noktalama işaretleri gibi yapılar öznitelik olarak göz önünde bulundurulmuştur. [38] de Yahoo Answers a gönderilen soruların ve cevapların görüş kutbu istatistiksel olarak çeşitli parametrelere göre analiz edilmiştir ve demografik (cinsiyet, yaş, ırk, gelir, eğitim seviyesi, internet tecrübesi), alansal (ZIP), zamansal (ay, ayın günü, haftanın günü, günün saati) parametrelere göre, sorulan soruların ve gönderilen cevapların görüş kutbunun değiştiği gösterilmiştir Görüş Kutbu Sınıflandırma Görüş kutbu sınıflandırma, kelime, cümle veya doküman bazında bir metnin görüş kutbunu belirleme işidir. Söz konusu metni olumlu / olumsuz sınıflarından birine atayarak gerçekleştirilir. Görüş kutbu sınıflandırma; görüş kutbu belirleme, kutupsal sınıflandırma gibi adlar da almaktadır.

26 10 Kelime bazlı sınıflandırma, ifadeleri de kapsar ve bir kelimenin / ifadenin görüş kutbunu belirlemeyi hedefler. Görüş sözlüğü oluşturma çalışmalarının tamamı bu çatı altında toplanabilir. Görüş kutbu sınıflandırma işleri, sözlük tabanlı yaklaşımlar ve makine öğrenmesi yaklaşımları olarak ikiye ayrılabilir. Sözlük tabanlı yaklaşımlar, tamamı elle oluşturulan veya belirli bir önyükleme metoduyla çekirdek kelimelerden genişletilen bir görüş sözlüğü kullanarak, cümle ve doküman bazında görüş sınıflandırma yapmaya dayanır. Makine öğrenmesi yaklaşımları ise, herhangi bir görüş sözlüğü kullanmadan bazı dilsel öznitelikleri kullanarak yapılan sınıflandırma işidir. Makine öğrenmesi yaklaşımlarında kelime n-gram ları ve POS etiketleri yaygın olarak kullanılır Görüş sözlüğü oluşturma Görüş sözlüğü oluşturma çalışmaları çizge tabanlı çalışmalardır ve bu çalışmalarda iki çeşit çizge algoritması kullanılır: etiket yayılımı ve çizge yayılımı. Etiket yayılımı algoritması Araştırmaların çoğunda etiket yayılımı algoritması kullanılmıştır [6, 8, 9, 11, 16, 17, 21-23, 26]. Bu algoritmada, kelimeler bir çizge üzerinde birbirine çeşitli ilişkilerle bağlıdır. Bu ilişkiler eş anlamlılık, karşıt anlamlılık ve parça-bütün ilişkileri gibi ilişkiler olabilir. Bu tarz bir çizgeye örnek olarak WordNet verilebilir. Çizge üzerindeki bazı kelimelerin görüş kutupları önceden elle belirlenmiştir. Algoritma şu şekilde işler: 1. Görüş skoru belli olan bir düğüm seçilir. 2. Seçilen düğümün komşuluğundaki bütün düğümlere, iki düğüm arasındaki ilişkinin tipini göz önünde bulunduran bir ağırlıklandırma fonksiyonuyla görüş skoru atanır. 3. İlk iki adım, belirli bir iterasyon sayısına kadar veya çizge üzerinde görüş skoru atanmamış düğüm kalmayana kadar devam eder.

27 11 Algoritmanın adımları görsel olarak Şekil 2.2 de gösterilmiştir. Şekil 2.2. Etiket yayılımı algoritması

28 12 Şekil 2.2a dan da görülebileceği gibi çizgede 1 ve 2 numaralı düğümlerin görüş kutupları bellidir ve bu düğümler sırasıyla pozitif ve negatif görüş kutbuna sahiptir. Pozitif görüş kutbuna sahip düğümler yeşil, negatif görüş kutbuna sahip düğümler kırmızı renkte gösterilmiştir. Birbirine eş anlamlı düğümler arasında siyah çizgiler, birbirine karşıt anlamlı düğümler arasında turuncu çizgiler bulunmaktadır. Algoritma, bu düğümlerden birini seçer (Şekil 2.2b de 1 numaralı düğüm seçilmiştir ve her adımda seçilen düğümler iç içe geçmiş iki çemberle temsil edilmektedir). Daha sonra, çeşitli parametreleri göz önünde bulunduran bir ağırlıklandırma fonksiyonuna göre bu düğümün komşuluğundaki düğümlere görüş skorları atanır. Bu örnekte şu anki düğümün komşularına, düğümün skorunun yarısının atandığı var sayılmıştır. Bu durumda 3 ve 4 numaralı düğümlere P(1/2) ile gösterilen pozitif etiket ve 1/2 skoru atanmıştır. 8 numaralı düğüme ise, karşıt anlamlılık ilişkisinden dolayı N(1/2) skoru atanmıştır. Şekil 2.2c de aynı işlem 3, 4 ve 8 numaralı düğümler için yapılmıştır. Ardından Şekil 2.2d de 2 numaralı düğüme geçilmiştir. Bu düğümün komşuluğunda 9 ve 10 numaralı düğümler bulunmaktadır. 9 numaralı düğümün değeri bir önceki iterasyonda N(1/4) olarak belirlenmişti. Ancak bu durumda, algoritma, bu düğüme daha yüksek bir değer olan N(1/2) yi atamayı tercih edebilir veya kutbu belli olduğu için yeniden skorlama yapmamayı tercih edebilir. Algoritmanın düğümlere olabildiğince yüksek görüş kutbu skorları atamaya çalışıldığı var sayılırsa, 9 ve 10 numaralı düğüme N(1/2) değerleri atanacaktır. Benzer şekilde Şekil 2.2e de 8, 9 ve 10 numaralı düğümlerin komşuluğundaki düğümlerin görüş kutbu skorları hesaplanarak algoritma sonlanır. Etiket yayılımı algoritması kullanarak, düğümlerin görüş kutbu skorları veya basitçe görüş kutupları belirlenebilir. Örneğin [11] de her kelime için bir görüş kutbu skoru belirlenmiştir. Kutup skorları, regresyon analizinde kullanılmaktadır. Mesela, bir elektronik ticaret sitesinde, kullanıcıların ürünler hakkında yaptıkları yorumların yanında, ürünlere verdikleri puanlar (yıldız sayıları) da bulunuyorsa, görüş kutbu skorlarının bu puanlarla ne kadar paralellik gösterdiği regresyon ile hesaplanabilir. [6] da ise her kelime için skor belirlemek yerine basitçe görüş kutbu belirlenmiştir.

29 13 30 kelimelik bir negatif/pozitif etiketli çekirdek sözlük kullanılarak, WordNet ten bu kelimelerin eş ve karşıt anlamlı kelimeleri aranmıştır. Bulunan eş anlamlı kelimelere, çekirdekteki ilgili kelimeyle aynı görüş kutbu sınıfı verilmiştir. Karşıt anlamlı kelimelere ise zıt görüş kutbu sınıfı verilmiştir. Bu işlem, sözlüğe yeni eklenen kelimeler için de tekrarlanarak sözlük genişletilmiştir. Bu sözlük kullanılarak cümle bazında yapılan sınıflandırmada %84 lük bir doğruluk elde edilmiştir. Bazı çalışmalarda sadece pozitif / negatif kelimeler yerine, nesnel, yani herhangi bir görüşe sahip olmayan kelimeler de belirlenmeye çalışılmıştır. Bu sayede, nesnel kelimeler göz önünde bulundurularak, öznellik / nesnellik ayrımı yapılabilmektedir. Örneğin [8] de, WordNet kullanılarak, pozitif kelimeler, good sıfatının eş anlamlıları ve bad sıfatının karşıt anlamlılarına bakılarak belirlenmiştir. Negatif kelimeler için ise, bad sıfatının eş anlamlıları ve good sıfatının karşıt anlamlıları göz önünde bulundurulmuştur. Nesnel kelimelerde ise entity kelimesi kullanılmıştır. Nesnel kelimelerde eş veya karşıt anlamlılık ilişkisini kullanmak mantıklı olmayacağı için, kapsama ilişkisi kullanılmıştır. Kapsama ilişkisi iki kelime arasında anlamsal açıdan kapsama durumu olduğunda kullanılan bir ilişkidir. Örneğin, hayvan kelimesi, kedi kelimesini kapsamaktadır. Araştırmaların bazılarında, etiket yayılımını sadece çekirdek kelimeler kullanarak yapmak yerine, kelimelerin anlamlarında geçen kelimeler de göz önünde bulundurulmuştur [9, 16, 17]. Bu yöntemdeki temel mantık, bir kelimenin anlamında geçen kelimelerin, kelimeyle benzer bir görüş kutbu yönelimine sahip olacağına dayanmaktadır. Örneğin [9] da, [8] dekine benzer bir önyükleme metoduyla oluşturulan görüş kutbu sözlüğündeki her terimin anlamında geçen kelimeler de göz önünde bulundurulmuştur. Bu sayede, her terim, bir görüş kutbu etiketinin yanında, anlamında geçen kelimelerin vektörel bir gösterimi şeklinde temsil edilmiştir. Bu yöntem, terimin anlamında geçen terimleri de görüş sözlüğüne eklemek gibi düşünülebilir. Sonuçta, elde edilen sözlükteki kelimeleri kullanan bir SVM sınıflandırıcısı ile cümle bazında görüş kutbu sınıflandırmada %88,5 lik bir doğruluk elde edilebilmiştir. Görüş sözlüğü oluştururken kelime anlamlarında geçen kelimelerin kullanılması yaklaşımıyla SentiWordNet adında ve herkesin kullanımına

30 14 açık olan bir görüş kutbu sözlüğü de oluşturulmuştur [16, 17]. SentiWordNet teki her terimin, pozitif/negatif/nötr başlıkları altında 3 tane skoru bulunmaktadır. Bu skorlar, 0 ile 1 aralığında gerçel değerlere sahiptir. Her kelime için SentiWordNet teki bu üç skorun toplamı 1 etmektedir. Bu tez çalışması kapsamında da, Türkçe için bir görüş sözlüğü oluşturmak amacıyla SentiWordNet kullanılmıştır. [23] te, kelime görüş kutbu belirlemede, etiket yayılımı yöntemiyle, diğer bir çizge tabanlı yöntem olan minimum kesit yöntemi karşılaştırılmıştır. Minimum kesit yöntemi, bir çizgeden en az sayıda kenarı kaldırarak, çizgeyi iki ayrı çizgeye ayırma yöntemidir. Örneğin Şekil 2.3 te, 5 düğümden oluşan bir çizge için, çizgeyi iki ayrı parçaya ayıran minimum kesit gösterilmiştir. Şekil 2.3. Minimum kesit Çizgeyi, kelimeleri çeşitli dilsel ilişkilere göre (eş anlamlılık, karşıt anlamlılık, vs.) birbirine bağlayan bir çizge olarak düşündüğümüzde, minimum kesitin, kelimeleri pozitif ve negatif olmak üzere iki ayrı çizgeye ayıracağı varsayılabilir. [23] te, etiket yayılımı ile kelime görüş kutbu belirlemede isimler için %91,08 lik bir f-skor elde edilirken, minimum kesitte bu değer %81,13 olmuştur. Çizge yayılımı algoritması Çizge yayılımı algoritması, etiket yayılımı algoritmasından farklı olarak, görüş kutbu belli olmayan bir düğümden başlar ve bu düğümden, görüş kutbu belli olan bir düğüme ulaşmaya çalışır. Görüş kutbu belli olmayan düğümden, görüş kutbu belli

31 15 olan düğüme en kısa yolu bulmak yerine, optimal olmayan yollar Tabu Arama gibi sezgisel arama metotlarıyla bulunabilir. [20] de, çizge yayılımı algoritmasının, görüş kutbu belirlemede etiket yayılımına göre daha iyi sonuç vermediği, ancak bu algoritmanın karmaşıklığı daha az olduğu için, büyük ölçekli verilere daha uygun olduğu ileri sürülmüştür. Algoritmanın adımları görsel olarak Şekil 2.4 te gösterilmiştir. Şekil 2.4. Çizge yayılımı algoritması Şekil 2.4 ten de görülebileceği gibi, çizgede görüş skoru belli olan 1 ve 2 düğümleri bulunmaktadır. Çizge yayılımı algoritmasında, genellikle WordNet gibi bir kaynak kullanılmadığı için, kelimeler arası bağlar eş anlamlılık, karşıt anlamlılık ilişkileri yerine, PMI gibi birlikte kullanılma istatistiklerine göre oluşturulur. Görüş kutbu skoru belli olmayan 11 numaralı düğümünden, 1 ve 2 düğümlerine ulaşan iki yol bulunur. Bu işlem sezgisel bir arama algoritmasıyla gerçekleştirilebilir. Bu yollar bulunduktan sonra, düğüme ağırlığı en büyük yola göre görüş skoru ataması yapılabileceği gibi, her iki yol için, iki görüş skoru da atanabilir.

32 16 Şekil 2.3 te, yol uzaklığı n olarak düşünülüp, 11 numaralı düğüme basitçe 1/2 n fonksiyonuyla skorlama yapılırsa, düğümün pozitiflik skoru 1/4, negatiflik skoru ise 1/8 olacaktır. Düğüme bu iki skoru atamak yerine daha büyük olan skor seçilip, düğümün sadece belli bir görüş skoruna sahip olması da sağlanabilir. [20] de, görüş sözlüğüne eklenecek aday kelimeleri belirlemek için 4 milyar Web sayfasından, maksimum 10 uzunluktaki n-gram şar çıkartılmıştır. Bu n-gram lar, sıklık ve PMI gibi yöntemleri içeren birtakım sezgisel metotlarla 20 milyona kadar indirilmiştir. (Bu indirgemenin ayrıntısından, araştırmada bahsedilmemektedir) Ardından bu 20 milyon adayın her biri için bağlam vektörleri oluşturulmuştur. Her vektör için, bu vektörle en yüksek kosinüs benzerliğine sahip 25 vektör arasında bağlantı oluşturulmuş ve bu bağlantıların ağırlığı kosinüs benzerliğinin değeri olarak atanmıştır. Son olarak, çizge yayılımı metodu ile her vektör için bir görüş skoru belirlenerek, görüş sözlüğü oluşturulmuştur. Araştırmada, görüş sözlüğü oluşturulduktan sonra, bir sınıflandırıcı kullanarak görüş kutbu sınıflandırması yapılmıştır. Pozitif kelimeleri sınıflandırmada %69,6, negatif kelimeleri sınıflandırmada ise %68,5 lik bir doğruluk elde edilmiştir. Diğer Bu kısımda, etiket veya çizge yayılımı algoritmalarını kullanmadan görüş sözlüğü oluşturan çalışmalara değinilmiştir. [1] de, görüş sözlüğü oluşturmak için, araştırmada çifte yayılma diye adlandırılan bir yöntem önerilmiştir. Yöntemde, öncelikle kelimeler arasında doğrudan ve dolaylı olmak üzere iki tane bağımlılık bilgisi tanımlanmıştır. Şekil 2.5 te doğrudan bağımlılık ilişkileri gösterilmektedir. Doğrudan bağımlılık iki şekilde oluşabilir: (1) A ve B gibi iki kelime arasında başka bir kelime olmadan bir bağımlılık vardır (bkz. Şekil 2.5a) veya (2) A ve B gibi iki kelime H gibi bir üçüncü kelimeye doğrudan bağlıdır (bkz. Şekil 2.5b).

33 17 Şekil 2.5. Doğrudan bağımlılık Dolaylı bağımlılık ise Şekil 2.6 da gösterilmiştir. Şekilden de görülebileceği gibi, A ve B kelimeleri arasında H1 gibi bir kelime varsa, bunlar birbirine dolaylı bir şekilde bağlıdır (bkz. Şekil 2.6a). Başka bir dolaylı bağımlılıkta ise, A ve B kelimeleri ile H kelimesi arasında sırasıyla H1 ve H2 kelimeleri bulunmaktadır. Dolayısıyla A ve B kelimeleri H kelimesine dolaylı yoldan bağlıdır. Bu durumda A ve B kelimelerinin de dolaylı yoldan bağlı oldukları kabul edilir. [1] deki çalışmalarda, çekirdek bir görüş sözlüğünden yola çıkılarak, bu sözlükteki kelimelere bütüncede doğduran ve dolaylı bir şekilde bağlı olan sıfatlar görüş sıfatları olarak belirlenmiş ve sözlüğe eklenmiştir. Aynı işlem, sözlüğe yeni eklenen sıfatlar için de tekrarlanmış ve sözlüğe yeni kelime eklenemeyene kadar bu adımlar tekrarlanmıştır. Şekil 2.6. Dolaylı bağımlılık

34 18 Bazı çalışmalarda, çekirdek görüş sözlüğünü genişletmek için, bütüncede bu sözlükteki kelimelere bağlamsal olarak benzeyen kelimeler PMI ve LSA yöntemleriyle aranmıştır [10, 12]. Örneğin [12] de PMI kullanılarak, excellent ve poor kelimelerine göre sıfat ve zarfların görüş skorları hesaplanmıştır. Benzer şekilde [10] da, çekirdek bir pozitif / negatif görüş sözlüğü oluşturulduktan sonra PMI ve LSA kullanılarak, diğer kelimelerle çekirdek sözlükteki kelimelerin anlamsal korelasyonu hesaplanmış ve bu şekilde diğer kelimelerin görüş kutbu belirlenmiştir. PMI iki kelime arasındaki ilişkiyi, kelimelerin birlikte kullanılma sıklıklarına göre ölçer (bkz. Eş. 2.1). (2.1) Eğer pmi(k 1, k 2 ) pozitif bir değere sahipse, k 1 ve k 2 kelimeleri metinlerde birlikte kullanılmaya eğilimlidir. Ancak bu, iki kelimenin benzer anlamlara sahip olduğu anlamına gelmez. LSA ise iki kelimenin kullanıldığı bağlamların benzerliğini ölçmeye çalışır. LSA(k 1, k 2 ) pozitifse, bu iki kelimenin civarında bulunan birçok k i kelimesi ortaktır. Anlamsal benzerlik taşıyan kelimeleri ilişkilendirme açısından, LSA, PMI a göre daha iyi çalışır ancak daha fazla hesap gücü gerektirir [10]. [27] de ideolojik tartışmaların görüş kutbu analizi yapılmış ve bu amaçla, standart bir görüş sözlüğüne ek olarak bir tartışma sözlüğü oluşturulmaya çalışılmıştır. Tartışma sözlüğü oluşturulurken maksimum 3 uzunluğundaki n-gram lar bulunmaya çalışılmıştır. Önce bazı tartışma tetikleyici terimler elle etiketlenmiştir ( Iran insists its nuclear program is purely for peaceful purposes. cümlesindeki insists kelimesi tartışma tetikleyici bir kelimedir). Bu tetikleyici terimleri takip eden ikinci ve üçüncü kelimeler de ikili ve üçlüler olarak sözlüğe eklenmiş. Sözlüğe eklenen kelimelerin

35 19 tartışmaya yönelik görüş kutbu skorları, pozitif ve negatif dokümanlarda geçme sıklığına göre atanmıştır. Sadece standart bir görüş sözlüğü kullanarak cümle bazında görüş sınıflandırmada %55,02 lik bir doğruluk sağlanırken, hem standart görüş sözlüğü hem de tartışma sözlüğü birlikte kullanıldığında %63,93 lük bir doğruluk elde edilmiştir. [40] ta kelimelerin komşu kelimeleriyle arasındaki ilişkilerin dikkate alınmadığı görüş sözlükleri yerine, kelimeler arası ilişkileri Markov-örtüsü yapısında göstererek oluşturulan görüş sözlüğü kullanımının, görüş kutbu sınıflandırma üzerindeki olumlu etkisi ortaya koyulmuştur. Bir Bayes ağında, A gibi bir düğümün üst düğümleri ve çocuk düğümleriyle birlikte oluşturduğu yapı Markov örtüsü olarak adlandırılmaktadır. Örneğin Şekil 2.7 de soldaki çizgede bir Bayes ağı görülmektedir. Bu Bayes ağı, kelimeler arası ilişkilerin kodlandığı bir ağ olarak düşünülebilir. Aynı şeklin sağındaki çizgede ise Y kelimesinin Markov örtüsü görülmektedir. Cümle bazında görüş kutbu sınıflandırma yaparken, cümlede geçen Y kelimesi için, sadece Y kelimesinin görüş kutbu göz önünde bulundurmak yerine, Y nin Markov örtüsüyle elde edilen bütün kelimelerin görüş skorları göz önünde bulundurulduğunda, sınıflandırmada daha iyi sonuçlar elde edilmiştir. Şekil 2.7. Bir bayes ağı (sol) ve Y düğümü için Markov örtüsü (sağ)

36 Sözlük tabanlı görüş kutbu sınıflandırma Sözlük tabanlı yaklaşımlarda, cümle veya doküman bazında sınıflandırma yapılırken bir görüş sözlüğü kullanılmaktadır. Bu sözlük bölümünde bahsettiğim yöntemlerle oluşturulan veya tamamı elle etiketlenmiş bir görüş sözlüğü olabilir. Sözlükteki kelimeler basitçe görüş kutuplarına sahip olabileceği gibi [6], sözcüğe her kutup için bir skor atanmış olabilir [16, 17]. Sözlük tabanlı görüş kutbu sınıflandırma yapılırken, cümle veya doküman bazında geçen her kelime görüş sözlüğünde aranır. Sözcük, görüş sözlüğünde bulunuyorsa, sözcüğün görüş skoru / kutbu, cümle veya bütünce bazında tutulan toplam görüş skoruna eklenir. Sonuçta eğer cümlenin / dokümanın toplam görüş skoru pozitif çıkıyorsa, cümle / doküman pozitif olarak, negatif çıkıyorsa negatif olarak sınıflandırılır [3, 5, 21, 22, 26, 32-34]. Sözlük tabanlı yaklaşımla cümle bazlı görüş kutbu sınıflandırma algoritmalarının genel yapı Çizelge 2.1 de gösterilmiştir. Çizelge 2.1. Sözlük tabanlı yaklaşımla cümle bazında görüş kutbu sınıflandırma 1. Döngü: Bütüncedeki her cümle için 2. Döngü: Sıradaki cümlenin bütün görüş kelimeleri için 3. Eğer görüş kelimesinin civarında olumsuzlama kelimesi varsa kelimenin görüş skoru tersine çevrilir. 4. eşitliğine göre cümlenin görüş skorunu hesapla. 5. Eğer S p pozitif bir değere sahipse cümle pozitif görüş kutbuna, negatif bir değere sahipse negatif görüş kutbuna atanır. Çizelge 2.1 de gösterilen algoritmanın 1, 2 ve 3 numaralı satırlarında, cümlede geçen görüş kelimeleri aranmaktadır. 3 üncü satırda, birçok araştırmada dikkate alınan basit bir sezgisel yöntem gösterilmiştir. Bu yöntemde, eğer görüş kelimesinin civarında bir olumsuzlama kelimesi varsa, görüş kelimesinin kutbu tersine çevrilmektedir [1-3, 5, 6, 25, 32]. Olumsuzlama kelimeleri, görüş kelimesinin hemen solundaki veya hemen sağındaki kelimeye bakarak aranabileceği gibi [3], çerçeve büyüklüğü biraz daha geniş tutularak, kelimenin sağ ve solundan n tane kelime dikkate alınabilir [1].

37 21 Sözlük tabanlı yaklaşımla doküman bazlı görüş kutbu sınıflandırma algoritmalarının genel yapısı Çizelge 2.2 de gösterilmiştir. Çizelge 2.2. Sözlük tabanlı yaklaşımda doküman bazında görüş kutbu sınıflandırma 1. Döngü: Dokümandaki her cümle için 2. Cümle bazında hesaplanan görüş skorunu doküman bazındaki S d toplamına ekle 3. Eğer Sd pozitif bir değere sahipse doküman pozitif görüş kutbuna, negatif bir değere sahipse negatif görüş kutbuna atanır. Sözlük tabanlı görüş kutbu sınıflandırma yaklaşımlarındaki sorunlardan biri, sözlükteki global görüş kutuplarının her alanda geçerli olmayabileceğidir. Örneğin bir dizüstü bilgisayar için long battery life olumlu bir ifadeyken, bir dijital kamera için takes long time to focus olumsuz bir görüştür. Bazı araştırmalarda, görüş kelimelerinin alan bağımlılığı ele alınmaya çalışılmıştır [5, 26, 34]. Örneğin [5] te buna benzer durumları ele almak için 3 tane yaklaşım kullanılmıştır. i. Yorumda veya aynı ürünün başka yorumlarında, global görüş kutbu belli olmayan kelimenin (long) bulunduğu cümlede, global görüş kutbu belli olan başka görüş kelimeleri var mıdır? Örneğin This camera takes great pictures and has a long battery life. cümlesinde, great kelimesi vardır ve bu kelimenin global görüş kutbu pozitiftir. Böyle bir cümlede, bağlaçlar aranıp, bağlaçların yönelimine göre, görüş kutbu belli olmayan kelimenin yönelimi belirlenebilir. Bu örnekte and bağlacı var ve bu da great ile long un benzer görüş kutbu yönelimlerine sahip olduğunu gösteriyor. ii. Herhangi bir bağlaç olmadığı durumda, yönelimi bilinmeyen kelimenin görüş kutbu, yönelimi bilinen kelimenin görüş kutbuna eşitlenir: The camera has a long battery life, which is great. iii. Bu iki yöntem kullanılarak herhangi bir sonuca ulaşılmadıysa, cümleden önce gelen ve sonra gelen ilk cümleye bakılarak sonuca varılmaya çalışılmıştır. [26] da, alan bağımlılığını ele almak için, öncelikle, kullanılan sözlükteki görüş kelimelerinin her biri için görüş kutbu bazında güçlü/zayıf etiketleri verilmiştir. Güçlü görüş kelimeleri, alan bağımsız olarak kabul edilmiştir. Zayıf görüş

38 22 kelimelerinin alan bağımlı görüş kutbunu belirlemek için ise, alanla ilgili bir bütüncedeki kelimeler elle etiketlenip, bir sınıflandırıcı kullanılmıştır. Sınıflandırıcıdan elde edilen sonuçlar, kelimenin alan bağımlı görüş kutbunu yansıtmaktadır. Sonuçta, bu yöntemle pozitif görüş kutbu belirlemede %65,1 lik bir f-skor, negatif görüş kutbu sınıflandırmada ise %77,2 lik bir f-skor elde edilmiştir. [34] te alan bağımlılık, alana spesifik olduğu düşünülen ifadeler için, ifadenin sözlükteki görüş kutbu skorunun ağırlığı artırılarak ele alınmıştır. Bir kavramın spesifik olup olmadığı, kavramın WordNet hiyerarşisindeki derinliği, hiyerarşideki çocuk sayısı ve dallanma faktörü göz önüne alınarak hesaplanmıştır. Bazı araştırmalarda, sözlük tabanlı yaklaşımlarla makine öğrenmesi yaklaşımları karşılaştırılmıştır [3, 32]. [32] de, görüş sözlüğü yaklaşımıyla Naive Bayes ve Maximum Entropy sınıflandırıcıları karşılaştırılmıştır. [3] te ise SVM ve C5 karar ağacı algoritmalarıyla sözlük tabanlı yaklaşım karşılaştırılmıştır. Her iki çalışmada da sözlük tabanlı yaklaşımın, makine öğrenmesine göre daha iyi sonuç verdiği gösterilmiştir. Görüş sözlüğündeki kelimelerin sadece kutup bilgisinin, yani pozitif / negatif olma durumunun kullanılması ile kelimenin görüş skorunun kullanılmasının sınıflandırıcı başarısına olan etkisi, araştırmacıların ilgisini çeken başka bir konudur [21]. Kelimelerin görüş kutbu skorlarının kullanıldığı yöntemler, sırasıyla skorların harmonik ve geometrik ortalamasını dikkate almıştır. Ancak sadece görüş kutbunun kullanıldığı yöntem, harmonik ve geometrik ortalama yöntemine göre daha iyi sonuç vermiştir. Bazı sözlüksel yaklaşımlarda, cümlelerin içinde geçen görüş sözcüklerine ek olarak başka bazı göstergeler de dikkate alınmıştır. Örneğin [21] de otel, lokanta gibi yerel hizmetler için kullanıcıların yaptığı yorumları görüş kutbuna göre sınıflarken, cümle bağlamı ve kullanıcı puanları da göz önüne alınmıştır. Araştırmada cümlede geçen görüş kelimelerinin sözlükteki skorları toplanarak elde edilen cümle bazlı skora, ham skor adı verilmiştir. Cümle bağlamı ise, cümleden önce ve sonra gelen cümleleri

39 23 dikkate alan bir Maksimum Entropi sınıflandırıcısı kullanılarak göz önüne alınmıştır. Bu yaklaşımla, sadece kelime skorlarını göz önünde bulundurarak ham skoru dikkate alan yaklaşıma göre daha iyi sonuçlar elde edilmiştir. Pozitif cümleleri sınıflandırmada, ek göstergeleri dikkate alan sınıflandırıcı %77,7 lik bir f-skor a sahipken, sadece ham skoru göz önüne alan sınıflandırıcı %62,9 luk bir değere sahip olmuştur. Negatif cümlelerde ise, ek göstergeleri dikkate alan sınıflandırıcı ile sadece ham skoru kullanan sınıflandırıcıların elde ettikleri f-skor değerleri sırasıyla %81,4 ve %54,7 olarak hesaplanmıştır Makine öğrenmesi yaklaşımlarıyla görüş kutbu sınıflandırma Makine öğrenmesi yaklaşımlarında, de anlatılan sözlük tabanlı yaklaşımlardaki gibi bir görüş sözlüğü kullanılmaz. Bunun yerine, genellikle n-gram ları içeren öznitelikler üzerinden eğitilen sınıflandırıcı, yeni gelen örnekleri sınıflandırmaya çalışır. Sınıflandırıcıyı eğitmek için elle etiketlenmiş eğitim verisi gerektiğinden, makine öğrenmesi yaklaşımları genellikle denetimli yaklaşımlardır. Sözlük tabanlı yaklaşımlar ise, küçük bir çekirdek sözlüğü, önyükleme metotları ile genişletip, bu sözlüğü sınıflandırmada kullandığı için yarı-denetimli olarak düşünülebilir. Örneğin, 1 uzunluktaki n-gram ları, yani kelimeleri göz önünde bulunduran bir Naive Bayes sınıflandırıcısı için, eğitim verisindeki her dokümanın pozitif ve negatif olarak etiketlendiğini varsayalım. Sınıflandırıcı, her kelimenin pozitif ve negatif dokümanlarda geçme sıklığına göre, kelimelerin öncül görüş kutbu olasılıklarını hesaplayabilir. Örneğin, kelimenin pozitif bir dokümanlarda geçme sıklığının, bütün dokümanlarda geçme sıklığına oranı, kelimenin pozitif görüş kutbuna sahip olma olasılığını gösterecektir. Görüş kutbu c ile, kelimeler ise w i ile ifade edildiğinde, kelimelerin öncül görüş kutbu olasılıkları P(w i c) ile gösterilir. Bu durumda, Naive Bayes sınıflandırıcısı, görüş kutbu belli olmayan bir D dokümanını Eş. 2.2 ye göre sınıflandıracaktır:

40 24 (2.2) Eş 2.2 deki P(D c) ifadesi, dokümanın c sınıfına ait olma olasılığını temsil etmektedir ve bu ifadenin nasıl hesaplanacağı Eş. 2.3 te gösterilmiştir. P(c) ise, eğitim setindeki pozitif ve negatif doküman sıklığına göre hesaplanan öncül görüş kutbu olasılığını ifade eder. (2.3) Eş. 2.3, sınıflandırılacak dokümanın bir görüş kutbuna sahip olma olasılığını, dokümanda geçen kelimelerin öncül görüş kutbu olasılıkları olan P(w i c) değerlerinin bir çarpımı olduğunu göstermektedir. Makine öğrenmesi yaklaşımlarında yaygın olarak kullanılan öznitelikler n-gram lar, terim sıklığı ve POS etiketleridir [2, 14, 29]. [2] de, C Net ve Amazon dan çeşitli kategorilerdeki ürün yorumları eğitim ve test verisi olarak kullanılmıştır. Geliştirilen yöntemde, 1 uzunluktaki n-gram larla görüş kutbu belirlemek için yukarıda anlatılana benzer bir skorlama yapılmıştır. Skorlamayı yaparken, pozitiflik / negatiflik durumu elle belirlenmiş olan test dokümanları kullanılmıştır. Bir terimin, bu dokümanlarda geçme sıklığına göre, terimin [-1,1] aralığında değer alan görüş kutbu skoru belirlenmiştir (bkz. Eş. 2.4). (2.4) Eş. 2.4 teki p(f i C) ifadesi, bir terimin pozitif dokümanlarda geçme sıklığını ifade ederken, p(f i C ) ifadesi ise negatif dokümanlarda geçme sıklığını ifade eder. Terimlerin skorları belirlendikten sonra, sınıflandırılacak dokümanda geçen

41 25 terimlerin görüş kutbu skorlarının toplamlarının pozitif/negatif olmasına göre dokümanın görüş kutbu sınıflandırması yapılmıştır. [14] te, Twitter dan basit kurallar kullanılarak oluşturulan eğitim setindeki veriler istatistikî olarak analiz edildikten sonra, kullanılacak en uygun öznitelikler belirlenmeye çalışılmıştır. Araştırmada, eğitim verisini Twitter dan çekerken mutlu yüz ifadesi işaretlerinin ( :-) :D gibi) olduğu mesajlar olumlu mesajlar, tersi özelliklere sahip mesajlar da olumsuz mesajlar olarak kabul edilmiştir. Nesnel mesajlar kümesi ise, tanınmış gazete hesaplarının mesajları çekilerek oluşturulmuştur. Daha sonra, etiketleri bu şekilde belirlenmiş olan eğitim verisindeki mesajlar analiz edilerek, mesajlar arasındaki farklar ortaya çıkarılmaya çalışılmıştır. Örneğin, nesnel yazılarda karşılaştırma sıfatları sık kullanılırken, pozitif/negatif yazılarda enüstünlük sıfatları çok kullanılmıştır. Araştırmada, bu şekilde belirlenen özniteliklere ek olarak n-gram ları kullanan bir Naive Bayes sınıflandırıcısı ile görüş kutbu sınıflandırması yapılmaya çalışılmıştır. [29] da görüş kutbu sınıflandırma yöntemlerinde yaygın olarak kullanılan basit tf*idf ağırlıklandırması yerine, bunun varyasyonları olan daha karmaşık tf*idf yöntemleri denenmiş ve sonuçlar rapor edilmiştir. Sınıflandırıcı olarak SVM kullanılmıştır. Öznitelikler olarak kelimeler kullanılıp doküman seviyesinde sınıflandırma yapılmıştır. Aralarında standart tf*idf in de bulunduğu 15 yöntem 3 farklı veri setinde karşılaştırılmış ve karmaşık tf*idf ağırlıklandırmaların daha iyi sonuç verdiği gözlemlenmiştir. İncelenen araştırmaların bazılarında, terim sıklığını kullanmak yerine, bazı sözdizimsel ve bağımlılık yapıları göz önünde bulundurulmuştur [4, 7]. Örneğin [4] teki çalışmada, duygusal olmayan niteleyicilerin görüşleri belirlemekteki faydası doküman bazında araştırılmıştır. (Duygusal olan / olmayan ifadelere örnek vermek gerekirse: This laptop is great. -duygusal, This laptop has a battery life of two hours. -duygusal değil). Araştırmada, niteleyiciler için anlamsal bir hiyerarşi oluşturulmuştur. Hiyerarşinin en üstünde, niteleyiciler doğrudan ve dolaylı olmak

42 26 üzere iki kategoriye ayrılmaktadır. Doğrudan niteleyiciler fiziksel (büyük, küçük, soğuk, tatlı, sesli, üstünde, altında), zamansal (dün, bugün, günlük, yıllık) ve niceliksel (bir, iki, birinci, ikinci) olarak üç kategoride toplanmaktadır. Bu kategorilerin de alt kategorileri bulunmaktadır. Dolaylı niteleyiciler genişlemeli (her zaman, hiçbir zaman) ve karşılaştırmalı (daha büyük, en küçük) olarak iki kategoride toplanmaktadır. 5 farklı ürün kategorisi için, her birinde 1000 pozitif ve 1000 negatif yorumun elle etiketlendiği test veri seti kullanılmıştır. Yapılan testlerde, SVM ve KNN algoritmalarını kullanılmıştır. Test veri setindeki elle belirlenmiş niteleyicilere göre algoritmaların öğrenmesi sağlanılmıştır. Sınıflandırmada SVM ile elde edilen sonuçlar KNN ye göre daha yüksek başarıya sahiptir. SVM in sınıflandırma doğruluğu, en iyi durumda, farklı ürün grupları için %80-85 aralığında olmuştur. [7] de kelimelerin görüş kutbunu belirlemek için, Bilgisayar Görüşü alanında sıkça kullanılan gevşetmeli etiketlendirme yöntemi kullanılmıştır. Gevşetmeli etiketlendirme yönteminde, bir nesnenin her özniteliğine bir etiketin atanma olasılığı hesaplanır. Bu hesaplama yapılırken, nesnenin komşuluğundaki nesnelerin öznitelik etiketleri, atama işleminin kısıtları olarak göz önünde bulundurulmaya çalışılır. Başlangıçta, nesnelerin özniteliklerine atanacak her etiket için bir olasılık hesaplanır. Bu olasılıklar rastgele atanabileceği gibi, [7] de yapıldığı şekliyle, belirli bir yöntem çerçevesinde de yapılabilir. [7] de nesneler olarak kelimeler, atanacak etiketler olarak da pozitif/negatif/nötr etiketleri seçilmiştir. Başlangıçta her kelimeye, belirli bağımlılık yapılarında kullanılmalarına göre PMI yardımıyla hesaplanan görüş kutbu olasılıkları atanmıştır. Kelimelerin komşuluğundaki kelimleler ise, söz konusu kelimeye bağlaçlarla veya tanımlı diğer bağımlılık yapılarıyla bağlı olan kelimelerdir. Bazı makine öğrenmesi yaklaşımlarında, sözlük yaklaşımlarından farklı olarak, görüş kutbu değiştiriciler de bir sınıflandırma problemi olarak düşünülmüştür. Görüş kutbu değişmesi şöyle açıklanabilir: Bir cümlede geçen olumlu kelime sayısı, olumsuza göre fazla olmasına rağmen, cümlenin anlamı olumsuzdur. Bunun nedeni olumsuzlama kelimeleri ve diğer bazı sözdizimsel yapılar olabilir. Örneğin [25] te bu problem bir sınıflandırma problemi şeklinde modellenmiştir. Çalışmada, önce

43 27 doküman bazlı görüş kutupları belli olan bir eğitim verisi üzerinden yüksek görüş kutbu skoruna sahip kelimeler belirlenmiş ve bu kelimelerin görüş kutupları da içinde bulundukları dokümanın görüş kutbuyla aynı olarak kabul edilmiştir. Eğer bir cümle bu kelimelerden birini içeriyorsa ve karşıt görüş kutbuna sahip kümedeyse bu cümlede görüş kutbu değişmesi olduğu var sayılmıştır. Bu kabulle, görüş kutbu değişmesi olan cümleleri içeren eğitim verisi oluşturulup, bu veri seti üzerinden eğitilen sınıflandırıcılar ile cümlelerde görüş kutbu değişimi olup olmadığı belirlenmeye çalışılmıştır. Doküman bazlı sınıflandırmada, kullanıcı yorumlarının bazılarını sınıflandırmak, diğerlerine göre daha kolaydır. Çünkü, yorumun geneline hakim olan bir görüş kutbu vardır. Ancak bazı yorumlarda, örneğin film yorumlarında, yorumu yapan kullanıcı filmi beğenmiş olsa bile, filmin iyi ve kötü yanlarından bahsedebilir. [42] de bu durum ele alınmaya çalışılmıştır. Önce spektral demetleme kullanılarak görüş kutbunu belirlemek zor olan / kolay olan yorum ayrımı yapılmıştır. Ardından, görüş kutbunu belirlemek zor olan yorumlar kullanılarak bir SVM sınıflandırıcısı eğitilmiş ve bu sınıflandırıcı ile görüş kutbunu belirlemek zor olan yorumlar sınıflandırılmaya çalışılmıştır. Spektral demetlemede, bir kare matrisin eigen vektörü bulunur ve bu vektör üzerinden demetleme yapılmaya çalışılır. Kare matristeki her noktayı göz önünde bulundurmak yerine, bir eigen vektörünü göz önünde bulundurmak, bir çeşit öznitelik seçimi metodu olarak düşünülebilir. [42] de önce yorumlarda geçen kelimelerden bir W kümesi oluşturulmuştur: W = {w 1, w 2, w 3,..., w n } Daha sonra yorumlar bu kümedeki kelimeleri içerme frekanslarına göre bir frekans vektörü olarak temsil edilmiştir. Bu vektör R = {f w1, f w2, f w3,..., f wn } şeklinde gösterilebilir. Bu vektördeki her f wi değeri w i kelimesinin R yorumunda kaç kere geçtiğini göstermektedir. Ardından, her yorum arasındaki benzerlik, yorumların skalar çarpımı şeklinde bir kare matrise kodlanmıştır. Aynı yorumlar arasındaki benzerlik, matriste 0 olarak kodlanmıştır (yani matrisin köşegeni 0 değerlerinden oluşmaktadır.) Bu kare matris kullanılarak elde edilen eigen vektöründe, 0 dan belirli bir eşik değer kadar veya daha fazla uzakta kalan noktalar, görüş kutbu kolay belirlenebilen yorumları, 0 ın civarında bulunanlar ise görüş kutbunun belirlemesi zor olan yorumları göstermiştir.

44 28 Araştırmaların bazılarında n-gram lar ve frekans bilgisi yerine bağımlılık yapıları gibi daha karmaşık hiyerarşik yapıları kullanan özdevinimli kodlayıcılar ve CRF gibi yöntemler de kullanılmıştır [18, 41]. [41] de ise, her cümlesindeki ürün öznitelikleri ve görüş kelimelerinin elle etiketlendiği bir eğitim seti kullanılarak eğitilen HMM sınıflandırıcı, yeni gelen cümlelerdeki kelimelerin etiketlerini belirlemekte kullanılmıştır Görüş kutbu sınıflandırmada konu belirleme Bilgi erişimi alanında, bir metnin konusunu belirlemek, üzerinde yoğun bir şekilde çalışılmış olan bir konudur. Bir metnin konusu, metni özetleyecek kilit ifadelerin bir kümesi olarak düşünülebilir. Görüş kutbu sınıflandırma yapılırken dikkate alınan bütüncedeki dokümanlar, belirli sorgular sonucunda bir konu çerçevesinde oluşturulabileceği gibi, çeşitli konuları içeren dokümanlardan da oluşabilir. Konu odağı olmayan, yani birçok konudan oluşan bütüncelerdeki dokümanları ve cümleleri sınıflandırırken konu belirlemenin faydası olup olmadığı bazı araştırmalarda dikkate alınan bir konu olmuştur [3, 36, 37, 39] [3] te, doküman ve paragraf bazlı konu belirlemede tf*idf skoru en yüksek olan kelimeler dikkate alınmıştır. Daha sonra konuyla alakalı cümleler ve dokümanlar için görüş kutbu skorları hesaplanmıştır (yani konuya göre özetlenen cümlelerde görüş analizi yapılmıştır). Konuyla alakalı cümleleri belirleyerek yapılan sınıflandırmada başarının arttığı gösterilmiştir. Basit tf*idf yöntemleri yerine LDA ya dayanan daha karmaşık konu belirleme yöntemleri kullanarak görüş kutbu sınıflandırma yapan çalışmalar da mevcuttur [36, 37, 39]. LDA bir metindeki konuları keşfetmeye yarayan bir yöntemdir. Parametre olarak keşfedilecek konu sayısını ve metni alır ve konu sayısı parametresine göre metnin içerdiği en olası konuları bulur. Örneğin LDA ya şu cümlelerin verilip, iki tane konu bulması istenirse, I like to eat broccoli and bananas. I ate a banana and spinach smoothie for breakfast.

45 29 Chinchillas and kittens are cute. My sister adopted a kitten yesterday. Look at this cute hamster munching on a piece of broccoli. LDA şuna benzer bir sonuç dönecektir: Cümle 1 ve 2: %100 A konusu Cümle 3 ve 4: %100 B konusu Cümle 5: %60 A Konusu, %40 B Konusu Konu A: %30 broccoli, %15 bananas %10 breakfast, %10 munching Topic B: %20 chinchillas, %20 kittens, %20 cute, %15 hamster LDA nın oluşturduğu konulara bakılarak, A konusunun yiyeceklerle, B konusunun hayvanlarla alakalı olduğu çıkarılabilir Görüş Çıkartma Görüş çıkartma, bir dokümandaki öznel cümleleri belirlemeyle ilgilenen görüş madenciliği dalıdır. Görüş çıkartma, görüş kutbu sınıflandırmanın bir ön adımı gibi düşünülebilir; çünkü görüş kutbu belirlenecek olan cümlelerin ve dokümanların görüş içermesi gerekir. Görüş çıkartma araştırmalarının geneli, dilsel kalıpların örneklenmesine dayanmaktadır [15, 43, 45, 46, 48]. Bazı araştırmalarda ise, dilsel örnekleme yerine yalın olarak n-gram lar kullanılmıştır [44, 47]. Dilsel kalıplar, POS etiketlerinden oluşan kalıplardır ve bu kalıpların metinde görüş bildiren kısımları iyi temsil ettiği düşünülmektedir. Örneğin <RB JJ NN> ilk kelimenin bir zarf, ikincinin bir sıfat ve üçüncünün bir isim olduğu dilsel bir kalıptır. Bu kalıbın belirli kısımlarının veya tamamının örneklenmesine dilsel örnekleme adı verilmektedir. Çizelge 2.3 te <RB JJ NN> kalıplarının kısmen ve tamamen örneklenmesi gösterilmiştir. 2 Örneğin alındığı web sitesi:

46 30 Çizelge 2.3. Dilsel kalıp örnekleme RB JJ NN RB JJ idea RB great NN really JJ NN RB great idea really JJ idea really great NN really great idea Dilsel kalıplar, yalın n-gram lara göre daha avantajlı özniteliklerdir. Dilsel kalıpların kısmen örneklenmesi alan bağımsızlık sağlayabilir. Ayrıca dilsel kalıplar, yalın n- gram lara göre daha çok durumu temsil edebilirler. [15] te, görüş çıkartma amacıyla {nesne, öznitelik, değer} üçlülerini barındıran çeşitli dilsel kalıplar belirlenmiş ve bu örüntüler kullanılarak öznitelik ve değer bilgileri çıkartılmaya çalışılmıştır. Örneğin bir otomobille ilgili The seats are very comfortable and supportive. cümlesindeki {nesne, öznitelik, değer} üçlülerinden biri <otomobil_x, seats, comfortable> olarak gösterilebilir. Kalıplar mobil telefon alanından belirlenip otomobil ve bilgisayar oyunu alanına uygulanmıştır. Test edilen her iki alan için de nesne listesi elle belirlenmiştir. İleri sürülen yöntemde çeşitli kısıtlamalar mevcuttur. Örneğin değer bilgisi sadece sıfatlardan seçilmiştir. Öznitelikler için ise bilinmeyen kelimeler ve adlar dikkate alınmıştır. Bunlara ek olarak iki tane de skorlama kısıtı kullanılmıştır. Bunlardan birincisi, yüksek sıklığa sahip terimlere daha yüksek öncelik verilmesidir. İkinci olarak, bazı kalıplar diğer kalıplara göre daha kötü sonuç verdiği için, kalıplara elle güvenilirlik ağırlıkları verilmiştir. Sonuçta otomobil alanında görüşleri belirlemede %45 oranında, bilgisayar oyunu alanında ise %35 oranında başarı elde edilmiştir. [43] te, [15] tekinin aksine, kalıplar elle belirlenmek yerine öğrenilmeye çalışılmıştır. Öncelikle, öznellik durumları elle etiketlenmiş olan cümlelerden oluşan bir eğitim veri seti oluşturulmuş ve bu sette sıkça rastlanan dilsel kalıplar öznellik

47 31 kalıpları olarak belirlenmiştir. Eğitim seti elle etiketlendiği için, yöntem denetimli bir yöntemdir. [45] ve [46] da ise, [43] tekinin aksine, eğitim verisi de otomatik bir şekilde oluşturulmaya çalışılmıştır. Bu amaçla, yüksek doğruluk, düşük anmaya sahip olan öznellik belirleyici sınıflandırıcılar kullanılmıştır. Bu sınıflandırıcılar, metinlerde geçen öznel kısımların çok küçük bir kısmını belirleyebilse de, belirledikleri kısımlar yüksek doğruluk oranına sahiptir. Bu sınıflandırıcılar kullanılarak oluşturulan eğitim verisi [43] teki gibi taranarak dilsel kalıplar çıkarılmaya çalışılmıştır. [48] de kapsama hiyerarşisi durumları göz önünde bulundurularak öznellik belirleme üzerine çalışılmış. Örneğin happy, very happy yi kapsamaktadır. Eğer very happy öznellik belirlemede daha etkinse, happy yerine kullanılabilir. Bu şekilde öznitelik uzayını indirgeyerek, öznellik belirlemede daha iyi sonuçlar alınabileceğini gösterilmiştir. Araştırmada n-gram lar ve kalıp öznitelikler analiz edilmiştir. Özniteliklerin birbirini kapsayıp kapsamadığı, iki kısıta dayanmaktadır: (1) A özniteliği, B yi temsil açısından kapsayabilir (happy, very happy örneğindeki gibi) (2) InformationGain(B) > InformationGain(A) - ß olmalıdır. ß, A özniteliğinin B yerine kullanılabilir olma eşiği olarak düşünülebilir. Bu iki kısıt sağlandığında, daha karmaşık A özniteliğinin B yerine kullanılabilir olduğu gösterilmiş olur. Kapsama hiyerarşisi ile görüş çıkarmada, kapsamanın kullanılmadığı duruma göre %1 lik bir artış elde edilmiştir Görüş Hedefi Belirleme Görüş madenciliğinde, çoğu zaman sadece bir metinde geçen görüşü veya görüşün kutbunu belirlemek yeterli olmaz. Görüşün hangi varlıklar üzerine belirtildiğini de bulmak gerekir. Görüş hedefi belirleme, bir dokümandaki veya cümledeki görüşlerin, hangi varlıklar için belirtildiğini bulma işlemidir. Görüş hedefleri, bir kişi, bir ürün, ürünün çeşitli parçaları ve özellikleri veya bir hizmet olabilir. Örneğin bir e-ticaret sitesinde, kullanıcıların yorumlarında geçen A markalı bir dijital kamera ve bu

48 32 kameranın odaklanma süresi, resim kalitesi, şarj süresi, ağırlığı gibi varlıklar, görüş hedefleri olabilir. Görüş madenciliği üzerine yapılan çalışmalardan bazılarında, görüş hedefleri belirleme konusu üzerine de çalışılmıştır [1, 6, 7, 13, 22, 31, 33]. Görüş hedefleri belirlenirken çalışmalarda farklı yaklaşımlar benimsenmiştir. Bağımlılık bilgisi [1, 31], görüş bildiren kelimelere yakınlık [31], yaygın öğe belirleme yaklaşımları [6], parça bütün kalıpları [7] ve WordNet ilişkilerinin kullanımı [13] gibi yöntemler bu yaklaşımlara örnek olarak gösterilebilir. [1] de kelimeler arasında tanımlanan doğrudan ve dolaylı bağımlılıklar yardımıyla görüş hedefleri belirlenmeye çalışılmıştır (bkz ). Çekirdek bir görüş sözlüğündeki kelimelere doğrudan veya dolaylı bağımlılığı olan görüş kelimeleri ve hedefler belirlenir. Daha sonra bunlara doğrudan veya dolaylı bağlı olan görüş kelimeleri ve hedefler belirlenir. Yeni görüş kelimeleri veya hedefler belirlenmeyene kadar işlem devam eder. Örneğin Canon G3 takes great pictures. cümlesinde great ve pictures kelimeleri arasında doğrudan bir bağımlılık vardır. Bu iki kelimeden herhangi biri görüş veya hedef kümesinde zaten varsa, diğeri de görüş kelimesi veya hedef olarak belirlenebilir. Bu araştırmada görüş hedefi adayları olarak, cümlede geçen isim türündeki sözcükler dikkate alınmıştır. [6] da yaygın öğe belirlemede sıkça kullanılan bir algoritma olan Apriori ile görüş hedefleri belirlenmeye çalışılmıştır. Algoritmanın dikkate aldığı öğeler kelimelerdir. Apriori ile belirlenen yaygın öğelerden gereksiz olanlar budanmaya çalışılmıştır. Eğer bir yaygın öğe, bir isim tamlaması olan başka bir yaygın öğenin içinde geçiyorsa budanmıştır. [7] de görüş hedeflerini belirlemek için, belirli bir sıklık eşiğinin üstündeki adlar bulunup, bunların daha önceden belirlenmiş dilsel parça bütün kalıplarıyla birlikte geçme skoru PMI kullanarak hesaplanmıştır. Parça bütün kuralları <xxx> of scanner, scannner has <xxx>, scanner comes with <xxx> benzeri kalıplardır.

49 33 [13] te kümeleme teknikleriyle aynı anlama sahip olan ürün öznitelikleri gruplanmaya çalışılmıştır (örn, kamera için picture ve photo öznitelikleri aynı anlama sahiptir). [22] de otel, lokanta gibi yerel hizmetlerle ilgili hedefleri çıkarmada iki alt yaklaşımdan oluşan hibrit bir yaklaşım belirlenmiştir. Birinci yaklaşımda, dinamik bir şekilde, yorumlarda geçen isimler, sıklıklarına göre öznitelik olarak kabul edilmiştir. İkinci yöntemde ise, önce otel ve lokanta sektörleriyle ilgili hedef kategorileri belirlenmiştir. Lokantalar için bu kategoriler yemek, dekor, hizmet ve fiyat olarak sıralanabilir. Oteller için ise belirlenen kategoriler odalar, hizmet, yerleşim, fiyat ve yemek olarak sıralanabilir. Rastgele seçilen cümlelerde bu kategorilerle ilgili hedefler elle etiketlendikten sonra, Maksimum Entropi sınıflandırıcısı ile cümlelerde bu hedeflerden bahsedilip bahsedilmediği belirlenmeye çalışılmıştır.

50 34 3. UYGULANAN YÖNTEMLER Bu kısımda, tez çalışması kapsamında uygulanan yöntemler anlatılmıştır. Bölüm 3.1 de testler sırasında kullanılan veri seti ile ilgili ayrıntılı bilgi verilmiştir. Bölüm 3.2 de makine öğrenmesi yaklaşımlarıyla yapılan sınıflandırmalar anlatılmış ve sonuçlar verilmiştir. Bölüm 3.3 te görüş sözlüğü kullanılarak yapılan sınıflandırmalar anlatılmış ve sonuçlar verilmiştir Kullanılan Veri Seti Tez çalışması kapsamında yapılan görüş kutbu sınıflandırma çalışmalarında kullanılan veri seti, BeyazPerde.com adlı internet sitesindeki film yorumlarından elde edilmiştir. BeyazPerde.com, geniş bir film veritabanına sahip olan bir sinema sitesidir. Alexa 3 istatistiklerine göre Türkiye de ziyaret edilme sıklığına göre, Aralık 2012 itibariyle 274 üncü sırada bulunmaktadır. BeyazPerde.com sitesinde, güncel filmlerden klasiklere, birçok film hakkında kullanıcı yorumları ve puanlamaları bulunmaktadır. Her yorumla birlikte, kullanıcının ilgili filme verdiği bir puan bulunmaktadır ve bu puan 1-10 arasında değişmektedir. BeyazPerde.com dan çeşitli filmler için yazılmış olan toplamdaki 2305 yorum indirilmiş ve bu yorumlar elle etiketlenerek 1057 pozitif yorum ve 978 negatif yorum elde edilmiştir. Geriye kalan 270 yorum, hem pozitif hem negatif görüş içermesi nedeniyle kutbu belirlenemeyen, herhangi bir görüş içermeyen veya anlaşılamayan yorumlardır (bkz. Çizelge 3.1). Çizelge 3.1. Yorum sınıf dağılımları Pozitif Yorum Sayısı 1057 Negatif Yorum Sayısı 978 Diğer 270 Toplam

51 Yorum Sayısı 35 Pozitif yorumların 1-10 aralığındaki puanlamalara göre dağılımı Şekil 3.1 de negatif yorumların dağılımı ise Şekil 3.2 de gösterilmiştir Yorum Puanları Şekil 3.1. Pozitif yorumların skorlara göre dağılımı

52 Yorum Sayısı Yorum Puanları Şekil 3.2. Negatif yorumların skorlara göre dağılımı Şekil 3.1 ve Şekil 3.2 ye bakıldığında yorum puanlarının kutuplarla uyumlu olmadığı görülmektedir. 5 ten düşük puan alan yorumların kötü, 5 puan alan yorumların vasat ve 5 ten iyi puan alan yorumların iyi filmlere ait olduğunu varsayarsak, bu varsayım pozitif yorumların %25,45 inin, negatif yorumların ise %41,21 inin yanlış etiketlenmesi anlamına gelmektedir. Puanlamadaki sorun, 5 puan alan vasat yorumların görece çokluğundan kaynaklanmaktadır ve 5 puan alan yorumların olumlu mu yoksa olumsuz mu oldukları sadece puanlamaya bakılarak kestirilemez. Bu grafiklere bakıldığında, kullanıcıların yorum puanlamalarını tutarlı bir şekilde kullanmadıkları sonucu da ortaya çıkar. Bu nedenle, indirilen yorumlar puanlarına göre etiketlenmek yerine elle etiketlenmiştir. [50] de Türkçe film yorumları için duygu analizi üzerine bir çalışma yapılmış ve film yorumları BeyazPerde.com sitesinden elde edilmiştir. Eğitim ve test verisi oluşturmak amacıyla yorumların etiketlenmesi, kullanıcıların yorumlara verdiği puanlar üzerinden otomatik olarak yapılmıştır. Kullanıcıların yorumlara verdiği puanlarla, yorumların duygu yöneliminin tutarlı olmadığı düşünüldüğünden, bu çalışmada oluşturulan veri seti kullanılmamıştır.

53 37 Türkçe duygu analizi üzerine başka bir çalışma da [51] de yapılmıştır. Bu çalışmada psikolojik tedavi alan hastaların belirli konular hakkında yazdıkları yazılar ve psikologların hastalar hakkında yazdıkları yazılardan oluşmaktadır. Çalışmada, bu yazılar kullanılarak depresyonda/depresyonda değil/kaygılı/kaygılı değil sınıflandırması yapılmıştır. Bu açıdan bakıldığında, bu çalışmada yapılmak istenen olumlu/olumsuz sınıflandırmasına uygun bir veri seti değildir Makine Öğrenmesi Metotlarıyla Görüş Kutbu Belirleme Bu kısımda SVM, Naive Bayes, KNN ve C4.5 sınıflandırıcıları kullanılarak veri seti üzerinde yapılan görüş kutbu sınıflandırmalarının sonuçları bölümünden itibaren verilmiştir. Elde edilen sonuçlara geçmeden önce, bölümünde bu sınıflandırıcıların her biri kısaca anlatılmıştır. Sınıflandırma işlemi yapılmadan önce, veri seti üzerinde yapılan filtreme ve düzeltme işlemleri bölümünde anlatılmıştır. Sınıflandırıcılarda öznitelik olarak kullanılan terimleri skorlama yöntemlerinden ise bölümünde bahsedilmiştir Kullanılan sınıflandırıcılar SVM SVM, sınıfları birbirinden ayıran doğrusal hiperdüzlemi bulmaya çalışan bir sınıflandırıcıdır. SVM, doğrusal düzlemi destek vektörleri ve destek vektörlerine göre tanımlanan maksimum aralık ile bulmaya çalışır. Destek vektörleri ve ayırıcı hiperdüzlem kavramları Şekil 3.3 üzerinden anlatılmıştır.

54 38 Şekil 3.3. SVM destek vektörleri ve hiper düzlemi 4 Şekilde iki farklı sınıfa ait örnekler bulunmaktadır. Bu sınıfların pozitif ve negatif olarak adlandırıldığını varsayarsak, pozitif sınıfların örneklerini, şekildeki içi dolu daireler, negatif sınıfların örneklerini de içi boş daireler olarak düşünebiliriz. Şekilde, her örnek X 1 ve X 2 gibi iki öznitelik değerine sahiptir. Bir örneğin X ile temsil edildiğini kabul edersek, X = (X 1, X 2 ) denebilir. SVM, bu iki sınıfın örneklerini, doğrusal bir hiperdüzlem ile en iyi şekilde ayırmaya çalışmaktır. Şekilde, her örneğin iki özniteliği olduğu için, bu hiperdüzlem aslında bir düzlem değil, doğrusal bir çizgidir. Ancak öznitelik sayısı 3 tane olsaydı, örnekleri birbirinden ayırmak için bir düzlem gerekecekti. 4 veya daha fazla öznitelikte ise, örnekleri birbirinden ayırmak için gereken düzleme hiperdüzlem adı verilmektedir. 4 Şeklin temin adresi:

Daha göster