TÜRKÇE METİNLERDE DENETİMLİ VE SÖZLÜK TABANLI DUYGU ANALİZİ YAKLAŞIMLARININ KARŞILAŞTIRILMASI. Burak İbrahim SEVİNDİ

Ebat: px
Şu sayfadan göstermeyi başlat:

Download "TÜRKÇE METİNLERDE DENETİMLİ VE SÖZLÜK TABANLI DUYGU ANALİZİ YAKLAŞIMLARININ KARŞILAŞTIRILMASI. Burak İbrahim SEVİNDİ"

Transkript

1 TÜRKÇE METİNLERDE DENETİMLİ VE SÖZLÜK TABANLI DUYGU ANALİZİ YAKLAŞIMLARININ KARŞILAŞTIRILMASI Burak İbrahim SEVİNDİ YÜKSEK LİSANS TEZİ BİLGİSAYAR MÜHENDİSLİĞİ GAZİ ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ OCAK 2013 ANKARA

2

3 TÜRKÇE METİNLERDE DENETİMLİ VE SÖZLÜK TABANLI DUYGU ANALİZİ YAKLAŞIMLARININ KARŞILAŞTIRILMASI Burak İbrahim SEVİNDİ YÜKSEK LİSANS TEZİ BİLGİSAYAR MÜHENDİSLİĞİ GAZİ ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ OCAK 2013 ANKARA

4 Burak İbrahim SEVİNDİ tarafından hazırlanan TÜRKÇE METİNLERDE DENETİMLİ VE SÖZLÜK TABANLI DUYGU ANALİZİ YAKLAŞIMLARININ KARŞILAŞTIRILMASI adlı bu tezin yüksek lisans tezi olarak uygun olduğunu onaylarım. Yrd. Doç. Dr. Hacer KARACAN Tez Danışmanı, Bilgisayar Mühendisliği.. Bu çalışma, jürimiz tarafından oy birliği ile Bilgisayar Mühendisliği Ana Bilim Dalında Yüksek Lisans Tezi olarak kabul edilmiştir. Prof. Dr. M. Ali AKCAYOL Bilgisayar Mühendisliği, Gazi Üniversitesi.. Doç. Dr. Erdoğan DOĞDU Bilgisayar Mühendisliği, TOBB ETÜ.. Yrd. Doç. Dr. Hacer KARACAN Bilgisayar Mühendisliği, Gazi Üniversitesi.. Tez Savunma Tarihi: 25/01/2013 Bu tez ile G.Ü. Fen Bilimleri Enstitüsü Yönetim Kurulu Yüksek Lisans derecesini onamıştır. Prof. Dr. Şeref SAĞIROĞLU Fen Bilimleri Enstitüsü Müdürü.

5 TEZ BİLDİRİMİ Tez içindeki bütün bilgilerin etik davranış ve akademik kurallar çerçevesinde elde edilerek sunulduğunu, ayrıca tez yazım kurallarına uygun olarak hazırlanan bu çalışmada bana ait olmayan her türlü ifade ve bilginin kaynağına eksiksiz atıf yapıldığını bildiririm. Burak İbrahim SEVİNDİ

6 iv TÜRKÇE METİNLERDE DENETİMLİ VE SÖZLÜK TABANLI DUYGU ANALİZİ YAKLAŞIMLARININ KARŞILAŞTIRILMASI (Yüksek Lisans Tezi) Burak İbrahim SEVİNDİ GAZİ ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ Ocak 2013 ÖZET World Wide Web (WWW) daha etkileşimli bir hal aldıkça, görüşlerini paylaşan kullanıcıların sayısı artmıştır. Kullanıcılar; ürünler, hizmetler, markalar, şirketler, haberler, vb. hakkında görüşlerini paylaşmaktadırlar. Bu paylaşım için, kişisel bloglar, Facebook ve Twitter gibi sosyal ağlar, çevrimiçi gazeteler ve e-ticaret siteleri gibi birçok araç ve teknolojileri kullanmaktadırlar. Bu durum da beraberinde bir görüş patlaması getirmiştir. Artık, örneğin bir ürün hakkında Web üzerinden paylaşılan bütün yorumları okumak, hem ürün sahibi şirket hem de ürünü alacak kullanıcı açısından imkânsız hale gelmiştir. Duygu Analizi bu tip problemler üzerine ortaya çıkmış olan bir çalışma alanıdır. Duygu analizi, bir bütüncedeki görüş bildiren metin kısımlarını belirleme, bu metin kısımlarını ifade ettikleri görüşe göre sınıflandırma ve görüşleri kolayca anlaşılabilir özetler halinde kullanıcıya sunma işlerini kapsar. Bu çalışmada, Duygu Analizi alanında yapılan güncel bilimsel çalışmalarda sıkça kullanılan iki yöntem karşılaştırılmıştır. Bu yöntemler, makine öğrenmesi yaklaşımlarıyla yapılan duygu analizi ve sözlük tabanlı yaklaşımlarla yapılan duygu analizi olarak sıralanabilir. Makine öğrenmesi yaklaşımları, etiketli eğitim verisi üzerinden öğrenmeyi gerçekleştirdiği için, denetimli yaklaşımlardır. Öte yandan, sözlük tabanlı yaklaşmlar, çekirdek bir terim kümesinden başlayıp, WordNet gibi anlamsal bir veritabanı yardımıyla bu sözlüğü bir duygu

7 v sözlüğüne dönüştüren ve bu duygu sözlüğünü de duygu analizi işlemlerinde bir kaynak olarak kullanan yarı denetimli yaklaşımalrdır. Bu çalışmada, belirtilen yöntemler Türkçe bir veri setine uygulanıp, elde edilen sonuçlar yorumlanmıştır. Bilim Kodu : Anahtar Kelimeler : duygu analizi, görüş madenciliği, görüş çıkartma Sayfa Adedi : 98 Tez Yöneticisi : Yrd. Doç. Dr. Hacer KARACAN

8 vi COMPARISON OF SUPERVISED AND DICTIONARY BASED SENTIMENT ANALYSIS APPROACHES ON TURKISH TEXT (M.Sc. Thesis) Burak İbrahim SEVİNDİ GAZİ UNIVERSITY INSTITUTE OF SCIENCE AND TECHNOLOGY January 2013 ABSTRACT The more the World Wide Web (WWW) gets interactive, the more users share their opinions on it. Users share their opinions on products, services, brands, companies, news, etc. They share their opinions by using tools and technology, such as personal blogs, social networks like Facebook and Twitter, online newspapers, and e-commerce sites. This situation brings about an explosion of opinions. For example, it is not possible anymore to read all opinions shared on Web about a product, for both the company that sells the product and for users that buy it. Sentiment analysis is a research area for solving these kinds of problems. Sentiment Analysis encompasses operations such as determining the opinion bearing parts of a text, classifying the text by its sentiment orientation, presenting the opinions to users in easily understandable summarizations. In this work, two frequently used approaches by current research on Sentiment Analysis are compared. These approaches are sentiment analysis by using machine learning techniques and dictionary based sentiment analysis. Machine learning techniques are supervised techniques because they are based on learning from labeled training data. Dictionary based approach on the other hand, is a semi-supervised approach which starts from a seed sentiment vocabulary and extends this vocabulary by means of a semantic database such as WordNet to a sentiment dictionary and uses this dictionary as a resource for

9 vii sentiment classification tasks. In this work, specified approaches are applied to a Turkish dataset and results are discussed. Science Code : Key Words : sentiment analysis, opinion mining, opinion extraction Page Number : 98 Advisor : Assist. Prof. Dr. Hacer KARACAN

10 viii TEŞEKKÜR Çalışmalarımda manevi desteğini her zaman yanımda hissettiğim annem Dildar SEVİNDİ ye, kardeşim Sıla SEVİNDİ ye ve yakın arkadaşım Leona R. W. ya; her konuda bana yardımcı olup yönlendiren tez danışmanım Yrd. Doç. Dr. Hacer KARACAN a ve önerileriyle tezime katkıda bulunan yakın arkadaşlarım Seyfullah DEMİR ve Gonca Hülya DOĞAN a teşekkürü bir borç bilirim.

11 ix İÇİNDEKİLER Sayfa ÖZET... iv ABSTRACT... vi TEŞEKKÜR... viii ÇİZELGELERİN LİSTESİ... xi ŞEKİLLERİN LİSTESİ... xiii SİMGELER VE KISALTMALAR... xiv 1. GİRİŞ KAYNAK ARAŞTIRMASI Görüş Madenciliğinde Kullanılan Öznitelikler Kelimeler, ifadeler ve n-gram lar POS etiketleri Bağımlılık bilgisi Kelime-altı öznitelikler Diğer öznitelikler Görüş Kutbu Sınıflandırma Görüş sözlüğü oluşturma Sözlük tabanlı görüş kutbu sınıflandırma Makine öğrenmesi yaklaşımlarıyla görüş kutbu sınıflandırma Görüş kutbu sınıflandırmada konu belirleme Görüş Çıkartma Görüş Hedefi Belirleme UYGULANAN YÖNTEMLER... 34

12 x Sayfa 3.1. Kullanılan Veri Seti Makine Öğrenmesi Metotlarıyla Görüş Kutbu Belirleme Kullanılan sınıflandırıcılar Veri setinde yapılan filtrelemeler ve düzeltmeler Kullanılan terim skorlama yöntemleri Kullanılan sonuç değerlendirme yöntemleri Kelime kökleri kullanılarak elde edilen sınıflandırma sonuçları Kelime kökleri kullanılarak elde edilen sonuçların yorumlanması Ekli kelimelerin sonuçlara etkisi Bilinmeyen terimlerin sonuçlara etkisi Terim sıklığı ile terim varlık/yokluk durumunun etkisi Etkisiz kelimeleri elemenin etkisi Görüş Sözlüğü Tabanlı Duygu Analizi ve Sınıflandırma Türkçe WordNet veritabanı SentiWordNet görüş sözlüğü ve SentiWordNet in Türkçeleştirilmesi Türkçe SentiWordNet kullanılarak yapılan sınıflandırma sonuçları SONUÇ VE ÖNERİLER KAYNAKLAR EKLER Ek-1 Etkisiz Kelimeler Listesi Ek-2 En Yüksek Skorlu 40 Pozitif ve 40 Negatif Terim Ek-3 Sonuçların Hata Matrisleri ÖZGEÇMİŞ... 98

13 xi ÇİZELGELERİN LİSTESİ Çizelge Sayfa Çizelge 2.1. Sözlük tabanlı yaklaşımla cümle bazında görüş kutbu sınıflandırma Çizelge 2.2. Sözlük tabanlı yaklaşımda doküman bazında görüş kutbu sınıflandırma Çizelge 2.3. Dilsel kalıp örnekleme Çizelge 3.1. Yorum sınıf dağılımları Çizelge 3.2. C4.5 Sınıflandırma Sonuçları (n-gram boyu = 1) Çizelge 3.3. KNN Sınıflandırma Sonuçları (n-gram boyu = 1) Çizelge 3.4. Naive Bayes Sınıflandırma Sonuçları (n-gram boyu = 1) Çizelge 3.5. SVM Sınıflandırma Sonuçları (n-gram boyu = 1) Çizelge 3.6. C4.5 Sınıflandırma Sonuçları (n-gram boyu = 2) Çizelge 3.7. KNN Sınıflandırma Sonuçları (n-gram boyu = 2) Çizelge 3.8. Naive Bayes Sınıflandırma Sonuçları (n-gram boyu = 2) Çizelge 3.9. SVM Sınıflandırma Sonuçları (n-gram boyu = 2) Çizelge C4.5 Sınıflandırma Sonuçları (n-gram boyu = 3) Çizelge KNN Sınıflandırma Sonuçları (n-gram boyu = 3) Çizelge Naive Bayes Sınıflandırma Sonuçları (n-gram boyu = 3) Çizelge SVM Sınıflandırma Sonuçları (n-gram boyu = 1) Çizelge SVM Sınıflandırma Sonuçları (n-gram boyu = 1) (Köklere ayrıştırma Çizelge SVM Sınıflandırma Sonuçları (n-gram boyu = 1) (Köklere ayrıştırma Çizelge Etkisiz kelimeleri elemenin sonuçlara etkisi (SVM) Çizelge Türkçe WordNet'teki "mükemmel" kelimesi kaydının bir kısmı... 60

14 xii Çizelge Sayfa Çizelge SentiWordNet Yapısı Çizelge Örnek SentiWordNet Satırı Çizelge SentiWordNet'i Türkçeleştirme Algoritması Çizelge Türkçe Görüş Sözlüğü kullanan sınıflandırıcı algoritması Çizelge Türkçe görüş sözlüğü ile yapılan sınıflandırma sonuçları... 65

15 xiii Şekil ŞEKİLLERİN LİSTESİ Sayfa Şekil 2.1. Bağımlılık bilgisi... 7 Şekil 2.2. Etiket yayılımı algoritması Şekil 2.3. Minimum kesit Şekil 2.4. Çizge yayılımı algoritması Şekil 2.5. Doğrudan bağımlılık Şekil 2.6. Dolaylı bağımlılık Şekil 2.7. Bir bayes ağı (sol) ve Y düğümü için Markov örtüsü (sağ) Şekil 3.1. Pozitif yorumların skorlara göre dağılımı Şekil 3.2. Negatif yorumların skorlara göre dağılımı Şekil 3.3. SVM destek vektörleri ve hiper düzlemi Şekil 3.4. Karar ağacı örneği Şekil 3.5. A-TF ve TF ilişkisi Şekil 3.6. LA-TF ve TF ilişkisi Şekil 3.7. L-TF ve TF ilişkisi Şekil 3.8. N-TF ve TF ilişkisi Şekil 3.9. TF*IDF Skorlama İçin Sınıflandırıcı Sonuçları... 57

16 xiv SİMGELER VE KISALTMALAR Bu çalışmada kullanılmış bazı simgeler ve kısaltmalar, açıklamaları ile birlikte aşağıda sunulmuştur. Kısaltmalar Açıklama A-TF B-TF CRF DF FN FP HMM IDF KNN LA-TF LDA LSA L-TF N-TF PMI POS SVM TF TN TP WWW Augmented TF Boolean TF Conditional Random Fields Document Frequency False Negative False Positive Hidden Markov Model Inverse Document Frequency K-Nearest Neighbour Log-Average TF Latent Dirichlet Allocation Latent Semantic Analysis Logaritmik TF Normalized TF Pointwise Mutual Information Part of Speech Support Vector Machine Term Frequency True Negative True Positive World Wide Web

17 1 1. GİRİŞ Görüş madenciliği metinlerdeki görüş bildiren kısımları belirlemek ve bunları çeşitli açılardan sınıflandırmak amacıyla ortaya çıkmış olan bir araştırma alanıdır. Görüş madenciliğinde, doğal dil işleme, berimsel dilbilim, makine öğrenmesi ve veri madenciliği gibi bilgisayar bilimi alanlarında geliştirilmiş tekniklerden faydalanılır. Görüş madenciliği çalışmaları birçok alt çalışmadan oluşur. Bunlar, görüş çıkartma, görüşlerin kutbunu belirleme ve görüş hedefi çıkartma olarak sıralanabilir. Görüş çıkartma, bir dokümandaki, cümledeki veya ifadedeki görüş bildiren kısımları belirlemektir. Örneğin bir haberle ilgili bilgi veren gazete makalesi muhtemelen nesnel bir metindir. Haberde geçen kişilerden yapılan alıntılar veya haberle ilgili kullanıcı yorumları ise görüş bildiren kısımlar içeriyor olabilir. Benzer şekilde, bir ürün değerlendirme sitesinde, bir kullanıcının yaptığı Ekran çözünürlüğü muhteşem, ancak ekran biraz kalın gibi duruyor. yorumu, görüş bildiren bir yorumdur. Görüş kutbu (duygu kutbu) belirleme, görüş bildiren bir metnin olumlu bir görüş mü yoksa olumsuz bir görüş mü bildirdiğini belirlemektir.. Örneğin Aracın koltukları çok konforlu. olumlu bir görüş bildirir. Ancak Motor sesi çok yüksek. olumsuz bir görüş bildirir. Görüş kutbu belirleme işlemi, doküman, cümle veya kelime / ifade bazında yapılabilir. Doküman tabanlı görüş kutbu sınıflandırma, birçok cümleden oluşan ve cümlelerin bir anlamsal bütünlük içinde yer aldığı metin kısımlarının görüş kutbunu belirlemeye çalışmaktır. Örneğin bir ürün sitesinde, kullanıcının ürün hakkında yaptığı yorum, birçok cümleden oluşan bir doküman olarak düşünülebilir. Görüş kutbu belirlenirken, denetimli ve yarı denetimli yaklaşımlar uygulanmaktadır. Denetimli yaklaşımlarda, bir sınıflandırıcı eğitim verisi ile eğitilip, test verisi üzerinden sınıflandırma başarısı ölçülür. Yarı denetimli yaklaşımlarda, çekirdek bir

18 2 terim listesi, WordNet 1 benzeri bir veritabanı kullanılarak genişletilir ve duygu kutbu bilinen bir terimler listesi, yani bir görüş sözlüğü elde edilmiş olunur. Sınıflandırılacak metinlerde görüş sözlüğündeki terimler bulunuyorsa bu terimlere göre sınıflandırma yapılır. Ancak bu yaklaşım bazı zorlukları beraberinde getirir. Örneğin, her ne kadar bazı kelimelerin görüş kutupları global bir geçerliliğe sahip olsa da, bazı görüş kutbu kelimeleri, kullanıldıkları alana göre değişen kutuplara sahip olabilir. Örneğin harika kelimesi alandan bağımsız olarak global pozitif bir kutba sahipken, sesli kelimesi, bir araç motoru için negatif, ancak örneğin bir çalgı aleti için pozitif bir kutba sahip olabilir. Başka bir zorluk da, bir cümlede birden çok ve birbiriyle çelişen görüş kutuplarının olmasıdır. Ekran çözünürlüğü muhteşem, ancak ekran biraz kalın gibi duruyor. cümlesi buna örnek olarak gösterilebilir. Bu cümlede, bilgisayarın ekran çözünürlüğü hakkında olumlu bir görüş bildirilirken, ekranın kalınlığı olumsuz bir özellik olarak gösterilmiştir. Görüş hedefleri, kendileri hakkında görüş bildirilen varlıklardır. Görüş madenciliğinde, metnin görüş bildiren kısımlarını belirleme ve bu kısımların görüş kutbunu belirlemeye ek olarak, görüş hedeflerini belirleme de önemli bir yer tutmaktadır. Örneğin yine Ekran çözünürlüğü muhteşem, ancak ekran biraz kalın gibi duruyor. cümlesi göz önüne alındığında, cümlede pozitif ve negatif görüş bildiren ifadeler yer almaktadır. Bu haliyle cümle bazında görüş kutbu belirlemek, çelişen görüş kutuplarının varlığı nedeniyle uygun durmamaktadır. Onun yerine cümledeki görüş hedeflerini belirleyerek, bu hedefler hakkında ifade edilen görüşleri ortaya çıkarmak daha anlamlı olacaktır. Bu cümlede geçen görüş hedefleri ekran çözünürlüğü ve ekran olarak sıralanabilir. Bu tez çalışması kapsamında, görüş çıkartma, görüş kutbu belirleme ve görüş hedefi belirleme üzerine yapılan önceki araştırmalar incelenerek, bu araştırmalardaki görüş kutbu belirleme yaklaşımları Türkçe için uygulanmaya çalışılmıştır. İlerleyen kısımlarda ayrıntılarından bahsedilecek olan iki yaklaşım, Türkçe metinlerin görüş Örneğin alındığı web sitesi:

19 3 kutbu sınıflandırmasındaki başarıları açısından kıyaslanmıştır. Bu yaklaşımlar, makine öğrenmesi yaklaşımları ve sözlük tabanlı yaklaşımlar olarak sıralanabilir. Tezin temel başlıkları şu şekilde özetlenebilir: Bölüm 2 de, görüş madenciliği ile ilgili literatürde yapılan çalışmaların özeti bulunmaktadır. Bölüm 3 tezde uygulanan yöntemler ve elde edilen sonuçlar hakkında bilgi vermektedir. Bu bölümde, kullanılan veri seti hakkında ve oluşturulan Türkçe görüş sözlüğü hakkında bilgi, makine öğrenmesi yaklaşımları ve sözlük tabanlı yaklaşımlarla ilgili deney sonuçları bulunmaktadır. 4 üncü bölümde ise, elde edilen sonuçların genel olarak yorumlanması ve ileride bu konu üzerine yapılacak çalışmalar için bazı öneriler bulunmaktadır.

20 4 2. KAYNAK ARAŞTIRMASI Bu kısımda görüş madenciliği üzerine yapılmış olan kaynaklarda geçen çalışmalardan ve yöntemlerden bahsedilmiştir. Bu çalışmalar, genellikle İngilizce metinler üzerinde yapılmıştır. Yapılan çalışmalardaki ana başlıklar, kullanılan öznitelikler (bölüm 2.1), görüş kutbu belirleme (bölüm 2.2), görüş çıkartma (bölüm 2.3) ve görüş hedefi belirleme (bölüm 2.4) olarak sıralanabilir Görüş Madenciliğinde Kullanılan Öznitelikler Makine öğrenmesi ve veri madenciliği uygulamalarının önemli adımlarından biri, işlenecek veriyi bir öznitelik vektörü şeklinde temsil edebilmektir. Görüş madenciliğinde de durum farksızdır. Bir metni iyi bir şekilde temsil edecek bir öznitelik vektörüne dönüştürmek, görüş madenciliğinin temel adımlarından biridir. Görüş Madenciliği ile ilgili araştırmaların birçoğunda, kullanılacak özniteliklerin seçimi konusunda yöntemler geliştirilmiş ve bunların sistemin başarısına etkisi ölçülmüştür. Bu kısımda, görüş madenciliğinde kullanılan öznitelikler hakkında bilgi verilmiştir Kelimeler, ifadeler ve n-gram lar Kelimeler, basitçe 1 uzunluktaki n-gram öznitelikler olarak düşünülebilir. İfadeler ise bir veya daha fazla kelimenin bir araya gelerek oluşturdukları kelime gruplarıdır. İfadelerin yüksek değerlikli n-gram lardan (2-gram, 3-gram, 4-gram, vb.) farkı, dilsel kalıplar olmaları, başlı başına bir anlama sahip olmaları ve ifadeleri oluşturan kelime sayısının sabit olmamasıdır. Örneğin, çocuk oyuncağı kalıbı, bir ürünün kullanım kolaylığını anlatırken kullanabilen bir ifade olabilir. Görüş madenciliği üzerine yapılan birçok araştırmada kelimeler ve ifadeler en temel özniteliklerdir [1, 3, 5, 6, 8-13, 16, 17, 21-23, 25-27, 29, 30, 33, 34, 36, 37, 39, 40,

21 5 42]. Kelime ve ifade özniteliklerinin görüş madenciliğinde yaygın olarak kullanılmasının nedeni, genellikle sözlük tabanlı görüş kutbu belirleme çalışmalarının yaygın olmasına bağlanabilir. Görüş kutbu sözlüğü, kelimeler ve ifadeler bazında oluşturulmaktadır. Bu amaçla, WordNet benzeri bir veritabanı, belirli POS etiketlerine göre bir önyükleme metoduyla taranıp, görüş kutbu belli olan bir sözlük oluşturulmaktadır [1, 6, 8, 9, 11, 16, 17, 21-23, 26, 33]. Bu işlemin ayrıntısından kısmında bahsedilmiştir. Görüş kutbu sözlüğü oluşturulduktan sonra, sözlükteki kelimeler kullanılarak cümle, doküman ve bütünce bazında sınıflandırma yapılmaktadır. Görüş kutbu belirlenirken, olumsuzlama kelimelerinin dikkate alınması önemli bir noktadır. Örneğin Filmin senaryosu iyi değildi. cümlesi, sadece iyi kelimesi göz önünde bulundurulduğunda olumlu bir cümle gibi gözükmektedir. Ancak değil kelimesi göz önüne alındığında, cümlenin olumsuz olduğu ortaya çıkar. Araştırmaların bazıları bu tür olumsuzlama kelimelerini göz önüne almıştır [1-3, 5, 6, 25, 32]. N-gram lar, bir bütüncede arka arkaya sıralanmış n tane kelimenin bir araya getirilmesiyle oluşturulan özniteliklerdir. Örneğin Laptop ın pili en az iki saat dayanıyor. cümlesindeki 3 uzunluktaki n-gram lar <laptop ın pili en>, <pili en az>, <en az iki> <az iki saat> ve <iki saat dayanıyor> olarak sıralanabilir. Örnekten de anlaşılabileceği gibi, n-gramlar ın herhangi bir anlama sahip olması gerekmez. Basitçe birbirini takip eden n tane kelime, n-gram yapısı oluşturur. Görüş madenciliği araştırmalarına, n-gram öznitelikler genellikle sözlük tabanlı olmayan makine öğrenmesi yaklaşımlarında öznitelik olarak kullanılmaktadırlar [2, 14, 20, 28, 35, 43, 44, 47]. Genellikle yüksek değerlikli n-gram ların (örneğin 3-gram lar 2- gram lara göre daha yüksek değerliklidir), görüş kutbu belirlemede daha iyi sonuç verdiği gözlemlenmiştir [2, 14] POS etiketleri POS etiketleri, bir cümlede geçen kelimelerin türlerini belirtir. Sıfat, ad, zamir, zarf, fiil, temel POS etiketleridir.

22 6 Görüş çıkartma, görüş kutbu belirleme ve görüş hedefi çıkartma işlemlerinde POS etiketleri önemli bir yer tutar. Genellikle, bir bütüncede görüş belirten kelimeler aranırken sıfat ve zarflara bakılmaktadır [1, 6, 8, 11, 12, 14, 15, 21]. Görüş hedefi çıkartma işlemi yapılırken ise genellikle adlar göz önünde bulundurulmaktadır [1, 22, 27]. Nadir olsa da zamirleri göz önünde bulunduran çalışmalar da mevcuttur. Örneğin [24] te, cümlelerin görüş kutbu sınıflandırması yapılmadan önce etken/edilgen ayrımı yapılmıştır. Bu ayrımı yapmak için cümlelerde kişi zamirlerinin var olup olmadığına bakılmıştır. Çalışmalara sözlük tabanlı yaklaşımlar / makine öğrenmesi yaklaşımları açılarından bakıldığında, sözlük tabanlı yaklaşımlarda POS etiketlerinin yaygın olarak kullanıldığı görülmektedir. Sözlük tabanlı yaklaşımların bir kısmında, genellikle eş anlamlılık / karşıt anlamlılık gibi ilişkileri göz önünde bulunduran bir önyükleme metoduyla, belirli POS etiketlerine sahip olan kelimeler, görüş kutbu skorlarıyla birlikte sözlüğe eklenmektedir [6, 8, 9, 11, 13, 16, 17, 21]. Bu işlem sırasında, sözcükler arası ilişkilerin tanımlı olduğu WordNet gibi veritabanları kullanılmaktadır. Diğer sözlük tabanlı yaklaşımlarda, kelimeler arası eş anlamlılık / karşıt anlamlılık ilişkileri yerine, aynı POS etiketine sahip kelimelerin bağlamsal benzerliği göz önüne alınmaktadır [1, 10, 12]. Bağlamsal benzerlikler PMI, LSA gibi metotlar kullanılarak hesaplanmaktadır. Sözlük tabanlı yaklaşımlarda POS etiketleri, önyükleme ile genişletilen sözlüğe eklenecek kelimelerin türlerini kısıtlarken, makine öğrenmesi yaklaşımlarında ise herhangi bir kısıt koymaktan öte, basit birer öznitelik olarak kullanılmaktadır [14, 41]. Son olarak, kural tabanlı yaklaşımlarda POS etiketlerinin kullanımının yaygın olduğu görülmektedir [4, 7, 15, 43, 45, 46, 48]. Kurallar, kelime ve ifadelerin POS etiketlerine göre oluşturulan kalıplardır. Örneğin <RB JJ NN> toplamda üç kelime / ifade içeren bir kuraldır ve çok iyi film kalıbı bu kurala uyan bir örnektir. RB ilk kelimenin bir zarf olduğunu, JJ ikinci kelimenin bir sıfat olduğunu NN ise üçüncü

23 7 kelimenin bir ad olduğunu belirtir. Bu şekilde oluşturulan kurallar özellikle cümle bazında öznellik/nesnellik ayrımı yapmada sıkça kullanılmaktadır [43, 45, 46, 48] Bağımlılık bilgisi Bağımlılık bilgisi, bir cümleyi oluşturan her yapının arasında yer alan bire-bir ilişkilerden oluşan bilgidir. Bir cümleyi oluşturan yapılar kelimeler, ifadeler ve noktalama işaretleridir. Bağımlılık yapılarının temelinde, bir cümlede, bir yapı haricindeki (kök yapı) diğer bütün yapıların, cümledeki başka bir yapıya bağımlı olduğu kabulü yatar. Örneğin The conventions can vary cümlesinin bağımlılık bilgisi Şekil 2.1 de gösterilmiştir. Şekil 2.1. Bağımlılık bilgisi Cümleyi oluşturan yapılar arasındaki bağımlılıkların tipi de önemlidir. can ile vary kelimeleri arasında aux (yardımcı fiil) ilişkisi bulunmaktadır ve bu ilişki can fiilinin vary fiili için yardımcı bir fiil olduğunu gösterir. Bağımlılık bilgileri, sadece kelimelerin göz önünde bulundurulduğu sözlük tabanlı yaklaşımlara göre daha karmaşıktır ve anlamsal açıdan daha fazla ayrıntıyı temsil edebilir. Örneğin The medicine kills cancer cells. cümlesi sadece kelimeler göz önünde bulundurularak çözümlenirse, kill ve cancer gibi iki olumsuz kelime nedeniyle, olumsuz olarak sınıflandırılabilir. Ancak bir bağımlılık yapısında, cancer cells kelimelerinin birlikte bir tamlama oluşturdukları ve bu tamlamanın kills fiiline bağlı olduğu ortaya çıkacak, dolayısıyla cümlenin olumlu bir anlamı olabileceği göz önünde bulundurulacaktır. Bu tarz karmaşık bağımlılık ilişkilerini öznitelik olarak kullanan çalışmalar literatürde mevcuttur [19, 26, 31].

24 Kelime-altı öznitelikler Kelime altı öznitelikler harf n-gram ları, fonem n-gram ları ve prozodik özellikler olarak sıralanabilir. Harf n-gram ları, aynen kelime n-gram ları gibi n tane harfin yan yana gelmesiyle oluşan birimlerdir. Örneğin uluslararası kelimesindeki 4 uzunluktaki harf n- gram ları ulus lusl usla slar lara arar rara aras rası şeklinde sıralanabilir. Bunlardan bazıları kelimenin türüyle ilgili bilgi verebilir. Fonem n-gram ları kelimenin telaffuzuna yönelik n-gram lardır ve bu yüzden, İngilizce gibi yazılışı ve okunuşu birbirinden farklı olan dillerde anlamlıdır. Fonem n-gram ları, bir kelimedeki n tane fonemin yan yana getirilmesiyle oluşurlar. Örneğin sign kelimesinin gn kısmı bir fonemdir ve /ŋ/ işaretiyle temsil edilir. Prozodi, konuşmayla ilgili bir özniteliktir ve konuşmanın ses ile ilgili özelliklerini kapsar. Bunlar, ses frekansındaki değişimler, sesin yüksekliği gibi özelliklerdir. Kelime altı öznitelikleri kullanarak yapılan öznellik belirleme ve görüş kutbu sınıflandırma çalışmalarında, bu özniteliklerin birlikte kullanımının, bu alanlarda kayda değer sonuçlar verdiği gösterilmiştir [44, 47] Diğer öznitelikler Araştırmaların bazılarında, önceki bölümlerde sıralanan standart özniteliklere ek olarak bazı ilginç öznitelikler de kullanılmıştır. Bunlardan biri, Web üzerinde kullanıcıların sıklıkla kullandığı yüz ifadeleridir. Örneğin genellikle olumlu bir görüşü temsil eden :) :D gibi ifadeler ve olumsuz bir görüşü temsil eden :( :/ gibi ifadeler bunlara örnek olarak gösterilebilir. [14] te Twitter mesajlarından oluşan ve olumlu / olumsuz görüş etiketlerine sahip bir eğitim veri seti, bu ifadeler taranarak oluşturulmuştur.

25 9 Bazı çalışmalarda çözümlenen Web platformuna özel bazı göstergelerin öznitelik olarak kullanıldığı görülmektedir. Örneğin [28] de kullanıcıların Twitter da birbirini takip etme durumu ve birbirlerinden bahsetme durumu öznitelik olarak kullanılmıştır. Hatta birbirini takip eden kullanıcıların, belirli konularda yüksek oranda benzer kutba sahip görüşlerde bulundukları tespit edilmiştir. [22] de otel, lokanta gibi yerel servisler için kullanıcı yorumlarının görüş kutbunun belirlenmeye çalışıldığı bir araştırma yapılmıştır. Kullanıcıların yorumlara ek olarak sağladıkları ve servisin kalitesini gösteren puanlamalar (yıldız sayıları) öznitelik olarak göz önünde bulundurulmuştur. [32] de yapılan çalışmada, bir sanal gerçeklik ortamında kullanıcıların birbirleriyle girdikleri metinsel diyalogların görüş kutbu sınıflandırması yapılmaya çalışılmış ve büyük / küçük harf kullanımı, noktalama işaretleri gibi yapılar öznitelik olarak göz önünde bulundurulmuştur. [38] de Yahoo Answers a gönderilen soruların ve cevapların görüş kutbu istatistiksel olarak çeşitli parametrelere göre analiz edilmiştir ve demografik (cinsiyet, yaş, ırk, gelir, eğitim seviyesi, internet tecrübesi), alansal (ZIP), zamansal (ay, ayın günü, haftanın günü, günün saati) parametrelere göre, sorulan soruların ve gönderilen cevapların görüş kutbunun değiştiği gösterilmiştir Görüş Kutbu Sınıflandırma Görüş kutbu sınıflandırma, kelime, cümle veya doküman bazında bir metnin görüş kutbunu belirleme işidir. Söz konusu metni olumlu / olumsuz sınıflarından birine atayarak gerçekleştirilir. Görüş kutbu sınıflandırma; görüş kutbu belirleme, kutupsal sınıflandırma gibi adlar da almaktadır.

26 10 Kelime bazlı sınıflandırma, ifadeleri de kapsar ve bir kelimenin / ifadenin görüş kutbunu belirlemeyi hedefler. Görüş sözlüğü oluşturma çalışmalarının tamamı bu çatı altında toplanabilir. Görüş kutbu sınıflandırma işleri, sözlük tabanlı yaklaşımlar ve makine öğrenmesi yaklaşımları olarak ikiye ayrılabilir. Sözlük tabanlı yaklaşımlar, tamamı elle oluşturulan veya belirli bir önyükleme metoduyla çekirdek kelimelerden genişletilen bir görüş sözlüğü kullanarak, cümle ve doküman bazında görüş sınıflandırma yapmaya dayanır. Makine öğrenmesi yaklaşımları ise, herhangi bir görüş sözlüğü kullanmadan bazı dilsel öznitelikleri kullanarak yapılan sınıflandırma işidir. Makine öğrenmesi yaklaşımlarında kelime n-gram ları ve POS etiketleri yaygın olarak kullanılır Görüş sözlüğü oluşturma Görüş sözlüğü oluşturma çalışmaları çizge tabanlı çalışmalardır ve bu çalışmalarda iki çeşit çizge algoritması kullanılır: etiket yayılımı ve çizge yayılımı. Etiket yayılımı algoritması Araştırmaların çoğunda etiket yayılımı algoritması kullanılmıştır [6, 8, 9, 11, 16, 17, 21-23, 26]. Bu algoritmada, kelimeler bir çizge üzerinde birbirine çeşitli ilişkilerle bağlıdır. Bu ilişkiler eş anlamlılık, karşıt anlamlılık ve parça-bütün ilişkileri gibi ilişkiler olabilir. Bu tarz bir çizgeye örnek olarak WordNet verilebilir. Çizge üzerindeki bazı kelimelerin görüş kutupları önceden elle belirlenmiştir. Algoritma şu şekilde işler: 1. Görüş skoru belli olan bir düğüm seçilir. 2. Seçilen düğümün komşuluğundaki bütün düğümlere, iki düğüm arasındaki ilişkinin tipini göz önünde bulunduran bir ağırlıklandırma fonksiyonuyla görüş skoru atanır. 3. İlk iki adım, belirli bir iterasyon sayısına kadar veya çizge üzerinde görüş skoru atanmamış düğüm kalmayana kadar devam eder.

27 11 Algoritmanın adımları görsel olarak Şekil 2.2 de gösterilmiştir. Şekil 2.2. Etiket yayılımı algoritması

28 12 Şekil 2.2a dan da görülebileceği gibi çizgede 1 ve 2 numaralı düğümlerin görüş kutupları bellidir ve bu düğümler sırasıyla pozitif ve negatif görüş kutbuna sahiptir. Pozitif görüş kutbuna sahip düğümler yeşil, negatif görüş kutbuna sahip düğümler kırmızı renkte gösterilmiştir. Birbirine eş anlamlı düğümler arasında siyah çizgiler, birbirine karşıt anlamlı düğümler arasında turuncu çizgiler bulunmaktadır. Algoritma, bu düğümlerden birini seçer (Şekil 2.2b de 1 numaralı düğüm seçilmiştir ve her adımda seçilen düğümler iç içe geçmiş iki çemberle temsil edilmektedir). Daha sonra, çeşitli parametreleri göz önünde bulunduran bir ağırlıklandırma fonksiyonuna göre bu düğümün komşuluğundaki düğümlere görüş skorları atanır. Bu örnekte şu anki düğümün komşularına, düğümün skorunun yarısının atandığı var sayılmıştır. Bu durumda 3 ve 4 numaralı düğümlere P(1/2) ile gösterilen pozitif etiket ve 1/2 skoru atanmıştır. 8 numaralı düğüme ise, karşıt anlamlılık ilişkisinden dolayı N(1/2) skoru atanmıştır. Şekil 2.2c de aynı işlem 3, 4 ve 8 numaralı düğümler için yapılmıştır. Ardından Şekil 2.2d de 2 numaralı düğüme geçilmiştir. Bu düğümün komşuluğunda 9 ve 10 numaralı düğümler bulunmaktadır. 9 numaralı düğümün değeri bir önceki iterasyonda N(1/4) olarak belirlenmişti. Ancak bu durumda, algoritma, bu düğüme daha yüksek bir değer olan N(1/2) yi atamayı tercih edebilir veya kutbu belli olduğu için yeniden skorlama yapmamayı tercih edebilir. Algoritmanın düğümlere olabildiğince yüksek görüş kutbu skorları atamaya çalışıldığı var sayılırsa, 9 ve 10 numaralı düğüme N(1/2) değerleri atanacaktır. Benzer şekilde Şekil 2.2e de 8, 9 ve 10 numaralı düğümlerin komşuluğundaki düğümlerin görüş kutbu skorları hesaplanarak algoritma sonlanır. Etiket yayılımı algoritması kullanarak, düğümlerin görüş kutbu skorları veya basitçe görüş kutupları belirlenebilir. Örneğin [11] de her kelime için bir görüş kutbu skoru belirlenmiştir. Kutup skorları, regresyon analizinde kullanılmaktadır. Mesela, bir elektronik ticaret sitesinde, kullanıcıların ürünler hakkında yaptıkları yorumların yanında, ürünlere verdikleri puanlar (yıldız sayıları) da bulunuyorsa, görüş kutbu skorlarının bu puanlarla ne kadar paralellik gösterdiği regresyon ile hesaplanabilir. [6] da ise her kelime için skor belirlemek yerine basitçe görüş kutbu belirlenmiştir.

29 13 30 kelimelik bir negatif/pozitif etiketli çekirdek sözlük kullanılarak, WordNet ten bu kelimelerin eş ve karşıt anlamlı kelimeleri aranmıştır. Bulunan eş anlamlı kelimelere, çekirdekteki ilgili kelimeyle aynı görüş kutbu sınıfı verilmiştir. Karşıt anlamlı kelimelere ise zıt görüş kutbu sınıfı verilmiştir. Bu işlem, sözlüğe yeni eklenen kelimeler için de tekrarlanarak sözlük genişletilmiştir. Bu sözlük kullanılarak cümle bazında yapılan sınıflandırmada %84 lük bir doğruluk elde edilmiştir. Bazı çalışmalarda sadece pozitif / negatif kelimeler yerine, nesnel, yani herhangi bir görüşe sahip olmayan kelimeler de belirlenmeye çalışılmıştır. Bu sayede, nesnel kelimeler göz önünde bulundurularak, öznellik / nesnellik ayrımı yapılabilmektedir. Örneğin [8] de, WordNet kullanılarak, pozitif kelimeler, good sıfatının eş anlamlıları ve bad sıfatının karşıt anlamlılarına bakılarak belirlenmiştir. Negatif kelimeler için ise, bad sıfatının eş anlamlıları ve good sıfatının karşıt anlamlıları göz önünde bulundurulmuştur. Nesnel kelimelerde ise entity kelimesi kullanılmıştır. Nesnel kelimelerde eş veya karşıt anlamlılık ilişkisini kullanmak mantıklı olmayacağı için, kapsama ilişkisi kullanılmıştır. Kapsama ilişkisi iki kelime arasında anlamsal açıdan kapsama durumu olduğunda kullanılan bir ilişkidir. Örneğin, hayvan kelimesi, kedi kelimesini kapsamaktadır. Araştırmaların bazılarında, etiket yayılımını sadece çekirdek kelimeler kullanarak yapmak yerine, kelimelerin anlamlarında geçen kelimeler de göz önünde bulundurulmuştur [9, 16, 17]. Bu yöntemdeki temel mantık, bir kelimenin anlamında geçen kelimelerin, kelimeyle benzer bir görüş kutbu yönelimine sahip olacağına dayanmaktadır. Örneğin [9] da, [8] dekine benzer bir önyükleme metoduyla oluşturulan görüş kutbu sözlüğündeki her terimin anlamında geçen kelimeler de göz önünde bulundurulmuştur. Bu sayede, her terim, bir görüş kutbu etiketinin yanında, anlamında geçen kelimelerin vektörel bir gösterimi şeklinde temsil edilmiştir. Bu yöntem, terimin anlamında geçen terimleri de görüş sözlüğüne eklemek gibi düşünülebilir. Sonuçta, elde edilen sözlükteki kelimeleri kullanan bir SVM sınıflandırıcısı ile cümle bazında görüş kutbu sınıflandırmada %88,5 lik bir doğruluk elde edilebilmiştir. Görüş sözlüğü oluştururken kelime anlamlarında geçen kelimelerin kullanılması yaklaşımıyla SentiWordNet adında ve herkesin kullanımına

30 14 açık olan bir görüş kutbu sözlüğü de oluşturulmuştur [16, 17]. SentiWordNet teki her terimin, pozitif/negatif/nötr başlıkları altında 3 tane skoru bulunmaktadır. Bu skorlar, 0 ile 1 aralığında gerçel değerlere sahiptir. Her kelime için SentiWordNet teki bu üç skorun toplamı 1 etmektedir. Bu tez çalışması kapsamında da, Türkçe için bir görüş sözlüğü oluşturmak amacıyla SentiWordNet kullanılmıştır. [23] te, kelime görüş kutbu belirlemede, etiket yayılımı yöntemiyle, diğer bir çizge tabanlı yöntem olan minimum kesit yöntemi karşılaştırılmıştır. Minimum kesit yöntemi, bir çizgeden en az sayıda kenarı kaldırarak, çizgeyi iki ayrı çizgeye ayırma yöntemidir. Örneğin Şekil 2.3 te, 5 düğümden oluşan bir çizge için, çizgeyi iki ayrı parçaya ayıran minimum kesit gösterilmiştir. Şekil 2.3. Minimum kesit Çizgeyi, kelimeleri çeşitli dilsel ilişkilere göre (eş anlamlılık, karşıt anlamlılık, vs.) birbirine bağlayan bir çizge olarak düşündüğümüzde, minimum kesitin, kelimeleri pozitif ve negatif olmak üzere iki ayrı çizgeye ayıracağı varsayılabilir. [23] te, etiket yayılımı ile kelime görüş kutbu belirlemede isimler için %91,08 lik bir f-skor elde edilirken, minimum kesitte bu değer %81,13 olmuştur. Çizge yayılımı algoritması Çizge yayılımı algoritması, etiket yayılımı algoritmasından farklı olarak, görüş kutbu belli olmayan bir düğümden başlar ve bu düğümden, görüş kutbu belli olan bir düğüme ulaşmaya çalışır. Görüş kutbu belli olmayan düğümden, görüş kutbu belli

31 15 olan düğüme en kısa yolu bulmak yerine, optimal olmayan yollar Tabu Arama gibi sezgisel arama metotlarıyla bulunabilir. [20] de, çizge yayılımı algoritmasının, görüş kutbu belirlemede etiket yayılımına göre daha iyi sonuç vermediği, ancak bu algoritmanın karmaşıklığı daha az olduğu için, büyük ölçekli verilere daha uygun olduğu ileri sürülmüştür. Algoritmanın adımları görsel olarak Şekil 2.4 te gösterilmiştir. Şekil 2.4. Çizge yayılımı algoritması Şekil 2.4 ten de görülebileceği gibi, çizgede görüş skoru belli olan 1 ve 2 düğümleri bulunmaktadır. Çizge yayılımı algoritmasında, genellikle WordNet gibi bir kaynak kullanılmadığı için, kelimeler arası bağlar eş anlamlılık, karşıt anlamlılık ilişkileri yerine, PMI gibi birlikte kullanılma istatistiklerine göre oluşturulur. Görüş kutbu skoru belli olmayan 11 numaralı düğümünden, 1 ve 2 düğümlerine ulaşan iki yol bulunur. Bu işlem sezgisel bir arama algoritmasıyla gerçekleştirilebilir. Bu yollar bulunduktan sonra, düğüme ağırlığı en büyük yola göre görüş skoru ataması yapılabileceği gibi, her iki yol için, iki görüş skoru da atanabilir.

32 16 Şekil 2.3 te, yol uzaklığı n olarak düşünülüp, 11 numaralı düğüme basitçe 1/2 n fonksiyonuyla skorlama yapılırsa, düğümün pozitiflik skoru 1/4, negatiflik skoru ise 1/8 olacaktır. Düğüme bu iki skoru atamak yerine daha büyük olan skor seçilip, düğümün sadece belli bir görüş skoruna sahip olması da sağlanabilir. [20] de, görüş sözlüğüne eklenecek aday kelimeleri belirlemek için 4 milyar Web sayfasından, maksimum 10 uzunluktaki n-gram şar çıkartılmıştır. Bu n-gram lar, sıklık ve PMI gibi yöntemleri içeren birtakım sezgisel metotlarla 20 milyona kadar indirilmiştir. (Bu indirgemenin ayrıntısından, araştırmada bahsedilmemektedir) Ardından bu 20 milyon adayın her biri için bağlam vektörleri oluşturulmuştur. Her vektör için, bu vektörle en yüksek kosinüs benzerliğine sahip 25 vektör arasında bağlantı oluşturulmuş ve bu bağlantıların ağırlığı kosinüs benzerliğinin değeri olarak atanmıştır. Son olarak, çizge yayılımı metodu ile her vektör için bir görüş skoru belirlenerek, görüş sözlüğü oluşturulmuştur. Araştırmada, görüş sözlüğü oluşturulduktan sonra, bir sınıflandırıcı kullanarak görüş kutbu sınıflandırması yapılmıştır. Pozitif kelimeleri sınıflandırmada %69,6, negatif kelimeleri sınıflandırmada ise %68,5 lik bir doğruluk elde edilmiştir. Diğer Bu kısımda, etiket veya çizge yayılımı algoritmalarını kullanmadan görüş sözlüğü oluşturan çalışmalara değinilmiştir. [1] de, görüş sözlüğü oluşturmak için, araştırmada çifte yayılma diye adlandırılan bir yöntem önerilmiştir. Yöntemde, öncelikle kelimeler arasında doğrudan ve dolaylı olmak üzere iki tane bağımlılık bilgisi tanımlanmıştır. Şekil 2.5 te doğrudan bağımlılık ilişkileri gösterilmektedir. Doğrudan bağımlılık iki şekilde oluşabilir: (1) A ve B gibi iki kelime arasında başka bir kelime olmadan bir bağımlılık vardır (bkz. Şekil 2.5a) veya (2) A ve B gibi iki kelime H gibi bir üçüncü kelimeye doğrudan bağlıdır (bkz. Şekil 2.5b).

33 17 Şekil 2.5. Doğrudan bağımlılık Dolaylı bağımlılık ise Şekil 2.6 da gösterilmiştir. Şekilden de görülebileceği gibi, A ve B kelimeleri arasında H1 gibi bir kelime varsa, bunlar birbirine dolaylı bir şekilde bağlıdır (bkz. Şekil 2.6a). Başka bir dolaylı bağımlılıkta ise, A ve B kelimeleri ile H kelimesi arasında sırasıyla H1 ve H2 kelimeleri bulunmaktadır. Dolayısıyla A ve B kelimeleri H kelimesine dolaylı yoldan bağlıdır. Bu durumda A ve B kelimelerinin de dolaylı yoldan bağlı oldukları kabul edilir. [1] deki çalışmalarda, çekirdek bir görüş sözlüğünden yola çıkılarak, bu sözlükteki kelimelere bütüncede doğduran ve dolaylı bir şekilde bağlı olan sıfatlar görüş sıfatları olarak belirlenmiş ve sözlüğe eklenmiştir. Aynı işlem, sözlüğe yeni eklenen sıfatlar için de tekrarlanmış ve sözlüğe yeni kelime eklenemeyene kadar bu adımlar tekrarlanmıştır. Şekil 2.6. Dolaylı bağımlılık

34 18 Bazı çalışmalarda, çekirdek görüş sözlüğünü genişletmek için, bütüncede bu sözlükteki kelimelere bağlamsal olarak benzeyen kelimeler PMI ve LSA yöntemleriyle aranmıştır [10, 12]. Örneğin [12] de PMI kullanılarak, excellent ve poor kelimelerine göre sıfat ve zarfların görüş skorları hesaplanmıştır. Benzer şekilde [10] da, çekirdek bir pozitif / negatif görüş sözlüğü oluşturulduktan sonra PMI ve LSA kullanılarak, diğer kelimelerle çekirdek sözlükteki kelimelerin anlamsal korelasyonu hesaplanmış ve bu şekilde diğer kelimelerin görüş kutbu belirlenmiştir. PMI iki kelime arasındaki ilişkiyi, kelimelerin birlikte kullanılma sıklıklarına göre ölçer (bkz. Eş. 2.1). (2.1) Eğer pmi(k 1, k 2 ) pozitif bir değere sahipse, k 1 ve k 2 kelimeleri metinlerde birlikte kullanılmaya eğilimlidir. Ancak bu, iki kelimenin benzer anlamlara sahip olduğu anlamına gelmez. LSA ise iki kelimenin kullanıldığı bağlamların benzerliğini ölçmeye çalışır. LSA(k 1, k 2 ) pozitifse, bu iki kelimenin civarında bulunan birçok k i kelimesi ortaktır. Anlamsal benzerlik taşıyan kelimeleri ilişkilendirme açısından, LSA, PMI a göre daha iyi çalışır ancak daha fazla hesap gücü gerektirir [10]. [27] de ideolojik tartışmaların görüş kutbu analizi yapılmış ve bu amaçla, standart bir görüş sözlüğüne ek olarak bir tartışma sözlüğü oluşturulmaya çalışılmıştır. Tartışma sözlüğü oluşturulurken maksimum 3 uzunluğundaki n-gram lar bulunmaya çalışılmıştır. Önce bazı tartışma tetikleyici terimler elle etiketlenmiştir ( Iran insists its nuclear program is purely for peaceful purposes. cümlesindeki insists kelimesi tartışma tetikleyici bir kelimedir). Bu tetikleyici terimleri takip eden ikinci ve üçüncü kelimeler de ikili ve üçlüler olarak sözlüğe eklenmiş. Sözlüğe eklenen kelimelerin

35 19 tartışmaya yönelik görüş kutbu skorları, pozitif ve negatif dokümanlarda geçme sıklığına göre atanmıştır. Sadece standart bir görüş sözlüğü kullanarak cümle bazında görüş sınıflandırmada %55,02 lik bir doğruluk sağlanırken, hem standart görüş sözlüğü hem de tartışma sözlüğü birlikte kullanıldığında %63,93 lük bir doğruluk elde edilmiştir. [40] ta kelimelerin komşu kelimeleriyle arasındaki ilişkilerin dikkate alınmadığı görüş sözlükleri yerine, kelimeler arası ilişkileri Markov-örtüsü yapısında göstererek oluşturulan görüş sözlüğü kullanımının, görüş kutbu sınıflandırma üzerindeki olumlu etkisi ortaya koyulmuştur. Bir Bayes ağında, A gibi bir düğümün üst düğümleri ve çocuk düğümleriyle birlikte oluşturduğu yapı Markov örtüsü olarak adlandırılmaktadır. Örneğin Şekil 2.7 de soldaki çizgede bir Bayes ağı görülmektedir. Bu Bayes ağı, kelimeler arası ilişkilerin kodlandığı bir ağ olarak düşünülebilir. Aynı şeklin sağındaki çizgede ise Y kelimesinin Markov örtüsü görülmektedir. Cümle bazında görüş kutbu sınıflandırma yaparken, cümlede geçen Y kelimesi için, sadece Y kelimesinin görüş kutbu göz önünde bulundurmak yerine, Y nin Markov örtüsüyle elde edilen bütün kelimelerin görüş skorları göz önünde bulundurulduğunda, sınıflandırmada daha iyi sonuçlar elde edilmiştir. Şekil 2.7. Bir bayes ağı (sol) ve Y düğümü için Markov örtüsü (sağ)

36 Sözlük tabanlı görüş kutbu sınıflandırma Sözlük tabanlı yaklaşımlarda, cümle veya doküman bazında sınıflandırma yapılırken bir görüş sözlüğü kullanılmaktadır. Bu sözlük bölümünde bahsettiğim yöntemlerle oluşturulan veya tamamı elle etiketlenmiş bir görüş sözlüğü olabilir. Sözlükteki kelimeler basitçe görüş kutuplarına sahip olabileceği gibi [6], sözcüğe her kutup için bir skor atanmış olabilir [16, 17]. Sözlük tabanlı görüş kutbu sınıflandırma yapılırken, cümle veya doküman bazında geçen her kelime görüş sözlüğünde aranır. Sözcük, görüş sözlüğünde bulunuyorsa, sözcüğün görüş skoru / kutbu, cümle veya bütünce bazında tutulan toplam görüş skoruna eklenir. Sonuçta eğer cümlenin / dokümanın toplam görüş skoru pozitif çıkıyorsa, cümle / doküman pozitif olarak, negatif çıkıyorsa negatif olarak sınıflandırılır [3, 5, 21, 22, 26, 32-34]. Sözlük tabanlı yaklaşımla cümle bazlı görüş kutbu sınıflandırma algoritmalarının genel yapı Çizelge 2.1 de gösterilmiştir. Çizelge 2.1. Sözlük tabanlı yaklaşımla cümle bazında görüş kutbu sınıflandırma 1. Döngü: Bütüncedeki her cümle için 2. Döngü: Sıradaki cümlenin bütün görüş kelimeleri için 3. Eğer görüş kelimesinin civarında olumsuzlama kelimesi varsa kelimenin görüş skoru tersine çevrilir. 4. eşitliğine göre cümlenin görüş skorunu hesapla. 5. Eğer S p pozitif bir değere sahipse cümle pozitif görüş kutbuna, negatif bir değere sahipse negatif görüş kutbuna atanır. Çizelge 2.1 de gösterilen algoritmanın 1, 2 ve 3 numaralı satırlarında, cümlede geçen görüş kelimeleri aranmaktadır. 3 üncü satırda, birçok araştırmada dikkate alınan basit bir sezgisel yöntem gösterilmiştir. Bu yöntemde, eğer görüş kelimesinin civarında bir olumsuzlama kelimesi varsa, görüş kelimesinin kutbu tersine çevrilmektedir [1-3, 5, 6, 25, 32]. Olumsuzlama kelimeleri, görüş kelimesinin hemen solundaki veya hemen sağındaki kelimeye bakarak aranabileceği gibi [3], çerçeve büyüklüğü biraz daha geniş tutularak, kelimenin sağ ve solundan n tane kelime dikkate alınabilir [1].

37 21 Sözlük tabanlı yaklaşımla doküman bazlı görüş kutbu sınıflandırma algoritmalarının genel yapısı Çizelge 2.2 de gösterilmiştir. Çizelge 2.2. Sözlük tabanlı yaklaşımda doküman bazında görüş kutbu sınıflandırma 1. Döngü: Dokümandaki her cümle için 2. Cümle bazında hesaplanan görüş skorunu doküman bazındaki S d toplamına ekle 3. Eğer Sd pozitif bir değere sahipse doküman pozitif görüş kutbuna, negatif bir değere sahipse negatif görüş kutbuna atanır. Sözlük tabanlı görüş kutbu sınıflandırma yaklaşımlarındaki sorunlardan biri, sözlükteki global görüş kutuplarının her alanda geçerli olmayabileceğidir. Örneğin bir dizüstü bilgisayar için long battery life olumlu bir ifadeyken, bir dijital kamera için takes long time to focus olumsuz bir görüştür. Bazı araştırmalarda, görüş kelimelerinin alan bağımlılığı ele alınmaya çalışılmıştır [5, 26, 34]. Örneğin [5] te buna benzer durumları ele almak için 3 tane yaklaşım kullanılmıştır. i. Yorumda veya aynı ürünün başka yorumlarında, global görüş kutbu belli olmayan kelimenin (long) bulunduğu cümlede, global görüş kutbu belli olan başka görüş kelimeleri var mıdır? Örneğin This camera takes great pictures and has a long battery life. cümlesinde, great kelimesi vardır ve bu kelimenin global görüş kutbu pozitiftir. Böyle bir cümlede, bağlaçlar aranıp, bağlaçların yönelimine göre, görüş kutbu belli olmayan kelimenin yönelimi belirlenebilir. Bu örnekte and bağlacı var ve bu da great ile long un benzer görüş kutbu yönelimlerine sahip olduğunu gösteriyor. ii. Herhangi bir bağlaç olmadığı durumda, yönelimi bilinmeyen kelimenin görüş kutbu, yönelimi bilinen kelimenin görüş kutbuna eşitlenir: The camera has a long battery life, which is great. iii. Bu iki yöntem kullanılarak herhangi bir sonuca ulaşılmadıysa, cümleden önce gelen ve sonra gelen ilk cümleye bakılarak sonuca varılmaya çalışılmıştır. [26] da, alan bağımlılığını ele almak için, öncelikle, kullanılan sözlükteki görüş kelimelerinin her biri için görüş kutbu bazında güçlü/zayıf etiketleri verilmiştir. Güçlü görüş kelimeleri, alan bağımsız olarak kabul edilmiştir. Zayıf görüş

38 22 kelimelerinin alan bağımlı görüş kutbunu belirlemek için ise, alanla ilgili bir bütüncedeki kelimeler elle etiketlenip, bir sınıflandırıcı kullanılmıştır. Sınıflandırıcıdan elde edilen sonuçlar, kelimenin alan bağımlı görüş kutbunu yansıtmaktadır. Sonuçta, bu yöntemle pozitif görüş kutbu belirlemede %65,1 lik bir f-skor, negatif görüş kutbu sınıflandırmada ise %77,2 lik bir f-skor elde edilmiştir. [34] te alan bağımlılık, alana spesifik olduğu düşünülen ifadeler için, ifadenin sözlükteki görüş kutbu skorunun ağırlığı artırılarak ele alınmıştır. Bir kavramın spesifik olup olmadığı, kavramın WordNet hiyerarşisindeki derinliği, hiyerarşideki çocuk sayısı ve dallanma faktörü göz önüne alınarak hesaplanmıştır. Bazı araştırmalarda, sözlük tabanlı yaklaşımlarla makine öğrenmesi yaklaşımları karşılaştırılmıştır [3, 32]. [32] de, görüş sözlüğü yaklaşımıyla Naive Bayes ve Maximum Entropy sınıflandırıcıları karşılaştırılmıştır. [3] te ise SVM ve C5 karar ağacı algoritmalarıyla sözlük tabanlı yaklaşım karşılaştırılmıştır. Her iki çalışmada da sözlük tabanlı yaklaşımın, makine öğrenmesine göre daha iyi sonuç verdiği gösterilmiştir. Görüş sözlüğündeki kelimelerin sadece kutup bilgisinin, yani pozitif / negatif olma durumunun kullanılması ile kelimenin görüş skorunun kullanılmasının sınıflandırıcı başarısına olan etkisi, araştırmacıların ilgisini çeken başka bir konudur [21]. Kelimelerin görüş kutbu skorlarının kullanıldığı yöntemler, sırasıyla skorların harmonik ve geometrik ortalamasını dikkate almıştır. Ancak sadece görüş kutbunun kullanıldığı yöntem, harmonik ve geometrik ortalama yöntemine göre daha iyi sonuç vermiştir. Bazı sözlüksel yaklaşımlarda, cümlelerin içinde geçen görüş sözcüklerine ek olarak başka bazı göstergeler de dikkate alınmıştır. Örneğin [21] de otel, lokanta gibi yerel hizmetler için kullanıcıların yaptığı yorumları görüş kutbuna göre sınıflarken, cümle bağlamı ve kullanıcı puanları da göz önüne alınmıştır. Araştırmada cümlede geçen görüş kelimelerinin sözlükteki skorları toplanarak elde edilen cümle bazlı skora, ham skor adı verilmiştir. Cümle bağlamı ise, cümleden önce ve sonra gelen cümleleri

39 23 dikkate alan bir Maksimum Entropi sınıflandırıcısı kullanılarak göz önüne alınmıştır. Bu yaklaşımla, sadece kelime skorlarını göz önünde bulundurarak ham skoru dikkate alan yaklaşıma göre daha iyi sonuçlar elde edilmiştir. Pozitif cümleleri sınıflandırmada, ek göstergeleri dikkate alan sınıflandırıcı %77,7 lik bir f-skor a sahipken, sadece ham skoru göz önüne alan sınıflandırıcı %62,9 luk bir değere sahip olmuştur. Negatif cümlelerde ise, ek göstergeleri dikkate alan sınıflandırıcı ile sadece ham skoru kullanan sınıflandırıcıların elde ettikleri f-skor değerleri sırasıyla %81,4 ve %54,7 olarak hesaplanmıştır Makine öğrenmesi yaklaşımlarıyla görüş kutbu sınıflandırma Makine öğrenmesi yaklaşımlarında, de anlatılan sözlük tabanlı yaklaşımlardaki gibi bir görüş sözlüğü kullanılmaz. Bunun yerine, genellikle n-gram ları içeren öznitelikler üzerinden eğitilen sınıflandırıcı, yeni gelen örnekleri sınıflandırmaya çalışır. Sınıflandırıcıyı eğitmek için elle etiketlenmiş eğitim verisi gerektiğinden, makine öğrenmesi yaklaşımları genellikle denetimli yaklaşımlardır. Sözlük tabanlı yaklaşımlar ise, küçük bir çekirdek sözlüğü, önyükleme metotları ile genişletip, bu sözlüğü sınıflandırmada kullandığı için yarı-denetimli olarak düşünülebilir. Örneğin, 1 uzunluktaki n-gram ları, yani kelimeleri göz önünde bulunduran bir Naive Bayes sınıflandırıcısı için, eğitim verisindeki her dokümanın pozitif ve negatif olarak etiketlendiğini varsayalım. Sınıflandırıcı, her kelimenin pozitif ve negatif dokümanlarda geçme sıklığına göre, kelimelerin öncül görüş kutbu olasılıklarını hesaplayabilir. Örneğin, kelimenin pozitif bir dokümanlarda geçme sıklığının, bütün dokümanlarda geçme sıklığına oranı, kelimenin pozitif görüş kutbuna sahip olma olasılığını gösterecektir. Görüş kutbu c ile, kelimeler ise w i ile ifade edildiğinde, kelimelerin öncül görüş kutbu olasılıkları P(w i c) ile gösterilir. Bu durumda, Naive Bayes sınıflandırıcısı, görüş kutbu belli olmayan bir D dokümanını Eş. 2.2 ye göre sınıflandıracaktır:

40 24 (2.2) Eş 2.2 deki P(D c) ifadesi, dokümanın c sınıfına ait olma olasılığını temsil etmektedir ve bu ifadenin nasıl hesaplanacağı Eş. 2.3 te gösterilmiştir. P(c) ise, eğitim setindeki pozitif ve negatif doküman sıklığına göre hesaplanan öncül görüş kutbu olasılığını ifade eder. (2.3) Eş. 2.3, sınıflandırılacak dokümanın bir görüş kutbuna sahip olma olasılığını, dokümanda geçen kelimelerin öncül görüş kutbu olasılıkları olan P(w i c) değerlerinin bir çarpımı olduğunu göstermektedir. Makine öğrenmesi yaklaşımlarında yaygın olarak kullanılan öznitelikler n-gram lar, terim sıklığı ve POS etiketleridir [2, 14, 29]. [2] de, C Net ve Amazon dan çeşitli kategorilerdeki ürün yorumları eğitim ve test verisi olarak kullanılmıştır. Geliştirilen yöntemde, 1 uzunluktaki n-gram larla görüş kutbu belirlemek için yukarıda anlatılana benzer bir skorlama yapılmıştır. Skorlamayı yaparken, pozitiflik / negatiflik durumu elle belirlenmiş olan test dokümanları kullanılmıştır. Bir terimin, bu dokümanlarda geçme sıklığına göre, terimin [-1,1] aralığında değer alan görüş kutbu skoru belirlenmiştir (bkz. Eş. 2.4). (2.4) Eş. 2.4 teki p(f i C) ifadesi, bir terimin pozitif dokümanlarda geçme sıklığını ifade ederken, p(f i C ) ifadesi ise negatif dokümanlarda geçme sıklığını ifade eder. Terimlerin skorları belirlendikten sonra, sınıflandırılacak dokümanda geçen

41 25 terimlerin görüş kutbu skorlarının toplamlarının pozitif/negatif olmasına göre dokümanın görüş kutbu sınıflandırması yapılmıştır. [14] te, Twitter dan basit kurallar kullanılarak oluşturulan eğitim setindeki veriler istatistikî olarak analiz edildikten sonra, kullanılacak en uygun öznitelikler belirlenmeye çalışılmıştır. Araştırmada, eğitim verisini Twitter dan çekerken mutlu yüz ifadesi işaretlerinin ( :-) :D gibi) olduğu mesajlar olumlu mesajlar, tersi özelliklere sahip mesajlar da olumsuz mesajlar olarak kabul edilmiştir. Nesnel mesajlar kümesi ise, tanınmış gazete hesaplarının mesajları çekilerek oluşturulmuştur. Daha sonra, etiketleri bu şekilde belirlenmiş olan eğitim verisindeki mesajlar analiz edilerek, mesajlar arasındaki farklar ortaya çıkarılmaya çalışılmıştır. Örneğin, nesnel yazılarda karşılaştırma sıfatları sık kullanılırken, pozitif/negatif yazılarda enüstünlük sıfatları çok kullanılmıştır. Araştırmada, bu şekilde belirlenen özniteliklere ek olarak n-gram ları kullanan bir Naive Bayes sınıflandırıcısı ile görüş kutbu sınıflandırması yapılmaya çalışılmıştır. [29] da görüş kutbu sınıflandırma yöntemlerinde yaygın olarak kullanılan basit tf*idf ağırlıklandırması yerine, bunun varyasyonları olan daha karmaşık tf*idf yöntemleri denenmiş ve sonuçlar rapor edilmiştir. Sınıflandırıcı olarak SVM kullanılmıştır. Öznitelikler olarak kelimeler kullanılıp doküman seviyesinde sınıflandırma yapılmıştır. Aralarında standart tf*idf in de bulunduğu 15 yöntem 3 farklı veri setinde karşılaştırılmış ve karmaşık tf*idf ağırlıklandırmaların daha iyi sonuç verdiği gözlemlenmiştir. İncelenen araştırmaların bazılarında, terim sıklığını kullanmak yerine, bazı sözdizimsel ve bağımlılık yapıları göz önünde bulundurulmuştur [4, 7]. Örneğin [4] teki çalışmada, duygusal olmayan niteleyicilerin görüşleri belirlemekteki faydası doküman bazında araştırılmıştır. (Duygusal olan / olmayan ifadelere örnek vermek gerekirse: This laptop is great. -duygusal, This laptop has a battery life of two hours. -duygusal değil). Araştırmada, niteleyiciler için anlamsal bir hiyerarşi oluşturulmuştur. Hiyerarşinin en üstünde, niteleyiciler doğrudan ve dolaylı olmak

42 26 üzere iki kategoriye ayrılmaktadır. Doğrudan niteleyiciler fiziksel (büyük, küçük, soğuk, tatlı, sesli, üstünde, altında), zamansal (dün, bugün, günlük, yıllık) ve niceliksel (bir, iki, birinci, ikinci) olarak üç kategoride toplanmaktadır. Bu kategorilerin de alt kategorileri bulunmaktadır. Dolaylı niteleyiciler genişlemeli (her zaman, hiçbir zaman) ve karşılaştırmalı (daha büyük, en küçük) olarak iki kategoride toplanmaktadır. 5 farklı ürün kategorisi için, her birinde 1000 pozitif ve 1000 negatif yorumun elle etiketlendiği test veri seti kullanılmıştır. Yapılan testlerde, SVM ve KNN algoritmalarını kullanılmıştır. Test veri setindeki elle belirlenmiş niteleyicilere göre algoritmaların öğrenmesi sağlanılmıştır. Sınıflandırmada SVM ile elde edilen sonuçlar KNN ye göre daha yüksek başarıya sahiptir. SVM in sınıflandırma doğruluğu, en iyi durumda, farklı ürün grupları için %80-85 aralığında olmuştur. [7] de kelimelerin görüş kutbunu belirlemek için, Bilgisayar Görüşü alanında sıkça kullanılan gevşetmeli etiketlendirme yöntemi kullanılmıştır. Gevşetmeli etiketlendirme yönteminde, bir nesnenin her özniteliğine bir etiketin atanma olasılığı hesaplanır. Bu hesaplama yapılırken, nesnenin komşuluğundaki nesnelerin öznitelik etiketleri, atama işleminin kısıtları olarak göz önünde bulundurulmaya çalışılır. Başlangıçta, nesnelerin özniteliklerine atanacak her etiket için bir olasılık hesaplanır. Bu olasılıklar rastgele atanabileceği gibi, [7] de yapıldığı şekliyle, belirli bir yöntem çerçevesinde de yapılabilir. [7] de nesneler olarak kelimeler, atanacak etiketler olarak da pozitif/negatif/nötr etiketleri seçilmiştir. Başlangıçta her kelimeye, belirli bağımlılık yapılarında kullanılmalarına göre PMI yardımıyla hesaplanan görüş kutbu olasılıkları atanmıştır. Kelimelerin komşuluğundaki kelimleler ise, söz konusu kelimeye bağlaçlarla veya tanımlı diğer bağımlılık yapılarıyla bağlı olan kelimelerdir. Bazı makine öğrenmesi yaklaşımlarında, sözlük yaklaşımlarından farklı olarak, görüş kutbu değiştiriciler de bir sınıflandırma problemi olarak düşünülmüştür. Görüş kutbu değişmesi şöyle açıklanabilir: Bir cümlede geçen olumlu kelime sayısı, olumsuza göre fazla olmasına rağmen, cümlenin anlamı olumsuzdur. Bunun nedeni olumsuzlama kelimeleri ve diğer bazı sözdizimsel yapılar olabilir. Örneğin [25] te bu problem bir sınıflandırma problemi şeklinde modellenmiştir. Çalışmada, önce

43 27 doküman bazlı görüş kutupları belli olan bir eğitim verisi üzerinden yüksek görüş kutbu skoruna sahip kelimeler belirlenmiş ve bu kelimelerin görüş kutupları da içinde bulundukları dokümanın görüş kutbuyla aynı olarak kabul edilmiştir. Eğer bir cümle bu kelimelerden birini içeriyorsa ve karşıt görüş kutbuna sahip kümedeyse bu cümlede görüş kutbu değişmesi olduğu var sayılmıştır. Bu kabulle, görüş kutbu değişmesi olan cümleleri içeren eğitim verisi oluşturulup, bu veri seti üzerinden eğitilen sınıflandırıcılar ile cümlelerde görüş kutbu değişimi olup olmadığı belirlenmeye çalışılmıştır. Doküman bazlı sınıflandırmada, kullanıcı yorumlarının bazılarını sınıflandırmak, diğerlerine göre daha kolaydır. Çünkü, yorumun geneline hakim olan bir görüş kutbu vardır. Ancak bazı yorumlarda, örneğin film yorumlarında, yorumu yapan kullanıcı filmi beğenmiş olsa bile, filmin iyi ve kötü yanlarından bahsedebilir. [42] de bu durum ele alınmaya çalışılmıştır. Önce spektral demetleme kullanılarak görüş kutbunu belirlemek zor olan / kolay olan yorum ayrımı yapılmıştır. Ardından, görüş kutbunu belirlemek zor olan yorumlar kullanılarak bir SVM sınıflandırıcısı eğitilmiş ve bu sınıflandırıcı ile görüş kutbunu belirlemek zor olan yorumlar sınıflandırılmaya çalışılmıştır. Spektral demetlemede, bir kare matrisin eigen vektörü bulunur ve bu vektör üzerinden demetleme yapılmaya çalışılır. Kare matristeki her noktayı göz önünde bulundurmak yerine, bir eigen vektörünü göz önünde bulundurmak, bir çeşit öznitelik seçimi metodu olarak düşünülebilir. [42] de önce yorumlarda geçen kelimelerden bir W kümesi oluşturulmuştur: W = {w 1, w 2, w 3,..., w n } Daha sonra yorumlar bu kümedeki kelimeleri içerme frekanslarına göre bir frekans vektörü olarak temsil edilmiştir. Bu vektör R = {f w1, f w2, f w3,..., f wn } şeklinde gösterilebilir. Bu vektördeki her f wi değeri w i kelimesinin R yorumunda kaç kere geçtiğini göstermektedir. Ardından, her yorum arasındaki benzerlik, yorumların skalar çarpımı şeklinde bir kare matrise kodlanmıştır. Aynı yorumlar arasındaki benzerlik, matriste 0 olarak kodlanmıştır (yani matrisin köşegeni 0 değerlerinden oluşmaktadır.) Bu kare matris kullanılarak elde edilen eigen vektöründe, 0 dan belirli bir eşik değer kadar veya daha fazla uzakta kalan noktalar, görüş kutbu kolay belirlenebilen yorumları, 0 ın civarında bulunanlar ise görüş kutbunun belirlemesi zor olan yorumları göstermiştir.

44 28 Araştırmaların bazılarında n-gram lar ve frekans bilgisi yerine bağımlılık yapıları gibi daha karmaşık hiyerarşik yapıları kullanan özdevinimli kodlayıcılar ve CRF gibi yöntemler de kullanılmıştır [18, 41]. [41] de ise, her cümlesindeki ürün öznitelikleri ve görüş kelimelerinin elle etiketlendiği bir eğitim seti kullanılarak eğitilen HMM sınıflandırıcı, yeni gelen cümlelerdeki kelimelerin etiketlerini belirlemekte kullanılmıştır Görüş kutbu sınıflandırmada konu belirleme Bilgi erişimi alanında, bir metnin konusunu belirlemek, üzerinde yoğun bir şekilde çalışılmış olan bir konudur. Bir metnin konusu, metni özetleyecek kilit ifadelerin bir kümesi olarak düşünülebilir. Görüş kutbu sınıflandırma yapılırken dikkate alınan bütüncedeki dokümanlar, belirli sorgular sonucunda bir konu çerçevesinde oluşturulabileceği gibi, çeşitli konuları içeren dokümanlardan da oluşabilir. Konu odağı olmayan, yani birçok konudan oluşan bütüncelerdeki dokümanları ve cümleleri sınıflandırırken konu belirlemenin faydası olup olmadığı bazı araştırmalarda dikkate alınan bir konu olmuştur [3, 36, 37, 39] [3] te, doküman ve paragraf bazlı konu belirlemede tf*idf skoru en yüksek olan kelimeler dikkate alınmıştır. Daha sonra konuyla alakalı cümleler ve dokümanlar için görüş kutbu skorları hesaplanmıştır (yani konuya göre özetlenen cümlelerde görüş analizi yapılmıştır). Konuyla alakalı cümleleri belirleyerek yapılan sınıflandırmada başarının arttığı gösterilmiştir. Basit tf*idf yöntemleri yerine LDA ya dayanan daha karmaşık konu belirleme yöntemleri kullanarak görüş kutbu sınıflandırma yapan çalışmalar da mevcuttur [36, 37, 39]. LDA bir metindeki konuları keşfetmeye yarayan bir yöntemdir. Parametre olarak keşfedilecek konu sayısını ve metni alır ve konu sayısı parametresine göre metnin içerdiği en olası konuları bulur. Örneğin LDA ya şu cümlelerin verilip, iki tane konu bulması istenirse, I like to eat broccoli and bananas. I ate a banana and spinach smoothie for breakfast.

45 29 Chinchillas and kittens are cute. My sister adopted a kitten yesterday. Look at this cute hamster munching on a piece of broccoli. LDA şuna benzer bir sonuç dönecektir: Cümle 1 ve 2: %100 A konusu Cümle 3 ve 4: %100 B konusu Cümle 5: %60 A Konusu, %40 B Konusu Konu A: %30 broccoli, %15 bananas %10 breakfast, %10 munching Topic B: %20 chinchillas, %20 kittens, %20 cute, %15 hamster LDA nın oluşturduğu konulara bakılarak, A konusunun yiyeceklerle, B konusunun hayvanlarla alakalı olduğu çıkarılabilir Görüş Çıkartma Görüş çıkartma, bir dokümandaki öznel cümleleri belirlemeyle ilgilenen görüş madenciliği dalıdır. Görüş çıkartma, görüş kutbu sınıflandırmanın bir ön adımı gibi düşünülebilir; çünkü görüş kutbu belirlenecek olan cümlelerin ve dokümanların görüş içermesi gerekir. Görüş çıkartma araştırmalarının geneli, dilsel kalıpların örneklenmesine dayanmaktadır [15, 43, 45, 46, 48]. Bazı araştırmalarda ise, dilsel örnekleme yerine yalın olarak n-gram lar kullanılmıştır [44, 47]. Dilsel kalıplar, POS etiketlerinden oluşan kalıplardır ve bu kalıpların metinde görüş bildiren kısımları iyi temsil ettiği düşünülmektedir. Örneğin <RB JJ NN> ilk kelimenin bir zarf, ikincinin bir sıfat ve üçüncünün bir isim olduğu dilsel bir kalıptır. Bu kalıbın belirli kısımlarının veya tamamının örneklenmesine dilsel örnekleme adı verilmektedir. Çizelge 2.3 te <RB JJ NN> kalıplarının kısmen ve tamamen örneklenmesi gösterilmiştir. 2 Örneğin alındığı web sitesi:

46 30 Çizelge 2.3. Dilsel kalıp örnekleme RB JJ NN RB JJ idea RB great NN really JJ NN RB great idea really JJ idea really great NN really great idea Dilsel kalıplar, yalın n-gram lara göre daha avantajlı özniteliklerdir. Dilsel kalıpların kısmen örneklenmesi alan bağımsızlık sağlayabilir. Ayrıca dilsel kalıplar, yalın n- gram lara göre daha çok durumu temsil edebilirler. [15] te, görüş çıkartma amacıyla {nesne, öznitelik, değer} üçlülerini barındıran çeşitli dilsel kalıplar belirlenmiş ve bu örüntüler kullanılarak öznitelik ve değer bilgileri çıkartılmaya çalışılmıştır. Örneğin bir otomobille ilgili The seats are very comfortable and supportive. cümlesindeki {nesne, öznitelik, değer} üçlülerinden biri <otomobil_x, seats, comfortable> olarak gösterilebilir. Kalıplar mobil telefon alanından belirlenip otomobil ve bilgisayar oyunu alanına uygulanmıştır. Test edilen her iki alan için de nesne listesi elle belirlenmiştir. İleri sürülen yöntemde çeşitli kısıtlamalar mevcuttur. Örneğin değer bilgisi sadece sıfatlardan seçilmiştir. Öznitelikler için ise bilinmeyen kelimeler ve adlar dikkate alınmıştır. Bunlara ek olarak iki tane de skorlama kısıtı kullanılmıştır. Bunlardan birincisi, yüksek sıklığa sahip terimlere daha yüksek öncelik verilmesidir. İkinci olarak, bazı kalıplar diğer kalıplara göre daha kötü sonuç verdiği için, kalıplara elle güvenilirlik ağırlıkları verilmiştir. Sonuçta otomobil alanında görüşleri belirlemede %45 oranında, bilgisayar oyunu alanında ise %35 oranında başarı elde edilmiştir. [43] te, [15] tekinin aksine, kalıplar elle belirlenmek yerine öğrenilmeye çalışılmıştır. Öncelikle, öznellik durumları elle etiketlenmiş olan cümlelerden oluşan bir eğitim veri seti oluşturulmuş ve bu sette sıkça rastlanan dilsel kalıplar öznellik

47 31 kalıpları olarak belirlenmiştir. Eğitim seti elle etiketlendiği için, yöntem denetimli bir yöntemdir. [45] ve [46] da ise, [43] tekinin aksine, eğitim verisi de otomatik bir şekilde oluşturulmaya çalışılmıştır. Bu amaçla, yüksek doğruluk, düşük anmaya sahip olan öznellik belirleyici sınıflandırıcılar kullanılmıştır. Bu sınıflandırıcılar, metinlerde geçen öznel kısımların çok küçük bir kısmını belirleyebilse de, belirledikleri kısımlar yüksek doğruluk oranına sahiptir. Bu sınıflandırıcılar kullanılarak oluşturulan eğitim verisi [43] teki gibi taranarak dilsel kalıplar çıkarılmaya çalışılmıştır. [48] de kapsama hiyerarşisi durumları göz önünde bulundurularak öznellik belirleme üzerine çalışılmış. Örneğin happy, very happy yi kapsamaktadır. Eğer very happy öznellik belirlemede daha etkinse, happy yerine kullanılabilir. Bu şekilde öznitelik uzayını indirgeyerek, öznellik belirlemede daha iyi sonuçlar alınabileceğini gösterilmiştir. Araştırmada n-gram lar ve kalıp öznitelikler analiz edilmiştir. Özniteliklerin birbirini kapsayıp kapsamadığı, iki kısıta dayanmaktadır: (1) A özniteliği, B yi temsil açısından kapsayabilir (happy, very happy örneğindeki gibi) (2) InformationGain(B) > InformationGain(A) - ß olmalıdır. ß, A özniteliğinin B yerine kullanılabilir olma eşiği olarak düşünülebilir. Bu iki kısıt sağlandığında, daha karmaşık A özniteliğinin B yerine kullanılabilir olduğu gösterilmiş olur. Kapsama hiyerarşisi ile görüş çıkarmada, kapsamanın kullanılmadığı duruma göre %1 lik bir artış elde edilmiştir Görüş Hedefi Belirleme Görüş madenciliğinde, çoğu zaman sadece bir metinde geçen görüşü veya görüşün kutbunu belirlemek yeterli olmaz. Görüşün hangi varlıklar üzerine belirtildiğini de bulmak gerekir. Görüş hedefi belirleme, bir dokümandaki veya cümledeki görüşlerin, hangi varlıklar için belirtildiğini bulma işlemidir. Görüş hedefleri, bir kişi, bir ürün, ürünün çeşitli parçaları ve özellikleri veya bir hizmet olabilir. Örneğin bir e-ticaret sitesinde, kullanıcıların yorumlarında geçen A markalı bir dijital kamera ve bu

48 32 kameranın odaklanma süresi, resim kalitesi, şarj süresi, ağırlığı gibi varlıklar, görüş hedefleri olabilir. Görüş madenciliği üzerine yapılan çalışmalardan bazılarında, görüş hedefleri belirleme konusu üzerine de çalışılmıştır [1, 6, 7, 13, 22, 31, 33]. Görüş hedefleri belirlenirken çalışmalarda farklı yaklaşımlar benimsenmiştir. Bağımlılık bilgisi [1, 31], görüş bildiren kelimelere yakınlık [31], yaygın öğe belirleme yaklaşımları [6], parça bütün kalıpları [7] ve WordNet ilişkilerinin kullanımı [13] gibi yöntemler bu yaklaşımlara örnek olarak gösterilebilir. [1] de kelimeler arasında tanımlanan doğrudan ve dolaylı bağımlılıklar yardımıyla görüş hedefleri belirlenmeye çalışılmıştır (bkz ). Çekirdek bir görüş sözlüğündeki kelimelere doğrudan veya dolaylı bağımlılığı olan görüş kelimeleri ve hedefler belirlenir. Daha sonra bunlara doğrudan veya dolaylı bağlı olan görüş kelimeleri ve hedefler belirlenir. Yeni görüş kelimeleri veya hedefler belirlenmeyene kadar işlem devam eder. Örneğin Canon G3 takes great pictures. cümlesinde great ve pictures kelimeleri arasında doğrudan bir bağımlılık vardır. Bu iki kelimeden herhangi biri görüş veya hedef kümesinde zaten varsa, diğeri de görüş kelimesi veya hedef olarak belirlenebilir. Bu araştırmada görüş hedefi adayları olarak, cümlede geçen isim türündeki sözcükler dikkate alınmıştır. [6] da yaygın öğe belirlemede sıkça kullanılan bir algoritma olan Apriori ile görüş hedefleri belirlenmeye çalışılmıştır. Algoritmanın dikkate aldığı öğeler kelimelerdir. Apriori ile belirlenen yaygın öğelerden gereksiz olanlar budanmaya çalışılmıştır. Eğer bir yaygın öğe, bir isim tamlaması olan başka bir yaygın öğenin içinde geçiyorsa budanmıştır. [7] de görüş hedeflerini belirlemek için, belirli bir sıklık eşiğinin üstündeki adlar bulunup, bunların daha önceden belirlenmiş dilsel parça bütün kalıplarıyla birlikte geçme skoru PMI kullanarak hesaplanmıştır. Parça bütün kuralları <xxx> of scanner, scannner has <xxx>, scanner comes with <xxx> benzeri kalıplardır.

49 33 [13] te kümeleme teknikleriyle aynı anlama sahip olan ürün öznitelikleri gruplanmaya çalışılmıştır (örn, kamera için picture ve photo öznitelikleri aynı anlama sahiptir). [22] de otel, lokanta gibi yerel hizmetlerle ilgili hedefleri çıkarmada iki alt yaklaşımdan oluşan hibrit bir yaklaşım belirlenmiştir. Birinci yaklaşımda, dinamik bir şekilde, yorumlarda geçen isimler, sıklıklarına göre öznitelik olarak kabul edilmiştir. İkinci yöntemde ise, önce otel ve lokanta sektörleriyle ilgili hedef kategorileri belirlenmiştir. Lokantalar için bu kategoriler yemek, dekor, hizmet ve fiyat olarak sıralanabilir. Oteller için ise belirlenen kategoriler odalar, hizmet, yerleşim, fiyat ve yemek olarak sıralanabilir. Rastgele seçilen cümlelerde bu kategorilerle ilgili hedefler elle etiketlendikten sonra, Maksimum Entropi sınıflandırıcısı ile cümlelerde bu hedeflerden bahsedilip bahsedilmediği belirlenmeye çalışılmıştır.

50 34 3. UYGULANAN YÖNTEMLER Bu kısımda, tez çalışması kapsamında uygulanan yöntemler anlatılmıştır. Bölüm 3.1 de testler sırasında kullanılan veri seti ile ilgili ayrıntılı bilgi verilmiştir. Bölüm 3.2 de makine öğrenmesi yaklaşımlarıyla yapılan sınıflandırmalar anlatılmış ve sonuçlar verilmiştir. Bölüm 3.3 te görüş sözlüğü kullanılarak yapılan sınıflandırmalar anlatılmış ve sonuçlar verilmiştir Kullanılan Veri Seti Tez çalışması kapsamında yapılan görüş kutbu sınıflandırma çalışmalarında kullanılan veri seti, BeyazPerde.com adlı internet sitesindeki film yorumlarından elde edilmiştir. BeyazPerde.com, geniş bir film veritabanına sahip olan bir sinema sitesidir. Alexa 3 istatistiklerine göre Türkiye de ziyaret edilme sıklığına göre, Aralık 2012 itibariyle 274 üncü sırada bulunmaktadır. BeyazPerde.com sitesinde, güncel filmlerden klasiklere, birçok film hakkında kullanıcı yorumları ve puanlamaları bulunmaktadır. Her yorumla birlikte, kullanıcının ilgili filme verdiği bir puan bulunmaktadır ve bu puan 1-10 arasında değişmektedir. BeyazPerde.com dan çeşitli filmler için yazılmış olan toplamdaki 2305 yorum indirilmiş ve bu yorumlar elle etiketlenerek 1057 pozitif yorum ve 978 negatif yorum elde edilmiştir. Geriye kalan 270 yorum, hem pozitif hem negatif görüş içermesi nedeniyle kutbu belirlenemeyen, herhangi bir görüş içermeyen veya anlaşılamayan yorumlardır (bkz. Çizelge 3.1). Çizelge 3.1. Yorum sınıf dağılımları Pozitif Yorum Sayısı 1057 Negatif Yorum Sayısı 978 Diğer 270 Toplam

51 Yorum Sayısı 35 Pozitif yorumların 1-10 aralığındaki puanlamalara göre dağılımı Şekil 3.1 de negatif yorumların dağılımı ise Şekil 3.2 de gösterilmiştir Yorum Puanları Şekil 3.1. Pozitif yorumların skorlara göre dağılımı

52 Yorum Sayısı Yorum Puanları Şekil 3.2. Negatif yorumların skorlara göre dağılımı Şekil 3.1 ve Şekil 3.2 ye bakıldığında yorum puanlarının kutuplarla uyumlu olmadığı görülmektedir. 5 ten düşük puan alan yorumların kötü, 5 puan alan yorumların vasat ve 5 ten iyi puan alan yorumların iyi filmlere ait olduğunu varsayarsak, bu varsayım pozitif yorumların %25,45 inin, negatif yorumların ise %41,21 inin yanlış etiketlenmesi anlamına gelmektedir. Puanlamadaki sorun, 5 puan alan vasat yorumların görece çokluğundan kaynaklanmaktadır ve 5 puan alan yorumların olumlu mu yoksa olumsuz mu oldukları sadece puanlamaya bakılarak kestirilemez. Bu grafiklere bakıldığında, kullanıcıların yorum puanlamalarını tutarlı bir şekilde kullanmadıkları sonucu da ortaya çıkar. Bu nedenle, indirilen yorumlar puanlarına göre etiketlenmek yerine elle etiketlenmiştir. [50] de Türkçe film yorumları için duygu analizi üzerine bir çalışma yapılmış ve film yorumları BeyazPerde.com sitesinden elde edilmiştir. Eğitim ve test verisi oluşturmak amacıyla yorumların etiketlenmesi, kullanıcıların yorumlara verdiği puanlar üzerinden otomatik olarak yapılmıştır. Kullanıcıların yorumlara verdiği puanlarla, yorumların duygu yöneliminin tutarlı olmadığı düşünüldüğünden, bu çalışmada oluşturulan veri seti kullanılmamıştır.

53 37 Türkçe duygu analizi üzerine başka bir çalışma da [51] de yapılmıştır. Bu çalışmada psikolojik tedavi alan hastaların belirli konular hakkında yazdıkları yazılar ve psikologların hastalar hakkında yazdıkları yazılardan oluşmaktadır. Çalışmada, bu yazılar kullanılarak depresyonda/depresyonda değil/kaygılı/kaygılı değil sınıflandırması yapılmıştır. Bu açıdan bakıldığında, bu çalışmada yapılmak istenen olumlu/olumsuz sınıflandırmasına uygun bir veri seti değildir Makine Öğrenmesi Metotlarıyla Görüş Kutbu Belirleme Bu kısımda SVM, Naive Bayes, KNN ve C4.5 sınıflandırıcıları kullanılarak veri seti üzerinde yapılan görüş kutbu sınıflandırmalarının sonuçları bölümünden itibaren verilmiştir. Elde edilen sonuçlara geçmeden önce, bölümünde bu sınıflandırıcıların her biri kısaca anlatılmıştır. Sınıflandırma işlemi yapılmadan önce, veri seti üzerinde yapılan filtreme ve düzeltme işlemleri bölümünde anlatılmıştır. Sınıflandırıcılarda öznitelik olarak kullanılan terimleri skorlama yöntemlerinden ise bölümünde bahsedilmiştir Kullanılan sınıflandırıcılar SVM SVM, sınıfları birbirinden ayıran doğrusal hiperdüzlemi bulmaya çalışan bir sınıflandırıcıdır. SVM, doğrusal düzlemi destek vektörleri ve destek vektörlerine göre tanımlanan maksimum aralık ile bulmaya çalışır. Destek vektörleri ve ayırıcı hiperdüzlem kavramları Şekil 3.3 üzerinden anlatılmıştır.

54 38 Şekil 3.3. SVM destek vektörleri ve hiper düzlemi 4 Şekilde iki farklı sınıfa ait örnekler bulunmaktadır. Bu sınıfların pozitif ve negatif olarak adlandırıldığını varsayarsak, pozitif sınıfların örneklerini, şekildeki içi dolu daireler, negatif sınıfların örneklerini de içi boş daireler olarak düşünebiliriz. Şekilde, her örnek X 1 ve X 2 gibi iki öznitelik değerine sahiptir. Bir örneğin X ile temsil edildiğini kabul edersek, X = (X 1, X 2 ) denebilir. SVM, bu iki sınıfın örneklerini, doğrusal bir hiperdüzlem ile en iyi şekilde ayırmaya çalışmaktır. Şekilde, her örneğin iki özniteliği olduğu için, bu hiperdüzlem aslında bir düzlem değil, doğrusal bir çizgidir. Ancak öznitelik sayısı 3 tane olsaydı, örnekleri birbirinden ayırmak için bir düzlem gerekecekti. 4 veya daha fazla öznitelikte ise, örnekleri birbirinden ayırmak için gereken düzleme hiperdüzlem adı verilmektedir. 4 Şeklin temin adresi:

Uzaktan Algılama Teknolojileri

Uzaktan Algılama Teknolojileri Uzaktan Algılama Teknolojileri Ders 11 Hiperspektral Görüntülerde Kümeleme ve Sınıflandırma Alp Ertürk alp.erturk@kocaeli.edu.tr Sınıflandırma Sınıflandırma işleminin amacı, her piksel vektörüne bir ve

Detaylı

Web Madenciliği (Web Mining)

Web Madenciliği (Web Mining) Web Madenciliği (Web Mining) Hazırlayan: M. Ali Akcayol Gazi Üniversitesi Bilgisayar Mühendisliği Bölümü Konular Denetimli Öğrenmenin Temelleri Karar Ağaçları Entropi ID3 Algoritması C4.5 Algoritması Twoing

Detaylı

VERİ MADENCİLİĞİ Metin Madenciliği

VERİ MADENCİLİĞİ Metin Madenciliği VERİ MADENCİLİĞİ Metin Madenciliği Yrd. Doç. Dr. Şule Gündüz Öğüdücü 1 2 Metin için Veri Madenciliği Metin Madenciliğinde Sorunlar Metin madenciliği: Veri madenciliği teknikleri ile yazılı belgeler arasındaki

Detaylı

Sözlük Kullanarak Türkçe için Kavram Madenciliği Metotları Geliştirme

Sözlük Kullanarak Türkçe için Kavram Madenciliği Metotları Geliştirme 1 Cem Rıfkı Aydın, 1 Ali Erkan, 1 Tunga Güngör, 2 Hidayet Takçı 1 Boğaziçi Üniversitesi, 2 Cumhuriyet Üniversitesi Sözlük Kullanarak Türkçe için Kavram Madenciliği Metotları Geliştirme AB 14 7 Şubat 2014

Detaylı

Web Madenciliği (Web Mining)

Web Madenciliği (Web Mining) Web Madenciliği (Web Mining) Hazırlayan: M. Ali Akcayol Gazi Üniversitesi Bilgisayar Mühendisliği Bölümü Konular Sınıflandırıcıların Değerlendirilmesi Skorlar Karışıklık matrisi Accuracy Precision Recall

Detaylı

Makine Öğrenmesi İle Duygu Analizinde Veri Seti Performansı

Makine Öğrenmesi İle Duygu Analizinde Veri Seti Performansı Makine Öğrenmesi İle Duygu Analizinde Veri Seti Performansı Hatice NİZAM İstanbul Üniversitesi Bilgisayar Mühendisliği Bölümü haticenizam@outlook.com Saliha Sıla AKIN ERS Turizm Yazılım Şirketi, Bilgisayar

Detaylı

Metin Sınıflandırma. Akış

Metin Sınıflandırma. Akış Metin Sınıflandırma Mehmet Fatih AMASYALI BLM 5212 Doğal Dil İşlemeye Giriş Ders Notları Akış Görev Eğiticili Eğiticisiz Öğrenme Metin Özellikleri Metin Kümeleme Özellik Belirleme Çok Boyutlu Verilerle

Detaylı

Web Madenciliği (Web Mining)

Web Madenciliği (Web Mining) Web Madenciliği (Web Mining) Hazırlayan: M. Ali Akcayol Gazi Üniversitesi Bilgisayar Mühendisliği Bölümü Konular Denetimsiz Öğrenmenin Temelleri Kümeleme Uzaklık Fonksiyonları Öklid Uzaklığı Manhattan

Detaylı

Büyük Veri İçin İstatistiksel Öğrenme (Statistical Learning for Big Data)

Büyük Veri İçin İstatistiksel Öğrenme (Statistical Learning for Big Data) Büyük Veri İçin İstatistiksel Öğrenme (Statistical Learning for Big Data) M. Ali Akcayol Gazi Üniversitesi Bilgisayar Mühendisliği Bölümü Bu dersin sunumları, The Elements of Statistical Learning: Data

Detaylı

VERİ MADENCİLİĞİ (Sınıflandırma Yöntemleri) Yrd.Doç.Dr. Kadriye ERGÜN kergun@balikesir.edu.tr

VERİ MADENCİLİĞİ (Sınıflandırma Yöntemleri) Yrd.Doç.Dr. Kadriye ERGÜN kergun@balikesir.edu.tr VERİ MADENCİLİĞİ (Sınıflandırma Yöntemleri) Yrd.Doç.Dr. Kadriye ERGÜN kergun@balikesir.edu.tr Genel İçerik Veri Madenciliğine Giriş Veri Madenciliğinin Adımları Veri Madenciliği Yöntemleri Sınıflandırma

Detaylı

Web Madenciliği (Web Mining)

Web Madenciliği (Web Mining) Web Madenciliği (Web Mining) Hazırlayan: M. Ali Akcayol Gazi Üniversitesi Bilgisayar Mühendisliği Bölümü Konular Giriş Bilgi Erişiminde Temel Yaklaşımlar Bilgi Erişim Modelleri Boolean model Vector space

Detaylı

K En Yakın Komşu Methodu (KNearest Neighborhood)

K En Yakın Komşu Methodu (KNearest Neighborhood) K En Yakın Komşu Methodu (KNearest Neighborhood) K-NN algoritması, Thomas. M. Cover ve Peter. E. Hart tarafından önerilen, örnek veri noktasının bulunduğu sınıfın ve en yakın komşunun, k değerine göre

Detaylı

Algoritma Geliştirme ve Veri Yapıları 9 Ağaç Veri Modeli ve Uygulaması. Mustafa Kemal Üniversitesi

Algoritma Geliştirme ve Veri Yapıları 9 Ağaç Veri Modeli ve Uygulaması. Mustafa Kemal Üniversitesi Algoritma Geliştirme ve Veri Yapıları 9 Ağaç Veri Modeli ve Uygulaması Ağaç, verilerin birbirine sanki bir ağaç yapısı oluşturuyormuş gibi sanal olarak bağlanmasıyla elde edilen hiyararşik yapıya sahip

Detaylı

KAHKAHA TANIMA İÇİN RASSAL ORMANLAR

KAHKAHA TANIMA İÇİN RASSAL ORMANLAR KAHKAHA TANIMA İÇİN RASSAL ORMANLAR Heysem Kaya, A. Mehdi Erçetin, A. Ali Salah, S. Fikret Gürgen Bilgisayar Mühendisliği Bölümü Boğaziçi Üniversitesi / Istanbul Akademik Bilişim'14, Mersin, 05.02.2014

Detaylı

YZM ALGORİTMA ANALİZİ VE TASARIM DERS#9: AÇGÖZLÜ ALGORİTMALAR

YZM ALGORİTMA ANALİZİ VE TASARIM DERS#9: AÇGÖZLÜ ALGORİTMALAR YZM 3207- ALGORİTMA ANALİZİ VE TASARIM DERS#9: AÇGÖZLÜ ALGORİTMALAR Aç Gözlü (Hırslı) Algoritmalar (Greedy ) Bozuk para verme problemi Bir kasiyer 48 kuruş para üstünü nasıl verir? 25 kuruş, 10 kuruş,

Detaylı

Eğitim seti (training set) sınıflandırma modelinin elde edileceği kayıtları içerir

Eğitim seti (training set) sınıflandırma modelinin elde edileceği kayıtları içerir sınıflandırma: temel kavramlar, karar ağaçları ve model değerlendirme Sınıflandırma : Tanım Eğitim seti (training set) sınıflandırma modelinin elde edileceği kayıtları içerir Eğitim setindeki her kayıt

Detaylı

VERİ MADENCİLİĞİ (Kümeleme) Yrd.Doç.Dr. Kadriye ERGÜN

VERİ MADENCİLİĞİ (Kümeleme) Yrd.Doç.Dr. Kadriye ERGÜN VERİ MADENCİLİĞİ (Kümeleme) Yrd.Doç.Dr. Kadriye ERGÜN kergun@balikesir.edu.tr İçerik Kümeleme İşlemleri Kümeleme Tanımı Kümeleme Uygulamaları Kümeleme Yöntemleri Kümeleme (Clustering) Kümeleme birbirine

Detaylı

Veri ve Metin Madenciliği

Veri ve Metin Madenciliği Veri ve Metin Madenciliği Zehra Taşkın Veri Madenciliği Bir kutu toplu iğne İçine 3 boncuk düşürdünüz Nasıl alacağız? Fikirler? Veri Madenciliği Data Information Knowledge Veri madenciliği; Büyük yoğunluklu

Detaylı

Veri ve Metin Madenciliği. Zehra

Veri ve Metin Madenciliği. Zehra Veri ve Metin Madenciliği Zehra Taşkın @zehrataskin Büyük Veri https://www.youtube.com/watch?v=tzxmjbl-i4y Veri Madenciliği Bir kutu toplu iğne İçine 3 boncuk düşürdünüz Nasıl alacağız? Veri Madenciliği

Detaylı

127 - Twoing Algoritması ile Sınıflandırma Kalp Hastalığı Uygulaması MEHMET AKİF ERSOY ÜNİVERSİTESİ İLHAN UYSAL MEHMET BİLEN SAMİ ULUKUŞ

127 - Twoing Algoritması ile Sınıflandırma Kalp Hastalığı Uygulaması MEHMET AKİF ERSOY ÜNİVERSİTESİ İLHAN UYSAL MEHMET BİLEN SAMİ ULUKUŞ 127 - Twoing Algoritması ile Sınıflandırma Kalp Hastalığı Uygulaması MEHMET AKİF ERSOY ÜNİVERSİTESİ İLHAN UYSAL MEHMET BİLEN SAMİ ULUKUŞ Veri Madenciliği : Bir sistemin veri madenciliği sistemi olabilmesi

Detaylı

Yapay Sinir Ağları ile Web İçeriklerini Sınıflandırma. Yazarlar: Esra Nergis Güven, Hakan Onur ve Şeref Sağıroğlu. Sunan : Esra Nergis Güven

Yapay Sinir Ağları ile Web İçeriklerini Sınıflandırma. Yazarlar: Esra Nergis Güven, Hakan Onur ve Şeref Sağıroğlu. Sunan : Esra Nergis Güven Yapay Sinir Ağları ile Web İçeriklerini Sınıflandırma Yazarlar: Esra Nergis Güven, Hakan Onur ve Şeref Sağıroğlu Sunan : Esra Nergis Güven İçerik Giriş Amaç ve Kapsam Sınıflandırma Geliştirilen Sistem

Detaylı

Büyük Veri Analitiği (Big Data Analytics)

Büyük Veri Analitiği (Big Data Analytics) Büyük Veri Analitiği (Big Data Analytics) M. Ali Akcayol Gazi Üniversitesi Bilgisayar Mühendisliği Bölümü Bu dersin sunumları, Mining of Massive Datasets, Jure Leskovec, Anand Rajaraman, Jeffrey David

Detaylı

VERİ MADENCİLİĞİ (Karar Ağaçları ile Sınıflandırma) Yrd.Doç.Dr. Kadriye ERGÜN

VERİ MADENCİLİĞİ (Karar Ağaçları ile Sınıflandırma) Yrd.Doç.Dr. Kadriye ERGÜN VERİ MADENCİLİĞİ (Karar Ağaçları ile Sınıflandırma) Yrd.Doç.Dr. Kadriye ERGÜN kergun@balikesir.edu.tr İçerik Sınıflandırma yöntemleri Karar ağaçları ile sınıflandırma Entropi Kavramı ID3 Algoritması C4.5

Detaylı

İstatistik ve Olasılık

İstatistik ve Olasılık İstatistik ve Olasılık KORELASYON ve REGRESYON ANALİZİ Doç. Dr. İrfan KAYMAZ Tanım Bir değişkenin değerinin diğer değişkendeki veya değişkenlerdeki değişimlere bağlı olarak nasıl etkilendiğinin istatistiksel

Detaylı

Web Server Sunucu Loglarının K-Komşu Algoritması ile İ ncelenmesi

Web Server Sunucu Loglarının K-Komşu Algoritması ile İ ncelenmesi Web Server Sunucu Loglarının K-Komşu Algoritması ile İ ncelenmesi İçindekiler 1 Özet... 2 2 Giriş... 3 3 Uygulama... 4 4 Sonuçlar... 6 1 1 Özet Web sunucu logları üzerinde veri madenciliği yapmanın temel

Detaylı

YZM ALGORİTMA ANALİZİ VE TASARIM DERS#6: AZALT VE FETHET YÖNTEMİ

YZM ALGORİTMA ANALİZİ VE TASARIM DERS#6: AZALT VE FETHET YÖNTEMİ YZM 3207- ALGORİTMA ANALİZİ VE TASARIM DERS#6: AZALT VE FETHET YÖNTEMİ Azalt ve Fethet Algoritmaları Problemi daha küçük bir örneğine çevir: Küçük örneği çöz Çözümü asıl probleme genişlet 3 tipi vardır:

Detaylı

10.Hafta Minimum kapsayan ağaçlar Minimum spanning trees (MST)

10.Hafta Minimum kapsayan ağaçlar Minimum spanning trees (MST) 1 10.Hafta Minimum kapsayan ağaçlar Minimum spanning trees (MST) Kapsayan ağaç Spanning Tree (ST) Bir Kapsayan Ağaç (ST); G, grafındaki bir alt graftır ve aşağıdaki özelliklere sahiptir. G grafındaki tüm

Detaylı

Algoritmalar. Çizge Algoritmaları. Bahar 2017 Doç. Dr. Suat Özdemir 1

Algoritmalar. Çizge Algoritmaları. Bahar 2017 Doç. Dr. Suat Özdemir 1 Algoritmalar Çizge Algoritmaları Bahar 201 Doç. Dr. Suat Özdemir 1 En Kısa Yol Problemi Çizgelerdeki bir diğer önemli problem de bir düğümden diğer bir düğüme olan en kısa yolun bulunmasıdır. Bu problem

Detaylı

Kümeler arası. Küme içi. uzaklıklar. maksimize edilir. minimize edilir

Kümeler arası. Küme içi. uzaklıklar. maksimize edilir. minimize edilir Kümeleme Analizi: Temel Kavramlar ve Algoritmalar Kümeleme Analizi Nedir? Her biri bir dizi öznitelik ile, veri noktalarının bir kümesi ve noktalar arasındaki benzerliği ölçen bir benzerlik ölçümü verilmiş

Detaylı

Genel Graf Üzerinde Mutlak 1-merkez

Genel Graf Üzerinde Mutlak 1-merkez Genel Graf Üzerinde Mutlak 1-merkez Çözüm yöntemine geçmeden önce bazı tanımlara ihtiyaç vardır. Dikkate alınan G grafındaki düğümleri 1 den n e kadar numaralandırın. Uzunluğu a(i, j)>0 olarak verilen

Detaylı

5. SINIF TÜRKÇE DERSİ KURS KAZANIMLARI VE TESTLERİ

5. SINIF TÜRKÇE DERSİ KURS KAZANIMLARI VE TESTLERİ EKİM 5. SINIF TÜRKÇE İ KURS I VE LERİ 3 4 5 Ön bilgilerini kullanarak okuduğunu anlamlandırır. Çok anlamlılık (temel, yan, mecaz ve terim Metinde verilen ipuçlarından hareketle, karşılaştığı yeni kelimelerin

Detaylı

Makine Öğrenmesi 3. hafta

Makine Öğrenmesi 3. hafta Makine Öğrenmesi 3. hafta Entropi Karar Ağaçları (Desicion Trees) ID3 C4.5 Sınıflandırma ve Regresyon Ağaçları (CART) Karar Ağacı Nedir? Temel fikir, giriş verisinin bir kümeleme algoritması yardımıyla

Detaylı

Türkçe Dokümanlar Ġçin Yazar Tanıma

Türkçe Dokümanlar Ġçin Yazar Tanıma Türkçe Dokümanlar Ġçin Yazar Tanıma Özcan KOLYĠĞĠT, Rıfat AġLIYAN, Korhan GÜNEL Adnan Menderes Üniversitesi, Matematik Bölümü Bölümü, Aydın okolyigit@gmail.com, rasliyan@adu.edu.tr, kgunel@adu.edu.tr Özet:

Detaylı

Kelime Gösterimleri (Word Representation Word Embeddings)

Kelime Gösterimleri (Word Representation Word Embeddings) Kelime Gösterimleri (Word Representation Word Embeddings) Kelime, cümlede kullanımına göre farklı anlamlar kazanabilir Anlamsal bilginin çıkarılması metinlerin işlenmesinde önemlidir Kelimelerin işlenebilir

Detaylı

3.2. Raster Veriler. Satırlar. Sütunlar. Piksel/hücre büyüklüğü

3.2. Raster Veriler. Satırlar. Sütunlar. Piksel/hücre büyüklüğü 3.2. Raster Veriler Satırlar Piksel/hücre büyüklüğü Sütunlar 1 Görüntü formatlı veriler Her piksel için gri değerleri kaydedilmiştir iki veya üç bant (RGB) çok sayıda bant Fotoğraf, uydu görüntüsü, ortofoto,

Detaylı

Vega Ayarları. Vega Programının kurulu olduğu veritabanı ve web servisi için bağlantı ayarlarının yapıldığı menüdür.

Vega Ayarları. Vega Programının kurulu olduğu veritabanı ve web servisi için bağlantı ayarlarının yapıldığı menüdür. Vega Ayarları Vega muhasebe sistemini kullanan müşterilemizin, muhasebe sistemleri ile E Ticaret sitesi arasındaki entegrasyon parametrelerini tanımladıkları menüdür. Bu menü altındaki alt menüler kullanılarak

Detaylı

2.1 Gri Düzey Eş Oluşum Matrisi ( GLCM) Gri düzey eş oluşum matrisi Haralick tarafından öne sürülmüştür [1]. Đstatistiksel doku analizi yöntemidir.

2.1 Gri Düzey Eş Oluşum Matrisi ( GLCM) Gri düzey eş oluşum matrisi Haralick tarafından öne sürülmüştür [1]. Đstatistiksel doku analizi yöntemidir. ÇELĐK YÜZEYLERĐN SINIFLANDIRILMASI * Cem ÜNSALAN ** Aytül ERÇĐL * Ayşın ERTÜZÜN *Boğaziçi Üniversitesi, Elektrik-Elektronik Mühendisliği Bölümü unsalan@boun.edu.tr **Boğaziçi Üniversitesi, Endüstri Mühendisliği

Detaylı

BİLİMSEL ARAŞTIRMA NASIL YAPILIR II YRD. DOÇ. DR. İBRAHİM ÇÜTCÜ

BİLİMSEL ARAŞTIRMA NASIL YAPILIR II YRD. DOÇ. DR. İBRAHİM ÇÜTCÜ BİLİMSEL ARAŞTIRMA NASIL YAPILIR II YRD. DOÇ. DR. İBRAHİM ÇÜTCÜ 1 SUNUM PLANI 1. Giriş 2. Makale İncelemeleri 3. Araştırma Metninin Biçimsel Yapısı 3.1. Ön Kısım 3.2. Metin Kısmı 3.3. Son Kısım 4. Araştırma

Detaylı

Veri Madenciliği Yaklaşımı ile Mesleki Yönlendirme Sistemi

Veri Madenciliği Yaklaşımı ile Mesleki Yönlendirme Sistemi Veri Madenciliği Yaklaşımı ile Mesleki Yönlendirme Sistemi YRD. DOÇ. DR. HÜSEYİN GÜRÜLER MUĞLA SITKI KOÇMAN ÜNİVERSİTESİ, TEKNOLOJİ FAKÜLTESİ, BİLİŞİM SİSTEMLERİ MÜHENDİSLİĞİ Meslek Seçimi Meslek Seçimi

Detaylı

2. REGRESYON ANALİZİNİN TEMEL KAVRAMLARI Tanım

2. REGRESYON ANALİZİNİN TEMEL KAVRAMLARI Tanım 2. REGRESYON ANALİZİNİN TEMEL KAVRAMLARI 2.1. Tanım Regresyon analizi, bir değişkenin başka bir veya daha fazla değişkene olan bağımlılığını inceler. Amaç, bağımlı değişkenin kitle ortalamasını, açıklayıcı

Detaylı

Kolektif Öğrenme Metotları

Kolektif Öğrenme Metotları Kolektif Öğrenme Metotları Kolektif öğrenme algoritmalarına genel bakış 1-Bagging 2-Ardışık Topluluklarla Öğrenme (Boosting) 3-Rastsal Altuzaylar 4-Rastsal Ormanlar 5-Aşırı Rastsal Ormanlar 6-Rotasyon

Detaylı

Makine Öğrenmesi 2. hafta

Makine Öğrenmesi 2. hafta Makine Öğrenmesi 2. hafta Uzaklığa dayalı gruplandırma K-means kümeleme K-NN sınıflayıcı 1 Uzaklığa dayalı gruplandırma Makine öğrenmesinde amaç birbirine en çok benzeyen veri noktalarını aynı grup içerisinde

Detaylı

Algoritma Geliştirme ve Veri Yapıları 2 Veri Modelleri. Mustafa Kemal Üniversitesi

Algoritma Geliştirme ve Veri Yapıları 2 Veri Modelleri. Mustafa Kemal Üniversitesi Algoritma Geliştirme ve Veri Yapıları 2 Veri Modelleri Veri modelleri, veriler arasında ilişkisel ve sırasal düzeni gösteren kavramsal tanımlardır. Her program en azından bir veri modeline dayanır. Uygun

Detaylı

Örüntü Tanıma (EE 448) Ders Detayları

Örüntü Tanıma (EE 448) Ders Detayları Örüntü Tanıma (EE 448) Ders Detayları Ders Adı Ders Kodu Dönemi Ders Saati Uygulama Saati Laboratuar Saati Kredi AKTS Örüntü Tanıma EE 448 Bahar 3 0 0 3 5 Ön Koşul Ders(ler)i Dersin Dili Dersin Türü Dersin

Detaylı

CBS ve Coğrafi Hesaplama

CBS ve Coğrafi Hesaplama Yıldız Teknik Üniversitesi CBS ve Coğrafi Hesaplama 2. Bölüm Yrd. Doç. Dr. Alper ŞEN Harita Mühendisliği Bölümü Kartografya Anabilim Dalı web: http://www.yarbis.yildiz.edu.tr/alpersen/ E mail: alpersen@yildiz.edu.tr

Detaylı

ProQuest DISSERTATIONS AND THESIS FULL TEXT

ProQuest DISSERTATIONS AND THESIS FULL TEXT ProQuest DISSERTTIONS ND THESIS FULL TEXT Kullanım Kılavuzu Kapsam Kendi alanındaki tek veritabanı olan bu veritabanı Mühendislik, Tıp Bilimleri, Fizik, Psikoloji, Eğitim, Edebiyat, Felsefe, Sosyal Bilimler,

Detaylı

VERİ MADENCİLİĞİ (Karar Ağaçları ile Sınıflandırma) Yrd.Doç.Dr. Kadriye ERGÜN

VERİ MADENCİLİĞİ (Karar Ağaçları ile Sınıflandırma) Yrd.Doç.Dr. Kadriye ERGÜN VERİ MADENCİLİĞİ (Karar Ağaçları ile Sınıflandırma) Yrd.Doç.Dr. Kadriye ERGÜN kergun@balikesir.edu.tr Genel İçerik Veri Madenciliğine Giriş Veri Madenciliğinin Adımları Veri Madenciliği Yöntemleri Sınıflandırma

Detaylı

Sistem Geliştirme Yaşam Döngüsü (The Systems Development Life Cycle) (SDLC)

Sistem Geliştirme Yaşam Döngüsü (The Systems Development Life Cycle) (SDLC) Sistem Geliştirme Yaşam Döngüsü (The Systems Development Life Cycle) (SDLC) Sistem analistlerinin ve kullanıcı faaliyetlerinin spesifik döngüsünün kullanılmasıyla En iyi geliştirilmiş sistemin oluşmasını

Detaylı

BIP116-H14-1 BTP104-H014-1

BIP116-H14-1 BTP104-H014-1 VERİ YAPILARI VE PROGRAMLAMA (BIP116) Yazar: Doç.Dr.İ.Hakkı.Cedimoğlu SAKARYA ÜNİVERSİTESİ Adapazarı Meslek Yüksekokulu Bu ders içeriğinin basım, yayım ve satış hakları Sakarya Üniversitesi ne aittir.

Detaylı

Kılavuzu ; bir ürün veya sistemin kullanımıyla ilgili açıklamaların olduğu dokümantasyon olarak tanımlayabiliriz.

Kılavuzu ; bir ürün veya sistemin kullanımıyla ilgili açıklamaların olduğu dokümantasyon olarak tanımlayabiliriz. DÖKÜMANTASYON HELP USER INTERFACE DOCUMENTATION Belgeleme, bir çalışma için gerekli belgeleri arama ve sağlama, belgelere dayandırma Dökümantasyon sürecini 4 kısımda inceleyebiliriz ALİCEM GÜRBOSTAN 2008638004

Detaylı

Eğiticili (supervised) öğrenme: Sınıflandırma (classification) Sınıf sayısı ve bir grup örneğin hangi sınıfa ait olduğu bilinir

Eğiticili (supervised) öğrenme: Sınıflandırma (classification) Sınıf sayısı ve bir grup örneğin hangi sınıfa ait olduğu bilinir Eğiticili (supervised) öğrenme: Sınıflandırma (classification) Sınıf sayısı ve bir grup örneğin hangi sınıfa ait olduğu bilinir Eğiticisiz (unsupervised) öğrenme: Kümeleme (clustering) Hangi nesnenin hangi

Detaylı

CJ MTP11 AYRINTILAR. 5. Sınıf Türkçe. Konu Tarama Adı. 01 Sözcük ve Söz Gruplarında Anlam - I. 02 Sözcük ve Söz Gruplarında Anlam - II

CJ MTP11 AYRINTILAR. 5. Sınıf Türkçe. Konu Tarama Adı. 01 Sözcük ve Söz Gruplarında Anlam - I. 02 Sözcük ve Söz Gruplarında Anlam - II 5. Sınıf Adı Öğrenme Alanı 01 Sözcük ve Söz Gruplarında Anlam - I 02 Sözcük ve Söz Gruplarında Anlam - II 03 Sözcük ve Söz Gruplarında Anlam - III (Sözcükte Anlam) 04 Sözcük ve Söz Gruplarında Anlam -

Detaylı

Hafta 10 - Vektör Uzay Modelleri

Hafta 10 - Vektör Uzay Modelleri BGM 565 - Siber Güvenlik için Makine Öğrenme Yöntemleri Bilgi Güvenliği Mühendisliği Yüksek Lisans Programı Dr. Ferhat Özgür Çatak ozgur.catak@tubitak.gov.tr İstanbul Şehir Üniversitesi 2018 - Bahar İçindekiler

Detaylı

Algoritma Geliştirme ve Veri Yapıları 10 Graf Veri Modeli. Mustafa Kemal Üniversitesi

Algoritma Geliştirme ve Veri Yapıları 10 Graf Veri Modeli. Mustafa Kemal Üniversitesi Algoritma Geliştirme ve Veri Yapıları 10 Graf Veri Modeli Graf, matematiksel anlamda, düğümler ve bu düğümler arasındaki ilişkiyi gösteren kenarlardan oluşan bir kümedir; mantıksal ilişki düğüm ile düğüm

Detaylı

Zeki Optimizasyon Teknikleri

Zeki Optimizasyon Teknikleri Zeki Optimizasyon Teknikleri Ara sınav - 25% Ödev (Haftalık) - 10% Ödev Sunumu (Haftalık) - 5% Final (Proje Sunumu) - 60% - Dönem sonuna kadar bir optimizasyon tekniğiyle uygulama geliştirilecek (Örn:

Detaylı

ICATT ÇEVİRİ UYGULAMASI SİSTEM MİMARİSİ VE VERİTABANI TASARIMI

ICATT ÇEVİRİ UYGULAMASI SİSTEM MİMARİSİ VE VERİTABANI TASARIMI ICATT ÇEVİRİ UYGULAMASI SİSTEM MİMARİSİ VE VERİTABANI TASARIMI İÇİNDEKİLER 1. GİRİŞ 1.1. KAPSAM 1.2. SİSTEM ÖZETİ 1.3. DOKÜMAN ÖZETİ 2. ÇALIŞMA KONSEPTİ 2.1. Yeni Kullanıcı Oluşturmak 2.2. Şirket Bilgilerini

Detaylı

Akış YILDIZ TEKNİK ÜNİVERSİTESİ BİLGİSAYAR MÜHENDİSLİĞİ BÖLÜMÜ

Akış YILDIZ TEKNİK ÜNİVERSİTESİ BİLGİSAYAR MÜHENDİSLİĞİ BÖLÜMÜ Akış Makine Öğrenmesi nedir? Günlük Hayatımızdaki Uygulamaları Verilerin Sayısallaştırılması Özellik Belirleme Özellik Seçim Metotları Bilgi Kazancı (Informaiton Gain-IG) Sinyalin Gürültüye Oranı: (S2N

Detaylı

Pamukkale Üniversitesi Mühendislik Bilimleri Dergisi Pamukkale University Journal of Engineering Sciences

Pamukkale Üniversitesi Mühendislik Bilimleri Dergisi Pamukkale University Journal of Engineering Sciences Pamukkale Üniversitesi Mühendislik Bilimleri Dergisi Pamukkale University Journal of Engineering Sciences Makine öğrenmesi yöntemlerinin görüş madenciliğinde kullanılması üzerine bir literatür araştırması

Detaylı

VERİ MADENCİLİĞİ önemsiz olmayan, gizli, önceden bilinmeyen, potansiyel olarak kullanışlı

VERİ MADENCİLİĞİ önemsiz olmayan, gizli, önceden bilinmeyen, potansiyel olarak kullanışlı Veri Madenciliği, örüntü tanıma, istatistik ve matematiksel yöntemlerin kullanımıyla devasa miktardaki güncel ya da geçmiş veri içerisinden ilgi çekici ( önemsiz olmayan, gizli, önceden bilinmeyen, potansiyel

Detaylı

Yeşim AKSAN, Selma Ayşe ÖZEL, Yasin BEKTAŞ, Mustafa AKSAN, Umut Ufuk DEMİRHAN, Ümit MERSİNLİ, Hakan YILMAZER. Sunan : Yasin BEKTAŞ.

Yeşim AKSAN, Selma Ayşe ÖZEL, Yasin BEKTAŞ, Mustafa AKSAN, Umut Ufuk DEMİRHAN, Ümit MERSİNLİ, Hakan YILMAZER. Sunan : Yasin BEKTAŞ. Yeşim AKSAN, Selma Ayşe ÖZEL, Yasin BEKTAŞ, Mustafa AKSAN, Umut Ufuk DEMİRHAN, Ümit MERSİNLİ, Hakan YILMAZER Sunan : Yasin BEKTAŞ 5 Şubat 2014 1. Giriş 2. Alanyazın 3. Açık Kaynak / Ücretsiz Yazılımlarla

Detaylı

KORELASYON VE REGRESYON ANALİZİ. Doç. Dr. Bahar TAŞDELEN

KORELASYON VE REGRESYON ANALİZİ. Doç. Dr. Bahar TAŞDELEN KORELASYON VE REGRESYON ANALİZİ Doç. Dr. Bahar TAŞDELEN Günlük hayattan birkaç örnek Gelişim dönemindeki bir çocuğun boyu ile kilosu arasındaki ilişki Bir ailenin tükettiği günlük ekmek sayısı ile ailenin

Detaylı

PARALEL VERİ MADENCİLİĞİ ALGORİTMALARI. BAŞARIM 09, 15-18 Nisan 2009, ODTÜ, Ankara

PARALEL VERİ MADENCİLİĞİ ALGORİTMALARI. BAŞARIM 09, 15-18 Nisan 2009, ODTÜ, Ankara PARALEL VERİ MADENCİLİĞİ ALGORİTMALARI BAŞARIM 09, 15-18 Nisan 2009, ODTÜ, Ankara Veri Madenciliğine Genel Bir Bakış Veri Madenciliğinin Görevleri Sınıflama Seri Sınıflama Algoritmaları Paralel Sınıflama

Detaylı

BKİ farkı Standart Sapması (kg/m 2 ) A B BKİ farkı Ortalaması (kg/m 2 )

BKİ farkı Standart Sapması (kg/m 2 ) A B BKİ farkı Ortalaması (kg/m 2 ) 4. SUNUM 1 Gözlem ya da deneme sonucu elde edilmiş sonuçların, rastlantıya bağlı olup olmadığının incelenmesinde kullanılan istatistiksel yöntemlere HİPOTEZ TESTLERİ denir. Sonuçların rastlantıya bağlı

Detaylı

VERİ MADENCİLİĞİ VE SOSYAL AĞ ANALİZİ ARAŞTIRMA LABORATUVARI

VERİ MADENCİLİĞİ VE SOSYAL AĞ ANALİZİ ARAŞTIRMA LABORATUVARI BİLGİSAYAR MÜHENDİSLİĞİ BÖLÜMÜ VERİ MADENCİLİĞİ VE SOSYAL AĞ ANALİZİ ARAŞTIRMA LABORATUVARI 10 Aralık 2011, Cumartesi Fen ve Mühendislik Alanlarındaki Çeşitli Araştırma Projelerinden Örneklemeler İçerik

Detaylı

VERİ MADENCİLİĞİ. Karar Ağacı Algoritmaları: SPRINT algoritması Öğr.Gör.İnan ÜNAL

VERİ MADENCİLİĞİ. Karar Ağacı Algoritmaları: SPRINT algoritması Öğr.Gör.İnan ÜNAL VERİ MADENCİLİĞİ Karar Ağacı Algoritmaları: SPRINT algoritması Öğr.Gör.İnan ÜNAL SPRINT Algoritması ID3,CART, ve C4.5 gibi algoritmalar önce derinlik ilkesine göre çalışırlar ve en iyi dallara ayırma kriterine

Detaylı

VERİ MADENCİLİĞİ (Veri Ön İşleme-2) Yrd.Doç.Dr. Kadriye ERGÜN

VERİ MADENCİLİĞİ (Veri Ön İşleme-2) Yrd.Doç.Dr. Kadriye ERGÜN VERİ MADENCİLİĞİ (Veri Ön İşleme-2) Yrd.Doç.Dr. Kadriye ERGÜN kergun@balikesir.edu.tr Genel İçerik Veri Madenciliğine Giriş Veri Madenciliğinin Adımları Veri Madenciliği Yöntemleri Sınıflandırma Kümeleme

Detaylı

Naive Bayes Yöntemi ile Spam Mail Teşhisi Kübra KURNAZ

Naive Bayes Yöntemi ile Spam Mail Teşhisi Kübra KURNAZ Naive Bayes Yöntemi ile Spam Mail Teşhisi 2 17574006-Kübra KURNAZ Yıldız Teknik Üniversitesi, Elektrik-Elektronik Fakültesi, Bilgisayar Mühendisliği Bölümü, Tezsiz Yüksek Lisans Bilgi Teknolojileri Özet

Detaylı

BÖLÜM 1 Nitel Araştırmayı Anlamak Nitel Bir Araştırmacı Gibi Düşünmek Nicel Araştırmaya Dayalı Nitel Bir Araştırma Yürütme...

BÖLÜM 1 Nitel Araştırmayı Anlamak Nitel Bir Araştırmacı Gibi Düşünmek Nicel Araştırmaya Dayalı Nitel Bir Araştırma Yürütme... İÇİNDEKİLER Ön söz... xiii Amaç... xiii Okuyucu Kitle... xiv Kitabı Tanıyalım... xiv Yazım Özellikleri... xv Teşekkür... xvi İnternet Kaynakları... xvi Çevirenin Sunuşu... xvii Yazar Hakkında... xix Çeviren

Detaylı

Bilgi Erişim Performans Ölçüleri

Bilgi Erişim Performans Ölçüleri Bilgi Erişim Performans Ölçüleri Yaşar Tonta Hacettepe Üniversitesi tonta@hacettepe.edu.tr yunus.hacettepe.edu.tr/~tonta/ DOK324/BBY220 Bilgi Erişim İlkeleri DOK 220 Bahar 2005 2005.03.01 - SLAYT 1 Belge

Detaylı

TANIMLAYICI İSTATİSTİKLER

TANIMLAYICI İSTATİSTİKLER TANIMLAYICI İSTATİSTİKLER Tanımlayıcı İstatistikler ve Grafikle Gösterim Grafik ve bir ölçüde tablolar değişkenlerin görsel bir özetini verirler. İdeal olarak burada değişkenlerin merkezi (ortalama) değerlerinin

Detaylı

Veri madenciliği sınıflandırma ve kümeleme teknikleri yardımıyla Wisconsin veriseti üzerinde Göğüs Kanseri Teşhisi. Hazırlayan: Nury Amanmadov

Veri madenciliği sınıflandırma ve kümeleme teknikleri yardımıyla Wisconsin veriseti üzerinde Göğüs Kanseri Teşhisi. Hazırlayan: Nury Amanmadov Veri madenciliği sınıflandırma ve kümeleme teknikleri yardımıyla Wisconsin veriseti üzerinde Göğüs Kanseri Teşhisi Hazırlayan: Nury Amanmadov Göğüs Kanseri Nedir? Gögüs Kanseri göğüs hücrelerinde başlayan

Detaylı

Türkçe Twitter Mesajlarında Gizli Dirichlet Tahsisine Dayalı Duygu Analizi

Türkçe Twitter Mesajlarında Gizli Dirichlet Tahsisine Dayalı Duygu Analizi Türkçe Twitter Mesajlarında Gizli Dirichlet Tahsisine Dayalı Duygu Analizi Aytuğ Onan 1 1 Celal Bayar Üniversitesi, Yazılım Mühendisliği Bölümü, Manisa aytug.onan@cbu.edu.tr Özet: Duygu analizi, görüş

Detaylı

FAN SELECTOR FAN SELECTOR FAN SEÇİM YAZILIMI.

FAN SELECTOR FAN SELECTOR FAN SEÇİM YAZILIMI. FAN SELECTOR FAN SEÇİM YAZILIMI YAZILIM TANIMI Fan Selector yazılımı havalandırma ve iklimlendirme sistemlerinde kullanılan fanların performans hesaplamalarının yapılması ve çalışma şartlarına en uygun

Detaylı

ODTÜ BLOG SERVĐSĐ ve BLOG HAZIRLAMA

ODTÜ BLOG SERVĐSĐ ve BLOG HAZIRLAMA Instructional Technology Support Office ODTÜ BLOG SERVĐSĐ ve BLOG HAZIRLAMA Orta Doğu Teknik Üniversitesi Middle East Technical University Đletişim Bilgileri: Web adresi: http://its.metu.edu.tr Adres:

Detaylı

Mikro Ayarları. Mikro Programının kurulu olduğu veritabanı ve web servisi için bağlantı ayarlarının yapıldığı menüdür.

Mikro Ayarları. Mikro Programının kurulu olduğu veritabanı ve web servisi için bağlantı ayarlarının yapıldığı menüdür. Mikro Ayarları Mikro muhasebe sistemini kullanan müşterilemizin, muhasebe sistemleri ile E Ticaret sitesi arasındaki entegrasyon parametrelerini tanımladıkları menüdür. Bu menü altındaki alt menüler kullanılarak

Detaylı

Kullanım Kılavuzu Milli Eğitim Bakanlığı 2010

Kullanım Kılavuzu Milli Eğitim Bakanlığı 2010 Kullanım Kılavuzu Milli Eğitim Bakanlığı 2010 Bu belge BT Sınıfı Etkinliklerinde Kullanılmak Üzere Hazırlanmıştır İÇİNDEKİLER GİRİŞ... 3 ÜYE (KAYIT) OLMA... 3 YÖNETİM PANELİ İŞLEMLERİ... 5 ŞABLON AYARLARI...

Detaylı

BÖLÜM III: Şebeke Modelleri. Şebeke Kavramları. Şebeke Kavramları. Şebeke Kavramları. Yönlü Şebeke (Directed Network) Dal / ok

BÖLÜM III: Şebeke Modelleri. Şebeke Kavramları. Şebeke Kavramları. Şebeke Kavramları. Yönlü Şebeke (Directed Network) Dal / ok 8.0.0 Şebeke Kavramları BÖLÜM III: Şebeke Modelleri Şebeke (Network) Sonlu sayıdaki düğümler kümesiyle, bunlarla bağlantılı oklar (veya dallar) kümesinin oluşturduğu yapı şeklinde tanımlanabilir ve (N,A)

Detaylı

GAP COTTON GAPCOTTON LAB PORTALI. Kullanım Kılavuzu.

GAP COTTON GAPCOTTON LAB PORTALI. Kullanım Kılavuzu. GAP COTTON GAPCOTTON LAB PORTALI Kullanım Kılavuzu www.gapcotton.org İçindekiler İÇİNDEKİLER GAP COTTON... 1 GAPCOTTON LAB PORTALI... 1 Kullanım Kılavuzu... 1 İçindekiler... 2 A. Sunuş... 4 1. Kayıt İşlemi...

Detaylı

FİKİR MADENCİLİĞİ VE DUYGU ANALİZİ, YAKLAŞIMLAR, YÖNTEMLER ÜZERİNE BİR ARAŞTIRMA

FİKİR MADENCİLİĞİ VE DUYGU ANALİZİ, YAKLAŞIMLAR, YÖNTEMLER ÜZERİNE BİR ARAŞTIRMA S.Ü. Müh. Bilim ve Tekn. Derg., c.6, s.4, ss. 668-693, 2018 Selcuk Univ. J. Eng. Sci. Tech., v.6, n.4, pp. 668-693, 2018 ISSN: 2147-9364 (Electronic) DOI: 10.15317/Scitech.2018.160 FİKİR MADENCİLİĞİ VE

Detaylı

İÇİNDEKİLER. BÖLÜM 1 Değişkenler ve Grafikler 1. BÖLÜM 2 Frekans Dağılımları 37

İÇİNDEKİLER. BÖLÜM 1 Değişkenler ve Grafikler 1. BÖLÜM 2 Frekans Dağılımları 37 İÇİNDEKİLER BÖLÜM 1 Değişkenler ve Grafikler 1 İstatistik 1 Yığın ve Örnek; Tümevarımcı ve Betimleyici İstatistik 1 Değişkenler: Kesikli ve Sürekli 1 Verilerin Yuvarlanması Bilimsel Gösterim Anlamlı Rakamlar

Detaylı

Manisa Celal Bayar Üniversitesi Yazılım Mühendisliği Bölümü YZM Veri Yapıları Dersi. Proje#2

Manisa Celal Bayar Üniversitesi Yazılım Mühendisliği Bölümü YZM Veri Yapıları Dersi. Proje#2 Manisa Celal Bayar Üniversitesi Yazılım Mühendisliği Bölümü YZM 2116- Veri Yapıları Dersi Proje#2 İkili Arama Ağacı, Heap, Hash Tabloları ve Çizgeler Veriliş Tarihi: 24.04.2018 Son Teslim Tarihi: 25.05.2018

Detaylı

İNGİLİZCE HAZIRLIK PROGRAMI SEVİYE 2 DERS MÜFREDATI

İNGİLİZCE HAZIRLIK PROGRAMI SEVİYE 2 DERS MÜFREDATI İNGİLİZCE HAZIRLIK PROGRAMI SEVİYE 2 DERS MÜFREDATI 2017-2018 CEFR seviyesi: A2 Ders Programı: Dersler 8 hafta sürmektedir. Öğrenciler, her gün 4 saat olmak üzere haftanın beş günü İngilizce eğitimi almaktadırlar.

Detaylı

2.1 Bir Sınıfı Örneklerinden Öğrenme... 15 2.2 Vapnik-Chervonenkis (VC) Boyutu... 20 2.3 Olası Yaklaşık Doğru Öğrenme... 21

2.1 Bir Sınıfı Örneklerinden Öğrenme... 15 2.2 Vapnik-Chervonenkis (VC) Boyutu... 20 2.3 Olası Yaklaşık Doğru Öğrenme... 21 İçindekiler Önsöz İkinci Basım için Önsöz Türkçe Çeviri için Önsöz Gösterim xiii xv xvii xix 1 Giriş 1 1.1 Yapay Öğrenme Nedir?......................... 1 1.2 Yapay Öğrenme Uygulamalarına Örnekler...............

Detaylı

T.C. Ankara Üniversitesi. Elmadağ Meslek Yüksek Okulu. Bilgisayar Programcılığı Programı

T.C. Ankara Üniversitesi. Elmadağ Meslek Yüksek Okulu. Bilgisayar Programcılığı Programı T.C. Ankara Üniversitesi Elmadağ Meslek Yüksek Okulu Bilgisayar Programcılığı Programı Ankara Üniversitesi Elmadağ Meslek Yüksek Okulu Öğrencileri Neden Facebook, Twitter Tarzı Sosyal Paylaşım Sitelerine

Detaylı

Bölüm 7: Kilitlenme (Deadlocks)

Bölüm 7: Kilitlenme (Deadlocks) Bölüm 7: Kilitlenme (Deadlocks) Mehmet Demirci tarafından çevrilmiştir. Silberschatz, Galvin and Gagne 2013 Bölüm 7: Kilitlenme (Deadlocks) Sistem modeli Kilitlenme Belirleme Kilitlenme Yönetim Yöntemleri

Detaylı

bitık MOBİL TİCARET UYGULAMASI ABDULLAH ÇİÇEKCİ

bitık MOBİL TİCARET UYGULAMASI ABDULLAH ÇİÇEKCİ bitık MOBİL TİCARET UYGULAMASI ABDULLAH ÇİÇEKCİ - 150110046 İÇERİK Uygulama ve uygulamaya ilişkin temel kavramların tanıtımı Uygulamanın yapısı Ön yüz Veritabanı Web Servisler K-Means Algoritması ile kategori

Detaylı

BİLGİSAYAR MÜHENDİSLİĞİ DOKTORA PROGRAM BİLGİLERİ

BİLGİSAYAR MÜHENDİSLİĞİ DOKTORA PROGRAM BİLGİLERİ BİLGİSAYAR MÜHENDİSLİĞİ DOKTORA PROGRAM BİLGİLERİ Genel Bilgiler Programın Amacı Kazanılan Derece Kazanılan Derecenin Seviyesi Kazanılan Derecenin Gerekleri ve Kurallar Kayıt Kabul Koşulları Önceki Öğrenmenin

Detaylı

Yazılım Mühendisliği 1

Yazılım Mühendisliği 1 Yazılım Mühendisliği 1 HEDEFLER Yazılım, program ve algoritma kavramları anlar. Yazılım ve donanım maliyetlerinin zamansal değişimlerini ve nedenleri hakkında yorum yapar. Yazılım mühendisliği ile Bilgisayar

Detaylı

HORİZON 2020 Hakemlik Kaydı

HORİZON 2020 Hakemlik Kaydı HORİZON 2020 Hakemlik Kaydı Hülya GÜMÜŞ TTO EXPERT Hakemlik kaydı yapılacak web adresini bulmak için Google da Horizon 2020 sign up yazılır ve Research Participant Portal yazılı link tıklanır. Expert linkine

Detaylı

Mekatronik Mühendisliği Uygulamalarında Yapay Zekâ. Makine Öğrenmesi. Erhan AKDOĞAN, Ph.D.

Mekatronik Mühendisliği Uygulamalarında Yapay Zekâ. Makine Öğrenmesi. Erhan AKDOĞAN, Ph.D. Mekatronik Mühendisliği Uygulamalarında Yapay Zekâ Makine Öğrenmesi Erhan AKDOĞAN, Ph.D. Bu ders notunun hazırlanmasında Dr. U.Orhan ve Banu Diri nin ders notlarından yararlanılmıştır. Makine öğrenmesi

Detaylı

AST416 Astronomide Sayısal Çözümleme - II. 6. Monte Carlo

AST416 Astronomide Sayısal Çözümleme - II. 6. Monte Carlo AST416 Astronomide Sayısal Çözümleme - II 6. Monte Carlo Bu derste neler öğreneceksiniz? Monte Carlo Yöntemleri Markov Zinciri (Markov Chain) Rastgele Yürüyüş (Random Walk) Markov Chain Monte Carlo, MCMC

Detaylı

Concept Learning. Araş. Gör. Nesibe YALÇIN BİLECİK ÜNİVERSİTESİ. Yapay Zeka - Kavram Öğrenme

Concept Learning. Araş. Gör. Nesibe YALÇIN BİLECİK ÜNİVERSİTESİ. Yapay Zeka - Kavram Öğrenme Concept Learning Araş. Gör. Nesibe YALÇIN BİLECİK ÜNİVERSİTESİ 1 İÇERİK Öğrenme Metotları Kavram Öğrenme Nedir? Terminoloji Find-S Algoritması Candidate-Elimination Algoritması List-Then Elimination Algoritması

Detaylı

Uzaktan Algılama Uygulamaları

Uzaktan Algılama Uygulamaları Aksaray Üniversitesi Uzaktan Algılama Uygulamaları Doç.Dr. Semih EKERCİN Harita Mühendisliği Bölümü sekercin@aksaray.edu.tr 2010-2011 Bahar Yarıyılı Uzaktan Algılama Uygulamaları GÖRÜNTÜ İŞLEME TEKNİKLERİ

Detaylı

Karaciğerde Oluşan Hastalıkların Tespitinde Makine Öğrenmesi Yöntemlerinin Kullanılması

Karaciğerde Oluşan Hastalıkların Tespitinde Makine Öğrenmesi Yöntemlerinin Kullanılması Karaciğerde Oluşan Hastalıkların Tespitinde Makine Öğrenmesi Yöntemlerinin Kullanılması 1 Emre DANDIL Bilecik Ş. Edebali Üniversitesi emre.dandil@bilecik.edu.tr +90228 214 1613 Sunum İçeriği Özet Giriş

Detaylı

Kullanıcı Kılavuzu. Temel Arama. help.ebsco.com

Kullanıcı Kılavuzu. Temel Arama. help.ebsco.com Kullanıcı Kılavuzu Temel Arama help.ebsco.com EBSCOhost lider bilgi sağlayıcılarından derlenmiş çeşitli tam metin ve popüler veri tabanları sunan güçlü bir danışma aracıdır. Bu kullanıcı kılavuzunda, EBSCOhost

Detaylı

3.3. İki Tabanlı Sayı Sisteminde Dört İşlem

3.3. İki Tabanlı Sayı Sisteminde Dört İşlem 3.3. İki Tabanlı Sayı Sisteminde Dört İşlem A + B = 2 0 2 1 (Elde) A * B = Sonuç A B = 2 0 2 1 (Borç) A / B = Sonuç 0 + 0 = 0 0 0 * 0 = 0 0 0 = 0 0 0 / 0 = 0 0 + 1 = 1 0 0 * 1 = 0 0 1 = 1 1 0 / 1 = 0 1

Detaylı

Görüntü Sınıflandırma

Görüntü Sınıflandırma Görüntü Sınıflandırma Chapter 12 https://www.google.com.tr/url?sa=t&rct=j&q=&esrc=s&source=web&cd=1&cad=rja&uact=8&ved=0 CBwQFjAA&url=http%3A%2F%2Ffaculty.une.edu%2Fcas%2Fszeeman%2Frs%2Flect%2FCh%2 52012%2520Image%2520Classification.ppt&ei=0IA7Vd36GYX4Uu2UhNgP&usg=AFQjCNE2wG

Detaylı

Örnek 4.1: Tablo 2 de verilen ham verilerin aritmetik ortalamasını hesaplayınız.

Örnek 4.1: Tablo 2 de verilen ham verilerin aritmetik ortalamasını hesaplayınız. .4. Merkezi Eğilim ve Dağılım Ölçüleri Merkezi eğilim ölçüleri kitleye ilişkin bir değişkenin bütün farklı değerlerinin çevresinde toplandığı merkezi bir değeri gösterirler. Dağılım ölçüleri ise değişkenin

Detaylı

Algoritmalar. Heap Sort. Bahar 2017 Doç. Dr. Suat Özdemir 1

Algoritmalar. Heap Sort. Bahar 2017 Doç. Dr. Suat Özdemir 1 Algoritmalar Heap Sort Bahar 2017 Doç. Dr. Suat Özdemir 1 Heap Sort Heap Sort algoritması Merge Sort ve Insertion Sort algoritmalarının iyi özelliklerini bir arada toplar. Algoritma Insertion Sort gibi

Detaylı

MOCKUS HİDROGRAFI İLE HAVZA & TAŞKIN MODELLENMESİNE BİR ÖRNEK: KIZILCAHAMAM(ANKARA)

MOCKUS HİDROGRAFI İLE HAVZA & TAŞKIN MODELLENMESİNE BİR ÖRNEK: KIZILCAHAMAM(ANKARA) MOCKUS HİDROGRAFI İLE HAVZA & TAŞKIN MODELLENMESİNE BİR ÖRNEK: KIZILCAHAMAM(ANKARA) Tunç Emre TOPTAŞ Teknik Hizmetler ve Eğitim Müdürü, Netcad Yazılım A.Ş. Bilkent, Ankara, Öğretim Görevlisi, Gazi Üniversitesi,

Detaylı