Doküman dili tanıma için ikili örüntüler tabanlı yeni bir yaklaşım

Ebat: px
Şu sayfadan göstermeyi başlat:

Download "Doküman dili tanıma için ikili örüntüler tabanlı yeni bir yaklaşım"

Transkript

1 Doküman dili tanıma için ikili örüntüler tabanlı yeni bir yaklaşım Yılmaz KAYA 1, Ömer Faruk ERTUĞRUL 2, Ramazan TEKİN 3 1 Siirt Üniversitesi, Bilgisayar Mühendisliği Bölümü 2 Batman Üniversitesi, Elektrik-Elektronik Mühendisliği Bölümü 3 Batman Üniversitesi, Bilgisayar Mühendisliği Bölümü Özet Otomatik dil tanıma (DT) doğal dil işlemenin önemli alt konularından biridir. DT, bir dokümanın içeriğine göre yazıldığı dili belirleme işlemidir. Bu çalışmada, karakterlerin UTF-8 değerlerini birbirleri ile karşılaştırmalar sonucu elde edilen ikili örüntüler kullanarak yeni bir dil tanıma yaklaşımı, bir boyutlu yerel ikili örüntüler (1B- YİÖ) önerilmiştir. Önerilen yöntem İngilizce, Almanca, Fransızca ve Türkçe den oluşan iki farklı veri seti ile test edilmiştir. 1B-YİÖ ile dokümanlardan elde edilen öznitelikler yapay sinir ağları(ysa) ile kullanılarak sınıflandırma işlemi gerçekleştirilmiştir. Sınıflandırma başarıları %99 ve %89 olarak gözlenmiştir. Elde edilen sonuçlara göre önerilen öznitelik çıkarım yönteminin dil tanıma için önemli örüntüler sağladığı görülmüştür. Anahtar Kelimeler: metin tabanlı dil tanıma, yerel ikili örüntüler, doğal dil işleme 1. Giriş Son yıllarda internet üzerinde web sayfaların artması ile bu sayfalardan içerik tanımlaması veya bilgi çıkarımı için yeni tekniklere ihtiyaç duyulmaktadır (Selamat ve Ng, 2011). Bilgi çıkarımı aşaması öncesinde içeriğinin dil tanımlanması önemli bir aşamadır. Dil tanıma (DT), bir dokümanın içeriğini kullanarak İngilizce, Türkçe, Arapça İngilizce veya herhangi bir dile ait olduğunun otomatik olarak tespitidir. DT, yazılı veya konuşma dili tanıma şeklinde iki farklı şekilde değerlendirilmektedir (Takci ve Ekinci, 2012). DT için literatürde dilbilimsel (linguistik) veya istatistiksel tabanlı farklı yaklaşımlar söz konusudur. Dilbilimsel yaklaşımlar, bir dile ait özel bir kelime veya karakteri arayan ve indeksleyen metotlardır. Bu yaklaşımlar dile ait kurallar ile bilgi tabanlı olarak çalışırlar. İstatistiksel yaklaşımlar ise dili oluşturan kelime veya karakter frekans ve dağılımlarına bağlıdır. Dilbilimsel yöntemlere göre yeterli bilgi vermeyen ancak dilleri matematiksel olarak modellemek için yardımcı olurlar. İstatistiksel yaklaşımlar dokümanın içeriği ile ilgilenmezler. İçerik-bağımsız yöntemlerdir. Bu yaklaşımların en büyük dezavantajı benzer dillerde ayırt etme başarısının düşük olmasıdır (Takçi ve Ekinci, 2012). DT bir metin sınıflandırma problemidir. DT dokümana ait kelime veya karakter boyutunda elde edilen özelliklere bağlıdır (Xafopoulos ve ark., 2004). Genellikle karakter seviyesinde yapılan çalışmalar kelime düzeyindeki çalışmalardan daha kararlıdırlar (Xafopoulos ve ark., 2004). Literatürde web tabanlı dokümanları kullanılarak bilgi çıkarımı, dijital kütüphane oluşturma, konuşulan dili modelleme (Li ve ark., 2007), çoklu dil çeviri sistemleri, spam tespiti, doküman sınıflama (Selamat ve Ng, 2011), metin özetleme, otomatik soru-cevap sistemler ve çeviri sistemleri DT ile ilgili gerçekleştirilen uygulamalardır. DT için tekil karakter kombinasyonları, kısa kelime, n-gram ve ASCII veya Unicode karakter frekans vektörleri gibi çeşitli öznitelik çıkarım yöntemleri kullanılmıştır (Ahmed ve ark., 2004). Literatürde öznitelik çıkarım yöntemi olarak en başarılı E-Posta: (Y. Kaya).

2 yöntemin n-gram olduğu görülmektedir. Ancak bu yöntem ile çok fazla öznitelik çıkarıldığından dolayı farklı öznitelik uzayının büyümesi, hesaplama maliyeti gibi sorunlar oluşmaktadır. Bu yüzden ekstra maliyet gerektirecek öznitelik seçim yöntemleri kullanılmaktadır. Bu çalışmada, karakterlerin UTF-8 değerlerinin ikili karşılaştırmalar sonucu elde edilen bilgileri kullanan yeni bir öznitelik çıkarım yöntemi önerilmiştir. Dokümanlardan öznitelik çıkarımı için bir boyutlu yerel ikili örüntüler (1B-YİÖ) metodu kullanılmıştır. YİÖ görüntülerden öznitelik çıkarımı için kullanılmaktadır (Burçin ve Vasif, 2011). YİÖ, görüntüdeki yerel değişimleri kullanarak öznitelik çıkarımı gerçekleştirmektedir. YİÖ uygulaması kolay ve etkili bir yöntemdir. Bu çalışmada YİÖ metodu tek boyutlu hale getirilerek, metin madenciliğinde bir öznitelik çıkarım metodu olarak kullanılmıştır. Önerilen yöntem karakterlerin Unikod değerlerini kullanmaktadır. Karakterlerin Unikod değerleri komşuları ile karşılaştırılarak; büyük olması durumunda 1 diğer durumlarda 0 değeri üretilerek bir ikili dizge elde edilmektedir. Bu ikili dizgelerin onlu karşılığı karşılaştırılan karakterin yeni değeri olarak alınmaktadır. Bu şekilde tüm karakterlerden elde edilen yeni değerler YİÖ sinyalini oluşturmaktadır. Bu sinyale ait histogram öznitelik vektörü olarak kullanılmaktadır. Önerilen 1B-YİÖ yöntemi P, α ve β gibi üç(3) parametreye bağlıdır. Bu parametreler dokümanda mikro-makro örüntülerin taranması için kullanılmaktadır. Önerilen yöntemi test etmek için farklı şekillerde oluşturulmuş iki veri seti kullanılmıştır. Sınıflama aşamasında yapay sinir ağları (YSA) kullanılmıştır. 10 kat çapraz geçerlilik yöntemine göre başarılı sonuçlar elde edilmiştir. 2. Yapılan Çalışmalar Öznitelik çıkarımı, bilgi çıkarımı, sınıflandırma veya dil tanıma gibi doğal dil işleme uygulamaları önemli ilgi alanları olmuştur. DT için önemli miktarda çalışma yapılmıştır. Markov modeller (Li ve Chin, 2010), entropi tabanlı metotlar, Gaussian karışımlı modeller (Song ve ark., 2009), karar ağaçları, yapay sinir ağları, karar destek vektörleri (SVM), melez modeller (Jiang ve ark., 2010), knn ve regresyon modeller (Botha ve Barnard, 2012) uygulanan makine öğrenmesi yöntemlerdir. Prager (1999) n-gram yöntemi ile 13 dil için denemeler gerçekleştirmiştir. Suzuki ve ark. (2002) web dokümanları için n-gram ile elde ettiği özellikler ile sınıflandırma yapmışlar. Takcı ve Sogukpınar (2004) bir dile ait özel karakterleri kullanarak DT işlemini gerçekleştirmişlerdir. Ng ve Selamat (2009) Arapça metinler üzerinde denemeler yapmışlardır. Yapılan çalışmalara bakıldığında, DT için yapılan çalışmaların önemli bir kısmının öznitelik seçim tabanlı olduğu görülmektedir. öznitelik çıkarım yöntemlerinin yetersiz olduğu bu anlamda DT için yeni metotlara ihtiyaç duyulmaktadır. 3. Veri setleri DT için önerilen öznitelik çıkarım yöntemini test etmek için 2 farklı veri seti kullanıldı. Bu veri setlerin oluşturma biçimleri aşağıda verilmiştir. (1)-Birinci veri seti Türkçe Wikipedia dan elde edilmiştir. Aşk, iktidar, barış, bilgisayar, bilişim, teknoloji, insanlık, aile, mutluluk, kanser, spor, uzay, para vs. gibi genel farklı kelimeler için 110 doküman elde edildi. Daha sonra elde edilen bu metinler Google çeviri sistemi ile Fransızca, Almanca ve İngilizce dillerine çevrildi. Toplamda 440 metin elde edilmiş olundu. Metin boyutlarına bakıldığında karakter sayılarının arasında değiştiği görülmüştür. (2)-İkinci veri seti BBC web sitesinden (www.bbc.com) spor, sanat, teknoloji, güncel haberlerden elde edilmiştir. BBC web sitesinden İngilizce, Almanca ve Fransızca olarak rasgele belirtilen kategorilerde 100 er

3 haber elde edilmiştir. Türkçe için ise popular Türkçe haber partallarında benzer kategoriler için 100 metin elde edilmiştir. İkinci veri seti toplamda 400 metinden oluşmaktadır. Tüm metinler özel karakterlerin desteklenmesi için UTF-8 formatında kayıt edilmiştir. Özel isimler, noktalama işaretleri, boşluklar ve özel işaretler metinlerden atılmıştır. 4. Metot 4.1. Geliştirilen 1B-Yerel İkili Örüntüler Yöntemi 1B-YİÖ yöntemi, metinlerden yeni öznitelik çıkarımı için görüntü işlemede yaygın bir şekilde kullanılan YİÖ metodundan geliştirilmiştir. 1B-YİÖ yöntemi işleyiş olarak görüntü işlemede kullanılan YİÖ yöntemi ile benzerlik göstermektedir. Ancak 1B-YİÖ yöntemi zaman serisi şeklinde dizilmiş tek boyutlu sinyallere uygulanabilir. Sinyal üzerindeki her değer için değerler ile komşuları arasında yapılan karşılaştırmalar sonucu ikili kodlar üretilir. Elde edilen bu kodların onluk karşılıkları sinyali ifade eden yeni bir sinyal olarak ele alınmaktadır (Kaya et al., 2014). İkili karşılaştırmalar için 1B-YİÖ e ait formül aşağıda verilmiştir. t Pi Pc P LBP( x ) i 0 1, t 0 Sign 0,t 0 Sign( t )2 i 1 (1) Burada P i ve P c sırasıyla ele alınan komşular ve karşılaştırılan merkez değeri belirtir. P, ve parametrelerine bağlıdır. P, merkez noktanın sağından ve solundan alınacak toplam komşu sayısını belirtir,, merkez nokta ile alınacak ilk komşular arasındaki mesafeyi belirtir. ise alınan komşular arasındaki mesafeyi belirtir. ve (2) 1B-YİÖ, sinyal üzerinde verilen örnek bir nokta için kendi komşuları ile yapılan karşılaştırmalar sonucu elde edilen ikili dizi seti olarak hesaplanır. Sinyal üzerindeki her sinyal için öncesinde ve sonrasında (sağından ve solundan) P/2 kadar komşu alınır. Örneğin P=8 olması durumunda her nokta için (P c ) öncesinde 4 komşu (P 0, P 1, P 2, P 3 ) ve sonrasında 4 komşu (P 4, P 5, P 6, P 7 ) alınır. Şekil 1 sinyal üzerindeki örnek bir noktayı göstermekte. Şekil 1. Sinyal üzerindeki örnek bir nokta.

4 Şekil 1 de gösterildiği gibi tüm komşular P={P 0, P 1, P 2, P 3, P 4, P 5, P 6, P 7 } merkez değer ile (P c ) karşılaştırılıp denklem 1 e göre ikili değerler elde edilir. Karşılaştırmalarda eğer P i değeri P c den büyük ve eşit ise 1, diğer durumlarda 0 alınır. Bu karşılaştırmalar sonucunda 1B-YİÖ kodu oluşur. Bu ikili diziler Şekil 1 deki örnek için şekil 2 de gösterilmiştir. Şekil 2. Pc nin Pi ile karşılaştırılması Her noktanın 1B-YİÖ kodları eşitlik 1 ile hesaplanır. Her ikili kodların onlu karşılıkları P c noktasının etrafındaki yerel bilgileri ifade eder. Yukarıdaki aşamalar tüm sinyal üzerindeki değerler için gerçekleştirilir. Bu aşamalardan sonra YİÖ sinyali elde edilmiş olacaktır. YİÖ sinyali üzerindeki tüm değerler 0 ile 255 arasındaki değişim göstermektedir. Her değerin frekansı bir örüntüyü ifade eder. P=8 olması durumunda 2^8= 256 örüntü elde edilir Önerilen Metot Bu çalışmada DT için önerilen önceki çalışmalardan tümüyle farklı bir yaklaşım önerilmiştir. Önerilen yöntem karakter seviyesinde istatistiksel bir yaklaşımdır. Önerilen yaklaşıma ait bir örnek ve blok diyagram şekil 3 te verilmiştir. Şekil 3: Önerilen yönteme ait blok diyagram. Blok 1: Bu blokta metin içende geçen boşluklar, noktalama işaretleri, yeni satır gibi özel karakterler atılır. Temizleme işleminden sonra metin Unicode lara dönüştürülür. Unicode lerden oluşan yeni dizi bir boyutlu sinyal olarak ele alınır. Mesajın aşağıdaki ifade olması durumunda bir örnek aşağıda gösterilmiştir. A novel approach for language identification based on binary patterns Öncelikle metin içendeki istenilmeyen karakterler atılır. Bu karakterler atıldıktan sonra geriye kalan mesaj Anovelapproachforlanguageidentificationbasedonbinarpatterns Geriye kalan mesajın UTF-8 kodlarına dönüştürülmesi sonucunda elde edilen sinyal aşağıda belirtilmiştir. 65, 110, 111, 118, 101, 108, 97, 112, 112, 114, 111, 97, 99, 104, 102, 111, 114, 108, 97, 110, 103, 117, 97, 103, 101, 105, 100, 101, 110, 116, 105, 102, 105, 99, 97, 116, 105, 111, 110, 98, 97, 115, 101, 100, 111, 110, 98, 105, 110, 97, 114, 121, 112, 97, 116, 116, 101, 114, 110, 115

5 Block 2: Elde edilen UTF-8 kodlar sinyali 1B-YİÖ metodu ile YİÖ düzlemine taşınır. Bu düzleme taşınan değerler 0 ile 255 arasında değerlerden oluşur. Her değerin frekansı bir farklı örüntü tanımlar. P, parametrelerin farklı değerlerine örnekler Şekil 4 te gösterilmiştir. Şekil 4: Mesaja ait örnek bir sinyal bölümü Şekil 4 ten görüldüğü gibi 1B-YİÖ parametrelerinin farklı değerlerine göre aynı sinyal parçası ile farklı örüntüler elde edilebilir. Block 3: Bu blokta YİÖ sinyaline ait histogram elde edilir. YİÖ sinyalinde her değerin frekansı belirlenir. Her değerin frekansı bir örüntü veya öznitelik olarak değerlendirilir. P=8 olması durumunda 256 örüntü bulunmaktadır. Block 4: Elde edilen öznitelikleri kullanarak sınıflama aşamasıdır. Yapay sinir ağları (YSA) sınıflandırma metodu olarak kullanıldı.10 katlı çapraz geçerlilik testine göre sınıflandırma işlemi gerçekleştirilmiştir. 5. Deneysel Sonuçlar Bu çalışmada DT için karakterlerin UTF-8 değerlerini kullanarak yeni bir yaklaşım önerilmiştir. Önerilen i 3 parametreye bağlıdır. Bu parametrelerin farklı değerlerine göre elde edilen örüntülerin dağılımı şekil 5 te verilmiştir. α ve β parametrelerin farklı değerleri için farklı örüntülerin elde edildiği şekil 5 te görülmektedir. Bu parametrelerin farklı değerleri ile elde edilen örüntüler için sınıflandırma başarı oranları tablo 1 de verilmiştir. Her iki veri seti için sınıflandırma işlemleri YSA ile gerçekleştirilmiştir. Tablo 1 de görüldüğü gibi önerilen yöntem ile önemli sınıflandırma başarıları elde edilmiştir. : ile birinci veri seti için %98.86, ikinci veri seti için ise %89 başarı elde edilmiştir. Birinci veri seti için daha yüksek tanıma başarısı elde edilmiştir. Daha yüksek sınıflandırma başarısı veri setlerin oluşturma biçimlerinden kaynaklanıyor olabilir. Birinci veri seti Google çeviri sistemi ile oluşturulurken, ikinci veri seti rasgele metinlerin toplanması ile oluşturulmuştur.

6 Veri Seti 2 Veri Seti 1 Veriseti 2 Veriseti1 Şekil 5: α ve β parametrelerine göre örüntülerin dağılımı Tablo 1: ve parametrelerine göre başarı oranları Veri setleri α =1 (%) α =2(%) α =3(%) β= β= β= β= β= β= En uygun α ve β değerleri yapılan denemeler sonucunda karar verilir. α ve β parametrelerin uygun örüntülerin yakalanması için önemli olmaktadır. Önerilen yöntem ile elde edilen duyarlılık(precision), geriçağırım(recall), ve f-ölçütü (f-measure) değerleri Tablo 2 de verilmiştir. Elde edilen performans değerleri öznitelik grubuna aittir. Tablo 2: için performans değerleri Veri Setleri Dil Precision Recall F-measure Türkçe İngilizce Fransızca Almanca Ortalamalar Türkçe İngilizce Fransızca Almanca Ortalamalar

7 6. Sonuç Bu çalışmada, metin tabanlı dil tanıma için yeni bir yaklaşım önerilmiştir. DT hem metin tabanlı hem de konuşma tabanlı önemli bir problem haline gelmiştir. Çalışmada, karakterlerin sırasal düzenlerine göre elde edilen bilgilere göre dil tanıma işlemi gerçekleştirilmiştir. İki farklı veri seti için elde edilen tanıma başarı oranları %98,89 ve% 89 dir. Önerilen yöntem farklı uzunlukta metinler için denenmiş metin uzunluklarının 500 byte ve üzeri uzunluklarda daha başarılı olduğu görülmüştür. Sonuç olarak önerilen yöntem spam tanıma, metin kategorize etme gibi farklı metin madenciliği alanlarında kullanılabilir. Referanslar Ahmed, B., Cha, S. H., and Tappert, C Language identification from text using n-gram based cumulative frequency addition. Proceedings of Student/Faculty Research Day, CSIS, Pace University, Botha, G. R., and Barnard, E Factors that affect the accuracy of text-based language identification. Computer Speech & Language, 26(5): Burçin, K., and Vasif, N. V Down syndrome recognition using local binary patterns and statistical evaluation of the system. Expert Systems with Applications, 38(7): Jiang, C., Coenen, F., Sanderson, R., and Zito, M Text classification using graph mining-based feature extraction. Knowledge-Based Systems, 23(4): Kaya, Y., Uyar, M., Tekin, R., and Yıldırım, S D-local binary pattern based feature extraction for classification of epileptic EEG signals. Applied Mathematics and Computation, 243: Li, H., Ma, B., and Lee, C. H A vector space modeling approach to spoken language identification. IEEE Transactions on Audio, Speech, and Language Processing,, 15(1): Li, Q., and Chen, Y. P Personalized text snippet extraction using statistical language models. Pattern Recognition, 43(1): Ng, C. C., and Selamat, A Improved letter weighting feature selection on arabic script language identification. In Intelligent Information and Database Systems, ACIIDS First Asian Conference on (pp ). IEEE.. Selamat, A., and Ng, C. C Arabic script web page language identifications using decision tree neural networks. Pattern Recognition, 44(1): Song, Y., Dai, L., and Wang, R An automatic language identification method based on subspace analysis. In Multimedia and Expo, ICME IEEE International Conference on (pp ). IEEE. Suzuki, I., Mikami, Y., Ohsato, A., and Chubachi, Y A language and character set determination method based on N-gram statistics. ACM Transactions on Asian Language Information Processing (TALIP), 1(3): Takcı, H., and Soğukpınar, İ Centroid-based language identification using letter feature set. In Computational Linguistics and Intelligent Text Processing(pp ). Springer Berlin Heidelberg. Takçı, H. and Ekinci, E Minimal feature set in language identification and finding suitable classification method with it, Procedia Technology, 1: Xafopoulos, A., Kotropoulos, C., Almpanidis, G., and Pitas, I Language identification in web documents using discrete HMMs. Pattern recognition,37(3):

TÜRKÇE DOKÜMANLAR İÇİN N-GRAM TABANLI SINIFLANDIRMA: YAZAR, TÜR ve CİNSİYET

TÜRKÇE DOKÜMANLAR İÇİN N-GRAM TABANLI SINIFLANDIRMA: YAZAR, TÜR ve CİNSİYET YILDIZ TEKNİK ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ TÜRKÇE DOKÜMANLAR İÇİN N-GRAM TABANLI SINIFLANDIRMA: YAZAR, TÜR ve CİNSİYET Bilgisayar Mühendisi Sibel DOĞAN FBE Bilgisayar Mühendisliği Anabilim Dalında

Detaylı

Otomatik Doküman Sınıflandırma

Otomatik Doküman Sınıflandırma Otomatik Doküman Sınıflandırma Rumeysa YILMAZ, Rıfat AŞLIYAN, Korhan GÜNEL Adnan Menderes Üniversitesi, Fen Edebiyat Fakültesi Matematik Bölümü, Aydın rumeysa2903@gmailcom, rasliyan@aduedutr, kgunel@aduedutr

Detaylı

Yapay Sinir Ağları ile Web İçeriklerini Sınıflandırma * Web Content Classification Using Artificial Neural Networks

Yapay Sinir Ağları ile Web İçeriklerini Sınıflandırma * Web Content Classification Using Artificial Neural Networks Yapay Sinir Ağları ile Web İçeriklerini Sınıflandırma * Web Content Classification Using Artificial Neural Networks Esra Nergis GÜVEN **, Hakan ONUR *** ve Şeref SAĞIROĞLU **** Öz Internet in hızlı gelişmesi

Detaylı

YÜZ RESİMLERİNDEN YAŞ BİLGİSİNİN TESPİT EDİLMESİ

YÜZ RESİMLERİNDEN YAŞ BİLGİSİNİN TESPİT EDİLMESİ i T.C. GEBZE YÜKSEK TEKNOLOJİ ENSTİTÜSÜ MÜHENDİSLİK VE FEN BİLİMLERİ ENSTİTÜSÜ YÜZ RESİMLERİNDEN YAŞ BİLGİSİNİN TESPİT EDİLMESİ Merve KILINÇ YÜKSEK LİSANS TEZİ BİLGİSAYAR MÜHENDİSLİĞİ ANABİLİM DALI GEBZE

Detaylı

Farklı Özellik Vektörleri ile Türkçe Dokümanların Yazarlarının Belirlenmesi

Farklı Özellik Vektörleri ile Türkçe Dokümanların Yazarlarının Belirlenmesi Farklı Özellik Vektörleri ile Türkçe Dokümanların Yazarlarının Belirlenmesi M. Fatih Amasyalı 1, Banu Diri 1, Filiz Türkoğlu 2 Yıldız Teknik Üniversitesi, Bilgisayar Mühendisliği 34349 İstanbul-Türkiye

Detaylı

Metin Sınıflandırma Text Classification

Metin Sınıflandırma Text Classification Metin Sınıflandırma Text Classification A. Cüneyd TANTUĞ İTÜ Bilgisayar ve Bilişim Fakültesi tantug@itu.edu.tr Özetçe Geçtiğimiz yirmi yıl göz önüne alındığında, bilgisayar ortamında üretilen belgelerin

Detaylı

PARMAK İZİ ÖZNİTELİK VEKTÖRLERİ KULLANILARAK YSA TABANLI CİNSİYET SINIFLANDIRMA

PARMAK İZİ ÖZNİTELİK VEKTÖRLERİ KULLANILARAK YSA TABANLI CİNSİYET SINIFLANDIRMA Gazi Üniv. Müh. Mim. Fak. Der. Journal of the Faculty of Engineering and Architecture of Gazi University Cilt 29, No 1, 201-207, 2014 Vol 29, No 1, 201-207, 2014 PARMAK İZİ ÖZNİTELİK VEKTÖRLERİ KULLANILARAK

Detaylı

YEREL İKİLİ ÖRNEKLERLE YÜZ GÜZELLİĞİ KARARI. Vasif Nabiyev 1, Fermudiye Koçak 2

YEREL İKİLİ ÖRNEKLERLE YÜZ GÜZELLİĞİ KARARI. Vasif Nabiyev 1, Fermudiye Koçak 2 YEREL İKİLİ ÖRNEKLERLE YÜZ GÜZELLİĞİ KARARI Vasif Nabiyev 1, Fermudiye Koçak 1 Bilgisayar Mühendisliği Bölümü Karadeniz eknik Üniversitesi vasif@ktu.edu.tr Bilgisayar Mühendisliği Bölümü Karadeniz eknik

Detaylı

KONUŞMA TANIMA TEORİSİ VE TEKNİKLERİ 1 SPEECH RECOGNITION THEORY AND TECHNIQUES

KONUŞMA TANIMA TEORİSİ VE TEKNİKLERİ 1 SPEECH RECOGNITION THEORY AND TECHNIQUES Mart 2008 Cilt:16 No:1 Kastamonu Eğitim Dergisi 249-266 KONUŞMA TANIMA TEORİSİ VE TEKNİKLERİ 1 Nursel YALÇIN Gazi Ü., Endüstriyel Sanatlar Eğitim Fakültesi, Bilgisayar Eğitimi Bölümü, Ankara. Özet Konuşma

Detaylı

BİR ÇİMENTO FİRMASI İÇİN DÖNEMSEL SATIŞ MİKTARLARININ TAHMİNİNDE BULANIK ZAMAN SERİSİ MODELLERİNİN KARŞILAŞTIRILMASI

BİR ÇİMENTO FİRMASI İÇİN DÖNEMSEL SATIŞ MİKTARLARININ TAHMİNİNDE BULANIK ZAMAN SERİSİ MODELLERİNİN KARŞILAŞTIRILMASI Süleyman Demirel Üniversitesi İktisadi ve İdari Bilimler Fakültesi Dergisi Y.2013, C.18, S.3, s.161-186. Suleyman Demirel University The Journal of Faculty of Economics and Administrative Sciences Y.2013,

Detaylı

WEB ATAKLARI İÇİN METİN TABANLI ANORMALLİK TESPİTİ (WAMTAT)

WEB ATAKLARI İÇİN METİN TABANLI ANORMALLİK TESPİTİ (WAMTAT) Gazi Üniv. Müh. Mim. Fak. Der. J. Fac. Eng. Arch. Gazi Univ. Cilt 22, No 2, 247-253, 2007 Vol 22, No 2, 247-253, 2007 WEB ATAKLARI İÇİN METİN TABANLI ANORMALLİK TESPİTİ (WAMTAT) Hidayet TAKCI 1, Turker

Detaylı

T.C. TRAKYA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ KÜBİK BEZİER EĞRİLERİ İLE YÜZ İFADESİ TANIMA

T.C. TRAKYA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ KÜBİK BEZİER EĞRİLERİ İLE YÜZ İFADESİ TANIMA T.C. TRAKYA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ KÜBİK BEZİER EĞRİLERİ İLE YÜZ İFADESİ TANIMA GONCA ÖZMEN Yüksek Lisans Tezi BİLGİSAYAR MÜHENDİSLİĞİ ANA BİLİM DALI Danışman: Yrd. Doç. Dr. Rembiye KANDEMİR

Detaylı

İMKB-100 ENDEKSİNİN DESTEK VEKTÖR MAKİNELERİ İLE GÜNLÜK, HAFTALIK VE AYLIK VERİLER KULLANARAK TAHMİN EDİLMESİ *

İMKB-100 ENDEKSİNİN DESTEK VEKTÖR MAKİNELERİ İLE GÜNLÜK, HAFTALIK VE AYLIK VERİLER KULLANARAK TAHMİN EDİLMESİ * AİBÜ Sosyal Bilimler Enstitüsü Dergisi, Bahar 2013, Cilt:13, Yıl:13, Sayı:1, 13:189-217 İMKB-100 ENDEKSİNİN DESTEK VEKTÖR MAKİNELERİ İLE GÜNLÜK, HAFTALIK VE AYLIK VERİLER KULLANARAK TAHMİN EDİLMESİ * Nezih

Detaylı

Bulunması. Corresponding author: vasif@ktu.edu.tr. ikili örüntü (local binary pattern-lbp) histogramlarından faydalanılmaktadır.

Bulunması. Corresponding author: vasif@ktu.edu.tr. ikili örüntü (local binary pattern-lbp) histogramlarından faydalanılmaktadır. Çankaya University Journal of Science and Engineering Volume 8 (2011), No. 1, 27 41 LBP Yardımıyla Görüntüdeki Kişinin Yaşının Bulunması Vasif V. Nabiyev 1, ve Asuman Günay 1 1 Karadeniz Teknik Üniversitesi,

Detaylı

Yazılım Efor Tahmininde Farklı Bir Yaklaşım: Sınır Değerlerine Göre Tahmin

Yazılım Efor Tahmininde Farklı Bir Yaklaşım: Sınır Değerlerine Göre Tahmin Yazılım Efor Tahmininde Farklı Bir Yaklaşım: Sınır Değerlerine Göre Tahmin Ömer Faruk Saraç 1, Nevcihan Duru 2 1 Bank Asya Katılım Bankası, İstanbul 2 Kocaeli Üniversitesi Bilgisayar Mühendisliği, Kocaeli

Detaylı

Davranışsal Türkçe Metin Sınıflandırıcı Tasarımı ve Kodlanması

Davranışsal Türkçe Metin Sınıflandırıcı Tasarımı ve Kodlanması Davranışsal Türkçe Metin Sınıflandırıcı Tasarımı ve Kodlanması Şadi Evren, ŞEKER Banu, DİRİ 2 http://www.sadievrenseker.com 2 http://www.ce.yildiz.edu.tr/~diri ses@sadievrenseker.com, banu@ce.yildiz.edu.tr

Detaylı

Kumaş hatalarının online/offline tespit sistemleri ve yöntemleri. Online/offline detection systems of fabric defects and methods

Kumaş hatalarının online/offline tespit sistemleri ve yöntemleri. Online/offline detection systems of fabric defects and methods SAÜ. Fen Bil. Der. 18. Cilt, 1. Sayı, s. 49-69, 2014 SAU J. Sci. Vol 18, No 1, p. 49-69, 2014 Kumaş hatalarının online/offline tespit sistemleri ve Kazım Hanbay 1*, M. Fatih Talu 2 1* Bingöl Üniversitesi,

Detaylı

IŞIK ÜNİVERSİTESİ BİLİMSEL ARAŞTIRMA PROJELERİ SONUÇ RAPORU

IŞIK ÜNİVERSİTESİ BİLİMSEL ARAŞTIRMA PROJELERİ SONUÇ RAPORU IŞIK ÜNİVERSİTESİ BİLİMSEL ARAŞTIRMA PROJELERİ SONUÇ RAPORU 10A303 ANLAMSAL TÜRKÇE ARAMA MOTORU Doç.Dr. Olcay Taner YILDIZ İÇİNDEKİLER 1. GENEL ÖZET 2. HARCAMALAR LİSTESİ 3. TEKNİK RAPOR 4. ÜRÜNLER LİSTESİ

Detaylı

T.C. TRAKYA ÜNİVERSİTESİ FEN BİLİMLERİ ENTSTİTÜSÜ

T.C. TRAKYA ÜNİVERSİTESİ FEN BİLİMLERİ ENTSTİTÜSÜ T.C. TRAKYA ÜNİVERSİTESİ FEN BİLİMLERİ ENTSTİTÜSÜ DESTEK VEKTÖR MAKİNELERİNİ KULLANARAK YÜZ BULMA Fatih KARAGÜLLE Yüksek Lisans Tezi Bilgisayar Mühendisliği Anabilim Dalı Danışman: Yrd. Doç. Dr. Rembiye

Detaylı

T.C. TRAKYA ÜNĐVERSĐTESĐ FEN BĐLĐMLERĐ ENSTĐTÜSÜ

T.C. TRAKYA ÜNĐVERSĐTESĐ FEN BĐLĐMLERĐ ENSTĐTÜSÜ T.C. TRAKYA ÜNĐVERSĐTESĐ FEN BĐLĐMLERĐ ENSTĐTÜSÜ ĐNTERNET TABANLI BĐLGĐ ERĐŞĐMĐ DESTEKLĐ BĐR OTOMATĐK ÖĞRENME SĐSTEMĐ Erdinç UZUN Doktora Tezi Bilgisayar Mühendisliği Anabilim Dalı Danışman: Yrd. Doç.

Detaylı

BORSA İSTANBUL (BIST) 100 ENDEKSİ YÖNÜNÜN EKONOMİ HABERLERİ İLE TAHMİN EDİLMESİ YÜKSEK LİSANS TEZİ. Hakan GÜNDÜZ

BORSA İSTANBUL (BIST) 100 ENDEKSİ YÖNÜNÜN EKONOMİ HABERLERİ İLE TAHMİN EDİLMESİ YÜKSEK LİSANS TEZİ. Hakan GÜNDÜZ İSTANBUL TEKNİK ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ BORSA İSTANBUL (BIST) 100 ENDEKSİ YÖNÜNÜN EKONOMİ HABERLERİ İLE TAHMİN EDİLMESİ YÜKSEK LİSANS TEZİ Hakan GÜNDÜZ Bilgisayar Mühendisliği Anabilim Dalı

Detaylı

Türkçe Dokümanlar İçin Kural Tabanlı Varlık İsmi Tanıma (Named Entity Recognition for Turkish Text)

Türkçe Dokümanlar İçin Kural Tabanlı Varlık İsmi Tanıma (Named Entity Recognition for Turkish Text) Türkçe Dokümanlar İçin Kural Tabanlı Varlık İsmi Tanıma (Named Entity Recognition for Turkish Text) Zeynep Banu ÖZGER Yıldız Teknik Üniversitesi Bilgisayar Mühendisliği Bölümü zeynep.banu@hotmail.com Banu

Detaylı

Sigma 29, 156-169, 2011 Research Article / Araştırma Makalesi AUTOMATIC TAG CLOUD GENERATION FROM TURKISH CONTENTS

Sigma 29, 156-169, 2011 Research Article / Araştırma Makalesi AUTOMATIC TAG CLOUD GENERATION FROM TURKISH CONTENTS Journal of Engineering and Natural Sciences Mühendislik ve Fen Bilimleri Dergisi Sigma 29, 156-169, 2011 Research Article / Araştırma Makalesi AUTOMATIC TAG CLOUD GENERATION FROM TURKISH CONTENTS Serdar

Detaylı

Elmas Yıldız Accepted: March 2010. ISSN : 1308-7231 nursal@gazi.edu.tr 2010 www.newwsa.com Ankara-Turkey

Elmas Yıldız Accepted: March 2010. ISSN : 1308-7231 nursal@gazi.edu.tr 2010 www.newwsa.com Ankara-Turkey ISSN:1306-3111 e-journal of New World Sciences Academy 2010, Volume: 5, Number: 2, Article Number: 1A0072 ENGINEERING SCIENCES Received: March 2009 Elmas Yıldız Accepted: March 2010 Nursal Arıcı Series

Detaylı

Html İçindeki Gereksiz Kelimeleri Çıkaran Benzer Metin Tespit Uygulaması

Html İçindeki Gereksiz Kelimeleri Çıkaran Benzer Metin Tespit Uygulaması Html İçindeki Gereksiz Kelimeleri Çıkaran Benzer Metin Tespit Uygulaması Erdinç UZUN Bilgisayar Mühendisliği Bölümü Çorlu Mühendislik Fakültesi Namık Kemal Üniversitesi, Çorlu, TEKĠRDAĞ Email: erdincuzun@nku.edu.tr

Detaylı

Tıbbi Karar Destek Sistemlerinin Yöntemsel Olarak Değerlendirilmesi Üzerine Bir Çalışma

Tıbbi Karar Destek Sistemlerinin Yöntemsel Olarak Değerlendirilmesi Üzerine Bir Çalışma 901 Tıbbi Karar Destek Sistemlerinin Yöntemsel Olarak Değerlendirilmesi Üzerine Bir Çalışma Yüksel Yurtay 1, Gülşah Ak 1, Nihal Zuhal Bacınoğlu 1 1 Bilgisayar ve Bilişim Bilimleri Fak., Bilgisayar Müh.

Detaylı

Biyometrik Sistemlerin Örüntü Tanıma Perspektifinden İncelenmesi ve Ses Tanıma Modülü Simülasyonu

Biyometrik Sistemlerin Örüntü Tanıma Perspektifinden İncelenmesi ve Ses Tanıma Modülü Simülasyonu Biyometrik Sistemlerin Örüntü Tanıma Perspektifinden İncelenmesi ve Ses Tanıma Modülü Simülasyonu Gülin Dede 1 Murat Hüsnü Sazlı 2 1 Savunma Bilimleri Enstitüsü, Kara Harp Okulu, Ankara 2 Elektronik Mühendisliği

Detaylı

DÖNERKANAT TİPİNDE BİR İNSANSIZ HAVA ARACIYLA VİDEO TABANLI ÜST DÜZEY İŞLEVLERİN TASARLANMASI NEVREZ İMAMOĞLU

DÖNERKANAT TİPİNDE BİR İNSANSIZ HAVA ARACIYLA VİDEO TABANLI ÜST DÜZEY İŞLEVLERİN TASARLANMASI NEVREZ İMAMOĞLU DÖNERKANAT TİPİNDE BİR İNSANSIZ HAVA ARACIYLA VİDEO TABANLI ÜST DÜZEY İŞLEVLERİN TASARLANMASI NEVREZ İMAMOĞLU YÜKSEK LİSANS TEZİ ELEKTRİK VE ELEKTRONİK MÜHENDİSLİĞİ TOBB EKONOMİ VE TEKNOLOJİ ÜNİVERSİTESİ

Detaylı

SAYISAL MODÜLASYON TANIMA SİSTEMLERİ İÇİN BAYES KARAR KURALLARI SINIFLANDIRICISININ KULLANIMI

SAYISAL MODÜLASYON TANIMA SİSTEMLERİ İÇİN BAYES KARAR KURALLARI SINIFLANDIRICISININ KULLANIMI ISSN:306-3 e-journal of New World Sciences Academy 008, Volume: 3, Number: Article Number: A0056 NATURAL AND APPLIED SCIENCES ELECTRONIC AND COMPUTER ENGINEERING Received: July 007 Accepted: December 007

Detaylı

Sigma 32, 23-30, 2014 Research Article / Araştırma Makalesi PREDICTION OF FUNCTION TAGS OF THE SIMPLE TURKISH SENTENCES BY CONDITIONAL RANDOM FIELDS

Sigma 32, 23-30, 2014 Research Article / Araştırma Makalesi PREDICTION OF FUNCTION TAGS OF THE SIMPLE TURKISH SENTENCES BY CONDITIONAL RANDOM FIELDS Journal of Engineering and Natural Sciences Mühendislik ve Fen Bilimleri Dergisi Sigma 32, 23-30, 2014 Research Article / Araştırma Makalesi PREDICTION OF FUNCTION TAGS OF THE SIMPLE TURKISH SENTENCES

Detaylı