Doküman dili tanıma için ikili örüntüler tabanlı yeni bir yaklaşım



Benzer belgeler
Doküman dili tanıma için yeni bir öznitelik çıkarım yaklaşımı: İkili desenler

Türkçe Dokümanlar Ġçin Yazar Tanıma

Kelebek Görüntülerin Sınıflandırılmasında Yeni Yerel İkili Örüntüler

Makine Öğrenmesi İle Duygu Analizinde Veri Seti Performansı

VERİ MADENCİLİĞİ (Sınıflandırma Yöntemleri) Yrd.Doç.Dr. Kadriye ERGÜN

Otomatik Doküman Sınıflandırma

A. SCI ve SCIE Kapsamındaki Yayınlar

Otomatik Doküman Sınıflandırma

Makine Öğrenmesi 2. hafta

K En Yakın Komşu Methodu (KNearest Neighborhood)

Web Madenciliği (Web Mining)

SÜREKLİ SAKLI MARKOV MODELLERİ İLE METİNDEN BAĞIMSIZ KONUŞMACI TANIMA PARAMETRELERİNİN İNCELENMESİ

T.C. ERCİYES ÜNİVERSİTESİ MÜHENDİSLİK FAKÜLTESİ BİLGİSAYAR MÜHENDİSLİĞİ BÖLÜMÜ EĞİTİM ÖĞRETİM YILI DERS KATALOĞU

K-En Yakın Komşu Algoritması Parametrelerinin Sınıflandırma Performansı Üzerine Etkisinin İncelenmesi

Metin Sınıflandırma. Akış

ANKARA ÜNİVERSİTESİ A ÖĞRENCİ İŞLERİ DAİRE BAŞKANLIĞI

Kelime Gösterimleri (Word Representation Word Embeddings)

Veri ve Metin Madenciliği

Veri ve Metin Madenciliği. Zehra

Geriye Yayılım ve Levenberg Marquardt Algoritmalarının YSA Eğitimlerindeki Başarımlarının Dinamik Sistemler Üzerindeki Başarımı. Mehmet Ali Çavuşlu

Zamansal Veri Madenciliği ve Anomali Tespiti için Bir Uygulama

ÇİMENTO BASMA DAYANIMI TAHMİNİ İÇİN YAPAY SİNİR AĞI MODELİ

5. Akademik Unvanlar. 6. Yönetilen Yüksek lisans ve Doktora Tezleri. 7. Yayınlar

Makine Öğrenme Yöntemleriyle N-Gram Tabanlı Dil Tanıma. N-Gram Based Language Identification with Machine Learning Methods

Büyük Veri ve Endüstri Mühendisliği

MÜHENDİSLİK FAKÜLTESİ / ENSTİTÜSÜ / YÜKSEKOKULU BİLİŞİM SİSTEMLERİ MÜHENDİSLİĞİ BÖLÜMÜ /ABD LİSANS PROGRAMI - 2 ( yılı öncesinde birinci

Spam filtrelemek için kaydırmalı ikili örüntüler tabanlı yeni bir yaklaşım

Sahne Geçişlerinin Geometrik Tabanlı olarak Saptanması

LOCAL BINARY PATTERN YÖNTEMİ İLE YÜZ İFADELERİNİN TANINMASI

ELEKTRİK-ELEKTRONİK MÜHENDİSLİĞİ DOKTORA YETERLİK SINAVI YÖNETMELİĞİ

Geliştirilmiş Fisher Ayraç Kriteri Kullanarak Hiperspektral Görüntülerde Sınıflandırma

VERİ MADENCİLİĞİ (Kümeleme) Yrd.Doç.Dr. Kadriye ERGÜN

Metin Sınıflandırmada Benzerlik Hesaplama Tekniklerinin Değerlendirilmesi. Evaluation of Similarity Measurement Techniques for Text Classification

Büyük Veri İçin İstatistiksel Öğrenme (Statistical Learning for Big Data)

Sözlük Kullanarak Türkçe için Kavram Madenciliği Metotları Geliştirme

İleri Örüntü Tanıma Teknikleri Ve Uygulamaları İçerik

DOKUZ EYLÜL ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ MÜDÜRLÜĞÜ DERS/MODÜL/BLOK TANITIM FORMU. Dersin Orjinal Adı: Pattern Recognition

VERİ MADENCİLİĞİ Metin Madenciliği

Algoritma Geliştirme ve Veri Yapıları 3 Veri Yapıları. Mustafa Kemal Üniversitesi

BCA605 Bilgisayar Oyunlarında Yapay Zeka

Bulanık Mantık Tabanlı Uçak Modeli Tespiti

Kablosuz Sensör Ağlar ve Eniyileme. Tahir Emre KALAYCI. 21 Mart 2008

VERİ MADENCİLİĞİ önemsiz olmayan, gizli, önceden bilinmeyen, potansiyel olarak kullanışlı

ÖZGEÇMİŞ. 1. Adı Soyadı : Kamile ŞANLI KULA İletişim Bilgileri : Ahi Evran Üniversitesi, Fen Edebiyat Fakültesi, Adres Matematik Bölümü, KIRŞEHİR

2.1 Gri Düzey Eş Oluşum Matrisi ( GLCM) Gri düzey eş oluşum matrisi Haralick tarafından öne sürülmüştür [1]. Đstatistiksel doku analizi yöntemidir.

Naive Bayes Yöntemi ile Spam Mail Teşhisi Kübra KURNAZ

Doç.Dr. M. Mengüç Öner Işık Üniversitesi Elektrik-Elektronik Mühendisliği Bölümü

BLM1011 Bilgisayar Bilimlerine Giriş I

ÖZGEÇMİŞ. 1. Adı Soyadı : Olcay Taner Yıldız. 2. Doğum Tarihi : Unvanı : Doç. Dr. 4. Öğrenim Durumu :

Ayrık Dalgacık Dönüşümü Bileşenlerine Ait İstatistiksel Veriler ile Epileptik EEG İşaretlerinin Sınıflandırılması

Uzaktan Algılama Teknolojileri

Sözlük Kullanarak Türkçe El yazısı Tanıma

Türkçe için Konuşma Tanıma ve Derin Öğrenmeyle Dil Modelleme

Elena Battini SÖNMEZ Önder ÖZBEK N. Özge ÖZBEK. 2 Şubat 2007

Plazma İletiminin Optimal Kontrolü Üzerine

COĞRAFİ BİLGİ SİSTEMLERİ YARDIMIYLA TRAFİK KAZALARININ TESPİTİNDE YENİ BİR VERİ ÖLÇEKLEME YÖNTEMİ: KOMŞU TABANLI ÖZELLİK ÖLÇEKLEME (KTÖÖ)

DENEY 3: DTMF İŞARETLERİN ÜRETİLMESİ VE ALGILANMASI

Hafta 10 - Vektör Uzay Modelleri

Yard. Doç. Dr. İrfan DELİ. Matematik

Çoktan Seçmeli Değerlendirme Soruları Akış Şemaları İle Algoritma Geliştirme Örnekleri Giriş 39 1.Gündelik Hayattan Algoritma Örnekleri 39 2.Say

Güz Dönemi Zorunlu Dersleri

Eğiticili (supervised) öğrenme: Sınıflandırma (classification) Sınıf sayısı ve bir grup örneğin hangi sınıfa ait olduğu bilinir

Gezgin Etmen Sistemlerinin Başarım Ölçümü: Benzetim Tekniği

YAPAY ZEKA (Artificial Intelligence)

Ö Z G E Ç M İ Ş. 1. Adı Soyadı: Mustafa GÖÇKEN. 2. Doğum Tarihi: 12 Haziran Unvanı: Yrd. Doç. Dr. 4. Öğrenim Durumu: Ph.D.

İÇİNDEKİLER. BÖLÜM 1 Değişkenler ve Grafikler 1. BÖLÜM 2 Frekans Dağılımları 37

VERİ MADENCİLİĞİ (Veri Ön İşleme-2) Yrd.Doç.Dr. Kadriye ERGÜN

BBO Algoritmasının Optimizasyon Başarımının İncelenmesi Optimization Performance Investigation of BBO Algorithm

ÖZGEÇMİŞ. 7. Yayınlar 7.1 Uluslararası hakemli dergilerde yayınlanan makaleler (SCI,SSCI,Arts and Humanities)

Görev Unvanı Alan Üniversite Yıl Prof. Dr. Elek.-Eln Müh. Çukurova Üniversitesi Eylül 2014

YAPAY SİNİR AĞI KULLANARAK DEPREM EĞİLİMİNİN KESTİRİMİ. Umut FIRAT

YZM 5257 YAPAY ZEKA VE UZMAN SİSTEMLER DERS#6: GENETİK ALGORİTMALAR

Hidden Markov Model. Forward Algoritması Viterbi Algoritması. Doç.Dr.Banu Diri. Rasgele Olmayan /Gerekirci Model

YRD. DOÇ. DR. KADİR SABANCI

ADNAN MENDERES ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ MATEMATİK ANABİLİM DALI MATEMATİK PROGRAMI DERS LİSTESİ

Metin Madenciliğinde Yazar Tanıma (Author Recognition in Text Mining)

MAKİNE ÖĞRENMESİ YARDIMIYLA OPTİK KARAKTER TANIMA SİSTEMİ OPTICAL CHARACTER RECOGNITION SYSTEM VIA MACHINE LEARNING

Ders Adı Kodu Yarıyılı T+U Saati Ulusal Kredisi AKTS. Dijital Sinyal İşleme EEE

Yapay Sinir Ağları ile Web İçeriklerini Sınıflandırma. Yazarlar: Esra Nergis Güven, Hakan Onur ve Şeref Sağıroğlu. Sunan : Esra Nergis Güven

MÜFREDAT DERS LİSTESİ

Veri Madenciliği Yaklaşımı ile Mesleki Yönlendirme Sistemi

VERİ MADENCİLİĞİ (Karar Ağaçları ile Sınıflandırma) Yrd.Doç.Dr. Kadriye ERGÜN

VERİ MADENCİLİĞİ (Karar Ağaçları ile Sınıflandırma) Yrd.Doç.Dr. Kadriye ERGÜN

1: DENEYLERİN TASARIMI VE ANALİZİ...

Eğitim seti (training set) sınıflandırma modelinin elde edileceği kayıtları içerir

Rapor Hazırlama Kuralları

DERS BİLGİLERİ Ders Kodu Yarıyıl T+U Saat Kredi AKTS Deneysel Tasarım EKO60 Bahar Ön Koşul Dersin Dili. Zorunlu

KAHKAHA TANIMA İÇİN RASSAL ORMANLAR

DOÇ. DR. HAKAN GÜRKAN Işık Üniversitesi Mühendislik Fakültesi Elektrik-Elektronik Mühendisliği Bölümü

Dijital Görüntü İşleme Teknikleri

VERİ MADENCİLİĞİ F A T M A İ L H A N

ANKARA ÜNİVERSİTESİ A ÖĞRENCİ İŞLERİ DAİRE BAŞKANLIĞI

FREKANS VERİLERİ. Prof.Dr. Levent ŞENYAY III - 1

Bir Boyutlu Yerel İkili Örüntüler ve Ayrık Dalgacık Dönüşümü Tabanlı Yeni Bir Güç Kalitesi Olay Sınıflandırma Yöntemi

Yeşim AKSAN, Selma Ayşe ÖZEL, Yasin BEKTAŞ, Mustafa AKSAN, Umut Ufuk DEMİRHAN, Ümit MERSİNLİ, Hakan YILMAZER. Sunan : Yasin BEKTAŞ.

ANKARA ÜNİVERSİTESİ A ÖĞRENCİ İŞLERİ DAİRE BAŞKANLIĞI

Coğrafi Veri Üretimi Bakış Açısı İle TÜBİTAK UZAY daki Uzaktan Algılama Araştırmaları

TÜRK İŞARET DİLİ TANIMA SİSTEMİ ( TURKISH SIGN LANGUAGE RECOGNITION SYSTEM )

Çift Tonlu Çoklu Frekans Kodlama Sisteminin Optimize Edilmesi

Sıklık Tabloları, BASİT ve TEK değişkenli Grafikler Ders 3 ve 4 ve 5

Transkript:

Doküman dili tanıma için ikili örüntüler tabanlı yeni bir yaklaşım Yılmaz KAYA 1, Ömer Faruk ERTUĞRUL 2, Ramazan TEKİN 3 1 Siirt Üniversitesi, Bilgisayar Mühendisliği Bölümü 2 Batman Üniversitesi, Elektrik-Elektronik Mühendisliği Bölümü 3 Batman Üniversitesi, Bilgisayar Mühendisliği Bölümü Özet Otomatik dil tanıma (DT) doğal dil işlemenin önemli alt konularından biridir. DT, bir dokümanın içeriğine göre yazıldığı dili belirleme işlemidir. Bu çalışmada, karakterlerin UTF-8 değerlerini birbirleri ile karşılaştırmalar sonucu elde edilen ikili örüntüler kullanarak yeni bir dil tanıma yaklaşımı, bir boyutlu yerel ikili örüntüler (1B- YİÖ) önerilmiştir. Önerilen yöntem İngilizce, Almanca, Fransızca ve Türkçe den oluşan iki farklı veri seti ile test edilmiştir. 1B-YİÖ ile dokümanlardan elde edilen öznitelikler yapay sinir ağları(ysa) ile kullanılarak sınıflandırma işlemi gerçekleştirilmiştir. Sınıflandırma başarıları %99 ve %89 olarak gözlenmiştir. Elde edilen sonuçlara göre önerilen öznitelik çıkarım yönteminin dil tanıma için önemli örüntüler sağladığı görülmüştür. Anahtar Kelimeler: metin tabanlı dil tanıma, yerel ikili örüntüler, doğal dil işleme 1. Giriş Son yıllarda internet üzerinde web sayfaların artması ile bu sayfalardan içerik tanımlaması veya bilgi çıkarımı için yeni tekniklere ihtiyaç duyulmaktadır (Selamat ve Ng, 2011). Bilgi çıkarımı aşaması öncesinde içeriğinin dil tanımlanması önemli bir aşamadır. Dil tanıma (DT), bir dokümanın içeriğini kullanarak İngilizce, Türkçe, Arapça İngilizce veya herhangi bir dile ait olduğunun otomatik olarak tespitidir. DT, yazılı veya konuşma dili tanıma şeklinde iki farklı şekilde değerlendirilmektedir (Takci ve Ekinci, 2012). DT için literatürde dilbilimsel (linguistik) veya istatistiksel tabanlı farklı yaklaşımlar söz konusudur. Dilbilimsel yaklaşımlar, bir dile ait özel bir kelime veya karakteri arayan ve indeksleyen metotlardır. Bu yaklaşımlar dile ait kurallar ile bilgi tabanlı olarak çalışırlar. İstatistiksel yaklaşımlar ise dili oluşturan kelime veya karakter frekans ve dağılımlarına bağlıdır. Dilbilimsel yöntemlere göre yeterli bilgi vermeyen ancak dilleri matematiksel olarak modellemek için yardımcı olurlar. İstatistiksel yaklaşımlar dokümanın içeriği ile ilgilenmezler. İçerik-bağımsız yöntemlerdir. Bu yaklaşımların en büyük dezavantajı benzer dillerde ayırt etme başarısının düşük olmasıdır (Takçi ve Ekinci, 2012). DT bir metin sınıflandırma problemidir. DT dokümana ait kelime veya karakter boyutunda elde edilen özelliklere bağlıdır (Xafopoulos ve ark., 2004). Genellikle karakter seviyesinde yapılan çalışmalar kelime düzeyindeki çalışmalardan daha kararlıdırlar (Xafopoulos ve ark., 2004). Literatürde web tabanlı dokümanları kullanılarak bilgi çıkarımı, dijital kütüphane oluşturma, konuşulan dili modelleme (Li ve ark., 2007), çoklu dil çeviri sistemleri, spam tespiti, doküman sınıflama (Selamat ve Ng, 2011), metin özetleme, otomatik soru-cevap sistemler ve çeviri sistemleri DT ile ilgili gerçekleştirilen uygulamalardır. DT için tekil karakter kombinasyonları, kısa kelime, n-gram ve ASCII veya Unicode karakter frekans vektörleri gibi çeşitli öznitelik çıkarım yöntemleri kullanılmıştır (Ahmed ve ark., 2004). Literatürde öznitelik çıkarım yöntemi olarak en başarılı E-Posta: yilmazkaya1977@gmail.com (Y. Kaya).

yöntemin n-gram olduğu görülmektedir. Ancak bu yöntem ile çok fazla öznitelik çıkarıldığından dolayı farklı öznitelik uzayının büyümesi, hesaplama maliyeti gibi sorunlar oluşmaktadır. Bu yüzden ekstra maliyet gerektirecek öznitelik seçim yöntemleri kullanılmaktadır. Bu çalışmada, karakterlerin UTF-8 değerlerinin ikili karşılaştırmalar sonucu elde edilen bilgileri kullanan yeni bir öznitelik çıkarım yöntemi önerilmiştir. Dokümanlardan öznitelik çıkarımı için bir boyutlu yerel ikili örüntüler (1B-YİÖ) metodu kullanılmıştır. YİÖ görüntülerden öznitelik çıkarımı için kullanılmaktadır (Burçin ve Vasif, 2011). YİÖ, görüntüdeki yerel değişimleri kullanarak öznitelik çıkarımı gerçekleştirmektedir. YİÖ uygulaması kolay ve etkili bir yöntemdir. Bu çalışmada YİÖ metodu tek boyutlu hale getirilerek, metin madenciliğinde bir öznitelik çıkarım metodu olarak kullanılmıştır. Önerilen yöntem karakterlerin Unikod değerlerini kullanmaktadır. Karakterlerin Unikod değerleri komşuları ile karşılaştırılarak; büyük olması durumunda 1 diğer durumlarda 0 değeri üretilerek bir ikili dizge elde edilmektedir. Bu ikili dizgelerin onlu karşılığı karşılaştırılan karakterin yeni değeri olarak alınmaktadır. Bu şekilde tüm karakterlerden elde edilen yeni değerler YİÖ sinyalini oluşturmaktadır. Bu sinyale ait histogram öznitelik vektörü olarak kullanılmaktadır. Önerilen 1B-YİÖ yöntemi P, α ve β gibi üç(3) parametreye bağlıdır. Bu parametreler dokümanda mikro-makro örüntülerin taranması için kullanılmaktadır. Önerilen yöntemi test etmek için farklı şekillerde oluşturulmuş iki veri seti kullanılmıştır. Sınıflama aşamasında yapay sinir ağları (YSA) kullanılmıştır. 10 kat çapraz geçerlilik yöntemine göre başarılı sonuçlar elde edilmiştir. 2. Yapılan Çalışmalar Öznitelik çıkarımı, bilgi çıkarımı, sınıflandırma veya dil tanıma gibi doğal dil işleme uygulamaları önemli ilgi alanları olmuştur. DT için önemli miktarda çalışma yapılmıştır. Markov modeller (Li ve Chin, 2010), entropi tabanlı metotlar, Gaussian karışımlı modeller (Song ve ark., 2009), karar ağaçları, yapay sinir ağları, karar destek vektörleri (SVM), melez modeller (Jiang ve ark., 2010), knn ve regresyon modeller (Botha ve Barnard, 2012) uygulanan makine öğrenmesi yöntemlerdir. Prager (1999) n-gram yöntemi ile 13 dil için denemeler gerçekleştirmiştir. Suzuki ve ark. (2002) web dokümanları için n-gram ile elde ettiği özellikler ile sınıflandırma yapmışlar. Takcı ve Sogukpınar (2004) bir dile ait özel karakterleri kullanarak DT işlemini gerçekleştirmişlerdir. Ng ve Selamat (2009) Arapça metinler üzerinde denemeler yapmışlardır. Yapılan çalışmalara bakıldığında, DT için yapılan çalışmaların önemli bir kısmının öznitelik seçim tabanlı olduğu görülmektedir. öznitelik çıkarım yöntemlerinin yetersiz olduğu bu anlamda DT için yeni metotlara ihtiyaç duyulmaktadır. 3. Veri setleri DT için önerilen öznitelik çıkarım yöntemini test etmek için 2 farklı veri seti kullanıldı. Bu veri setlerin oluşturma biçimleri aşağıda verilmiştir. (1)-Birinci veri seti Türkçe Wikipedia dan elde edilmiştir. Aşk, iktidar, barış, bilgisayar, bilişim, teknoloji, insanlık, aile, mutluluk, kanser, spor, uzay, para vs. gibi genel farklı kelimeler için 110 doküman elde edildi. Daha sonra elde edilen bu metinler Google çeviri sistemi ile Fransızca, Almanca ve İngilizce dillerine çevrildi. Toplamda 440 metin elde edilmiş olundu. Metin boyutlarına bakıldığında karakter sayılarının 500-1000 arasında değiştiği görülmüştür. (2)-İkinci veri seti BBC web sitesinden (www.bbc.com) spor, sanat, teknoloji, güncel haberlerden elde edilmiştir. BBC web sitesinden İngilizce, Almanca ve Fransızca olarak rasgele belirtilen kategorilerde 100 er

haber elde edilmiştir. Türkçe için ise popular Türkçe haber partallarında benzer kategoriler için 100 metin elde edilmiştir. İkinci veri seti toplamda 400 metinden oluşmaktadır. Tüm metinler özel karakterlerin desteklenmesi için UTF-8 formatında kayıt edilmiştir. Özel isimler, noktalama işaretleri, boşluklar ve özel işaretler metinlerden atılmıştır. 4. Metot 4.1. Geliştirilen 1B-Yerel İkili Örüntüler Yöntemi 1B-YİÖ yöntemi, metinlerden yeni öznitelik çıkarımı için görüntü işlemede yaygın bir şekilde kullanılan YİÖ metodundan geliştirilmiştir. 1B-YİÖ yöntemi işleyiş olarak görüntü işlemede kullanılan YİÖ yöntemi ile benzerlik göstermektedir. Ancak 1B-YİÖ yöntemi zaman serisi şeklinde dizilmiş tek boyutlu sinyallere uygulanabilir. Sinyal üzerindeki her değer için değerler ile komşuları arasında yapılan karşılaştırmalar sonucu ikili kodlar üretilir. Elde edilen bu kodların onluk karşılıkları sinyali ifade eden yeni bir sinyal olarak ele alınmaktadır (Kaya et al., 2014). İkili karşılaştırmalar için 1B-YİÖ e ait formül aşağıda verilmiştir. t Pi Pc P LBP( x ) i 0 1, t 0 Sign 0,t 0 Sign( t )2 i 1 (1) Burada P i ve P c sırasıyla ele alınan komşular ve karşılaştırılan merkez değeri belirtir. P, ve parametrelerine bağlıdır. P, merkez noktanın sağından ve solundan alınacak toplam komşu sayısını belirtir,, merkez nokta ile alınacak ilk komşular arasındaki mesafeyi belirtir. ise alınan komşular arasındaki mesafeyi belirtir. ve (2) 1B-YİÖ, sinyal üzerinde verilen örnek bir nokta için kendi komşuları ile yapılan karşılaştırmalar sonucu elde edilen ikili dizi seti olarak hesaplanır. Sinyal üzerindeki her sinyal için öncesinde ve sonrasında (sağından ve solundan) P/2 kadar komşu alınır. Örneğin P=8 olması durumunda her nokta için (P c ) öncesinde 4 komşu (P 0, P 1, P 2, P 3 ) ve sonrasında 4 komşu (P 4, P 5, P 6, P 7 ) alınır. Şekil 1 sinyal üzerindeki örnek bir noktayı göstermekte. Şekil 1. Sinyal üzerindeki örnek bir nokta.

Şekil 1 de gösterildiği gibi tüm komşular P={P 0, P 1, P 2, P 3, P 4, P 5, P 6, P 7 } merkez değer ile (P c ) karşılaştırılıp denklem 1 e göre ikili değerler elde edilir. Karşılaştırmalarda eğer P i değeri P c den büyük ve eşit ise 1, diğer durumlarda 0 alınır. Bu karşılaştırmalar sonucunda 1B-YİÖ kodu oluşur. Bu ikili diziler Şekil 1 deki örnek için şekil 2 de gösterilmiştir. Şekil 2. Pc nin Pi ile karşılaştırılması Her noktanın 1B-YİÖ kodları eşitlik 1 ile hesaplanır. Her ikili kodların onlu karşılıkları P c noktasının etrafındaki yerel bilgileri ifade eder. Yukarıdaki aşamalar tüm sinyal üzerindeki değerler için gerçekleştirilir. Bu aşamalardan sonra YİÖ sinyali elde edilmiş olacaktır. YİÖ sinyali üzerindeki tüm değerler 0 ile 255 arasındaki değişim göstermektedir. Her değerin frekansı bir örüntüyü ifade eder. P=8 olması durumunda 2^8= 256 örüntü elde edilir. 4.2. Önerilen Metot Bu çalışmada DT için önerilen önceki çalışmalardan tümüyle farklı bir yaklaşım önerilmiştir. Önerilen yöntem karakter seviyesinde istatistiksel bir yaklaşımdır. Önerilen yaklaşıma ait bir örnek ve blok diyagram şekil 3 te verilmiştir. Şekil 3: Önerilen yönteme ait blok diyagram. Blok 1: Bu blokta metin içende geçen boşluklar, noktalama işaretleri, yeni satır gibi özel karakterler atılır. Temizleme işleminden sonra metin Unicode lara dönüştürülür. Unicode lerden oluşan yeni dizi bir boyutlu sinyal olarak ele alınır. Mesajın aşağıdaki ifade olması durumunda bir örnek aşağıda gösterilmiştir. A novel approach for language identification based on binary patterns Öncelikle metin içendeki istenilmeyen karakterler atılır. Bu karakterler atıldıktan sonra geriye kalan mesaj Anovelapproachforlanguageidentificationbasedonbinarpatterns Geriye kalan mesajın UTF-8 kodlarına dönüştürülmesi sonucunda elde edilen sinyal aşağıda belirtilmiştir. 65, 110, 111, 118, 101, 108, 97, 112, 112, 114, 111, 97, 99, 104, 102, 111, 114, 108, 97, 110, 103, 117, 97, 103, 101, 105, 100, 101, 110, 116, 105, 102, 105, 99, 97, 116, 105, 111, 110, 98, 97, 115, 101, 100, 111, 110, 98, 105, 110, 97, 114, 121, 112, 97, 116, 116, 101, 114, 110, 115

Block 2: Elde edilen UTF-8 kodlar sinyali 1B-YİÖ metodu ile YİÖ düzlemine taşınır. Bu düzleme taşınan değerler 0 ile 255 arasında değerlerden oluşur. Her değerin frekansı bir farklı örüntü tanımlar. P, parametrelerin farklı değerlerine örnekler Şekil 4 te gösterilmiştir. Şekil 4: Mesaja ait örnek bir sinyal bölümü Şekil 4 ten görüldüğü gibi 1B-YİÖ parametrelerinin farklı değerlerine göre aynı sinyal parçası ile farklı örüntüler elde edilebilir. Block 3: Bu blokta YİÖ sinyaline ait histogram elde edilir. YİÖ sinyalinde her değerin frekansı belirlenir. Her değerin frekansı bir örüntü veya öznitelik olarak değerlendirilir. P=8 olması durumunda 256 örüntü bulunmaktadır. Block 4: Elde edilen öznitelikleri kullanarak sınıflama aşamasıdır. Yapay sinir ağları (YSA) sınıflandırma metodu olarak kullanıldı.10 katlı çapraz geçerlilik testine göre sınıflandırma işlemi gerçekleştirilmiştir. 5. Deneysel Sonuçlar Bu çalışmada DT için karakterlerin UTF-8 değerlerini kullanarak yeni bir yaklaşım önerilmiştir. Önerilen i 3 parametreye bağlıdır. Bu parametrelerin farklı değerlerine göre elde edilen örüntülerin dağılımı şekil 5 te verilmiştir. α ve β parametrelerin farklı değerleri için farklı örüntülerin elde edildiği şekil 5 te görülmektedir. Bu parametrelerin farklı değerleri ile elde edilen örüntüler için sınıflandırma başarı oranları tablo 1 de verilmiştir. Her iki veri seti için sınıflandırma işlemleri YSA ile gerçekleştirilmiştir. Tablo 1 de görüldüğü gibi önerilen yöntem ile önemli sınıflandırma başarıları elde edilmiştir. : ile birinci veri seti için %98.86, ikinci veri seti için ise %89 başarı elde edilmiştir. Birinci veri seti için daha yüksek tanıma başarısı elde edilmiştir. Daha yüksek sınıflandırma başarısı veri setlerin oluşturma biçimlerinden kaynaklanıyor olabilir. Birinci veri seti Google çeviri sistemi ile oluşturulurken, ikinci veri seti rasgele metinlerin toplanması ile oluşturulmuştur.

Veri Seti 2 Veri Seti 1 Veriseti 2 Veriseti1 Şekil 5: α ve β parametrelerine göre örüntülerin dağılımı Tablo 1: ve parametrelerine göre başarı oranları Veri setleri α =1 (%) α =2(%) α =3(%) β=1 98.8636 93.6364 89.7727 β=2 95.9091 89.5455 83.1818 β=3 89.5455 86.8182 81.136 β=1 89.00 76.00 75.25 β=2 82.00 69.25 60.00 β=3 88.25 74.25 55.00 En uygun α ve β değerleri yapılan denemeler sonucunda karar verilir. α ve β parametrelerin uygun örüntülerin yakalanması için önemli olmaktadır. Önerilen yöntem ile elde edilen duyarlılık(precision), geriçağırım(recall), ve f-ölçütü (f-measure) değerleri Tablo 2 de verilmiştir. Elde edilen performans değerleri öznitelik grubuna aittir. Tablo 2: için performans değerleri Veri Setleri Dil Precision Recall F-measure Türkçe 0.982 0.991 0.986 İngilizce 0.982 0.991 0.986 Fransızca 0.991 0.991 0.991 Almanca 1 0.982 0.991 Ortalamalar 0.989 0.989 0.989 Türkçe 0.949 0.93 0.939 İngilizce 0.837 0.87 0.853 Fransızca 0.862 0.81 0.835 Almanca 0.913 0.95 0.931 Ortalamalar 0.89 0.89 0.89

6. Sonuç Bu çalışmada, metin tabanlı dil tanıma için yeni bir yaklaşım önerilmiştir. DT hem metin tabanlı hem de konuşma tabanlı önemli bir problem haline gelmiştir. Çalışmada, karakterlerin sırasal düzenlerine göre elde edilen bilgilere göre dil tanıma işlemi gerçekleştirilmiştir. İki farklı veri seti için elde edilen tanıma başarı oranları %98,89 ve% 89 dir. Önerilen yöntem farklı uzunlukta metinler için denenmiş metin uzunluklarının 500 byte ve üzeri uzunluklarda daha başarılı olduğu görülmüştür. Sonuç olarak önerilen yöntem spam tanıma, metin kategorize etme gibi farklı metin madenciliği alanlarında kullanılabilir. Referanslar Ahmed, B., Cha, S. H., and Tappert, C. 2004. Language identification from text using n-gram based cumulative frequency addition. Proceedings of Student/Faculty Research Day, CSIS, Pace University, 12-1. Botha, G. R., and Barnard, E. 2012. Factors that affect the accuracy of text-based language identification. Computer Speech & Language, 26(5): 307-320. Burçin, K., and Vasif, N. V. 2011. Down syndrome recognition using local binary patterns and statistical evaluation of the system. Expert Systems with Applications, 38(7): 8690-8695. Jiang, C., Coenen, F., Sanderson, R., and Zito, M. 2010. Text classification using graph mining-based feature extraction. Knowledge-Based Systems, 23(4): 302-308. Kaya, Y., Uyar, M., Tekin, R., and Yıldırım, S. 2014. 1D-local binary pattern based feature extraction for classification of epileptic EEG signals. Applied Mathematics and Computation, 243: 209-219. Li, H., Ma, B., and Lee, C. H. 2007. A vector space modeling approach to spoken language identification. IEEE Transactions on Audio, Speech, and Language Processing,, 15(1): 271-284. Li, Q., and Chen, Y. P. 2010. Personalized text snippet extraction using statistical language models. Pattern Recognition, 43(1): 378-386. Ng, C. C., and Selamat, A. 2009. Improved letter weighting feature selection on arabic script language identification. In Intelligent Information and Database Systems, 2009. ACIIDS 2009. First Asian Conference on (pp. 150-154). IEEE.. Selamat, A., and Ng, C. C. 2011. Arabic script web page language identifications using decision tree neural networks. Pattern Recognition, 44(1): 133-144. Song, Y., Dai, L., and Wang, R. 2009. An automatic language identification method based on subspace analysis. In Multimedia and Expo, 2009. ICME 2009. IEEE International Conference on (pp. 598-601). IEEE. Suzuki, I., Mikami, Y., Ohsato, A., and Chubachi, Y. 2002. A language and character set determination method based on N-gram statistics. ACM Transactions on Asian Language Information Processing (TALIP), 1(3): 269-278. Takcı, H., and Soğukpınar, İ. 2004. Centroid-based language identification using letter feature set. In Computational Linguistics and Intelligent Text Processing(pp. 640-648). Springer Berlin Heidelberg. Takçı, H. and Ekinci, E. 2012. Minimal feature set in language identification and finding suitable classification method with it, Procedia Technology, 1: 444 448 Xafopoulos, A., Kotropoulos, C., Almpanidis, G., and Pitas, I. 2004. Language identification in web documents using discrete HMMs. Pattern recognition,37(3): 583-594.