Doküman dili tanıma için ikili örüntüler tabanlı yeni bir yaklaşım

Doküman dili tanıma için ikili örüntüler tabanlı yeni bir yaklaşım Yılmaz KAYA 1, Ömer Faruk ERTUĞRUL 2, Ramazan TEKİN 3 1 Siirt Üniversitesi, Bilgisayar Mühendisliği Bölümü 2 Batman Üniversitesi, Elektrik-Elektronik Mühendisliği Bölümü 3 Batman Üniversitesi, Bilgisayar Mühendisliği Bölümü Özet Otomatik dil tanıma (DT) doğal dil işlemenin önemli alt konularından biridir. DT, bir dokümanın içeriğine göre yazıldığı dili belirleme işlemidir. Bu çalışmada, karakterlerin UTF-8 değerlerini birbirleri ile karşılaştırmalar sonucu elde edilen ikili örüntüler kullanarak yeni bir dil tanıma yaklaşımı, bir boyutlu yerel ikili örüntüler (1B- YİÖ) önerilmiştir. Önerilen yöntem İngilizce, Almanca, Fransızca ve Türkçe den oluşan iki farklı veri seti ile test edilmiştir. 1B-YİÖ ile dokümanlardan elde edilen öznitelikler yapay sinir ağları(ysa) ile kullanılarak sınıflandırma işlemi gerçekleştirilmiştir. Sınıflandırma başarıları %99 ve %89 olarak gözlenmiştir. Elde edilen sonuçlara göre önerilen öznitelik çıkarım yönteminin dil tanıma için önemli örüntüler sağladığı görülmüştür. Anahtar Kelimeler: metin tabanlı dil tanıma, yerel ikili örüntüler, doğal dil işleme 1. Giriş Son yıllarda internet üzerinde web sayfaların artması ile bu sayfalardan içerik tanımlaması veya bilgi çıkarımı için yeni tekniklere ihtiyaç duyulmaktadır (Selamat ve Ng, 2011). Bilgi çıkarımı aşaması öncesinde içeriğinin dil tanımlanması önemli bir aşamadır. Dil tanıma (DT), bir dokümanın içeriğini kullanarak İngilizce, Türkçe, Arapça İngilizce veya herhangi bir dile ait olduğunun otomatik olarak tespitidir. DT, yazılı veya konuşma dili tanıma şeklinde iki farklı şekilde değerlendirilmektedir (Takci ve Ekinci, 2012). DT için literatürde dilbilimsel (linguistik) veya istatistiksel tabanlı farklı yaklaşımlar söz konusudur. Dilbilimsel yaklaşımlar, bir dile ait özel bir kelime veya karakteri arayan ve indeksleyen metotlardır. Bu yaklaşımlar dile ait kurallar ile bilgi tabanlı olarak çalışırlar. İstatistiksel yaklaşımlar ise dili oluşturan kelime veya karakter frekans ve dağılımlarına bağlıdır. Dilbilimsel yöntemlere göre yeterli bilgi vermeyen ancak dilleri matematiksel olarak modellemek için yardımcı olurlar. İstatistiksel yaklaşımlar dokümanın içeriği ile ilgilenmezler. İçerik-bağımsız yöntemlerdir. Bu yaklaşımların en büyük dezavantajı benzer dillerde ayırt etme başarısının düşük olmasıdır (Takçi ve Ekinci, 2012). DT bir metin sınıflandırma problemidir. DT dokümana ait kelime veya karakter boyutunda elde edilen özelliklere bağlıdır (Xafopoulos ve ark., 2004). Genellikle karakter seviyesinde yapılan çalışmalar kelime düzeyindeki çalışmalardan daha kararlıdırlar (Xafopoulos ve ark., 2004). Literatürde web tabanlı dokümanları kullanılarak bilgi çıkarımı, dijital kütüphane oluşturma, konuşulan dili modelleme (Li ve ark., 2007), çoklu dil çeviri sistemleri, spam tespiti, doküman sınıflama (Selamat ve Ng, 2011), metin özetleme, otomatik soru-cevap sistemler ve çeviri sistemleri DT ile ilgili gerçekleştirilen uygulamalardır. DT için tekil karakter kombinasyonları, kısa kelime, n-gram ve ASCII veya Unicode karakter frekans vektörleri gibi çeşitli öznitelik çıkarım yöntemleri kullanılmıştır (Ahmed ve ark., 2004). Literatürde öznitelik çıkarım yöntemi olarak en başarılı E-Posta: yilmazkaya1977@gmail.com (Y. Kaya).

yöntemin n-gram olduğu görülmektedir. Ancak bu yöntem ile çok fazla öznitelik çıkarıldığından dolayı farklı öznitelik uzayının büyümesi, hesaplama maliyeti gibi sorunlar oluşmaktadır. Bu yüzden ekstra maliyet gerektirecek öznitelik seçim yöntemleri kullanılmaktadır. Bu çalışmada, karakterlerin UTF-8 değerlerinin ikili karşılaştırmalar sonucu elde edilen bilgileri kullanan yeni bir öznitelik çıkarım yöntemi önerilmiştir. Dokümanlardan öznitelik çıkarımı için bir boyutlu yerel ikili örüntüler (1B-YİÖ) metodu kullanılmıştır. YİÖ görüntülerden öznitelik çıkarımı için kullanılmaktadır (Burçin ve Vasif, 2011). YİÖ, görüntüdeki yerel değişimleri kullanarak öznitelik çıkarımı gerçekleştirmektedir. YİÖ uygulaması kolay ve etkili bir yöntemdir. Bu çalışmada YİÖ metodu tek boyutlu hale getirilerek, metin madenciliğinde bir öznitelik çıkarım metodu olarak kullanılmıştır. Önerilen yöntem karakterlerin Unikod değerlerini kullanmaktadır. Karakterlerin Unikod değerleri komşuları ile karşılaştırılarak; büyük olması durumunda 1 diğer durumlarda 0 değeri üretilerek bir ikili dizge elde edilmektedir. Bu ikili dizgelerin onlu karşılığı karşılaştırılan karakterin yeni değeri olarak alınmaktadır. Bu şekilde tüm karakterlerden elde edilen yeni değerler YİÖ sinyalini oluşturmaktadır. Bu sinyale ait histogram öznitelik vektörü olarak kullanılmaktadır. Önerilen 1B-YİÖ yöntemi P, α ve β gibi üç(3) parametreye bağlıdır. Bu parametreler dokümanda mikro-makro örüntülerin taranması için kullanılmaktadır. Önerilen yöntemi test etmek için farklı şekillerde oluşturulmuş iki veri seti kullanılmıştır. Sınıflama aşamasında yapay sinir ağları (YSA) kullanılmıştır. 10 kat çapraz geçerlilik yöntemine göre başarılı sonuçlar elde edilmiştir. 2. Yapılan Çalışmalar Öznitelik çıkarımı, bilgi çıkarımı, sınıflandırma veya dil tanıma gibi doğal dil işleme uygulamaları önemli ilgi alanları olmuştur. DT için önemli miktarda çalışma yapılmıştır. Markov modeller (Li ve Chin, 2010), entropi tabanlı metotlar, Gaussian karışımlı modeller (Song ve ark., 2009), karar ağaçları, yapay sinir ağları, karar destek vektörleri (SVM), melez modeller (Jiang ve ark., 2010), knn ve regresyon modeller (Botha ve Barnard, 2012) uygulanan makine öğrenmesi yöntemlerdir. Prager (1999) n-gram yöntemi ile 13 dil için denemeler gerçekleştirmiştir. Suzuki ve ark. (2002) web dokümanları için n-gram ile elde ettiği özellikler ile sınıflandırma yapmışlar. Takcı ve Sogukpınar (2004) bir dile ait özel karakterleri kullanarak DT işlemini gerçekleştirmişlerdir. Ng ve Selamat (2009) Arapça metinler üzerinde denemeler yapmışlardır. Yapılan çalışmalara bakıldığında, DT için yapılan çalışmaların önemli bir kısmının öznitelik seçim tabanlı olduğu görülmektedir. öznitelik çıkarım yöntemlerinin yetersiz olduğu bu anlamda DT için yeni metotlara ihtiyaç duyulmaktadır. 3. Veri setleri DT için önerilen öznitelik çıkarım yöntemini test etmek için 2 farklı veri seti kullanıldı. Bu veri setlerin oluşturma biçimleri aşağıda verilmiştir. (1)-Birinci veri seti Türkçe Wikipedia dan elde edilmiştir. Aşk, iktidar, barış, bilgisayar, bilişim, teknoloji, insanlık, aile, mutluluk, kanser, spor, uzay, para vs. gibi genel farklı kelimeler için 110 doküman elde edildi. Daha sonra elde edilen bu metinler Google çeviri sistemi ile Fransızca, Almanca ve İngilizce dillerine çevrildi. Toplamda 440 metin elde edilmiş olundu. Metin boyutlarına bakıldığında karakter sayılarının 500-1000 arasında değiştiği görülmüştür. (2)-İkinci veri seti BBC web sitesinden (www.bbc.com) spor, sanat, teknoloji, güncel haberlerden elde edilmiştir. BBC web sitesinden İngilizce, Almanca ve Fransızca olarak rasgele belirtilen kategorilerde 100 er

haber elde edilmiştir. Türkçe için ise popular Türkçe haber partallarında benzer kategoriler için 100 metin elde edilmiştir. İkinci veri seti toplamda 400 metinden oluşmaktadır. Tüm metinler özel karakterlerin desteklenmesi için UTF-8 formatında kayıt edilmiştir. Özel isimler, noktalama işaretleri, boşluklar ve özel işaretler metinlerden atılmıştır. 4. Metot 4.1. Geliştirilen 1B-Yerel İkili Örüntüler Yöntemi 1B-YİÖ yöntemi, metinlerden yeni öznitelik çıkarımı için görüntü işlemede yaygın bir şekilde kullanılan YİÖ metodundan geliştirilmiştir. 1B-YİÖ yöntemi işleyiş olarak görüntü işlemede kullanılan YİÖ yöntemi ile benzerlik göstermektedir. Ancak 1B-YİÖ yöntemi zaman serisi şeklinde dizilmiş tek boyutlu sinyallere uygulanabilir. Sinyal üzerindeki her değer için değerler ile komşuları arasında yapılan karşılaştırmalar sonucu ikili kodlar üretilir. Elde edilen bu kodların onluk karşılıkları sinyali ifade eden yeni bir sinyal olarak ele alınmaktadır (Kaya et al., 2014). İkili karşılaştırmalar için 1B-YİÖ e ait formül aşağıda verilmiştir. t Pi Pc P LBP( x ) i 0 1, t 0 Sign 0,t 0 Sign( t )2 i 1 (1) Burada P i ve P c sırasıyla ele alınan komşular ve karşılaştırılan merkez değeri belirtir. P, ve parametrelerine bağlıdır. P, merkez noktanın sağından ve solundan alınacak toplam komşu sayısını belirtir,, merkez nokta ile alınacak ilk komşular arasındaki mesafeyi belirtir. ise alınan komşular arasındaki mesafeyi belirtir. ve (2) 1B-YİÖ, sinyal üzerinde verilen örnek bir nokta için kendi komşuları ile yapılan karşılaştırmalar sonucu elde edilen ikili dizi seti olarak hesaplanır. Sinyal üzerindeki her sinyal için öncesinde ve sonrasında (sağından ve solundan) P/2 kadar komşu alınır. Örneğin P=8 olması durumunda her nokta için (P c ) öncesinde 4 komşu (P 0, P 1, P 2, P 3 ) ve sonrasında 4 komşu (P 4, P 5, P 6, P 7 ) alınır. Şekil 1 sinyal üzerindeki örnek bir noktayı göstermekte. Şekil 1. Sinyal üzerindeki örnek bir nokta.

Şekil 1 de gösterildiği gibi tüm komşular P={P 0, P 1, P 2, P 3, P 4, P 5, P 6, P 7 } merkez değer ile (P c ) karşılaştırılıp denklem 1 e göre ikili değerler elde edilir. Karşılaştırmalarda eğer P i değeri P c den büyük ve eşit ise 1, diğer durumlarda 0 alınır. Bu karşılaştırmalar sonucunda 1B-YİÖ kodu oluşur. Bu ikili diziler Şekil 1 deki örnek için şekil 2 de gösterilmiştir. Şekil 2. Pc nin Pi ile karşılaştırılması Her noktanın 1B-YİÖ kodları eşitlik 1 ile hesaplanır. Her ikili kodların onlu karşılıkları P c noktasının etrafındaki yerel bilgileri ifade eder. Yukarıdaki aşamalar tüm sinyal üzerindeki değerler için gerçekleştirilir. Bu aşamalardan sonra YİÖ sinyali elde edilmiş olacaktır. YİÖ sinyali üzerindeki tüm değerler 0 ile 255 arasındaki değişim göstermektedir. Her değerin frekansı bir örüntüyü ifade eder. P=8 olması durumunda 2^8= 256 örüntü elde edilir. 4.2. Önerilen Metot Bu çalışmada DT için önerilen önceki çalışmalardan tümüyle farklı bir yaklaşım önerilmiştir. Önerilen yöntem karakter seviyesinde istatistiksel bir yaklaşımdır. Önerilen yaklaşıma ait bir örnek ve blok diyagram şekil 3 te verilmiştir. Şekil 3: Önerilen yönteme ait blok diyagram. Blok 1: Bu blokta metin içende geçen boşluklar, noktalama işaretleri, yeni satır gibi özel karakterler atılır. Temizleme işleminden sonra metin Unicode lara dönüştürülür. Unicode lerden oluşan yeni dizi bir boyutlu sinyal olarak ele alınır. Mesajın aşağıdaki ifade olması durumunda bir örnek aşağıda gösterilmiştir. A novel approach for language identification based on binary patterns Öncelikle metin içendeki istenilmeyen karakterler atılır. Bu karakterler atıldıktan sonra geriye kalan mesaj Anovelapproachforlanguageidentificationbasedonbinarpatterns Geriye kalan mesajın UTF-8 kodlarına dönüştürülmesi sonucunda elde edilen sinyal aşağıda belirtilmiştir. 65, 110, 111, 118, 101, 108, 97, 112, 112, 114, 111, 97, 99, 104, 102, 111, 114, 108, 97, 110, 103, 117, 97, 103, 101, 105, 100, 101, 110, 116, 105, 102, 105, 99, 97, 116, 105, 111, 110, 98, 97, 115, 101, 100, 111, 110, 98, 105, 110, 97, 114, 121, 112, 97, 116, 116, 101, 114, 110, 115

Block 2: Elde edilen UTF-8 kodlar sinyali 1B-YİÖ metodu ile YİÖ düzlemine taşınır. Bu düzleme taşınan değerler 0 ile 255 arasında değerlerden oluşur. Her değerin frekansı bir farklı örüntü tanımlar. P, parametrelerin farklı değerlerine örnekler Şekil 4 te gösterilmiştir. Şekil 4: Mesaja ait örnek bir sinyal bölümü Şekil 4 ten görüldüğü gibi 1B-YİÖ parametrelerinin farklı değerlerine göre aynı sinyal parçası ile farklı örüntüler elde edilebilir. Block 3: Bu blokta YİÖ sinyaline ait histogram elde edilir. YİÖ sinyalinde her değerin frekansı belirlenir. Her değerin frekansı bir örüntü veya öznitelik olarak değerlendirilir. P=8 olması durumunda 256 örüntü bulunmaktadır. Block 4: Elde edilen öznitelikleri kullanarak sınıflama aşamasıdır. Yapay sinir ağları (YSA) sınıflandırma metodu olarak kullanıldı.10 katlı çapraz geçerlilik testine göre sınıflandırma işlemi gerçekleştirilmiştir. 5. Deneysel Sonuçlar Bu çalışmada DT için karakterlerin UTF-8 değerlerini kullanarak yeni bir yaklaşım önerilmiştir. Önerilen i 3 parametreye bağlıdır. Bu parametrelerin farklı değerlerine göre elde edilen örüntülerin dağılımı şekil 5 te verilmiştir. α ve β parametrelerin farklı değerleri için farklı örüntülerin elde edildiği şekil 5 te görülmektedir. Bu parametrelerin farklı değerleri ile elde edilen örüntüler için sınıflandırma başarı oranları tablo 1 de verilmiştir. Her iki veri seti için sınıflandırma işlemleri YSA ile gerçekleştirilmiştir. Tablo 1 de görüldüğü gibi önerilen yöntem ile önemli sınıflandırma başarıları elde edilmiştir. : ile birinci veri seti için %98.86, ikinci veri seti için ise %89 başarı elde edilmiştir. Birinci veri seti için daha yüksek tanıma başarısı elde edilmiştir. Daha yüksek sınıflandırma başarısı veri setlerin oluşturma biçimlerinden kaynaklanıyor olabilir. Birinci veri seti Google çeviri sistemi ile oluşturulurken, ikinci veri seti rasgele metinlerin toplanması ile oluşturulmuştur.

Veri Seti 2 Veri Seti 1 Veriseti 2 Veriseti1 Şekil 5: α ve β parametrelerine göre örüntülerin dağılımı Tablo 1: ve parametrelerine göre başarı oranları Veri setleri α =1 (%) α =2(%) α =3(%) β=1 98.8636 93.6364 89.7727 β=2 95.9091 89.5455 83.1818 β=3 89.5455 86.8182 81.136 β=1 89.00 76.00 75.25 β=2 82.00 69.25 60.00 β=3 88.25 74.25 55.00 En uygun α ve β değerleri yapılan denemeler sonucunda karar verilir. α ve β parametrelerin uygun örüntülerin yakalanması için önemli olmaktadır. Önerilen yöntem ile elde edilen duyarlılık(precision), geriçağırım(recall), ve f-ölçütü (f-measure) değerleri Tablo 2 de verilmiştir. Elde edilen performans değerleri öznitelik grubuna aittir. Tablo 2: için performans değerleri Veri Setleri Dil Precision Recall F-measure Türkçe 0.982 0.991 0.986 İngilizce 0.982 0.991 0.986 Fransızca 0.991 0.991 0.991 Almanca 1 0.982 0.991 Ortalamalar 0.989 0.989 0.989 Türkçe 0.949 0.93 0.939 İngilizce 0.837 0.87 0.853 Fransızca 0.862 0.81 0.835 Almanca 0.913 0.95 0.931 Ortalamalar 0.89 0.89 0.89

6. Sonuç Bu çalışmada, metin tabanlı dil tanıma için yeni bir yaklaşım önerilmiştir. DT hem metin tabanlı hem de konuşma tabanlı önemli bir problem haline gelmiştir. Çalışmada, karakterlerin sırasal düzenlerine göre elde edilen bilgilere göre dil tanıma işlemi gerçekleştirilmiştir. İki farklı veri seti için elde edilen tanıma başarı oranları %98,89 ve% 89 dir. Önerilen yöntem farklı uzunlukta metinler için denenmiş metin uzunluklarının 500 byte ve üzeri uzunluklarda daha başarılı olduğu görülmüştür. Sonuç olarak önerilen yöntem spam tanıma, metin kategorize etme gibi farklı metin madenciliği alanlarında kullanılabilir. Referanslar Ahmed, B., Cha, S. H., and Tappert, C. 2004. Language identification from text using n-gram based cumulative frequency addition. Proceedings of Student/Faculty Research Day, CSIS, Pace University, 12-1. Botha, G. R., and Barnard, E. 2012. Factors that affect the accuracy of text-based language identification. Computer Speech & Language, 26(5): 307-320. Burçin, K., and Vasif, N. V. 2011. Down syndrome recognition using local binary patterns and statistical evaluation of the system. Expert Systems with Applications, 38(7): 8690-8695. Jiang, C., Coenen, F., Sanderson, R., and Zito, M. 2010. Text classification using graph mining-based feature extraction. Knowledge-Based Systems, 23(4): 302-308. Kaya, Y., Uyar, M., Tekin, R., and Yıldırım, S. 2014. 1D-local binary pattern based feature extraction for classification of epileptic EEG signals. Applied Mathematics and Computation, 243: 209-219. Li, H., Ma, B., and Lee, C. H. 2007. A vector space modeling approach to spoken language identification. IEEE Transactions on Audio, Speech, and Language Processing,, 15(1): 271-284. Li, Q., and Chen, Y. P. 2010. Personalized text snippet extraction using statistical language models. Pattern Recognition, 43(1): 378-386. Ng, C. C., and Selamat, A. 2009. Improved letter weighting feature selection on arabic script language identification. In Intelligent Information and Database Systems, 2009. ACIIDS 2009. First Asian Conference on (pp. 150-154). IEEE.. Selamat, A., and Ng, C. C. 2011. Arabic script web page language identifications using decision tree neural networks. Pattern Recognition, 44(1): 133-144. Song, Y., Dai, L., and Wang, R. 2009. An automatic language identification method based on subspace analysis. In Multimedia and Expo, 2009. ICME 2009. IEEE International Conference on (pp. 598-601). IEEE. Suzuki, I., Mikami, Y., Ohsato, A., and Chubachi, Y. 2002. A language and character set determination method based on N-gram statistics. ACM Transactions on Asian Language Information Processing (TALIP), 1(3): 269-278. Takcı, H., and Soğukpınar, İ. 2004. Centroid-based language identification using letter feature set. In Computational Linguistics and Intelligent Text Processing(pp. 640-648). Springer Berlin Heidelberg. Takçı, H. and Ekinci, E. 2012. Minimal feature set in language identification and finding suitable classification method with it, Procedia Technology, 1: 444 448 Xafopoulos, A., Kotropoulos, C., Almpanidis, G., and Pitas, I. 2004. Language identification in web documents using discrete HMMs. Pattern recognition,37(3): 583-594.