Klasik Türk Müziği Makamlarının Tanınması Merve Ayyüce KIZRAK 1 Bülent BOLAT 2 1 Elektrik-Elektronik Mühendisliği Bölümü Mühendislik Fakültesi T.C. Haliç Üniversitesi, Kağıthane, İSTANBUL 2 Elektronik ve Haberleşme Mühendisliği Bölümü Elektrik-Elektronik Fakültesi Yıldız Teknik Üniversitesi, Davutpaşa, İSTANBUL Özet Email: 1 ayyucekizrak@halic.edu.tr Bu çalışmada en yaygın 6 Klasik Türk Müziği makamının yapay sinir ağları ile tanınmasına çalışılmıştır. Öznitelik olarak Mel frekans kepstral katsayıları, Delta-Mel frekans kepstral katsayıları ve doğrusal öngörü katsayıları, yapay sinir ağı olarak ise radyal taban fonksiyon ağları, genelleştirilmiş regresyon sinir ağları ve olasılıksal sinir ağları kullanılarak en başarılı öznitelikler ve sinir ağı tespit edilmeye çalışılmıştır. Öznitelikler hesaplanırken kullanılan ses parçacıklarının uzunluğunun başarıma etkisi de ayrıca irdelenmiştir. En yüksek başarım Delta-Mel frekans kepstral katsayıları ve olasılıksal sinir ağı ile %89.60 olarak elde edilmiştir. 1. Giriş Müzik matematikle ilişkilendirilen, tanımlanabilen ve insanoğlunun hayatının her döneminde varlığını sürdüren en önemli kültürel olgulardandır [1]. Müzik bilgi erişimi (Music Information Retrieval-MIR) sistemleri özellikle ses veri tabanlarının yaygınlaşması ve internet sayesinde bilgiye erişimin kolaylaşması nedeniyle önem kazanan ve gelişmekte olan bir alandır. MIR uygulamalarında amaç, herhangi bir müzik parçasının içerdiği eserin türü, kullanılan çalgılar, icracılar, eserin adı vs gibi bilgilerin otomatik olarak elde edilmesidir. Literatürde bu alanda yapılan çalışmalar çoğunlukla batı müziği üzerinde yoğunlaşmaktadır. Ancak, batı müziği için tanımlanan matematiksel temel, yapısal farklılıklardan dolayı yerel müzikler için yetersiz kalmaktadır [2]. Klasik Türk Müziğinin (KTM) karakteri olan makam kavramının batı müziğinden farklı, kendine özgü niteliklere sahip olması ve Asya, Ortadoğu, Kuzey Afrika gibi çok geniş coğrafyalara 2 bbolat@yildiz.edu.tr etki etmesi dolayısıyla son yıllarda bu alanda da çalışmalar yapılmaya başlanmıştır. Batı müziği ile KTM arasındaki farklılıklar temel olarak aşağıdaki gibidir. Batı müziğinde akort frekansı tek bir nota ile ifade edilirken (La4=440Hz), KTM de böyle bir değer bulunmamaktadır. Ahenk sistemi olarak adlandırılan birden çok akort değeri bulunmaktadır [3]. Batı müziğinde bir oktav 12 perdeye bölünürken, KTM'de oktav 17 ile 79 arasında değişen eşit olmayan perde bölmeleri ile tanımlanmaktadır. Bu farklılık farklı icracıların farklı skalalar kullanmasından ve standart bir skalanın olmayışından kaynaklanmaktadır [2]. Batı müziğinde her bir notanın temel frekansı kesin bir şekilde tanımlı iken KTM de notaların temel frekansları yaklaşık olarak tanımlıdır ve çoğu zaman icracı kendi üslubuna göre bu frekansları bir miktar değiştirebilmektedir. Buna bağlı olarak batı müziğinde müzisyene bağlı değişimler minimum iken, KTM de çalınan ezgi müzisyenlerin kişisel deneyimlerine bağlı olarak değişkenlik göstermektedir. KTM de makamlar, gamlara ek olarak melodik seyir kurallarından oluşan bir meşk sistemiyle tanımlanmaktadır. Batı müziğindeki çalgıların perde aralıklarının standartlaştırılmış olması bunların matematiksel ve yazılımsal olarak sınıflandırılmasında kolaylık sağlarken, KTM de hem çalma stilinin icracıya göre değişik süslemeler içermesinden hem de pek çok enstrümanın (yaylı tambur, ney vs.) frekans karakteristiklerinin karmaşık olmasında dolayı
frekans analizlerinde başarıya ulaşmak zorlaşmaktadır. Literatürde KTM üzerine yapılmış güncel çalışmalarda bulunan sonuçlar Tablo 1 de verilmiştir. Tablo 1. Literatürdeki güncel çalışmalar. Yazar Yöntem Başarım Ayrık dalgacık Kalender vd. katsayıları + bileşik %95.83 [1] YSA, Monofonik Gedik ve Bozkurt [3] Bozkurt [4] Ioannidis vd. [5] Perde aralık histogramı + şablon eşleştirme, Monofonik Perde frekansı histogramı + Gauss Karışım Modeli, Monofonik Harmonik perde sınıfı profilleri + şablon eşleştirme %92 %77.38 %74.17 Kalaycı ve K-ortalamalar + YSA, %70 Körükoğlu [6] polifonik Kızrak vd. [7] MFCC + PNN, Polifonik %89.40 KTM'de bilinen makam sayısının 600 civarındadır fakat bunların 20 tanesi günümüze ulaşmayı başarmıştır. Bu makamların da önemli bir kısmı nadiren kullanılmaktadır. Türkiye Radyo ve Televizyon Kurumu'nun arşivleri kaynak alındığında 6 makamın toplam eserlerin ortalama %91 ini oluşturduğu görülmektedir. Bu nedenle bu çalışmada eserlerin çoğunu oluşturan Tablo 2 de verilen 6 makam üzerinde durulmuştur. Tablo 2. Makam isimleri ve dağılımları [8]. Makam Eser Sayısı Arşiv Eserleri İçindeki Oranı (%) Nihavend 2123 31.90 Kürdili Hicazkar 1221 18.34 Rast 1171 17.59 Mahur 566 8.50 Hicazkar 521 7.83 Hicaz 497 7.47 Toplam 6099 91,63 Bu çalışmada en sık rastlanılan 6 KTM makamının yapay sinir ağları ile tanınması üzerinde durulmuştur. Öznitelik olarak Mel frekans kepstral katsayıları (MFCC), Delta-MFCC ve doğrusal öngörü katsayıları (LPC), yapay sinir ağı olarak ise radyal taban fonksiyon ağları (RBF), genelleştirilmiş regresyon sinir ağları (GRNN) ve olasılıksal sinir ağları (PNN) kullanılarak en başarılı öznitelikler ve sinir ağı tespit edilmeye çalışılmıştır. Özniteliklerin hesaplanmasında kullanılan ses parçacıklarının uzunluğunun başarıma etkisi de ayrıca irdelenmiştir. Çalışmanın ikinci bölümünde kullanılan veri kümesi üzerinde durulmuştur. Çalışmada kullanılan yapay sinir ağları 3. bölümde özetlenmiş, öznitelikler ise 4. bölümde verilmiştir. 5. bölüm uygulama detaylarına ayrılmışken 6. bölümde elde edilen sonuçlar irdelenmiştir. 2. Veri Kümesi KTM'nin otomatik tanınmasına yönelik çalışmaların büyük kısmı tek enstrümanla icra edilen ses kayıtları kullanılarak gerçekleştirilmektedir [1,3,4,5,6]. Ancak bu durum, geliştirilen uygulamanın geçerliliğini kuşkuya düşürmektedir. Gerçek bir şarkı genellikle birden fazla enstrümanla icra edilmektedir. Bu nedenle, gerçekçiliği arttırabilmek amacıyla bu çalışmada kullanılan ses örnekleri, ticari CD ve internet üzerindeki ücretsiz kaynaklardan elde edilen eserlerden oluşturulmuştur. Eserler seçilirken en sık kullanılan 6 makam seçilmiştir. Tablo 3 çalışmada hangi makamdan kaç adet eserin kullanıldığını göstermektedir. Tablo 3. Veri kümesindeki eserlerin dağılımı [7]. Makam Eser Sayısı Hicaz 6 Hicazkar 10 Kürdili Hicazkar 13 Mahur 12 Nihavend 12 Rast 9 Toplam 62 KTM eserleri zemin, nakarat ve meyan olmak üzere üç ana bölüme ayrılır. Makam bilgisi, eserinin giriş yani zemin kısmında veya nakarat kısmında bulunmaktadır. Nakarat kısmının eserin kaçıncı saniyesinde bulunduğunu belirlemek için belirli bir yöntem bulunmadığından veri kümesi oluştururken eserlerin ilk 20sn lik kısımları seçilmiştir. Solistin cinsiyetinin sonucu etkilememesi amacıyla seçilen kısımlarda eseri seslendiren yorumcunun sesinin bulunmamasına dikkat edilmiştir. Kullanılan tüm
eserler 22050 Hz de örneklenmiştir. Özniteliklerin hesaplanmasında kullanılan ses parçacıklarının uzunluğunun başarıma etkisini araştırmak amacı ile 20 sn'lik ses örnekleri 2, 4, 6, 8 ve 10 s'lik örtüşmeyen parçalara bölünerek 5 farklı veri kümesi oluşturulmuştur. Elde edilen veri kümelerinde sırasıyla 620, 310, 186, 124 ve 94 adet ses parçacığı bulunmaktadır. 3. Sınıflandırıcılar 3.1. Radyal taban fonksiyon sinir ağı Radyal taban fonksiyon sinir ağı, üç katmanlı eğiticili bir sinir ağı türüdür. Giriş katmanının görevi giriş verisini ara katmana aktarmak, çıkış katmanının görevi ise ağa uygulanan girişin sınıfını belirlemektir. Ağın eğitimi, ara katmandaki merkezlerin belirlenmesi ile ara katmandaki nöronlar ile çıkış katmanındaki nöronlar arasındaki ağırlıkların belirlenmesinden ibarettir. Ara katmandaki j. nöronun aktivasyon fonksiyonu merkezi (C j ) ve açıklığı (σ i ) cinsinden aşağıdaki gibidir: φ (X) = exp X C 2σ (1) Çıkış katmanındaki j. nöronun çıkışı ise şu şekilde hesaplanır: s (X) = W φ (X) + b (2) Burada ω ij i. ara katman nöronu ile j. çıkış nöronu arasındaki ağırlık K ise ara katmandaki nöron sayısıdır [9]. 3.2. Genelleştirilmiş regresyon sinir ağı Genelleştirilmiş regresyon sinir ağı RBF'in özel bir halidir. GRNN'de merkezler ve ağırlıklar RBF'te olduğu gibi yineleme ile değil, giriş verisinin deterministik bir fonksiyonu olarak belirlenir [10]. 3.3. Olasılıksal sinir ağı Burada olasılık yoğunluk fonksiyonları Parzen penceresi yardımı ile şu şekilde hesaplanır: 1 f(x) = (2π) σ n exp (x x ) (x x ) 2σ (4) 4. Öznitelikler 4.1. Doğrusal öngörü katsayıları Doğrusal öngörü analizi tüm-kutup sinyal modelleme yöntemlerinden biridir. Buna göre doğrusal ayrık bir sistemin şu anki çıkışı, önceki p adet çıkışının bir kombinasyonu olarak öngörülebilir [11]: y(n) = a y(n i) (5) Burada a i katsayıları tüm kutup bir süzgeç tanımlar ve doğrusal öngörü katsayıları (LPC) olarak adlandırılır. Katsayıların y(n) ile y(n) arasındaki karesel ortalama hatayı (MSE) minimize edecek şekilde belirlenmesi gereklidir. LPC'ler normal denklemlerin çözülmesi ile elde edilebileceği gibi, Levinson-Durbin algoritması gibi hızlandırılmış bir algoritma ile de hesaplanabilir [11]. Bu çalışmada LPC'ler Levinson- Durbin algoritması ile hesaplanmıştır. 4.2. Mel frekans kepstrum katsayıları MFCC, ses tanıma uygulanmalarında sıkça kullanılan ve başarımı yüksek bir özniteliktir. MFCC, zamana bağlı olan x(n) in mel skalasına çevrilmiş Fourier dönüşümünün logaritmasının ters Fouirer dönüşümü olarak tanımlanmıştır. Bu çalışmada MFCC'nin hesaplanmasında işlemsel yükü daha az olan süzgeç bankası yöntemi kullanılmıştır [12]. Bu yöntemde önce x(n)'in güç spektrumu Mel skalasına göre düzenlenmiş bir süzgeç dizisi ile çarpılarak Mel spektrumu elde edilir. Mel spektrum karmaşık sayılar içermediğinden MFCC'nin hesaplanması için Mel spektrumun logaritmasının ayrık kosinüs dönüşümünün alınması yeterlidir (Şekil 1). Olasılıksal sinir ağı ilk olarak Specht tarafından önerilmiştir. PNN'in çıkışı, f i (x) i. sınıfın olasılık yoğunluk fonksiyonu, P i sınıfın görülme sıklığı, L i de bir ceza terimi olmak üzere Bayes karar kuralına göre aşağıdaki eşitsizliği sağlayan sınıf olarak belirlenir: Giriş Sinyali x(n) Pencereleme AFD Mel-Skala Filre Bankası f (x). P. L > f (x). P. L, tüm i j (3) Çıkış c(n) AKD log (k) 2 Hm(k) Şekil 1.MFCC'nin süzgeç bankası ile hesaplanması.
4.3. Delta-mel frekans kepstrum katsayıları Delta-MFCC, MFCC'nin 1. türevi olarak tanımlanmıştır. Bu tanıma göre i. çerçeve için k. Delta MFCC şu şekilde hesaplanır: DMFCC (k) = MFCC (k) MFCC (k) (6) 5. Uygulama Genel bir ifade olarak, ses sinyalleri durağan olmadığı söylenebilir. Başka bir deyişle ses sinyallerinin istatistikleri zamanın birer fonksiyonudur, yani hesaplanan istatistikler ölçümün alınmaya başlandığı ana bağımlıdır. Bu nedenle ses sinyalleri durağan sayılabilecekleri en uzun zaman aralığı kadar çerçevelere bölünerek analiz edilmelidir. Bu çalışmada çerçeve uzunluğu olarak 20 ms seçilmiştir. Daha önce hazırlanmış olan ses parçacıkları 20 ms uzunluklu çerçeveler bölünerek her çerçeve için öznitelikler hesaplanmış ve her parçacık için elde edilen özniteliklerin ortalaması alınmıştır. Böylelikle 3 farklı öznitelik grubu ve 5 farklı ses parçacığı uzunluğu için toplan 15 farklı veri kümesi elde edilmiştir. LPC'ler 20. dereceden hesaplanırken MFCC'ler 12. dereceden hesaplanmıştır. Her bir veri kümesi eğitme ve test kümesi olmak üzere ikiye bölünmüş, yapay sinir ağları eğitme verileri ile eğitilerek test veri kümeleri ile test edilmiştir. Verilerin %60'ı eğitme için kullanılmıştır. Eğitme için kullanılan parçacıkların alındığı eserler test kümesinde yer almamıştır. Sinir ağlarının eğitimi sırasında ağların parametreleri deneme yanılma yöntemi ile belirlenmiştir. Tablo 4, 5 ve 6 elde edilen sonuçları özetlemektedir. Tablo 4. LPC'ler ile elde edilen sonuçlar. PNN 53.95 53.82 53.29 53.03 48.23 GRNN 53.68 53.19 51.16 50.89 42.91 RBF 51.84 51.07 50.84 47.76 42.11 Tablo 5. MFCC'ler ile elde edilen sonuçlar. PNN [7] 68.40 84.40 89.40 83.73 82.82 GRNN 52.12 76.20 84.30 75.34 75.26 RBF 58.48 58.87 72.61 62.26 62.81 Tablo 6. Delta-MFCC'ler ile elde edilen sonuçlar. PNN 60 79.40 86 89.60 70.67 GRNN 63.20 76.26 83 88.13 79.40 RBF 55.43 58.45 72.82 62.38 61.90 7. Sonuçlar Bu çalışmada KTM eserlerinin makamlarının otomatik olarak belirlenmesine çalışılmıştır. Bunun için LPC, MFCC ve Delta-MFCC'ler öznitelik olarak kullanılmış ve 3 farklı sinir ağı denenmiştir. Ayrıca analiz edilen ses parçacıklarının uzunluğunun başarıma etkisi de incelenmiştir. Yapılan denemelerin sonunda MFCC ve Delta- MFCC'lerin öznitelik olarak LPC'den daha iyi sonuçlar verdiği görülmüştür. Sinir ağları arasında ise PNN diğerlerinden daha başarılı olduğu gözlenmiştir. Öznitelik olarak LPC kullanıldığında parçacıkların süreleri kısaldığında başarımın arttığı görülmüştür. MFCC için en yüksek başarım 6s'lik ses parçacıkları ile elde edilirken Delta-MFCC için en yüksek başarım 8s uzunluğunda ses parçacıkları ile elde edilmiştir. Elde edilen en başarılı sonuç, 8s'lik parçacıklardan hesaplanan Delta-MFCC ile olasılıksal sinir ağı kullanılarak %89.60 olarak elde edilmiştir. Bu deneme için en iyi σ değeri 0,4 olarak bulunmuştur. Bu sonuç, literatürdeki polifonik sesler ile yapılan çalışmalardan daha başarılı, monofonik sesler ile yapılan çalımalar ile de kıyaslanabilecek durumdadır. Ancak, gerçek dünyadan gelen MIR problemlerinin polifonik sesler içerdiği düşünüldüğünde bu çalışmada önerilen yöntemin daha gerçekçi olacağı aşikardır. Çalışmanın daha sonraki aşamalarında farklı sinir ağlarının yanı sıra alternatif öznitelik gruplarının denenmesi ve ayrıca MFCC derecesinin başarıma etkisinin araştırılması planlanmaktadır. 8. Kaynaklar [1] N. Kalender, M. Ceylan, O. Karakaya, Türk Müziği Makamlarının Sınıflandırılması için Yeni Bir Yaklaşım: Kombine YSA, ASYU 2012 Akıllı Sistemler Yenilikler ve Uygulamaları Symposium, Trabzon, Turkey, 2012. [2] B. Bozkurt, A. C. Gedik, M. K. Karaosmanoğlu, Türk Müziği için Müzik Bilgi Erişimi:
Problemler, Çözüm Önerileri ve Araçlar, SİU 2009, 2009. [3] A. C. Gedik, B. Bozkurt, "Automatic Classification of Turkish Traditional Art Music Recordings by Arel Theory", Proc. Conference on Interdisciplinary Musicology, Thessaloniki, Greece, 2-6 July 2008. [4] A. C. Gedik, B. Bozkurt, "Pitch Frequency Histogram Based Music Information Retrieval for Turkish Music", Signal Processing, vol. 90, pp. 1049-1063, 2010. [5] L. Ioannidis, E. Gómez, P. Herrera, "Tonal Based Retrieval of Arabic and Middle-East Music by Automatic Makam Description", 9th International Workshop on Content based Multimedia Indexing, Madrid 2011. [6] I. Kalaycı, S. Korukoğlu, "Classificatıon of Turkish maqam music using k-means algorithm and artificial neural networks (in Turkish)", Proc. 20th IEEE Signal Processing and Communications Applications Conference (SIU), 2012. [7] M. A. Kizrak, K. S. Bayram, B. Bolat, Classification of Classic Turkish Music Makams, Innovations in Intelligent Systems and Applications (INISTA), 2014. [8] H. T. Sümbüllü, A. Albuz, " Türk sanat müziği dizilerinin bilgisayar destekli makamsal analizi", International Journal of Human Sciences, Vol:8 No:1, pp. 144-198, 2011. [9] Paredes, V., Vidal, E., A Class-Dependent Weighted Dissimilarity Measure for Nearest Neighbor Classification Problems, Pattern Recognition Letters, Vol. 21, pp. 1027-1036, 2000. [10] Wong, H. S., Wu, M., vd. A Neural Network Approach for Predicting Network Resource Requirements in Video Transmission Systems, Proceedings Of IEEE Pacific Rim Conference On Multimedia, 2000. [11] Rabiner, L. ve Juang, B., Fundamentals of Speech Recognition, Prentice Hall, NewYork, 1993. [12] Molau, S. et al., Computing Mel-frequency Cepstral Coefficients on the Power Spectrum, IEEE Int. Conf. Acoustics, Speech, and Signal Processing,vol. 1, pp. 73-76, 2001.