MÜZĐK VE KOUŞMA ĐŞARETLERĐĐ DALGACIK ÖZĐTELĐKLERĐ ĐLE SIIFLADIRILMASI Timur Düzenli alan Özkur 2.2 Elekrik-Elekronik Mühendisliği Bölümü, Dokuz Eylül Üniversiesi, Đzmir e-posa: imurduzenli@gmail.com 2 e-posa: nalan.ozkur@deu.edu.r Özeçe Bu çalışmada müzik ve konuşma seslerinin, farklı öznielikler kullanılarak yapay sinir ağları ile sınıflandırılması gerçekleşirilmişir. öznieliklerinden elde edilen başarımın karşılaşırılması için dör öznielik grubuyla sınıflandırma yapılmışır. Đlk yönemde zaman ve frekans oramına ai öznielikler ile beraber melkepsrum kasayıları kullanılmışır. Đkinci yönemde, amamı ayrık dalgacık dönüşümü (Discree Wavele Transform-DWT) abanlı paramerelerden yararlanılmışır. Üçüncü grupaki öznielikler, yine dalgacık dönüşümü sonucu elde edilen anlık ve eager eneri bileşenlerini içermekedir. Son yönemde ise daha önceki çalışmalardan farklı olarak, karmaşık dalgacık dönüşümü (Complex Wavele Transform- CWT) kullanılmışır. Yapılan sınıflandırmalar sonucunda 3. ve 4. yönemlerin diğer yönemlere göre daha başarılı oldukları gözlemlenmişir. Anahar Kelimeler: Müzik, Konuşma,Sınıflandırma, Ayrık ve Karmaşık, Eneri. Giriş Günümüzde konuşma ve müzik seslerinin ayrışırılması büyük önem aşır hale gelmişir. Örnek olarak, ses sıkışırma ekniklerinin bazıları konuşma, bazıları ise müzik sesi için daha verimlidir. Gelen bir veriden konuşma ve müzik kısımları doğru şekilde belirlenebildiği akdirde buna uygun olan sıkışırma ekniği uygulanabilmeke ve daha ekin sıkışırma oranları elde edilebilmekedir. Aynı zamanda, radyo isasyonlarında da gönderilecek olan verinin konuşma veya müzik olarak belirlenmesi durumunda band genişliği daha ekin olarak kullanılabilecekir. Konuşma ve müzik sesinin sınıflandırılması üzerine birçok çalışma yapılmışır. Önceki çalışmalarda genel olarak zaman ve frekans oramındaki emel özellikleri kullanan öznieliklerden yararlanılmışır [] [2]. Başka bir çalışmada da Saunders [3] sıfır-geçişlerine dayanan bir konuşmamüzik ayrışırıcısı önermişir. Bu çalışma radyo yayınlarında, reklamlar ve programların ayrışırılması için gereken bir uygulama için önerilmişir. En güncel çalışmalardan birinde [4] ise, öznielikler dalgacık dönüşümü kullanılarak elde edilmişir. Burada, durağan olmayan sinyaller için zaman ve frekans özelliklerinin birleşiminden yararlanılmışır. Daha önceki çalışmalardan farklı olarak, yapığımız çalışmada karmaşık dalgacık dönüşümü (CWT) kullanılmışır. Bu dönüşümde, ayrık dalgacık dönüşümündeki (DWT) kaydırma ekisi ve yön bilgisinin azlığı gibi problemlerle karşılaşılmamakadır [5]. Bildirinin bundan sonraki bölümlerinde öznielik çıkarımlarının anlaılmasının ardından, yapay sinir ağları anıılacak ve deneysel çalışmalar anlaılıp sonuçlar akarılacakır. Tarışma bölümünde ise başarım değerlendirilecekir. 2. Öznieliklerin çıkarılması 2.. Zaman-frekans emelli paramereler ve melkepsrum kasayıları Đlk kullanılan yönemde kullanılan öznielik vekörü, sıfır geçişlerinin sayısı gibi zaman oramından ve izgesel akış gibi frekans oramından alınan bilgilerle oluşurulmuşur. Bunlara ek olarak, Mel frekansı kepsrum kasayılarından (MFCC-Mel Frequency Cepsrum Coefficiens) yararlanılmışır. Kullanılan öznielik vekörünü oluşuran paramereler şu şekilde sıralanabilir [2]: 2.. Đzgesel merkez ( Specral Cenroid ) Đzgesel merkez adından da anlaşılacağı üzere sayısal işare işlemede izgenin küle merkezi ni bulmak için kullanılır ve
0 f ( n) x( n) 0 x( n) () olarak verilir. Bu şekilde, genliğiyle ağırlıklandırılan işarein oralaması bize izgesel merkezi vermekedir. Denklemde, f(n), izgesel dağılımdaki n. frekans değeri ve x(n) ise, bu frekansa karşılık gelen izgesel genlik değeridir. 2..2 Đzgesel düşüş ( Specral roll-off ) Đzgesel şekli ifade eden önemli paramerelerden bir diğeri de izgesel düşüş nokasıdır. Đzgesel düşüş nokası, izgenin genlik dağılımının %85 e ulaşığı frekans değeri (R ) olarak kabul edilir: R M [ n] 0.85* M [ n] n (2) Denklemde, M izgesel genlik dağılımını ifade eder ve R. nokasındaki frekans değeri f(r ), izgesel düşüş nokası olarak kabul edilir. 2..3 Đzgesel akı ( Specral flux ) Đzgesel akı, izgenin şeklindeki değişimleri ifade eder. Đşarein her bölüü arasındaki izgesel fark, izgesel akı yardımıyla bulunur ve 2 ( ( ) ( )) (3) F n n şeklinde verilir. Burada, ve -, sırasıyla, o an üzerinde çalışılan bölüün izgesel dağılımı ile bir önceki bölüün izgesel dağılımını ifade eder. Đzgesel akı bulunurken iki bölüeki büün nokalar arasındaki fark hesaplanır ve bu farkların kareleri oplanır. 2..4 Sıfır geçişlerinin sayısı(zero Crossings) Zaman emelli bir öznielikir. Bir bölü içerisinde gerçekleşen sıfır geçişlerinin sayısını ifade eder. Bu öznielik, işareeki gürülü oranını ifade eden bir ölçü olarak kullanılabilir. Sıfır geçişleri örnekler arasında işare farkı olduğu zaman meydana gelir. Z 0.5* sgn( x( n)) sgn( x( n )) (4) 2..5 Düşük ekin(rms) eneri oranı(low RMS Energy Raio ) Düşük ekin eneri oranı, RMS enerisi genel oralamanın alında olan bölülerin sayısını verir. Her bölüün enerisi RMS değeri bulunarak hesap edilebilir. x RMS x + x +... + x 2 2 2 n 2 2 n xi n i n (5) Denklemde x i, her bir frekans değeri için o bölüün izgesel dağılımındaki genliğe karşılık gelmekedir. 2..6 Mel frekansı kepsrum kasayıları (Mel frequency cepsrum coefficiens-mfcc) Mel frekansı kepsrum kasayıları, ses işareinin; mel-frekansı ölçeğinde ifade edilen kısazaman eneri izgesinin logariması alındıkan sonra, ayrık kosinüs dönüşümü yapılması ile elde edilir[6]. Mel ölçeklendirme, insan kulağının işisel özellikleri göz önüne alınarak oluşurulmuş bir ölçeklendirme şeklidir. Mel frekansı kepsrum kasayıları hesaplanırken aşağıdaki şekilde bir yol izlenmekedir: () Pencerelenmiş işare, ayrık Fourier dönüşümü (DFT) ile frekans oramına akarılır ve her bölü için anlık eneri P( f ) elde edilir. (2) Elde edilen güç izgesi P(f), frekans ekseninden alınarak 6. denklem yardımıyla mel-frekans ölçeğine akarılır[6]. Burada, M(f) her bir frekans değerine karşılık gelen mel-frekans değeridir. f M ( f ) 2595* log( + ) (6) 700 (3) P(f), üçgen band-geçiren filreler(ψ(m)) ile evrilerek, θ(m) kasayıları elde edilir. Denklemde M, mel frekans değerlerini ifade emekedir. k, k K (7) M θ ( M ) P( M M ) ψ ( M ) Bu işlemler sonucunda K ade çıkış θ, k K şeklinde elde edilir. X ( k) ln( ( M k )) (4) Mel Frekans kepsrum kasayıları ise K d( k 0.5) π MFCC( d) X k cos k k d D (8) denklemiyle elde edilir., 2. 2 Ayrık (Discree Wavele Transform-DWT)
Ayrık dalgacık dönüşümü; işare işlemede, bilginin zaman-frekans oramında am olarak ifade edilebilmesi açısından sıklıkla ercih edilen bir yönemdir[9]. Sürekli dalgacık dönüşümünden kolaylıkla üreilebilir. Verilen herhangi bir x() işarei için sürekli dalgacık dönüşümü aşağıdaki gibi anımlanır: r CWT ( r, s) x( ) * ψ d s s (9) Burada, Ψ() ana dalgacık olarak isimlendirilen zaman fonksiyonunu, r üzerinde işlem yapılan pencerenin zamansal olarak konumunu ve s ise ölçeği ifade eder. r ve s değerleri değişirilerek ana dalgacık fonksiyonu kaydırılabilir ve ölçeklendirilebilir. Hesaplama yükünü azalmak için ölçek ve kaydırma aralıkları amsayıların kaları olarak seçildiğinde, ayrık dalgacık dönüşümü; x[m], m0 - olmak üzere,, 2 * [ ] ψ [ 2 ] (0) m 0 DWT n x m m n şeklinde yapılır. Burada, ψ * 2 [ n] n ψ 2 2 * ψ 2 J () olarak anımlanır. Ayrık dalgacık dönüşümünün önemli bir geirisi de farklı frekanslarda durağan olmayan güç bileşenleri içeren zaman serilerinde de ekili olmasıdır. Bu yönemde; ilk adım, ana dalgacığın doğru bir şekilde seçilmesidir. Herhangi bir fonksiyonunun ana dalgacık kabul edilebilmesi için oralamasının sıfır olması ve zaman-frekans oramlarında sonlu eneriye sahip olması gerekir. Sonraki adımda ise, bu ana dalgacık kullanılarak; işare, alçak ve yüksek fekans bandlarına (yaklaşım-ayrını) ayrışırılır. Bu işlem, ana dalgacığın kaydırılmış ve ölçeklendirilmiş versiyonlarıyla gerçekleşirilir. Birçok ana dalgacık ürü olmakla beraber söz konusu çalışmamızda en başarılılardan biri olarak göserilen[9] Daubechies dalgacık fonksiyonlarından faydalanılmışır. Ayrık dalgacık dönüşümünün kullanıldığı diğer bir yönem ise eneri emelli paramereleri içerir[4]. Bu yöneme göre, dalgacık dönüşümünün sadece ayrını kasayılarından yararlanılır ve her band için anlık ve eager enerileri şekildeki gibi hesaplanır: f E log ( ) 2 0 w ( r) r (2) - T E 2 f log 0 ( w ( r )) ( w ( r- )* w ( r+ ) ) r (3) Burada w (r), r zamanı ve frekans bandı için dalgacık kasayısını ifade emekedir. ise penecere uzunluğunu ifade emekedir. Gerçekleşirilen çalışmada 5 band için ayrını kasayıları bulunmuş ve her band için anlık ve eager enerileri hesaplanmışır. 2. 3. Karmaşık dalgacık dönüşümü (Complex wavele ransform-cwt) dönüşümünün, sinyallerin zamanfrekans oramındaki ifadesinde önemli rolü olmakla beraber, kaydırmadan ekilenme, örüşüm ve yön bilgisinin azlığı gibi yeersiz kaldığı nokalar da mevcuur[5]. Karmaşık dalgacık dönüşümü(cwt), bu ür durumlara çözüm sunmakadır. Bu dönüşümde, normal dalgacık dönüşümündekinden farklı olarak gerçel değerli ana dalgacık fonksiyonları yerine karmaşık fonksiyonlar kullanılır. Bu şekilde genlik ve faz bilgileri ayrı ayrı incelenebilir. Karmaşık dalgacık fonksiyonu, gerçel ve sanal bileşenlerle beraber aşağıdaki şekilde ifade edilebilir: Ψ ( ) Ψ ( ) + Ψ ( ) (4) c r i Đşarein üzerine iz düşümü gerçekleşirilerek, karmaşık dalgacık kasayısı d (, n) d (, n) + d (, n) (5) c r i şeklinde ifade edilir. Buradan genlik, [ ] [ ] 2 2 d (, n) d (, n) + d (, n) (6) c r i ve faz bilgisi, ϕ dc (, n) (, n) (, n) d i arcan d r (7) olarak hesaplanır [5]. Ayrık karmaşık dalgacık dönüşümü, emel olarak iki yönemde incelenir. Đlk yönemde, işare için birimdik emel oluşuran Ψ c () dalgacığı aranır. Bu yönemde, fonksiyonun geneli dikkae alınmakla beraber, diğer yönemde ise bu işlem; ana dalgacığı oluşuran Ψ r () ve Ψ i () bileşenleri kullanarak gerçekleşirilir. Bu yönem çif ağaçlı dalgacık ayrışırması (Dual-ree wavele decomposiion) olarak
isimlendirilir [5]. Yapılan çalışmada da bu yönem ercih edilmişir. 3. Yapay sinir ağları Yapay sinir ağları, beyinsel hesaplamaları akli ederek problemlere çözüm sunmayı amaçlayan araçlardan birisidir. Beyin, çok basi hesaplamalar gerçekleşiren küçük hesaplama birimlerinden (nöron) oluşur. öronlar, daha ağır problemler için, veriyi paralel olarak işleyebilen ağlar oluşurabilirler. Bir nöronun gerçekleşirdiği en basi işlem, genel olarak y i f(z i )şeklinde ifade edilebilir. Burada, z i girişi, y i i. nöronun çıkışını ve f ise doğrusal olmayan bir fonksiyonu ifade eder [0]. ağının asarımında; kullanılacak kamanların sayısı, bu kamanlarda yer alacak nöron sayıları, her nöronda kullanılacak fonksiyonların ipi ve ağın çalışma şeklinin anımlanması (ileri besleme-geri besleme) önemli rol oynar[0]. Tasarlanan ağın eğiimi, nöronlar arasındaki bağlanıları ifade eden ağırlıkların (w i ) ve her nöron için eşik değerinin (θ i ) anımlanması ile sağlanır. Bunun için, eğiim amacıyla hazırlanan örneklerden oluşan bir se girişe uygulanır. öronlar arasındaki ağırlıkların anımlanması (w i ()), uygulanan her eğiim girdisinden sonra, ağırlıkların w i kadar değişirilmesiyle elde edilir: ( ) ( ) ( ) w w + w (8) i i i Denklemde w i (), ağın başarımındaki haa oranını en aza indirecek ağırlık değerlerini veren değişim mikarıdır. Bu değişim mikarını bulmak için birçok yönem mevcuur, bunlardan en çok bilinenlerinden bir anesi ise geri yayılım algorimasıdır. Geri yayılım algoriması; Şekil. Basi bir nöronun modellenmesi Bir yapay sinir ağı; birinin çıkışı, diğerinin girişi olan birçok kaman içerebilir. Yapay sinir ağları emel olarak; giriş, çıkış ve gizli kaman şeklinde 3 ana bileşen içerir. Karşılaşılan problemlere göre bu kamanların ve bu kamanlardaki nöronların sayıları farklılık göserebilir. E wi ( ) η + α wi ( ) wi ( ) (9) şeklinde verilir. Denklemde, öğrenme hızı; α kazanç erimi, E ise isenen çıkışlar ile elde edilen çıkışlar arasındaki haa oranını ifade eder. Yapılan deneysel çalışmalar sonucunda, asarlanan ağda gizli kaman için 40 nöron seçilmiş ve hedeflenen haa oranı 0.00 olarak belirlenmişir. Öğrenme algoriması olarak, geri yayılım kullanan eşlenik gradien algoriması ercih edilmişir. 4. Deneysel Çalışmalar ve Sonuçlar Şekil.2 Yapay sinir ağlarına genel bir bakış Sınıflandırma yapılacak uygulamalarda genel olarak ileri beslemeli yapay sinir ağları ercih edilmekedir. Đleri beslemeli ağlarda, veri akışı girişen çıkışa doğru ek yönde gerçekleşir. Bir yapay sinir Yapılan çalışmada, müzik sesleri için Iowa Üniversiesi veriabanından ve konuşma sesleri için TIMIT veriabanından faydalanılmışır. Kullanılan her yönemde, yapay sinir ağlarının eğiimi için 78 ade müzik ve konuşma sesi kullanılmışır. Tes aşamasında ise, eğiimden seinden farklı olarak yine 78 ade müzik sesi ve 00 ade konuşma sesi kullanılmışır. Büün daalar 496 uzunluka, 52 örnek örüşümlü olarak bölülere ayrılmışır. Đlk yönemde, her bölü için çıkarılan zaman-frekans abanlı paramerelerin oralama ve varyans değerleri ile Mel frekansı kepsrum kasayıları kullanılarak 2 paramere içeren öznielik vekörü oluşurulmuşur. 2. ve 3. yönemlerde ise ayrık dalgacık dönüşümü kullanılmışır. Ayrık dalgacık dönüşümü kullanan bu
iki yönemden ilkinde ana dalgacık olarak daubechies8 fonksiyonu kullanılmış, dalgacık dönüşümü ise 2 bana gerçekleşirilmişir. Dolayısıyla her bölü için 2 ayrını ve yaklaşım kasayısı elde edilmişir. Öznielik vekörü oluşurulurken, bölülerin ayrını ve yaklaşım kasayıları arasındaki oralama, varyans ve sandar sapma gibi değerler kullanılmışır. Bu kısımda, her bir veri için elde edilen öznielik vekörünün uzunluğu 38 dir. Ayrık dalgacık dönüşümünün kullanıldığı diğer yönemde, sadece anlık ve eager enerisinden yararlanılmışır. Bu yöneme göre, her bölü için dalgacık dönüşümü gerçekleşirildiken sonra her band için ayrını kasayıları üzerinden anlık ve eager eneriler hesaplanmakadır. Bu yönem için de dalgacık fonksiyonu olarak yine daubechies8 kullanılmışır. Yapılan çalışmada, bu yönem için ayrışırma 5 band olarak gerçekleşirilmişir ve elde edilen öznielik vekörünün uzunluğu her veri için 0 dur. Son yönem olarak ise karmaşık dalgacık dönüşümü kullanılmışır. Bu yöneme göre; 5 band olarak ayrışırma gerçekleşirilmiş ve daha yüksek bandlarda başarımın çok ekilenmediği görülmüşür. Bulunan gerçel ve karmaşık kasayılar için ayrı ayrı oralama, medyan, sandar sapma ve eneri değerleri hesaplanmışır. Oluşurulan öznielik vekörünün uzunluğu 5 band için 40 ır. Elde edilen başarılar; Tablo., Tablo.2 ve Tablo.3 de verilmekedir. Tek bir işare üzerinden öznielik çıkarımı ve sınıflandırma için geçen süre Tablo.3 de genel başarı ile beraber verilmişir. Tablolarda; DP(Doğru Poziif), Konuşma olarak sınıflandırılan konuşma seslerini; D(Doğru egaif ), Müzik olarak sınıflandırılan müzik seslerini; YP(Yanlış Poziif), Konuşma olarak sınıflandırılan müzik seslerini; Y(Yanlış egaif), Müzik olarak sınıflandırılan konuşma seslerini ifade emekedir. Başarılar; konuşma sesleri için, DP Başarı DP + Y müzik sesleri için, D Başarı2 D + YP genel başarı için ise D + DP GenelBaşarı DP + D + YP + Y (20) (2) (22) olarak verilmekedir. Zaman-Frekans +MFCC Anlık ve Teager Eneri Karmaşık D YP BAŞARI (%) 67 87 77 98.7 78 0 00 75 3 96.5 Tablo.: Müzik sesleri için başarı oranları Zaman-Frekans +MFCC Anlık ve Teager Eneri Karmaşık DP Y BAŞARI (%) 96 4 96 87 3 87 98 2 98 99 99 Tablo.2: Konuşma sesleri için başarı oranları Hesaplama Süresi (sn) Genel Başarı (%) Zaman-Frekans + MFCC.02 9.5.03 92. Anlık ve Teager Eneri 0.33 98.8 Karmaşık 0.8 97.7 Tablo.3: Genel başarı ve ek bir işare için hesaplama süresi 5. Tarışma Gerçekleşirilen çalışmada, müzik ve konuşma seslerinin sınıflandırılması birçok yönden ele alınmışır. abanlı anlık ve eager eneri öznielikleri ile karmaşık dalgacık dönüşümünden elde edilen öznieliklerin sınıflandırmayı daha iyi sonuçlandırdığı görülmüşür. Tablo.3 de görüldüğü gibi, karmaşık dalgacık dönüşümü anlık ve eager eneri öznieliklerine göre, hesaplama açısından daha hızlı sonuç vermeke; aynı zamanda yakın bir başarı oranı gösermekedir. Bu yüzden de gerçek zamanlı uygulamalarda kullanımı uygundur. Ayrıca, dalgacık dönüşümünden elde edilen öznielikler, verinin özelliklerine bağımlı olduğu için farklı veri selerinde
sonuçlar değişebilmekedir. Gelecek çalışmalarda, gözlenen başarıların kararlılığı açısından, yapılan çalışma, daha geniş ve farklı bir veriabanı ile gerçekleşirilecekir. 6. Kaynakça [] E.Scheier and M. Slaney, Consrucion and Evaluaion of a Robus Mulifeaure Speech/Music Discriminaor,Proc.ICASSP 997, say. 33-334. [2] E.M.Saad, M.I. El-Adawy, M.E.Abu-El-Wafa and A.A.Wahba, A Mulifeaure Speech/Music Discriminaion Sysem, 9. aioanal Radio Science Conference, Alexendria, 2002 [3] John Saunders. Real Time Discriminaion of Broadcas Speech/Music,Proc. ICASSP 996, say. 993-996. [4]Didio,E.e al., A Wavele-Based Parameerizaion for Speech /Music Discriminaion, Compuer Speech and Language(2009), doi:0.06/.csl.2009.05.03 [5] Ivan W. Selesnick, Richard G. Baraniuk, and ick G. Kingsbury, The Dual-Tree Complex Wavele Transform, IEEE Signal Processing Magazine, Kasım 2005, say. 23-5 [6] Fand Zheng, Guoliang Zhang, Zhaniang Song, Comparison of Differen Implemanaions of MFCC, J. Compuer Science & Technology, 6(6): 582-589, Eylül 200 [9] Savros alampiras, ikos Fakoakis, Speech /Music Discriminaion Based on Discree Wavele Transform,SET 2008, LAI 538, say. 205-2, 2008 [0] Asim Roy, Arificial eural eworks- A Science in Trouble, SIGKDD Exploraions,.Sayı, Ocak 2000, say. 33-38