Journal o Engneerng and Natural Scences Mühendslk ve Fen Blmler Dergs Sgma 27, 197-207, 2009 Research Artcle / Araştırma Makales THE EFFECTS OF FILTER FREQUENCY SCALE VARIABILITY ON SPEAKER IDENTIFICATION PERFORMANCE Ömer ESKİDERE* 1, Fgen ERTAŞ 2 1 Uludağ Ünverstes, Teknk Blmler Meslek Yüksekokulu, Mekatronk Programı, BURSA 2 Uludağ Ünverstes, Mühendslk-Mmarlık Fakültes, Elektronk Mühendslğ Bölümü, BURSA Receved/Gelş: 12.01.2009 Revsed/Düzeltme: 17.08.2009 Accepted/Kabul: 28.09.2009 ABSTRACT Extractng dscrmnatory eature vectors that contan speaker specc normaton s o crucal mportance n speaker dentcaton. Although the cepstrum coecents on the Mel requency scale are commonly used as eature vectors, t s demonstrated n ths paper that lnear and ERB requency scales provde better results compared to the Mel scale. In the paper, ERB, Bark and lnear scales are compared wth Mel scale on the TIMIT and NTIMIT databases. On the TIMIT database, an dentcaton rate o 100% s obtaned wth the lnear requency scale when the lter-bank s placed n 0-8 KHz range, and a rate o 98.81% s obtaned wth the ERB scale usng 0-4 KHz lter-bank requency range. On the NIMIT database, 73.51% dentcaton rate s acheved wth lnear scale, resultng n 2.97% mprovement over that o the Mel scale. Keywords: Flter requency scale, speaker dentcaton, Gaussan mxture model, TIMIT/NTIMIT databases. FİLTRE FREKANS ÖLÇEĞİ DEĞİŞİMLERİNİN KONUŞMACI TANIMAYA ETKİSİ ÖZET Kşler brbrnden ayırt edc özellkler taşıyan özntelk vektörlernn elde edlmes, konuşmacı tanımanın en öneml kısmıdır. Özntelk vektörü olarak her ne kadar Mel rekans ölçeğndek kepstrum katsayıları yaygın olarak kullanılsa da, bu makalede görüleceğ üzere doğrusal ve ERB rekans ölçekler kullanılarak Mel ölçeğe kıyasla daha y sonuçlar elde edlmştr. Bu makalede, TIMIT ve NTIMIT vertabanları çn, Mel ölçeğ le ERB, Bark ve doğrusal ölçek karşılaştırılmıştır. TIMIT vertabanında süzgeç dzlernn yerleştrldğ rekans bandı 0-8 çn doğrusal ölçekle %100, 0-4 rekans bandı çn ERB ölçekle %98.81 konuşmacı tanıma oranı elde edlmştr. NTIMIT vertabanında doğrusal ölçekle %73.51 konuşmacı tanıma oranı elde edlp Mel ölçeğe kıyasla %2.97 tanıma artışı sağlanmıştır. Anahtar Sözcükler: Süzgeç rekans ölçekler, konuşmacı tanıma, gauss karışım model, TIMIT/NTIMIT vertabanı. 1. GİRİŞ Konuşmacı tanıma sstemlernn tasarımında en öneml noktalardan br, kşye at konuşma karakterstklern temsl eden özntelk vektörlernn seçmdr. Parametre olarak uygun özntelklern seçm tanıma oranını doğrudan etkler. Konuşmacı tanıma sstemler çn şmdye * Correspondng Author/Sorumlu Yazar: e-mal/e-let: oeskdere@uludag.edu.tr, tel: (224) 294 23 68 197
Ö. Eskdere, F. Ertaş Sgma 27, 197-207, 2009 kadar yapılan çalışmalarda, Mel rekansı kepstrum katsayıları (MFCC) en çok kullanılan özntelk olmuştur. Bunun sebeb de MFCC parametrelernn dğer özntelk vektörü oluşturma yöntemlerne oranla daha y tanıma perormansı sağlamasıdır [1]. İnsan algılama yapısı üzernde yapılan pskozyolojk ölçümler le çeştl rekans ölçekler elde edlmştr. Bu rekans ölçekler nsanın kulağının algılamada ayırt edc olduğu rekansları göstermektedr [2]. Özntelk vektörler oluşturulurken rekans ölçekler le kullanılan süzgeçlern yer ve bant genşlkler ayarlanmaktadır. Süzgeç seçm yapılırken kşye at konuşma özellklernn, en y bçmde br vektör le ade edlmes amaçlanır. Kullanılan bu süzgeçlern konumu konuşmacı tanıma perormansını doğrudan etklemektedr [3, 4]. Süzgeçlern konumu değşk rekans ölçekler le belrlenmektedr. Bu makalede Mel, Bark, ERB ve doğrusal rekans ölçekler, mkroon (TIMIT) ve teleon (NTIMIT) ortamlarından toplanan ses örnekler çn karşılaştırılmaktadır. Frekans ölçekler karışım bleşen sayısı, örnekleme hızının düşürülmes, süzgeçlern 0-4 aralığına sınırlandırılması ve kepstrum katsayı sayısı parametrelerne bağlı olarak ncelenmektedr. Bu parametre değşmlerne bağlı olarak en deal rekans ölçeğ bulunmaktadır. Bant genşlğ y ayarlanmış doğrusal rekans ölçeğnn, kşnn ayırt edc ses özellklern dğer rekans ölçeklerne göre daha y bulduğu gösterlmektedr. 2. ÖZNİTELİK VEKTÖRÜ OLUŞTURULMASI Her ne kadar konuşmacı tanımada konuşma özellklernn ayırt edclğ pek azla dkkate alınmasa da, konuşma spektrumunun konuşmacı tanımada etkl olduğu gözlenmştr. Bu durum spektrumun kşnn ses yolu yapısını yansıtıp dğer kşlern seslerne nazaran etkn zyolojk br ayırt edc aktör olması le açıklanmaktadır [5]. Konuşmacılara at ses örnekler, ses değşmlerne karşı sabt kabul edleblecek parçalara ayrılır. Genellkle 20 40 msn arasında değşen bu konuşma parçaları pencere onksyonlarından br le çarpılır ve konuşma parçasının orta kısmı vurgulanır. Elde edlen bu kısa sürel konuşma parçasının genlk spektrumu alınıp ön vurgulama uygulanır. Spektrum, sesn kısa sürel çerçeveler arası değşmne duyarlıdır. Spektrumu alınan şaret Şekl 1 de görülen rekans ölçeklernden brne göre düzenlenmş üçgen süzgeç dzlernden geçrlp elde edlen şaretn logartması alınır. En son olarak şarete ayrık kosnüs dönüşümü uygulanarak kepstrum katsayıları olarak blnen özntelk vektörler elde edlr. Elde edlen bu özntelkler konuşmacıların eğtm ve testnde kullanılır. Üçgen süzgeç dzler şu şeklde oluşturulmaktadır. Süzgeç sayısı FS, seçlen şaret bant genşlğ [0, s /2] Hz ve s örnekleme rekansı olarak tanımlanır. Üçgen süzgeç dzlernden br l olsun, l є [1, FS], bu süzgecn merkez rekansı cl olup alt ve üst bant geçren rekansları se; cl-1 ve cl+1 olarak ade edlr. Buna bağlı olarak co =0 ve cl < s /2 l olarak ade edlr. Buna bağlı olarak süzgeç dzler denklem 1 dek gb ade edlr. k (( ) s cl 1)/( N F l[ k] = k cl+ 1 ( ) s)/( N cl cl+ 1 ) cl 1 ) cl L C l l k C k U cl cl+ 1 cl 1 Burada Cl = N, U1 = N ve Ll = N olup l nc süzgecn s s s merkez, üst ve alt rekanslarıdır [6]. Süzgeçlern yerleştrldğ rekans ölçekler se aşağıdak gbdr. l l (1) 198
The Eects o Flter Frequency Scale Varablty Sgma 27, 197-207, 2009 Konuşma dalga ormu Genlk Spektrumu Bark Ölçek Mel Ölçek Doğrusal Ölçek ERB Ölçek log( ) Ayrık Kosnüs Dönüşümü k 1,,k 20 Şekl 1. Özntelk vektörü oluşturma blok dyagramı 2.1. Mel Ölçek Kulak taraından algılanan rekansları ade eden Mel değerler Steven ve Volkman [2], taraından tespt edlmştr [7]. Bu Mel değerler O Shaughnessy [8], Fant [9] ve Slaney [10] taraından tanımlanan Mel ölçekler le yaygın olarak ade edlmektedr. Denklem 2, Hz den Mel ölçeğe dönüşüm çn kullanılan adedr. Mel ( ) = a log(1 + ) (2) b Burada, Hz olarak rekansı göstermekte olup Mel ( ) se mel ölçekte rekansı göstermektedr. O Shaughnessy [8], a=2595 ve b=700, Fant [9], a=1000/log2 ve b=1000 olarak tanımlamaktadır. Slaney [10], 1000 Hz altı 66.6 Hz bant genşlğnde doğrusal, 1000 Hz üstü logartmk olarak tanımlamaktadır. Şekl 2 de Slaney [10] taraından tanımlanan Mel ölçekte dzlmş üçgen süzgeç dzler görülmektedr. 199
Ö. Eskdere, F. Ertaş Sgma 27, 197-207, 2009 2.2. Bark Ölçek Şekl 2. Mel ölçekte dzlmş süzgeç dzler Mel ölçek dışında br başka süzgeç dzs oluşturma yöntem de Bark ölçek süzgeçler kullanmaktır. Ses rekansından belrl br rekans aralığına br eşleştrme yöntem olan Bark ölçeğ denklem 3 dek ormülle açıklanablr [11]. 2 0.76 Bark ( ) = 13arctan + 3.5arctan (3) 2 1000 7500 Buradak rekans ölçeğnn brm krtk bant genşlğ oranı ya da bark olarak adlandırılır. Yukarıda belrtlen bark ölçeğ ormülleryle süzgeç oluşturmak çn krtk bant genşlklernn belrlenmes gerekr. Krtk bant genşlkler denklem 4 dek gb belrlenr. BWkrtk=25+75[1+14(/1000) 2 0.69 ] 2.3. ERB Ölçek Br süzgeç çn Eşdeğer dörtgensel bant genşlğ (ERB), o süzgecn geçrdğ toplam beyaz gürültü gücüne eşt güçte gürültü geçren deal dörtgensel br süzgecn bant genşlğ olarak tanımlanmaktadır. Moore ve Glasberg [12], deneysel ölçümlerle nsan ştsel süzgeçlernn ERB s le süzgeçlern merkez rekansları arasındak bağıntıyı denklem 5 dek gb tanımlamaktadır. ERB ( ) = 0.108 + 24.7 (5) Bu denklemde n brm Hz dr. Aynı şeklde şaret bant genşlğ boyunca stenlen sayıda süzgeç ERB ölçeğnde eşt aralıklı olarak yerleştrlr [13]. ERB ölçeğne göre ayarlanan. süzgeç dzsnn merkez rekansı ades denklem 6 dak gbdr. c = ( E mbw) + exp(( ( log( s / 2+ E mbw) + log( lr + E mbw))/ nc) ( s / 2+ E mbw) (6) (4) 200
The Eects o Flter Frequency Scale Varablty Sgma 27, 197-207, 2009 Burada c merkez rekansı, E asmptotk süzgeç kalte aktörü, mbw mnmum bant genşlğ, lr en düşük rekans ve nc süzgeç sayısıdır. Moore ve Glasberg [14], asmptotk süzgeç kalte aktörünü, 9.26449 ve mnmum bant genşlğn, 24.7 olarak tanımlamaktadır [10]. 2.4. Doğrusal Ölçek Doğrusal rekans ölçeğ le tüm rekans bölgesnn konuşmacının algılanmasında eşt etkye sahp olduğu varsayılıp buna göre süzgeçlern merkez rekansları eşt aralıklarla ve sabt bant genşlğ le konuşmacı rekans bandına yerleştrlr. TIMIT vertabanı çn 0-8000 Hz, NTIMIT vertabanı çn 300-3400 Hz rekans aralığına, 66,6 Hz bant genşlğnde üçgen süzgeçler, % 50 örtüşme uygulanarak düzgün aralıklarla yerleştrlmektedr. Şekl 3 de 0-8000 Hz aralığında maksmum değerne normalze edlmş Mel, doğrusal, Bark, ERB ölçekler görülmektedr. 3. GAUSS KARIŞIM MODELİ Elde edlen özntelk vektörler Gauss karışım model kullanılarak modellenmektedr. Gauss karışım model, M adet Gauss yoğunluğun ağırlıklı toplamı olarak denklem 7 dek gb gösterlmektedr [5]. p M ( x ) = / λ p b ( x) (7) = 1 Burada x, D boyutlu rastsal vektörü; b (x), =1,2,3...M, Gauss yoğunluk bleşenlern ve p de karışım ağırlığını göstermektedr. Gauss karışım modelnde her bleşenn ortalama vektörü, ortak değşnt matrs ve karışım ağırlık değerler le denklem 8 dek gb gösterlr. { p } λ =, µ =1,2...,M (8) M 1 Burada = p = 1 olup µ ortalama vektör ve ortak değşnt matrsn ade etmektedr. Gauss karışım modelndek bleşenlere at parametrelern tahmn çn maksmum benzerlk tahmn yöntem kullanılır. Bu yöntemde amaç eğtm verlernden p(x/λ) yı en büyük yapacak model parametrelern bulmaktır. T adet vektörden oluşan eğtm dzs X le gösterlsn: X={ x 1, x 2,... x T }. Bu X dzs çn Gauss karışım olasılığı denklem 9 dak gb yazılablr. T p(x/λ)= p( ) t = 1 x t / λ (9) Bu ade, λ parametrelernn doğrusal olmayan br şlevdr ve drekt olarak en büyük yapılması mümkün değldr. Beklentnn maksmumlaştırılması (BM) algortması kullanılarak λ parametrelerne göre denklem 9 en büyük yapılır [6]. 201
Ö. Eskdere, F. Ertaş Sgma 27, 197-207, 2009 Şekl 3. Normalze edlmş ERB, Mel, Bark, ve doğrusal rekans ölçekler 4. DENEYSEL ÇALIŞMA Yapılan deneylerde TIMIT ve NTIMIT vertabanlarına at ses örnekler kullanılmaktadır. TIMIT ver tabanı toplam 630 kşnn her brnn söyledğ 10 ar adet cümleden oluşmaktadır. Konuşma şaret 16 örnekleme rekansı le kaydedlmştr. NTIMIT vertabanı, TIMIT vertabanındak cümlelern karbondan yapılma teleon ahzes üzernden br yerel veya uzun mesae merkez ose letlmş ve aynı hat üzernden tekrar kayıt çn ger alınmış haldr. Deneylerde TIMIT vertabanının tamamı ve her k vertabanın 168 konuşmacıdan oluşan test dzn kullanılmaktadır. Konuşmacılar 32 adet Gauss karışımı le modellenmektedr. BM algortması model başlangıç değer, k-ortalama algortması le kestrlp, mnmum değşnt sınırı 0.01 alınmaktadır. Model 15 özynelemede stenen değere yakınsamaktadır. Konuşmalar test edlrken test sözcüklerne at değerler, haızadak her br konuşmacı modele uygulanır ve maksmum olasılıklı modele at kşye eşleştrlr. Eğtm çn yaklaşık toplam 24 sanye uzunluğunda (2 sa, 3 s ve 3 sx) cümleler, test çn se kalan 3 sanye uzunluğunda yaklaşık 1 cümle kullanılmıştır. TIMIT vertabanındak her br konuşmacının analznde; konuşmalar 10 msn örtüşme le 20 msn uzunluğunda kısa sürel çerçevelere ayrılıp Hammng pencereden geçrlr. Elde edlen şaretn genlk spektrumu alınıp ayarlanan rekans ölçeklerne bağlı olarak elde edlen süzgeç dzlernden geçrlr. Üçgen süzgeç dzler kullanılacak olan Mel, Bark, ERB ve doğrusal ölçeğe bağlı olarak yerleştrlr. Süzgeç çıkışlarının log enerjler alınıp ayrık kosnüs dönüşümü uygulandıktan sonra özntelk vektörler elde edlmektedr. 0. özntelk vektörü ortalama enerjy gösterdğnden alınmamaktadır. Konuşmanın her br çerçeves 24 kepstrum katsayısı le ade edlr. Bu şartlarda aşağıdak deneyler yapılmaktadır. 1. İk değşk konuşmacı grubu çn rekans ölçekler değşmne göre doğru konuşmacı tanıma oranları ncelenecektr. Konuşmacı grupları, 168 kşden oluşan test dzn ve 630 kşden oluşan TIMIT vertabanının tamamıdır. Çzelge 1 de bu k konuşmacı grubu çn Bölüm 2 de tanımlanan rekans ölçeklernde süzgeçlern yerleştrlmes le elde edlen konuşmacı tanıma oranları görülmektedr. 202
The Eects o Flter Frequency Scale Varablty Sgma 27, 197-207, 2009 Çzelge 1. Değşk süzgeç ölçekler çn konuşmacı tanıma oranları (%) Konuşmacı sayısı Ölçek çeşd Doğrusal Mel Bark ERB 168 100 99.4 98.81 100 630 100 99.4 99.68 99.68 Süzgeç aralığı 0-8, kepstrum katsayı sayısı 24, örnekleme rekansı 16, karışım bleşen sayısı 32, TIMIT vertabanı Çzelge 1 den görüleceğ üzere konuşmacı sayısı 168 kş çn doğrusal ve ERB rekans ölçekler kullanılarak %100 lük konuşmacı tanıma oranı elde edlmektedr. Vertabanının tamamı le yapılan deneyde doğrusal rekans ölçeğ le test edlen konuşmacı grubu çn %100, Mel ölçeğ çn %99.4 tanıma oranı elde edlmektedr. 2. TIMIT vertabanında 168 konuşmacı çn, karışım bleşen sayısı değşmne bağlı olarak, rekans ölçeklernn değşmnn tanıma üzerne etks ncelenecektr. Konuşmacıların ses örneklernn örnekleme hızı 16 den 8 e düşürüldüğünde Çzelge 2 dek sonuçlar elde edlmektedr. Çzelge 2. Karışım bleşen sayısına bağlı olarak değşk rekans ölçekler çn tanıma oranları (%) Karışım bleşen sayısı Doğrusal Mel Bark ERB M=16 94.64 91.37 92.56 88.39 M=32 97.92 94.94 97.02 94.94 M=64 97.62 95.83 94.94 95.24 Süzgeç aralığı 0-8, kepstrum katsayı sayısı 24, örnekleme rekansı 8, TIMIT vertabanı Çzelge 2 den görüleceğ üzere değşk karışım bleşen sayıları çn en yüksek tanıma oranı doğrusal rekans ölçeğnde elde edlmektedr. Doğrusal rekans ölçeğ dğer rekans ölçeklerne nazaran daha gürbüz davranmaktadır. 3. TIMIT vertabanı çn ltre dzlerne bant sınırlama uygulanması durumunda tanıma oranı değşm gözlenecektr. Süzgeç dzler, 0-4 rekans aralığında hazırlanıp ses şaretne ön vurgulama uygulanmasına bağlı olarak konuşmacı tanıma perormansı ölçülecektr. Örnekleme rekansı 16 çn elde edlen sonuçlar Çzelge 3 de görülmektedr. Çzelge 3. Süzgeç aralığı 0-4 çn değşk rekans ölçekler çn tanıma oranları (%) Doğrusal Mel Bark ERB Ön vurgulamasız 97.92 95.24 92.86 98.81 Ön vurgulamalı 96.43 96.73 95.54 96.73 Süzgeç aralığı 0-4, kepstrum katsayı sayısı 20, örnekleme rekansı 16, Konuşmacı sayısı 168, TIMIT vertabanı Çzelge 3 den görüleceğ üzere süzgeçler 0-4 aralığında yerleştrldğnde Mel ölçeğnde en yüksek sonuç ön vurgulamalı % 96.73, ERB ölçeğ kullanılması durumunda ön vurgulamasız % 98.81 konuşmacı tanıma oranı elde edlmektedr. TIMIT vertabanında bant sınırlaması uygulanması durumunda ERB ölçek, Mel ölçeğe nazaran % 2.08 daha y tanıma sağlamaktadır. 203
Ö. Eskdere, F. Ertaş Sgma 27, 197-207, 2009 4. TIMIT vertabanında üçgen süzgeç dzler bant sınırlamalı (0-4 ) ve bant sınırlamasız (0-8 ) rekans aralığında yerleştrlmektedr. Doğrusal, ERB, Mel, Bark rekans ölçekler çn kepstrum katsayıları 9, 12, 15, 18, 20, 22 ve 24 olması durumunda elde edlen konuşmacı tanıma oranları Çzelge 4 dek gbdr. Çzelge 4. Dört değşk rekans ölçeğ çn konuşmacı tanıma oranları (%) Kepstrum Doğrusal ölçek Mel ölçek Bark ölçek ERB ölçek katsayıları 0-8 0-4 0-8 0-4 0-8 0-4 0-8 0-4 k1-k9 98.21 92.86 94.94 90.48 91.07 90.48 93.15 96.72 k1-k12 100 94.64 98.21 92.56 96.72 94.94 98.21 98.81 k1-k15 100 95.24 98.81 93.45 99.4 93.15 99.4 97.02 k1-k18 100 97.92 99.4 97.32 98.81 96.43 100 97.32 k1-k20 100 97.92 99.4 96.73 98.81 95.54 100 98.81 k1-k22 100 92.86 99.4 95.54 98.81 94.64 100 95.24 k1-k24 100 91.96 99.4 96.13 98.81 88.10 100 95.83 Örnekleme rekansı 16, karışım bleşen sayısı 32, TIMIT vertabanı Mel, Bark ölçek ön vurgulamalı, Doğrusal ve ERB ölçek ön vurgulamasız, konuşmacı sayısı 168 Çzelge 4 den görüleceğ üzere süzgeç aralığı 0-8 çn en yüksek tanıma doğrusal ve ERB ölçeklernde, süzgeç aralığı 0-4 çn en yüksek tanıma oranı ERB ölçeğnde gözlenmektedr. Frekans ölçeklernn kepstrum katsayılarına bağlı olarak değşm Şekl 4 de daha ayrıntılı görülmektedr. Süzgeçlern yerleştrldğ bant aralığı 0-8 çn, doğrusal ve ERB ölçekler kepstrum katsayısı 18 ve üzer olması durumunda % 100 lük konuşmacı tanıma elde edlmektedr. Bant aralığı 0-4 çn doğrusal, Mel, Bark, ERB rekans ölçeklernde değşk kepstrum katsayıları çn konuşmacı tanıma oranları Şekl 5 de görülmektedr. Süzgeçlern yerleştrldğ bant aralığı 0-4 çn ERB ölçeğnde kepstrum katsayılarının 12 ve 20 olduğu durumlarda en yüksek (% 98.81) konuşmacı tanıma oranı elde edlmştr. Şekl 4. Değşk rekans ölçeklernn kepstrum katsayıları değşmlerne bağlı olarak karşılaştırılması (0-8 ) 204
The Eects o Flter Frequency Scale Varablty Sgma 27, 197-207, 2009 Şekl 5. Değşk rekans ölçeklernn kepstrum katsayı değşmlerne bağlı olarak karşılaştırılması (0-4 ) 5. Doğrusal, Mel, Bark ve ERB rekans ölçeklernn NTIMIT vertabanında karşılaştırılması yapılacaktır. Konuşma şaret 25 msn uzunluğunda çerçeveler ayrılıp 10 msn örtüşme uygulanmaktadır. İşaretn genlk spektrumu çn 512 nokta ayrık Fourer dönüşümü uygulanır. Üçgen süzgeç dzs 300-3400 Hz rekans aralığında, 4 değşk rekans ölçeğne bağlı olarak yerleştrlmştr. Süzgeçten geçrlen şaretn logartması alınıp ayrık kosnüs dönüşümü uygulanmaktadır. Her br çerçeve çn 20 kepstrum katsayısı kullanılıp, konuşma şaretne ön vurgulama uygulanmayıp, Gauss karışım bleşen sayısı 32 alınmaktadır. Her br konuşmacı sekz cümle kullanılarak eğtlmekte, 1 cümle kullanılarak test edlmektedr. Çzelge 5 de NTIMIT vertabanı çn değşk rekans ölçeklernde konuşmacı tanıma oranları görülmektedr. Çzelge 5. Değşk rekans ölçekler çn konuşmacı tanıma oranları (%) Konuşmacı sayısı Ölçek çeşd Doğrusal Mel Bark ERB 168 70.24 69.05 58.33 68.45 Kepstrum katsayı sayısı 20, ön vurgulama yok, NTIMIT vertabanı Çzelge 5 den görüleceğ üzere doğrusal rekans ölçeğ le % 70.24 konuşmacı tanıma oranı elde edlmştr. Mel ölçeğ kullanıldığında konuşmacı tanıma oranı % 69.05 olmaktadır. 6. NTIMIT vertabanı çn konuşmadan sessz kısımların atılması durumunda üçgen süzgeç dzlernn yerleştrldğ rekans ölçeğ değşmnn konuşmacı tanımaya etks ncelenecektr. TIMIT vertabanında konuşmadan sessz kısımların atılması tanıma oranını değştrmemektedr. Konuşmada sesl sessz ayırımında Alaa ve dğ. [15], taraından belrtlen eşk değer kullanılmaktadır. Konuşmadak eşk değernn altındak sessz çerçevelere karşılık gelen kısımlar atılmakta ve buna bağlı olarak özntelk vektörler 205
Ö. Eskdere, F. Ertaş Sgma 27, 197-207, 2009 üretlmektedr. Konuşmacıların özntelk vektörler üretlrken doğrusal, Mel, Bark ve ERB ölçekte süzgeçler 300-3400 Hz arasına yerleştrlr. Her br çerçeveye karşılık 20 adet kepstrum katsayısı elde edlr. Bu katsayılar 168 kşnn eğtm ve test çn kullanılır. Eğtm çn 8 cümle, test çn 1 cümle kullanılmaktadır. Bu durumda elde edlen tanıma oranları Çzelge 6 da görülmektedr. Çzelge 6. Konuşmadan sessz kısımların atılmasına bağlı olarak dört değşk rekans ölçeğ çn konuşmacı tanıma oranları (%) Konuşmacı sayısı Doğrusal Mel Bark ERB 168 73.51 70.54 60.42 69.94 Kepstrum katsayı sayısı 20, ön vurgulama yok, NTIMIT vertabanı Çzelge 6 dan görüleceğ üzere konuşmadan sessz kısımlar atıldığında, doğrusal ölçek çn konuşmacı tanıma oranı 70.24 ten % 73.51 e çıkmaktadır. Mel ölçek çn tanıma oranı % 69.05 den % 70.54 e çıkmaktadır. Dört rekans ölçeğ çnde en y tanıma oranı doğrusal ölçek le elde edlmektedr. 5. SONUÇLAR Bu çalışmada özntelk vektörü elde edlmesnde kullanılan süzgeçlern yerleştrldğ rekans ölçekler, metnden bağımsız Gauss karışım model kullanılarak, konuşmacı tanıma oranları karşılaştırılmıştır. Blnenn aksne bant genşlğ y ayarlanmış doğrusal rekans ölçeğ kşnn ayırt edc ses özellklern Mel rekans ölçeğnden daha y yakalamaktadır. TIMIT vertabanı le rekans bandı 0-8 çn doğrusal ölçek le % 100 tanıma oranı elde edlmştr. TIMIT vertabanındak konuşmalara 0-4 bant sınırlaması uygulandığında, ERB rekans ölçeğnn konuşmacı tanımada en y perormansı gösterdğ görülmektedr. Reynolds ve dğ. [16], Mel ölçeğn kullanarak bant sınırlamalı durumda % 95.2 tanıma oranı elde etmştr. Yaptığımız deneylerde bant sınırlamalı durumda ERB ölçek le % 98.81 tanıma oranı elde edlp, Mel ölçeğe nazaran tanıma oranında % 3.61 yleşme sağlanmıştır. Bant sınırlamalı durumda rekans ölçekler tanıma oranlarına bağlı olarak ERB, doğrusal, Mel ve Bark şeklnde sıralanmaktadır. NTIMIT vertabanında konuşmalar teleon hattından elde edldğnden dolayı, TIMIT vertabanına nazaran tanıma oranı % 26.49 daha düşük olup en yüksek tanıma oranı doğrusal ölçekte % 73.51 olarak elde edlmştr. Bu sonuç Mel ölçeğe kıyasla % 2.97 tanıma artışı sağlamaktadır. NTIMIT vertabanı çn tanıma oranına göre süzgeç dzlernn yerleştrldğ rekans ölçekler; doğrusal, Mel, ERB ve Bark olarak sıralanmaktadır. REFERENCES / KAYNAKLAR [1] Lu, L., J. He and Palm G., Sgnal Modelng or Speaker Identcton. Proc. Int. Conerence on Acoustcs, Speech, and Sgnal Processng (ICASSP-96), Vol. 2, 1996, pp. 665-668. [2] Stevens, S. and J. Volkman, The Relaton o Ptch to Frequency. Amercan Journal o Psychology, vol. 53, p. 329, 1940. [3] Knnunen, T. Spectral Features or Automatc Text-ndependent Speaker Recognton, Ph.Lc. thess, Unversty o Joensuu, Department o Computer Scence p. 49-115, 2003. [4] Ganchev, T. Speaker Recognton, Ph.D. thess, Dept. o Electrcal and Computer Engneerng, Unversty o Patras, Greece. p. 61-82. 2005. 206
The Eects o Flter Frequency Scale Varablty Sgma 27, 197-207, 2009 [5] Reynolds D. A., and Rose, R. C., Robust Text-Independent Speaker Identcaton Usng Gaussan Mxture Speaker Models, IEEE Trans. Speech Audo Proc., 3, (1), pp. 72 83, 1995. [6] Reynolds, D. A., A Gaussan Mxture Modelng Approach to Text Independent Speaker Identcaton, Ph.D. Thess, Georga Insttute o Technology, 1992. [7] Umesh, S., L. Cohen and Nelson D., Fttng the Mel Scale. Proc. Int. Conerence on Acoustcs, Speech, and Sgnal Processng (ICASSP-99), Vol. 1, 1999, pp. 217 220. [8] O Shaughnessy, D., Speech Communcaton Human and Machne. Addson Wesley, New York, 1987. [9] Fant, G., Acoustc Theory o Speech Producton. Mouton & Co., The Hauge, 1960. [10] Slaney, M., An Ecent Implementaton o the Patterson-Holdsworth Audtory Flter Bank, Tech. Rep. 35, Apple Computer, Inc., 1993. [11] Pcone, J., Fundamentals o Speech Recognton: a Short Course. Insttute or Sgnal and Inormaton Processng, pp. 68-69, 1996. [12] Moore, B. C. J. and B. Glasberg R., Suggested Formula or Calculatng Audtory Flter Bandwdths and Excataton Patterns, J. Acoust. Soc. Am., 74, p. 750-753, 1983. [13] Ertaş, F., Ses İşaretlerne Karşı Baslar Membran Hareketnn Yazılım Benzetm, S.D.Ü. Fen Blmler Dergs 6:1, s. 86-93, 2002. [14] Glasberg, B. R. and Moore B. C. J., Dervaton o Audtory Flter Shapes From Notched-Nose Data, Hearng Research, vol. 47, pp. 103 108, 1990. [15] Alaa, A. Y., Ebada A. S. and El Behady W. H., Development o Automatc Speaker st Identcaton System, 21 Natonal Rado Scence Con., 2004. [16] Reynolds D. A., Zssman M. A., Quater T. F., et. al., The Eects o Telephone Transmsson Degradatons on Speaker Recognton Perormance, ICASSP (Detrot), May 9-12, 1995, 329-331. 207