Sigma 27, , 2009 Research Article / Araştırma Makalesi THE EFFECTS OF FILTER FREQUENCY SCALE VARIABILITY ON SPEAKER IDENTIFICATION PERFORMANCE

Benzer belgeler
T.C. ULUDAĞ ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ KONUŞMACI TANIMA YÖNTEMLERİNİN KARŞILAŞTIRMALI ANALİZİ. Cemal HANİLÇİ

VEKTÖRLER VE VEKTÖREL IŞLEMLER

a IIR süzgeç katsayıları ve N ( M) de = s 1 (3) 3. GÜRÜLTÜ GİDERİMİ UYGULAMASI

SÜREKLİ SAKLI MARKOV MODELLERİ İLE METİNDEN BAĞIMSIZ KONUŞMACI TANIMA PARAMETRELERİNİN İNCELENMESİ

MIT Açık Ders Malzemeleri Bu materyallerden alıntı yapmak veya Kullanım Koşulları hakkında bilgi almak için

( ) 3.1 Özet ve Motivasyon. v = G v v Operasyonel Amplifikatör (Op-Amp) Deneyin Amacı. deney 3

UYUM ĐYĐLĐĞĐ TESTĐ. 2 -n olup. nin dağılımı χ dir ve sd = (k-1-p) dir. Burada k = sınıf sayısı, p = tahmin edilen parametre sayısıdır.

Saklı Markov Modeli Kullanarak Türkçe Konuşma Tanıma

ÇOKLU REGRESYON MODELİ, ANOVA TABLOSU, MATRİSLERLE REGRESYON ÇÖZÜMLEMESİ,REGRES-YON KATSAYILARININ YORUMU

EMG İşaretlerinin K-Ortalama Algoritması Kullanılarak Öbekleştirilmesi. EMG Signal Analysis Using K-Means Clustering

MEL FREKANSI KEPSTRUM KATSAYILARINDAKİ DEĞİŞİMLERİN KONUŞMACI TANIMAYA ETKİSİ

Bulanık Mantık ile Hesaplanan Geoid Yüksekliğine Nokta Yüksekliklerinin Etkisi

MATLAB GUI İLE DA MOTOR İÇİN PID DENETLEYİCİLİ ARAYÜZ TASARIMI INTERFACE DESING WITH PID CONTROLLER FOR DC MOTOR BY MATLAB GUI

Merkezi Eğilim (Yer) Ölçüleri

NİTEL TERCİH MODELLERİ

X, R, p, np, c, u ve diğer kontrol diyagramları istatistiksel kalite kontrol diyagramlarının

HAFTA 13. kadın profesörlerin ortalama maaşı E( Y D 1) erkek profesörlerin ortalama maaşı. Kestirim denklemi D : t :

ENDÜSTRİNİN DEĞİŞİK İŞ KOLLARINDA İHTİYAÇ DUYULAN ELEMANLARIN YÜKSEK TEKNİK EĞİTİM MEZUNLARINDAN SAĞLANMASINDAKİ BEKLENTİLERİN SINANMASI

5.3. Tekne Yüzeylerinin Matematiksel Temsili

PARÇALI DOĞRUSAL REGRESYON

OLASILIĞA GİRİŞ. Biyoistatistik (Ders 7: Olasılık) OLASILIK, TIP ve GÜNLÜK YAŞAMDA KULLANIMI

Doğrusal Korelasyon ve Regresyon

TRİSTÖR VE TRİYAK HARMONİKLERİNİN 3 BOYUTLU GÖSTERİMİ VE TOPLAM HARMONİK BOZUNUMA EĞRİ UYDURMA

SEK Tahmincilerinin Arzulanan Özellikleri. SEK Tahmincilerinin Arzulanan Özellikleri. Ekonometri 1 Konu 9 Sürüm 2,0 (Ekim 2011)

DENEY 5: FREKANS MODÜLASYONU

PROJE SEÇİMİ VE KAYNAK PLANLAMASI İÇİN BİR ALGORİTMA AN ALGORITHM FOR PROJECT SELECTION AND RESOURCE PLANNING

Pamukkale Üniversitesi Mühendislik Bilimleri Dergisi Pamukkale University Journal of Engineering Sciences

Metin Madenciliği ile Soru Cevaplama Sistemi

Türk Dilinin Biçimbilim Yapısından Yararlanarak Türkçe Metinlerin Farklı İmgelere Ayrılarak Kodlanması ve Sıkıştırılması

İÇME SUYU ŞEBEKELERİNİN GÜVENİLİRLİĞİ

Deney No: 2. Sıvı Seviye Kontrol Deneyi. SAKARYA ÜNİVERSİTESİ Dijital Kontrol Laboratuvar Deney Föyü Deneyin Amacı

Sürekli Olasılık Dağılım (Birikimli- Kümülatif)Fonksiyonu. Yrd. Doç. Dr. Tijen ÖVER ÖZÇELİK

Şiddet-Süre-Frekans Bağıntısının Genetik Algoritma ile Belirlenmesi: GAP Örneği *

BÖLÜM II D. YENİ YIĞMA BİNALARIN TASARIM, DEĞERLENDİRME VE GÜÇLENDİRME ÖRNEKLERİ ÖRNEK 20 İKİ KATLI YIĞMA KONUT BİNASININ TASARIMI

İnce duvarlı yapılar, yüksek enerji sönümleme kabiliyetleri,

K-Ortalamalar Yöntemi ile Yıllık Yağışların Sınıflandırılması ve Homojen Bölgelerin Belirlenmesi *

YAYILI YÜK İLE YÜKLENMİŞ YAPI KİRİŞLERİNDE GÖÇME YÜKÜ HESABI. Perihan (Karakulak) EFE

UYGULAMA 2. Bağımlı Kukla Değişkenli Modeller

TÜRKİYE DEKİ 380 kv LUK 14 BARALI GÜÇ SİSTEMİNDE EKONOMİK YÜKLENME ANALİZİ

ÇOK BĐLEŞENLĐ DAMITMA KOLONU TASARIMI PROF. DR. SÜLEYMAN KARACAN

MAK 744 KÜTLE TRANSFERİ

Asimetri ve Basıklık Ölçüleri Ortalamalara dayanan (Pearson) Kartillere dayanan (Bowley) Momentlere dayanan asimetri ve basıklık ölçüleri

KENDİ KENDİNİ DÜZENLEYEN HARİTALAR YÖNTEMİYLE TÜRKÇE SESLİ HARFLERİN SINIFLANDIRILMASI VE TANINMASI

DEÜ MÜHENDİSLİK FAKÜLTESİ FEN ve MÜHENDİSLİK DERGİSİ Cilt: 7 Sayı: 1 s Ocak 2005

TEKNOLOJĐK ARAŞTIRMALAR

Fizik 101: Ders 15 Ajanda

Kİ-KARE TESTLERİ A) Kİ-KARE DAĞILIMI VE ÖZELLİKLERİ

Bilgisayarla Görüye Giriş

ELM201 ELEKTRONİK-I DERSİ LABORATUAR FÖYÜ

UZUN ÖLÜ ZAMANLI SİSTEMLER İÇİN SMİTH ÖNGÖRÜCÜSÜ YÖNTEMİ İLE PI-P KONTROLÖR TASARIMI

TEKNOLOJİ, PİYASA REKABETİ VE REFAH

Korelasyon ve Regresyon

Communication Theory

Kİ KARE ANALİZİ. Doç. Dr. Mehmet AKSARAYLI Ki-Kare Analizleri

YÖNETİM VE EKONOMİ Yıl:2006 Cilt:13 Sayı:1 Celal Bayar Üniversitesi İ.İ.B.F. MANİSA

Kİ-KARE TESTLERİ. şeklinde karesi alındığında, Z i. değerlerinin dağılımı ki-kare dağılımına dönüşür.

AĞIR BİR NAKLİYE UÇAĞINA AİT BİR YAPISAL BİLEŞENİN TASARIMI VE ANALİZİ

dir. Bir başka deyişle bir olayın olasılığı, uygun sonuçların sayısının örnek uzaydaki tüm sonuçların sayısına oranıdır.

ORTA GERİLİM ENERJİ DAĞITIM TALİ HATLARINDA ARIZA ANALİZİ

TE 06 TOZ DETERJAN ÜRETİM TESİSİNDEKİ PÜSKÜRTMELİ KURUTMA ÜNİTESİNDE EKSERJİ ANALİZİ

BİRLEŞİK DALGACIK-SİNİR AĞI MODELİ YAKLAŞIMI İLE ELEKTRİK GÜÇ SİSTEMLERİNDE ARIZA SINIFLAMA

YAPILARIN ENERJİ ESASLI TASARIMI İÇİN BİR HESAP YÖNTEMİ

3. Parçaları Arasında Aralık Bulunan Çok Parçalı Basınç Çubukları

ENDÜSTRİYEL BİR ATIK SUYUN BİYOLOJİK ARITIMI VE ARITIM KİNETİĞİNİN İNCELENMESİ

Toplam Eşdeğer Deprem Yükünün Hesabı Bakımından 1975 Deprem Yönetmeliği İle 2006 Deprem Yönetmeliğinin Karşılaştırılması

ADJUSTED DURBIN RANK TEST FOR SENSITIVITY ANALYSIS IN BALANCED INCOMPLETE BLOCK DESIGN

BETONARME YAPI TASARIMI

Sistemde kullanılan baralar, klasik anlamda üç ana grupta toplanabilir :

Farklı Frekans İlinti Fonksiyonuna Sahip Kanallar İçin Tutarlı Bant Genişliklerinin Elde Edilmesi

ARAŞTIRMA MAKALESİ/RESEARCH ARTICLE TEK ÇARPIMSAL SİNİR HÜCRELİ YAPAY SİNİR AĞI MODELİNİN EĞİTİMİ İÇİN ABC VE BP YÖNTEMLERİNİN KARŞILAŞTIRILMASI ÖZ

bir yol oluşturmaktadır. Yine i 2 , de bir yol oluşturmaktadır. Şekil.DT.1. Temel terimlerin incelenmesi için örnek devre

KIRMIZI, TAVUK VE BEYAZ ET TALEBİNİN TAM TALEP SİSTEMİ YAKLAŞIMIYLA ANALİZİ

G.1. : Y.Kutlu, M.Kuntalp, D.Kuntalp. : Öz Düzenleyici Haritalar Kullanilarak Diken Dalgalarin Analizi. Yay nlanan Kitapç k.

6. KAYNAKLAR 5. SONUÇ. Fırat Üniversitesi-Elazığ

Boğaziçi Köprüsü Hareketlerinin Zaman Dizileri Analizi İle Belirlenmesi

T.C. KAHRAMANMARAŞ SÜTÇÜ İMAM ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ELEKTRİK-ELEKTRONİK MÜHENDİSLİĞİ ANABİLİM DALI

KENTSEL ALANDA ET TALEP ANALİZİ: BATI AKDENİZ BÖLGESİ ÖRNEĞİ. Dr. Ali Rıza AKTAŞ 1 Dr. Selim Adem HATIRLI 2

BÜRÜNSEL ÖZELLİKLERİN KONUŞMACI TANIMA PERFORMANSINA ETKİSİ

Polinom Filtresi ile Görüntü Stabilizasyonu

ATIK POLİMERİK MALZEME KATKILI BETONUN YALITIM ÖZELLİĞİNİN DENEYSEL OLARAK İNCELENMESİ

Sıfır Ağırlıklı Sayma ile Elde Edilen Veriler İçin Çok Seviyeli ZIP Regresyon * Multilevel ZIP Regression for Zero-Inflated Count Data

GÜÇ KALİTESİNDEKİ BOZULMA TÜRLERİNİN SINIFLANDIRILMASI İÇİN BİR ÖRÜNTÜ TANIMA YAKLAŞIMI

ZKÜ Mühendislik Fakültesi - Makine Mühendisliği Bölümü ISI VE TERMODİNAMİK LABORATUVARI Sudan Suya Türbülanslı Akış Isı Değiştirgeci Deney Föyü

JFM316 Elektrik Yöntemler ( Doğru Akım Özdirenç Yöntemi)

Servis Amaçlı Robotlarda Modüler ve Esnek Boyun Mekanizması Tasarımı ve Kontrolü

Sigma 29, , 2011 Research Article / Araştırma Makalesi MAP GENERATION USING HIGH RESOLUTION SATELLITE IMAGES

ÖRNEK SET 5 - MBM 211 Malzeme Termodinamiği I

SABİT-KUTUP YAKLAŞIMI KULLANILARAK TELEKONFERANSTA ODA AKUSTİK EKO YOK ETME

GRİ İLİŞKİSEL ANALİZ YÖNTEMİNE GÖRE FARKLI SERTLİKLERDE OPTİMUM TAKIM TUTUCUSUNUN BELİRLENMESİ

Tanımlayıcı İstatistikler

Fumonic 3 radio net kablosuz duman dedektörü. Kiracılar ve mülk sahipleri için bilgi

Mut Orman İşletmesinde Karaçam, Sedir ve Kızılçam Ağaç Türleri İçin Dip Çap Göğüs Çapı İlişkileri

ROTASYON ORMAN ALGORİTMASI İLE YÜKSEK ÇÖZÜNÜRLÜKLÜ MULTİSPEKTRAL UYDU GÖRÜNTÜLERİNİN SINIFLANDIRILMASI

Kİ-KARE VE KOLMOGOROV SMİRNOV UYGUNLUK TESTLERİNİN SİMULASYON İLE ELDE EDİLEN VERİLER ÜZERİNDE KARŞILAŞTIRILMASI

TEMEL DEVRE KAVRAMLARI VE KANUNLARI

Üç Boyutlu Yapı-Zemin Etkileşimi Problemlerinin Kuadratik Sonlu Elemanlar ve Sonsuz Elemanlar Kullanılarak Çözümü

GÜNEŞ ENERJİLİ BİR SULAMA SİSTEMİNDE BOOST KONVERTERDEN BESLENEN ARM SÜRÜCÜ SİSTEMİNİN ANALİZİ

Tuğla Duvardaki ve Tesisattaki Isı Kaybının Yapay Sinir Ağları İle Belirlenmesi

SU İHTİYAÇLARININ BELİRLENMESİ. Suİhtiyacı. Proje Süresi. Birim Su Sarfiyatı. Proje Süresi Sonundaki Nüfus

Transkript:

Journal o Engneerng and Natural Scences Mühendslk ve Fen Blmler Dergs Sgma 27, 197-207, 2009 Research Artcle / Araştırma Makales THE EFFECTS OF FILTER FREQUENCY SCALE VARIABILITY ON SPEAKER IDENTIFICATION PERFORMANCE Ömer ESKİDERE* 1, Fgen ERTAŞ 2 1 Uludağ Ünverstes, Teknk Blmler Meslek Yüksekokulu, Mekatronk Programı, BURSA 2 Uludağ Ünverstes, Mühendslk-Mmarlık Fakültes, Elektronk Mühendslğ Bölümü, BURSA Receved/Gelş: 12.01.2009 Revsed/Düzeltme: 17.08.2009 Accepted/Kabul: 28.09.2009 ABSTRACT Extractng dscrmnatory eature vectors that contan speaker specc normaton s o crucal mportance n speaker dentcaton. Although the cepstrum coecents on the Mel requency scale are commonly used as eature vectors, t s demonstrated n ths paper that lnear and ERB requency scales provde better results compared to the Mel scale. In the paper, ERB, Bark and lnear scales are compared wth Mel scale on the TIMIT and NTIMIT databases. On the TIMIT database, an dentcaton rate o 100% s obtaned wth the lnear requency scale when the lter-bank s placed n 0-8 KHz range, and a rate o 98.81% s obtaned wth the ERB scale usng 0-4 KHz lter-bank requency range. On the NIMIT database, 73.51% dentcaton rate s acheved wth lnear scale, resultng n 2.97% mprovement over that o the Mel scale. Keywords: Flter requency scale, speaker dentcaton, Gaussan mxture model, TIMIT/NTIMIT databases. FİLTRE FREKANS ÖLÇEĞİ DEĞİŞİMLERİNİN KONUŞMACI TANIMAYA ETKİSİ ÖZET Kşler brbrnden ayırt edc özellkler taşıyan özntelk vektörlernn elde edlmes, konuşmacı tanımanın en öneml kısmıdır. Özntelk vektörü olarak her ne kadar Mel rekans ölçeğndek kepstrum katsayıları yaygın olarak kullanılsa da, bu makalede görüleceğ üzere doğrusal ve ERB rekans ölçekler kullanılarak Mel ölçeğe kıyasla daha y sonuçlar elde edlmştr. Bu makalede, TIMIT ve NTIMIT vertabanları çn, Mel ölçeğ le ERB, Bark ve doğrusal ölçek karşılaştırılmıştır. TIMIT vertabanında süzgeç dzlernn yerleştrldğ rekans bandı 0-8 çn doğrusal ölçekle %100, 0-4 rekans bandı çn ERB ölçekle %98.81 konuşmacı tanıma oranı elde edlmştr. NTIMIT vertabanında doğrusal ölçekle %73.51 konuşmacı tanıma oranı elde edlp Mel ölçeğe kıyasla %2.97 tanıma artışı sağlanmıştır. Anahtar Sözcükler: Süzgeç rekans ölçekler, konuşmacı tanıma, gauss karışım model, TIMIT/NTIMIT vertabanı. 1. GİRİŞ Konuşmacı tanıma sstemlernn tasarımında en öneml noktalardan br, kşye at konuşma karakterstklern temsl eden özntelk vektörlernn seçmdr. Parametre olarak uygun özntelklern seçm tanıma oranını doğrudan etkler. Konuşmacı tanıma sstemler çn şmdye * Correspondng Author/Sorumlu Yazar: e-mal/e-let: oeskdere@uludag.edu.tr, tel: (224) 294 23 68 197

Ö. Eskdere, F. Ertaş Sgma 27, 197-207, 2009 kadar yapılan çalışmalarda, Mel rekansı kepstrum katsayıları (MFCC) en çok kullanılan özntelk olmuştur. Bunun sebeb de MFCC parametrelernn dğer özntelk vektörü oluşturma yöntemlerne oranla daha y tanıma perormansı sağlamasıdır [1]. İnsan algılama yapısı üzernde yapılan pskozyolojk ölçümler le çeştl rekans ölçekler elde edlmştr. Bu rekans ölçekler nsanın kulağının algılamada ayırt edc olduğu rekansları göstermektedr [2]. Özntelk vektörler oluşturulurken rekans ölçekler le kullanılan süzgeçlern yer ve bant genşlkler ayarlanmaktadır. Süzgeç seçm yapılırken kşye at konuşma özellklernn, en y bçmde br vektör le ade edlmes amaçlanır. Kullanılan bu süzgeçlern konumu konuşmacı tanıma perormansını doğrudan etklemektedr [3, 4]. Süzgeçlern konumu değşk rekans ölçekler le belrlenmektedr. Bu makalede Mel, Bark, ERB ve doğrusal rekans ölçekler, mkroon (TIMIT) ve teleon (NTIMIT) ortamlarından toplanan ses örnekler çn karşılaştırılmaktadır. Frekans ölçekler karışım bleşen sayısı, örnekleme hızının düşürülmes, süzgeçlern 0-4 aralığına sınırlandırılması ve kepstrum katsayı sayısı parametrelerne bağlı olarak ncelenmektedr. Bu parametre değşmlerne bağlı olarak en deal rekans ölçeğ bulunmaktadır. Bant genşlğ y ayarlanmış doğrusal rekans ölçeğnn, kşnn ayırt edc ses özellklern dğer rekans ölçeklerne göre daha y bulduğu gösterlmektedr. 2. ÖZNİTELİK VEKTÖRÜ OLUŞTURULMASI Her ne kadar konuşmacı tanımada konuşma özellklernn ayırt edclğ pek azla dkkate alınmasa da, konuşma spektrumunun konuşmacı tanımada etkl olduğu gözlenmştr. Bu durum spektrumun kşnn ses yolu yapısını yansıtıp dğer kşlern seslerne nazaran etkn zyolojk br ayırt edc aktör olması le açıklanmaktadır [5]. Konuşmacılara at ses örnekler, ses değşmlerne karşı sabt kabul edleblecek parçalara ayrılır. Genellkle 20 40 msn arasında değşen bu konuşma parçaları pencere onksyonlarından br le çarpılır ve konuşma parçasının orta kısmı vurgulanır. Elde edlen bu kısa sürel konuşma parçasının genlk spektrumu alınıp ön vurgulama uygulanır. Spektrum, sesn kısa sürel çerçeveler arası değşmne duyarlıdır. Spektrumu alınan şaret Şekl 1 de görülen rekans ölçeklernden brne göre düzenlenmş üçgen süzgeç dzlernden geçrlp elde edlen şaretn logartması alınır. En son olarak şarete ayrık kosnüs dönüşümü uygulanarak kepstrum katsayıları olarak blnen özntelk vektörler elde edlr. Elde edlen bu özntelkler konuşmacıların eğtm ve testnde kullanılır. Üçgen süzgeç dzler şu şeklde oluşturulmaktadır. Süzgeç sayısı FS, seçlen şaret bant genşlğ [0, s /2] Hz ve s örnekleme rekansı olarak tanımlanır. Üçgen süzgeç dzlernden br l olsun, l є [1, FS], bu süzgecn merkez rekansı cl olup alt ve üst bant geçren rekansları se; cl-1 ve cl+1 olarak ade edlr. Buna bağlı olarak co =0 ve cl < s /2 l olarak ade edlr. Buna bağlı olarak süzgeç dzler denklem 1 dek gb ade edlr. k (( ) s cl 1)/( N F l[ k] = k cl+ 1 ( ) s)/( N cl cl+ 1 ) cl 1 ) cl L C l l k C k U cl cl+ 1 cl 1 Burada Cl = N, U1 = N ve Ll = N olup l nc süzgecn s s s merkez, üst ve alt rekanslarıdır [6]. Süzgeçlern yerleştrldğ rekans ölçekler se aşağıdak gbdr. l l (1) 198

The Eects o Flter Frequency Scale Varablty Sgma 27, 197-207, 2009 Konuşma dalga ormu Genlk Spektrumu Bark Ölçek Mel Ölçek Doğrusal Ölçek ERB Ölçek log( ) Ayrık Kosnüs Dönüşümü k 1,,k 20 Şekl 1. Özntelk vektörü oluşturma blok dyagramı 2.1. Mel Ölçek Kulak taraından algılanan rekansları ade eden Mel değerler Steven ve Volkman [2], taraından tespt edlmştr [7]. Bu Mel değerler O Shaughnessy [8], Fant [9] ve Slaney [10] taraından tanımlanan Mel ölçekler le yaygın olarak ade edlmektedr. Denklem 2, Hz den Mel ölçeğe dönüşüm çn kullanılan adedr. Mel ( ) = a log(1 + ) (2) b Burada, Hz olarak rekansı göstermekte olup Mel ( ) se mel ölçekte rekansı göstermektedr. O Shaughnessy [8], a=2595 ve b=700, Fant [9], a=1000/log2 ve b=1000 olarak tanımlamaktadır. Slaney [10], 1000 Hz altı 66.6 Hz bant genşlğnde doğrusal, 1000 Hz üstü logartmk olarak tanımlamaktadır. Şekl 2 de Slaney [10] taraından tanımlanan Mel ölçekte dzlmş üçgen süzgeç dzler görülmektedr. 199

Ö. Eskdere, F. Ertaş Sgma 27, 197-207, 2009 2.2. Bark Ölçek Şekl 2. Mel ölçekte dzlmş süzgeç dzler Mel ölçek dışında br başka süzgeç dzs oluşturma yöntem de Bark ölçek süzgeçler kullanmaktır. Ses rekansından belrl br rekans aralığına br eşleştrme yöntem olan Bark ölçeğ denklem 3 dek ormülle açıklanablr [11]. 2 0.76 Bark ( ) = 13arctan + 3.5arctan (3) 2 1000 7500 Buradak rekans ölçeğnn brm krtk bant genşlğ oranı ya da bark olarak adlandırılır. Yukarıda belrtlen bark ölçeğ ormülleryle süzgeç oluşturmak çn krtk bant genşlklernn belrlenmes gerekr. Krtk bant genşlkler denklem 4 dek gb belrlenr. BWkrtk=25+75[1+14(/1000) 2 0.69 ] 2.3. ERB Ölçek Br süzgeç çn Eşdeğer dörtgensel bant genşlğ (ERB), o süzgecn geçrdğ toplam beyaz gürültü gücüne eşt güçte gürültü geçren deal dörtgensel br süzgecn bant genşlğ olarak tanımlanmaktadır. Moore ve Glasberg [12], deneysel ölçümlerle nsan ştsel süzgeçlernn ERB s le süzgeçlern merkez rekansları arasındak bağıntıyı denklem 5 dek gb tanımlamaktadır. ERB ( ) = 0.108 + 24.7 (5) Bu denklemde n brm Hz dr. Aynı şeklde şaret bant genşlğ boyunca stenlen sayıda süzgeç ERB ölçeğnde eşt aralıklı olarak yerleştrlr [13]. ERB ölçeğne göre ayarlanan. süzgeç dzsnn merkez rekansı ades denklem 6 dak gbdr. c = ( E mbw) + exp(( ( log( s / 2+ E mbw) + log( lr + E mbw))/ nc) ( s / 2+ E mbw) (6) (4) 200

The Eects o Flter Frequency Scale Varablty Sgma 27, 197-207, 2009 Burada c merkez rekansı, E asmptotk süzgeç kalte aktörü, mbw mnmum bant genşlğ, lr en düşük rekans ve nc süzgeç sayısıdır. Moore ve Glasberg [14], asmptotk süzgeç kalte aktörünü, 9.26449 ve mnmum bant genşlğn, 24.7 olarak tanımlamaktadır [10]. 2.4. Doğrusal Ölçek Doğrusal rekans ölçeğ le tüm rekans bölgesnn konuşmacının algılanmasında eşt etkye sahp olduğu varsayılıp buna göre süzgeçlern merkez rekansları eşt aralıklarla ve sabt bant genşlğ le konuşmacı rekans bandına yerleştrlr. TIMIT vertabanı çn 0-8000 Hz, NTIMIT vertabanı çn 300-3400 Hz rekans aralığına, 66,6 Hz bant genşlğnde üçgen süzgeçler, % 50 örtüşme uygulanarak düzgün aralıklarla yerleştrlmektedr. Şekl 3 de 0-8000 Hz aralığında maksmum değerne normalze edlmş Mel, doğrusal, Bark, ERB ölçekler görülmektedr. 3. GAUSS KARIŞIM MODELİ Elde edlen özntelk vektörler Gauss karışım model kullanılarak modellenmektedr. Gauss karışım model, M adet Gauss yoğunluğun ağırlıklı toplamı olarak denklem 7 dek gb gösterlmektedr [5]. p M ( x ) = / λ p b ( x) (7) = 1 Burada x, D boyutlu rastsal vektörü; b (x), =1,2,3...M, Gauss yoğunluk bleşenlern ve p de karışım ağırlığını göstermektedr. Gauss karışım modelnde her bleşenn ortalama vektörü, ortak değşnt matrs ve karışım ağırlık değerler le denklem 8 dek gb gösterlr. { p } λ =, µ =1,2...,M (8) M 1 Burada = p = 1 olup µ ortalama vektör ve ortak değşnt matrsn ade etmektedr. Gauss karışım modelndek bleşenlere at parametrelern tahmn çn maksmum benzerlk tahmn yöntem kullanılır. Bu yöntemde amaç eğtm verlernden p(x/λ) yı en büyük yapacak model parametrelern bulmaktır. T adet vektörden oluşan eğtm dzs X le gösterlsn: X={ x 1, x 2,... x T }. Bu X dzs çn Gauss karışım olasılığı denklem 9 dak gb yazılablr. T p(x/λ)= p( ) t = 1 x t / λ (9) Bu ade, λ parametrelernn doğrusal olmayan br şlevdr ve drekt olarak en büyük yapılması mümkün değldr. Beklentnn maksmumlaştırılması (BM) algortması kullanılarak λ parametrelerne göre denklem 9 en büyük yapılır [6]. 201

Ö. Eskdere, F. Ertaş Sgma 27, 197-207, 2009 Şekl 3. Normalze edlmş ERB, Mel, Bark, ve doğrusal rekans ölçekler 4. DENEYSEL ÇALIŞMA Yapılan deneylerde TIMIT ve NTIMIT vertabanlarına at ses örnekler kullanılmaktadır. TIMIT ver tabanı toplam 630 kşnn her brnn söyledğ 10 ar adet cümleden oluşmaktadır. Konuşma şaret 16 örnekleme rekansı le kaydedlmştr. NTIMIT vertabanı, TIMIT vertabanındak cümlelern karbondan yapılma teleon ahzes üzernden br yerel veya uzun mesae merkez ose letlmş ve aynı hat üzernden tekrar kayıt çn ger alınmış haldr. Deneylerde TIMIT vertabanının tamamı ve her k vertabanın 168 konuşmacıdan oluşan test dzn kullanılmaktadır. Konuşmacılar 32 adet Gauss karışımı le modellenmektedr. BM algortması model başlangıç değer, k-ortalama algortması le kestrlp, mnmum değşnt sınırı 0.01 alınmaktadır. Model 15 özynelemede stenen değere yakınsamaktadır. Konuşmalar test edlrken test sözcüklerne at değerler, haızadak her br konuşmacı modele uygulanır ve maksmum olasılıklı modele at kşye eşleştrlr. Eğtm çn yaklaşık toplam 24 sanye uzunluğunda (2 sa, 3 s ve 3 sx) cümleler, test çn se kalan 3 sanye uzunluğunda yaklaşık 1 cümle kullanılmıştır. TIMIT vertabanındak her br konuşmacının analznde; konuşmalar 10 msn örtüşme le 20 msn uzunluğunda kısa sürel çerçevelere ayrılıp Hammng pencereden geçrlr. Elde edlen şaretn genlk spektrumu alınıp ayarlanan rekans ölçeklerne bağlı olarak elde edlen süzgeç dzlernden geçrlr. Üçgen süzgeç dzler kullanılacak olan Mel, Bark, ERB ve doğrusal ölçeğe bağlı olarak yerleştrlr. Süzgeç çıkışlarının log enerjler alınıp ayrık kosnüs dönüşümü uygulandıktan sonra özntelk vektörler elde edlmektedr. 0. özntelk vektörü ortalama enerjy gösterdğnden alınmamaktadır. Konuşmanın her br çerçeves 24 kepstrum katsayısı le ade edlr. Bu şartlarda aşağıdak deneyler yapılmaktadır. 1. İk değşk konuşmacı grubu çn rekans ölçekler değşmne göre doğru konuşmacı tanıma oranları ncelenecektr. Konuşmacı grupları, 168 kşden oluşan test dzn ve 630 kşden oluşan TIMIT vertabanının tamamıdır. Çzelge 1 de bu k konuşmacı grubu çn Bölüm 2 de tanımlanan rekans ölçeklernde süzgeçlern yerleştrlmes le elde edlen konuşmacı tanıma oranları görülmektedr. 202

The Eects o Flter Frequency Scale Varablty Sgma 27, 197-207, 2009 Çzelge 1. Değşk süzgeç ölçekler çn konuşmacı tanıma oranları (%) Konuşmacı sayısı Ölçek çeşd Doğrusal Mel Bark ERB 168 100 99.4 98.81 100 630 100 99.4 99.68 99.68 Süzgeç aralığı 0-8, kepstrum katsayı sayısı 24, örnekleme rekansı 16, karışım bleşen sayısı 32, TIMIT vertabanı Çzelge 1 den görüleceğ üzere konuşmacı sayısı 168 kş çn doğrusal ve ERB rekans ölçekler kullanılarak %100 lük konuşmacı tanıma oranı elde edlmektedr. Vertabanının tamamı le yapılan deneyde doğrusal rekans ölçeğ le test edlen konuşmacı grubu çn %100, Mel ölçeğ çn %99.4 tanıma oranı elde edlmektedr. 2. TIMIT vertabanında 168 konuşmacı çn, karışım bleşen sayısı değşmne bağlı olarak, rekans ölçeklernn değşmnn tanıma üzerne etks ncelenecektr. Konuşmacıların ses örneklernn örnekleme hızı 16 den 8 e düşürüldüğünde Çzelge 2 dek sonuçlar elde edlmektedr. Çzelge 2. Karışım bleşen sayısına bağlı olarak değşk rekans ölçekler çn tanıma oranları (%) Karışım bleşen sayısı Doğrusal Mel Bark ERB M=16 94.64 91.37 92.56 88.39 M=32 97.92 94.94 97.02 94.94 M=64 97.62 95.83 94.94 95.24 Süzgeç aralığı 0-8, kepstrum katsayı sayısı 24, örnekleme rekansı 8, TIMIT vertabanı Çzelge 2 den görüleceğ üzere değşk karışım bleşen sayıları çn en yüksek tanıma oranı doğrusal rekans ölçeğnde elde edlmektedr. Doğrusal rekans ölçeğ dğer rekans ölçeklerne nazaran daha gürbüz davranmaktadır. 3. TIMIT vertabanı çn ltre dzlerne bant sınırlama uygulanması durumunda tanıma oranı değşm gözlenecektr. Süzgeç dzler, 0-4 rekans aralığında hazırlanıp ses şaretne ön vurgulama uygulanmasına bağlı olarak konuşmacı tanıma perormansı ölçülecektr. Örnekleme rekansı 16 çn elde edlen sonuçlar Çzelge 3 de görülmektedr. Çzelge 3. Süzgeç aralığı 0-4 çn değşk rekans ölçekler çn tanıma oranları (%) Doğrusal Mel Bark ERB Ön vurgulamasız 97.92 95.24 92.86 98.81 Ön vurgulamalı 96.43 96.73 95.54 96.73 Süzgeç aralığı 0-4, kepstrum katsayı sayısı 20, örnekleme rekansı 16, Konuşmacı sayısı 168, TIMIT vertabanı Çzelge 3 den görüleceğ üzere süzgeçler 0-4 aralığında yerleştrldğnde Mel ölçeğnde en yüksek sonuç ön vurgulamalı % 96.73, ERB ölçeğ kullanılması durumunda ön vurgulamasız % 98.81 konuşmacı tanıma oranı elde edlmektedr. TIMIT vertabanında bant sınırlaması uygulanması durumunda ERB ölçek, Mel ölçeğe nazaran % 2.08 daha y tanıma sağlamaktadır. 203

Ö. Eskdere, F. Ertaş Sgma 27, 197-207, 2009 4. TIMIT vertabanında üçgen süzgeç dzler bant sınırlamalı (0-4 ) ve bant sınırlamasız (0-8 ) rekans aralığında yerleştrlmektedr. Doğrusal, ERB, Mel, Bark rekans ölçekler çn kepstrum katsayıları 9, 12, 15, 18, 20, 22 ve 24 olması durumunda elde edlen konuşmacı tanıma oranları Çzelge 4 dek gbdr. Çzelge 4. Dört değşk rekans ölçeğ çn konuşmacı tanıma oranları (%) Kepstrum Doğrusal ölçek Mel ölçek Bark ölçek ERB ölçek katsayıları 0-8 0-4 0-8 0-4 0-8 0-4 0-8 0-4 k1-k9 98.21 92.86 94.94 90.48 91.07 90.48 93.15 96.72 k1-k12 100 94.64 98.21 92.56 96.72 94.94 98.21 98.81 k1-k15 100 95.24 98.81 93.45 99.4 93.15 99.4 97.02 k1-k18 100 97.92 99.4 97.32 98.81 96.43 100 97.32 k1-k20 100 97.92 99.4 96.73 98.81 95.54 100 98.81 k1-k22 100 92.86 99.4 95.54 98.81 94.64 100 95.24 k1-k24 100 91.96 99.4 96.13 98.81 88.10 100 95.83 Örnekleme rekansı 16, karışım bleşen sayısı 32, TIMIT vertabanı Mel, Bark ölçek ön vurgulamalı, Doğrusal ve ERB ölçek ön vurgulamasız, konuşmacı sayısı 168 Çzelge 4 den görüleceğ üzere süzgeç aralığı 0-8 çn en yüksek tanıma doğrusal ve ERB ölçeklernde, süzgeç aralığı 0-4 çn en yüksek tanıma oranı ERB ölçeğnde gözlenmektedr. Frekans ölçeklernn kepstrum katsayılarına bağlı olarak değşm Şekl 4 de daha ayrıntılı görülmektedr. Süzgeçlern yerleştrldğ bant aralığı 0-8 çn, doğrusal ve ERB ölçekler kepstrum katsayısı 18 ve üzer olması durumunda % 100 lük konuşmacı tanıma elde edlmektedr. Bant aralığı 0-4 çn doğrusal, Mel, Bark, ERB rekans ölçeklernde değşk kepstrum katsayıları çn konuşmacı tanıma oranları Şekl 5 de görülmektedr. Süzgeçlern yerleştrldğ bant aralığı 0-4 çn ERB ölçeğnde kepstrum katsayılarının 12 ve 20 olduğu durumlarda en yüksek (% 98.81) konuşmacı tanıma oranı elde edlmştr. Şekl 4. Değşk rekans ölçeklernn kepstrum katsayıları değşmlerne bağlı olarak karşılaştırılması (0-8 ) 204

The Eects o Flter Frequency Scale Varablty Sgma 27, 197-207, 2009 Şekl 5. Değşk rekans ölçeklernn kepstrum katsayı değşmlerne bağlı olarak karşılaştırılması (0-4 ) 5. Doğrusal, Mel, Bark ve ERB rekans ölçeklernn NTIMIT vertabanında karşılaştırılması yapılacaktır. Konuşma şaret 25 msn uzunluğunda çerçeveler ayrılıp 10 msn örtüşme uygulanmaktadır. İşaretn genlk spektrumu çn 512 nokta ayrık Fourer dönüşümü uygulanır. Üçgen süzgeç dzs 300-3400 Hz rekans aralığında, 4 değşk rekans ölçeğne bağlı olarak yerleştrlmştr. Süzgeçten geçrlen şaretn logartması alınıp ayrık kosnüs dönüşümü uygulanmaktadır. Her br çerçeve çn 20 kepstrum katsayısı kullanılıp, konuşma şaretne ön vurgulama uygulanmayıp, Gauss karışım bleşen sayısı 32 alınmaktadır. Her br konuşmacı sekz cümle kullanılarak eğtlmekte, 1 cümle kullanılarak test edlmektedr. Çzelge 5 de NTIMIT vertabanı çn değşk rekans ölçeklernde konuşmacı tanıma oranları görülmektedr. Çzelge 5. Değşk rekans ölçekler çn konuşmacı tanıma oranları (%) Konuşmacı sayısı Ölçek çeşd Doğrusal Mel Bark ERB 168 70.24 69.05 58.33 68.45 Kepstrum katsayı sayısı 20, ön vurgulama yok, NTIMIT vertabanı Çzelge 5 den görüleceğ üzere doğrusal rekans ölçeğ le % 70.24 konuşmacı tanıma oranı elde edlmştr. Mel ölçeğ kullanıldığında konuşmacı tanıma oranı % 69.05 olmaktadır. 6. NTIMIT vertabanı çn konuşmadan sessz kısımların atılması durumunda üçgen süzgeç dzlernn yerleştrldğ rekans ölçeğ değşmnn konuşmacı tanımaya etks ncelenecektr. TIMIT vertabanında konuşmadan sessz kısımların atılması tanıma oranını değştrmemektedr. Konuşmada sesl sessz ayırımında Alaa ve dğ. [15], taraından belrtlen eşk değer kullanılmaktadır. Konuşmadak eşk değernn altındak sessz çerçevelere karşılık gelen kısımlar atılmakta ve buna bağlı olarak özntelk vektörler 205

Ö. Eskdere, F. Ertaş Sgma 27, 197-207, 2009 üretlmektedr. Konuşmacıların özntelk vektörler üretlrken doğrusal, Mel, Bark ve ERB ölçekte süzgeçler 300-3400 Hz arasına yerleştrlr. Her br çerçeveye karşılık 20 adet kepstrum katsayısı elde edlr. Bu katsayılar 168 kşnn eğtm ve test çn kullanılır. Eğtm çn 8 cümle, test çn 1 cümle kullanılmaktadır. Bu durumda elde edlen tanıma oranları Çzelge 6 da görülmektedr. Çzelge 6. Konuşmadan sessz kısımların atılmasına bağlı olarak dört değşk rekans ölçeğ çn konuşmacı tanıma oranları (%) Konuşmacı sayısı Doğrusal Mel Bark ERB 168 73.51 70.54 60.42 69.94 Kepstrum katsayı sayısı 20, ön vurgulama yok, NTIMIT vertabanı Çzelge 6 dan görüleceğ üzere konuşmadan sessz kısımlar atıldığında, doğrusal ölçek çn konuşmacı tanıma oranı 70.24 ten % 73.51 e çıkmaktadır. Mel ölçek çn tanıma oranı % 69.05 den % 70.54 e çıkmaktadır. Dört rekans ölçeğ çnde en y tanıma oranı doğrusal ölçek le elde edlmektedr. 5. SONUÇLAR Bu çalışmada özntelk vektörü elde edlmesnde kullanılan süzgeçlern yerleştrldğ rekans ölçekler, metnden bağımsız Gauss karışım model kullanılarak, konuşmacı tanıma oranları karşılaştırılmıştır. Blnenn aksne bant genşlğ y ayarlanmış doğrusal rekans ölçeğ kşnn ayırt edc ses özellklern Mel rekans ölçeğnden daha y yakalamaktadır. TIMIT vertabanı le rekans bandı 0-8 çn doğrusal ölçek le % 100 tanıma oranı elde edlmştr. TIMIT vertabanındak konuşmalara 0-4 bant sınırlaması uygulandığında, ERB rekans ölçeğnn konuşmacı tanımada en y perormansı gösterdğ görülmektedr. Reynolds ve dğ. [16], Mel ölçeğn kullanarak bant sınırlamalı durumda % 95.2 tanıma oranı elde etmştr. Yaptığımız deneylerde bant sınırlamalı durumda ERB ölçek le % 98.81 tanıma oranı elde edlp, Mel ölçeğe nazaran tanıma oranında % 3.61 yleşme sağlanmıştır. Bant sınırlamalı durumda rekans ölçekler tanıma oranlarına bağlı olarak ERB, doğrusal, Mel ve Bark şeklnde sıralanmaktadır. NTIMIT vertabanında konuşmalar teleon hattından elde edldğnden dolayı, TIMIT vertabanına nazaran tanıma oranı % 26.49 daha düşük olup en yüksek tanıma oranı doğrusal ölçekte % 73.51 olarak elde edlmştr. Bu sonuç Mel ölçeğe kıyasla % 2.97 tanıma artışı sağlamaktadır. NTIMIT vertabanı çn tanıma oranına göre süzgeç dzlernn yerleştrldğ rekans ölçekler; doğrusal, Mel, ERB ve Bark olarak sıralanmaktadır. REFERENCES / KAYNAKLAR [1] Lu, L., J. He and Palm G., Sgnal Modelng or Speaker Identcton. Proc. Int. Conerence on Acoustcs, Speech, and Sgnal Processng (ICASSP-96), Vol. 2, 1996, pp. 665-668. [2] Stevens, S. and J. Volkman, The Relaton o Ptch to Frequency. Amercan Journal o Psychology, vol. 53, p. 329, 1940. [3] Knnunen, T. Spectral Features or Automatc Text-ndependent Speaker Recognton, Ph.Lc. thess, Unversty o Joensuu, Department o Computer Scence p. 49-115, 2003. [4] Ganchev, T. Speaker Recognton, Ph.D. thess, Dept. o Electrcal and Computer Engneerng, Unversty o Patras, Greece. p. 61-82. 2005. 206

The Eects o Flter Frequency Scale Varablty Sgma 27, 197-207, 2009 [5] Reynolds D. A., and Rose, R. C., Robust Text-Independent Speaker Identcaton Usng Gaussan Mxture Speaker Models, IEEE Trans. Speech Audo Proc., 3, (1), pp. 72 83, 1995. [6] Reynolds, D. A., A Gaussan Mxture Modelng Approach to Text Independent Speaker Identcaton, Ph.D. Thess, Georga Insttute o Technology, 1992. [7] Umesh, S., L. Cohen and Nelson D., Fttng the Mel Scale. Proc. Int. Conerence on Acoustcs, Speech, and Sgnal Processng (ICASSP-99), Vol. 1, 1999, pp. 217 220. [8] O Shaughnessy, D., Speech Communcaton Human and Machne. Addson Wesley, New York, 1987. [9] Fant, G., Acoustc Theory o Speech Producton. Mouton & Co., The Hauge, 1960. [10] Slaney, M., An Ecent Implementaton o the Patterson-Holdsworth Audtory Flter Bank, Tech. Rep. 35, Apple Computer, Inc., 1993. [11] Pcone, J., Fundamentals o Speech Recognton: a Short Course. Insttute or Sgnal and Inormaton Processng, pp. 68-69, 1996. [12] Moore, B. C. J. and B. Glasberg R., Suggested Formula or Calculatng Audtory Flter Bandwdths and Excataton Patterns, J. Acoust. Soc. Am., 74, p. 750-753, 1983. [13] Ertaş, F., Ses İşaretlerne Karşı Baslar Membran Hareketnn Yazılım Benzetm, S.D.Ü. Fen Blmler Dergs 6:1, s. 86-93, 2002. [14] Glasberg, B. R. and Moore B. C. J., Dervaton o Audtory Flter Shapes From Notched-Nose Data, Hearng Research, vol. 47, pp. 103 108, 1990. [15] Alaa, A. Y., Ebada A. S. and El Behady W. H., Development o Automatc Speaker st Identcaton System, 21 Natonal Rado Scence Con., 2004. [16] Reynolds D. A., Zssman M. A., Quater T. F., et. al., The Eects o Telephone Transmsson Degradatons on Speaker Recognton Perormance, ICASSP (Detrot), May 9-12, 1995, 329-331. 207