TEZ ONAYI Suikum Karasartova tarafından hazırlanan Metinden Bağımsız Konuşmacı Tanıma Sistemlerinin İncelenmesi ve Gerçekleştirilmesi adlı tez çalışma

ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ YÜKSEK LİSANS TEZİ METİNDEN BAĞIMSIZ KONUŞMACI TANIMA SİSTEMLERİNİN İNCELENMESİ VE GERÇEKLEŞTİRİLMESİ Suikum KARASARTOVA ELEKTRONİK MÜHENDİSLİĞİ ANABİLİM DALI ANKARA 2011 Her hakkı saklıdır

TEZ ONAYI Suikum Karasartova tarafından hazırlanan Metinden Bağımsız Konuşmacı Tanıma Sistemlerinin İncelenmesi ve Gerçekleştirilmesi adlı tez çalışması 30/09/2011 tarihinde aşağıdaki jüri tarafından oy birliği ile Ankara Üniversitesi Fen Bilimleri Enstitüsü Elektronik Mühendisliği Anabilim Dalın da YÜKSEK LİSANS TEZİ olarak kabul edilmiştir. Danışman :Prof. Dr. H. Gökhan İLK Ankara Üniversitesi Elektronik Mühendisliği Anabilim Dalı Jüri Üyeleri: Başkan : Doç. Dr. Fatih Çelebi Ankara Üniversitesi Bilgisayar Mühendisliği Anabilim Dalı Üye : Prof. Dr. H. Gökhan İLK Ankara Üniversitesi Elektronik Mühendisliği Anabilim Dalı Üye : Doç. Dr. Ziya TELATAR Ankara Üniversitesi Elektronik Mühendisliği Anabilim Dalı Yukarıdaki sonucu oynaylarım Prof. Dr. Özer KOLSARICI Enstitü Müdürü

ÖZET Yüksek Lisans Tezi METİNDEN BAĞIMSIZ KONUŞMACI TANIMA SİSTEMLERİNİN İNCELENMESİ VE GERÇEKLEŞTİRİLMESİ Suikum KARASARTOVA Ankara Üniversitesi Fen Bilimleri Enstitüsü Elektronik Mühendisliği Anabilim Dalı Danışman: Prof. Dr. H. Gökhan İLK Bu tez çalışmasında, Vektör Nicemleme (VQ) ve Gauss Karışım Modeli (GMM) tabanlı kapalı set, metinden bağımsız konuşmacı tanıma uygulamaları geliştirilmiştir. ELSRSD veri tabanından faydalanarak, her bir konuşmacıya ait konuşma sinyalleri için MFCC, MFCC, LPCC kepstral katsayıları çıkarılarak öznitelik vektörler kümesi oluşturulmuştur. Bu vektörler LBG ve Beklentinin Maksimumlaştırılması (BM) algoritmalarıyla modellenmiştir. Eğitim ve test aşamalarında öznitelik katsayılarının sayısı, eğitim ve test süreleri, kod vektör boyutu ve karışım bileşen sayıları değiştirerek, konuşmacı tanıma performansına olan etkileri incelenip optimum değerleri belirlenmiştir. Similasyonlar sonucunda VQ sınıflandırıcı, 12 MFCC öznitelik, eğitim süresi 14.1-23.8 saniye arasında değişen veri seti kullandığında, test süresi 3 saniye olarak alındığında 20 konuşmacı için başarım % e çıkarılabilmiştir. Eylül 2011, 41 sayfa Anahtar Kelimeler: Vektör Nicemleme, Gauss Karışım Modeli, öznitelik çıkarma i

ABSTRACT Master Thesis INVESTIGATION AND IMPLEMENTATION OF TEXT-INDEPENDENT SPEAKER IDENTIFICATION SISTEMS Suikum KARASARTOVA Ankara University Graduate School of Natural and Applied Sciences Department of Electronic Engineering Supervisor: Prof. Dr. H. Gokhan ILK In this thesis, Vector Quantization and Gaussian Mixture Model based text-independent speaker applications have been designed for a closed set of speakers Using speech signals obtained from ELSRSD data base, feature vectors MFCC, MFCC and LPCC for every speaker has been extracted. Then these feature vectors have been classified using LBG and Expectation Maximization algorithms. During training and testing processes influences of number of cepstral features, duration of train and test data, size of code vectors and number of Gaussian mixtures on systems' performance have been explored. As a result optimum values of the system have been determined. After simulations, using Vector Quantization model and MFCC as feature vectors, 14.1-23.8 seconds of training data and 3 seconds of testing data system performance can be reached % for a closed set of 20 speakers. September 2011, 41 pages Key Words: Vector Quantization, Gaussian Mixture Model, feature extraction ii

İÇİNDEKİLER ÖZET i ABSTRACT ii KISALTMALAR DİZİNİ... v ŞEKİLLER DİZİNİ vi ÇİZELGELER DİZİNİ...vii 1. GİRİŞ...1 2. KURAMSAL TEMELLER 3 2.1 Sesin Oluşumu ve Özellikleri....3 2.2 Konuşmacı Tanıma Sistemlerinin Hiyerarşik Yapısı 4 2.3 Konuşmacı Tanıma Sistemlerinin Genel Yapısı.5 2.3.1 Öznitelik vektörleri 6 2.3.1.1 Mel-frekans kepstral katsayıları 8 2.3.1.1.1 Çerçeveleme...8 2.3.1.1.2 Pencereleme..8 2.3.1.1.3 FFT-spektrum..9 2.3.1.1.4 Mel-frekansına çevirme..9 2.3.1.1.5 Kepstrum katsayıları.10 2.3.1.2 Doğrusal öngörü kepstral katsayıları 12 2.3.1.2.1 Doğrusal öngörüm katsayıları..12 2.3.1.2.2 LPC yönteminin aşamaları 12 2.3.1.2.3 LPCC yöntemindeki aşamaları...13 2.3.1.3 Delta katsayıları 15 2.3.2 Konuşmacı sınıflandırma yöntemleri 15 2.3.2.1 Vektör nicemleme yöntemi (VQ).16 2.3.2.1.1 Linde, Buzo ve Grey algoritması..17 2.3.2.2 Gauss Karışım Modeli (GMM)...19 2.3.2.2.1 Beklenti maksimizasyon algoritması 22 3. MATERYAL ve YÖNTEM.24 3.1 Öznitelik Vektörlerinin Elde Edilmesi. 24 3.2 Konuşmacı Sınıflandırıcıların Parametreleri..26 iii

4. ARAŞTIRMA BULGULARI..29 4.1 Başarı Oranını Etkileyen Parametreler...29 4.1.1 Eğitim ve test sürelerinin değişimi.....29 4.1.2 Kepstrum katsayı değişimlerinin etkisi. 33 4.1.3 VQ kod vektörü boyutunun etkisi......35 4.1.4 Karışım bileşen sayısının etkisi. 36 5. SONUÇ..37 KAYNAKLAR..39 ÖZGEÇMİŞ.41 iv

KISALTMALAR DİZİNİ DFT ELSRSD FFT GMM IDFT MFCC LBG LPC LPCC VQ Discrete Fourier Transform English Language Speech Database Fast Fourier Transform Gaussian Mixture Model Inverse Discrete Fourier Transform Mel Frequency Cepstral Coefficient Linde, Buzo ve Gray Linear Predictive Coefficient Linear Predictive Cepstral Coefficient Vector Quantization v

ŞEKİLLER DİZİNİ Şekil 2.1 Ses yolunun yapısı.. 3 Şekil 2.2 Konuşmacı tanıma sisteminin hiyerarşik şeması....5 Şekil 2.3 Konuşmacı tanıma sistemlerinin genel yapısı....6 Şekil 2.4 Parametrik olmayan yöntem ile öznitelik vektörlerinin elde edilmesi...7 Şekil 2.5 MFCC katsayılarının elde edilmesi....8 Şekil 2.6 Mel-frekans süzgeç öbeği.....10 Şekil 2.7 Kepstral katsayılarının elde edilişi...11 Şekil 2.8 LPC yönteminin blok diyagramı..12 Şekil 2.9 LPCC yönteminin aşamaları...14 Şekil 2.10 VQ kodkitabı formasyonunun kavramsal diyagramı. 17 Şekil 2.11 LBG algoritmasının akış diyagramı...18 Şekil 2.12 M bileşenli Gauss karışım yoğunluğunun gösterimi..19 Şekil 2.13 GMM yöntemi ile bir konuşmacının modellenmesi...20 Şekil 2.14 GMM in bir boyutlu modeli..21 Şekil 3.1 Bir çerçeveye ait LPC analizi..26 Şekil 3.2 Kod kitap oluşturmanın şematik gösterilişi.27 Şekil 3.3 VQ ile GMM yöntemlerinin kıyaslamalı şematik görünüşü...28 Şekil 4.1 Değişik test süreleri için tanıma oranı (VQ)...33 Şekil 4.2 Değişik test süreleri için tanıma oranı (GMM)...33 vi

ÇİZELGELER DİZİNİ Çizelge 4.1 Konuşmacıların eğitim verilerinin uzunluğu...30 Çizelge 4.2 Farklı eğitim uzunluklarının test sonucu. 30 Çizelge 4.3 12 MFCC katsayılı VQ için tanıma doğruluk çizelgesi..31 Çizelge 4.4 Değişik test süreleri için elde edilen tanıma oranları..32 Çizelge 4.5 12 LPCC katsayı VQ için tanıma doğruluk çizelgesi.....32 Çizelge 4.6 Kepstrum katsayı değişimlerinin konuşmacı tanımaya etkisi......33 Çizelge 4.7 20 LPCC katsayılı GMM için tanıma doğruluk çizelge.34 Çizelge 4.8 Farklı kod vektör boyutlarının test sonuçları.......35 Çizelge 4.9 12 MFCC katsayılı 32 VQ için doğruluk çizelgesi.....36 Çizelge 4.10 Karışım bileşen sayısına bağlı olarak konuşmacı tanıma oranları....36 vii

1. GİRİŞ Konuşma işareti, kelime veya konuşulan anlam hakkında bilgi taşımakla birlikte konuşanın fizyolojisi, ruh hali, yaşı, cinsiyeti, lehçesi gibi birçok bilgiyi aynı anda barındırabilen karmaşık bir işarettir. Bu bilgilerin birine veya birkaçına odaklanarak, farklı sistemler gerçekleştirebilir. Örneğin konuşma tanıma, dil tanıma, cinsiyet tanıma, konuşmacı tanıma Konuşma tanıma, söylenen sözcüğün anlamı ile ilgilenilirken konuşmacı tanıma ise sözcüğü söyleyen kişinin kimliği ile ilgilenilir. İnsanlar konuşanın kimliğini belirlemek için sözle ilgisi olmayan pek çok ipucu kullanmaktadır. Bu ipuçları pek iyi anlaşılmamakla birlikte kabaca anlam ile ilişkili olanlar yüksek seviye, konuşmanın akustik yanı ile ilişkili olanları düşük seviye ipuçları olarak gruplandırılmaktadır. Yüksek seviye ipuçları, kelime kullanımı, söyleyişteki kişisel özellik ve konuşma karakteristiği ile ilişkili olmayan konuşmacıya özel karakteristik özellikler içerir. Bu ipuçları kişinin konuşma söyleyiş biçimi dolayısıyla değişik yaşam biçimlerine bağlı olarak farklılıklar gösterir. Bu tip ipuçları öğrenilmiş davranış olarak ortaya çıkar (Reynolds 1992). Düşük seviye ipuçları kişinin sesiyle direkt ilişkili olup yumuşak, sert, kaba, açık, yavaş veya hızlı gibi nitelikler içerir. Düşük seviye ipuçları konuşmacının anatomik yapısı ile doğrudan bağlantılıdır. Konuşmacılar arasındaki anatomik farklılıklar, konuşmacıların ses sistemlerinde bulunan bileşenlerinin boyutları ve şekillerinin farklı olmasından kaynaklanır. Bu nedenle konuşma sinyalleri güvenilir ve ayırt edici bir özellik olarak kullanılmaya başlanmıştır. Sesin bu öneminden dolayı konuşmacı tanıma sistemleri de önem kazanmaktadır. Konuşmacı tanıma sistemi, genellikle güvenliğin ön planda olduğu yerlerde, kriminal laboratuarlarında, telefon ve internet üzerinden çalışan uygulamalarda kullanılmaktadır. Bu tezin amacı, konuşmacı tanımada son yıllarda en çok kullanılan Vectör Nicemleme ve Gauss Karışım Modelini, farklı öznitelik vektörleri uygulayarak sistem başarımını ve en iyi değeri veren sistemi belirtmektir. 1

Tezin bölümleri şu şekildedir: Bölüm ikide ilk olarak, bir konuşmacı tanıma sisteminin yapısı ve bileşenleri konusunda genel bilgi verilmektedir. İkinci olarak, otomatik konuşmacı tanıma sistemlerinde kullanılan öznitelik vektörü üretme yöntemleri verilmektedir. Son olarak, konuşmacı tanıma sistemlerinde kullanılan temel konuşmacı modelleme teknikleri incelenerek bu tezde kullanılan modeller kısaca tanıtılmaktadır. Üçüncü bölümde deneysel çalışmalarda oluşturulan sistemin altyapısı hakkında bilgi verilmektedir. Bölüm 4 te uygulanan yöntemlerden elde edilen tanıma oranları karşılaştırmalı olarak gösterilmektedir. Bu çalışmada elde edilen çıkarımlar bölüm 5 sonuç bölümünde verilmektedir. 2

2. KURAMSAL TEMELLER 2.1 Sesin Oluşumu ve Özellikleri Ses dalgası, ses üretim sistemini meydana getiren anatomik yapıların istemli hareketleri sonucunda oluşan akustik bir basınç dalgasıdır. Bu sistemin ana bölümleri ciğerler, nefes borusu, gırtlak, boğaz, ağız boşluğu ve burun boşluğudur. Teknik terim olarak boğaz ve ağız boşluğu ses yolu olarak tanımlanır. Dolayısıyla ses yolu, gırtlak çıkışından başlayıp, dudaklarda sona erer (Selen 1979). Burun yolu ise damaktan başlar burun deliklerinde sona erer. Ses üretimi için kritik olan anatomik yapılar, ses telleri, damak, dil, dişler ve dudaklardır. Ses yolunu oluşturan bu anatomik yapılar farklı pozisyonlar alarak değişik sesleri oluştururlar. Çene de ses yolunun şekil değişimini etkilediği için bu yapıların arasında yer alabilir. Ses yolunun temel yapısı şekil 2.1 de görülmektedir. Ses üretimi bir akustik filtreleme işlemi olarak düşünülebilir. Akustik filtre, ses üretim yollarının özelliklerini gösterir. Şekil 2.1 Ses yolunun yapısı 3

Ses, insan kulağını etkileyerek işitme duyusu oluşturan hava molekülleri titreşimleri, ya da bunların neden olduğu ufak hava basınç değişimleri gibi, ya da bu fiziksel olayın neden olduğu işitsel izlenim gibi tanımlanabilir. Ses fizyolojisi ile ilgili bazı önemli kavramlar aşağıdaki gibi açıklanmaktadır: Ses Dalgası: Sabit bir genliği ve tek bir frekansı bulunan sinüzoidal bir dalgadır. Frekans: Ses dalgaları enine ve boyuna sinüzoidal dalgalar halindedir. Birim zamanda ses dalgalarını oluşturan partiküllerin sıkışması ve gevşemesi ile oluşan tam bir dalga, sesin frekansını oluşturur. Yani saniyedeki titreşim sayısıdır. Buna temel frekans da denir. İnsan kulağı 20-20000 Hz arasındaki sesleri algılayabilir. Günlük konuşma sesleri 500-2000 Hz arasındadır. Şiddet: Sesin şiddeti, ses dalgalarının genliği ile belirlenir. Ses dalgalarının genliği arttıkça, sesin yüksekliği artar. Ses şiddeti desibel (db) cinsinden ölçülür. Kulağın algılama özelliği ile ilgili yapılan çalışmalarda ses gücünün artması ile hissedilen ses artışının doğrusal olmadığı ve logaritmik bir ses şiddeti ile duyma olduğu anlaşılmıştır. Bu nedenle algılanan ses logaritmik bir büyüklüktür. 2.2 Konuşmacı Tanıma Sistemlerinin Hiyerarşik Yapısı Konuşmacı tanıma iki ana bölüme ayrılabilir; konuşmacı doğrulama (speaker verification) ve konuşmacı saptama (speaker identification). Konuşmacı doğrulama, bilinmeyen bir ses örneğinin, iddia edilen kişiye ait olup olmadığının belirlenmesidir. Konuşmacı saptama ise bilinmeyen bir ses örneğinin, belli konuşmacıların ses kayıtlarından oluşan bir veritabanı içerisinde hangi kişiye ait olduğunun bulunmasıdır. Konuşmacı tanıma metne bağımlılık yönünden iki alt gruba ayrılır. Bunlar metne bağımlı ve metinden bağımsız konuşmacı tanımadır (Reynolds ve Rose 1995, Kinnunen 2003). Metne bağımlı sistemlerde konuşulan metin sistem tarafından önceden bilinmektedir. Metinden bağımsız sistemlerde ise, metin, herhangi bir sözdizimi olabilir. 4

Diğer taraftan; konuşmacı tanıma, açık küme ya da kapalı küme olabilir. Kapalı kümede bilinmeyen ses örneği, veritabanındaki konuşmacılardan birisine aittir. Açık kümede ise ses örneği veritabanındaki konuşmacılardan hiç birisine ait olmayabilir. Dolayısı ile açık küme konuşmacı tanıma sistemlerinde, ret sonucunu da içeren fazladan bir olasılık daha vardır. Şekil 2.2 de konuşmacı tanıma sisteminin genel hiyerarşik şeması verilmiştir. Konuşmacı Tanıma Konuşmacı Doğrulama Konuşmacı Saptama Metin Bağımsız Metin Bağımlı Kapalı - Küme Açık - Küme Metin Bağımsız Metin Bağımlı Metin Bağımsız Metin Bağımlı Şekil 2.2 Konuşmacı tanıma sisteminin hiyerarşik şeması 2.3 Konuşmacı Tanıma Sistemlerinin Genel Yapısı Konuşmacı tanıma sistemleri iki aşamadan oluşmaktadır. Birincisi eğitim, ikincisi ise test aşaması. Eğitim aşamasında tüm kullanıcılar, bir referans modeli oluşturmak için ses örnekleri verir, ikinci aşamada ise giriş sinyali referans modelleri ile karşılaştırılarak saptama yapılır (Wang 2002). Şekil 2.3 te konuşmacı tanıma sistemlerinin genel yapısı gösterilmektedir. 5

Test ses örneği Eşleştirme Karar verme Belirlenen konuşmacı Öznitelik vektörü çıkarma Eğitim ses örneği Konuşmacı modelleme Konuşmacı model veritabanı Şekil 2.3 Konuşmacı tanıma sistemlerinin genel yapısı Konuşmacı tanıma sistemi Öznitelik Vektörleri çıkarma ve Modelleme olarak iki ana kısımdan oluşur. Konuşmacı tanımada öznitelik vektörü çıkarma önemli bir yer oluşturmaktadır. Bu şekilde kişileri temsil eden sayısal vektörler oluşur. Özellik vektörleri daha sonra önceden belirlenen modeli eğitmek için kullanılır. Sistemin en sonunda karar mekanizması vardır. Karar mekanizmasının girişindeki test vektörü ve eğitilmiş model kullanılarak test örneğindeki sesin hangi konuşmacıya ait olduğu tespit edilir. 2.3.1 Öznitelik vektörleri Konuşmacı tanımanın ilk aşamasında kullanılan tekniklerin amacı sınıflandırma için öznitelik vektörleri çıkarmaktır. Amaç çok fazla olan konuşma verilerinin, konuşmacıyı tanımlayabilecek vektörlere indirgenmesi ve bir sonraki aşama olan sınıflandırma için kullanışlı veriler üretmektir. Konuşmacı tanımada kullanılacak özniteliklerin, zamanla değişmemesi, gürültüden etkilenmemesi ve diğer konuşmacılardan kolay ayrılabilir olması istenir. Öznitelik vektörü çıkarma için kullanılan yöntemler genel olarak iki gruba ayrılır. Bunlar parametrik ve parametrik olmayan yaklaşımlardır. 6

Parametrik yaklaşım: Sesli ifadenin üretiliş mekanizmasının tahmin edilmesine yönelik bir modeldir. Bir sesli ifade üretim sistemi öngörülür. Bu yöntemde giriş (kesin olarak bilinmez fakat tahmin edilir), ve çıkış (sesli ifadenin kendisi) arasında bir sesli ifade üretim fonksiyonu oluşturulur. Bu fonksiyonun parametreleri sesli ifade tanıma sisteminde öznitelik vektörü olarak kullanılır (Furui 1989). Parametrik olmayan yaklaşım: Bu yaklaşımda konuşma işareti üzerinde pencereler halinde ilerleyerek işaret üzerinde bazı dönüşümlerin uygulanması temeline dayanır (Şekil 2.4). Şekil 2.4 Parametrik olmayan yöntem ile öznitelik vektörlerin elde edilmesi Öznitelik çıkarma yöntemlerinden en sık kullanılanlar arasından örnek olarak Mel-frekans kepstral katsayıları ( Mel Frequency Cepstral Coefficient, MFCC) Doğrusal öngörü kepstral katsayıları (Linear Predictive Cepstral Coefficient, LPCC) Doğrusal algı öngörü yöntemi (Perceptual Linear Prediction, PLP) Göreceli spektra yöntemi (Relative Spectral Transform, RASTA) gibi yöntemler verilebilir. Bu özellik çıkarma yöntemleri hakkında bilgilere aşağıda değinilmiştir. 7

2.3.1.1 Mel-frekans kepstral katsayıları (MFCC) MFCC insan kulaklarının algılamasını taklit eden ve FFT (Fast Fourier Transform) tabanlı olarak hesaplanan bir sayısal teknik analizidir. Ayrıca MFCC değişimlerden, ses dalga yapısından çok daha az etkilenir. Şekil 2.5 te MFCC katsayılarının elde edilmesi algoritmasının blok diyagramı görülmektedir. Ses sinyali Çerçeveleme Pencereleme Mel Cepstrum Kepstrum Mel-frekansına çevirme FFT Şekil 2.5 MFCC katsayılarının elde edilmesi 2.3.1.1.1 Çerçeveleme Konuşma sinyallerinin karakteristikleri yeteri kadar küçük bir zaman aralığında kararlı kalmaktadır. Bu nedenle ses sinyalleri kısa zaman aralıklarında işlenmektedir (Schafer 1975). Çoğu durumda en etkili zaman aralığı 20-30 ms arasındadır (Atal 1976). Her çerçeve N tane konuşma örneğini ve önceki komşu çerçevenin belli bir M (M<N)tane örneğini içerir. Yani her çerçeve kendisinden bir önceki çerçevenin belli bir kısmını örter. Örtme yönteminin amacı bir çerçeveden diğerine geçişin yumuşak olmasını sağlamaktır. 2.3.1.1.2 Pencereleme Pencereleme, her bir çerçeve sonundaki ve başlangıcındaki süreksizliği önlemek için yapılan işlemdir. Pencereleme çeşitleri, Hamming, Hanning, Dikdörtgen, Barlett, Kaiser 8

ve Blackman pencereleri. Yaygın olarak kullanılan pencere yapısı Hamming dir. Bu pencereyi tanımlayıcı fonksiyon aşağıda verilmiştir w(n) = 0.54-0.46 cos[2πn/(n-1)], N-1 n 0 (2.1) 2.3.1.1.3 FFT Bu aşamada, N örnekli her çerçevenin zaman bölgesinden, frekans bölgesine çevrilmesi için Hızlı Fourier Dönüşümü (FFT) uygulanır. FFT, Ayrık Fourier Dönüşümü (Discrete Fourier Transform, DFT) uygulamak için hızlı bir algoritmadır. N örnekli bir set için şöyle tanımlanabilir: X n = N 1 k= 0 x k e 2πjkn / N, n= 0, 1, 2,..., N-1 (2.2) 2.3.1.1.4 Mel-frekansına çevirme Mel birimi, insan kulağının algısal özelliğini taklit edecek şekilde tasarlanmış bir birimdir. Yapılan araştırmalar göstermiştir ki, ölçüler, 1 khz e kadar doğrusal, daha yüksek değerlerde ise logaritmiktir. Mel ölçeği ile frekans ölçeği arasındaki dönüşüm aşağıda verilen eşitlikle sağlanmaktadır mel(f) = 2595 * log (1 + f / 700) (2.3) Bu algısal spektrumu uygulamanın bir yolu mel skalasında uniform olarak yerleştirilmiş bir süzgeç öbeği kullanmaktır. Bu süzgeç öbeği %50 oranında birbiri üstüne getirilen, üçgen bant geçiren ve aralıkları ve bant genişliği sabit mel frekansı aralığına bağlı bir banktır. 10 Hz den 0 Hz e kadar lineer olarak 10 filtre atanır. Frekans her iki katına çıktığında logaritmik olarak 5 filtre bu frekans aralığına atanır. Süzgeç bant genişliği 3 db noktası, mevcut dalga ile bir önceki veya bir sonraki dalganın ortasına gelecek şekilde seçilir. Genellikle 20 Süzgeç kullanılır (Şekil 2.6). 9

Şekil 2.6 Mel-frekans süzgeç öbeği 2.3.1.1.5 Kepstrum katsayıları Sesler arasındaki farkların ve benzerliklerin nedeni insan gırtlak yapısından kaynaklanmaktadır. Kepstral katsayılar sesler arasındaki fark ve benzerlikleri ortaya çıkarmada kullanılan yöntemlerden biridir. Kepstrum kavramı ilk olarak 1963 de Bogert, Healy ve Tukey tarafından kullanılmıştır. Kepstrum, homomorfik sinyal işleme teknikleri içinde yer alır. Homomorfik sistemler doğrusal olmayan sistemlerin bir sınıfı olarak kabul edilir. Doğrusal sistemler homomorfik sistemlerin özel bir durumudur. Homomorfik sistemler uyarım sinyalini, ses yolunun şeklinden ayırabilecek bir yol sunmalarından dolayı konuşma işleme için kullanışlı bulunmaktadır. Ayırma işlemi katlama olarak anılır ve aşağıdaki gibi ifade edilir. s(n) = u(n)* h(n) (2.4) 10

Burada s(n) konuşma sinyali, u(n) uyarı sinyali, yani, h(n) ses yolu filtresinin dürtü tepkisidir. Frekans bölgesindeki gösterim ise S(w) = U(w).H(w) (2.5) Eğer iki tarafında logaritmasını alacak olursak eşitlik Log (S(w)) = Log(U(w).H(w)) (2.6) Log (S(w)) = Log(U(w))+ Log(H(w)) (2.7) Böylece çarpımsal ifade toplamsal bir ifadeye dönüşmüştür. u(n)*h(n)=log(u(w))+log (H(w)) (2.8) Bu tip dönüşümler homomorfik dönüşüm denir. Kepstrum, homomorfik bir dönüşümdür ve ayrık zamanda aşağıdaki gibi tanımlanır π 1 jωm c( m) = log S( ω) e d( ω) 2π π (2.9) Konuşma sisteminde ses yolu filtresi ve uyarı sinyali zamanla değişir. Bu değişimden dolayı kepstral analiz konuşma sinyalinin durağan olduğu kısa zamanlı aralıklarda yapılır. Bu işleme ait blok diyagram Şekil 2.7 de verilmiştir. s(n) Pencereleme DFT LOG IDFT c(m) Şekil 2.7 Kepstral katsayılarının elde edilişi Öncelikle ses sinyali pencerelenir, sonra DFT (Discrete Fourier Transform ) uygulanır. Alınan ses örneğinin frekans bileşen genliklerinin logaritması alınır. En sonunda elde edilen değerin IDFT'si alınır. Böylece ses sinyalini cepstral değerleri elde edilmiş olur. Kepstral analiz sonucunda elde edilen yeni bölge literatürde quefrency bölgesi olarak adlandırılır. 11

2.3.1.2 Doğrusal öngörüm katsayıları (LPC) LPC (Linear Predictive Coding), Eşitlik 2.10 da görüldüğü gibi, konuşma sinyalinin n. örneğinin ( s ˆ( n) ), önceki p adet örneğin doğrusal kombinasyonu şeklinde ifade edilmesidir. sˆ( n) = p i= 1 a s( n i) i (2.10) a i ler LPC katsayılar olarak adlandırılır ve bu çerçeve süresinde sabit olarak kabul edilir. Konuşmanın gerçek değeri ile öngörülen değeri arasındaki fark öngörü hatasıdır. e( n) = s( n) sˆ( n) = s( n) p i= 1 a s( n i) i Hata sinyali ile birlikte LPC eşitliği eşitlik 2.11 de gibi olacaktır. (2.11) s( n) p = i ai s( n i) + e( n) = 1 (2.12) Eşitlik (2.12)'den z-dönüşümü ile transfer fonksiyonu hesaplanırsa; sonlu uzunlukta dürtü tepkili bir süzgeç elde edilir. H ( z) = E( z) = 1 S( z) p i= 1 i a z i = A( z) A(z) LPC analiz süzgeci. Süzgeç katsayıları ai (2.13) hatanın karesini minimum yapacak şekilde hesaplanır. A(z) süzgeci ses yolunu (vocal tract) modeller. Böylece konuşma sinyali, incelendiği zaman aralığında, uyartım sinyaline ve süzgeç katsayılarına ayrıştırılmış olur. 2.3.1.2.1 LPC yönteminin aşamaları LPC yönteminin aşamaları şekil 2.8 de görülmektedir. Ses Çerçeveleme Pencereleme LPC analizi Otokorelasy on analizi LPC katsayıları Şekil 2.8 LPC yönteminin blok diyagramı 12

Çerçeveleme ve pencereleme aşamaları MFCC yönteminde kullanılan prensiplerle aynıdır (Bölüm 2.3.1.1.1 ve 2.3.1.1.2). Otokorelasyon analizi Pencerelenmiş sinyalin her bir çerçevesine otokorelasyon analizi uygulanır. Burada p LPC analizinin derecesidir. Otokorelasyon; N 1 m xˆ l n= o r ( m) = ( n).ˆ x ( n+ m), m=0,1..,p (2.14) l l şeklinde tanımlanır (Eşitlik 2.14). Otokorelasyon analizinin bir yararlı tarafı da, sıfırıncı otokorelasyonun ilgili çerçevenin enerjisini ifade ediyor olmasıdır. Bir çerçevenin enerjisi ses tanıma sistemleri için önemli bir parametredir. LPC analizi Bu bölümde her bir çerçeveye ait p +1 otokorelasyondan LPC parametre kümesi hesaplanır. Otokorelasyon analizinden LPC analizine geçiste Durbin metodu gibi bir yöntem kullanılabilir. Durbin algoritmasındaki amaç doğrusal öngörü filtresi katsayıları a 1, a 2, a p ile ilgili öngörü hata değişintisinin yinelemeli olarak bulunmasıdır. LPC analizine geçişte otokorelasyon analizinin yerine kovaryans analizi de yapılabilir, fakat genellikle yaygın olarak kullanılanı otokorelasyon analizidir. Sonuç olarak elde edilen LPC parametreleri, a m LPC katsayılarından oluşmaktadır (Rabiner vd. 1993). 2.3.1.2.2 LPCC yöntemindeki aşamalar LPCC yöntemi temel olarak LPC katsayılarının Fourier dönüşümü ile kepstral katsayılara dönüştürülmesi prensibine dayanmaktadır. Dolayısıyla bu yöntemde ilk olarak LPC katsayılarının elde edilmesi ve ardından diğer işlemlerin yapılması gerekmektedir. LPCC yönteminin aşamaları (Şekil 2.9) çerçeveleme, pencereleme, otokorelasyon analizi, LPC analizi, LPC-LPCC parametre dönüştürme, parametre ağırlıklandırma, Türev hesaplamadır. 13

Çerçeveleme Pencereleme Otokorelasy on analizi Türev hesaplama Parametre ağırlıklandırma LPC-LPCC dönüşümü LPC analizi 1. ve 2. türev Cepstral katsayıları Şekil 2.9 LPCC yönteminin aşamaları LPC-LPCC parametre dönüşümü Bu aşamada LPC katsayıları, eşitlik 2.15 kullanarak cepstral katsayılarına dönüşüm gerçekleştirilir. c 1= a 1 k c n = an+ (1 ) akcn k, 1 < n p (2.15) n n 1 k= 1 Genellikle elde edilen kepstral katsayılar ses tanıma sistemleri için öznitelik kümesi olarak daha güvenilir ve sağlam olmaktadır. Parametre ağırlıklandırma Bu aşamada önceki adımda elde edilen kepstral katsayıların gürültü vb. gibi çeşitli etkenlere duyarlılığını minimize etmek amacıyla bu kepstral katsayılara bir ağırlıklandırma işlemi uygulanır. Buradaki ağırlıklandırma fonksiyonu kepstral uzayda bir bant geçiren filtre ile gerçekleştirilmektedir. 14

2.3.1.3 Delta kepstral katsayıları Konuşmacının dinamik özelliklerini yansıttığı için konuşmacı tanıma ve onaylama araştırmalarında genellikle kepstral katsayılar ile birlikte ilave özellik olarak kullanılır. c(n,m) nin MFCC gösterdiğini varsayarsak, m çerçevesi için delta kepstral katsayılar 2.16 eşitliği ile hesaplanır: 1 cl ( n, m) = ( cl ( n, m+ 1) cl ( n, m 1)) 2 (2.16) 2.3.2 Konuşmacı sınıflandırma yöntemleri Konuşmacı Modelleme üç grup halinde sınıflandırılabilir: Şablon modeller Dinamik Zaman Eğirme (Dynamic Time Warping, DTW) Vektör Nicemleme (Vector Quantization, VQ) İstatiksel modelleme Saklı Markov Modeli (Hiden Markov Model, HMM) Gauss Karışım Modeli (Gaussian Mixture Model, GMM) Diğer Yöntemler Yapay Sinir Ağları (Artificial Neural Network, ANN) Destek Vektör Makinesi (Support Vector Machine, SVM) Şablon temelli yaklaşımda test sözcükleri, özellik ortalamaları arasındaki mesafeyi kullanarak eğitme şablonları ile karşılaştırılır (Karpov 2003). Bu teknikteki mevcut değişimler, öznitelik vektörleri ile mesafe matrislerinin seçiminden kaynaklanmaktadır. Minimum mesafe bulmak için birçok matris kullanılabilir ve bunlar arasında en yaygın olan ve hesaplanması en kolay olan öklit uzaklığıdır. Bu yaklaşımda, Dinamik Zaman Eğirme ve Vektör Nicemleme en çok kullanılan yöntemlerdir. 15

İstatiksel metot, konuşmacının ortalama ifade özelliklerini kullanmak yerine olasılık dağılımını kullanarak modellemektir ve sınıflandırmayı ortalama özelliklere göre yapmak yerine olasılığa göre yapmaktır. Gauss Karışım Modeli, konuşmacı tanıma uygulamalarında en çok kullanılan istatiksel yaklaşımdır. Bu tezde konuşmacı modelleme amacıyla, metinden bağımsız konuşmacı tanıma sistemlerinde kullanılan iki temel metot: GMM ve VQ ele alınmaktadır. Söz edilen modeller ayrıntılı olarak bölüm 2.3.2.1 ve 2.3.2.2 de incelenmektedir. 2.3.2.1 Vektör nicemleme yöntemi (VQ) Vektör nicemleme algoritması, temelde en yakın komşu algoritmasını kullanarak aynı sınıfa dahil olan vektörlerin birbirine yakınlaştırılmasını ve farklı sınıfların birbirinden uzaklaştırılmasını hedefler. VQ ile her bir konuşmacıdan elde edilen öznitelik vektörü M adet bölgeye gruplandırılarak konuşmacı modeli oluşturulur. Her bir bölge kod kelimesi olarak isimlendirilen merkez noktasıyla temsil edilir. Kod kelimeleri ise kod kitabını oluşturur ve referans vektör olarak saklanır. Şekil 2.10 bu tanıma işleminin kavramsal diyagramını göstermektedir. Yuvarlak ile gösterilenler bir numaralı konuşmacının öznitelik vektörleri olup üçgenler ise ikinci konuşmacının vektörleridir. Sistemin eğitim sırasında konuşmacıya özgü VQ kod kitabı bilinen bütün konuşmacılar için öznitelik vektörlerinin demetlenmesi (clustering) ile oluşturulur. Sonuçta oluşan kod kelimeler (centroid) şekil 2.10 da siyah yuvarlaklar ve siyah üçgenlerle, sırasıyla konuşmacı 1 ve konuşmacı 2 olarak gösterilmiştir. Kod kitabındaki en yakın kod kelimesine vektörün uzaklığına VQ-bozulması (VQ-distortion) denmektedir. Tanıma aşamasında, bilinmeyen bir konuşmacının sesinin sisteme girilmesi ile VQ işlemi yapılarak veritabanında bulunan eğitim fazında oluşturulmuş kod kitapları ile arasındaki toplam VQ-bozulması hesaplanır. VQ kod kitabı bilinmeyen konuşmacı ile arasında minimum VQ-bozulması olan kayıtlı eğitilmiş kod kitabına sahip konuşmacı böylece tanınmış olur (Song vd. 1987). 16

Şekil 2.10 VQ kodkitabı formasyonunun kavramsal diyagramı 2.3.2.1.1 Linde, Buzo ve Gray algoritması VQ kod kitabının hesaplanmasında K-ortalama (K-mean) veya LBG (Linde, Buzo ve Gray) yöntemleri kullanılmaktadır. LBG algoritması birçok karakteristiği k-ortalama algoritmasıyla benzerdir; ancak LBG algoritması daha çok Vektör Nicemleme amacıyla geliştirilmiştir. LBG algoritması öz yinelemeli bir algoritma olup, algoritmanın adımları şunlardır; 1. Başlangıç kod vektörü tüm eğitim setinin ortalaması kabul edilir. 2. y n diye tanımlanan her kodkitabını bölerek kodkitabının büyüklüğü aşağıdaki kural uygulanarak iki katına çıkarılır: y = y y + n n n = y (1+ ε ) n (1 ε ) (2.19) n in değeri 1 ila kod kitabının o an ki boyutu arasında değişir ve ε da bölme parametresidir. Burada ε =0.01 seçilmiştir. 3. Her eğitim vektörü için, o anki kodkitabındaki en yakın kodkelimesi bulunur, ve ilgili hücreye bu vektör atanır. 4. Atanan yeni eğitim vektörleri göz önüne alınarak kodkelimesi güncellenir. 17

5. İstenilen sayıda kodkitabı elde edilene ve ağırlık merkezleri değişmeyinceye kadar bu iterasyonlar gerçekleştirilir. Şekil 2.11 LBG algoritmasının akış diyagramını göstermektedir (Rabiner ve Juand 1993). Şekil 2.11 LGB algoritmasının akış diyagramı 18

2.3.2.2 Gauss karışım modeli (GMM) Bu yöntemin temel prensibi, birden çok Gauss yoğunluk işlevi kullanılarak bir konuşmacıya ait öznitelik vektörlerinden kişinin akustik niteliklerini temsil eden olasılık yoğunluk işlevlerinin bulunmasıdır. Bir Gauss karışım yoğunluğu, şekil 2.12 de gösterildiği gibi M bileşenli yoğunlukların toplamının ağırlıklandırılması olup eşitlik 2.20 daki gibi ifade edilir M r r p( x λ ) = w b ( x) (2.20) i= 1 i i Şekil 2.12 M bileşenli Gauss karışım yoğunluğunun gösterimi Burada x, D boyutlu rastgele değişen vektör, b i (x), bileşen yoğunluğu (i = 1,...,M) ve w i karışım ağırlığıdır. Her bir bileşen için D boyutlu Gauss fonksiyonu eşitlik 2.21 de görülmektedir (Reynolds ve Rose 1995) 19

r 1 1 r r ' 1 r r bi ( x) = exp ( x µ ) Σ ( µ ) 1 i x (2.21) D 2 2 (2π ) Σ 2 i Burada µ iortalama vektör ve Σ i kovaryans matrisidir. Karışım ağırlıkları M w i i= 1 şeklinde sınırlandırılır. Gauss karışım yoğunluk fonksiyonu, her bir yoğunluk fonksiyonunun ortalama vektörleri, kovaryans matrisleri ve karışım ağırlıkları olarak eşitlik 2.22 deki gibi ifade edilmektedir. = 1 { w,µ Σ} λ =, i=1,..,m (2.22) i i i Konuşmacı tanıma için her bir konuşmacının GMM'si λ ile gösterilir. Şekil 2.13 de GMM yöntemi ile bir konuşmacının nasıl modellendiği gösterilmektedir. Eğitim için öznitelik vektörler Histogramlar Öznitelik 1 Öznitelik 2 Öznitelik D Şekil 2.13 GMM yöntemi ile bir konuşmacının modellenmesi Bir konuşmacının GMM deki bir bileşen yoğunluğu, akustik sınıf veya bir akustik sınıftaki öznitelik vektörlerinin dağılımı olarak düşünülebilir. Bir kişinin sesindeki 20

akustik sınıfların konuşmacı bağımlı modellenmesi ile eğitim ve test sözcükleri arasındaki metin farklarından dolayı oluşacak etkiler en aza indirilir ve karar sürecinde, ses yolunda konuşmacılar arasındaki fiziksel farklara odaklanılır. GMM nin başka bir özelliği dağınık şekilli yoğunluklara düzgün yaklaşım şekli oluşturmasıdır. Şekil 2.14 GMM in bir boyutlu modelleme kapasitesini göstermektedir. Şekil 2.14 (a) bir konuşma sinyalinden alınan kepstral katsayılarının histogramı ve en iyi tek modlu Gauss dağılımını göstermektedir. Şekil (b) ve (c de 3 ve 10 bileşenli GMM dağılımı görülmektedir. Son şekilde model sadece tepeleri değil aynı zamanda dağılımın tamamını izleyebilmektedir. a) b) c) Şekil 2.14 GMM in bir boyutlu modeli. a. Tek bileşenli GMM, b. 3 bileşenli GMM, c. 10 bileşenli GMM 21

2.3.2.2.1 Beklenti maksimizasyon algoritması Konuşmacı modelinin eğitiminin amacı, öznitelik vektörlerinin dağılımına en uygun GMM parametrelerinin (λ), tahminidir. Bu parametrelerin tahmini için, en yaygın kullanılan yöntem, en çok olabilirlik tahmin yöntemidir(maximum Likelihood Estimation, MLE). En çok olabilirlik tahmin yönteminin amacı verilen eğitim datası için Gaussian karma modelinin olabilirlik fonksiyonunu maksimize eden model parametrelerini bulmaktır. En çok olabilirlik parametre tahmini, beklenti maksimizasyon (Expectetion Maximization, EM) algoritmasının özel bir durumu kullanılarak iteratif bir yolla elde edilebilir. Beklenti maksimizasyon (BM) algoritması, istatiksel veri analizi, konuşma tanıma, gürültünün kaldırılması gibi pek çok alanda kullanılmaktadır. BM algoritmasının yaygın olarak kullanımının nedeni her bir özyinelemeden sonra benzerlik fonksiyonu artışını garanti edip pek çok karışık kestirim problemleri için güçlü yapıya sahip olmasıdır. BM algoritmasının temelindeki iddia ilk model başlangıcı λ, yeni model λ, P( X λ ) p( X λ) olarak kestirilir. Eski model yerine yeni model yerleştirilir bu işlem ve yakınsama süreci eşik değerine ulaşılana kadar devam edilir. Sonsal olasılık aşağıdaki eşitlik ile gösterildiğinde (Reynolds ve Rose 1995), r r pibi ( xt ) p( i xt, λ ) = M r p b ( x ) k= 1 k k t i ninci bileşen (katışım) için bir sonraki döngüdeki model parametreleri p r µ 1 = T T r p( i /, λ) i x t t= 1 T t= 1 i = T t= 1 r p( i / x, λ) x t r p( i / x, λ) t t (2.22) (2.23) (2.24) 22

σ 2 i = T t= 1 T t= 1 r p( i / x, λ) x t r p( i / x, λ) t 2 t µ 2 i olur. (2.25) Burada T, T adet eğitim vektöründen oluşan X = x,..., x } dizisi { 1 T BM algoritması, bir sonraki adımda daha yüksek logaritmik-olabilirliğe sahip bir model bulmayı ve sonlu adımda, sağlanan verinin logaritmik-olabilirlik işlevinin yerel maksimuma yakınsamasını garanti eder. Logaritmik-olabilirlik (LL) bir modelin deneysel bir veriye ne kadar uyduğunu ölçmek için kullanılır ve aşağıdaki eşitlik ile ifade edilir (İskendere 2007): L L = 1 log N N 1 p( x ) = N k k= 1 N k= 1 log p( x ) k (2.26) 23

3. MATERYAL ve YÖNTEM Bu tezde Matlab programı yardımıyla VQ ve GMM konuşmacı tanıma sistemi oluşturulmuş ve değişik öznitelik vektörleri (MFCC, MFCC, LPCC) oluşturma yöntemleri kullanarak konuşmacı tanımaya etkisi incelenmiştir. Veritabanı olarak, konuşmacı tanıma sistemlerini araştırma amacında, Danimarka Teknik Üniversitesi tarafından geliştirilmiş ELSRSD (English Language Speech Database for Speaker Recognition) kullanılmıştır. Veritabanda, yaşları 24 63 yarasında değişen, 10 bayan ve 10 erkek konuşmacının ses örnekleri bulunmaktadır. Konuşma dili İngilizce olup, 18 Danimarkalı, 1 İzlandalı ve 1 Kanadalı tarafından seslendirilmiştir. Örnekleme frekansı 16 khz dir. ELSRSD veritabanı, gürültü olmayan ortamda mikrofon ile veriler toplandığından temiz bir veritabanı olarak tanımlanmaktadır. Bu veri tabanı eğitim ve test olarak iki kısma bölünmektedir. Eğitim cümleleri zengin fonetik değişkenliğe sahip olacak şekilde tasarlanmıştır. Test seti ise rastgele cümlelerdir. Eğitim seti 140 (7*20) cümleden, test seti 40 (2*20) cümleden oluşmaktadır. Bu tez çalışmasında eğitim için 20 cümle (1*20) kalan cümleler ise (8*20) test için kullanılacaktır. 3.1 Öznitelik Vektörlerinin Elde Edilmesi Konuşmacı tanıma sisteminin en önemli kısmı öznitelik vektörü elde etme işlemidir. Bölüm 4.3 te yapılacak olan deneylerde öznitelik vektörleri olarak MFCC, MFCC ve LPCC kepstral katsayıları kullanılmaktadır. Bölüm 2.3.1.1 de anlatılan yöntemleri kullanılarak, ELSRSD veri tabanından alınan konuşma verisi önce 256 örneklik çerçevelere ayrılır ve %50 örtüşme ile Hamming penceresi uygulanır. Böylece her bir çerçeve periyodu 8 ms ye karşılık gelir. Elde edilen ses örneğinin FFT'si alınarak her çerçevenin spektrumu Mel-ölçekli filtre bankasından geçirilir. Süzgeçten geçirilen işaretin logaritması alınıp ayrık kosinüs dönüşümü alınmıştır. Sonuç olarak her bir çerçeveye karşılık olarak, 12 boyutlu MFCC öznitelik vektörü elde edilmektedir. 24

MFCC, konuşma işaretinin birbirini takip eden çerçeveleri arasındaki değişimi belirlemektedir (Lincoln1999). Kepstrum katsayılarının birinci derece türevi alınarak dinamik katsayılar üretilmektedir (Bölüm 2.3.1.3). Delta MFCC yönteminde her çerçeve için MFCC ve delta katsayıları hesaplanacaktır, bu da demek ki toplam katsayı iki kata çıkacaktır (12 MFCC + 12 delta toplamda her çerçevede 24 katsayı). Dolasıyla işlem yükü artacaktır ama Bölüm 4 te yapılan sonuçları değerlendirirsek 12 MFCC nın yeterli olduğu gözlenmektedir, o yüzden gereksiz işlemleri yapmamak için MFCC, 6 MFCC+ 6 delta şeklinde seçilmektedir toplamda da her çerçeveye 12 katsayı düşmektedir.. MFCC ve MFCC katsayılarının oluşturulmasında VOICEBOX : Speech Processing Toolbox for MATLAB paketinden faydalanılmıştır. LPCC katsayılarını oluşturulurken Bölüm 2.3.1.2 de anlatıldığı gibi, ilk önce yukarıda anlatılan MFCC deki gibi ses sinyali çerçevelenir ve pencerelenir. Pencerelenen sinyale otokorelasyon uygulanıp, Levinson-Durbin yöntemi kullanarak LPC analizi yapılır. katsayıları elde etmede p (LPC analizinin derecesi, veya öngörü katsayı), p = 2+ f s 0 şartına göre 18 olarak seçilmektedir, f s örnekleme frekansı (16 khz). p nın 18 olması demek önceki 18 tane örneği kullanarak öngörü yapıyor. Bu sayı az olursa bütün formantları içeremez (under fitting), fazla olursa spektrumun kendisin tekrarlayacak, yani gereksiz işlemlere yol açacak (over fitting). Şekil 3.1 de optimal p derecesi ile bir çerçevenin LPC analizi verilmektedir, spektrumdaki tepeler formant olarak sayılmaktadır. LPC katsayıları eşitlik 2.15 i kullanarak kepstral katsayılarına çevirilir. Sonuçta 12 boyutlu LPCC öznitelik vektörleri elde edilir. a i 25

10 2 10 1 Sinyalin spectrumu LPC filtrenin frekans analizi Genlik (db) 10 0 10-1 10-2 10-3 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 Frekans (khz) Şekil 3.1 Bir çerçeveye ait LPC analizi Tezde kullanılan veritabanı gürültüsüz temiz bir veritabanı olduğu için, öznitelik vektörleri çıkarmadan önce ses sinyallerine önişleme ve sessiz kısımları atma işlemleri kullanılmamaktadır. 3.2 Konuşmacı Sınıflandırıcıların Parametreleri Vektör Nicemleme (VQ) ve Gauss Karışım Modellerinin (GMM), metinden bağımsız olarak konuşmacı tanıma için deneysel değerlendirilmesi yapılacaktır. VQ Elde edilen öznitelik vektörlerin boyutu her bir konuşmacı için ortalama 2233x12 olmaktadır (toplamda da 37649x12). Bulunan öznitelik vektörlerinin boyutun belli bir boyuta kadar indirmek için (bu tezde 64 kod vektörü seçilmektedir) VQ LBG algoritması kullanılır. Böylece her bir konuşmacı için 64 kod vektöründen oluşan kod kitabı (64x12) oluşturulacaktır (Bölüm 2.3.2.1), 64 satırlık ve her satırda 12 MFCC içeren. Sonuçta 37649x12x20 boyutundaki eğitim datası 64x12x20 boyutluk bir matrise dönüştürülüp şablon olarak kaydedilir. Şekil 3.2 de kod kitap oluşturulmanın örnek bir şematik şekli verilmektedir (Kinnunen 2010). 26

Eğitim seti Kod kitabı Öznitelik 2 5000 eğitim vektörü Öznitelik 2 64 kod vektörü Kod vektörü (centroid) Topaklındırma (clustering) Kod kelime (quantization cell) Öznitelik 1 Öznitelik 1 Şekil 3.2 Kod kitap oluşturmanın şematik gösterilişi Test aşamasında test konuşma sinyalinin öznitelikleri çıkarıldıktan sonra referans model olarak hazırlanan kod kitap vektörleriyle olan uzaklığı kıyaslanacaktır. Uzaklık kriteri olarak Euclid uzaklığı kullanılmıştır (Eşitlik 3.1). d E V 2 ( xi yi ) ( x, y) = (3.1) 2 i= 1 V- vektör boyutu. GMM Bu yöntemde konuşmacı öznitelikleri M adet bileşenli yoğunluk fonksiyon ile tanımlanır. GMM in eğitim aşamasında döngüsel EM algoritması kullanılarak en büyük olabilirlik için model parametreleri kestirilir (Bölüm 2.3.2.2). Eğitim sonucunda her bir konuşmacı; = { w,µ, Σ} λ ve i= 1 M olmak üzere ağırlık, ortalama ve kovaryans i i i matrislerden oluşan M adet karışım bileşen sayısı kullanarak modellenmektedir. 27

GMM yönteminde, konuşmacı tanıma başarımını doğrudan etkileyen parametrelerden biri karışım bileşeninin sayısıdır. Karışım bileşen sayısını önceden belirlemenin teorik bir yolu yoktur (Reynolds ve Rose 1995). Eğer karışım sayısı yetersiz ise konuşmacının karakteristiği doğru modellenemeyecektir. Bileşen sayısı fazla ise eğitim ve test aşamalarında işlem karmaşığına yol açar. Bu tez çalışmasında M=16 seçilmiştir. Test aşamasında, test verisini ve model parametrelerin kullanarak çoklu logaritmik olabilirliği (Eşitlik 2.26) hesaplayarak konuşmacı tespit edilir. En büyük olabilirlik, bilinmeyen konuşmacının kimliğini belirler. Şekil 3.3 te GMM ve VQ sınıflandırıcılarının öznitelikleri kullanarak modelleme tekniği şematik şekilde gösterilmektedir. VQ yönteminde öznitelikler tek kod vektörleri ile, GMM yönteminde öznitelikler dağılım yoğunluk fonksiyonu ile modellenmektedir. VQ GMM Kod vektör Öznitelikler Şekil 3.3 VQ ile GMM yöntemlerinin kıyaslamalı şematik görünüşü 28

4. ARAŞTIRMA BULGULARI 4.1 Başarı Oranını Etkileyen Parametreler Sistemin başarılı bir tanıma yapabilmesi için en uygun parametrelerinin tespit edilmesi gerekmektedir. Bu amaçla aşağıdaki bölümlerde, üç farklı öznitelik için (MFCC, MFCC, LPCC) eğitim ve test süresinin, kepstrum katsayılarının, VQ için kod vektörünün ve GMM için karışım bileşenlerinin değişimlerinin konuşmacı tanıma sistemine olan etkisi incelenmektedir. 4.1.1 Eğitim ve test sürelerinin değişimi Eğitim ve test sinyallerinin uzunluğu en önemli faktörler olarak sayılmaktadır, çünkü sistemi doğru modelleyebilmek (eğitebilmek) için yeterli veri olması lazım ki konuşmacıyı kısa veri ile tanıyabilsin. Çizelge 4.1 de iki farklı eğitim verileri verilmektedir. İlk önce sistemi ELSRSD veri tabanındaki rastgele, uzunlukları 4.8 12.3 saniye arası değişen (1. Durum) cümleler ile eğitilip test edildi. İkinci seferde ise uzunlukları 14.1 23.48 saniye arası değişen (2. Durum) ve ünlü, ünsüz ve diftong seslerini dikkate alarak tasarlanmış cümlelerle eğitilip test edildi. Eğitim ve test için her bir çerçeveden 12 adet MFCC, MFCC, LPCC öznitelik vektörü, VQ modeli için 64 boyutundaki kod kitabı ve GMM için 16 karışım bileşeni kullanılmaktadır. Test verinin süresi 3 saniyedir. Test sonucu çizelge 4.2 de verilmektedir. Çizelge 4.3, 1. durum VQ modelinin MFCC katsayılarına ait %93.75 tanıma başarısının doğruluk çizelgesi gösterilmektedir (2. Durumda ise % başarıya ulaşmaktadır). 29

Çizelge 4.1 Konuşmacıların eğitim verilerinin uzunluğu Konuşmacılar 1. Durum (sn) 2. Durum (sn) 1 FAML 12 20 2 FDHH 4.7 16.6 3 FEAB 5.4 19.5 4 FHRO 12.3 19 5 FJAZ 10.8 18.74 6 FMEL 7 16.6 7 FMEV 6.9 21.55 8 FSLJ 8.7 16.8 9 FTEJ 7.9 23.48 10 FUAN 10.1 16.6 11 MASM 6.7 16.62 12 MCBR 6 14.1 13 MFKC 5.6 18.2 14 MKBP 9.5 14.4 15 MLKH 6.7 16.75 16 MMLP 7.3 17.78 17 MMNA 7.6 17.2 18 MNHP 8.3 18.1 19 MOEW 9.7 18.2 20 MPRA 4.8 17.2 Çizelge 4.2 Farklı eğitim uzunluklarının test sonucu Model 12MFCC (%) 12 MFCC (%) 12LPCC (%) VQ (64) 1. Durum 1 93.75 76.87 89.37 2. Durum 2 98.12 97.50 GMM (16) 1. Durum 85.62 68.12 63.12 2. Durum 98.75 94.37 95.62 1 Eğitim setinin uzunluğu: 4.8-12.3 sn, 2 14.1-23.48 sn Sistemi yeterli veri ile eğitilmesi durumunda tanıma performansı önemli ölçüde yükseldiği gözlenmektedir. Özellikte da GMM sınıflandırması için, örneğin LPCC özniteliği için %63.12 den %95.12 ye yükselmektedir. Öznitelik vektörleri arası kıyaslamada, MFCC katsayılarının her iki durumda da tanıma oranı diğerlere göre yüksektir. 30

Çizelge 4.3 12 MFCC katsayılı VQ için tanıma doğruluk çizelgesi test 1 train FAML FDHH FEAB FHRO FJAZ FMEL FMEV FSLJ FTEJ FUAN MASM MCBR MFKC MKBP MLKH MMLP MMNA MNHP MOEW MPRA FAML 8 1 FDHH 7 1 FEAB 7 FHRO 8 FJAZ 8 FMEL 8 FMEV 7 FSLJ 1 8 FTEJ 8 FUAN 8 MASM 6 1 MCBR 8 MFKC 8 MKBP 8 MLKH 8 2 MMLP 6 MMN 1 8 1 A MNHP 6 MOE W 1 1 7 MPRA 8 % 87.5 87.5 87.5 75 75 75 87.5 1 Eğitim seti: 4.8-12.3 sn, 12 MFCC, VQ kod vektör: 64, test süre: 3sn (Çizelge 4.2) Süre aynı zamanda test verileri için da önem taşımaktadır. Deneyde 2,3,4 ve 6 saniye olmak üzere 4 farklı test süre kullanılmaktadır. Bu parametrelere bağlı olarak elde edilen konuşmacı tanıma oranları çizelge 4.4 te ve grafiksel olarak şekil 4.1 ve 4.2 de görülmektedir. Çizelge 4.5 te LPCC katsayı için doğruluk çizelge verilmektedir. Sonuçlara göre test sürelerinin artmasına paralel olarak tanıma oranları artmaktadır. 31

Çizelge 4.4. Değişik test süreleri için elde edilen tanıma oranları Model 1 12MFCC (%) 12 MFCC (%) 12LPCC (%) 2sn 3sn 4sn 6sn 2sn 3sn 4sn 6sn 2sn 3sn 4sn 6sn VQ 99.37 90 93.75 95.62 98.12 95 97.50 98.12 99.37 GMM 98.12 98.75 99.37 90.62 94.37 97.5 97.5 91.87 95.62 93.75 95.62 1 Eğitim seti: 2. Durum (14.1-23.8 sn), test süre: 3 sn, VQ kod vektör: 64, GMM karışım sayı: 16 Çizelge 4.5. 12 LPCC katsayı VQ için tanıma doğruluk çizelgesi test 1 train FAML FDHH FEAB FHRO FJAZ FMEL FMEV FSLJ FTEJ FUAN MASM MCBR MFKC MKBP MLKH MMLP MMNA MNHP MOEW MPRA FAML 8 FDHH 8 FEAB 8 1 FHRO 8 FJAZ 8 FMEL 8 1 1 FMEV 7 FSLJ 8 FTEJ 8 FUAN 8 MASM 7 MCBR 8 MFKC 8 MKBP 1 7 MLKH 8 MMLP 8 MMN 8 A MNHP 7 MOE 8 W MPRA 8 % 87.5 87.5 87.5 87.5 1 Eğitim seti: 2. Durum (14.1-23.8 sn), test süre: 3 sn, VQ kod vektör: 64, 12 LPCC (Çizelge 4.4) 32

102 98 96 94 92 90 88 86 84 2s 3s 4s 6s Şekil 4.1 Değişik test süreleri için tanıma oranı (VQ) MFCC MFCC LPCC 102 98 96 94 92 90 88 86 84 2s 3s 4s 6s MFCC MFCC LPCC Şekil 4.2 Değişik test süreleri için tanıma oranı (GMM) 4.1.2 Kepstrum katsayı değişimlerinin etkisi Kepstrum katsayıları değişimlerinin konuşmacı tanımaya etkisi çizelge 4.6-4.7 de GMM modeli 12 LPCC nin doğruluk çizelgesinde verilmektedir. Deneyde kepstrum katsayıları sayısı 5, 12, 20 şeklinde alınmaktadır. Çizelge 4.6 Kepstrum katsayı değişimlerinin konuşmacı tanımaya etkisi Model 1 MFCC (%) MFCC (%) LPCC (%) 5 12 20 12 20 5 12 20 VQ 87.5 93.75 81.25 97.50 98.12 GMM 88.12 99.37 99.37 94.37 98.75 90.62 95.62 96.25 1 Eğitim seti: 2. Durum (14.1-23.8 sn), test süre: 3 sn, VQ kod vektör: 64, GMM karışım sayı: 16 33

Çizelge 4.6 dan görüleceği üzere kepstrum katsayı sayısı 12 ve test süresi 3 sn alındığında VQ modeli MFCC katsayıları ile % başarıya ulaşırken, MFCC ve LPCC katsayıları ile başarı oranı %6.25 ve %2.5 e az göstermektedir. GMM modeli için de en yüksek oran 12 MFCC de gözlenmektedir ve 20 ye yükselmesi başarıyı değiştirmemektedir. Çizelge 4.7 20 LPCC katsayılı GMM için tanıma doğruluk çizelgesi test 1 train FAML FDHH FEAB FHRO FJAZ FMEL FMEV FSLJ FTEJ FUAN MASM MCBR MFKC MKBP MLKH MMLP MMNA MNHP MOEW MPRA FAML 8 FDHH 8 FEAB 8 1 FHRO 8 FJAZ 8 FMEL 8 1 FMEV 8 FSLJ 7 FTEJ 8 FUAN 8 MASM 1 7 MCBR 8 MFKC 8 MKBP 1 7 MLKH 8 1 MMLP 7 MMN 8 A MNHP 6 MOE W 1 8 MPRA 8 % 87.5 87.5 87.5 87.5 75 1 Eğitim seti: 2. Durum (14.1-23.8 sn), test süre: 3 sn, GMM karışım bileşen sayısı: 16, 12 LPCC (Çizelge 4.6) 34

4.1.3 VQ kod vektörü boyutunun etkisi Bu testin amacı farklı kod vektörü boyutlarında oluşturulan sistemin başarı oranının tespit edilmesidir. Kod vektör boyutları 8, 16, 32, 64 ve 128 olarak değiştirilmiştir. Yapılan testin başarı oranları Çizelge 4.8 de verilmektedir. Çizelge 4.9 da 12 MFCC ve 32 VQ için konuşmacı tanıma başarı oranların göstermektedir. Çizelge 4.8 Farklı kod vektör boyutlarının test sonuçları test 1 train FAML FDHH FEAB FHRO FJAZ FMEL FMEV FSLJ FTEJ FUAN MASM MCBR MFKC MKBP MLKH MMLP MMNA MNHP MOEW MPRA FAML 8 FDHH 8 FEAB 8 1 FHRO 8 FJAZ 8 FMEL 7 FMEV 8 FSLJ 8 FTEJ 8 FUAN 8 2 MASM 6 MCBR 8 MFKC 8 MKBP 8 MLKH 8 MMLP 8 MMN 8 A MNHP 8 MOE 7 W MPRA 1 8 % 87.5 75 87.5 87.5 1 eğitim seti: 2. Durum (14.1-23.8 sn), test süre: 3 sn 35

Çizelge 4.9 12 MFCC katsayılı 32 VQ için doğruluk çizelgesi Öznitelik Kod vektör boyutu (%) vektörler 1 8 16 32 64 128 12 MFCC 96.87 98.12 97.50 12 MFCC 70 91.25 94.37 93.75 95.62 12 LPCC 88.12 94.37 96.25 97.50 96.87 1 Eğitim seti: 2. Durum (14.1-23.8 sn), test süre: 3 sn, VQ kod vektör: 32, 12 MFCC (Çizelge 4.8) 4.1.4 Karışım bileşenlerinin sayısının etkisi GMM yönteminde tanıma oranının ve tanıma süresinin karışım sayısıyla nasıl değiştiğini görmek için üç farklı karışım sayısı uygulanmaktadır, sonuç çizelge 4.10 do verilmektedir. Karışım bileşenleri sayısının giderek katlanarak artmasına rağmen, her üç katsayının kendi aralarında tanıma değerlerinin bir birine çok yakın olması gözlenmektedir. Hatta MFCC ve LPCC öznitelikleri için, karışım sayısı 16 dan 32 ye yükselmesi tanıma başarısını değiştirmemektedir. Değişmemenin sebebi 32 karışım için veri yükünün az olmasıdır. Çizelge 4.10 Karışım bileşen sayısına bağlı olarak konuşmacı tanıma oranları Öznitelik Karışım bileşen sayısı (%) vektörler 1 8 16 32 12 MFCC 98.12 99.37 99.37 12 MFCC 88.75 93.75 95 12 LPCC 94.37 95.62 95.62 1 Eğitim seti: 2. Durum (14.1-23.8 sn), test süre: 3 sn 36

5. SONUÇ Bu tezde metinden bağımsız kapalı-küme konuşmacı tanıma problemine odaklanılmaktadır. Otomatik konuşmacı tanıma sistemi, Matlab programı kullanılarak gerçekleştirilmiş sistemin performansını etkileyen parametreler incelenmiş ve aşağıdaki sonuçlar elde edilmiştir. VQ ve GMM sınıflandırıcıları kullanarak yapılan deneylerde eğitim ve test sürelerinin değişimi konuşmacı tanıma başarımı üzerinde belirleyici olduğu görülmektedir. Çizelge 4.2 de görüldüğü gibi eğitim setinin yaklaşık olarak ikiye katlanması her iki modelin de başarı oranını önemli ölçüde yükseltmektedir. Genel olarak VQ ve GMM sınıflandırıcılara bakıldığında, her iki model az veri ile eğitildiğinde (1. Durum) VQ nün genel performansı GMM den yüksek çıkmıştır. Örneğin öznitelik vektörü olarak LPCC kullanılması durumda, VQ performansı %89.37 iken GMM in performansı %63.12. Sonuç olarak VQ modelinin daha az veri ile eğitilebileceği sonucuna varılmıştır. Diğer bir deyişle elimizde az veri bulunması durumunda VQ ile eğitim tercih edilmelidir. Test aşamasında test süresi artışına paralel olarak konuşmacı tanıma oranı da artmaktadır. Fakat bu aşamada test verisinin 3 saniyeden uzun olması, gerçek zamanlı sistemlerde her zaman mümkün olamayabilir. Bu parametreye bağlı olarak yapılan deney sonucuna göre VQ modeli için MFCC özniteliği kullandığında 3 saniyelik veri ile konuşmacı tanıma % başarıya ulaşmıştır (Çizelge 4.4). Toplam öznitelik sayısı konuşma sinyalinin her çerçevesinden elde edilen konuşmacıyı ayırt edici özelliği olduğundan bu sayının artması doğal olarak konuşmacı tanıma oranını artıracaktır. Çizelge 4.6 ya göre MFCC için 12, MFCC için 20 ve LPCC için en az toplam 12 kepstral katsayı yeterli olmaktadır. Vektör Nicemlemede kod vektörünün boyutunun ve GMM in karışım bileşenlerinin artımı başarımdaki iyileşmeyi de beraberinde getirmektedir. Öte yandan eklenen her bileşen hem güncelleme sürecinde hem de test sürecinde ek bir işlemsel yük 37