Saklı Markov Modeli Kullanarak Türkçe Konuşma Tanıma



Benzer belgeler
Dinamik Zaman Bükmesi Yöntemiyle Hece Tabanlı Konuşma Tanıma Sistemi

ÇOKLU REGRESYON MODELİ, ANOVA TABLOSU, MATRİSLERLE REGRESYON ÇÖZÜMLEMESİ,REGRES-YON KATSAYILARININ YORUMU

a IIR süzgeç katsayıları ve N ( M) de = s 1 (3) 3. GÜRÜLTÜ GİDERİMİ UYGULAMASI

T.C. ULUDAĞ ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ KONUŞMACI TANIMA YÖNTEMLERİNİN KARŞILAŞTIRMALI ANALİZİ. Cemal HANİLÇİ

UYUM ĐYĐLĐĞĐ TESTĐ. 2 -n olup. nin dağılımı χ dir ve sd = (k-1-p) dir. Burada k = sınıf sayısı, p = tahmin edilen parametre sayısıdır.

Deney No: 2. Sıvı Seviye Kontrol Deneyi. SAKARYA ÜNİVERSİTESİ Dijital Kontrol Laboratuvar Deney Föyü Deneyin Amacı

Sistemde kullanılan baralar, klasik anlamda üç ana grupta toplanabilir :

Türk Dilinin Biçimbilim Yapısından Yararlanarak Türkçe Metinlerin Farklı İmgelere Ayrılarak Kodlanması ve Sıkıştırılması

TRİSTÖR VE TRİYAK HARMONİKLERİNİN 3 BOYUTLU GÖSTERİMİ VE TOPLAM HARMONİK BOZUNUMA EĞRİ UYDURMA

PROJE SEÇİMİ VE KAYNAK PLANLAMASI İÇİN BİR ALGORİTMA AN ALGORITHM FOR PROJECT SELECTION AND RESOURCE PLANNING

NİTEL TERCİH MODELLERİ

KAFES SİSTEMLERİN UYGULAMAYA YÖNELİK OPTİMUM TASARIMI

TEKNOLOJĐK ARAŞTIRMALAR

X, R, p, np, c, u ve diğer kontrol diyagramları istatistiksel kalite kontrol diyagramlarının

ENERJİ. Isı Enerjisi. Genel Enerji Denklemi. Yrd. Doç. Dr. Atilla EVCİN Afyon Kocatepe Üniversitesi 2007

Bulanık Mantık ile Hesaplanan Geoid Yüksekliğine Nokta Yüksekliklerinin Etkisi

Üç Boyutlu Yapı-Zemin Etkileşimi Problemlerinin Kuadratik Sonlu Elemanlar ve Sonsuz Elemanlar Kullanılarak Çözümü

dir. Bir başka deyişle bir olayın olasılığı, uygun sonuçların sayısının örnek uzaydaki tüm sonuçların sayısına oranıdır.

Makine Öğrenmesi 10. hafta

Makine Öğrenmesi 6. hafta

EVRİMSEL ALGORİTMA İLE SINIRLANDIRMALI DİNAMİK OPTİMİZASYON

Sıklık Tabloları ve Tek Değişkenli Grafikler

MAK 744 KÜTLE TRANSFERİ

PÜRÜZLÜ AÇIK KANAL AKIMLARINDA DEBİ HESABI İÇİN ENTROPY YÖNTEMİNİN KULLANILMASI

Soğutucu Akışkan Karışımlarının Kullanıldığı Soğutma Sistemlerinin Termoekonomik Optimizasyonu

Polinom Filtresi ile Görüntü Stabilizasyonu

TEKNOLOJİ, PİYASA REKABETİ VE REFAH

UYGULAMA 2. Bağımlı Kukla Değişkenli Modeller

DENEY 4: SERİ VE PARALEL DEVRELER,VOLTAJ VE AKIM BÖLÜCÜ KURALLARI, KIRCHOFF KANUNLARI

Meteorolojik Verilerin Yapay Sinir Ağları Đle Modellenmesi

Deprem Tepkisinin Sayısal Metotlar ile Değerlendirilmesi (Newmark-Beta Metodu) Deprem Mühendisliğine Giriş Dersi Doç. Dr.

EMG İşaretlerinin K-Ortalama Algoritması Kullanılarak Öbekleştirilmesi. EMG Signal Analysis Using K-Means Clustering

PARÇALI DOĞRUSAL REGRESYON

ORTA GERİLİM ENERJİ DAĞITIM TALİ HATLARINDA ARIZA ANALİZİ

Tuğla Duvardaki ve Tesisattaki Isı Kaybının Yapay Sinir Ağları İle Belirlenmesi

KENDİ KENDİNİ DÜZENLEYEN HARİTALAR YÖNTEMİYLE TÜRKÇE SESLİ HARFLERİN SINIFLANDIRILMASI VE TANINMASI

VEKTÖRLER VE VEKTÖREL IŞLEMLER

bir yol oluşturmaktadır. Yine i 2 , de bir yol oluşturmaktadır. Şekil.DT.1. Temel terimlerin incelenmesi için örnek devre

Korelasyon ve Regresyon

MIT Açık Ders Malzemeleri Bu materyallerden alıntı yapmak veya Kullanım Koşulları hakkında bilgi almak için

ADIYAMAN ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ MATEMATİK ANABİLİM DALI YÜKSEK LİSANS TEZİ SOFT KÜMELER VE BAZI SOFT CEBİRSEL YAPILAR.

İki veri setinin yapısının karşılaştırılması

Kamuflaj Tespiti için Hiperspektral Görüntüleme Hyperspectral Imaging for Camouflage Detection

SÜREKLİ SAKLI MARKOV MODELLERİ İLE METİNDEN BAĞIMSIZ KONUŞMACI TANIMA PARAMETRELERİNİN İNCELENMESİ

ENDÜSTRİNİN DEĞİŞİK İŞ KOLLARINDA İHTİYAÇ DUYULAN ELEMANLARIN YÜKSEK TEKNİK EĞİTİM MEZUNLARINDAN SAĞLANMASINDAKİ BEKLENTİLERİN SINANMASI

Adi Diferansiyel Denklemler NÜMERİK ANALİZ. Adi Diferansiyel Denklemler. Adi Diferansiyel Denklemler

Basel II Geçiş Süreci Sıkça Sorulan Sorular

Metin Madenciliği ile Soru Cevaplama Sistemi

ÖRNEK SET 5 - MBM 211 Malzeme Termodinamiği I

TRANSPORT PROBLEMI için GELIsTIRILMIs VAM YÖNTEMI

Otomatik Kontrol Ulusal Toplantısı, TOK2013, Eylül 2013, Malatya DOĞRUSAL KONTROL SİSTEMLERİ

ROBİNSON PROJEKSİYONU

İSTANBUL TEKNİK ÜNİVERSİTESİ ELEKTRİK-ELEKTRONİK FAKÜLTESİ. WEB SAYFASI SINIFLANDIRMA YÖNTEMLERİ ve BENZERLİK ÖLÇÜTLERİ

( ) 3.1 Özet ve Motivasyon. v = G v v Operasyonel Amplifikatör (Op-Amp) Deneyin Amacı. deney 3

5.3. Tekne Yüzeylerinin Matematiksel Temsili

Communication Theory

CuEEG: EEG Verilerinin Hızlı İşlenmesi için GPU Tabanlı Bir Yaklaşım CuEEG: A GPU-Based Approach for Fast Processing of EEG Data

Yard. Doç. Dr. Oben Dağ 1. İstanbul Arel Üniversitesi Özet. 1. Giriş. 2. Problemin Tanımı

T.C. KEÇiÖREN BELEDİYE BAŞKANLIGI Mali Hizmetler Müdürlüğü BAŞKANLIK MAKAMINA

Öğr. Elemanı: Dr. Mustafa Cumhur AKBULUT

DOĞRUSAL OLMAYAN DİZGELER İÇİN MODEL TEMELLİ ARIZA BULMA-YALITIMI VE ROBOT MANİPÜLATÖRLERE UYGULANMASI

ALTERNATİF AKIM DEVRE YÖNTEM VE TEOREMLER İLE ÇÖZÜMÜ

GÜÇ KALİTESİNDEKİ BOZULMA TÜRLERİNİN SINIFLANDIRILMASI İÇİN BİR ÖRÜNTÜ TANIMA YAKLAŞIMI

DETERMINATION OF THE ECONOMIC DISPATCH IN ELECTRIC POWER SYSTEMS USING SIMULATED ANNEALING(SA) ALGORITHM

YÖNETİM VE EKONOMİ Yıl:2006 Cilt:13 Sayı:1 Celal Bayar Üniversitesi İ.İ.B.F. MANİSA

MASAÜSTÜ CNC EKSEN KARTLARI İÇİN TEST DEVRESİ TASARIMI

Sürekli Olasılık Dağılım (Birikimli- Kümülatif)Fonksiyonu. Yrd. Doç. Dr. Tijen ÖVER ÖZÇELİK

Bilgisayarla Görüye Giriş

Yapay Sinir Ağı ve Bulanık-Yapay Sinir Ağı Yöntemleri Kullanılarak Tava Buharlaşma Tahmini

Biyomedikal Amaçlı Basınç Ölçüm Cihazı Tasarımı

BÖLÜM 5 İKİ VEYA DAHA YÜKSEK BOYUTLU RASGELE DEĞİŞKENLER İki Boyutlu Rasgele Değişkenler

YÜKSEK FREKANSLI HABERLEÞME DEVRELERÝ ÝÇÝN, TOPLU - DAÐINIK, KARMA ELEMANLI ARABAÐLAÞIM MODELLERÝNÝN BÝLGÝSAYAR DESTEKLÝ TASARIMI

Şiddet-Süre-Frekans Bağıntısının Genetik Algoritma ile Belirlenmesi: GAP Örneği *

DOĞRUSAL HEDEF PROGRAMLAMA İLE BÜTÇELEME. Hazırlayan: Ozan Kocadağlı Danışman: Prof. Dr. Nalan Cinemre

TEKLİF MEKTUBU SAĞLIK BAKANLIĞI_. '.. m

GRUPLARDA VE YARIGRUPLARDA ETKİNLİK(EFFICIENCY) The Efficiency Of Groups And Semigroups *

ARAŞTIRMA MAKALESİ/RESEARCH ARTICLE TEK ÇARPIMSAL SİNİR HÜCRELİ YAPAY SİNİR AĞI MODELİNİN EĞİTİMİ İÇİN ABC VE BP YÖNTEMLERİNİN KARŞILAŞTIRILMASI ÖZ

G.1. : Y.Kutlu, M.Kuntalp, D.Kuntalp. : Öz Düzenleyici Haritalar Kullanilarak Diken Dalgalarin Analizi. Yay nlanan Kitapç k.

Parametrik Olmayan İstatistik Çözümlü Sorular - 2

Calculating the Index of Refraction of Air

BÖLÜM II D. YENİ YIĞMA BİNALARIN TASARIM, DEĞERLENDİRME VE GÜÇLENDİRME ÖRNEKLERİ ÖRNEK 20 İKİ KATLI YIĞMA KONUT BİNASININ TASARIMI

ROTASYON ORMAN ALGORİTMASI İLE YÜKSEK ÇÖZÜNÜRLÜKLÜ MULTİSPEKTRAL UYDU GÖRÜNTÜLERİNİN SINIFLANDIRILMASI

BİRLEŞİK DALGACIK-SİNİR AĞI MODELİ YAKLAŞIMI İLE ELEKTRİK GÜÇ SİSTEMLERİNDE ARIZA SINIFLAMA

Resmi Gazetenin tarih ve sayılı ile yayınlanmıştır. TEİAŞ Türkiye Elektrik İletim Anonim Şirketi

ZKÜ Mühendislik Fakültesi - Makine Mühendisliği Bölümü ISI VE TERMODİNAMİK LABORATUVARI Sudan Suya Türbülanslı Akış Isı Değiştirgeci Deney Föyü

DEÜ MÜHENDİSLİK FAKÜLTESİ MÜHENDİSLİK BİLİMLERİ DERGİSİ Cilt:13 Sayı:2 sh Mayıs 2012

KIRMIZI, TAVUK VE BEYAZ ET TALEBİNİN TAM TALEP SİSTEMİ YAKLAŞIMIYLA ANALİZİ

6. NORMAL ALT GRUPLAR

YAYILI YÜK İLE YÜKLENMİŞ YAPI KİRİŞLERİNDE GÖÇME YÜKÜ HESABI. Perihan (Karakulak) EFE

Toplam Eşdeğer Deprem Yükünün Hesabı Bakımından 1975 Deprem Yönetmeliği İle 2006 Deprem Yönetmeliğinin Karşılaştırılması

Kİ-KARE TESTLERİ A) Kİ-KARE DAĞILIMI VE ÖZELLİKLERİ

Pamukkale Üniversitesi Mühendislik Bilimleri Dergisi Pamukkale University Journal of Engineering Sciences

T. C. GÜMÜŞHANE ÜNİVERSİTESİ MÜHENDİSLİK FAKÜLTESİ MAKİNE MÜHENDİSLİĞİ BÖLÜMÜ MAKİNE MÜHENDİSLİĞİ DENEYLER 1 ÇOKLU ISI DEĞİŞTİRİCİSİ DENEYİ

Merkezi Eğilim (Yer) Ölçüleri

Asimetri ve Basıklık Ölçüleri Ortalamalara dayanan (Pearson) Kartillere dayanan (Bowley) Momentlere dayanan asimetri ve basıklık ölçüleri

2. STEGANOGRAFİ 1. GİRİŞ

TEİAŞ Türkiye Elektrik İletim Anonim Şirketi. İletim Sistemi Sistem Kullanım ve Sistem İşletim Tarifelerini Hesaplama ve Uygulama Yöntem Bildirimi

Transkript:

Saklı Markov Model Kullanarak Türkçe Konuşma Tanıma Özlem Yakar, Rıfat Aşlıyan Adnan Menderes Ünverstes, Matematk Bölümü, Aydın ozlemyakar.34@gmal.com, raslyan@adu.edu.tr Özet: Konuşma tanıma, sesl fadelern blgsayar tarafından şlenerek yazılı metne dönüştürme şlemdr. İnglzce çn çok fazla konuşma tanıma çalışmaları yapılmasına rağmen Türkçe çn bu çalışmaların çok fazla olmadığı söyleneblr. Türkçenn eklemel br dl olmasından dolayı br sözcüğe ekler ekleyerek br çok yen sözcük türetleblmektedr. Bu durum, sözcük tabanlı Türkçe konuşma uygulamaların gelştrlmesn güçleştrmektedr. Aynı zamanda, ses brmlernn (fonem, hece, sözcük) uzunluğu artığında konuşma tanıma uygulamaların başarısı da yükselmektedr. Dolayısıyla, bu çalışmamızda hece tabanlı Türkçe konuşma tanıma uygulamaları gelştrlmştr. En güncel konuşma tanıma metotlarından Saklı Markov Model kullanılarak orta ölçekl konuşma tanıma sstemler oluşturulmuştur. Seslendrlen sözcükler lk olarak önşleme safhasından geçrlmş, sonra hecelere ayrılmıştır. Her hece ses brm, LPC, MFCC, parcor özntelkler kullanılarak hece özntelk vektörler elde edlmştr. Son olarak, 200 Türkçe sözcüğün heceler, Saklı Markov Model le eğtlerek her br çn modeller oluşturulmuştur ve sstemler test edlerek başarı oranları hesaplanmıştır. Orta dağarcıklı konuşma tanıma sstemnn sözlüğünde 200 Türkçe sözcük bulunmaktadır. Her br sözcük 10 defa kaydedlerek 2000 sözcüklü test vertabanı oluşturuldu ve test şlem yapıldı. Sstemn başarımını ölçmek çn sözcük hata oranı (word error rate) kullanıldı. Sözcük hata oranı, Saklı Markov Model çn % 17,4 olarak bulunmuştur. Artşleme, sstemn başarımını yaklaşık olarak %20 oranında artırmıştır. Anahtar Sözcükler: Türkçe Konuşma Tanıma, Saklı Markov Model, Hece Tabanlı Konuşma Tanıma. Turksh Speech Recognton Usng Hdden Markov Model Abstract: Speech recognton s to convert speech sgnals nto text after processng wth computer. Although a lot of speech recognton studes have been made for Englsh, t can be sad that there are comparatvely lmted number of Turksh speech recognton studes. Because Turksh s an agglutnatve language, many word can be generated wth addng suffxes. For that reason, t makes dffcult to develop word based Turksh speech recognton systems. If long speech unts (phoneme, syllable, word) are chosen for speech recognton, the success of the system wll ncrease. That's why, n ths study, syllable based speech recognton systems have been developed. Hdden Markov Model, whch s one of the state-of-the-art speech recognton methods, s used n our medum scale speech recognton studes. Frst, the nput word utterance s appled to preprocessng operaton and dvded nto syllables. After obtanng syllable utterances, LPC, parcor and MFCC coeffcents are computed for all syllables. All syllable feature vectors are traned wth Hdden Markov Model, and models for each syllable n 200 Turksh words have been constructed. After recordng each word ten tmes, we have generated a speech test dataset whch ncludes two thousand Turksh words. We have used word error rate (WER) for evaluatng the systems. After testng operaton, for Hdden Markov Model the most successful WER result s found as 17.4 %. Postprocessng operaton has been ncreased systems success about 20 %.

Keywords: Turksh Speech Recognton, Hdden Markov Model, Syllable Based Speech Recognton. 1. Grş Konuşma, br nsanın duygu ve düşüncelernn, akcğerlernden gelen havanın boğaz, ağız ve burun yolunda bçmlenp başka nsanın kulakları yardımıyla alınablmes çn sese dönüştürülmes şlemdr. İnsanların konuşma yeteneğ blm dünyasında merak ve araştırma konusu olmuştur. Son yetmş yılda, nsan-makne letşm yan konuşma tanıma ve konuşma sentezleme konusunda hızlı gelşmeler olmuştur. Konuşma tanıma, akustk ses snyallernn br elektronk makne tarafından şlenerek metne dönüştürülmes şlemdr. Konuşma sentezleme se metnlern ses snyallerne dönüştürülmesdr. İy br nsan-makne etkleşmnn olablmes çn lk olarak konuşma tanıma ve konuşma sentezleme konularında başarılı çalışmaların olması gerekmektedr. Son yrm yılda konuşma tanıma konusunda büyük başarılar elde edlmştr. Fakat, yüzde yüz başarılı konuşma tanıma sstemler henüz gelştrlmemştr. Konuşma tanımadak en öneml zorluklar, konuşmadan konuşmaya değşen ses snyaller, ses letm ve kaydetme ortamlarıdır. Dğer br zorlayıcı durum, konuşmacının duygusal durumundan kaynaklanan sesn spektral ve perde değşklğdr. Konuşma tanıma, kullanılan metodun özellğne göre "Şablon Tabanlı" veya "Model Tabanlı" olmak üzere genel olarak kye ayrılmaktadır. Şablon tabanlı konuşma tanımaya örnek olarak Dnamk Zaman Bükmes ve Doğrusal Zaman Hzalama metotları verleblr. Çok Katmanlı Algılayıcı, Destek Vektör Maknes ve Saklı Markov Model, model tabanlı metotlardandır. Şablon tabanlı metotlarda, her ses örneğnn br şablonu oluşturulur ve bu şablonla karşılaştırma şlem yapılır. Model tabanlı metotlar se ses örnekler eğtlerek genel özellkler çıkarılır ve br model oluşturulur. Konuşma tanıma çalışmaları konuşmacıya bağımlı ve konuşmacıdan bağımsız sstemler şeklnde de sınıflandırılablr. Aynı zamanda, sözcük sayısına göre de küçük ölçekl (1-100 sözcük), orta ölçekl (101-1000 sözcük) ve büyük ölçekl (>1000 sözcük) konuşma tanıma sstemler vardır. İlk konuşma tanıma çalışmaları 1940'ların sonlarında başlamıştır. Fakat, Konuşma tanıma çalışmaları son 30 yılda hızlanarak artmıştır. Bu çalışmaların büyük çoğunluğu konuşma tanımadak temel bleşen olarak fonem ve sözcük brmler kullanılmıştır. Fonem benzer brmler arasındak sınırların tespt edlmes oldukça zor br süreçtr. Sözcük brmlern temel alan sstemler, fonem brmlern kullanan sstemlern problemlern çermese de br çok hesaplama ve ver eğtmn berabernde getrmektedr. Türkçe sondan eklemel dller [5] grubuna grdğnden genş ölçekl konuşma tanıma sstemlernde sözcüğü temel brm olarak almak problem oluşturablr. Çünkü, br sözcüğe ekler getrmek suretyle onlarca yen sözcük türetleblr. Bu yüzden çalışmamızda sstemn temel brm olarak fonem ve sözcük arasında br brm olan hece seçlmştr. Günümüze kadar yayınlanmış heceler temel alan konuşma tanıma [3], [11], [12] sstemler çok fazla değldr. Konuşma tanıma sstemler konuşmacıya bağımlı veya konuşmacıya bağımsız olablr. Konuşma tanımada yaygın olarak terch edlen özntelkler doğrusal öngörülü kodlama (LPC) [1], [2], [9], [10], [12], parcor ve MFCC (mel frequency cepstral coeffcent) özntelklerdr. En çok kullanılan yöntemler Dnamk Zaman Bükmes (DZB) [4], [6], [7], Yapay Snr Ağları (YSA) ve Saklı Markov Modeldr (SMM) [5], [12], [13]. Bu çalışmada, Saklı Markov Model kullanılarak orta ölçekl, ayrık sözcük tanıma sstemler gerçekleştrlmştr. İmla

kılavuzundan brbrne çok benzer 200 sözcük seçlerek LPC, parcor ve MFCC özntelk değerler kullanılarak kşye bağımlı uygulamalar yapılmıştır. Test şlem çn 2000 tane sözcük kaydedld ve sstemn en başarılı olduğu MFCC özntelklerne göre doğru tanıma oranı %82,6 olmuştur. Bu çalışmanın knc bölümünde sstemn genel yapısı hakkında genel blgler verlmştr. Üçüncü bölümünde se hece sınırlarının nasıl tespt edldğ hakkında bahsedlmştr. Dördüncü bölümde kullanılan özntelklern hece ses snyallernden nasıl çıkarıldığı anlatılmaktadır. Beşnc bölümde SMM metodu açıklanmaktadır. Altıncı bölümde artşleme algortması verlmştr. Yednc ve sekznc bölümde sırasıyla sstemn test edlmes ve sonuç hakkında bahsedlmektedr. 2. Sstemn Genel Yapısı Gelştrlen sstemler, Şekl 1 de görüldüğü gb önşleme, hece sınır ve özntelk tespt, SMM Metodu (Konuşma tanıma metodu) ve artşleme olmak üzere dört safhadan meydana gelmektedr. İlk safhada, önceden belrlenmş k yüz sözcüğün ses snyaller önşlemden geçrlr. İknc aşamada, her br hece ses snyalnn, hece özntelk vektörler tespt edlr. Üçüncü aşamada se SMM [5] metoduyla hece tanıma şlem gerçekleştrlr. Son aşamada se konuşma tanıma başarısını yükseltmek çn artşleme şlem yapılır. Her br hecenn özntelk şablonlarının hesaplanması çn sözcükler wave formatında 2 sanyelk zaman aralığında br konuşmacı tarafından 11025 Hz de örneklenp 16 bt darbe kod kplenm kullanılıp ncemlenerek ve önşleme şlemnden geçrlmştr. Önşlemede ses snyallernn ortalaması sıfır olacak şeklde yenden düzenlenmştr (1). x, ses snyaln; m, ses snyalnn n ortalamasını ve y n se, yen ses snyaln temsl etmektedr. (1) Hece sınırları tespt edlmeden ve özntelk çıkartma şlem yapılmadan önce ses örneklerne önvurgulama yapılmaktadır. Daha sonra hece sınırları tespt edlr. Hece sınırlarının tespt Bölüm 3'te algortmasıyla brlkte anlatılmıştır. Her hecenn ses örnekler 20 ms lk çerçevelere ayrılarak çerçeveler üzerne Hammng pencereleme uygulanır. Çerçeveler arasındak örtüşme 10 mlsanyedr. Daha sonra Bölüm 4 de anlatıldığı gb hecenn her çerçeves çn özntelk değerlernden 8 er tane LPC, parcor ve MFCC özntelk vektörler bulunur. Şekl 1. Sstemn Genel Yapısı SMM konuşma tanıma metoduyla eğtm aşamasındak her br hecenn SMM hece model oluşturulur. Daha sonrasında hece ses snyaller le hece modeller arasındak benzerlk hesaplanarak sözcüktek tanına heceler belrlenr. Daha y tanıma gerçekleştrmek çn en sonunda Artşleme yapılır. 3. Hece Sınırları Belrleme Hece sınırları tespt yöntem k aşamadan oluşmaktadır. Brncs, sözcük ses snyallernn başlangıç ve btş noktalarının belrlenmes şlemdr. Bunun çn sözcüğün seslendrldğ kısma kadar ve

seslendrlmenn bttğ yerden sona kadar olan gürültüsüz alanlar slnr. İkncs, sözcüktek hecelern sınırlarının tespt şlemdr. Aşağıda hece sınırlarının tespt algortması verlmştr. 3.1 Sözcüktek Hecelern Sınırlarının Tespt Algortması Sesn başlangıç ve btş ndeksler (SB ve SS) tespt edldkten sonra aşağıdak algortmayla hece sınırları tespt edlr. 1. n n, n,..., n ) ( x, x,..., x ) ( 1 2 k SB SB1 SS 2. n vektörü örtüşme yapılmaksızın 900 örnekl pencerelere bölünür. n vektörü, 900 örnekl her pencerenn ortalamasının vektörüdür. n ( n1, n2,..., np) ve p k / 900 (2) ( 1)*900 1 n n m / 900,=1,2,,p (3) m*900 3. n vektörünün art arda gelen değerler arasında eğmler hesaplanıp eğm vektörü oluşturulur. =1,2,,p-1 çn, n ( n, n,..., n ) ve ne n1 / n (4) E E 1 E2 E p 1 4. Eğm vektöründen +1 ve -1 lerden oluşan yen br vektör a a, a,..., a ) ( 1 2 p1 hesaplanır. Yan artan ve azalan vektörü bulunur. For k=1 To p-1 Eğer n 0 se a 1 E k Aks halde a k 1 5. H: Sözcüktek hece sayısı H 0 For k=2 To p-1 Eğer a k1 1 ve a k 1 se H H 1 6. a vektöründek -1 değerlern çeren ndeks gruplarının ortasındak ndeks k değerler, yaklaşık olarak hece sınırlarının olduğu değerler olmaktadır. Hece sınırları H- 1 tane olacaktır. Hece sınırları vektörü s ( s 1, s 2,..., s H1 ) hesaplanır. S değerler x vektörünün ndekslern tutan değerlerdr. For k=1 To H-1 a vektöründe art arda gelen k nc -1 değerlerne sahp ndekslern ortasındak ndeks w se s k SB900* w 7. Şmdye kadar x vektöründe sesn başlangıç değer SB ve btş değer SS kesn olarak tespt edld. S vektörü se heceler arasındak yaklaşık sınır ndeksler vektörüdür. Daha doğru sınırları bulmak çn aşağıdak şlem yapılır ve s ( s, s,..., s ) vektörü elde edlr. Burada 1 2 H1 s1 SB ve s H 1 SS olmak üzere, For =1 To H-1 s 500 le s 500 aralığında 20 örnekl pencereler oluşturulur ve bu pencerelern ortalamaları hesaplandıktan sonra en küçük ortalamaya sahp pencerenn ortasındak ndeks q se olur. s 1 q 8. x ses vektöründek hecelern sınır ndeksler s vektörü şeklnde bulunur. k nc hecenn hece başlangıcı sk ve hece btş s k1 ndeks olacaktır. Sözcükte H tane de hece vardır. 4. LPC, Parcor ve MFCC Özntelklernn Belrlenmes LPC, parcor ve MFCC özntelkler hesaplanmadan önce hece ses snyallernn vektörler önvurgulama le fltrelenr. Sonra, 20 ms lk çerçevelere bölünür. 10 ms lk örtüşme şlem yapılır. Her çerçeveye Hammng pencereleme uygulanır. Karşılıklı lnt [9], [10] şlemyle özlnt vektörü [9], [10] hesaplanır. Levnson metoduyla [10] doğrusal öngörülü kodlama ve Parcor özntelkler çıkarılır. Sonuç olarak, her

çerçeve çn 8 LPC, parcor ve MFCC özntelk değerler elde edlr. Her hece çn oluşturulan bu özntelk vektörler daha sonra kullanılmak üzere dosya adı, hece sm ve dosya uzantısı da fetn olacak şeklde kaydedlrler. N, hecenn sözcüktek kaçıncı hece olduğunu fade eder. 5. Saklı Markov Model SMM, ses snyallernn statstksel olarak modelleyen br metottur. SMM, en başarılı konuşma tanıma metotlarından br olmuştur. Çünkü, SMM, ses snyallern çok uygun br şeklde matematksel olarak karakterze etme özellğe sahptr. SMM'nn grds, vektör olarak temsl edlen zamana bağlı ayrık verlerden oluşan br dzdr. SMM, her brnn olasılık dağılımlarıyla bağlı olan sonlu durumlardan (state) oluşmaktadır. Durumlar arasındak geçşler, geçş olasılıkları (transton probablty) adı verlen olasılık değerleryle belrlenr. Br durum çndek gözlem veya sonuç ona bağlı olan olasılık dağılımlarından elde edlmektedr. Durumlar, dışarıdak gözlemclere görünür değldr. Bu sebepten "Saklı" (Hdden) sözcüğü SMM metodunda bulunmaktadır. SMM metodunu tanımlamak çn aşağıdak değşkenlere htyaç vardır: a N:Modeldek durum sayısı. M:Alfabedek gözlem sembollernn sayısı. Eğer gözlemler sürekl se M sonsuz olacaktır. A: Denklem 5'te görüldüğü gb geçş olasılıkları A { a } j j p{ qt1 j qt }, 1,j N (5) q şmdk durumu temsl etmektedr. Geçş t olasılıkları, Denklem 6 ve 7'dek normal olasılıksal kısıtları sağlar. 0, 1, j N (6) a j N a j j1 1, 1 N (7) Denklem 8'de görüldüğü gb durumların olasılık dağılımları. B { bj ( k)} (8) b ( k) p{0 v q j}, 1 j N 1 M j t k t v k, alfabedek k. gözlem sembolünü fade etmektedr. o t se şmdk parametre vektörüdür. Denklem 9 ve 10'dak olasılıksal kısıtlar sağlanmalıdır. b j ( k) 0, 1 j N, 1 k M (9) M k 1 b ( k) 1, j 1 j N (10) Eğer gözlemler sürekl se ayrık olasılık yerne olasılık yoğunluk şlevn kullanmak zorunda olacağız. Bu durumda olasılık yoğunluk şlevnn parametrelern belrlememz gerekr. Genelde, Denklem 11'de görüldüğü üzere olasılık yoğunluğu M Gaus dağılımlarının, ağırlıklarının toplamına yaklaştırılır. c jm aşağıdak olasılıksak kısıtları sağlamak zorundadır. c jm M m 1 (11) 0, 1 j N, 1 m M (12) c jm 1, 1 j N (13) Aşağıdak denklemlerde başlangıç durum dağılımları verlmştr. { } p{ q }, 1 1 N (14) Kompak notasyon kullanmak stersek Denklem 15 ve 16'da görüldüğü gb sürekl yoğunluklar kullanılarak olasılık dağılımlı SMM'y fade edeblrz.

( A, B, ) (15) ( A,,,, ) (16) c jm 6. Artşleme Algortması jm jm SMM metoduyla hece tanıma sürec bttkten sonra heceler brleştrlerek tanınan sözcük tespt edlr. Fakat, bulunan bu sözcük yanlış tanıma sonucunda Türkçe olmayan br sözcük olablr. Tanıma başarısını artırmak çn her hecenn tanıma, lk 10 sıraya göre sıralanır. Heceler en üst sıraya göre brleştrlerek Türkçe sözcük aranır. Türkçe br sözcük bulunursa tanıma şlem sonlandırılır. N: Test vertabanından alınan sözcüğün hece sayısı. H k (s) :Test edlecek sözcüğün k nc hecesne s nc sırada en çok benzeyen hecedr. 1. 1,2,..., 10 ve s : nc heceye en çok benzeyen 10 heceden br. H1( s1) H2( s2)... HN ( s10) şeklnde heceler brleştrlr ve yen sözcük oluşturulur. N Toplam 10 sözcük elde edlr. 2. Her sözcük çn br düzey belrlenr. 1. adımdak sözcüğü oluşturan hecelern sıralarının toplamı hesaplanır ve bu toplam o sözcüğün düzey olur. dosyası çeren test vertabanı oluşturulmuştur. 200 farklı sözcük ses snyaller bulunan bu vertabanında her sözcük 10 defa kaydedlmştr. Buradak ses dosyalarının hece sınırlarının tesptnden sonra her hecenn LPC, Parcor ve MFCC özntelkler hesaplanmıştır. Test vertabanındak sözcüklern her br hecesne en çok benzeyen 10 tane hece Saklı Markov Model metodu kullanılarak bulunur. Uzaklık değer en küçük olan heceler en çok brbrne benzeyen hecelerdr. Test vertabanındak sözcüğün hecelerne en küçük uzaklıkta olan heceler brleştrlrse en yakın metn sözcüğü elde edlr. Tablo 1 de kullanılan özntelklere göre ve artşleme kullanılıp kullanılmadığına bağlı olarak sstemn tanıma oranları verlmştr. Buna göre artşleme kullanılarak tanıma başarısı yaklaşık %20 artmıştır. En büyük başarı MFCC özntelğ üzernde artşlem kullanılarak elde edlmştr ve başarı oranı %82,6 bulunmuştur. Tablo 1. Sstemn sözcük hata oranları. Konuşma Tanıma Metodu Özntelkler LPC parcor MFCC SMM 43,2 37,4 34,6 SMM (Artşleme) 22,2 18,4 17,4 3. Sözcükler, sözcük düzeyne göre sıralanır. 4. Sözcük düzey en küçük olandan başlanır ve bu sözcük, sözcük vertabanında mevcut se sözcük bulunmuş olur dğer sözcüklere bakılmaksızın şlem bter. Hçbr sözcük vertabanında yoksa sstem br sözcük bulamamıştır. 7. Test İşlem Çalışmalarımız Pentum Centrno 1.6 şlemc, 768 RAM, 40 GB sabt dsk, Wndows XP şletm sstem, ses kartı, hoparlör ve mkrofona sahp blgsayar üzernde gerçekleştrlmştr. Uygulama programları Matlab 6.5 le kodlanmıştır. Sstemn test edlmes çn 2000 wav ses 8. Sonuçlar Bu çalışmada, Saklı Markov Model metodu kullanılarak hece tabanlı Türkçe ayrık ve kşye bağımlı konuşma tanıma sstemler gelştrlmştr. Özntelk olarak, doğrusal öngörülü kodlama (LPC), parcor ve MFCC özntelkler seçlmştr ve uygulamalar gerçekleştrlp karşılaştırılmıştır. Ssteme dahl edlen artşleme yöntem sstemn başarımını oldukça artırmıştır. Sstemn en başarılı özntelğ MFCC olmuştur ve sözcük hata oranı %17,4 olarak tespt edlmştr. Özntelklern başarı sırası MFCC, parcor ve LPC olmuştur. Çalışmanın daha sonrak aşamasında yapay

snr ağları ve nave bayes yöntem kullanılacaktır. Bütün hecelern kullanılıp modellenmesyle genş dağarcıklı Türkçe konuşma tanıma sstem gelştrlmes mümkün olacaktır. 9. KAYNAKLAR [1] Harma, A., "A comparson of warped and conventonal lnear predctve codng", IEEE Trans. Speech and Audo Processng, July, (2001). [2] Harma, A., "Lnear predctve codng wth modfed flter structures", IEEE Trans. Speech Audo Processng, 9(8):769-777, (2001). [3] Jones, R. J., Downey, S. Mason, J. S., "Contnuous Speech Recognton usng Syllables", Proc. Eurospeech, Volume 3, pp. 1171-1174, (1997). [4] Kruskall, J. and Lberman, M., "The Symmetrc Tme Warpng Problem: From Contnuous to Dscrete", In Tme Warps, Strng Edts and Macromolecules: The Theory and Practce of Sequence Comparson, Addson-Wesley Publshng Co., Readng, Massachusetts, 125-161, (1983). [5] Mengusoglu, E., and Derro, O., "Turksh LVCSR: Database preparaton and Language Modelng for an Agglutnatve Language", ICASSP'2001, Student Forum, Salt- Lake Cty, (2001). [6] Myers, C.S., Rabner, L.R. and Rosenberg, A.E., "Performance tradeoffs n dynamc tme warpng algorthms for solated word recognton", IEEE Trans. Acous., Speech, and Sg. Processng, ASSP-28, 6:623-635, (1980). [7] Palwal, K.K., Agarwal A. and Snha, S.S., "A modfcaton over Sakoe and Chba's dynamc tme warpng algorthm for solated word recognton", Sgnal Processng, 4:329-333, (1982). [8] Palwal, K.K., "On the performance of the quefrency-weghted cepstral coeffcents n vowel recognton", Speech Communcaton, 1(2):151-154, (1982). [9] Proaks, J.G. and Manolaks, D.G., "Dgtal Sgnal Processng: Prncples and Applcaton", Prentce-Hall, Upper Saddle Rver, NJ, (1996). [10] Rabner, L. and Juang B.H., "Fundamentals of Speech Recognton", Prenctce-Hall, Englewood Clffs, NJ, (1993). [11] Rosenberg, A.E., Rabner, L.R., Levnson, S.E. and Wlpon, J.G., "A prelmnary study on the use of demsyllables n automatc speech recognton", Conf. Rec. Int. Conf. on Acous., Speech, and Sg. Processng, GA, Atlanta, 967-970, (1981). [12] Shafran, I., "Clusterng wde context and HMM topologes for spontaneous speech recognton", Ph.D. Thess, Unversty of Washngton, (2001). [13] Svendsen, T., Palwal, K.K., Harborg E. and Husoy, P.O., "A modfed acoustc sub-word unt based speech recognzer", Proc. IEEE Intern. Conf. on Acoustcs, Speech and Sgnal Processng, Glasgow, U.K., 108-111, (1989).