Recommendations for Increasing the Naturalness in Turkish Text-to-Speech Synthesis



Benzer belgeler
Kesir Örnek Çözüm. 1. Yandaki şekilde bir TEST Taralı alanı gösteren. bütün 8 eş parçaya bölünmüş ve bu parçalardan 3 tanesi

PLAJLARDA ÇEVRE BİLİNÇLENDİRME PROJESİ. (19-22 Ağustos 2013 Akyaka)

TEST - 1 KATI BASINCI. I. yarg do rudur. II. yarg yanl flt r. Buna göre, fiekil-i de K ve L cisimlerinin yere yapt klar bas nçlar eflit oldu una göre,

BİLİMSEL SÜREÇLERİN KAZANIMINA YÖNELİK BİR PROGRAM ÇALIŞMASI

ege yayıncılık Oran Orant Özellikleri TEST : 91 a + 3b a b = 5 2 0,44 0,5 = 0,22 oldu una göre, a + b en az kaçt r? A) 3 B) 11 C) 14 D) 15 E) 16

Komisyon. ALES EŞİT AĞRILIK ve SAYISAL ADAYLARA TAMAMI ÇÖZÜMLÜ 10 DENEME ISBN

OKUL DENEYİMİ VE KAYNAŞTIRMA UYGULAMALARI

Ö rendiklerimizi Nerelerde Kullanabiliriz? Alan tahmin etmede kullanabiliriz.

Veri, Sayma ve Olasılık. Test / 30. soru 1. soru 5. soru 2. soru 6. soru 3. soru 7. soru 8. soru 4

BÖLÜM II B. YENĐ ÇELĐK BĐNALARIN TASARIM ÖRNEKLERĐ ÖRNEK 6 ĐKĐ DOĞRULTUDA SÜNEKLĐK DÜZEYĐ YÜKSEK MERKEZĐ ÇAPRAZ PERDELĐ ÇELĐK BĐNANIN TASARIMI

Kontak İbreli Termometreler

A A A A A TEMEL MATEMAT K TEST. + Bu bölümdeki cevaplar n z cevap ka d ndaki "TEMEL MATEMAT K TEST " bölümüne iflaretleyiniz. 4.

BÖLÜM 5. MATRİS ve DETERMİNANTLAR 5.1. MATRİSLER. Taşkın, Çetin, Abdullayeva. reel sayılardan oluşan. olmak üzere tüm a.

JOVO STEFANOVSKİ NAUM CELAKOSKİ. Sekizyıllık İlköğretim

Bahçe Mah. Soğuksu Cad. No:73 MERSİN Tel : : Gsm :0.

SAYIM FORMÜLERİ (31 Mart saat 24 itibarıyla durumu) SAYIM ÇEVRESİ KONUT AİLE (EV HALKI) KİŞİ. Doğum tarihi. Çalışan kişi aile üyesi olarak ikamet eder

TÜRKİYE DE İLLERİN TRAFİK GÜVENLİĞİNİN ANALİTİK HİYERARŞİ PROSESİ (AHP)İLE BELİRLENMESİ

İDEAL PERFORMANS DEĞERLENDİRME FORMU TASARIMINDA ANALİTİK HİYERARŞİ YÖNTEMİ YAKLAŞIMI

VORTEKS TÜPÜNDE AKIŞKAN OLARAK KULLANILAN HAVA İLE OKSİJENİN SOĞUTMA SICAKLIK PERFORMANSLARININ DENEYSEL İNCELENMESİ

Sistem Dinamiği ve Modellemesi. Doğrusal Sistemlerin Sınıflandırılması Doğrusal Sistemlerin Zaman Davranışı

ORAN ORANTI ÖYS. = = yazılabilir. veya ALIŞTIRMALAR

Yükseköğretime Geçiş Sınavı (Ygs) / 1 Nisan Matematik Soruları ve Çözümleri

KARŞI AKIŞLI SU SOĞUTMA KULESİ BOYUTLANIDIRILMASI

1.BÖLÜM SORU SORU. Reel say larda her a ve b için a 2 b 2 = (a+b) 2 2ab biçiminde bir ifllemi tan mlan yor.

Do ufl Üniversitesi Matematik Kulübü Fen Liseleri Yar flmas 2005 Soru ve Yan tlar

Yrd. Doç. Dr., Süleyman Demirel Üniversitesi, Yalvaç Meslek Yüksek Okulu

Kemalpaşa (İzmir) Kentsel Dış Mekanlarının Yeterliliği Üzerine Bir Araştırma

12. SINIF MATEMATİK DERSİ İLERİ DÜZEY ÖĞRETİM PROGRAMI

Uzunluklar Ölçme. Çevre. Alan. Zaman Ölçme. S v lar Ölçme. Hacmi Ölçme

SORU SORU. ABCDEF... düzgün çokgenin ard fl k köfleleridir. m(ebf) = 12 ise

1.BÖLÜM SORU. (x+3) (4x 2 13) = 3(x+3) denklemini sa layan x de- erlerinin çarp m kaçt r? x+3 kümesi afla dakilerden hangisidir?

Alana Özgü Web Servis Keşif Sistemlerinde Otomatik Servis Kalitesi Hesaplama Yöntemi

DENKLEM ÇÖZME DENKLEM ÇÖZME. Birinci dereceden İki bilinmeyenli. 2x 2 + 5x + 2 = 0. 3x x = 0. 5x + 3 = 0. x + 17 = 24.

2005 ÖSS BASIN KOPYASI SAYISAL BÖLÜM BU BÖLÜMDE CEVAPLAYACAĞINIZ TOPLAM SORU SAYISI 90 DIR. Matematiksel İlişkilerden Yararlanma Gücü,

SAYI KÜMELERİ. Örnek...1 :

faydalı motor işletme sahasında her devirdeki muhtemel maksimum güç veya maksimum moment motor işletmesinin tatminkar olduğu devir ve güç sahası

BUHAR SIKIŞTIRMALI SOĞUTMA SİSTEMLERİNDE AŞIRI SOĞUTMA VE AŞIRI KIZDIRMA ETKİSİNİN ISIL EKONOMİK AÇIDAN İNCELENMESİ

İKİNCİ DERECEDEN DENKLEMLER

SORU. m(cdo ) = = 20 olur. OB = OD = OC = r den; m(bco ) = 30, m(dco ) = 20 ve. [AB ile [AD B ve D noktalar nda çembere te ettir.

KULLANIM KITAPÇIĞI EFL50555OX

Dikkat, Yüksek Gerilim, Çift / Takviyeli Çöpe CE Đşareti Tehlike Riski, Elektrik Çarpması Yalıtımlı Atmayın Uyarı Tehlikesi

Bu ürünü kullanmadan önce verilen talimatları dikkatlice okuyun ve daha sonra tekrar faydalanmak üzere saklayın.

SELEKTİF SEROTONİN GERİALIM İNHİBİTÖRÜ İLAÇLARIN PERİFERİK ETKİLERİ

ÖLÇME TEKNĠKLERĠ DERSĠ








İ İ



İ İ Ö Ö




Ç Ç Ş Ö



ç ış ı ı ı ı ı ı ı ıı ı çı ı ı ı ı ığı ı ğ ı ı ı ıı ı ı ı









Ö Ç Ö



ğ ğ Ö ğ ğ ğ ğ ğ ğ ğ ğ ğ ğ ğ ğ ğ ğ Ö ğ ğ ğ ğ















Ç Ö Ş Ş Ç Ü Ş Ş Ö Ü









Ö


Transkript:

Uslu İ. B., İl H. G., Yılmz A. E., Türçe Metinden Konuşm Sentezlemede Doğllığın Artırılmsı İçin Öneriler, EMO Bilimsel Derg Cilt, Syı 2, Syf 95-2, Arlı 2 TürçeMetindenKonumSentezlemede Dollıın Artırılmsı çin Öneriler Recommendtions for Incresing the Nturlness in Turish Text-to-Speech Synthesis. Brn Uslu, H. Göhn l 2, A. Egemen Yılmz 2 Eletri-Eletroni Mühendislii Bölümü Bent Üniversitesi ibuslu@bsent.edu.tr 2 Eletroni Mühendislii Bölümü Anr Üniversitesi h.gohn.il@eng.nr.edu.tr, eyilmz@eng.nr.edu.tr Özet Metinden onum sentezleme; yzılı bir metnin gelitirilen sistem trfındn otomti olr ounmsıdır. Bu çlımd, difon tbnlı, elemeli bir onum sentezleyici tsrlnmı ve gerçeletirilmitir. Birletirmede PSOLA yöntemi ullnılmtdır. Genellile onum sentezleyicilerin ezgi modeli yotur vey esitir. Bu durum sentezlenen onumnın dollıını olumsuz yönde etiler. Çlımmızd bu esiliin giderilmesi için yeni bir model önerilmitir. Sentezlenen onumnın dollıının rtırılmsı için, onumnın ezgisi üzerinde süre ve vurgu temelli urllr tnımlnmıtır. Bu urllr, hzırlnn r yüzde ypıln pe ço denemenin sonucund bulunmutur. Uygulnn urllrın sentezlerin dollıındi brısı öznel dinleme testleriyle ölçülmütür. Sonuç olr, tnımlnn urllrın gelitirilen onum sentezleyicide uygulnmsı ile CMOS testi sonucund,86/5, punlı bir rtı elde edilmitir. Bu sonuç, ezgi modelimizin brılı olduunu göstermetedir. Anhtr elimeler: Metinden onum sentezleme, difon, PSOLA, ezgi model dollı, CMOS Abstrct Text to speech synthesis (TTS) is the utomtic reding of text by system. In this wor, TTS system which conctentes diphones hs been designed nd implemented. For conctentions, PSOLA method ws used. Usully speech synthesizers lc n intontion model. This degrdes the nturlness of the synthesized speech. For incresing the nturlness of the synthesized speech, durtion nd ccent bsed rules were defined in this study for proper intontion. These rules were determined fter n extensive set of experiments performed in the designed testbed. In the end, n improvement of.86/5. in the CMOS score ws obtined by pplying the defined rules in the developed synthesis pltform. This result shows the success of our intontion model. Keywords: Text to speech synthesis (TTS), diphone, PSOLA, intontion model, nturlness, CMOS. Giri Metinden onum sentezleme (MKS); pe ço dil için ort ve önemli bir rtırm onusudur. Görme ve onum engelli insnlr için iletiim imânı slmsı [], sesli ynıt, uyrı ve oum sistemleri [2-4], dil ediniminde ve ybncı dil öretiminde olylılr slmsı [5], MKS nin uygulm lnlrındn bzılrıdır. Bu lndi temel ynlr [6-9] d verilmitir. Bu onud ypıln rtırmlrın hedefi; insn sesi dollıınd onum sentezidir. Sentezlenen onumnın litesi ve dollıı rttıç, MKS sistemleri gündeli hyt dh ço girecetir. 993 ten bugüne dr Türçe MKS sistemleri üzerinde pe ço lisnsüstü çlım ypılmıtır. Bu çlımlrd sinyl ileme yönteminin ve ullnıln ses prçlrının senteze oln tısının ynı sır, frens deiiminin ve sürenin modellenmesi de incelenmitir []. Bu mlede Türçe metinden onum sentezlemede ezgi modelleri üzerinde durulmu, önerdiimiz yeni ezgi modeli nltılmıtır. Dol bir onumnın sentezlenmesinin önündei engeller rsınd büyü bir onum prçsı veritbnının (frlı uzunlu ve temel frenslı) oluturulmsı, onum prçlrının sürelerinin modellenmesi ve uygun ezgi urllrının tnımlnmsı syılbilir. 95

EMO Bilimsel Derg Cilt, Syı 2, Arlı 2 TMMOB Eletri Mühendisleri Odsı Türçede vurgu ve ezgi ypılrı, bzı sinyl ileme ve bilgisyr bilimleri rtırmcılrı trfındn dh önce incelenmitir [-3]. yli [], Türçe MKS sistemlerinde süre modelleri üzerinde çlımı, fonem ve trifon tbnlı incelemelerin sonucu olr ortlm süreleri rpor etmitir. yli nin çlımsındi önemli sonuçlrdn birisi de; cümle içinde ullnıldılrınd fonem ve trifon ortlm sürelerinin belirli ornlrd dümesidir. Bunun sebeb dh uzun bir onumnın te nefeste söylenebilmesi için, tüm birimlerin belirli ornlrd sııtırılmsıdır. Öztür [2], fonemler için süre ve F : temel frens erilerinin modellenmesini ele lmıtır. sttistisel olr metinsel özelliler (fonem türü, hece syısı, hecenin onumu, hecenin vurgu lıp lmmsı vb.) incelenmi ve regresyon nlizi ypılmıtır. Sonuç olr, ortlm süre için en etili prmetreler: fonemin türü, ön ve rdi fonemlerin türleri ve fonemin hece içindei yeri olr rpor edilmitir. Temel frens erileri ise hece frenslrı bz lınr incelenmitir. Öztür, çlımsının sonund bu modellerin duyumsl olr deerlendirilmesini önermetedir. F üzerinde ypıln bir dier çlımd, Osy vd. [3], cümle bzınd temel frens erilerinin genelletirilmesi üzerinde durmulrdır. F eriler olumlu, olumsuz ve soru cümleleri için dorusl ve iinci derece fonsiyonlr ile modellenmeye çlıılmıtır. Küleçi ve Oflzer [4], metin içerisindei söz gruplrını belirlemeye çlımılr, bunlr 3 demeli (: yo, : z ve 2: fzl) ezgi seviyesi tmılrdır. %85 brıyl söz gruplrını yırmyı ve doru vurgu seviyesini belirlemeyi brmılrs d nesnel deerlendirmenin bir Türçe MKS sistemiyle birletirilmesi sonucund elde edilebileceini belirtmilerdir. Uslu ve l [5] de, Fujisi ezgi modelin birç Türçe cümleye il def uygulmılrdır. Bu yöntemde cümlenin perde frensı deiimi bir toplmsl modelle ele lınmt, tmlm (phrse) ve vurgu (ccent) olm üzere ii bileene yrılmtdır. Modelin mtemtisel ifdesi Eitli () de verilmitir. ln ( F ) = ln( F ) P = A= N p = N = A A p,,. g min 2 αt Burd g p t = α. et u t t g t = min + βt. e p + P+ A ( t T ) ( ) ( ) ( ) ( ) ( ) ( β ), [ g ( t T ) g ( t T )] p,, ( ),2 tmlm dürtü tepis γ sn bsm tepisidir. A p,, A,, T p,, T,, T 2,,,, ; model prmetreleri ve F min ; tbn frensıdır. Model, belendii gibi onumnın dollıını rttırmı, PESQ testi sonucund,5/4, punlı bir iyileme elde edilmitir. PESQ: Perceptul Evlution of Speech Qulity, telefon htlrının litesini ölçme için önerilmi bir yöntem olup öznel dinleme testlerindei dinleyici bulm ve dinletme zhmetlerinden urtulm için tercih edilen bir nesnel deerlendirme testidir (ITU-T P.862). i onum prçsının birbirine oln yınlıını, bunlrı hizlyıp rlrındi özilintiden bulmy çlıır. Dilbilimciler bir sözcütei vurgunun yerini tespit etme için seslemleri (heceleri) sıryl bsın bir eilde ourlr. Hngi () ouyu ulı tırmlmıyors vurgunun o eilde doru olduun rr verirler. Türçede fiil çeimler istisnlr hricinde, urllr blıdır [6]. Aydemir ve Yılmz [6], çlımlrınd fiillerin otomti çeimlenmesi ve vurgulrının belirlenmesi üzerinde durmulr, Türçedei ylı 46 det fiilden dedi için 54 frlı çeimin ypıldıını ve vurgu pozisyonlrının doru bulunduunu belirtmilerdir. Bu sonuçlr bizim de çlımmızın temelini oluturmtdır. Uslu vd. [7], tsrldılrı MKS r yüzünde fiil çeimleri için usti özelliler (süre, perde frensı ve enerji) ile ilgili ezgi urllrı önermilerdir. Pe ço fiil çeimi için ypıln denemeler, web üzerinden dinleme testleri ile deerlendirilmi ve en ço beenilen yöntem sonuç olr önerilmitir. Bu çlımlrın ynı sır, duygusl sentez onusund ypıln çlımlr bulunmtdır [8, 9]. Bu lnd, Bulut vd. [8] yptılrı çlımd; sesbirim düzeyinde süre, perde frensı, enerji ve izge deiililerinin duygusl senteze oln etisini incelemilerdir. Sonuç olr sesbirim düzeyinde duygu dönütürmede, izgesel zrf deiililerinin yerel prozodi deiililerine göre dh etil yerel prozodi deiililerinde ise; süre deiiminin perde frensı deiiminden dh brılı olduunu belirtmilerdir. Burhrdt vd. [9], frlı dillerde (Türçe, Yunnc, Almnc ve Frnsızc) duygusl sentezler ypıp birbirleriyle rıltırmılrdır. Temel frens, süre ve jitter prmetreleriyle senteze duygu tmy çlımılr; sonuçt, hem o dile özgü, hem de tüm dillerde ort notlr bulunduunu belirlemilerdir. Bu çlımd gelitirilen ezgi modelinde; seçilen cümlelerde sözcülere, difon syısın göre süre deitirme ilemi uygulnmtdır. Dh sonr, vurgulu hece dite lınr, cümlenin fiiline ezgi verilmeye çlıılmt ve yrıc cümle içinde yer ln öbe vurgulrı için ezgi urllrı rtırılmtdır. Tüm bu ilemler temel frens, süre ve enerji prmetrelerinin sistemti bir eilde deitirilmesi temeline dynmtdır. Frlı cümle ypılrı ve öbe vurgulrı için dı geçen usti prmetrelerin optimum deerlerine duyumsl deerlendirme testleri sonucund ulılmy çlıılmıtır. Bu Giri bölümünün rdındn, çlımnın 2. Bölümünde izlenen yöntem ve önerilen ezgi modeli yrıntılı olr nltılmıtır. 3. Bölümde elde edilen bulgulr verilmete, 4. Bölümde ise sonuçlr trtıılmtdır. 2.. Yöntem 2. Önerilen Ezgi Modeli Konum sentezlemede en ço ullnıln tenilerden biri elemeli sentezlemedir [6]. Önceden ydedilen onum prçlrı bu yöntemde, uygun süre, perde frensı ve enerji düzenlemelerinin rdındn uç uc elenir. Çlımmızd onum prçsı olr iili sesbirim de diyebileceimiz difonlr ullnılmtdır. Difon; bir fonemin ortsındn tip eden fonemin ortsın dr oln ses prçsı [6] olduu için, ortlm difon süreler fonem sürelerinin ortlmsı ile hesplnmt [] ve bunlr yygın olr ullnıln 96

Uslu İ. B., İl H. G., Yılmz A. E., Türçe Metinden Konuşm Sentezlemede Doğllığın Artırılmsı İçin Öneriler, EMO Bilimsel Derg Cilt, Syı 2, Syf 95-2, Arlı 2 PSOLA (Pitch Synchronous OverLp nd Add) yöntemiyle [2] birletirilmetedir. Bu yöntemde perde iretleri dı verilen yerler referns lınr ses prçlrı birletirilir. Türçe de yer ln 29 hrf ve 44 fonem [2] Tblo de verilmitir. Sentezin doru ve dol olmsı için il rt, difonlrın doru belirlenmesidir. eil de, b ile 2 difonlrının perde iretler eil 2 de ise bu difonlrın PSOLA yöntemiyle 6 perde örtütürülere birletirilmesi gösterilmitir. Burd ypıln ilem; birinci difonun sonundn 6 perde, iinci difonun bındn 6 perde lm, bu onum prçlrını Hnning pencerenin zln (birinci difon) ve rtn (iinci difon) bölümleri ile çrpm, örtütürme ve toplmtır. Hnning pencere Eitli (2) ile verilmitir (N; pencerenin boyudur). ( ) = 5. 5. cos w n 2πn N (2) Tblo : Türçedei hrf ve fonem(ses birim)ler Hrf IPA * Fonem Örne nı 2 l2f e e meç e e2 de2vm ı Ï ı ısl i i i içece i2 i2tibr o o soru o o2 o2ym ö œ ö örtü ø ö2 ö2ren u u ul u u2 u2r ü ü ümit y ü2 dü2me b b b bl c c cm ç ç seçim d d d demet f f f fsıl g g gümü g g2 rg2 h h h hv j j jeodezi c edi 2 2ıl l l l lemn l2 ul2 m m m mrn n n n nı n2 sün2gü p p p pırs r r rf r r2 r2ı r3 dr3 s s s sert ı t t t tebeir v v v vr v2 tv2u y j y yt : y2 duy2 z z z yzlı z2 z2 * IPA: Interntionl Phonetic Alphbet eil 3 te bu ilem boyunc ullnıln örne dlg eilleri görülebilir. genli genli.5 -.5 "b " difonu - 2 4 6 8 2 4 6 8.5 "2" difonu -.5 5 5 2 25 3 35 örne syisi eil : b ve 2 difonlrının perde iretleri.6.4.2 -.2 -.4 -.6 -.8 2 4 6 8 2 22 24 26 28 eil 2: b ve 2 difonlrının PSOLA yöntemiyle birletirilmesi Eer birletirilen ses prçlrının enerjileri rsınd seviye frı vrs, bu d litenin dümesine sebep olctır. zgesel zrf uyumsuzluu bu çlımnın psmı dıınddır. Anc temel frens ve enerji uyumsuzlulrı çlım psmınd giderilmetedir. Difonlrın temel frensı; perde iretleri rsındi frın (perde periyotlrının) ortlmsının tersi lınr 97

EMO Bilimsel Derg Cilt, Syı 2, Arlı 2 TMMOB Eletri Mühendisleri Odsı hesplnmt ve omu difonlrın temel frenslrı rd bir deerde eitlenmeye çlıılmtdır. Enerji uyumsuzluu ise omu difonlrın enerji ornlrı ullnılr giderilmetedir. Eitli (3) ve (4) te bu ilem nltılmtdır. K E = d K 2 (n) E 2 = d n= L 22 (n) n= L (3) eil 4: Enerji eitlenmemi durumd sentez E ve E 2 ; sırsıyl. difonun ve 2. difonun ortlm enerjileridir. K ve L; difonlrın uzunlulrıdır. 2. difon (d 2 ), enerji ornının reöü oln tsyı () ile çrpılır ve enerjisi eitlenen yeni difon (s 2 ) elde edilir (Eitli (4)). = E 2 E s 2 =.d 2 (4) eil 5 te ise enerjileri eitlenmi difonlrl ypıln sentez gösterilmitir. eil 4 te enerji uyumsuzluu oln difonlrl ypıln sentez gösterilmitir. eil 5: Enerji eitleme sonrsı sentez.5 il cerceve -.5-5 5 2 25 3 35 4 45 iinci cerceve.5 -.5 5 5 2 25 3 35 4 45 Hnning pencerenin zln bölümüyle crpiln birinci bölüm - 5 5 2 25 3 35 4 45 Hnning pencerenin rtn bölümüyle crpiln iinci bölüm.5 -.5 5 5 2 25 3 35 4 45 OLA sonucu - 5 5 2 25 3 35 4 45 eil 3: PSOLA ile ypıln örtütürüp eleme ileminin yrıntılrı 98

Uslu İ. B., İl H. G., Yılmz A. E., Türçe Metinden Konuşm Sentezlemede Doğllığın Artırılmsı İçin Öneriler, EMO Bilimsel Derg Cilt, Syı 2, Syf 95-2, Arlı 2 eil 6: Tsrlnn ve gerçeletirilen MKS test pltformu Çlımd, eil 6 d gösterilen r yüz tsrlnmı ve ezgi denemeleri için bir pltform oluturulmutur. Mtlb GUI ile hzırlnn bu pltformd süre, perde frensı, enerji ve örtütürme süreleri yrlnbilmetedir. Süre ve perde frensı deitirme ilemleri yine PSOLA yöntemiyle ypılmtdır [6]. Sol üstte bulunn metin utusun girilen yzı, otomti olr sözcülerine ve difonlrın yrılır. Sözcüler bolu rterinden yrrlnılr, difonlr ise Türçenin telffuz urllrın [2] göre belirlenir. Dh sonr difonlr veri tbnındn çrılır. Gelitirilen r yüzde bulunn süre yrı eil 7 de, perde frensı yrı eil 8 de, enerji ve örtütürme süresi yrı d eil 9 d gösterilmitir. eil 8: Perde frensı yrı eil 7: Difonlrın süre yrı eil 9: Enerji ve örtütürme süresi yrı 99

EMO Bilimsel Derg Cilt, Syı 2, Arlı 2 TMMOB Eletri Mühendisleri Odsı 2.2. Terminoloji ve Gösterimler Fonem, difon, ve sözcü için süre, difonlr için perde frensı ve enerji tnımlrı ıd Tblo 2 de verilmitir. t (d) j t (f) j, t (s) i p (d) j Tblo 2: Mtemtisel gösterim i. sözcütei j. difonun süresi (d: difon) i. sözcüte j. difonun. foneminin süresi (f: fonem) i. sözcüün toplm süresi (s: sözcü) i. sözcütei j. difonun orijinl perde frensı (p (d) j)' i. sözcütei j. difonun deitirilen perde frensı e (d) j i. sözcütei j. difonun orijinl enerjisi (e (d) j)' i. sözcütei j. difonun deitirilen enerjisi Sentezleme için ypıln il ilem; metinden belirlenen difonlrın ortlm difon sürelerine otomti olr getirilmeleridir. Bunun için, fonem ortlm sürelerinin [] ortlmsı lınır. Difon ortlm süre hesbı Eitli (5) te görülmetedir. ( d ) j ( f ) ( f ) ( t t ) 2/ t = + (5) j, j 2, Burd; t (d) j; i. sözcütei j. difonun süresidir. t (f) j, ve t (f) j,2; i. sözcütei j. difonun. fonem süresidir ( = : bt = 2: sondi fonem). Sözcülerdei difon syısın göre; difon süresi deitirme prmetresi: d, Eitli (6) di gibi uygulnır. K ( s) ( d ) t i = α t (6) d = Burd, t (s) i; i. sözcüün toplm süresidir (b. eil 7) ve d prmetresinin deeri Tblo 3 te verilmitir. Eer sözcütei difon syısı 4 ten z ise bu sözcüün difonlrı %2 uztılır ( d =,2); burd mç sentezlenen sözcüün yutulmmsı ve nlılırlıının rtırılmsıdır. Eer sözcütei difon syısı 6 dn fzl ise, difonlrın süresi %5 zltılır ( d =,95); burd d mç yv oumnın önüne geçmetir. Eer difon syısı 4,5 vey 6 ise difonlr ortlm sürelerinde bırılır ( d =,). Bu deerlere ypıln denemelerin sonucund rr verilmitir. j Tblo 3: Difon süresi deitirme prmetresi ( d ) d =,2 Difon syısı 3 d =, 4 Difon syısı 6 d =,95 Difon syısı 7 Perde frensı deiilii için Eitli (7) dei ilem ypılır. ( d ) ( d ) ( p ) = β ( p ) j j (7) ; perde frensı deitirme ornı olup, ; yüzde deitirme mitrındn β = + ile elde edilir (b. eil 8). σ Örne olr; =,5 için, =,85 olc ve. difonun perde frensı %5 zltılctır. Enerji yrı için Eitli (8) dei ilem ypılır. ( d ) ( d ) ( ei, j, ) = γ ( e j, ) (8) ; enerji deitirme ornı olup, ; yüzde deitirme mitrındn γ =+ ile elde edilir (b. eil 9). λ Örne olr; = +,2 için, =,2 olc ve. difonun enerjisi %2 rtırılctır. Bunun için ilgili difon α = γ tsyısı ile çrpılır. 2.3. Süre ve Vurgunun Ayrlnmsı Türçede vurgu; zmn ve hıs elerinin özellilerine göre yer deitirebilmetedir [6]. Bzı eler vurguyu endinden öncei e vey hecelere ydırıren, bzılrı d vurguyu üzerine çemetedir. Örne olr: sevmiyorum fiilinde vurgu me olumsuzlu einden önce yer lıyoren, gittiler mi? fiilinde vurgu mi soru einden öncedir. Vurgu incelememizde, çeimli fiillerin vurgu ln hecesi üzerinde denemeler ypılmıtır. Olumlu, olumsuz, olumlu soru ve olumsuz soru ypısındi cümleler için vurgunun yer hem dilbilimsel çıdn, hem de bilgisyr desteli yzılımlrl incelenmitir. Ypıln gözlemler ııınd, vurgu en doru eilde senteze zndırılmy çlıılmıtır. Süre ve vurgu urllrın göre sentezlenen onum, olduu gibi birletirilen onumyl dinleme testine tâbi tutulmu ve urllrın sentezin dollıın oln tısı deerlendirilmitir. ncelenen cümleler Tblo 4 te verilmetedir. ve 2: olumlu, 3 ve 4: olumsuz, 5 ve 6: olumlu soru, 7 ve 8: olumsuz soru formunddır ve 9 numrlı cümle ontrol mçlıdır. Kontrol cümlesinin hm ve urllı hlleri tıp tıp ynıdır ve mç dinleyicilerin ditini ölçmetir. Bu cümleye +2,+,,- vey -2 dıınd pun vermi olnlrın test sonuçlrı deerlendirmeye lınmmıtır. Tblo 4: Süre ve vurgunun birlite incelendii cümleler No Cümle Her eye rmen zmnınd geldi. 2 Ço çlıtıı için brılı oldu. 3 Otobüsle uzun yol hiç gitmedim. 4 Yıllrdır güne yüzü görmedi. 5 Son sınv yeterince çlıtın mı? 6 Biz yoen endine iyi btın mı? 7 Görevini en iyi eilde ypmdın mı? 8 Sçımı sn süpürge etmedim mi? 9 Pe yeterince çlımıyor musun?

Uslu İ. B., İl H. G., Yılmz A. E., Türçe Metinden Konuşm Sentezlemede Doğllığın Artırılmsı İçin Öneriler, EMO Bilimsel Derg Cilt, Syı 2, Syf 95-2, Arlı 2 Öncelile, ortlm difon süreleriyle sentez ypılır. Birletirmede bütün difonlrın perde frenslrı ve enerjileri tsrlnn r yüzün hsssiyeti ölçüsünde eitlenir. Bu senteze hm sentez dı verilir. Dh sonr hm sentez üzerinde ıd mddeler hlinde verilen urllr uygulnır. Burd vurgunun onumunun sisteme girilmi olduu vrsyılmtdır. Bir cümle ounuren, nlmd etili olduu için, cümlede yer ln tmlmlr özel bir vurgu trız. Seçilen cümlelerde böyle tmlmlr ( uzun yol, güne yüzü, en iyi eilde vb.) yer verilmi ve doru ezgilendirme için yöntem rtırılmıtır. Cümlede öbe vurgusu olr bilinen bu bölümler belirgin eilde vurgulnmlıdır. Çlımmızın en ço zmn ln ve en önemli bölümlerinden birisi de bu bölümdür. Öbe vurgusu için hem temel frensın hem de enerjinin dier vurgulr göre dh fzl rtırılmsı önerilmetedir. Seçilen cümlelere dol ezgi zndırm için izlenen yol u eilde sırlnbilir: Difon süreler Tblo 3 tei gibi yrlnır. Söz gruplrının belirledii durlr bolu süresi ile yrlnır. Burlrd bolu difonunun süresi ii tın çırtılır. Hm sentezi oluturn tüm difonlrın temel frenslrı ve enerjileri eitlenmeye çlıılır. Orijinl yıtlrd ort oln vurgulr senteze verilmeye çlıılır. Bunun için, öbe vurgusunun yer ldıı difonlrın hem perde frenslrı (%3), hem de enerjileri (%7) rtırılır (eil 6 d mvi iretli bölüm). Sözcü vurgulrınd ise sdece temel frens %2 rtırılır (eil 6 d ırmızı iretli bölüm). Cümlenin fiiline vurgu tılır. Bu mçl, fiilin vurgulu hecesindei difonlrın temel frenslrı %2, enerjileri %4 rtırılır. Ayrıc cümle biten ezgi ile sonlndırılır. Bunun için, son sözcütei difonlrın temel frenslrı ve enerjileri demeli olr (sırsıyl, %, %5, %2) zltılır (eil 6 d yeil iretli bölüm). Bu önerileri oluturn perde frensı ve enerji ornlrın, gerçeletirilen r yüzde ypıln pe ço denemeden sonr rr verilmitir. Frlı deerlerle ypıln sentezler dinlenmi ve dinleme testleri sonucund en ço beenilen orn rr verilmitir. Tüm bu yrlmlr elle ypıls d otomti hle getirilebilecei düünülmetedir. Bu çlımd, [22] de oluturuln 6 Hz ile örnelenmi difonlr ullnılmıtır. Ayrıc ypıln tüm sentezler uzunluu 3 örne oln yumutm (smoothing) süzgecinden geçirilmitir. Bu süzgecin mcı; tıslm ve çtırtı seslerinin etisini zltmtır. 3. Bulgulr Bu bölümde, yurıdi bilgiler ııınd ypıln sentezler, web üzerinden CMOS (Comprtive Men Opinion Score test ITU-T P.8 stndrdı oln MOS testinin rıltırmlı bir türüdür) testine tâbi tutulr, belirlediimiz ezgi urllrının dollı oln etileri ölçülmütür. Bu mçl [23] ile dresi verilen syfsı tsrlnmıtır. Dinleyiciler ern rstgele sırd gelen hm sentez ile ezgi elenmi sentezi dinlemi ve birbiriyle rıltırmılrdır. -5 ile +5 rsınd pun verere hngisinin ezgili sentez olduunu bilmeden dereceli bir ıyslm ypmılrdır. Bu öznel teste 4 dinleyici tılmıtır. Elde edilen bulgulr Tblo 5 te görülmetedir. Bu sonuçlrdn tüm ezgili sentezlerin hm sentezlerden dh dol ve brılı bulunduu görülmetedir. En yüse pun; olumsuz cümlelerde (3 ve 4) elde edilmitir (ort. 2,55/5,). Dh sonr en yüse pun; olumlu soru cümlelerinde (5 ve 6) elde edilmitir (ort. 2,39/5,). Vurgu yerleri briz belli olmyn olumlu cümlelerde ( ve 2) ise ortlm,7/5, li rtı slnmıtır. En düü rtı ise ortlm,8/5, ile olumsuz soru cümlelerinde (7 ve 8) elde edilmitir. Tblo 4 tei 7 numrlı cümlenin en düü punı lmsın süre ve temel frens deiilileri sonucund, görevini en iyi bölümünde nlılırlıın zlmsının neden olduu düünülmetedir. Tblo 5: CMOS testi sonuçlrı No Cümle Pun / 5, Her eye rmen zmnınd geldi.,95 2 Ço çlıtıı için brılı oldu.,45 3 Otobüsle uzun yol hiç gitmedim. 2, 4 Yıllrdır güne yüzü görmedi. 3,9 5 Son sınv yeterince çlıtın mı? 2,32 6 Biz yoen endine iyi btın mı? 2,45 7 Görevini en iyi eilde ypmdın mı?,32 8 Sçımı sn süpürge etmedim mi?,27 9 Pe yeterince çlımıyor musun?,4 4. Sonuçlr ve Trtım Bu çlımd Türçe metinden onum sentezleyiciler için vurgu urllrı rtırılmı, gelitirilen r yüzde, bir sistemti dâhilinde, hm senteze ezgi verilmeye çlıılmıtır. Dört frlı formdi (olumlu, olumsuz, olumlu soru ve olumsuz soru) toplm seiz det cümle üzerinde uygulnn vurgu urllrı, sentezin dollıını ve brısını rttırmıtır. Tüm bu çlımlrın sonucund elde edilen bulgulr CMOS testi ile deerlendirilmitir. Sonuçt ezgi urllrı uygulnn sentezler, hm sentezlere göre ortlm,86/5, pun dh brılı (dol) bulunmutur. Belirlenen urllr, vurgu yerleri belirli oln cümlelerin dh dol sentezlenmesini slmtdır. Çlımlrımız test ümesini geniletme için devm etmetedir. Gelece çlım olr; sentezleyicide difondn dh büyü onum prçlrının ullnılmsı ve örneleme frensının rtırılr sentezlere oln etisinin incelenmesi önerilebilir. Bu çlımd önerilen yöntemin otomtiletirilmesi de bir dier çlım onusudur. Teeür Çlımlrımız sesini veren Dr. Özgül Slor ve dinleme testlerimize tıln herese teeür ederiz.

EMO Bilimsel Derg Cilt, Syı 2, Arlı 2 TMMOB Eletri Mühendisleri Odsı KAYNAKLAR [] Brille Teni Ltd. ti. http://www.brilleteni.com/jws.html son eriim: 8/2/22 [2] Loquendo S.p.A., Telecom Itli Group Compny http://www.loquendo.com/en/demo-center/tts-demo/ [3] GVZ Ses tnım ve sentezleme tenolojileri ireti http://www.gvz.com.tr/index.html son eriim: 8/2/22 [4] DKTE Yöndt Bilgisyr Ltd. ti. http://www.dite.com.tr/onusmtnim.php son eriim: 8/2/22 [5] Google trnslte http://trnslte.google.com son eriim: 8/2/22 [6] Dutoit, T., An Introduction to Text-to-Speech Synthesis, Kluwer Acdemic Publishers, 997. [7] Tthm, M. nd Morton K., Developments in Speech Synthesis, Wiley, 25. [8] Nrynn, S. nd Alwn, A., Text to Speech Synthesis, New Prdigms nd Advnces, Prentice Hll, 25. [9] Tylor, P., Text-to-Speech Synthesis, Cmbridge University Press, 29. [] Uslu,. B., Türçe metinden onum sentezlemede bugünü durum - 2. Bölüm, EMO Anr ubesi Hber bülten 2.3. [] yl Ö., Durtion nlysis nd modelling for Turish text-to-speech synthesis, yüse lisns tez Boziçi Üniversitesi Fen Bilimleri Enstitüsü, 22. [2] Öztür, Ö., Modelling phoneme durtions nd fundmentl frequency contours in Turish speech, dotor tez ODTÜ Fen Bilimleri Enstitüsü, 25. [3] Osy, B., Slor, Ö., Özn, Ö., Demireler, M. ve Çilolu T., Türçe metinden onum sentezlemede ezgi belirlenmesi ve uygulnmsı, IEEE 9. Sinyl leme ve Uygulmlrı Kurultyı SU-2, 2, s. 238 243. [4] Küleç M. O. ve Oflzer K., An infrstructure for Turish prosody genertion in text-to-speech synthesis, TAINN 26, 5 th Turish Symposium on Artificil Intelligence nd Neurl Networs, Mul, Hzirn 26, s. 49 57. [5] Uslu,.B. ve l, H.G., Türçe metinden onum sentezlemede Fujisi ezgi model IEEE 7. Sinyl leme ve letiim Uygulmlrı Kurultyı, SU-29, Antly, Nisn 29, s. 844 847. [6] Aydemir T. ve Yılmz, A. E., Türçe fiil çeimlerinde vurgu onumunu belirleme için bir yzılım ütüphnes IEEE 8. Sinyl leme ve letiim Uygulmlrı Kurultyı (SU 2), 22 24 Nisn 2, Diyrbır, Türiye, s. 696 699. [7] Uslu,.B., Yılmz A.E. ve l, H.G., Türçe metinden onum sentezlemede fiil çeimleri için yeni bir ezgi modeli, IEEE 9. Sinyl leme ve letiim Uygulmlrı Kurultyı, SU-2, Antly, Nisn 2, s. 638 64. [8] Bulut, M., Busso C., Yıldırım, S., Kzemzdeh, A., Lee, C. M., Lee S. nd Nrynn S., Investigting the role of phoneme-level modifictions in emotionl speech resynthesis, Proceedings of Interspeech, 25, s. 8 84. [9] Burhrdt, F., Audibert, N., Mltest, L., Tür, O., Arsln, L. nd Auberge, V., Emotionl prosody does culture me difference?, Speech Prosody, Dresden Germny, pper no. 27, 26. [2] Moulines, E., nd Chrpentier, F., Pitch-synchronous wveform processing techniques for text-to-speech synthesis using diphones, Speech Communiction, volume: 9, 99, s. 453 467. [2] Ergenç,., Konum Dili ve Türçenin Söyleyi Sözlüü, Multilingul, 22 [22] Slor, Ö., Pellom B, Çilolu T. nd Demireler M., On developing new text nd udio corpor nd speech recognition tools for the Turish lnguge, ICSLP-22: Inter. Conf. On Spoen Lnguge Processing, Denver, Colordo USA, 6 2 Eylül 22, s. 349 352.. [23] http://demo.reformo.net/brn3/index.php son eriim: 8/2/22 2