Doğan Can, Murat Saraçlar. Bebek, İstanbul. 9 Mart, 2009

Türkçe Haber Bültenlerinin Açık Kaynak Yazılımlar ile Yazılandırılması Doğan Can, Murat Saraçlar Elektrik Elektronik Mühendisliği Bölümü Boğaziçi Üniversitesi Bebek, İstanbul 9 Mart, 2009

Bir Bakışta GDSKT - Dil Modeli GDSKT - Akustik Modeller Üretici Modellere karşılık Ayırıcı Modeller MLE MMIE MPE Veritabanları HTK/SRILM Tabanlı Türkçe GDSKT Sistemi Deney Sonuçları D. Can, M. Saraçlar, Boğaziçi Üniversitesi Türkçe Haber Bültenlerinin Açık Kaynak Yazılımlar ile Yazılandırılması 2/13

Geniş Dağarcıklı Sürekli Konuşma Tanıma - Dil Modeli Problem Tanımı ŝ = argmax p(a M s )p(s) s A : Akustik öznitelik vektörleri s : Sözcük dizisi p(s) : Dil modeli M s : s dizisine karşılık gelen akustik model D. Can, M. Saraçlar, Boğaziçi Üniversitesi Türkçe Haber Bültenlerinin Açık Kaynak Yazılımlar ile Yazılandırılması 3/13

Geniş Dağarcıklı Sürekli Konuşma Tanıma - Dil Modeli Problem Tanımı ŝ = argmax p(a M s )p(s) s A : Akustik öznitelik vektörleri s : Sözcük dizisi p(s) : Dil modeli M s : s dizisine karşılık gelen akustik model N li Dil Modeli s = [w 1, w 2,..., w n ] : Sözcük dizisi p(s) = p(w 1, w 2,..., w n ) n k=1 p(w k w k N+1 k 1 ) D. Can, M. Saraçlar, Boğaziçi Üniversitesi Türkçe Haber Bültenlerinin Açık Kaynak Yazılımlar ile Yazılandırılması 3/13

Geniş Dağarcıklı Sürekli Konuşma Tanıma - Akustik Modeller Üretici Modelleme Hedef : Kelime hata oranının dolaylı yoldan iyileştirilmesi Yöntem : Eğitim verisinin iyi modellenmesi (olabilirliğinin arttırılması) Eğitimde sadece referans kelime dizileri kullanılır Model varsayımları geçerli + sonsuz veri tarafsız, minimum sapmaya sahip modeller D. Can, M. Saraçlar, Boğaziçi Üniversitesi Türkçe Haber Bültenlerinin Açık Kaynak Yazılımlar ile Yazılandırılması 4/13

Geniş Dağarcıklı Sürekli Konuşma Tanıma - Akustik Modeller Üretici Modelleme Hedef : Kelime hata oranının dolaylı yoldan iyileştirilmesi Yöntem : Eğitim verisinin iyi modellenmesi (olabilirliğinin arttırılması) Eğitimde sadece referans kelime dizileri kullanılır Model varsayımları geçerli + sonsuz veri tarafsız, minimum sapmaya sahip modeller Ayırıcı Modelleme Hedef : Kelime hata oranının ya da benzer bir ölçütün doğrudan iyileştirilmesi Yöntem : Modeller arası ayrımın arttırılması, eğitim verisinin iyi modellenmesinin yanı sıra hatalı hipotezlerin olabilirliğinin (tanıma hatalarının) azaltılması Egitimde hem referans hem de olası kelime dizileri kullanılır D. Can, M. Saraçlar, Boğaziçi Üniversitesi Türkçe Haber Bültenlerinin Açık Kaynak Yazılımlar ile Yazılandırılması 4/13

Geniş Dağarcıklı Sürekli Konuşma Tanıma - MLE En Yüksek Olabilirlik Kestirimi (MLE) : Yöntem : Eğitim verisinin olabilirliğini arttırmak Tüm eğitim sözceleri eşit ağırlıklı D. Can, M. Saraçlar, Boğaziçi Üniversitesi Türkçe Haber Bültenlerinin Açık Kaynak Yazılımlar ile Yazılandırılması 5/13

Geniş Dağarcıklı Sürekli Konuşma Tanıma - MLE En Yüksek Olabilirlik Kestirimi (MLE) : Yöntem : Eğitim verisinin olabilirliğini arttırmak Tüm eğitim sözceleri eşit ağırlıklı ML Kriteri : R F MLE (λ) = log p λ (A r M sr ) r=1 λ : Model parametreleri s r, r = 1,..., R : Referans sözcük dizisi A r, r = 1,..., R : Akustik özntielik vektörleri D. Can, M. Saraçlar, Boğaziçi Üniversitesi Türkçe Haber Bültenlerinin Açık Kaynak Yazılımlar ile Yazılandırılması 5/13

Geniş Dağarcıklı Sürekli Konuşma Tanıma - MMIE En Yüksek Karşılıklı Bilgi Kestirimi (MMIE) : Yöntem : Eğitim verisinin sonsal olasılığını doğrudan arttırmak (Koşullu en yüksek olabilirlik (CML) kestirimi) D. Can, M. Saraçlar, Boğaziçi Üniversitesi Türkçe Haber Bültenlerinin Açık Kaynak Yazılımlar ile Yazılandırılması 6/13

Geniş Dağarcıklı Sürekli Konuşma Tanıma - MMIE En Yüksek Karşılıklı Bilgi Kestirimi (MMIE) : Yöntem : Eğitim verisinin sonsal olasılığını doğrudan arttırmak (Koşullu en yüksek olabilirlik (CML) kestirimi) MMI Kriteri : F MMIE (λ) = R r=1 R r=1 log p λ(a r M sr )P (s r ) s p λ(a r M s )P (s) log p λ(a r M sr )P (s r ) p λ (A r M L ) L : Olası kelime dizilerini temsil eden tanıma örüsü D. Can, M. Saraçlar, Boğaziçi Üniversitesi Türkçe Haber Bültenlerinin Açık Kaynak Yazılımlar ile Yazılandırılması 6/13

Geniş Dağarcıklı Sürekli Konuşma Tanıma - MPE En Düşük Sesbirimi Hatası (MPE) : Yöntem : Referans metinler ile olası kelime dizileri arasındaki Levenshtein uzaklıklarını en aza indirmek D. Can, M. Saraçlar, Boğaziçi Üniversitesi Türkçe Haber Bültenlerinin Açık Kaynak Yazılımlar ile Yazılandırılması 7/13

Geniş Dağarcıklı Sürekli Konuşma Tanıma - MPE En Düşük Sesbirimi Hatası (MPE) : Yöntem : Referans metinler ile olası kelime dizileri arasındaki Levenshtein uzaklıklarını en aza indirmek MPE Kriteri : R F MP E (λ) = log p λ (s A r )D(s, s r ) s S r=1 D(s, s r ) : Ham ses doğruluğu ölçütü D(s, s r ) = s r daki sesbirim sayısı s deki hatalı sesbirim sayısı p λ (s A r ) : Sonsal olasılık p λ (s A r ) = p λ(a r M s )P (s) p λ (A r M L ) S : Bir eğitim sözcesine (s r ) karşılık gelen tüm olası kelime dizileri D. Can, M. Saraçlar, Boğaziçi Üniversitesi Türkçe Haber Bültenlerinin Açık Kaynak Yazılımlar ile Yazılandırılması 7/13

Veritabanları [Arısoy et al., 2009] Boğaziçi Üniversitesi Türkçe Haber Bültenleri Akustik Veritabanı : 4 TV, 1 Radyo kanalından kaydedilen haber programları Eğitim : Mart 2007 - Mart 2008 Sınama : Mayıs 2008 Çeşitli koşullardaki veri miktarı (saat) Kısım f0 f1 f2 f3 f4 fx Toplam Eğitim 67.2 15.7 8.3 19.8 73.6 3.3 188 Sınama 0.9 0.1 0.1 0.7 1.4 0.1 3.3 (f0) temiz konuşma, (f1) doğal konuşma, (f2) telefon konuşması, (f3) arkaplan müziği, (f4) kötü akustik koşullar ve (f5) diğerleri D. Can, M. Saraçlar, Boğaziçi Üniversitesi Türkçe Haber Bültenlerinin Açık Kaynak Yazılımlar ile Yazılandırılması 8/13

Veritabanları [Arısoy et al., 2009] Boğaziçi Üniversitesi Türkçe Haber Bültenleri Akustik Veritabanı : 4 TV, 1 Radyo kanalından kaydedilen haber programları Eğitim : Mart 2007 - Mart 2008 Sınama : Mayıs 2008 Çeşitli koşullardaki veri miktarı (saat) Kısım f0 f1 f2 f3 f4 fx Toplam Eğitim 67.2 15.7 8.3 19.8 73.6 3.3 188 Sınama 0.9 0.1 0.1 0.7 1.4 0.1 3.3 (f0) temiz konuşma, (f1) doğal konuşma, (f2) telefon konuşması, (f3) arkaplan müziği, (f4) kötü akustik koşullar ve (f5) diğerleri Boğaziçi Üniversitesi Türkçe Metin Veritabanları : Türkçe Haber Veri Tabanı (HVT) : Kullanılan akustik verinin referans metinleri, 1.3 M kelime Türkçe Genel Veri Tabanı (GVT) : Haber portallarından toplanmış metin derlemi, 182.3 M kelime D. Can, M. Saraçlar, Boğaziçi Üniversitesi Türkçe Haber Bültenlerinin Açık Kaynak Yazılımlar ile Yazılandırılması 8/13

Veritabanları [Arısoy et al., 2009] Boğaziçi Üniversitesi Türkçe Haber Bültenleri Akustik Veritabanı : 4 TV, 1 Radyo kanalından kaydedilen haber programları Eğitim : Mart 2007 - Mart 2008 Sınama : Mayıs 2008 Çeşitli koşullardaki veri miktarı (saat) Kısım f0 f1 f2 f3 f4 fx Toplam Eğitim 67.2 15.7 8.3 19.8 73.6 3.3 188 Sınama 0.9 0.1 0.1 0.7 1.4 0.1 3.3 (f0) temiz konuşma, (f1) doğal konuşma, (f2) telefon konuşması, (f3) arkaplan müziği, (f4) kötü akustik koşullar ve (f5) diğerleri Boğaziçi Üniversitesi Türkçe Metin Veritabanları : Türkçe Haber Veri Tabanı (HVT) : Kullanılan akustik verinin referans metinleri, 1.3 M kelime Türkçe Genel Veri Tabanı (GVT) : Haber portallarından toplanmış metin derlemi, 182.3 M kelime B.Ü. veritabanları için Yrd. Doç. Murat Saraçlar ile temasa geçebilirsiniz. D. Can, M. Saraçlar, Boğaziçi Üniversitesi Türkçe Haber Bültenlerinin Açık Kaynak Yazılımlar ile Yazılandırılması 8/13

HTK/SRILM Tabanlı Türkçe GDSKT Sistemi Temel Akustik Model Eğitimi Aşamaları - HTK [Young et al., 2006]: 1. Öznitelikler : 10 milisaniye ile ötelenen 25 milisaniyelik her ses çerçevesi için 12 MFCC ve 1 enerji özniteliği, bunların birinci ve ikinci zaman türevleri D. Can, M. Saraçlar, Boğaziçi Üniversitesi Türkçe Haber Bültenlerinin Açık Kaynak Yazılımlar ile Yazılandırılması 9/13

HTK/SRILM Tabanlı Türkçe GDSKT Sistemi Temel Akustik Model Eğitimi Aşamaları - HTK [Young et al., 2006]: 1. Öznitelikler : 10 milisaniye ile ötelenen 25 milisaniyelik her ses çerçevesi için 12 MFCC ve 1 enerji özniteliği, bunların birinci ve ikinci zaman türevleri 2. 30 sesbirime (29 harf ve 1 sessizlik) ait her HMM durumunda tek Gauss bileşeni içeren akustik modeller (MLE) D. Can, M. Saraçlar, Boğaziçi Üniversitesi Türkçe Haber Bültenlerinin Açık Kaynak Yazılımlar ile Yazılandırılması 9/13

HTK/SRILM Tabanlı Türkçe GDSKT Sistemi Temel Akustik Model Eğitimi Aşamaları - HTK [Young et al., 2006]: 1. Öznitelikler : 10 milisaniye ile ötelenen 25 milisaniyelik her ses çerçevesi için 12 MFCC ve 1 enerji özniteliği, bunların birinci ve ikinci zaman türevleri 2. 30 sesbirime (29 harf ve 1 sessizlik) ait her HMM durumunda tek Gauss bileşeni içeren akustik modeller (MLE) 3. Bağlama dayalı model eğitimi için ses üçlülerinin Türkçe ses yapısına uyarlanmış karar ağaçları yardımıyla kümelenmesi D. Can, M. Saraçlar, Boğaziçi Üniversitesi Türkçe Haber Bültenlerinin Açık Kaynak Yazılımlar ile Yazılandırılması 9/13

HTK/SRILM Tabanlı Türkçe GDSKT Sistemi Temel Akustik Model Eğitimi Aşamaları - HTK [Young et al., 2006]: 1. Öznitelikler : 10 milisaniye ile ötelenen 25 milisaniyelik her ses çerçevesi için 12 MFCC ve 1 enerji özniteliği, bunların birinci ve ikinci zaman türevleri 2. 30 sesbirime (29 harf ve 1 sessizlik) ait her HMM durumunda tek Gauss bileşeni içeren akustik modeller (MLE) 3. Bağlama dayalı model eğitimi için ses üçlülerinin Türkçe ses yapısına uyarlanmış karar ağaçları yardımıyla kümelenmesi 4. Karar ağaçları ve eğitim esnasında toplanan istatistikler kullanılarak yapılan kümeleme sonucunda toplamda 13243 HMM durumu içeren 27871 üçlü sesbirim modeli D. Can, M. Saraçlar, Boğaziçi Üniversitesi Türkçe Haber Bültenlerinin Açık Kaynak Yazılımlar ile Yazılandırılması 9/13

HTK/SRILM Tabanlı Türkçe GDSKT Sistemi Temel Akustik Model Eğitimi Aşamaları - HTK [Young et al., 2006]: 1. Öznitelikler : 10 milisaniye ile ötelenen 25 milisaniyelik her ses çerçevesi için 12 MFCC ve 1 enerji özniteliği, bunların birinci ve ikinci zaman türevleri 2. 30 sesbirime (29 harf ve 1 sessizlik) ait her HMM durumunda tek Gauss bileşeni içeren akustik modeller (MLE) 3. Bağlama dayalı model eğitimi için ses üçlülerinin Türkçe ses yapısına uyarlanmış karar ağaçları yardımıyla kümelenmesi 4. Karar ağaçları ve eğitim esnasında toplanan istatistikler kullanılarak yapılan kümeleme sonucunda toplamda 13243 HMM durumu içeren 27871 üçlü sesbirim modeli 5. Her HMM durumundaki Gauss bileşenlerinin sayısının arttırılması Sessizlik modelinde : 1 2 4 7 10 15 21 Diğer modellerde : 1 2 3 4 6 8 11 6. Her bileşen arttırımın ardından ML eğitimi D. Can, M. Saraçlar, Boğaziçi Üniversitesi Türkçe Haber Bültenlerinin Açık Kaynak Yazılımlar ile Yazılandırılması 9/13

HTK/SRILM Tabanlı Türkçe GDSKT Sistemi Dil Modellerinin Oluşturulması - SRILM [Stolcke, 2002]: 1. GVT ve HVT nin birleştirilip, en sık geçen 50 bin kelimenin tanıma dağarcığı olarak seçilmesi D. Can, M. Saraçlar, Boğaziçi Üniversitesi Türkçe Haber Bültenlerinin Açık Kaynak Yazılımlar ile Yazılandırılması 10/13

HTK/SRILM Tabanlı Türkçe GDSKT Sistemi Dil Modellerinin Oluşturulması - SRILM [Stolcke, 2002]: 1. GVT ve HVT nin birleştirilip, en sık geçen 50 bin kelimenin tanıma dağarcığı olarak seçilmesi 2. Tanıma dağarcığı + HVT de geçip tanıma dağarcığında olmayan kelimeler ayırıcı eğitim dağarcığı D. Can, M. Saraçlar, Boğaziçi Üniversitesi Türkçe Haber Bültenlerinin Açık Kaynak Yazılımlar ile Yazılandırılması 10/13

HTK/SRILM Tabanlı Türkçe GDSKT Sistemi Dil Modellerinin Oluşturulması - SRILM [Stolcke, 2002]: 1. GVT ve HVT nin birleştirilip, en sık geçen 50 bin kelimenin tanıma dağarcığı olarak seçilmesi 2. Tanıma dağarcığı + HVT de geçip tanıma dağarcığında olmayan kelimeler ayırıcı eğitim dağarcığı 3. SRILM araçları ve Kneser-Ney yumuşatıcı model yöntemiyle Tanıma dağarcığı + GVT veri budama eşiği 5 10 8 olan üçlü dil modeli Tanıma dağarcığı + HVT budanmamış üçlü dil modeli Ayırıcı eğitim dağarcığı + GVT budanmamış tekli dil modeli Ayırıcı eğitim dağarcığı + HVT budanmamış tekli dil modeli D. Can, M. Saraçlar, Boğaziçi Üniversitesi Türkçe Haber Bültenlerinin Açık Kaynak Yazılımlar ile Yazılandırılması 10/13

HTK/SRILM Tabanlı Türkçe GDSKT Sistemi Dil Modellerinin Oluşturulması - SRILM [Stolcke, 2002]: 1. GVT ve HVT nin birleştirilip, en sık geçen 50 bin kelimenin tanıma dağarcığı olarak seçilmesi 2. Tanıma dağarcığı + HVT de geçip tanıma dağarcığında olmayan kelimeler ayırıcı eğitim dağarcığı 3. SRILM araçları ve Kneser-Ney yumuşatıcı model yöntemiyle Tanıma dağarcığı + GVT veri budama eşiği 5 10 8 olan üçlü dil modeli Tanıma dağarcığı + HVT budanmamış üçlü dil modeli Ayırıcı eğitim dağarcığı + GVT budanmamış tekli dil modeli Ayırıcı eğitim dağarcığı + HVT budanmamış tekli dil modeli 4. Bu modellerin eşit ağırlıklı doğrusal aradeğerlenmesi sonucu 1343711 üçlü, 3515826 ikili, 50002 tekli içeren tanıma dil modeli 105088 tekli içeren zayıf dil modeli D. Can, M. Saraçlar, Boğaziçi Üniversitesi Türkçe Haber Bültenlerinin Açık Kaynak Yazılımlar ile Yazılandırılması 10/13

HTK/SRILM Tabanlı Türkçe GDSKT Sistemi Ayırıcı Akustik Model Eğitimi Aşamaları - HTK: 1. Temel akustik modeller ve dil modeli ile tüm eğitim verisinin tanınması ve her sözce için en olası tanıma hipotezlerini içeren kelime örülerinin oluşturulması D. Can, M. Saraçlar, Boğaziçi Üniversitesi Türkçe Haber Bültenlerinin Açık Kaynak Yazılımlar ile Yazılandırılması 11/13

HTK/SRILM Tabanlı Türkçe GDSKT Sistemi Ayırıcı Akustik Model Eğitimi Aşamaları - HTK: 1. Temel akustik modeller ve dil modeli ile tüm eğitim verisinin tanınması ve her sözce için en olası tanıma hipotezlerini içeren kelime örülerinin oluşturulması 2. Kelime örülerinin zayıf dil modeli ile yeniden ağırlıklandırılarak farklı hipotezler arasındaki karmaşıklığın arttırılması D. Can, M. Saraçlar, Boğaziçi Üniversitesi Türkçe Haber Bültenlerinin Açık Kaynak Yazılımlar ile Yazılandırılması 11/13

HTK/SRILM Tabanlı Türkçe GDSKT Sistemi Ayırıcı Akustik Model Eğitimi Aşamaları - HTK: 1. Temel akustik modeller ve dil modeli ile tüm eğitim verisinin tanınması ve her sözce için en olası tanıma hipotezlerini içeren kelime örülerinin oluşturulması 2. Kelime örülerinin zayıf dil modeli ile yeniden ağırlıklandırılarak farklı hipotezler arasındaki karmaşıklığın arttırılması 3. Yeniden ağırlıklandırılmış kelime örüleri kullanılarak, temel akustik modellerin iki farklı ayrım kıstasını (MMI ve MPE) eniyileyecek şekilde güncellenmesi D. Can, M. Saraçlar, Boğaziçi Üniversitesi Türkçe Haber Bültenlerinin Açık Kaynak Yazılımlar ile Yazılandırılması 11/13

Deney Sonuçları 55 50 ML MMI MPE 45 40 KHO 35 30 25 20 0 1 2 3 4 5 6 7 8 9 10 GZÇ Farklı akustik modeller ile yapılan konuşma tanıma deney sonuçları: MLE : %25.8 (9.4xGZ) MMIE : %24.3 (9.9xGZ) MPE : %23.7 (8.0xGZ) D. Can, M. Saraçlar, Boğaziçi Üniversitesi Türkçe Haber Bültenlerinin Açık Kaynak Yazılımlar ile Yazılandırılması 12/13

Referanslar Arısoy, E., Can, D., Parlak, S., Sak, H., and Saraçlar, M. (2009). Turkish broadcast news transcription and retrieval. IEEE Transactions on Audio, Speech and Language Processing. Stolcke, A. (2002). SRILM An extensible language modeling toolkit. In Proc. ICSLP, volume 2, pages 901 904, Denver. Young, S., Evermann, G., Gales, M., Hain, T., Kershaw, D., Liu, X., Moore, G., Odell, J., Ollason, D., Povey, D., Valtchev, V., and Woodland, P. (2006). The HTK book (for HTK version 3.4), Cambridge University Engineering Department. D. Can, M. Saraçlar, Boğaziçi Üniversitesi Türkçe Haber Bültenlerinin Açık Kaynak Yazılımlar ile Yazılandırılması 13/13