Çabuk Yazılandırma Kılavuzu (Rapid Transcription Guide) v0.4 Murat Saraçlar 1 Ekim 2006 Çabuk yazılandırma, Türkçe konuşma tanıma sistemleri için veri tabanı oluşturmayı amaçlamaktadır. Ana hedef konuşmanın bir insan tarafından çabuk ve doğru olarak yazıya dökülmesidir. Temel olarak konuşma yazı dilinde kullanılan sözcüklere çevrilecek, az miktarda konuşma dışı bilgiye de yer verilecektir. Örneğin arka planda gürültü, müzik, maç olması halinde bu belirtilecektir. Ayrıca konuşmacının konuşmaya ara verdiği noktalar kullanılarak bir bölütleme gerçekleştirilecektir. Son olarak konuşmacının kimliği de belirtilecektir. 1 Bölütleme Yeterince uzun sessizlik noktalarını kullanan enerji tabanlı bir otomatik önbölütleyicinin çıktısı gerektiğinde yazıcı tarafından düzeltilecektir. Dikkat edilmesi gereken noktalar: Sözcüklerin ikiye bölünmemesi Bir bölütte sadece bir konuşmacının olması Bölütlerin çok kısa ya da çok uzun olmaması Akustik ortam değişiklikleri (fon müziği vb) halinde yeni bir bölütün başlaması LDC HUB4 ve Rapid Transcription Guide dan uyarlanmıştır. 1
2 Yazım Yazımda Türkçe yazı dili kullanılacaktır. Sözcüklerin okunuşları değil yazılışları esas alınacaktır. Eğer bir sözcük yazıldığı gibi okunmamışsa (örn. yabancı kelime) bu uygun bir şekilde işaretlenecektir. Bu durumda okunuş parantez içinde belirtilecektir. Noktalama İşaretleri Cümle sonunu belirten nokta (.), soru işareti (?), ünlem (!) ve özel isimlerden sonra gelen kesme ( ) haricindeki noktalama işaretlerinin kullanılmasına gerek yoktur. Büyük Harfler Özel isimler için kullanılması faydalı olacaktır. Tam söylenmemiş sözcükler Başı ya da sonu duyulmayan kelimeler için (-) kullanılır. Örn. -zartesi, pazarte-. Bu durumda yazıcı duyulmayan kısımda ne söylendiğinden eminse bunu parantez içinde belirtebilir. Örn. (pa-)zartesi, pazarte(-si) Özel Semboller Kullanılmaz. Örn. $ yerine dolar, % yerine yüzde kullanılır. Bu sembollerin bazıları başka amaçlarla kullanılmaktadır. Kısaltmalar Harf harf okunan kısaltmalar başına konarak işaretlenir. Örn. İETT, TRT. Yazıldığı gibi okunan kısaltmalar işaretlenmez. Örn. NATO. Yabancı kelimeler başına $ konarak işaretlenir. Örn. $Washington. Tercihen doğru yazılım şekli kullanılmalıdır. Yabancı dilde harf harf okunan kısaltmalar için $ işareti kullanılır. Örn. $ CIA. Yabancı dildeki diğer kısaltmalar için $ işareti yeterlidir. Okunuş parantez içinde belirtilmelidir. Örn. $Washington(Vaşington) ya da $Washington(Vaşingtın), $ CIA(si ay ey). Harfler Tek olarak okunan harflerin başına konur. Örn. B be olarak okunur. Rakamlar yazıyla yazılır. Örn. bin dokuz yüz doksan altı. Duraksamalar ve ara sözler Bu sözler konuşma arasında kullanılır ve % ile işaretlenir. Standard bir şekilde yazılmaları için önerilen yazım şöyledir: %ııı (duraksama) %hı-hı (evet) 2
%ı-ıh (hayır) %aaa (şaşırma) %ooo %eee %ııı %mmm %off %ahh %vay Konuşma dışı sesler Bunlar * ile işaretlenir: İnsanların çıkarttığı nefes, gülme, öksürme, yutkunma gibi sesler için *N. Tıkırtı, gıcırtı gibi gürültüler için *G. Eğer bu sesler anlık değilse ve aynı bölüt içinde bir kaç sözcük boyunca sürüyorsa başa *G< sona da *G> konarak işaretlenir. Uzun süreli sesler için ayri bir bölüt oluşturulmalıdır. Anlaşılamayan konuşma Konuşma zor anlaşılıyorsa anlaşıldığı kadarı çift parantez (( )) içine alınır. Konuşma anlaşılamıyorsa içi boş çift parantez kullanılır. Bu durumda ayrı bir bölüt oluşturulması uygun olacaktır. 2.1 Dikkat Edilecek Noktalar Kesme işaretinin kullanıldığı yerler. Bağlaç olan de, da ile hal eki olan -de, -da eklerinin yazımı. Bağlaçlar ayrı, ekler ise bitişik yazılmalıdır. Bağlaç olan ki ile aitlik eki olan -ki ekinin yazımı. Bağlaçlar ayrı, ekler ise bitişik yazılmalıdır. ile, ise, iken, idi gibi söz ve eklerin yazımı sırasında konuşmacının söyleyiş şekli esastır ve bu şekilde yazılmalıdır. Örn. annesiyle annesi ile, öyleyse öyle ise. Ünlü daralması (a-ı, e-i değişmesi) durumunda söyleyiş şekli değil yazım kuralları esas alınacaktır. Örn. başlıyan (söyleyiş) başlayan (yazım). 3
3 Akustik Ortam Bilgisi Konuşmanın kalitesi ve arka plan ile ilgili bilgiler aşağıdaki yedi sınıfa ayrılıp etiketlenecektir. F0 Kaliteli, önceden hazırlanmış stüdyoda kaydedilmiş konuşma. F1 Önceden hazırlanmamış (spontane) stüdyoda kaydedilmiş konuşma. F2 Telefon kanalı üzerinden kaydedilmiş konuşma. F3 Arka planda müzik içeren konuşma. F4 Arka planda gürültü içeren konuşma. F5 Aksanlı konuşma. FX Diğer. Sadece müzikten ibaret bölütler için M etiketi kullanılacaktır. 4 Konuşmacı Bilgisi Mümkün olduğu durumlarda her bölütteki konuşmacının kim olduğu belirtilecektir. Bunun amacı kimin konuştuğundan çok aynı konuşmacıya ait bölütleri saptamak olduğu için trt spiker 1, trt spiker 2, konuşmacı 1 gibi etiketler kullanılabilir. Konuşmacının cinsiyeti de belirtilmelidir. (Erkek: E, Kadın: K, Çocuk: C) 5 Format Çıktı DARPA Hub4 değerlendirmelerinde kullanılan NIST STM formatında olmalıdır. STM formatında her bölüt aşağıda görüldüğü gibi tek bir satırda ifade edilir. STM :== DosyaAdı Kanal Konuşmacı BaşlamaZamanı BitişZamanı [ Etiket ] yazı... Burada DosyaAdı Ses dosyasının adı. Kanal Mono kayıtlar için 1, Stereo kayıtlar için 1 ya da 2. Konuşmacı Boşluk içermeyen konuşmacı ismi ya da numarası. mehmet ali birand ya da trt spiker 1 gibi. 4
BaşlamaZamanı Saniye cinsinden bölütün başlangıç zamanı. BitişZamanı Saniye cinsinden bölütün bitiş zamanı. Etiket Bölütle ilgili virgüllerle ayrılmış bilgiler. <M,X>. Örn. <F0,K>, <F2,C>, Yazı Boşluklarla ayrılmiş sözcükler dizini ya da IGNORE TIME SEGMENT IN SCORING etiketi. ÖNEMLİ: Karakter kodlaması ISO-8859-9 (Latin5) olmalıdır. 5