Türkçe de Ünlülerin Formant Analizi Oytun Türk*, Ömer Şayli**, A. Sumru Özsoy***, Levent M. Arslan* Boğaziçi Üniversitesi *Elektrik-Elektronik Mühendisliği Bölümü **Biyomedikal Mühendisliği Enstitüsü ***Batı Dilleri Edebiyatı Bölümü Özetçe Türkçedeki seslerin akustik özelliklerinin tamamen çıkarılması hedefi, sesbilgisi ve yapay ses sentezi uygulamaları için büyük önem taşımaktadır. Türkçedeki ünlülerin formant frekansları da önemli akustik parametrelerden biridir. Formant frekanslar, sesin en yüksek enerjiye sahip olduğu frekans değerleridir. Ünlüler için genelde ilk 4 formant frekansın bulunması, o ünlü için yeterli olmaktadır. Bu çalışmada, Türkçedeki ünlülerin formant frekansları incelenmektedir. İnceleme için, bilgisayar yardımıyla dijital olarak kaydedilen 15 yetişkin erkek, 14 yetişkin kadın, 15 erkek çocuk ve 8 kız çocuğa ait ses kayıtları kullanılmıştır. Yetişkin erkek ve kadınlarda F1 ve F2 ye göre ayrımlar belirlenmiş, çocuklarda formant frekanslarına göre ayrım yapmanın yetişkinlere göre daha zor olduğu gözlenmiştir. 1. GİRİŞ Türkçe de ünlüler çene açısının büyüklüğüne göre kapalı (geniş), açık (dar) olarak sınıflandırılmaktadır. Sınıflandırma, dudak biçimine göre düz ve yuvarlak şeklinde yapılmaktadır. Türkçe ünlüler, dilin devinimine ve biçimine göre ise arka, orta ve ön dil olarak üçe ayrılmaktadır. Tablo 1 de Türkçe de ünlülerin sınıflandırılması gösterilmiştir. Ön Orta Arka Düz Yuvarlak Düz Yuvarlak Düz Yuvarlak Kapalı i ü ı u Açık e ö a o Tablo 1. Türkçe de ünlülerin sınıflandırılması. Ünlülerle ilgili en önemli akustik özniteliklerden biri formant frekanslarıdır. Formant frekans değerlerinin seslendirilen ünlüye ve konuşmacıya bağlı olarak değiştiği bilinmektedir. Çeşitli dillerde ünlülerin formant frekans istatistikleri çıkarılmış olup (Referanslar) Türkçe için bu konuda kapsamlı bir çalışmaya rastlanılmamıştır. Bu çalışmada, Türkçe için formant frekanslarının ünlülerdeki istatistiksel değerleri bulunmuştur. İlk dört formant frekans değerlerinin farklı cinsiyet ve yaş grupları için ortalama ve standart sapmalarının hesaplanmasında kullanılmak üzere Türkçe bir veri tabanı toplanmıştır. İnceleme bilgisayar programları yardımıyla otomatik olarak gerçekleştirilmiştir. Bölüm 2 de ses, ses işaretinin oluşumu ve ses analiziyle ilgili kısa bilgiler verilmiştir. Bölüm 3 te kullanılan veri tabanının özellikleri ve analiz yöntemi açıklanmıştır. Farklı yaş ve cinsiyet grupları için ünlülerin formant frekans değerleri Bölüm 4 te verilmiştir. Çalışma, Bölüm 5 te sonuçların tartışılmasıyla sona ermektedir.
2. SES İŞARETİ ANALİZİ 2.1. Ses ve Ses İşaretinin Oluşumu Ses işareti akciğerlerde üretilen havanın ses yolunda değişime uğramasıyla oluşur. Şekil 1'de ses üretim mekanizması ana hatlarıyla gösterilmektedir. Bu değişim sırasında üretilen sese ve sesi üreten kişiye bağlı olarak çeşitli frekanslarda (çınlama sıklıkları) enerji yoğunlaşması gerçekleşir. Bu frekanslara formant frekansı adı verilmektedir. İlk üç formant frekansı genelde ünlüleri ayırt etmek için yeterlidir. Spektrumda ünlüler koyu renkli çınlama sıklıklarıyla kolayca fark edilebilmektedirler. Diğer bir deyişle çınlama sıklıkları, seslerin yoğun enerjiye sahip olduğu, algısal açıdan düşük enerjili sıklıklara göre daha önemli olan sıklıklardır. 2.2. Spektrogram Ses işaretinin farklı frekanslardaki enerji dağılımının zamanla değişimini gösteren görsel analiz aracına spektrogram denilmektedir. Spektrogram kayıtların etiketlenmesinde kullanılmaktadır. Şekil 2 de yetişkin bir erkek tarafından söylenen zeybek sözcüğüne karşılık gelen ses şiddetinin zamana göre değişimini gösteren dalga biçimi (sesin oluşturduğu hava basıncı), ilk dört formant frekans ve spektrogram gösterilmiştir. Ses dalga biçiminde dikey eksen hava basıncının değerini, düşey eksen zamanı gösterir. Formant frekansları en düşük frekans değerine sahip olan ilk formanttan başlanarak F1, F2, F3,... şeklinde işaretlenir. F0 sesin temel frekans değerine karşılık gelir ve sesin kalınlığı/inceliğiyle orantılı bir akustik özniteliktir. Spektrogram vasıtasıyla sesin her sıklıktaki (frekanstaki) enerjisinin zamana göre değerini ve değişimini görmek mümkündür. Spektrogramda dikey eksen sıklık değerlerini, düşey eksen zamanı gösterir. Spektrogramda herhangi bir sıklıktaki koyuluk, o sıklıktaki enerjinin yoğunluğuyla orantılıdır (Şayli ve Arslan, 2003). Ses akustiği, fonetik ve ses fiziği ile ilgili kaynaklarda ses fiziği ile ilgili daha ayrıntılı bilgiler bulunabilir. Örneğin Lieberman ve Blumstein (1988), Hardcastle ve Laver (1997) bu konuda başvurulabilecek kaynaklardır. Şekil 1. Ses üretim mekanizması
Şekil 2. Yetişkin bir erkek konuşmacıdan alınan zeybek sözcüğüne karşılık gelen ses kaydının Wavesurfer programı ile yapılan ses çözümlemesi. Şekilde ilk dört formant frekansı sırasıyla F1, F2, F3 ve F4 olarak işaretlenmiştir. 3. YÖNTEM 3.1. Veri Tabanı İncelenen ses kayıtları farklı cinsiyetlerde ve farklı yaş gruplarındaki konuşmacılardan toplanmıştır. Konuşmacıların anadili Türkçe dir. Tüm konuşmacılar İstanbul ağzıyla konuşmaktadır. Kayıtlar sessiz ofis, laboratuar ve sınıf ortamlarında bilgisayar ile dijital olarak alınmıştır. Kayıtların alınmasında Sestek Ses Kayıt Programı kullanılmıştır. Dijital kayıt formatı 16-bit, 16 KHz, Microsoft PCM Wave formatıdır. İki tip mikrofon kullanılmıştır: Behringer XM2000S kardioid mikrofon ve Plantronics Audio 50 analog headset mikrofon. Toplanan veri tabanıyla ilgili ayrıntılar Tablo 2 de gösterilmiştir. Grup Konuşmacı Sayısı Yaş Tümce ve Sözcük Sayısı Yalıtılmış Ünlü Sayısı (tek başına söylenen) Yetişkin erkek 15 22-56 291 (72 tümce + 8 219 sözcük) Yetişkin kadın 14 20-51 291 (72 tümce + 8 219 sözcük) Erkek çocuk 15 6 49 (sözcük) 8 Kız çocuk 8 6 49 (sözcük) 8 Tablo 2. Kullanılan veritabanı ile ilgili kişi sayıları ve tümce/sözcük sayıları.
3.2. Formant Analizi Tüm ses kayıtları HTK programı ile bilgisayar ortamında otomatik olarak etiketlenmiştir. Etiketleme için 205 konuşmacıdan (105 erkek, 90 kadın) toplanmış ve elle etiketlenmiş ses kayıtları ile eğitilen fonem tabanlı Saklı Markov Modelleri (Hidden Markov Models) kullanılmıştır. Tüm etiketler gözden geçirilerek hatalı etiketlenen kısımlar çıkarılmış ve formant analizi kalan kısım üzerinde gerçekleştirilmiştir. Formant analizinde her ötümlü için ortalama formant değeri otomatik olarak hesaplanmıştır. Bölüm 3.2 de verilen değerler ünlülere karşılık gelen ortalama formant frekanslarının ortalama ve standart sapmalarıdır. Formant analizi Matlab ortamında geliştirdiğimiz, doğrusal öngörü analizi (linear prediction analysis - LPC) yöntemine dayanan bir programla gerçekleştirilmiştir. 4. SONUÇLAR Formant frekanslarının yaşa, cinsiyete ve seslendirilen ünlüye bağlı olarak değiştiği bilinmektedir. Bu nedenle analiz dört ayrı yaş-cinsiyet grubunda (yetişkin erkek, yetişkin kadın, erkek çocuk ve kız çocuk) her ünlünün formant frekans değerlerinin ortalaması ve standart sapması hesaplanarak gerçekleştirilmiştir. Yalıtılmış ünlüler ve sözcük/tümce içinde geçen ünlülerin formant frekans istatistikleri ayrı ayrı hesaplanmıştır. Tablo 3, 4, 5 ve 6 da yalıtılmış ünlüler için ortlama formant frekans değerleri ve standart sapmaları gösterilmektedir. Tablo 7, 8, 9 ve 10 da benzer analiz sözcük/tümce içinde geçen ünlüler için gerçekleştirilmiştir. a 628.9 1259.3 2706.2 136.1 465.0 208.5 e 485.6 1834.0 2614.1 35.3 120.7 125.3 ı 537.4 1577.5 2722.0 367.6 412.5 416.2 i 286.1 2177.9 2942.7 36.3 225.8 236.8 o 467.7 1064.5 2695.4 151.9 665.8 388.4 ö 543.9 1516.7 2549.3 297.7 365.9 361.1 u 309.9 908.8 2400.9 54.7 252.9 234.6 ü 372.1 1632.7 2369.3 315.1 323.3 399.8 Tablo 3. Yetişkin erkekler için Türkçe yalıtılmış ünlülerin formant analiz sonuçları. a 777.9 1414.5 2822.7 230.7 385.5 229.7 e 517.7 1472.1 2658.0 197.0 665.2 328.6 ı 839.4 1798.1 2846.3 500.5 903.9 840.5 i 422.6 2078.1 3037.2 189.2 719.0 262.5 o 515.9 983.1 2361.4 114.2 193.5 451.0 ö 522.6 1220.2 2201.8 173.5 557.5 544.8 u 477.1 1192.0 2436.5 178.9 411.6 650.2 ü 433.0 1729.1 2540.7 215.0 460.5 396.9 Tablo 4. Yetişkin kadınlar için Türkçe yalıtılmış ünlülerin formant analiz sonuçları.
a 927.3 1716.1 2728.6 129.4 341.9 323.7 e 747.7 1798.4 2878.6 113.7 412.9 278.8 ı 688.3 1680.4 2716.5 123.3 257.2 213.1 i 587.8 1753.1 2944.9 90.5 468.7 235.6 o 765.2 1564.4 2664.3 132.7 324.1 382.5 ö 717.8 1684.4 2748.0 95.0 266.9 265.9 u 602.5 1347.0 2541.0 120.4 276.1 328.7 ü 556.8 1622.2 2701.0 140.7 314.9 266.3 Tablo 5. Erkek çocuklar için Türkçe yalıtılmış ünlülerin formant analiz sonuçları. a 978.6 1795.1 2717.7 118.3 226.0 204.5 e 840.3 1990.1 3027.3 99.0 322.3 217.3 ı 854.6 1834.2 2855.9 334.2 533.9 434.8 i 614.8 1840.8 3004.2 74.2 446.7 279.6 o 873.4 1830.2 2848.7 129.9 418.4 401.0 ö 777.1 1763.6 2768.5 94.7 258.9 256.8 u 788.0 1617.3 2805.0 164.4 256.6 264.3 ü 655.3 1630.7 2740.5 125.9 417.3 259.9 Tablo 6. Kız çocuklar için Türkçe yalıtılmış ünlülerin formant analiz sonuçları. a 596.0 1381.9 2690.2 162.6 455.7 190.0 e 485.6 1834.0 2614.1 35.3 120.7 125.3 ı 537.4 1577.5 2722.0 367.6 412.5 416.2 i 346.6 2079.2 2879.0 171.2 285.9 252.5 o 467.7 1064.5 2695.4 151.9 665.8 388.4 ö 526.6 1526.1 2558.4 295.8 355.5 350.8 u 322.6 954.7 2419.6 73.3 305.8 238.7 ü 372.1 1632.7 2369.3 315.1 323.3 399.8 Tablo 7. Yetişkin erkekler için Türkçe sözcük/tümcelerdeki ünlülerin formant analiz sonuçları. a 697.6 1463.5 2742.8 275.9 384.0 280.6 e 508.3 1475.8 2654.0 165.6 571.3 275.1 ı 839.4 1798.1 2846.3 500.5 903.9 840.5 i 511.3 1989.9 2979.8 293.4 612.5 255.1 o 584.7 1110.4 2443.2 242.7 442.2 497.7 ö 506.1 1221.8 2217.6 171.7 525.6 516.1 u 546.2 1291.5 2513.4 276.0 499.7 659.6 ü 433.0 1729.1 2540.7 215.0 460.5 396.9 Tablo 8. Yetişkin kadınlar için Türkçe sözcük ve cümlelerdeki ünlülerin formant analiz sonuçları.
a 931.4 1781.7 2752.8 125.5 279.4 271.5 e 769.5 1820.4 2857.0 118.2 346.6 248.2 ı 688.3 1680.4 2716.5 123.3 257.2 213.1 i 708.6 1827.3 2958.2 202.6 414.9 214.4 o 786.6 1596.5 2684.6 154.1 338.5 378.3 ö 772.1 1752.0 2782.5 132.4 271.9 245.7 u 602.5 1347.0 2541.0 120.4 276.1 328.7 ü 634.6 1725.1 2770.5 188.7 341.2 278.4 Tablo 9. Erkek çocuklar için Türkçe sözcük ve cümlelerdeki ünlülerin formant analiz sonuçları. a 975.1 1820.2 2760.4 160.8 236.8 226.4 e 850.7 1921.7 2921.4 102.8 281.1 213.5 ı 854.6 1834.2 2855.9 334.2 533.9 434.8 i 677.3 1849.7 2972.7 148.7 397.6 253.4 o 906.8 1863.6 2864.7 136.1 376.4 361.3 ö 789.6 1796.1 2768.2 102.5 256.6 229.0 u 788.0 1617.3 2805.0 164.4 256.6 264.3 ü 764.7 1780.2 2859.1 218.3 433.6 298.7 Tablo 10. Kız çocuklar için Türkçe sözcük ve cümlelerdeki ünlülerin formant analiz sonuçları. Tüm ünlülerin formant frekanslarının farklı yaş-cinsiyet gruplarına göre dağılımları Şekil 3, 4, 5 ve 6 da gösterilmiştir. Şekil 3. Yetişkin erkekler için tüm ünlülerin ilk iki formant frekansının sözcük/tümce içindeki ünlüler (sol) ve yalıtılmış ünlüler için dağılımları.
Şekil 4. Yetişkin kadınlar için tüm ünlülerin ilk iki formant frekansının sözcük/tümce içindeki ünlüler (sol) ve yalıtılmış ünlüler için dağılımları. Şekil 5. Erkek çocuklar için tüm ünlülerin ilk iki formant frekansının sözcük/tümce içindeki ünlüler (sol) ve yalıtılmış ünlüler için dağılımları. Şekil 6. Kız çocuklariçin tüm ünlülerin ilk iki formant frekansının sözcük/tümce içindeki ünlüler (sol) ve yalıtılmış ünlüler için dağılımları.
Şekil 7. Sözcük/tümcelerdeki ünlülerin F1-F2 dağılımları.
Şekil 8. Yalıtılmış ünlülerin F1-F2 dağılımları.
Şekil 7 ve 8 de her ünlü için F1 ve F2 değerlerinin farklı yaş-cinsiyet gruplarına göre dağılımları bir arada gösterilmiştir. Bu şekillerden her ünlünün ilk iki formant frekansı değerlerinin yaş-cinsiyet grubuna bağlı olarak değiştiği gözlenmektedir. 5. TARTIŞMA Yetişkin erkek konuşmacılar için elde edilen sonuçlar F1 e göre üç ayrımın yapılmasını sağlamaktadır: F1 > 600 Hz. Ünlü: /a/ (kapalı-açık-düz ü.) 430 Hz < F1< 600 Hz. Ünlüler: /e/, /o/, /ö/ F1 < 430 Hz. Ünlüler: /i/, /ü/, /u/ (/ı/ hariç kapalı ünlüler) Yetişkin erkekler için F2 ye göre ayrım aşağıdaki gibidir. F2 nin değişiminde dil devinimi ve biçimi etkilidir. F2 > 1450 Hz. Ünlüler: /a/, /u/, /o/ (arka dil ünlüleri) 1450 Hz < F2 < 1650 Hz. Ünlüler: /ı/ (orta dil ünlüsü) F2 < 1450 Hz. Ünlüler: /e/, /i/, /ü/, /ö/ (ön dil ünlüleri) Benzer şekilde yetişkin kadınlar için sonuçlar incelendiğinde F1 e göre iki ayrım gözlenmektedir: F1 > 600 Hz. Ünlüler: /a/ (kapalı-açık-düz ü.), /ı/ (orta-kapalı-düz ü.), /o/ (açıkyuvarlak-arka), /u/ (kapalı-arka-yuvarlak). F1 < 600 Hz. Ünlüler: /e/, /i/, /ö/, /ü/ (ön dil ünlüleri) Yetişkin kadınlarda F2 ye göre ayrım şu şekildedir: F2 > 1600 Hz. Ünlüler: /ı/, /i/, /ü/ (kapalı ünlüler, /u/ hariç) 1400 Hz < F2 < 1600 Hz. Ünlüler: /e/, /a/ (düz - açık ü.) F2 < 1400 Hz. Ünlüler: /ö/, /o/ (açık yuvarlak ü.), /u/ (kapalı yuvarlak ünlü) Yetişkin erkeklerde F2 ye göre sınıflandırmada ön/orta/arka dil ünlüleri sınıflandırması gözükmektedir. Yetişkin bayanlarda ise aynı sınıflandırma F1 ile yapılabilmektedir. (Selen, 1979) çalışmasında belirtilen ön/orta/arka dil ünlü sınıflandırması bu çalışmada da gözlenmiştir. Özellikle /ı/ nın ön ve arka dil ünlülerinin arasında olmasıyla. Çocuklar için sonuçlar incelendiğinde ünlülerin formant değerlerinin yetişkinlere göre daha yüksek olduğu gözlenmektedir. Bunun nedeni çocuklarda ses yolunun yetişkinlere göre daha kısa olması ve yüksek enerji içeren frekansların kısa dalga boylarına (yüksek frekanslara) karşılık gelmesidir. Çocuklarda kız ve erkekler için değerler birbirine yetişkinlere göre daha yakındır. Ayrıca ünlüler arasındaki kesişmelerin fazla olması nedeniyle F1 ve F2 ile ünlüler arasında ayrım yapmak daha zordur. 6. KAYNAKÇA Pye, D., Woodland, P. ve Young, S. (1995). "Large Vocabulary Multilingual Speech Recognition using HTK." Proc Eurospeech, Madrid.
Rabiner, L., R., ve Juang, B.-H., Fundamentals of Speech Recognition, 1993, New Jersey, NJ, Prentice-Hall, Inc. Rabiner, L., W., ve Schafer, R., W., Digital Processing of Speech Signals, 1978, New Jersey, Prentice-Hal. Inc. Ergenç, İ., Türkiye Türkçesinin Görevsel Sesbilimi, Ankara:Engin, 1989. Hardcastle, W. J. ve J. Laver (editörler), The Handbook of Phonetic Sciences, Blackwell Publishers Ltd., 1997. Kopkalli, H., A Phonetic and Phonological Analysis of Final Devoicing in Turkish. University of Michigan. Ph. D. Dissertation, 1993. Kılıç, M. A., Türkiye Türkçesindeki Ünlülerin Sesbilgisel Özellikleri, Studies in Turkish Linguistics, Boğaziçi University Press, 2003. Lieberman, P. ve S. E. Blumstei, Speech physiology, speech perception, and acoustic phonetics, Cambridge University Press, 1988. Rabiner, L. R. and R. W. Schafer, Digital Processing of Speech Signals, Prentice Hall Inc., Englewood Cliffs, N. J., 1978. Selen, N., Söyleyiş Sesbilimi, Akustik Sesbilim ve Türkiye Türkçesi, Türk Dil Kurumu Yayınları, Ankara, 1979. Şayli, Ö. ve Levent M. Arslan, "Türkçe'deki seslerin süre özellikleri", Dilbilim Araştırmaları, Boğaziçi Üniversitesi Yayınevi, s. 15-26, 2003. WaveSurfer ses çözümleme programı, http://www.speech.kth.se/wavesurfer