İĞNECİKLİ SİNİR AĞLARI İLE SES KAYNAĞI SINIFLANDIRMA

İstanbul Aydın Üniversitesi Dergisi 30, (2016) (35-53) İĞNECİKLİ SİNİR AĞLARI İLE SES KAYNAĞI SINIFLANDIRMA Peren J. CANATALAY 1 Osman Nuri UÇAN 2 Özet Bu çal şmada, mikrofon dizilerinden al nan verilerin işlenmesi ile ses kaynağ n n yer tayini üzerine çal ş lm şt r. Ses kaynağ konumu belirlemede başar m en yüksek yöntemlerden biri olan faz dönüşümlü yönlendirilmiş cevap gücü algoritmas üzerine yoğunlaş lm şt r. Mikrofon dizileri ile yap lan kay tlarda kaynaklar n ayr ayr dinlenebilmesi için odaklama yap lmas gerekmektedir ve bunun için de ses kaynağ konumunun kesin bir şekilde bulunabilmesi gerekmektedir. Bu amaçla, konum bilgilerinin değerlendirilmesi ve yer tayini işlemi için iğnecikli sinir ağ ile s n fland rma yap lm şt r. Elde edilen sonuçlar, oldukça yüksek bir başar ma işaret etmektedir. Belirlenen konumlar, bilinen gerçek konuşmac konumlar ile oldukça uyumludur ve hata oranlar birkaç santimetreyi aşmamaktad r. Anahtar Kelimeler: İğnecikli sinir ağ, Ses kaynağ yer bulma 1 İstanbul Ayd n Üniversitesi, Elektrik-Elektronik Mühendisliği Bölümü 2 İstanbul Ayd n Üniversitesi, Elektrik-Elektronik Mühendisliği Bölümü 35

İĞNECİKLİ SİNİR AĞLARI İLE SES KAYNAĞI SINIFLANDIRMA I. GİRİŞ Ses ve/veya konuşma kaydetmede ortam koşullar oldukça belirleyici olan olumsuz etkilere sahiptir. Bu etkilerin bertaraf edilmesi birden çok mikrofon kullan lmas sayesinde sağlanabilmektedir. Birden çok mikrofonun kullan m, mikrofonlar n yerleşim biçimlerine göre ortam içerisindeki tüm sesleri duyabilme olanağ vermektedir. Ancak, ortamdaki tüm seslerin duyulabilmesi, tüm seslere hakim olma anlam na gelmemektedir. Zira ortamda birden çok ses kaynağ bulunmas ve/veya ortam n yank lama etkisinin yüksek olmas gibi durumlarda sesler birbirine kar şmakta, kimi sesler örtülmekte, geri planda kalmakta ve anlaş lamamaktad r. Bu durum genel olarak kokteyl partisi problemi olarak adland r lmaktad r. Çözüm ise dizisel işaret işleme tekniklerinin çoklu mikrofon kay tlar na uygulanmas d r. Bir diğer önemli problem de ses kaynağ ve/veya konuşmac n n haraketli olmas durumu veya bir başka ifadeyle kay t esnas nda yer değiştiriyor olmas durumudur. Bu durumda da kay t edilen ses ve/veya konuşman n kalitesi sabit olamamakta ve zaman içerisinde çeşitli zay flamalara maruz kalmaktad r. Nitekim her farkl konum, farkl gürültü kaynaklar, bozucular ve/veya yans t c nesneleri beraberinde getirmektedir. Bu tür bir problemin çözümü de yine dizisel işaret işleme yöntemlerine başvurarak çoklu mikrofon kay tlar n n işlenmesi olarak ortaya ç kmaktad r. Dizisel işaret işleme, temel olarak birçok alg lay c dan al nan verilerin, alg lay c lar n uzaysal yerleşimlerine göre işlenmesi olarak 36

Peren J. CANATALAY, Osman Nuri UÇAN tan mlanabilir. Sonuçta hedeflenenler ise genel olarak kaynaklar n say ve konumlar n n belirlenmesi, işaret gürültü oran n n iyileştirilmesi ve birden fazla hareketli kaynağ n takibi olarak özetlenebilir. Radar, sonar, sismik araşt rmalar, tomografi ve kablosuz iletişim gibi alanlarda kullan lan dizisel işaret işleme, hem al c hem de verici dizileri için uygulanabilmektedir. Bu durumda yay lmak istenen işaretler belirlenen yönelimdeki belirlenen hedefe ulaşt r labilmektedir. Dizisel işaret işlemenin gerçekleştirilebilmesi için baz ön kabuller yap lmaktad r. Bunlardan ilki, kaynaktan ç kan enerjinin tüm yönlere düzenli bir şekilde yay ld ğ n n ve ortam n enerjiyi dağ tmad ğ n n varsay lmas d r. Bir diğer ön kabul ise, işaretle birlikte ortalamas s f r olan bir beyaz gürültünün varl ğ d r ki bu beyaz gürültü işaretle ilintili değildir. II. YÖNTEM Bir mikrofon dizisi, birden çok mikrofondan oluşan ve kay t edilen akustik işaretlerden uzaysal bilginin elde edilmesini sağlayacak şekilde konumland r lan bir çoklu alg lay c sistemidir [13]. Akustik kay t alma sistemi olarak kullan lan bir mikrofon dizisi ile gelen ses dalgalar n n uzaysal özellikleri verimli bir şekilde ortaya ç kar labilir ve bu işlem tek bir mikrofon ile mümkün olmayan bir işlemdir. Bu işlemin gerçekleşebilmesi mikrofon dizisinin her bir eleman na gelen ses dalgalar aras ndaki zaman fark na dayanmaktad r. Var ştaki zaman fark olarak adland r labilen bu olgu, mikrofonlara ulaşan bilgi işaretleri aras nda meydana gelen farkl zaman gecikmeleri olarak İstanbul Aydın Üniversitesi Dergisi 30, (2016) (35-53) 37

İĞNECİKLİ SİNİR AĞLARI İLE SES KAYNAĞI SINIFLANDIRMA aç klanmaktad r. Şekil 1 de de gösterilen bu olgu, mikrofonlar aras ndaki fiziksel uzakl klar n bir sonucudur ve dizisel işaret işleme algoritmalar n n üzerine bina edildiği, alg lay c dizilerinin pek çoğu için geçerli olan en temel özelliktir. Şekil 1 Ses dalgas n n mikrofon dizisine farkl zamanlarda var ş Sesin yay l m n incelemek ve ses kaynağ yer tespiti gibi uygulamalarda ses dalgas n n modellenmesi gerekmektedir. Pratik uygulamalar için makul olabilecek ve geçerliliği gösterilmiş bir model ile yola ç kmak temel teşkil edecektir. Ses kaynağ n n yerini bulma ve/veya konuşma iyileştirme gibi uygulamalar söz konusu ise, çoğunlukla kullan lacak yöntem demet oluşturma ve/veya türevleri olan algoritmalard r. Demet oluşturma teknikleri temelde mikrofon dizisinin bir hedef noktas na odaklanmas ve dolay s ile hedeflenen bu kaynak noktas ndan gelen işaretleri almas d r. Hedef d ş ndaki tüm uzaydan gelen işaretler zay flatmaya ve/veya 38

Peren J. CANATALAY, Osman Nuri UÇAN s f rlanmaya tabi tutularak girişim ve bozulmalar engellenir. Bu yöntem uzaysal filtreleme olarak da adland r l r ve sonuçta elde edilen işaret demet oluşturma işleminin yönlendirilmiş cevab olarak nitelendirilir [13]. A. Faz Dönüşümlü Yönlendirilmiş Cevap Gücü Şekil 2 de örnek bir kay t ortam nda hedef ses kaynağ, engeller, gürültü kaynaklar ve mikrofon dizisi görülmektedir. Bu ortam oldukça gerçekçi bir şekilde betimlenmiştir. Ses kaynağ ndan yay lan akustik dalgalar duvarlardan ve yay l ma engel nesnelerden yank lanacak, çeşitli gürültü kaynaklar ndan ç kan seslerden dolay girişime maruz kalacak ve mikrofon dizisine oldukça bozulmuş ve/veya kar şm ş bir halde ulaşacakt r. Tüm bu olumsuz koşullar n varl ğ na karş n, demet oluşturma yöntemlerinin kullan m ile hedef ses kaynağ n n yeri belirlenebilmekte ve/veya konuşma üzerinde işlem yap labilmektedir [15]. Elbette ki burada hangi demet oluşturma tekniğinin kullan lacağ da önem kazanmaktad r, nitekim bu çal şmada bu tekniklerden başar m oran en yüksek olan yöntemlerden biri olan faz dönüşümlü yönlendirilmiş cevap gücü yöntemi üzerinde durulacakt r. İstanbul Aydın Üniversitesi Dergisi 30, (2016) (35-53) 39

İĞNECİKLİ SİNİR AĞLARI İLE SES KAYNAĞI SINIFLANDIRMA Şekil 2 Gerçekçi bir ses kay t ortam Demet oluşturma, k saca özetlenirse uzaydaki bir nokta için yönlendirilmiş bir cevap bulma işlemidir [13]. Bu içerikte pek çok algoritma ortaya konmuştur. Bu algoritmalar aras nda en basit ancak başar l olan yöntem geciktir ve topla tekniğidir. Ad ndan da anlaş ld ğ üzere, bu teknikte her bir mikrofondan al nan işarete mesafe farkl l klar n telafi edecek gerekli gecikmeler uygulan r ve böylece tüm işaretler zamansal olarak üst üste getirilmiş olur. Üst üste gelen ses sinyalleri topland ğ nda ve/veya ortalamas al nd ğ nda ise her bir orijinal ses işaretinden daha zengin ve daha temiz bir işaret elde edilmiş olur. Geciktir ve topla algoritmas temsili olarak Şekil 3 te gösterilmiştir. Burada y(t,q) ile gösterilen yönlendirilmiş cevap işaretidir ve hem mesafeye hem de zamana bağl olan bir fonksiyon olarak ifade edilmiştir. 40

Peren J. CANATALAY, Osman Nuri UÇAN Şekil 3 Geciktir ve topla tekniği Ses kaynağ yer bulma algoritmalar nda, bulunan ya da belirlenen konumun doğru konum olup olmad ğ, algoritman n performans n büyük ölçüde etkiler. Zira elde edilen işaretin enerjisi yaln zca konum doğru olarak bilindiğinde maksimum olacakt r. Demet oluşturulan konum için ç k ş işaretinin enerji karakteristiğinden yararlanma da bu kapsamda geliştirilen bir yöntemdir. Ç k ştaki işaretin enerji karakteristiğinden yararlanmak için de belirlenen ya da bulunan konum için yönlendirilmiş cevap gücü hesaplan r. Belirli bir q konumu için yönlendirilmiş cevap gücü (1) denklemi ile ifade edilir. (1) Yönlendirilmiş cevap gücü, frekans domeninde de tan ml d r. Zira Parseval teoremine göre tüm t zaman boyunca toplanan dalgan n içerdiği toplam enerji, tüm ω frekans bileşenleri üzerinden toplanan Fourier İstanbul Aydın Üniversitesi Dergisi 30, (2016) (35-53) 41

İĞNECİKLİ SİNİR AĞLARI İLE SES KAYNAĞI SINIFLANDIRMA dönüşümü dalgas n n sahip olduğu toplam enerjiye eşittir. Bu durumda frekans domeninde tan mlanan yönlendirilmiş cevap gücü (2) denklemi ile hesaplan r. (2) Eğer Y(ω,q) ifadesinin yerine denklemin aç l m konursa, filtre eklenmiş geciktir ve topla algoritmas n n yönlendirilmiş cevap gücünü elde edilmiş olunur, ve bu da (3) denkleminde gösterilmiştir. (3) Eğer (3) denklemindeki Wm(ω) filtresi, faz dönüşümü işlevini yapan bir filtre olarak seçilir ise, elde edilen sonuç faz dönüşümlü yönlendirilmiş cevap gücü olacakt r. Bu yaklaş m [16] numaral referansta öne sürülmüş ve gürültülü ve/veya yank l ortamlarda ses kaynağ n n yerini bulmak için halen bilinen en iyi yöntemlerden biri olma özelliğini elinde bulundurmaktad r. Faz dönüşüm filtresi (4) denklemi ile hesaplanabilir. (4) 42

Peren J. CANATALAY, Osman Nuri UÇAN Bu dönüşüm (3) denkleminde yerine konursa, frekans domeninde faz dönüşümlü yönlendirilmiş cevap gücü ifadesi elde edilmiş olur. B. İğnecikli Sinir Ağ Literatürde verilen iğnecikli sinir ağ yap s ve ilgili yöntemler [22], [23], [24] kullan lm şt r. Buna göre ağ yap s nda geleneksel ileri beslemeli yapay sinir ağlar nda olduğu gibi, katmanlar aras tam bağlant kullan lm şt r. İlk katmanda sinir hücreleri girişe göre al c alan sinir hücrelerinden oluşmakta ve ikinci katmanda ise ç k ş sinir hücreleri radyal taban işlevli sinir hücrelerinden oluşmaktad r. Şekil 4 Ağ yap s ve adaptasyon İstanbul Aydın Üniversitesi Dergisi 30, (2016) (35-53) 43

İĞNECİKLİ SİNİR AĞLARI İLE SES KAYNAĞI SINIFLANDIRMA Sinirler aras çoklu bağlant (sinaps) kullan lan bu yap Şekil.4 (a) da kesikli olarak ayr nt da gösterilmiştir ve buradaki her alt bağlant daki gecikme farkl d r ve bu da toplam cevab etkilemektedir. Sonuç olarak, bağlant sonras potansiyel, alt bağlant potansiyellerinin zamanda toplanmas ile elde edilmektedir [25]. Gözetimsiz s n fland rma aşamas nda temel olarak Bohte nin çal şmalar nda verilen [22], [23] yöntem ve yap kullan lm şt r. Buna göre ağ yap s nda geleneksel ileri beslemeli yapay sinir ağlar nda olduğu gibi, katmanlar aras tam bağlant kullan lm şt r. İlk katmanda sinir hücreleri girişe göre al c alan sinir hücrelerinden oluşmakta ve ikinci katmanda ise ç k ş sinir hücreleri radyal taban işlevli sinir hücrelerinden oluşmaktad r. Şekil 5 Al c alanlar Sinirler aras çoklu bağlant (sinaps) kullan lan bu yap Şekil.4 (a) da kesikli olarak gösterilmiştir ve buradaki her alt bağlant daki gecikme farkl d r ve bu da toplam cevab etkilemektedir. Sonuç olarak, bağlant 44

Peren J. CANATALAY, Osman Nuri UÇAN (sinaps) sonras potansiyel, alt bağlant potansiyellerinin zamanda toplanmas ile elde edilmektedir. Giriş katman ndaki sinir hücreleri, çak şan Gaussçu al c alanlar ile zamanda kodlama yapmaktad r. 8 sinir hücresi için bir kodlama örneği Şekil.5 te gösterilmiştir. Burada a ile gösterilen giriş değişkeni örnek bir veri noktas na karş l k gelmektedir ve her bir sinir hücresi için ateşleme zaman gecikmesine çevrilmektedir. Buna göre en büyük değeri alan 5. Sinir 0 a en yak n zamanda ateşlenirken en küçük değeri alan 7. sinir en son ateşlenmiş olacakt r. III. UYGULAMA Bu bölümde, telekonferans tipi bir uygulamadan elde edilen veriler kullan larak, önerilen faz dönüşümlü yönlendirilmiş cevap gücü yöntemi ile yer bulma ve iğnecikli sinir ağ yöntemi ile de ses kaynaklar n n s n fland r lmas test edilmiştir. Kullan lan veri Brown Üniversitesi, LEMS Laboratuvar (Laboratory for Engineering Man/Machine Systems), taraf ndan sağlanm şt r. Bu veride 5 ayr konuşmac bir oda içerisinde konuşmalar yapmakta ve çevresel olarak yerleştirilmiş 24 adet mikrofondan oluşan mikrofon dizisi ile eş zamanl olarak kay t yap lmaktad r. Bu kay tlarda konuşmalar doğal olarak birbirlerine kar şmakta ve anlaş lamamaktad r. Telekonferans uygulamalar için örnek olabilecek bu kay t ortam Şekil 6 da görülmektedir. Burada konuşmac lar n ortalama uzakl klar ve desibel cinsinden ç kan seslerin güçleri de yaklaş k olarak verilmektedir. Al nan İstanbul Aydın Üniversitesi Dergisi 30, (2016) (35-53) 45

İĞNECİKLİ SİNİR AĞLARI İLE SES KAYNAĞI SINIFLANDIRMA ses kay tlar 20 khz ile örneklenmiş ve kay t yaklaş k 20 saniye kadar sürdürülmüştür. Şekil 6 Verinin topland ğ kay t ortam Yöntem k sm nda, burada kulland ğ m z yer bulma algoritmas olan faz dönüşümlü yönlendirilmiş cevap gücü tan mlanm ş ve formülize edilmişti. Bu k s mda yukar da aç klanan veri kümesine ilk aşamada faz dönüşümlü yönlendirilmiş cevap gücü - yer bulma algoritmas kullan larak s n fland rmada kullan lacak ikincil veri kümesi elde edilmektedir. Veri kümesinden her 1024 örneklemde bir olmak üzere 512 örneklemli ad mlarla ilerleyerek k sa dönemli ses verisi yer bulma algoritmas na uygulanm şt r. Bu durumda 20 khz ile örneklenen veri kümesinden toplamda 780 adet k sa dönem ses kay t verisi elde edilmiştir. Ortamda 5 adet konuşmac bulunmakta ve bu konuşmac lar, konuşmalar nda farkl içerikleri farkl zamanlama ve farkl vurgulamalar 46

Peren J. CANATALAY, Osman Nuri UÇAN ile gerçekleştirmektedirler. Bundan dolay her bir k sa dönem için çal şt r lan yer bulma algoritmas, her bir ç kt s nda öne ç kan, dolay s ile farkl, konumlar tespit etmektedir. Bu konumlar o an için sesi, vurgusu veya zamanlamas bask n olan konuşmac ya ait olan konumlar olarak değerlendirilmelidir. Sonuç olarak mevcut örnekleme frekans ve kay t süresi ile seçilen k sa dönem periyotlar, 780 adet k sa dönemli ses örneklem cümlesine dönüştürülmüş, tüm bu k sa dönemli örneklemlerin her biri için faz dönüşümlü yönlendirilmiş cevap gücü - yer bulma algoritmas n n çal şt r lmas ile belirlenen konumlardan da 780 adet 3 er eksenli kartezyen koordinat verisi elde edilmiştir. Şekil 7 Konumlar n s n fland r lmas İstanbul Aydın Üniversitesi Dergisi 30, (2016) (35-53) 47

İĞNECİKLİ SİNİR AĞLARI İLE SES KAYNAĞI SINIFLANDIRMA Bu ikincil veride konuşmac lar n kartezyen koordinatlar n n gürültü, anl k yönelimler, karş l kl etkileşim ve girişimler gibi nedenlerden ötürü dağ n k ve düzensiz bir haldedir. Oysa ki, demet oluşturarak en iyi sesi alabilmek için konum bilgisinin gerçeğe en yak n konumu göstermesi gerekmektedir. Bu nedenle bu ikincil veri üzerinde bu aşamada bir s n fland rma yap lmas ve konuşmac lar n kesin yerlerinin belirlenmesi gerekmektedir. S n fland rma aşamas nda dört, beş ve alt nc bölümlerde anlat lan iğnecikli sinir ağ kullan lm şt r. Yöntem bölümünde gösterilen örnek uygulamadaki yap ve algoritma kullan lm ş, ek olarak ç k ş katman nda 5 konuşmac y temsilen 5 adet radyal tabanl hücreye yer verilmiştir. Tablo 1 Belirlenen konumlar ile gerçek konumlar aras ndaki farklar Veri kümesi, iğnecikli sinir ağ girişine uyguland ktan sonra ç k şta beş merkeze kümelenen konum bilgileri Şekil 7 de görüldüğü gibi elde edilmiştir. Bu kümelenen konum bilgilerinin ortalamalar al narak nihai konum bilgilerine ulaş lm şt r. Tespit edilen konum bilgileri gerçek 48

Peren J. CANATALAY, Osman Nuri UÇAN konum değerlerine oldukça yak nd r, zira Tablo 1 de hatalar gösterilmiştir. IV. SONUÇ Bu çal şmada, birçok ayr alanda uygulanabilirliği gösterilmiş olan, dizisel işaret işleme alan n n akustik veri işleme üzerine çal ş lan kolu olan mikrofon dizileri ile ilgilidir. Mikrofon dizileri ile, teorik olarak mikrofon say s kaynak say s ndan büyük eşit olmak üzere, ses kaynaklar n n kartezyen koordinatlar oldukça yüksek bir hassasiyet ile bulunabilmektedir. Ses kaynağ konumu belirlemede başar m en yüksek yöntemlerden biri olan faz dönüşümlü yönlendirilmiş cevap gücü algoritmas üzerine çal ş lm ş ve uygulama ve benzetim bölümünde de bu algoritmaya yer verilmiştir. Gerçek zamanl uygulamalar göz önünde bulundurularak algoritmaya 512 örneklem ad mlar ile 1024 örnekli bölümler halinde girdiler uygulanm şt r. 20 khz lik örnekleme frekans düşünüldüğünde 1024 örnek yaklaş k olarak 0.05 saniyeye karş l k gelmektedir. Bu da, algoritman n 25 milisaniyelik ad mlar ile çal şt r ld ğ anlam na gelmektedir. Bir telekonferans örneği düşünüldüğünde bu süre gerçek zamanl kontrol için oldukça uygundur. Ses kaynağ yer bulma algoritmas ç kt olarak 3 boyutlu uzayda Kartezyen koordinat bilgisi vermektedir. 25 milisaniyelik ad mlarla al nan 50 milisaniyelik veri parçalar her periyotta farkl konum bilgilerini ç kt olarak vermektedir çünkü konuşmac lar n konuşma İstanbul Aydın Üniversitesi Dergisi 30, (2016) (35-53) 49

İĞNECİKLİ SİNİR AĞLARI İLE SES KAYNAĞI SINIFLANDIRMA zamanlar, tonlamalar, ses yükseklileri birbirinden farkl d r. Bunun yan s ra ortamda gürültü ve yank gibi bozucu etkenler de bulunmaktad r. Mikrofon dizileri ile yap lan kay tlarda kaynaklar n ayr ayr dinlenebilmesi için odaklama yap lmas dolay s ile demet oluşturulmas gerekmektedir ve bunun için de ses kaynağ konumunun kesin bir şekilde bulunabilmesi gerekmektedir. Bu amaçla faz dönüşümlü yönlendirilmiş cevap gücü algoritmas ndan yukar da belirtilen s kl klarda al nan konum bilgilerinin tekrar değerlendirilerek ses kaynağ konumlar n n tayin edilmesi gerekmektedir. Bu yeniden değerlendirme işlemi için iğnecikli sinir ağ ile s n fland rma yap lmas uygun görülmüştür. Bu şekilde gerçek zamanl uygulamalara uygunluk gözetilerek s ral öğrenme tekniğine yer verilen iğnecikli sinir ağ da ayn zamanda paralel olarak işleyerek yer bulma algoritmas n n ç kt lar olan 3 boyutlu konum bilgilerini girdi olarak almaktad r. İğnecikli sinir ağ n n ç kt s olan 5 öbek ve harici veri noktalar da belli periyotlarla değerlendirilerek bir s n fland rma gerçekleştirilmektedir. S n fland rma sonucunda belirlenen öbeklerin ortalamas 3 boyutlu uzaysak koordinatlarda konuşmac n n konumu olarak tayin edilmektedir. Elde edilen sonuçlar, oldukça yüksek bir başar ma işaret etmektedir. Belirlenen konumlar, bilinen gerçek konuşmac konumlar ile oldukça uyumludur ve hata oranlar birkaç santimetreyi aşmamaktad r. Bu çal şman n, kurulmas amaçlanan bir deney düzeneğinden elde edilecek gerçek veriler ile doğrulanmas ve geliştirilmesi planlanmaktad r. 50

Peren J. CANATALAY, Osman Nuri UÇAN KAYNAKÇA [1] P Stoica, R Moses. Spectral Analysis of Signals, NJ: Prentice Hall, 2005 [2] Jha, RakeshMohan, Trends in Adaptive Array Processing, 2012 [3] Viberg, Mats, Sensor Array Signal Processing: Two Decades Later, 1995 [4] Visser H., Array and Phased Array Antenna Basics. New Jersey: Wiley, 2005 [5] McGowan I., Microphone Arrays: A tutorial, April 2001. [6] Kushleyev A., Sound Localization. University of Maryland, Institute for Systems Research, Summer 2004. [7] Gregory E., Cole J., Audio Localization. Connexions Project, 2004. [8] Kazuhiro N., Hiroshi O., Hiroaki K., Auditory Fovea Based Speech Enhancement and its Application to Human-Robot Dialog System. Kyoto University, Graduate School of Informatics. [9] [9] Basu S., Schwartz S., Pentland A., Wearable Phased Arrays for Sound Localization and Enhancement. MIT Media Laboratory, IEEE 2000. EECE 503, Audio Engineering. Course Notes. [10] Zeren A., Müzik Fiziği, Pan Yay nc l k, 2003 [11] Beranek L., Noise Reduction Precared for a Special Summer Program at the Massachusetts Institute of Technology. New York: McGraw-Hill, 1960 [12] Benesty J., Chen J., Huang Y., Microphone Array Signal Processing, Springer,2008 İstanbul Aydın Üniversitesi Dergisi 30, (2016) (35-53) 51

İĞNECİKLİ SİNİR AĞLARI İLE SES KAYNAĞI SINIFLANDIRMA [13] Johnson D. H., Dudgeon D. E., Array Signal Processing: Concepts and Techniques, Prentice Hall, 1993 [14] Brandstein W., Ward D., Microphone Arrays: Sibnal Processing Techniques and Applications, Springer, 2001 [15] DiBiase J. H., A High-Accuracy, Low-Latency Technique for Talker Localization in Reverberant Environments Using Microphone Arrays, Brown Üniversitesi, 2000 [16] W.S. McCulloch and W. Pitts. A logical calculus of the ideas immanent in nervous activity. Bulletin of Mathematical Biophysics, 5:115 133, 1943 [17] D. E. Rumelhart, G. E. Hinton, and R. J. Williams. Learning internal representations by back-propagating errors. Nature, 323:533 536, 1986. [18] D.O. Hebb. The Organization of Behaviour. Wiley, New York, 1949. [19] J.J. Hopfield. Neural networks and physical systems with emergent collective computational abilities. Proc. Natl. Acad. Sci., 79(8):2554 2558, 1982. [20] R. Van Rullen and S. Thorpe. Rate coding versus temporal order coding: what the retinal ganglion cells tell the visual cortex. Neural Computation, 13:1255 1283,2001. [21] A.L. Hodgkin and A.F. Huxley. A quantitative description of ion currents and its applications to conduction and excitation in nerve membranes. J. of Physiology, 117:500 544, 1952 [22] L. Lapicque. Recherches quantitatives sur l excitation electrique des nerfs trait e comme une polarization. J. Physiol. Pathol. Gen., 52

Peren J. CANATALAY, Osman Nuri UÇAN 9:620 635, 1907. cited by Abbott, L.F., in Brain Res. Bull. 50(5/6):303 304. [23] D.I. Standage and T.P. Trappenberg. Differences in the subthreshold Dynamics of leaky integrate-and-fire ans Hodgkin- Huxley neuron models. In IJCNN 2005, Int.Joint Conf. On Neural Networks, pages 396 399. IEEE INNS, 2005. [24] W.. Gerstner. Time structure of the activity in neural network models. Physical Review E, 51:738 758, 1995. [25] W.M. Kistler, W. Gerstner, and J.L. van Hemmen. Reduction of hodgkin-huxley equations to a single-variable threshold model. Neural Computation, 9:1015 1045, 1997. [26] W. Maass, T. Natschl ager, and H. Markram. Real-time computing without stable states: A new framework for neural computation based on perturbations. Neural Computation, 14(11):2531 2560, 2002. [27] H. Jaeger. Tutorial on training recurrent neural networks, covering BPTT, RTRL, EKF and the echo state network approach. Technical Report TR-GMD-159, German National Research Center for Information Technology, 2002. [28] W. Maass. Networks of spiking neurons: The third generation of neural network models. Neural Networks, 10:1659 1671, 1997 [29] Haykin S., (1994) Neural Networks, Macmillan, New York. [30] W. Gerstner and W. Kistler `Spiking Neuron Models Single Neurons,Populations,Plasticity' Cambridge Univ. Press (2002) İstanbul Aydın Üniversitesi Dergisi 30, (2016) (35-53) 53