A HYBRID FACIAL EXPRESSION RECOGNITION METHOD BASED ON NEUTRAL FACE SHAPE ESTIMATION



Benzer belgeler
NONLINEAR CLASSIFIER COMBINATION FOR SIMPLE COMBINATION TYPES. Mehmet Umut Şen, Hakan Erdoğan

DENEYLER İÇİN PROTOKOL VE TABAN ÇİZGİSİ PROTOCOL AND BASELINE FOR EXPERIMENTS ON BOGAZICI UNIVERSITY TURKISH EMOTIONAL SPEECH CORPUS

Çok Modelli Görsel Lokalizasyon Multi-Model Visual Localization

UYARLAMALI İKİ YÖNLÜ HAREKET KESTİRİMLİ ZAMANSAL VİDEO ARA DEĞERLEMESİ ADAPTIVE BILATERAL MOTION COMPENSATED TEMPORAL VIDEO INTERPOLATION

GÖRÜNTÜ VE LIDAR VERİSİNDEN BİNA TESPİTİNDE FARKLI YÖNTEMLER

İstatistiksel Regresyon Yöntemlerinin Farklı Veri Gruplarına Uygulanması Üzerine Bir Analiz

Bayesgil VAR Modelinin Gerçek Zaman Dizileri

A METHOD FOR DECISION FUSION OF TARGET TRACKERS RUNNING ON DIFFERENT BAND IMAGE SEQUENCES

KULAKTAN KİŞİ VE KİMLİK TESPİTİ İÇİN ÖRNEK BİR UYGULAMA

TIME-VARYING LIFTING STRUCTURES FOR SINGLE-TREE COMPLEX WAVELET TRANSFORM

TÜM GÖKYÜZÜ KAMERASINDAN ALINAN GÖRÜNTÜLER KULLANILARAK BULUTLULUK ÖLÇÜMÜ YAPILMASI

ÇOK KRİTERLİ KARAR VERME TEKNİKLERİ İLE TÜRKİYE NİN EKONOMİK PERFORMANSININ AVRUPA BİRLİĞİ ÜYE ÜLKELERİ İLE KARŞILAŞTIRILMASI

PARALEL MEKANİZMALARIN KİNEMATİĞİ, DİNAMİĞİ VE ÇALIŞMA UZAYI

Tarkan AYDIN DOKTORA TEZİ

ORANTILI TEHLİKE VARSAYIMININ İNCELENMESİNDE KULLANILAN YÖNTEMLER VE BİR UYGULAMA

ERSÖZ-KABAK SAVUNMA SANAYİ UYGULAMALARINDA ÇOK KRİTERLİ KARAR VERME YÖNTEMLERİNİN LİTERATÜR ARAŞTIRMASI. Filiz ERSÖZ 1 Mehmet KABAK 2 ÖZET

Diferansiyel Evrim Algoritması Destekli Yapay Sinir Ağı ile Orta Dönem Yük Tahmini

Ad Hoc Ağları İçin Kuyruk Ağ Analizi Ve Yapay Arı Kolonisi Algoritmalarının Birleştirilerek Routing Probleminin Simülasyonu

4.45. KARAKTER TANIMA İÇİN DÜZENLİ ÖZELLİK ÇIKARMA İŞLEMİNİN İNCELENMESİ VE UYGULANMASI ÖZET

11. SINIF MATEMATİK KONU ÖZETİ

Üçüncü Boyut: Baş Takibi ve Fare ile Çoklubiçimli Etkileşim Arayüzü. 3 rd Dimension: A Multimodal Interface with 2D Mouse and 3D Head Tracking

İnsan ve Makine Bulutları Sinerjisi: Kitle Kaynaklı Çalışma ile Veri Temizleme Örnek Uygulaması

KISMİ EN KÜÇÜK KARELER REGRESYONU YARDIMIYLA OPTİMUM BİLEŞEN SAYISINI SEÇMEDE MODEL SEÇME KRİTERLERİNİN PERFORMANS KARŞILAŞTIRMASI

Seda Arslan TUNCER 1, Ahmet ALKAN 2 arslanseda@hotmail.com; aalkan@ksu.edu.tr

Üst Düzey Yöneticilerin Sahip Olması Gereken Yönetsel Yetkinliklerin Belirlenmesine Đlişkin Ampirik Bir Çalışma

BELEDİYE HİZMETLERİNİN MALİYET ETKİNLİKLERİNİN DEĞERLENDİRİLMESİ: ESKİŞEHİR ODUNPAZARI BELEDİYESİNDE BİR UYGULAMA

T.C. TRAKYA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ

YÜK TRENİ İSTASYONLARINDA HAREKET PLANLAMASI

PERAKENDE MARKETLERİN YER SEÇİMİNE YÖNELİK CBS UYGULAMASI

Transkript:

YÜZ İFADESİ TANIMA İÇİN NÖTR YÜZ ŞEKLİNİN KESTİRİLMESİNE DAYALI HİBRİT BİR YÖNTEM A HYBRID FACIAL EXPRESSION RECOGNITION METHOD BASED ON NEUTRAL FACE SHAPE ESTIMATION Sezer Ulukaya 1 2, Çiğdem Eroğlu Erdem 2 1 Elektrik-Elektronik Mühendisliği Bölümü Boğaziçi Üniversitesi 2 Elektrik-Elektronik Mühendisliği Bölümü Bahçeşehir Üniversitesi (cigdem.eroglu; sezer.ulukaya)@bahcesehir.edu.tr ÖZETÇE Yüz ifadesinin değiştiğinin kolay anlaşılabilmesi için o kişiye ait nötr yüz ifadesinin bilinmesi faydalıdır fakat her zaman nötr yüz ifadesi bilgisi elimizde olmayabilir. Bir duygu yansıtan yüz ifadesine ait bilinmeyen nötr yüz ifadesinin kestirimi için Gauss karışım modellerine (GKM) dayalı bir yöntem öneriyoruz. Yapılan deneyler sonucunda kestirilen nötr yüz ifadesi belirli bir duyguya (kızma, gülme, vb.) ait ifadeden çıkarılıp destek vektör sınıflandırıcılarıyla (DVS) sınıflandırıldığında genişletilmiş Cohn-Kanade (CK+) veritabanında %88 duygu tanıma başarımına ulaşıldı. Görünüme ait öznitelikler de eklenip sınıflandırıldığında performansın %92 gibi bir başarıma ulaştığı görülmüştür. ABSTRACT In order to recognize the facial expression of a person, the knowledge of the neutral facial expression of that person is useful but may not always be available. We present a method based on Gaussian mixture models (GMM) to estimate the unknown neutral facial expression of an expressive face. The estimated neutral face is then subtracted from the features of the expressive image and classified using support vector classifiers (SVC). Experimental results on the extended Cohn-Kanade (CK+) database give an emotion recognition rate of 88% using geometric features only and 92% if appearance based features are also included. 1. GİRİŞ Yüz ifadelerinin otomatik olarak tanınması problemi üzerinde son yıllarda yoğun olarak çalışılmaktadır. İnsanmakina etkileşimi, yapay zeka ve robot teknolojisi yüz ifadesi tanımanın önemli uygulama alanlarıdır. İnsanlar için önemli olan bu duygu tanıma yeteneğinin, insan-bilgisayar etkileşiminin bir parçası olmasına yönelik araştırmalar Bu çalışma TÜBİTAK-EEAG tarafından 110E056 numaralı proje kapsamında desteklenmiştir. 978-1-4673-0056-8/12/$26.00 c 2012 IEEE hız kazanmıştır [1]. Otomatik yüz ifadesi tanıma, diğer pek çok problemde de kullanılmaktadır: güvenlik [2] ve sürücü güvenliği [3] bunlardan birkaçıdır. Yüz ifadesinin sınıflandırılmasında temel sorunlardan birisi yüz ifadesi sınıflarının tanımlanmasıdır. Bu tanımlama birkaç şekilde yapılabilmektedir [4], [5]. Bu çalışmada, Ekman tarafından kültürden bağımsız olduğu saptanmış olan altı temel duygu ve ek olarak küçümseme duygusu kullanılmıştır. Son on yılda yüz ifadelerinden duygu tanınması konusunda pek çok çalışma yapılmıştır [6], [7], [5]. Bu yöntemlerin çoğu yüze ait iki boyutlu uzamsal-zamansal öznitelikler ile farklı örüntü tanıma yöntemleri kullanırlar. Yüze ait öznitelikler, geometrik öznitelikler ve görünüme ait öznitelikler olarak ikiye ayrılabilir. Geometrik öznitelikler, yüze ait bileşenlerin şekli (gözler, dudaklar vb.) ve yüzdeki belirgin nirengi noktalarının pozisyonları olarak tanımlanabilir. Görünüme ait öznitelikler ise yüzün dokusu hakkında bilgi verirler: doğal kırışıklıklar, kaş çatmadan doğan alın kırışıklıkları ve şişkinlikler gibi. Hem geometrik hem de görünüme ait öznitelikleri bir arada kullanan hibrit yüz ifadesi tanıma yöntemlerinin daha iyi sonuçlar vermesi beklenir [7]. Yüz ifadesi tanıma algoritmalarının test edilmesi ve karşılaştırılması için video veritabanlarına ihtiyaç vardır. Daha önce 2000 yılında araştırmacıların kullanımına sunulmuş olan Cohn-Kanade (CK) veritabanı [8], kayıtlardaki kişi sayısı artırılarak ve duygu etiketleri, yüz takibi verileri gibi yeni bilgiler de eklenerek daha kapsamlı bir hale getirilmiş ve 2010 yılında araştırmacıların kullanımına açılmıştır (CK+) [9]. Yakın geçmişte CK+ veritabanı kullanılarak yapılan yüz ifadesi tanıma çalışmalarına bakıldığında, Gabor filtresi ile elde edilen görünüme ait öznitelik vektörleri ile 26 özne üzerindeki deneylerde %87 [10], hem görünüm hem de geometrik öznitelikler ile 118 özne üzerindeki deneylerde %83 başarıma ulaşılmıştır [9]. Bu çalışmada, bir duyguya ait yüz ifadesine ait bilinmyen nötr yüz ifadesini kestirmek için Gauss Karışım Modellerine dayalı bir yöntem öneriyoruz. Kestirilen bu nötr yüz ifadesi, duygusal yüz ifadesinden çıkarılmakta ve böylece duygu tanıma başarımı artmaktadır. Bu çalışmada geometrik öznitelik-

vektörler art arda birleştirildi. 3. GAUSS KARIŞIM MODELLERİ İLE NÖTR YÜZ İFADESİ KESTİRİMİ Bir topluluktaki insan yüzleri uzun ve ince veya yuvarlak gibi değişik şekillerde olabilmektedir. Bu bildiride, nötr yüz ifadelerinin şekil özniteliklerine Gauss karışım modelleri (GKM) uydurularak popülasyondaki yüzler tanımlanmaya çalışıldı. Her bir Gauss karışımının ortalamasının bir yüz şekline ait kümeyi temsil etmesi beklenir. 3.1. Nötr Yüz İfadelerine Gauss Karışım Modelleri (GKM) Uydurulması Nötr yüz ifade şekillerinin veri kümesi, CK+ veritabanındaki 123 özneye ait 593 dizinin ilk çerçevelerinden oluşturulmuştur. Nötr yüz şekli veri kümesi χ = {s n,1 }, n = 1,..., N şeklinde gösterilecek olsun. s n,1 = [p 1 n,1, p 2 n,1,..., p M n,1], n inci imge dizisinin, normalize edilmiş 68 takip noktasının koordinatlarını kullanarak, ilk çerçeveye ait yüz şeklini temsil eder. Parametreler M = 68, N = 593 dür. Nötr yüz ifadelerinin dağılımı, yoğunlukların karışımı kullanılarak aşağıdaki gibi modellenebilir: p(s) = K p(s G k )P (G k ), (1) k=1 burada G k karışım bileşenlerini, p(s G k ) bileşen yoğunluklarını and P (G k ) da karışım oranlarını belirtir. Bileşen sayısı K, önceden belirlenebileceği gibi aşağıda anlatılacağı üzere Akaike nin bilgi kriterine (ABK) göre de kestirilebilir. Eğer bileşen yoğunluklarının çok değişkenli Gauss dağılımı olduğu varsayılırsa, p(s G k ) ℵ(s µ k, Σ k ) ve Φ = {P (G k ), µ k, Σ k } K k=1 parametrelerinin veri kümesinden kestirilmesi gerekir. Veri kümesinin olabilirliğini enbüyüten bileşen yoğunluk parametreleri aranır. Dağılımdan birbirinden bağımsız çekilen veri noktalarının oluşturduğu örneğin olabilirliği: p(χ Φ) = = N p(s n Φ) (2) n=1 ( N K ) P (G k )ℵ(s n µ k, Σ k ), n=1 k=1 ve olabilirliğin logaritması: ( N K ) ln p(χ Φ) = ln P (G k )ℵ(s n µ k, Σ k ). (3) n=1 k=1 şeklinde gösterilir. Denklem (3) te verilen fonksiyon Beklenti- Enbüyütme (Expectation-Maximization) algoritması ile enbüyütülür [13]. K parametresi deneysel olarak Akaike nin bilgi kriteri (ABK) kullanılarak belirlenir [14]. Bileşenlerin sayısı belirtilmediğinde, uygun bileşen sayısını bulmak için kullanılır. Akaike bilgisi verinin olabilirliğinin logaritmasının negatifi ve ceza terimi olarak kullanılan kestirilecek parametre sayısına bağlıdır. GKM uydurma süreci belirli bir aralıktaki K değerlerinden ABK ni en aza indiren değer seçilerek tamamlanır. 3.2. Nötr Yüz İfadesi Şeklinin Kestirimi Resimden çıkarılan yüz ifadesine ait şekil vektörü s n,i, aşağıdaki şekilde ayrıştırılabilir: s n,i = ŝ n,i + v n,i, (4) öyle ki ŝ n,i şeklin kişiye özel kısmını, v n,i ise duruş ve duyguya ait değişim kısmını belirtir. Eğer nötr yüz ifadesine ait şekil elimizde mevcutsa, s n,i den çıkararak duyguya ait kısım bulunabilir. Ama her zaman nötr yüz ifadesi mevcut olmayabilir, bu durumda en iyi uyan nötr yüz şeklini kestirip s n,i den çıkarmak doğru sınıflandırma oranını arttırmaya yönelik kullanılabilir. K tane yüz adayından en iyi uyanı seçmek için takip noktalarının yüz ifadesinden en az etkilenenleri kullanıldı. Bu amaçla seçilen noktalar kümesi sağ ve sol yanakların göz hizasındaki kısımları ile gözlerin iç köşeleridir: {p 1 n,i, p 2 n,i, p 3 n,i, p 15 n,i, p 16 n,i, p 17 n,i, p 40 n,i, p 43 n,i}. Yukarıdaki noktaları n inci dizinin i numaralı çerçevesi {P j n,i } olacak şekilde ifade edersek, k ıncı Gauss karışım bileşeninin ortalamasında karşılık gelen noktalara da {ˆµ j k } dersek, j = 1,..., 8 ve k = 1,..., K olmak üzere, en iyi uyan nötr yüz şeklini seçmek için aşağıdaki Mahalanobis uzaklığını en aza indirmek gerekir: D k (P j n,i, ˆµj k ) = (P j n,i ˆµj 1 k )T ˆΣ k (P j n,i ˆµj k ), (5) öyle ki, ˆΣ k, 1, 2, 3, 15, 16, 17, 40, 43 numaralı noktaların koordinatlarına ait 16 16 lık ortak değişinti matrisidir. En iyi uyan nötr yüz şeklinin dizini: k n,i = arg min k D k (P j n,i, ˆµj k ) (6) dir. Dizin kestirildikten sonra karşılık gelen Gauss karışımına ait ortalama şekil (4) teki kişiye özel bileşene atanır: ŝ n,i ˆµ k. (7) Duygudan kaynaklanan yüzün değişim kısmı aşağıdaki gibi kestirilmiş olur: s n,i ˆµ k v n,i, (8) sonra da ikinci dereceden polinom kernel kullanan DVS ile sınıflandırılır. 4. DENEY SONUÇLARI Deneylerde CK+ veritabanının [9] duygu etiketi taşıyan 327 dizisi kullanılmıştır. Yapılan deneyler sonucunda GKM ile nötr yüz ifadesi kestirimi için en düşük ABK değeri K = 6 için elde edilmiştir. Ortak değişinti matrisinin köşegenine negatif olmayan küçük düzenlileştirme sayısı eklenerek kesin artı matris yapılmıştır. Sınıflandırıcı olarak çok boyutlu verilerde iyi performans vermesi ve doğrusal olmayan sınıf sınırlarını bulabilmesi nedeniyle Destek Vektör Sınıflandırıcıları (DVS) kullanılmıştır. Kişiden bağımsız duygu tanıma oranlarını elde etmek için [9] da da önerildiği gibi bir-kişiyi-dışarıda-bırak (BKDB) (leave-one-subject-out, LOSO) çapraz değerleme yöntemi kullanılmıştır. BKDB yöntemi, eğitim ve test kümelerindeki

veri sayısını arttırmak ve kişiden bağımsız duygu tanımayı garanti etmek bakımından tercih edilen bir yöntemdir. Koordinat tabanlı öznitelikler (KTÖ) değişik senaryolar için duygu tanıma amacıyla kullanılmıştır. Bu metotların kısaltmaları aşağıdaki gibidir: KTÖ: Duygunun tepe noktasına ait 68 noktadan oluşan öznitelikler. KTÖ-DİF: Duygunun tepe noktasından nötr ifadenin (kişiye özel) çıkarılması ile elde edilen öznitelikler. KTÖ-KDİF: Duygunun tepe noktasından kestirilen nötr ifadenin çıkarılması ile elde edilen öznitelikler. Öneridiğimiz GKM ni kullanmadan önce k-ortalama kümesi, tüm nötr ifadelerin ortalaması ve her duyguya ait kişiye özel imge dizisinin ortalamasını alarak nötr yüz ifadesi kestirimi de yapıldı, bu kestirilen nötr yüz tepe noktasındaki duygudan çıkarılıp sınıflandırıldığında sırasıyla %86, %85 ve %82.2 başarıma ulaşıldı. Bir kısmı temel aldığımız metottan (%83.3 [9]) iyi olsa da, GKM (KTÖ-KDİF) ile %88 gibi azımsanamayacak bir başarıma ulaşıldı. KTÖ ile %83, KTÖ- DİF ile %94, KTÖ-KDİF ile %88 başarım elde edildi. Bu deneylerden, önerdiğimiz GKM ye dayalı nötr yüz ifadesi kestirme yönteminin duygu tanıma oranına olumlu katkı yaptığını, diğer kestirme yöntemlerinden daha iyi olduğunu ve kişinin kendisine ait nötr yüz ifadesi bilinmiyorken işe yarayabileceği sonucunu çıkarabiliriz. Yukarıdaki sonuçlara ÖDÖD (scale invariant feature transform - SIFT) e dayalı görünüm tabanlı öznitelikler de eklendiğinde Tablo 1 deki başarım oranları elde edilmiştir. ÖDÖD öznitelikleri de kullanılarak yüz ifadesi tanıma yapıldığında %92 doğru tanıma oranı elde edilmiştir. Kullanılan Öznitelikler Ortalama Duygu Tanıma Oranı KTÖ %83 KTÖ + ÖDÖD %87 KTÖ-DİF %94 KTÖ-DİF + ÖDÖD %95 KTÖ-KDİF %88 KTÖ-KDİF + ÖDÖD %92 Temel Metot [9] %83 Tablo 1: Koordinat tabanlı özenitelikler (KTÖ) ve görünüme ait öznitelikler (ÖDÖD) ile elde edilen yüz ifadesi tanıma için deney sonuçları. 5. SONUÇLAR Yüz ifadesi tanıma için nötr yüz ifadesinin bilinmediği durumlarda nötr yüz şeklini kestirebilmek için GKM kullanan bir yöntem önerilmiştir. CK+ veritabanı deney[9] ile yapılan sonuçlarına göre, kestirilen yüz şeklini tepe noktasındaki duygunun yüz şeklinden çıkarmak, duygu tanıma oranını arttırmaktadır. Kişiye özel nötr ifadeyi ve görünüm tabanlı öznitelik kullanmadığımız zaman, önerilen yöntem %88 başarıma ulaşmış olup, [9] ve [10] daki sonuçlardan yüksektir. Kişiye özel yüz ifadesini ve görünüm tabanlı öznitelikleri de kullandığımızda ise başarım %95 olmaktadır. 6. KAYNAKÇA [1] A. Vinciarelli, M. Pantic, and H. Bourlard, Social signal processing: Survey of an emerging domain, Image and Vision Computing, vol. 27, no. 12, pp. 1743 1759, 2009. [2] A. Ryan, J. Cohn, S. Lucey, J. Saragih, P. Lucey, F. D. la Torre, and A. Rossi, Automated facial expression recognition system, in Proceedings of the International Carnahan Conference on Security Technology, 2009, pp. 172 177. [3] E. Vural, M. Cetin, A. Ercil, G. Littlewort, M. Bartlett, and J. Movellan, Automated drowsiness detection for improved driving safety, in Proceedings of the International Conference on Automotive Technologies, 2008. [4] P. Ekman and W. V. Friesen, Constants accross cultures in the face and emotion, Journal of Personality and Social Psychology, vol. 17, no. 2, pp. 124 129, 1971. [5] H. Gunes and M. Pantic, Automatic, dimensional and continuous emotion recognition, International Journal of Synthetic Emotions, vol. 1, no. 1, pp. 68 99, 2010. [6] M. Pantic and L.J.M. Rothkrantz, Automatic analysis of facial expressions: The state of the art, IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 22, no. 12, pp. 1424 1445, 2000. [7] Z. H. Zeng, M. Pantic, G. I. Roisman, and T. S. Huang, A survey of affect recognition methods: Audio, visual, and spontaneous expressions, IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 31, no. 1, pp. 39 58, 2009. [8] T. J. Kanade, J. Cohn, and Y. Tian, Comprehensive database for facial expression analysis, in Proc. of the Fourth IEEE International Conference on Automatic Face and Gesture Recognition (FG 00), Grenoble, France, 2000. [9] P. Lucey, J. F. Cohn, T. Kanade, J. Saragih, Z. Ambadar, and I. Matthews, The extended cohn-kanade dataset (ck+): A complete dataset for action unit and emotionspecified expression, in Proceedings of IEEE workshop on CVPR for Human Communicative Behavior Analysis, San Francisco, USA, 2010. [10] G. Littlewort, J. Whitehill, T. Wu, I. Fasel, M. Frank, J. Movellan, and M. Bartlett, The computer expression recognition toolbox (cert), in IEEE Conf. on Automatic Face and Gesture Recognition (FG 2011), 2011. [11] D. G. Lowe, Distinctive image features from scaleinvariant keypoints, Internatonal Journal of Computer Vision, vol. 60, no. 2, pp. 91 110, 2004. [12] F. van der Heijden, R. P. W. Duin, D. de Ridder, and D. M. J. Tax, Classification, Parameter Estimation and State Estimation, Wiley, 2004. [13] C. M. Bishop, Pattern Recognition and Machine Learning, Springer, 2006. [14] H. Akaike, A new look at the statistical model identification, IEEE Transactions on Automatic Control, vol. 19, no. 6, pp. 716 723, 1974.