IŞIK ÜNİVERSİTESİ BİLİMSEL ARAŞTIRMA PROJELERİ SONUÇ RAPORU

Ebat: px
Şu sayfadan göstermeyi başlat:

Download "IŞIK ÜNİVERSİTESİ BİLİMSEL ARAŞTIRMA PROJELERİ SONUÇ RAPORU"

Transkript

1 IŞIK ÜNİVERSİTESİ BİLİMSEL ARAŞTIRMA PROJELERİ SONUÇ RAPORU 10A303 ANLAMSAL TÜRKÇE ARAMA MOTORU Doç.Dr. Olcay Taner YILDIZ

2 İÇİNDEKİLER 1. GENEL ÖZET 2. HARCAMALAR LİSTESİ 3. TEKNİK RAPOR 4. ÜRÜNLER LİSTESİ 5. EKLER

3 GENEL ÖZET SAYFASI Proje Kodu: 10A303 Proje Adı: ANLAMSAL TÜRKÇE ARAMA MOTORU Proje Yürütücüsü (ünvan belirtilerek): Doç. Dr. Olcay Taner YILDIZ Proje Ekibi: Doç. Dr. Olcay Taner YILDIZ, Ar. Gör. Onur GÖRGÜN, Ar. Gör. Yasin Ozan KILIÇ, Ar. Gör. Koray AK Ayrılan Toplam Ödenek: TL Gerçekleşen Toplam Harcama: 17864,50 TL Kalan Ödenek: 2135,50 TL Raporun Gönderildiği Tarih:

4 HARCAMALAR LİSTESİ SAYFASI Seyahat Giderleri: Seyahat gideri bulunmamaktadır. Hizmet Giderleri: Hizmet gideri bulunmamaktadır. Sarf Giderleri: Sarf malzeme giderleri aşağıdaki tabloda belirtilmiştir. Cins Birim Fiyat (USD) Adet Toplam KDV Dahil USB BELLEK(SANDISK 16GB USB) 35, ,00 FOTOKOPİ KAĞIDI XEROX A4 3,45 10 (pak.) 64,50 TONER HP Q2612A 77,24 4 (pak.) 578,00 DVD TDK 4,7GB 100'LÜ 33,00 1 (pak.) 62,00 964,50 Makine-Teçhizat Giderleri: Makine-Teçhizat giderleri aşağıdaki tabloda belirtilmiştir. Cins Birim Fiyat (USD) Adet Toplam KDV Dahil MACBOOK 13'' 2,26 GHZ 1255, ,00 NOTEBOOK(LENOVA SL510)) 549, ,00 SERVER(HP ML350G6) 2850, ,00 SERVER (HP STORAGEWORKS MSA) 3109, ,00 HP 2GB RAM 315, ,00 HP SPS-FAN 92MM 60, , ,00 Yazılım Giderleri: Yazılım gideri bulunmamaktadır.

5 PROJENİN TEKNİK RAPORU 1. Giriş İnternet kullanımının artması ve buna bağlı olarakta bilgiye erişimin kolaylaşması beraberinde bazı sorunları da getirmektedir. Kaliteli bilgiye erişim önem arz eden bir konu haline gelir iken, bu olanakları kullanıcalara sağlayacak en önemli unsur arama motorlarıdır. Anlamlı bilginin çıkarımının yanısıra, bu bilginin son kullanıcıya sunumu da önem arz etmektedir. Anlamlı ve doğru bilgi çıkarımı her dil için farklı yöntemler kullanmayı gerektirmektedir. Bunun en önemli nedeni ise, her dilin farklı anlamsal ve sözdizimsel yapıya sahip olmasıdır. Günümüzde en büyük veri kaynağı olan dil İngilizce dir. Bunun en büyük nedeni ise, sanal doku yöreleri arasında en yaygın dilin yine İngilizce olmasıdır. Bu sebeplerden ötürü ise, arama motorları üzerinde yapılan iyileştirme çalışmalar İngilizce üzerinde olmaktadır. Türkçe gibi daha az Internet içeriğine sahip diller ise bilgi erişimi konusunda araştırma eksikliği içerisindedir. Projenin temel amacı, Türkçe dilbilgisi ve biçimbilimsel kuralları dikkate alan bir anlamsal arama motoru gerçeklemektir. Bu doğrultuda, dile özgü içeriği yoğunlukla barındıran haber, günce ve forum siteleri taranarak indisleme yapılacaktır. Bu indisler yardımı Türkçe dökümanlar sorguda aranan kavramlara yakınlık seviyelerine göre kullanıcıya sunulacaktır. Arama motoru kapsamında, Soru Yanıtlama Sistemi de gerçeklenecektir. Projenin sonunda varılmak istenilen nokta, ek özellikler desteklenmiş bir arama motoru ve bilgi erişim sistemi tasarlamaktır. Bu amaca ulaşmak adına yapılan çalışmalar ikinci bölümde bileşen bazında, şematik ve özet olarak sunulmuştur. 2. Kullanılan Araçlar ve Yöntemler Proje kapsamında gerçeklenmesi düşünülen sisteme ait genel akış şeması (Şekil 1), gerçeklenen parçalar ve gerçeklenme detayları ile sunulmaktadır. (1) Arama motoru altyapısını oluşturan etmenler ve indisleme işlemleri: Arama motorunun altyapısı Apache Foundation tarafından geliştirilmekte olan ve yine bir Apache Foundation kütüphanesi olan Lucene temelli bir arama motoru mimarisi olan Nutch seçilmiştir. Sistemin kurulumu sunucu bilgisayar üzerine kurularak gerekli bütün düzenlemeler yapılmıştır. Sisteme yapılan katkılardan en önemlisi ise Lucene yapısı bünyesinde gerçeklenen ve sadece Türkçe içerikli sayfaları tarama ve indisleme imkanı veren bir ara modülün gerçeklenmesidir. Bu sayede araştırma kapsamında istenildiği üzere sadece Türkçe içerik ayıklanmış ve indislenmeye hazır hale getirilmiştir. Bu bölüm şema üzerinde (1) olarak işaretlenmiştir ve indisleme modülünün bir parçası olarak çalışmaktadır.

6 Türkçe dökümanlar içerisinden yer alan kelimelerin kelime formları biçiminde indislenmesi mümkündür. Ancak bu durum aynı kökten gelen kelimelerin farklı kelimeler olarak değerlendirilmelerine neden olmaktadır. Örnek olarak, masal, masallar, masalların kelimeleri farklı kelimeler gibi görülmekle birlikte masal kökünden türemiş farklı kelime biçimleridir. Bu kelime biçimlerinin aynı kelime olarak nitelendirilmesi arama başarımı açısından önemlidir. Bu sebeple, Türkçe dökümanlarda kullanılmak üzere, verilen kelime biçimini kök ve eklerine ayırma işlemi yapılmalıdır. Bu işlemin adına biçimbilimsel çözümleme adı verilmektedir. Bu konuda yapılmış çalışmalar olmakla birlikte, bu proje kapsamında bir doğal dil işleme kütüphanesi geliştirilmiştir. Biçimbilimsel çözümleme bu kütüphanenin bir parçası olan çözümleyici tarafından yapılabilmektedir. Ayrıca bu alanda denetimsiz bir bölütleyici de tasarlanmıştır. Bu denetimsiz çözümleyici araştırıcı Koray Ak ın yüksek lisans tezini oluşturmakta olup, ayrıca bu çalışmanın bir parçası uluslarası bir konferans bildirisi olarak yayınlanmıştır. Yine bu çalışmanın tamamı bir hakemli dergisiye iletilmiş ancak eksiklikleri sebebi ile kabul görmemiştir. Bu çalışmalara ürünler bölümüne ait eklerde yer verilmiştir. 3 Şekil 1 Arama motoru projesi kapsamında gerçeklenmesi ve kurulumu planlanan bileşenler ve sisteme genel bakış.

7 Biçimbilimsel çözümleme, özellikle Türkçe için birden fazla kökten türemiş çok sayıda çözümleme ile sonuçlanabilir. Bu durumda hangi çözümlemenin doğru olduğu sorusu ortaya çıkmaktadır. Bu problem literatürde biçimbilimsel anlamsızlık giderme olarak tanımlanmaktadır. Yine bu özellikle Türkçe için yapılmış başarılı çalışmalar mevcuttur. Gerçeklenmiş olan yazılım kütüphanesinde bu probleme çözüm bulmak amacı ile makine öğrenmesi temelli bir biçimbilimsel anlamsızlık giderici kodlanmıştır. Bu çalışmada uluslararası bir konferansta sunulmak üzere kabul görmüş ve bildiri olarak yayınlanmıştır. Aynı çalışmanın genişletilmiş hali uluslararası hakemli bir dergiye iletilmiş ancak kabul görmemiştir. Yine bu çalışmalar ekler bölümünde sunulmuştur. Gerek biçimbilimsel çözümleyiciler gerekse biçimbilimsel anlamsızlık giderici, akış şemasının (1) ve (3) ile numaralandırılmış kesimlerinde kullanılmaktadır. Üç çalışma ile ilgili ek çalışmalar ise hala devam etmektedir. Yine (3) numaralı bölgede kullanılmak üzere bir makine çeviri sistemi tasarlanmıştır. Bu çalışma ile hedeflenen ise İngilizce-Türkçe yönünde ve sorgu seviyesinde çeviri yapabilen bir çeviri sistemi tasarlamak, bu sayede de arama motoruna çoklu dil desteği katabilmektir. Bu konuda yapılan çalışmalar araştırıcı Onur Görgün ün doktora çalışmaları kapsamında devam etmektedir. Yine bu konudaki çalışmaların ilk ürünü ise ulusal bir kongrede sözlü sunulmak üzere kabul edilmiştir ve yakın tarihte bildiri olarak yayınlanacaktır. (2) Arama sonuçlarının ilgililik seviyelerine göre sıralanması: Kullanıcı tarafından yapılan sorguya ilgililik açısından en yakın dökümanların gösterilmesi önemli bir problemdir. Bilgi erişimi alanında üzerinde çalışma yapılan en önemli konulardan bir tanesi bu sıralama işlemidir. Bu amaçla ve arama motoru altyapısı ile birleştirilmek üzere bir sıralayıcı tasarlanmıştır. Çalışma temel olarak, mevcut çalışmaları inceleme ve bu çalışmalar ışığında bir sıralama algoritması gerçeklemeyi hedeflemektedir. Bu konuda yapılan çalışmalar araştırıcı Yasin Ozan Kılıç ın yüksek lisans tezini oluşturmuştur. 3. Bilimsel bulgular ve sonuçlar Proje kapsamında gerçekleştirilen, yayına dönüşen çalışmalar aşağıdaki bölümlerde ayrıntıları ile açıklanmıştır. Yine bu çalışmalara ait daha detaylı bilgiler Ürünler bölümünde yer almaktadır. 1. KELİME BÖLÜTLEMEDE ÖNEK AĞACI KULLANIMI 1.1. Giriş Doğal Dil İşleme (DDİ), bilsiyar bilimlerinin bir dalı olarak bilgisayar ve dil arasındaki etkileşimi ele almaktadır. Alanda yapılan çalışmaların esas amacı hem

8 insan tarafından okunabilir anlamlı yazılı bilgi oluşturabilme hemde insan dilini makinelerin anlayabileceği bir biçimde sunabilmektir. Biçimbilimsel çözümleme, kelime biçimi bölütleme, cümlenin öğelerine ayrılması, kelime anlamı belirsizliği ve makine çevirisi bu konuda ortaya konulan önemli problemlerden bazıları olarak sayılabilir. Biçimbilimsel çözümleme veya bölütleme kelimelerin yapılarının incelenmesi ve kelimeye ait eklerin belirlenmesi temeline dayanmaktadır. Türkçe de bütün kelime biçimleri, bir kök kelime ve ona ağlı eklerin bütününden oluşmaktadır. Örnek olarak, İngilizece enumaration kelimesi e+number+ate+ion şeklinde ayrıştırılabilir. Yine aynın şekilde Türkçe isteyenlerle kelimesi de iste+yen+ler+le şeklinde ifade edilebilir. Kelimeler dilin en küçük parçası olarak tanımlanırken, ekler ise dile ait en küçük sözdizimsel parçalardır ve kelime biçimlerinin birbirleri ile ilişkisini ortaya koymaktadırlar. Bu bağlamda, biçimbilimsel çözümleme bu yapıları inceleyerek bir kurallar zinciri oluşturmaya çalışmaktadır. anguage. Biçimbilimsel çözümleme ve bölütleme konuşma tanımlama, makine çevirisi, bilgi erişim sistemleri, metin algılama ve istatistiksel dil modelleme de yaygın ihtiyaç duyulan bir önişleme sürecidir. Türkçe, Fince,Çekçe gibi sondan eklemeli dillerde ise bu konu yazılı metinlerde karşılaşılan kelime biçimi çeşitliliği göz önüne alındığında oldukça ciddi bir problemdir. Yine Türkçe ve Fince gibi çekimsel çeşitliliğin çok olduğu dillerde ekleme kuralları kullanılarak aynı kökten teorik olarak sınırsız sayıda değişik kelime biçimi elde edilebilmekte ve bu durum istatistiksel bir model oluşturmayı zorlaştırmaktadır. Denetimsiz ve etiketlenmiş bir eğitim kümesine ihtiyaç duymadan otomatik çözümleme sistemleri üzerinde durulan önemli konulardan bir tanesidir. Yaklaşımın en büyük artısı, dil bağımsız bir bölütleme çabası olmasıdır. Bu çalışmanın amacı bu amaca hizmet etmek olan değişik yaklaşımlar önermektir. Bu amaçlar, önek ağaç yapısı kullanılarak kelimeler, karakterler ve bu karakterlere ait sıklıklar şeklinde ifade edilmiştir.rec-trie algoritması, bu yapıyı kullanarak ve baştan sonra yollar takip ederek, karakter sıklıklarını baz alan bir kök bulur. Kök bulunduktan sonra, kalan kelime parçaları kullanılarak yeni bir önek ağacı oluşturulur ve bütün ekler başka kelime parçası kalmayacak şekilde kök bulma işlevi takip edilerek tespit edilir. İkinci algoritma olan REVERSE-TRIE, REC-TRIE ile aynı yöntemi tersten takip takip etmektedir. Üçüncü ve son yaklaşım olan HYBRID-TRIE ise REC-TRIE ve REVERSE-TRIE nin bir karışımıdır. Kök bulma işlemi REC-TRIE mantığı ile, eklerin tespiti ise REVERSE-TRIE işlevi ile yapılmaktadır.

9 1.2. İlgili Çalışmalar MorphoChallenge [1], EU Network of Excellence PASCAL2 Challenge Program kapsamında 2005 yılından beri yapılmakta olan denetimsiz biçimbilimsel çözümleme ve bölütleme uygulamarının yarıştığı bir etkinliktir. Amaç, kelimeleri kökler ve ekleri şeklinde bölütleyebilen ve dil bağımsız yaklaşımların oluşturulmasını teşvik etmektir. Bu etkinlik çerçevesinde birçok algoritma önerilmiş ve literatürdeki yerlerini almıştır. Bernhard [2], bu amaçla altkelimeler arasındaki geçişleri olasılıksal olarak değerlendiren ve kök ve eklerin ayrımını uzunluk baz alarak çözmeye çalışan bir çalışmadır. Keshava [3], yine aynı mantıkla, altkelimeleri bulunması ve bunların birbirlerinin ardı ardına gelme olasılıklarını temel alan bir çalışma sunmuştur. Özellikle Türkçe için Zeman[4], paradigma temelli bir yaklaşım önermiştir. Bu yaklaşımda bütün ek-kök eşleri paradigmalar altında gruplandırılmıştır. Bütün bölütleme noktaları göz önünde bulundurulduğundan paradigma sayısı yüksektir. Bölütleme işlemi sırasında bütün paradigmalar karşılaştırılarak doğru bölütleme tespit edilmeye çalışılmaktadır. ParaMor [5], MorphoChallenge 2008 e damgasını vuran bir çalışmadır. Her kelime biçimi karakter sınırlarından bölütlenmiştir. Aynı son altkelime ile biten kelimeler için algoritma bir paradigma yaratmaktadır. Bu paragimalar, eklemelerde hesaba katılarak daha gerçek hallerini almaktadır yılında Monson ve diğerleri [6] ParaMor un gelişmiş bir halini önermişlerdir. ParaMor temel olarak bölütleme kararlarına puan atamamaktadır. Bu amaçla, araştırıcılar doğal dil işaretleyici eğitmişler ve her bölütleme sınırına ait bir puan atamışlardır. Bu puan göz önüne alınarak, ParaMor un bölütleme sınırlarının belirleme başarımı değerlendirilmiş ve doğru veya yanlış bölütlemeler tespit edilebilmiştir Önerilen Yöntemler Bu bölümde çalışma kapsamında öerilen yöntemler ve bu yöntemlere ait detaylar açıklanmaktadır RecTRIE Kelime listesi algoritmaya girdi olarak verilir ve veri kümesi içerisinde en az 5 kere tekrar etmekte olan kelimeler önek ağacına yerleştirilir. Kelimelere ait karakterler herbiri bir düğüme karşılık gelecek şekilde önek ağacına kaydedilir. Kelimedeki karakter sayısı o kelimeye ait daldaki derinliği verir. Yeni gelen kelimeler önceden gelen kelimelerle aynı öneklere sahiplerse, bu daldaki karakter sıklıkları güncellenir. İlk aşamada kelimelere ait kökler tespit edilir ve bu kökler bir tabloya kayıt edilirler. Bir sonraki aşamada kökler haricinde kalan kelime parçaları yeni bir önek ağacına yerleştirilirler. Bu aşamalarda dikkat edilmesi gereken nokta, farklı düğümler olarak ifade edilen karakterlerin birleştirilerek tek bir düğüm olarak ifade edilmeleridir.

10 Algoritma önek ağacında tek bir eleman kalmayana kadar devam eder. Şekil 1.1 de algoritmanın çalışmasına ilişkin bir örnek sunulmuştur Reverse-TRIE Şekil 1.1 Rec-TRIE algoritmasının çalışması üzerine bir örnek. Reverse-TRIE, Rec-TRIE algoritmasının ters yönde çalıştırılan versiyonudur. Kök ve bölütleme sınırı bulma işlemleri Rec-TRIE algoritmasında olduğu gibi yapılmakta olup radikal bir değişiklik yoktur. Yöntemin öncelikle ortak eklerin tespit edilmesi amaçlamaktadır. Diğer bir husus ise bölütleme elde edilmeden önce ve sonrasında kelimeleri ters çevirme önişlemine ihtiyaç duyulmasıdır. Algoritmanın çalışmasına dair örnek Şekil 1.2 de sunulmuştur. Şekil 1.2 Reverse-TRIE algoritmasının çalışması üzerine bir örnek.

11 Hybrid-TRIE Algoritma, Rec-TRIE ve Reverse-TRIE yaklaşımlarının birleşini şeklinde düşünülebilir. Kök bulma işlemi Rec-TRIE işlevinde olduğu gibi yapılmakta, geriye kalan kelime parçaları ise ters çevirilerek Reverse-TRIE işlevinde olduğu gibi önek ağacına yerleştirilmektedir. Parçalar bulundukça, bölütlenmiş kök ve ekler için ayrılmış olan tablo yapısına kaydedilmektedir. Bu aşamada yapılacak bir diğer işlemde, tersten ifade edilen eklerin, tekrar çevirilmesi işlemine tabi tutulmalarıdır. Algoritmanın sözde kodu Şekil 1.3 te sunulmuştur Deneyler Şekil 1.3 Hybrid-TRIE algoritmasına ait sözde kod. MorphoChallenge algoritma analizi için iki adet Perl betiği sağlamaktadır. Bu betikler, verilen bir altın standart ile algoritma çıktılarını karşılaştırarak başarım değerlendirmesi yapmaktadırlar. Bu çalışmada veri kümesi olarak yarışma tarafından sağlanılan Türkçe, İngilizce ve Fince ye ait veri kümeleri alınmış ve gerçek veri kümelerinin alt kümeleri kullanılmıştır. Algoritma başarımı F-Measure metriği ile ölçülmüştür. Bu metric aşağıdaki gib hesaplanmaktadır. (1.1)

12 Vuruş (H): Kelime doğru yerden bölütlenmiş. Ekleme (I): Kelime yanlış yerden bölütlenmiş. Çıkartma (D): Doğru bölütleme es geçilmiş. Veri kümesi olarak MorphoChallenge 2009 veri kümesi kullanılarak, önerilen yaklaşımları başarımları İngilizce, Türkçe ve Fince için sınanmıştır. Performans değerledirmeleri yine MorphoChallenge tarafından verilen Perl betikleri ile yapılmış ve deney sonuçları Tablo 1.1, 1.2 ve 1.3 te sunulmuştur. Tablo 1.1 Rec-TRIE, Reverse-TRIE ve Hybrid-TRIE algoritmalarının Türkçe için Precision(P), Recall (R) ve F-Measure (F) değerleri. Tablo 1.2 Rec-TRIE, Reverse-TRIE ve Hybrid-TRIE algoritmalarının İngilizce için Precision(P), Recall (R) ve F-Measure (F) değerleri. Tablo 1.3 Rec-TRIE, Reverse-TRIE ve Hybrid-TRIE algoritmalarının Fince için Precision(P), Recall (R) ve F-Measure (F) değerleri.

13 Sonuçlar göstermektedir ki, Türkçe ve İngilizce için en iyi performansı Rec-TRIE göstermiş olup, diğer algoritmalar vasat bir performans sergilemiştir. Rec-TRIE Türkçe kökler açısından başarılı bir performans göstermiştir. Algoritmaları temel özelliği, her adımda bir karaktere bakarak kök ve ek bulmalarıdır. Bu sebeple Fince gibi uzun köklere sahip diller için başarım düşük olarak gözlemlenmiştir. Çıkartma değerleri de özellikle Fince için yüksek çıkmakta ve bu da Recall değerinin ve buna bağlı olarakta F-Measure değerinin düşmesine neden olmaktadır. Fince için performans artışı Hybrid-TRIE ile sağlanmıştır Tartışma ve Gelecek Çalışmalar Çalışmada önerilen algoritmalar basit ve kolay uygulanabilir olmalarına rağmen sonuçlar umut vericidir. Algoritmalar 2009 yarışmacılarının aynı veri kümesi üzerindeki performansları ile karşılaştırıldıklarında Türkçe için 4., İngilizce için 12. Ve Fince için 8. Sırada yer bulmuşlardır. Recall değerleri göstermektedir ki özellikle Fince için algoritmamız bölütleme sınırlarını es geçmektedir. Ancak bu durum Hybrid-TRIE ile belirli oranda düzeltilmiştir. Algoritmalar önek algılama (İngilizce ve Fince için gerekli) mekanizmasına sahip değildir ve ses düşmesi, sessiz yumuşaması gibi kural dışı konuları algılayamamaktadır. Gelecek çalışmalar bu konuları da göz önünde bulundurarak daha iyi bir performans sergilemek adına olacaktır. Kaynakça [1] Kurimo, M., Lagus, K., Virpioja, S., Turunen, V., Morpho challenge. [2] Bernhard, D., Unsupervised morphological segmentation based on segment predictability and word segments alignment. In: Proceedings of the PASCAL Challenge Workshop on Unsupervised Segmentation of Words into Morphemes, [3] Keshava, S., A simpler, intuitive approach to morpheme induction. In: Proceedings of the PASCAL Challenge Workshop on Unsupervised Segmentation of Words into Morphemes, [4] Zeman, D., Unsupervised acquiring of morphological paradigms from tokenized text. In: Advances in Multilingual and Multimodal Information Retrieval. vol pp , [5] Monson, C., Carbonell, J., Lavie, A., Levin, L., Paramor and morpho challenge In: Proceedings of the 9th Cross-language evaluation forum

14 conference on Evaluating systems for multilingual and multimodal information access. Cross-Language Evaluation Forum'08 pp , [6] Monson, C. Hollingshead, K., Roark, B., Probabilistic paramor. In: Morpho Challenge 2009, [7] Solak, A., Oazer, K., Design and implementation of a spelling checker for turkish. In: Literary andlinguistic Computing. vol. 8., TÜRKÇE BİÇİMBİLİMSEL ANLAMSIZLIK GİDERME İÇİN YENİ BİR YAKLAŞIM 2.1. Giriş Biçimbilimsel çözümleme problemi, bir kelime biçimine ait olası çözümlemeler arasından doğru olanın belirlenmesi işlemi olarak tanımlanmaktadır. Çekimsel ve ses kuralları göz önünde bulundurulduğunda bir kelimenin farklı kökten türemiş birden çok çözümlemesi olabilmektedir. Bu durum Türkçe gibi biçimbilimsel ve çekimsel olarak zengin diller için oldukça bir problem teşkil etmektedir. Özellilke Türkçe de çeşitliliği sağlayan birçok etiket ve bu etiketlerin belirli kurallar çerçevesinde sınırsız sayıda kelime biçiminin türetilmesine izin vermesidir. Biçimbilimsel çözümleme konusunda literatürde pek çok çalışma mevcuttur. Bu çalışmalar iki temel başlık altında toplanabilir: kural-tabanlı yaklaşımlar ve istatistiksel yaklaşımlar. İstatistiksel yaklaşımlar yüksek boyutlu veri kümesi kullanarak bir model oluşturmakta ve belirsizlik giderme işlemi bu model ile gerçekleştirilmektedir [1]. Ancak özellikle Türkçe deki kelime biçimlerinin çokluğu istatistiksel modellerin başarımını düşürmektedir. Bu soruna çözüm olarak, kelime biçimleri daha küçük gruplar olan çekimsel gruplar halinde ifade edilmektedir [2]. Bu konudaki en güncel çalışma Sak [3] tarafından önerilmiştir. Türkçe için kural tabanlı yaklaşımlarda öerilmiştir [4, 5]. Bu çalışmada sınıflandırma tabanlı bir anlamsızlık giderme algoritması önerilmektedir. Çalışmanın temeli şu şekilde açıklanabilir: iki veya daha çok kelime biçimi, kök kelimeler dışarıda bırakıldığında aynı çekimsel grupları içermektedirler. Aynı çekimsel grupları içeren her bir çözümleme bir sınıflandırma problemi olarak ifade edilmektedir. Herbir elemanı biçimbilimsel öğelerin varlığı baz alınarak öznitelik vektörleri elde edilmiş ve sınıflandırıcılar bu eğitim kümeleri ile eğitilmiştir. Çalışmanın diğer bölümlerinde problemin ayrıntılı tanımı ve deneylere yer verilmiştir.

15 2.2. Biçimbilimsel Anlamsızlık Giderme Bir önceki bölümde belirtildiği üzere anlamsızlık giderme işlemi bir kelime biçimine için verilen olası çözümlemeler içerisinden doğru olanını seçmektir. Bu çözümlemeler için ise biçimbilimsel çözümleyicilere [6, 7] ihtiyaç duyulmaktadır. Aşağıda bir üzerine kelimesine ait bir çözümleme sonucu görülmektedir. Örnekte görüldüğü üzere üz ve üzer köklerinden türetiş olan 4 farklı çözümleme görülmektedir. + işaretleri ile birbirinden ayrılan parçalar biçimbiliseml dil öğelerini ^DB ise türetim sınılarını göstermektedir. Türetim sınırına ulaşıldığında kelime ilk halinde farklı bir görevle cümle içerisinde yer alabilir. Örnek olarak, üz fiili ile başlayan üçüncü kelime biçimi ilk türetim sınırından sonra sıfat haline dönüşmektedir. Her ^DB arasında kalan öğeler dizisi ise çekimsel grup olarak adlandırılmaktadır. Problemi çözümü Bayes istatistiği yardımı ile çözülebilmektedir ve aşağıdaki gibi ifade edilebilir. (2.1) 2.3. İlgili Çalışmalar Bu çalışmada başarım karşılaştırılması için üç önemli Türkçe anlamsızlık giderme algoritması tartışılmıştırtartışılmaktadır. Bu çalışmalardan ilki Üççekidek-Tabanlı Temel Model dir. Bu modelde n-gram tabanlı bir istatistiksel model oluşturulmaktadır. Modelin oluşturulmasında iki önemli ksıtas vardır: (1) sıradaki kelime kökü sadece kendisinden önceki iki kelimenin köküne bağımlıdır, (2) sıradaki kelimenin çekimsel grupları kelimenin kendinden önceki iki kelimenin çekimsel gruplarına bağımlıdır. Alandaki diğer çalışma Yüret tarafından önerilmiştir. Çalışma kural tabanlı bir çalışma olup, Greedy Prepend algiromasının üzerine kurulmuştur. Kökler ve ekleme kuralları bazında kalıp çıkarımları yapılmış. Algoritma kendisinden iki önceki ve iki sonraki kelimeleri baz alarak öznitelik vektörleri oluşturmakta ve bu örnekler ile karar listeleri elde edilmektedir. Bu devrede Greedy Prepend algoritması uygulanarak karar listeleri en çok kalıbı tanımlayacak genellemeye çekilmiştir.

16 Bu alandaki en son ve en başarılı çalışma Sak tarafından önerilen ise bir makine öğrenme yaklaşımıdır. n-gram tabanlı öznitelik çıkarımları yapılarak model eğitimi yapılmıştır Önerilen Yöntem Önceki çalışmalarda önerilen yöntemler kök kelimeyi de anlamsızlık giderme işlemine katmaktadırlar. Diğer yandan, farklı kökten türemiş kelimelerde olsalar, ayrı kelimeler aynı çözümlemelere sahip olabilirler. Bu durumda farklı kelimeler aynı sınıflandırıcının eğitim kümesine ait örnekler olarak sayılabilirler. Bu durumda başlangıçta her bir kelime biçimi bir problem teşkil ederken, farklı kelimelerin aynı sınıflandırma problemi kapsamında değerlendirilmeleri ile problem sayısı önemli ölçüde azalmaktadır. Bu aşamaya problem indirgeme safhası denir. Düşük sayılara indirgenen problemler için eğitim kümesi oluşturmak anlam kazanır. Eğitim kümesi, seçilen kelimenin iki kelime öncesi gözönünde bulundurularak oluşturulan öznitelik vektörlerinden oluşur. Bu veri kümesi ile eğitilen sınıflandırıcılar ile belirsizlik giderme işlemi gerçekleştirilir. Şekil 2.1 de algoritmanın çalışma prensibi görsel olarak yansıtılmaktadır 2.5. Deneyler ve Sonuçlar Şekil 2.1 Çalışmada öerilen algoritmaya genel bir bakış Önerilen yöntemin başarım ölçümleri için oldukça yaygın bir veri kümesi kullanılmış [6] ve bilinen çalışmalarla başarım karşılaştırılması yapılmıştır.

17 Oluşturulan veri kümeleri ile Weka kütüphanesi kullanılarak on farklı sınıflandırıcı eğitilmiş ve başarımları hem kendi aralarında hemde diğer bilinen yöntemlerle karşılaştırılmıştır. Çalışma sonuçları göstermiştirki, önerilen yaklaşım, Üççekirdek Tabanlı Temel Model e oranla daha iyi bir performans sergilemiş, ancak diğer iki algoritmaya başarım açısından üstünlük sağlayamamıştır. Deney sonuçları Tablo 2.1 de sunulmuştur Tartışma ve Gelecek Çalışmalar Çalışma sonuçları göstermiştir ki en başarılı sınıflandırıcı J48 dir. Temel Model başarım olarak geçilmesine rağmen diğer çalışmaların başarımı yakalanamamıştır. Ancak öznitelik vektörlerinin arttırımı ile daha iyi sonuçlar elde edilebileceği düşünülmektedir ve gelecek çalışmalar bu kapsamda düzenlenecektir. Kaynakça Tablo 2.1 Deney sonuçlarına ilişkin sonuç tablosu. [1] Hakkani-Tür, D. Z.,Oflazer, K.,Tür, G.: Statistical Morphological isambiguation for Agglutinative Languages, In: Computers and the Humanities 36(4), pp , [2] Oflazer, K., Hakkani-Tür, D. Z., Tür, G., Design for a turkish treebank. In: Proceedings of the Workshop on Linguistically Interpreted Corpora, [3] Sak, H., Güngör, T., Saraçlar, M., Morphological Disambiguation of Turkish Text with Perceptron Algorithm. In: Gelbukh, A. (ed.) CICLING 2007, LNCS 4394, pp , 2007.

18 [4] Yüret, D., Türe, F., Learning Morphological Disambiguation Rules for Turkish, In: Proceedings of HLT-NAACL, [5] Oflazer, K., Kuruöz, I.: Tagging and morphological disambiguation of turkish text. In: Proceedings of the 4 th Applied Natural Language Processing Conference, pp , [6] Oflazer, K.: Two-level Description of Turkish Morphology. In: Literary and Linguistic Computing, 9(2), pp , [7] Sak, H., Güngör, T., Saraçlar, M.: Turkish Language Resources: Morphological Parser, Morphological Disambiguator and Web Corpus. In: GoTAL 2008, volume 5221 of LNCS, pp , Springer, İNGİLİZCE-TÜRKÇE İSTATİSTİKSEL MAKİNE ÇEVİRİSİNDE BİÇİMBİLİM KULLANIMI 3.1. Giriş Makine Çevirisi (MÇ) alanındaki çalışmaların istatistiksel yaklaşıma dönüşümü IBM in CANDIDE sisteminin temel kural-tabanlı yaklaşıma olan üstünlüğünün kanıtlanması ile başlamaktadır. Hesaplama gücünün ve buna bağlı olarak paralel dil verisine ulaşımın kolaylaşması araştırmacıların bu alana olan eğilimlerine destek vermiştir. Ancak bu çeviri denemelerinin büyük bir çoğunluğunu kısıtlı sözcük dizimine ve kısıtlı çekimsel biçimbilime sahip dil ikilileri üzerine yapılan çalışmalar oluşturmaktadır. İngilizce-Türkçe dil ikilisi için yapılan çalışmaların azlığı, makine çevirisi probleminin biçimbilimsel olarak farklı özelliklere sahip diller için zorluğu ve yine aynı dil ikilisi için mevcut paralel metinlerin azlığı ile açıklanabilir. Başarılı bir istatistiksel çeviri modeli oluşturmak için yeterli büyüklükte ve kalitede paralel metin kullanmak gerekmektedir. Çeviri modelinde kullanılacak olan paralel metin, kaynak dildeki cümleler ve bu cümlelere ait hedef dildeki çevirilerden oluşmaktadır. Birçok dil çifti için nitelikli ve büyük boyutlarda paralel metin bulmak mümkünken, İngilizce-Türkçe çifti için paralel metin eksikliği bilinen bir problemdir. Hem istatistiksel veri seyrekliği problemine çözüm olarak, hem de biçimbilimsel ve çekimsel olarak farklı dil çiftlerinde bire-çok hizalama kalitesini arttırabilmek adına, yapısal olarak güçlü olan dil tarafında alt-sözcüksel gösterimlere ihtiyaç olduğuna dikkat çekilmektedir [1]. Bu gösterimlerin elde edilebilmesi için ise dil çiftinin biçimbilimsel analiz ve biçimbilimsel anlamsızlık giderme işlemlerinden geçirilmesi gerekmektedir. Özellikle Türkçe gibi sondan eklemeli diller için literatürde

19 biçimbilimsel çözümleyiciler [2, 3] ve anlamsızlık gidericilerin [4, 5, 6, 7] varlığı hedeflenen gösterimlerin elde edilmesini de mümkün kılmaktadır. Bu bildiride yapılan çalışma, bu konuda literatürde başarılı bir yaklaşım olan ve Türkçe altsözcüksel ifadelerin çeviri modeline katılması ile başarım oranının yükseleceğini ifade eden çalışmayı [1] kendisine temel alarak, tarihleri arasındaki SIU konferanslarına ait bildirilerden oluşan bir dil verisi üzerinde çeviri yapmayı hedeflemektedir. Deneyler için elde edilen paralel metin ile bu çalışmanın bir diğer amacı olan İngilizce-Türkçe çifti için bilimsel dile sahip nitelikli bir eğitim kümesi oluşturulmaktır. Bildirinin genel akışı şu şekildedir. İkinci bölümde, istatistiksel makine çevirisi presipleri anlatılmakta bu alanda yapılmış olan ve İngilizce-Türkçe dil çifti için literatürde kendisine yer bulmuş çalışmalar sunulmaktadır. Üçüncü bölümde, benimsenen yaklaşım temel alınarak önerilen yöntem sunulmakta ve SIU verisi üzerinden örneklenerek açıklanmaktadır. Dördüncü bölümde, deney verisi için yapılan ön çalışmalara ve modellerin oluşturulmasına ilişkin detaylar sunulmuştur. Bildiri sonuçlar ve tartışma bölümü ile son bulmaktadır İlgili Çalışmalar İstatistiksel Makine Çevirisi alanında ilk çalışmalar kelime-tabanlı denemelerdir. Bu çalışmalar, çeviri temel birimi olarak kelimeleri kullanarak, her iki dile ait kelimeler arasında ki en olası eşleşmeleri bulmayı hedeflemektedir [8]. Bu işleme kelime eşleme adı verilmektedir. Ancak bu modeller, özellikle farklı biçimbilimsel özellikler gösteren (İngilizce-Türkçe) diller için bire-çok eşleşmelerde yetersiz kalmaktadır. Özellikle Türkçe de tek bir kelimenin İngilizce bir kelime grubuna karşılık geldiği durumlarda bu açık bir şekilde görülmektedir. Bu yetersizliği aşmak adına, temel çeviri Şekil 1. Faktörlü çeviri yaklaşımı. biriminin değiştirilmesi gerekliliği duyulmuş ve araştırma çabaları kelime grubu tabanlı çeviriye yöneltilmiştir. Gerek kelime gerekse kelime grubu tabanlı bir çalışma olsun, istatistiksel makine çevirisinde iki konuya özen gösterilmektedir: uygunluk ve akıcılık. Uygunluk ölçütü

20 eşleştirme sonucunda sağlanırken, akıcılık için hedef dile ait n-gram temelli bir dil modeline ihtiyaç duyulur. İngilizce-Türkçe dil ikilisi için yapılan çalışmalar 1981 tarihine dayanmaktadır [9]. Yine aynı dil çifti için ilk yapısal eşleştirme denemesi [10] ve kural-tabanlı yaklaşım da [11] bu çalışmayı takiben önerilmiştir. Önerilen bu sistemlerin ortak noktası yoğun bir kural oluşturma yöntemini benimsemeleri ve kısıtlı bir alana yönelik olmalarıdır. Kelime grubu tabanlı modeller makine çevirisi konusunda en popüler çeviri yaklaşımlarıdır ve İngilizce-Türkçe çifti için de başarılı denemeler bu alanda olmuştur [1][12]. Veri seyrekliği probleminin çözümü için, biçimbilimsel olarak zengin olan Türkçe tarafı için biçimbilimsel çözümleme teknikleri kullanılmış ve yine bu sebeple sesteş ekler sözlüksel ifadeler şeklinde ifade edilmiştir. İngilizce tarafında ise dilin yapısı gereği kısıtlı bir çözümleme yapılmıştır. Temel olarak bu modeller literatürde faktörlü yaklaşımlar olarak sınıflandırılmış (Şekil 1) olup, hem biçimbilimsel öğelerin hem de kelime köklerinin ayrı olarak eşleştirilmesini gerektirmektedir. Ancak araştırmacılar bu yöntemin bütün kurallarını takip etmemişlerdir. Deneysel çalışmalar göstermektedir ki, yapısal olarak fakir-zengin dil çiftleri için faktörlü yaklaşımlar düşük başarım sergilemektedir. Bu nedenle, söz konusu çalışmalarda ekler veya ek grupları ayrı kelimeler olarak değerlendirmiş, kelime ve kelime grubu eşlemeleri bu şekilde yapılmıştır. Bu sayede Türkçe ek ve ek gruplarının İngilizce ek veya kelimelerle eşlenmesi sağlanmaktadır. Ancak kelime biçimi elde edilirken ek bazında çalışan bir başka dil modeline ihtiyaç duyulmaktadır. Ek-temelli dil modeli, kök ve ekler halinde ifade edilen çevirinin kelime biçimine çevirimi için gereklidir Kullanılan Yöntem Giriş bölümünde bahsedildiği üzere, bu çalışma da daha önce önerilmiş olan sözdizimsel yaklaşımla zenginleştirilmiş sözcük grubu tabanlı çalışma [1] temel alınmaktadır. Bu bölümde çalışmamızda kullandığımız bu temel modellere ait detaylar aktarılmakta, kendi işlem ve önişlem detayları ile birlikte sunulmaktadır. Bu çalışmada temel olarak 4 farklı gösterim kullanılmakta ve bu gösterimlerle oluşturulan çeviri modellerinin performans değerlendirmeleri yapılmaktadır. Ön işlem olarak kelime biçimlerine, çevirinin Türkçe tarafı için biçimbilimsel çözümleme ve biçimbilimsel belirsizlik giderme, İngilizce tarafı içinse cümlenin öğelerinin bulunması işlemi uygulanmıştır. Ancak sözdizimsel olarak katkı sağlamayan etiketler (NN, isim etiketi) eğitim kümesine dâhil edilmemiştir. (Orjinal çalışma İngilizce tarafı için kısıtlı bir biçimbilimsel çözümleme de kullanmaktadır.)

21 Gösterim 1: Kelime, çözümleme yapılmadan kelime biçimi olarak sunulmaktadır. Gösterim 2: Kelime kökü ve biçimbilimsel çözümleme elemanları ile birlikte kelime olarak sunulmaktadır. ( bir+laş+dhr+ma ) Gösterim 3: Kelime kökü ayrı, biçimbilimsel çözümleme elemaları eklenmiş bir şekilde sunulmaktadır. ( bir +laş+dhr+ma ) Gösterim 4: Kelime kökü ve biçimbilimsel çözümleme elemanları ayrı kelimeler olarak sunulmaktadır. ( bir +laş +DHr +ma ) Açıklanmış olan gösterimlerle 4 farklı eğitim kümesi oluşturulmuş ve bu eğitim kümeleri kullanılarak 4 farklı çeviri modeli elde edilmiştir. Yine bu gösterimlerle oluşturulmuş test kümeleri ile başarımlar hesaplanmıştır Deneyler Deney Verisi ve Düzeneği Bu çalışmada, IEEE de yayınlanan PDF formatındaki bildiriler toplanmış ve PDF dokümanlarından metin çıkarımı işlemi uygulanmıştır. Dil kodlama problemi olan ve her iki dilde özetçesi olmayan dokümanlar elendiğinde elde kalan doküman sayısı 634 olmaktadır. Bu dokümanlar üzerinde Microsoft Proofing Tools ile yazım denetimi işlemi uygulanmıştır. Dokümanların makine çevirisinde kullanılabilmesi için paragraf ve cümle bazında hizalanmış olması gerekmektedir. Bildirilere ait özetçeler genel olarak tek paragraftan oluştuğundan paragraf hizalama işlemi yapılmamıştır. Cümle hizalama işlemi için cümle karakter uzunluğunu temel alan Church&Gale [13] e ait cümle hizalama algoritması kullanılmıştır. Algoritmanın hata yaptığı hizalamalar el ile düzeltilerek, hizalama doğruluğu arttırılmıştır. Hizalama işlemleri şematik olarak Şekil 2 de sunulmuştur. Hizalanmış cümleler, üçüncü bölümde belirtilen gösterime ulaşmak adına dil işleme için gerekli önişlemlere tabi tutulmuştur. Türkçe cümleler için Oflazer in iki-seviyeli modeli [2] üzerine kurulmuş olan biçimbilimsel çözümleyici, biçimbilimsel belirsizlik giderme işlemi için de kural tabanlı bir anlamsızlık giderici [5] kullanılmıştır. İngilizce tarafı için sadece TreeTagger [14] yazılımı kullanılmış ve biçimbilimsel olarak anlam ifade etmeyen etiketler çıkarılmıştır. Bir önceki bölümde ifade edilen gösterimler kullanılarak, bu gösterimleri karşılayan ve 3075 cümleden oluşan 4 farklı veri kümesi elde edilmiştir. Eğitim kümesi oluşturulduktan sonra, kelime hizalama ve kelime grubu hizalama işlemleri gerçekleştirilmiştir. Kelime hizalama için GIZA++ [15] ve MKCLS yazılımları [16], kelime grubu temelli çeviri modeli oluşturmak için Moses [17] makine çevirisi yazılımı kullanılmıştır. Türkçe ye ait dil modeli oluşturmak için El- Kahlout tarafından sunulmakta olan Türkçe dil modeli eğitim kümesi kullanılmıştır. Uygulanan ön işlemler serisi şematik olarak Şekil 3 te sunulmuştur.

22 Test kümesi olarak, 2011 yılı SIU bildirilerinin bir altkümesi kullanılmıştır. Test kümesine ait cümleler de aynı eğitim kümesinde olduğu gibi biçimbilimsel çözümleme, biçimbilimsel anlamsızlık giderme işlemlerinden geçirilmiştir. Her bir gösterim tarzı için farklı bir test kümesi oluşturulmuş olup, bu test kümeleri ile deneyler gerçekleştirilmiştir. Başarım ölçütü olarak konum bağımsız bir kelime hata oranı (KHO) türevi olan BLEU metriği kullanılmaktadır. KHO dan farklı olarak, temel ölçüm birimi olarak kelimeleri baz almayan BLEU, değişik uzunluklardaki n-gram öbekleri kullanılır ve arasında derecelendirilir Deney Sonuçları Deney sonuçları Tablo 2 de gösterilmiştir. Sonuçlar göstermektedir ki, sadece kelime biçimlerinin kullanıldığı gösterim en düşük performansı kaydetmiştir. Gösterim 3, kelime biçimlerine göre göreceli %21 lik bir performans artışı sağlamıştır. Eğitim kümesinin küçüklüğü ve buna bağlı olarak, ek bazında hizalama sonuçlarının başarısızlığı nedeni ile Gösterim 4 performans artışına beklenilen katkıyı gösterememiştir. Bu yetersizliğin bir diğer nedeni de ek bazında çalışan bir dil modeli kullanılmamasıdır. Aynı test kümeleri kullanılarak Google Translate ile çeviri yapılmıştır. Bu çeviri sonucunda İngilizce-Türkçe yönünde BLEU puanı elde edilmiştir. Gösterim Google Translate Tablo 1 Aday çevirilerin ve Google Translate çevirisinin BLEU metriği kullanılarak hesaplanan başarımları Sonuçlar ve Tartışma Deneyler sonunda karşılaşılan düşük başarım SIU dermecesinin yapısı ile ilintilidir. Seçilen eğitim kümesinde çeşitlilik bulunduğundan kelime hizalama performansı düşüktür. Bir diğer çıkarım ise biçimbilimsel çözümlemenin istenilen katkıyı yapamamasıdır. Biçimbilimsel çözümleme çözümlenecek kelimenin kökü tespit edilerek ve olası ek dizilimleri çıkartılarak yapılmaktadır. SIU dermecesinde yer alan kelimeler ise çözümleyici kök veritabanı için yeni kelimeler olup, biçimbilimsel çözümlemesi yapılamamaktadır. Bu durum kelime-ek hizalaması başarımını etkilediği gibi, kaliteli bir ek-tabanlı dil modelinin oluşturulmasını zorlaştırmaktadır. Bu kelimelere ait çözümlemelerin yapılabilmesi terimler sözlüğü oluşturulması ve biçimbilimsel çözümleme kuralları ile başarılabilir. Ayrıca, kelime ve kelime grubu hizalama işlemlerinde yüksek başarım yakalayabilmek için mevcut veri kümesinin kelime ve kelime grupları eşleşmeleri ile zenginleştirilmesi gerekmektedir. Devam eden çalışmaların zenginleştirme konusu üzerine olması planlanmaktadır.

23 Kaynakça [1] El-Kahlout, İ. D.: Exploring Different Representational Units in English-to- Turkish Statistical Machine Translation, In: Proceedings of the Second Workshop on Statistical Machine Translation, pp (2007). [2] Oflazer, K.: Two-level Description of Turkish Morphology. Literary and Linguistic Computing 9, pp (1994). [3] Hakkani-Tür, D. Z., Oflazer, K.,Tür, G.: Statistical Morphological Disambiguation for Agglutinative Languages. In: Computers and the Humanities 36(4), pp (2002). [4] Sak, H., Güngör, T., Saraçlar, M.: Turkish Language Resources: Morphological Parser, Morphological Disambiguator and Web Corpus. In: GoTAL 2008, vol.5221 of LNCS, Springer, pp (2008). [5] Yüret, D., Türe, F.: Learning Morphological Disambiguation Rules for Turkish. In: Proceedings of HLT-NAACL, pp (2006). [6] Görgün, O., Yıldız, O. T.: A Novel Approach to Morphological Disambiguation for Turkish. In: Proceedings of International Symposium on Computer and Information Sciences (ISCIS), pp (2011). [7] Sak, H., Güngör, T., Saraçlar, M.: Morphological Disambiguation of Turkish Text with Perceptron Algorithm. In: Gelbukh, A. (ed.) CICLING 2007, LNCS 4394, pp (2007). [8] Hutchinson, J. : The Georgetown-IBM Demonstration. MT News International, no.8, pp (1994). [9] Sagay, Z.: A Computer Translation from English to Turkish: Masters Thesis, METU, Department of Computer Engineering (1981). [10] Keyder Turhan, C.: An English to Turkish Machine Translation System Using Structural Mapping. In: Proceedings of the Applied Natural Language Processing, Washington, DC, p (1997). [11] Hakkani, D. Z., Tür, G., Oflazer, K., Mitamura, T., Nyberg, E.: An Englishto-Turkish Interlingual MT System. In: AMTA, pp (1998). [12] Yeniterzi, R., Oflazer, K.: Syntax-to-Morphology Mapping in Factored Phrase-based Statistical Machine Translation from English to Turkish. In:

24 Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics (ACL), pp (2010). [13] Gale, W.A., Church, K. W.: A program for aligning sentences in bilingual corpora. Computational Linguistics, 19(1), pp (1993). [14] Schmid, H. : Probabilistic part-of-speech tagging using decision trees. In: Proceedings of International Conference on New Methods in Language Processing (1994). [15] Och, F. J., Ney, H.: A systematic comparison of various statistical alignment models, Computational Linguistics, Vol. 29, No.1, pp (2003). [16] Och, F. J.: An Efficient Method for Determining Bilingual Word Classes. In: Ninth Conf. of the Europ. Chapter of the Association for Computational Linguistics, pp (1999). [17] Koehn, P., Hoang, H., Birch, A., Callison-Burch, C., Zens, R., Federico, M., Bertoldi, N., Cowan, B., Shen, W., Moran, C., Dyer, C., Bojar, O., Herbst, E., Moses: Open Source Toolkit for Statistical Machine Translation. In: Proceedings of the 45th Annual Meeting of the Association for Computational Linguistics, Companion Volume, pp (2007). 4. SIRALAMAYI ÖĞRENME 4.1. Giriş Sıralama, bilgi erişim sistemleri konusundaki önemli problemlerden birisidir. Döküman erişimi, işbirlikçi süzgeçleme [1], anahtar terim özütleme [2], tanımlama bulma [3], önemli eposta yol atama [4], duygu çözümleme [5], ürün değerleme[6] ve istenmeyen sanal doku iletişimi[7]. Bu çalışmanın amacı döküman erişimi konusundaki sıralama problemleridir. Bu konudaki sıralama problemleri şöyle özetlenebilir. Dökümanlar sadece sorguya olan yakınlıklarına göre sıralanmaktadır. İlişkisel sıralama [8] sorgunun sanal doku yöresinin yapısına ve belgenin bütünlüğüne önem vermektedir. Birden fazla sıralama aday listesinin birleşimi daha iyi bir sıralama sonucu ortaya koymaktadır. Bu birleşik indise ilişkin sonuçlar kullanıcıya sunulmaktadır.

25 Bir sanal doku yöresinin hangi özellikleri sıralama sonuçlarını etkilemektedir. Bu yaklaşıma arama motoru eniyileme literatüründe tersine mühendislik adı verilmektedir. Dökümana erişimde sıralama oldukça zor bir problem olup, bu konuda birçok algoritma önerilmiştir. Son yıllarda araştırıcılar, özellikle makine öğrenme tekniklerini kullanarak daha iyi sıralama teknikleri geliştirmek adına çalışmaktadırlar. Bu amaçla büyük boyutlardaki eğitim kümeleri üzerinde çalışılmaktadır. Eğitim kümesi yardımı ile sıralama modeli oluşturma yaklaşımına Sıralamayı Öğrenme adı verilmektedir. Temel olarak bu yaklaşım, dökümanlara ait özniteliklerin kullanılarak bir sıralama modeli oluşturulmasını hedeflemektedir. Daha da genellemek gerekirse, bir sıralama algoritmasının sıralamayı öğrenme yaklaşımı sayılabilmesi için şu iki özelliği taşıması gereklidir: Yöntem öznitelik tabanlı bir yaklaşım ise: Sorgu dökümanları öznetlik vektörleri şeklinde ifade edilirler. En popüler öznitelikler, sorgu terimlerinin sıklık sayıları, PageRank ve BM25 puanı. Eğitim içeriyorsa: Modelin öğrenimi dört aşamalı bir süreçtir;; girdi, çıktı, kuram uzayı ve kayıp işlevi (loss function). Bazı aramayı öğrenme algoritmaları özellikle ticari arama motorları tarafından tercih edilmekte olan çevrimiçi öğrenme yöntemlerini kullanmaktadır. Sıralamayı öğrenme konusu araştırma konusu olarak son yılların en popüler konularından bir tanesi olmuş ve bu konuda birçok algoritma önerilmiştir [9-26]. Araştırıcılar arasında bu algoritmalara ilişkin çeşitli sorular tartışılmaktadır: Sıralamayı öğrenme algoritmalarının ortak ve ayrık özellikleri nelerdir? Hangi algorima en iyi başarımı sergilemektedir? Algoritmaların başarım karşılaştırmaları hangi kıstaslar ile yapılmalıdır? Sıralama yeni bir makine öğrenme problemi olarak kabul edilmelidir, yoksa varolan bir makine öğrenme problemi midir? Bu çalışmada sıralamayı öğrenme algoritmalarının birinci soru ışığında tartışılması ve performans değerlendirilmesi yapılmıştır. Ayrıca, sıralama problemi 2 boyutlu bir sınıflama problemi olarak ifade edilmekte ve k-enyakın Komşuluk algoritması ile çözülmüştür Bilgiye Erişimde Sıralama Modelleri Bilgiye erişimde pekçok sıralama modeli mevcuttur. Basit bir yaklaşım olduğu düşünülerek, modeller iki temel başlık altında sunulmuştur: sorgu-bağımlı ve sorgu bağımsız sıralama modelleri.

26 Sorgu-Bağımlı Sıralama Modelleri İlk soralama modelleri sorgu terimlerinin sonuç dökümanlardaki rastlanma sıklığını baz alarak çalışmaktadır. Bu modellerde dökümanlar ve sorgular Euclid uzayında vektörler olarak ifade edilir. Bu iki vektörün iç çarpımı bize sorgu ile dökümanın yakınlığını gösterir. Bu amaçla Terim Sıklığı-Ters Döküman Sıklığı (TF-IDF) ağırlıklandırma kullanılır. Terim sıklığı vektörü, bir t teriminin döküman içerisindeki rastlanım sıklığının düzgelenmiş ifadesidir. Ters Döküman sıklığı ise: (4.1) N sayısı döküman sayısını ifade ederken, n(t) ise t terimini içeren döküman sayısıdır. Buna ek olarak, bir diğer sıralama prensibi ise olasılıksal bir yaklaşım olan BM25 tir. Bu yaklaşımda dökümanlar benzerliklerinin logaritmik tahmini görecelilik oranlarına göre sıralanmaktadır. Temel olarak başarılı bir yaklaşım olmamakla birlikte, birçok değişik sıralama modeline ait parametrelerin birleşimi olarak ifade edilebilir. (4.2) q, t 1,...,t M terimlerinden oluşan sorguyu, d dökümanı TF(t,d) t teriminin d dökümanı içerisindeki rastlanma sıklığını, LEN(d) d dökümanın terim bazında uzunluğunu, avdl ana indisin ortalama döküman uzunluğunu, k 1 ve b özgür parametreleri, IDF ise t teriminin ters döküman rastlanma sıklığını ifade etmektedir. Bilgiye erişimde istatistiksel bir dil modeli kullanmak bir başka sıralama yaklaşımıdır. Bu yaklaşımda terimlerine olasılıksal değerler atanır ve dil modeli döküman ile ilişkilendirilir. Sorgu terimleri, dökümanlara ait dil modelleri ile elde edilmeye çalışılır. Dökümanlar sorgu terimlerini istenilen sırada içerme oluşturma performanslarına göre sıralanır. Bu olaslık şu şekilde ifade edilebilir. (4.3) Dökümana ait dil modelinin oluşturulması enyüksek olabilirlik yöntemine göre sağlanır. Bu konuda dikkat edilmesi gereken konu ise kestirimin yumuşatılmasıdır. Bu durum sıfır olasılıklı terimleri dizisinin oluştuğu durumlarda gereklidir. Bu amaçla, arkaplan dil modeli tüm indis kullanılarak kestirilir.

27 (4.4) Burada, ) arkaplan dil modeli olup, yumuşatma etmenidir ve aralığında değerler alır Sorgu-Bağımsız Sıralama Modelleri Bir önceki bölümde bahsedilen sıralama modelleri, sorgunun içerdiği terimleri ve bunların sıralanışını baz alınarak, bu etmenlerin dökümanlara olan benzerliklerini değerlendirmekte bir sıralama sonucu sunmaktaydı. Diğer yandan, sorgu bağımsız modeller, dökümanları diğer dökümanlara oranla önemlerine göre sıralamaktadır. Bu konuda PageRank[27] örnek gösterilebilir. PageRank sanal doku yöresi hiperbağ yapısını kullanmasından ötürü sanal doku aramasında tercih edilmektedir. Modelde, bir kullanıcının herhangi bir sayfa bağına rastgele tıklama olasılığı şeklinde tanımlanır: (4.5) Modele göre d sayfasının PageRank sayısal değeri,, ya bağlı sayfalar derlemi, ise den dışarıya olan bağların sayısıdır. Kullanıcının sanal doku yöresini bir bağ a tıklayarak değilde, direkt olarak sayfayı ziyaret etmesi olasılığı da modele dahil edildiği model ise aşağıdaki gibi ifade edilebilir: (4.6), sönüm etmenini ve N ise indis teki toplam sayfa sayısını ifade etmektedir Sıralamayı Öğrenme Sıralamayı öğrenme modelleri pekçok değişik yöntem kullanılarak oluşturulabilmektedir. Ancak literatüre bakıldığında, sıralamayı öğrenme modellerinin üç ana başlık altında toplanabilir. Bu yöntemler, girdi, çıktı, kuram uzayı ve kayıp işlevi bakımından farklılık gösterirler. Bu bölümde, bu yöntemler ve uygulama örneklerini açıkmaya çalışacağız Nokta Tabanlı Yaklaşım Bu yaklaşımda esas amaç, her dökümanın ilgililik derecesinin belirlenmesidir. Bu amaçla bütün dökümanların öznitelik vektörlerinden oluşan bir girdi uzayı

28 oluşturulur. Çıktı uzayı ise derlemdeki bütün dökümanların ilgililik dereceleri ile oluşturulur. Dökümanlara ait öznitelik girdi olarak alarak ilgililik derecelerini çıktı olarak oluşturan işlevler bütünü ise modele ait kuram uzayını oluşturur. Nokta tabanlı yaklaşımlara örneklere literatürde rastlanmaktadır [17, 19, 22-24, 25]. Bu yaklaşımlar ise iki ana başlık altında özetlenebilir: sıralama için çoklu-sınıf sınıflandırma ve bağlanımlı altküme sıralama. Çoklu-sınıf sınıflandırma için en bilinen örnek McRank tir [22]. Bu modelde sıralama problemi çok sınıflı bir sınıflandırma problemi olarak ifade edilir ve bu sınıflar yardımı ile sıralama modeli oluşturulur. Sınıflandırma sonuçlarını sıralama puanlarına dönüştürmek için olasılıksal dağılım kullanılır. Bu dağılım o dökümanın hangi kategoriye ait olduğunu ifade etmektedir. Sonuç olarak skorlama işlevi aşağıdaki gibi tanımlanabilir. (4.7) Altsınıf sıralama yaklaşımı ilk olarak Cossock ve Zahn tarafından önerilmiş olup, sıralama probleminin bağlanım problemi olarak yeniden ifade edilmesidir. Skorlama işlevi f, şeklinde ifade edilen dökümanların q sorgusuna ait ve şeklinde ifade edilen ilgililik etiketlerini kullanarak dökümanları sıralar. Kayıp işlevi ise aşağıdaki gibi tanımlanabilir. (4.8) Bu ana yaklaşımlar haricinde bu modellerin uzantısı veya bu modellerin birleşimi olan modellerde önerilmiştir [17, 23] İkili Karşılaştırmalı Yaklaşım İkili karşılaştırmalı yaklaşımlar bütün dökümanların birbirlerine göre ilgililik sırasını bulmak yerine, dökümanların ikili olarak göreli sıralamalarını bulmak prensibini takip eder. Sıralam problemi, ikili dökümanlar arasında bir sınıflandırma problemi olarak ifade edilir. Amaç ikili dökümanlar arasında enküçük hatalı sınıfladırma sayısına ulaşmaktır. Eğer bütün ikililer doğru olarak sınıfladırıldılar ise, q sorgusuna ait bütün dökümanlar doğru olarak sıralanmış sayılır. Dökümanlar öznitelik vektörleri şeklinde algoritmaya sunulurlar. Literatürde bu kategoriye ait bir çok çalışma mevcuttur [9, 11, 12, 15, 19, 26]. Bu kategoride bir AdaBoost türevi olan RankBoost [18] önemli bir yer teşkil etmektedir. Atasından farklı olarak RankBoost, herbir dökümanı döküman ikilileri bazında sınıflandırır.

29 Destek Vektör Makinesi(SVM) ile sıralama [20] sınıflandırma için destek vektör makinesi kullanma üzerine kuruludur. SVM üzerine kurulu bir sıralama yaklaşımı olduğundan birçok özelliğini SVM iskeletinden miras almaktadır ve oldukça iyi bir genelleme başarımına sahiptir ve karmaşık doğrusal olmayan problemleri de çözebilir Liste Tabanlı Yaklaşım Tekli veya ikili dökümanlar bazında öngörmelerde bulunan yaklaşımlardan farklı olarak, liste tabanlı yaklaşımlar, gerçke doğru ile sıralama sonuçları arasındaki farkı enküçüklemeye çalışırlar. Yaklaşımda girdi uzayı, q sorgusunun sonucu olan dökümanlar kümesidir. Çıktı ise bu sorguya sonuç olacak sıralamalar kümesidir. Doğru sıralamayı bulmaya çalışan işlevler bütünü ve gerçek sıralama ile çıktı uzayı arasındaki farklılık hesabını yapan işlevler sırası ile kuram uzayı ve kayıp işlevidir. Bu bağlamda literatürde pekçok çalışmaya rastlanmaktadır [10, 13, 24]. Liste tabanlı yaklaşımlar arasında en çok üstünde durulan yöntem kayıp işlevi olarak eşdikmelik benzerliği kullanan RankCosine dır. ListNet [13] popüler olarak kullanılan liste tabanlı bir başka yaklaşımdır. Bu yaklaşım temel olarak dizilimlere bağlı olasılıksal dağılımlar üzerinden kayıp hesaplamakta ve bunnu için Luce modelini kullanmaktadır. Çıktı uzayını oluşturan çıktı listeleri, dökümanları içeren değişik sıralamalar olarak düşünülebileceğinden, bu yaklaşım problem için kolaylıkla uygulanabilir Sınıfladırmalı Çizge Sıralama (GRwC) Bu bölüm geliştirdiğim sıralamayı öğrenme yaklaşımına ait detayları içermektedir. Temel olarak, sıralama problemi iki sınıflı bir sınıflandırma problemine dönüştürülmekte ve k-enyakın Komşuluk algoritması ile çözülmektedir. Her q sorgusu doğrusal olarak veya ilgililik seviyesine göre etiketlenmiş ve kendileri ile ilişkilendirilmiş dökümanlara X sahiptir. Her döküman sıralama modelinin bir parçası olan sayısal değerlere sahip özniteliklere sahiptir. Hedeflene ise, her özniteliğe ait ağırlık değerlerini hesaplamak ve doğrusal olarak birleştirmektir. Sınıflayıcının eğitimi aşamasında veri setinin hazırlanması gerekmektedir. Bu amaçla eğitim kümesi pozitif ve negatif örnekler olarak işaretlenmiştir. Bu gruplara ait herbir girdi, iki dökümana ait ve öznitelik bazında eşleştirilmiş bir vektördür. Eğer bir girdi + olarak işaretlendirilmiş ise, birinci dökümanın sıralaması ikinciden yüksektir. Aynı durum olarak işartelenmiş girdi için diğer yönlüdür. Eşlenecek dökümanlar, aynı sorguya ait olmalı, farklı sorgulardan gelen döküman vektörleri eşleştirilmemeli ve eğitim kümesi katılmamalıdır.

VERİ MADENCİLİĞİ Metin Madenciliği

VERİ MADENCİLİĞİ Metin Madenciliği VERİ MADENCİLİĞİ Metin Madenciliği Yrd. Doç. Dr. Şule Gündüz Öğüdücü 1 2 Metin için Veri Madenciliği Metin Madenciliğinde Sorunlar Metin madenciliği: Veri madenciliği teknikleri ile yazılı belgeler arasındaki

Detaylı

Türkçe Dokümanlar Ġçin Yazar Tanıma

Türkçe Dokümanlar Ġçin Yazar Tanıma Türkçe Dokümanlar Ġçin Yazar Tanıma Özcan KOLYĠĞĠT, Rıfat AġLIYAN, Korhan GÜNEL Adnan Menderes Üniversitesi, Matematik Bölümü Bölümü, Aydın okolyigit@gmail.com, rasliyan@adu.edu.tr, kgunel@adu.edu.tr Özet:

Detaylı

Büyük Veri İçin İstatistiksel Öğrenme (Statistical Learning for Big Data)

Büyük Veri İçin İstatistiksel Öğrenme (Statistical Learning for Big Data) Büyük Veri İçin İstatistiksel Öğrenme (Statistical Learning for Big Data) M. Ali Akcayol Gazi Üniversitesi Bilgisayar Mühendisliği Bölümü Bu dersin sunumları, The Elements of Statistical Learning: Data

Detaylı

Metin Sınıflandırma. Akış

Metin Sınıflandırma. Akış Metin Sınıflandırma Mehmet Fatih AMASYALI BLM 5212 Doğal Dil İşlemeye Giriş Ders Notları Akış Görev Eğiticili Eğiticisiz Öğrenme Metin Özellikleri Metin Kümeleme Özellik Belirleme Çok Boyutlu Verilerle

Detaylı

Bilişim Sistemleri. Modelleme, Analiz ve Tasarım. Yrd. Doç. Dr. Alper GÖKSU

Bilişim Sistemleri. Modelleme, Analiz ve Tasarım. Yrd. Doç. Dr. Alper GÖKSU Bilişim Sistemleri Modelleme, Analiz ve Tasarım Yrd. Doç. Dr. Alper GÖKSU Ders Akışı Hafta 5. İhtiyaç Analizi ve Modelleme II Haftanın Amacı Bilişim sistemleri ihtiyaç analizinin modeli oluşturulmasında,

Detaylı

DİZİN. Not: Koyu harfle yazılan sayfalar ilgili terimin yoğun olarak geçtiği sayfaları göstermektedir.

DİZİN. Not: Koyu harfle yazılan sayfalar ilgili terimin yoğun olarak geçtiği sayfaları göstermektedir. DİZİN Not: Koyu harfle yazılan sayfalar ilgili terimin yoğun olarak geçtiği sayfaları göstermektedir. A ağırlıklandırma bkz. terim ağırlıklandırma AltaVista, 6, 31, 37, 45-47, 93, 135 anahtar sözcükler,

Detaylı

Büyük, Dağıtık, Veri Yoğunluklu Uygulamalarda Programlama Paradigmaları

Büyük, Dağıtık, Veri Yoğunluklu Uygulamalarda Programlama Paradigmaları Büyük, Dağıtık, Veri Yoğunluklu Uygulamalarda Programlama Paradigmaları Güven Fidan AGMLAB Bilişim Teknolojileri 18/10/11 GRID ÇALIŞTAYI 2007 1 MapReduce Nedir? Büyük data kümelerini işlemek ve oluşturmak

Detaylı

TEMEL BİLGİSAYAR BİLİMLERİ. Programcılık, problem çözme ve algoritma oluşturma

TEMEL BİLGİSAYAR BİLİMLERİ. Programcılık, problem çözme ve algoritma oluşturma TEMEL BİLGİSAYAR BİLİMLERİ Programcılık, problem çözme ve algoritma oluşturma Programcılık, program çözme ve algoritma Program: Bilgisayara bir işlemi yaptırmak için yazılan komutlar dizisinin bütünü veya

Detaylı

Makine Öğrenmesi İle Duygu Analizinde Veri Seti Performansı

Makine Öğrenmesi İle Duygu Analizinde Veri Seti Performansı Makine Öğrenmesi İle Duygu Analizinde Veri Seti Performansı Hatice NİZAM İstanbul Üniversitesi Bilgisayar Mühendisliği Bölümü haticenizam@outlook.com Saliha Sıla AKIN ERS Turizm Yazılım Şirketi, Bilgisayar

Detaylı

K En Yakın Komşu Methodu (KNearest Neighborhood)

K En Yakın Komşu Methodu (KNearest Neighborhood) K En Yakın Komşu Methodu (KNearest Neighborhood) K-NN algoritması, Thomas. M. Cover ve Peter. E. Hart tarafından önerilen, örnek veri noktasının bulunduğu sınıfın ve en yakın komşunun, k değerine göre

Detaylı

GENETİK ALGORİTMA ÖZNUR CENGİZ HİLAL KOCA

GENETİK ALGORİTMA ÖZNUR CENGİZ HİLAL KOCA GENETİK ALGORİTMA ÖZNUR CENGİZ 201410306014 HİLAL KOCA 150306024 GENETİK ALGORİTMA Genetik Algoritma yaklaşımının ortaya çıkışı 1970 lerin başında olmuştur. 1975 te John Holland ın makine öğrenmesi üzerine

Detaylı

VERİ MADENCİLİĞİ (Sınıflandırma Yöntemleri) Yrd.Doç.Dr. Kadriye ERGÜN kergun@balikesir.edu.tr

VERİ MADENCİLİĞİ (Sınıflandırma Yöntemleri) Yrd.Doç.Dr. Kadriye ERGÜN kergun@balikesir.edu.tr VERİ MADENCİLİĞİ (Sınıflandırma Yöntemleri) Yrd.Doç.Dr. Kadriye ERGÜN kergun@balikesir.edu.tr Genel İçerik Veri Madenciliğine Giriş Veri Madenciliğinin Adımları Veri Madenciliği Yöntemleri Sınıflandırma

Detaylı

Uzaktan Algılama Teknolojileri

Uzaktan Algılama Teknolojileri Uzaktan Algılama Teknolojileri Ders 11 Hiperspektral Görüntülerde Kümeleme ve Sınıflandırma Alp Ertürk alp.erturk@kocaeli.edu.tr Sınıflandırma Sınıflandırma işleminin amacı, her piksel vektörüne bir ve

Detaylı

ICATT ÇEVİRİ UYGULAMASI SİSTEM MİMARİSİ VE VERİTABANI TASARIMI

ICATT ÇEVİRİ UYGULAMASI SİSTEM MİMARİSİ VE VERİTABANI TASARIMI ICATT ÇEVİRİ UYGULAMASI SİSTEM MİMARİSİ VE VERİTABANI TASARIMI İÇİNDEKİLER 1. GİRİŞ 1.1. KAPSAM 1.2. SİSTEM ÖZETİ 1.3. DOKÜMAN ÖZETİ 2. ÇALIŞMA KONSEPTİ 2.1. Yeni Kullanıcı Oluşturmak 2.2. Şirket Bilgilerini

Detaylı

Kümeler arası. Küme içi. uzaklıklar. maksimize edilir. minimize edilir

Kümeler arası. Küme içi. uzaklıklar. maksimize edilir. minimize edilir Kümeleme Analizi: Temel Kavramlar ve Algoritmalar Kümeleme Analizi Nedir? Her biri bir dizi öznitelik ile, veri noktalarının bir kümesi ve noktalar arasındaki benzerliği ölçen bir benzerlik ölçümü verilmiş

Detaylı

Makine Öğrenmesi 2. hafta

Makine Öğrenmesi 2. hafta Makine Öğrenmesi 2. hafta Uzaklığa dayalı gruplandırma K-means kümeleme K-NN sınıflayıcı 1 Uzaklığa dayalı gruplandırma Makine öğrenmesinde amaç birbirine en çok benzeyen veri noktalarını aynı grup içerisinde

Detaylı

Web Madenciliği (Web Mining)

Web Madenciliği (Web Mining) Web Madenciliği (Web Mining) Hazırlayan: M. Ali Akcayol Gazi Üniversitesi Bilgisayar Mühendisliği Bölümü Konular Denetimli Öğrenmenin Temelleri Karar Ağaçları Entropi ID3 Algoritması C4.5 Algoritması Twoing

Detaylı

Web Madenciliği (Web Mining)

Web Madenciliği (Web Mining) Web Madenciliği (Web Mining) Hazırlayan: M. Ali Akcayol Gazi Üniversitesi Bilgisayar Mühendisliği Bölümü Konular Denetimsiz Öğrenmenin Temelleri Kümeleme Uzaklık Fonksiyonları Öklid Uzaklığı Manhattan

Detaylı

Algoritma Geliştirme ve Veri Yapıları 2 Veri Modelleri. Mustafa Kemal Üniversitesi

Algoritma Geliştirme ve Veri Yapıları 2 Veri Modelleri. Mustafa Kemal Üniversitesi Algoritma Geliştirme ve Veri Yapıları 2 Veri Modelleri Veri modelleri, veriler arasında ilişkisel ve sırasal düzeni gösteren kavramsal tanımlardır. Her program en azından bir veri modeline dayanır. Uygun

Detaylı

Örüntü Tanıma (EE 448) Ders Detayları

Örüntü Tanıma (EE 448) Ders Detayları Örüntü Tanıma (EE 448) Ders Detayları Ders Adı Ders Kodu Dönemi Ders Saati Uygulama Saati Laboratuar Saati Kredi AKTS Örüntü Tanıma EE 448 Bahar 3 0 0 3 5 Ön Koşul Ders(ler)i Dersin Dili Dersin Türü Dersin

Detaylı

ÜNİT E ÜNİTE GİRİŞ. Algoritma Mantığı. Algoritma Özellikleri PROGRAMLAMA TEMELLERİ ÜNİTE 3 ALGORİTMA

ÜNİT E ÜNİTE GİRİŞ. Algoritma Mantığı. Algoritma Özellikleri PROGRAMLAMA TEMELLERİ ÜNİTE 3 ALGORİTMA PROGRAMLAMA TEMELLERİ ÜNİTE 3 ALGORİTMA GİRİŞ Bilgisayarların önemli bir kullanım amacı, veri ve bilgilerin kullanılarak var olan belirli bir problemin çözülmeye çalışılmasıdır. Bunun için, bilgisayarlar

Detaylı

Dağıtık Sistemler CS5001

Dağıtık Sistemler CS5001 Dağıtık Sistemler CS5001 Th. Letschert Çeviri: Turgay Akbaş TH Mittelhessen Gießen University of Applied Sciences Biçimsel model nedir Biçimsel model matematiksel olarak tanımlanmış olan bir modeldir.

Detaylı

Kalite Kontrol Yenilikler

Kalite Kontrol Yenilikler Kalite Kontrol Yenilikler Amaç ve Fayda Kalite Kontrol modülünde ISO 2859 standardının desteklenmesine, kullanımın daha fonksiyonel ve rahat olabilmesine yönelik bazı iyileştirme çalışmaları yapılmıştır.

Detaylı

Bilgi ve İletişim Teknolojileri (JFM 102) Ders 10. LINUX OS (Programlama) BİLGİ & İLETİŞİM TEKNOLOJİLERİ GENEL BAKIŞ

Bilgi ve İletişim Teknolojileri (JFM 102) Ders 10. LINUX OS (Programlama) BİLGİ & İLETİŞİM TEKNOLOJİLERİ GENEL BAKIŞ Ders 10 LINUX OS (Programlama) BİLGİ & İLETİŞİM TEKNOLOJİLERİ GENEL BAKIŞ LINUX de Programlama LINUX işletim sistemi zengin bir programlama ortamı sağlar. Kullanıcılara sistemi geliştirme olanağı sağlar.

Detaylı

Algoritmalar. Arama Problemi ve Analizi. Bahar 2016 Doç. Dr. Suat Özdemir 1

Algoritmalar. Arama Problemi ve Analizi. Bahar 2016 Doç. Dr. Suat Özdemir 1 Algoritmalar Arama Problemi ve Analizi Bahar 2016 Doç. Dr. Suat Özdemir 1 Arama Problemi Sıralama algoritmaları gibi arama algoritmaları da gerçek hayat bilgisayar mühendisliği problemlerinin çözümünde

Detaylı

Bilgi Erişim Performans Ölçüleri

Bilgi Erişim Performans Ölçüleri Bilgi Erişim Performans Ölçüleri Yaşar Tonta Hacettepe Üniversitesi tonta@hacettepe.edu.tr yunus.hacettepe.edu.tr/~tonta/ DOK324/BBY220 Bilgi Erişim İlkeleri DOK 220 Bahar 2005 2005.03.01 - SLAYT 1 Belge

Detaylı

3. sınıf. Bilgisayarla kataloglamanın doğuşu gelişimi ve bugünkü durum ele alınmaktadır. Bu derste

3. sınıf. Bilgisayarla kataloglamanın doğuşu gelişimi ve bugünkü durum ele alınmaktadır. Bu derste 3. sınıf 5. Yarıyıl (Güz Dönemi) Bilgi Kaynaklarının Tanımlanması ve Erişimi I (AKTS 5) 3 saat Bilgisayarla kataloglamanın doğuşu gelişimi ve bugünkü durum ele alınmaktadır. Bu derste Kütüphane Otomasyon

Detaylı

Türkçe- ngilizce için statistiksel Bilgisayarlı Çeviri Sistemi

Türkçe- ngilizce için statistiksel Bilgisayarlı Çeviri Sistemi Türkçe- ngilizce için statistiksel Bilgisayarlı Çeviri Sistemi lknur Durgar El-Kahlout ve Kemal Oflazer Mühendislik ve Do a Bilimleri Fakültesi Sabancı Üniversitesi stanbul, 34956, Türkiye ilknurdurgar@su.sabanciuniv.edu,

Detaylı

Türkçe nin Bağlılık Ayrıştırması. Gülşen Cebiroğlu Eryiğit

Türkçe nin Bağlılık Ayrıştırması. Gülşen Cebiroğlu Eryiğit Türkçe nin Bağlılık Ayrıştırması Gülşen Cebiroğlu Eryiğit Bağlılık Ayrıştırması Doğal Dil İşleme ve Bölümleri Türkçe'nin Bağlılık Ayrıştırması @ 2007 Gülşen Cebiroğlu Eryiğit 2/45 Bağlılık Ayrıştırması

Detaylı

Türkçe için Konuşma Tanıma ve Derin Öğrenmeyle Dil Modelleme

Türkçe için Konuşma Tanıma ve Derin Öğrenmeyle Dil Modelleme Türkçe için Konuşma Tanıma ve Derin Öğrenmeyle Dil Modelleme Ebru Arısoy Elektrik-Elektronik Mühendisliği Bölümü MEF Üniversitesi 3 Temmuz 218 EBRU ARISOY 22 Boğaziçi Universitesi EE (BS) 24 Boğaziçi Universitesi

Detaylı

Yapı Malzemesi Enformasyon Sistemi - YMES. Y.Doç.Dr. Elçin TAŞ Y.Doç.Dr. Leyla TANAÇAN Dr. Hakan YAMAN

Yapı Malzemesi Enformasyon Sistemi - YMES. Y.Doç.Dr. Elçin TAŞ Y.Doç.Dr. Leyla TANAÇAN Dr. Hakan YAMAN Yapı Malzemesi Enformasyon Sistemi - YMES Y.Doç.Dr. Elçin TAŞ Y.Doç.Dr. Leyla TANAÇAN Dr. Hakan YAMAN 1.Ulusal Yapı Malzemesi Kongresi Hilton, İstanbul - 11 Ekim 2002 Bildirinin Amacı Bu bildiride ülkemizde

Detaylı

Rapor Hazırlama Kuralları

Rapor Hazırlama Kuralları Temel Bilgiler 1. Temel Bilgiler Rapor Hazırlama Kuralları Rapor hazırlamada, bu belge ile birlikte bulunan rapor örneği sitili kullanılabilir. Bu kalıp stil seçildiğinde, sayfa düzeni, paragraf yapıları

Detaylı

Doğan Can, Murat Saraçlar. Bebek, İstanbul. 9 Mart, 2009

Doğan Can, Murat Saraçlar. Bebek, İstanbul. 9 Mart, 2009 Türkçe Haber Bültenlerinin Açık Kaynak Yazılımlar ile Yazılandırılması Doğan Can, Murat Saraçlar Elektrik Elektronik Mühendisliği Bölümü Boğaziçi Üniversitesi Bebek, İstanbul 9 Mart, 2009 Bir Bakışta GDSKT

Detaylı

2.1 Bir Sınıfı Örneklerinden Öğrenme... 15 2.2 Vapnik-Chervonenkis (VC) Boyutu... 20 2.3 Olası Yaklaşık Doğru Öğrenme... 21

2.1 Bir Sınıfı Örneklerinden Öğrenme... 15 2.2 Vapnik-Chervonenkis (VC) Boyutu... 20 2.3 Olası Yaklaşık Doğru Öğrenme... 21 İçindekiler Önsöz İkinci Basım için Önsöz Türkçe Çeviri için Önsöz Gösterim xiii xv xvii xix 1 Giriş 1 1.1 Yapay Öğrenme Nedir?......................... 1 1.2 Yapay Öğrenme Uygulamalarına Örnekler...............

Detaylı

Kelime Gösterimleri (Word Representation Word Embeddings)

Kelime Gösterimleri (Word Representation Word Embeddings) Kelime Gösterimleri (Word Representation Word Embeddings) Kelime, cümlede kullanımına göre farklı anlamlar kazanabilir Anlamsal bilginin çıkarılması metinlerin işlenmesinde önemlidir Kelimelerin işlenebilir

Detaylı

Üniversite Sanayi İşbirliği Başarılı Uygulamalar Çalıştayı

Üniversite Sanayi İşbirliği Başarılı Uygulamalar Çalıştayı Üniversite Sanayi İşbirliği Başarılı Uygulamalar Çalıştayı ODTÜ-UME Tarafından ASELSAN A.Ş. İçin Gerçekleştirilen Projeler Ar. Gör. Çağdaş Çalık Uygulamalı Matematik Enstitüsü ODTÜ İçerik ODTÜ UME Tanıtımı

Detaylı

... ROBOTİK VE KODLAMA EĞİTİMİ ÇERÇEVESİNDE ÖĞRETİM YILI BİLİŞİM TEKNOLOJİLERİ DERSİ ÜNİTELENDİRİLMİŞ YILLIK DERS PLANI

... ROBOTİK VE KODLAMA EĞİTİMİ ÇERÇEVESİNDE ÖĞRETİM YILI BİLİŞİM TEKNOLOJİLERİ DERSİ ÜNİTELENDİRİLMİŞ YILLIK DERS PLANI ... ROBOTİK VE KODLAMA EĞİTİMİ ÇERÇEVESİNDE 2018 2019 ÖĞRETİM YILI BİLİŞİM TEKNOLOJİLERİ DERSİ ÜNİTELENDİRİLMİŞ YILLIK DERS PLANI Hazırlayan : Özel Öğretim Kurumları Birliği (ÖZKURBİR) Dersin Adı : Bilişim

Detaylı

Turquaz. Açık kodlu muhasebe yazılımı http://www.turquaz.com. Turquaz Proje Grubu

Turquaz. Açık kodlu muhasebe yazılımı http://www.turquaz.com. Turquaz Proje Grubu Turquaz Açık kodlu muhasebe yazılımı http://www.turquaz.com Turquaz Proje Grubu Konu Başlıkları 1. Turquaz Proje Grubu 2. Programın fikri 3. Geliştirme aşaması 4. Programın içeriği 5. Yapılacaklar 6. Dizayn

Detaylı

2. Klasik Kümeler-Bulanık Kümeler

2. Klasik Kümeler-Bulanık Kümeler 2. Klasik Kümeler-Bulanık Kümeler Klasik Küme Teorisi Klasik kümelerde bir nesnenin bir kümeye üye olması ve üye olmaması söz konusudur. Bu yaklaşıma göre istediğimiz özelliğe sahip olan bir birey, eleman

Detaylı

BMB204. Veri Yapıları Ders 9. B+ Ağacı, Hash, Heap. Erdinç Uzun NKÜ Çorlu Mühendislik Fakültesi Bilgisayar Mühendisliği Bölümü

BMB204. Veri Yapıları Ders 9. B+ Ağacı, Hash, Heap. Erdinç Uzun NKÜ Çorlu Mühendislik Fakültesi Bilgisayar Mühendisliği Bölümü BMB204. Veri Yapıları Ders 9. B+ Ağacı, Hash, Heap Erdinç Uzun NKÜ Çorlu Mühendislik Fakültesi Bilgisayar Mühendisliği Bölümü Dersin Planı B+ Tree Temel bir veritabanı çalışma kodu Hash (Karma) Heap Ağaçlar

Detaylı

BİLGİSAYAR PROGRAMLARININ TASARIMLARINDAKİ VE KODLARINDAKİ SORUNLARIN BELİRLENMESİ ALPER FİLİZ MEHMET ALİ SERT

BİLGİSAYAR PROGRAMLARININ TASARIMLARINDAKİ VE KODLARINDAKİ SORUNLARIN BELİRLENMESİ ALPER FİLİZ MEHMET ALİ SERT BİLGİSAYAR PROGRAMLARININ TASARIMLARINDAKİ VE KODLARINDAKİ SORUNLARIN BELİRLENMESİ ALPER FİLİZ 040080202 MEHMET ALİ SERT 040090521 SUNUM İÇERİĞİ Problem Tanımı Tespit Edilen Sorunlar Problemin Sonuçları

Detaylı

127 - Twoing Algoritması ile Sınıflandırma Kalp Hastalığı Uygulaması MEHMET AKİF ERSOY ÜNİVERSİTESİ İLHAN UYSAL MEHMET BİLEN SAMİ ULUKUŞ

127 - Twoing Algoritması ile Sınıflandırma Kalp Hastalığı Uygulaması MEHMET AKİF ERSOY ÜNİVERSİTESİ İLHAN UYSAL MEHMET BİLEN SAMİ ULUKUŞ 127 - Twoing Algoritması ile Sınıflandırma Kalp Hastalığı Uygulaması MEHMET AKİF ERSOY ÜNİVERSİTESİ İLHAN UYSAL MEHMET BİLEN SAMİ ULUKUŞ Veri Madenciliği : Bir sistemin veri madenciliği sistemi olabilmesi

Detaylı

Proje kapsamında Arazi İzleme Sisteminin bir bütün olarak sunulması için bir portal yapısı hazırlanmıştır. Arazi İzleme Sistemi;

Proje kapsamında Arazi İzleme Sisteminin bir bütün olarak sunulması için bir portal yapısı hazırlanmıştır. Arazi İzleme Sistemi; Arazi İzleme CORINE WEB Portal Projesi Kurum adı : T.C. Orman ve Su İşleri Bakanlığı Proje durumu : Tamamlandı. Uygulama adresleri: http://aris.cob.gov.tr http://aris.cob.gov.tr/csa/ http://aris.cob.gov.tr/csa/

Detaylı

VERİ YAPILARI VE PROGRAMLAMA

VERİ YAPILARI VE PROGRAMLAMA VERİ YAPILARI VE PROGRAMLAMA (BIP116) Yazar: Doç.Dr.İ.Hakkı.Cedimoğlu SAKARYA ÜNİVERSİTESİ Adapazarı Meslek Yüksekokulu Bu ders içeriğinin basım, yayım ve satış hakları Sakarya Üniversitesi ne aittir.

Detaylı

Bilişim Sistemleri Değerlendirme Modeli ve Üç Örnek Olay İncelemesi

Bilişim Sistemleri Değerlendirme Modeli ve Üç Örnek Olay İncelemesi Bilişim Sistemleri Değerlendirme Modeli ve Üç Örnek Olay İncelemesi Özet Dr. Sevgi Özkan ve Prof. Dr Semih Bilgen Enformatik Enstitüsü, Orta Doğu Teknik Üniversitesi, Ankara Tel: (312) 210 3796 e-posta:

Detaylı

BSM 532 KABLOSUZ AĞLARIN MODELLEMESİ VE ANALİZİ OPNET MODELER

BSM 532 KABLOSUZ AĞLARIN MODELLEMESİ VE ANALİZİ OPNET MODELER BSM 532 KABLOSUZ AĞLARIN MODELLEMESİ VE ANALİZİ OPNET MODELER Yazılımı ve Genel Özellikleri Doç.Dr. Cüneyt BAYILMIŞ Kablosuz Ağların Modellemesi ve Analizi 1 OPNET OPNET Modeler, iletişim sistemleri ve

Detaylı

Sıralama Öğrenme ile Sağkalım Tahminleme

Sıralama Öğrenme ile Sağkalım Tahminleme Boğazda Yapay Öğrenme İsmail Arı Yaz Okulu 08 Sıralama Öğrenme ile Sağkalım Tahminleme Öznur Taştan Mühendislik ve Doğa Bilimleri Fakültesi Bilgisayar Bilimi ve Mühendisliği Moleküler Biyoloji, Genetik

Detaylı

Zeki Optimizasyon Teknikleri

Zeki Optimizasyon Teknikleri Zeki Optimizasyon Teknikleri Tabu Arama (Tabu Search) Doç.Dr. M. Ali Akcayol Tabu Arama 1986 yılında Glover tarafından geliştirilmiştir. Lokal minimum u elimine edebilir ve global minimum u bulur. Değerlendirme

Detaylı

Web Madenciliği (Web Mining)

Web Madenciliği (Web Mining) Web Madenciliği (Web Mining) Hazırlayan: M. Ali Akcayol Gazi Üniversitesi Bilgisayar Mühendisliği Bölümü Konular Sınıflandırıcıların Değerlendirilmesi Skorlar Karışıklık matrisi Accuracy Precision Recall

Detaylı

Yeşim AKSAN, Selma Ayşe ÖZEL, Yasin BEKTAŞ, Mustafa AKSAN, Umut Ufuk DEMİRHAN, Ümit MERSİNLİ, Hakan YILMAZER. Sunan : Yasin BEKTAŞ.

Yeşim AKSAN, Selma Ayşe ÖZEL, Yasin BEKTAŞ, Mustafa AKSAN, Umut Ufuk DEMİRHAN, Ümit MERSİNLİ, Hakan YILMAZER. Sunan : Yasin BEKTAŞ. Yeşim AKSAN, Selma Ayşe ÖZEL, Yasin BEKTAŞ, Mustafa AKSAN, Umut Ufuk DEMİRHAN, Ümit MERSİNLİ, Hakan YILMAZER Sunan : Yasin BEKTAŞ 5 Şubat 2014 1. Giriş 2. Alanyazın 3. Açık Kaynak / Ücretsiz Yazılımlarla

Detaylı

İSTATİSTİK I KISA ÖZET KOLAYAOF

İSTATİSTİK I KISA ÖZET KOLAYAOF DİKKATİNİZE: BURADA SADECE ÖZETİN İLK ÜNİTESİ SİZE ÖRNEK OLARAK GÖSTERİLMİŞTİR. ÖZETİN TAMAMININ KAÇ SAYFA OLDUĞUNU ÜNİTELERİ İÇİNDEKİLER BÖLÜMÜNDEN GÖREBİLİRSİNİZ. İSTATİSTİK I KISA ÖZET KOLAYAOF 2 Kolayaof.com

Detaylı

VERİ MADENCİLİĞİ (Karar Ağaçları ile Sınıflandırma) Yrd.Doç.Dr. Kadriye ERGÜN

VERİ MADENCİLİĞİ (Karar Ağaçları ile Sınıflandırma) Yrd.Doç.Dr. Kadriye ERGÜN VERİ MADENCİLİĞİ (Karar Ağaçları ile Sınıflandırma) Yrd.Doç.Dr. Kadriye ERGÜN kergun@balikesir.edu.tr İçerik Sınıflandırma yöntemleri Karar ağaçları ile sınıflandırma Entropi Kavramı ID3 Algoritması C4.5

Detaylı

BÖLÜM III: Şebeke Modelleri. Şebeke Kavramları. Şebeke Kavramları. Şebeke Kavramları. Yönlü Şebeke (Directed Network) Dal / ok

BÖLÜM III: Şebeke Modelleri. Şebeke Kavramları. Şebeke Kavramları. Şebeke Kavramları. Yönlü Şebeke (Directed Network) Dal / ok 8.0.0 Şebeke Kavramları BÖLÜM III: Şebeke Modelleri Şebeke (Network) Sonlu sayıdaki düğümler kümesiyle, bunlarla bağlantılı oklar (veya dallar) kümesinin oluşturduğu yapı şeklinde tanımlanabilir ve (N,A)

Detaylı

ÖZGEÇMİŞ. 1. Adı Soyadı : Olcay Taner Yıldız. 2. Doğum Tarihi : 15.05.1976. 3. Unvanı : Doç. Dr. 4. Öğrenim Durumu :

ÖZGEÇMİŞ. 1. Adı Soyadı : Olcay Taner Yıldız. 2. Doğum Tarihi : 15.05.1976. 3. Unvanı : Doç. Dr. 4. Öğrenim Durumu : ÖZGEÇMİŞ 1. Adı Soyadı : Olcay Taner Yıldız 2. Doğum Tarihi : 15.05.1976 3. Unvanı : Doç. Dr. 4. Öğrenim Durumu : Derece Alan Üniversite Yıl Lisans Bilgisayar Mühendisliği Boğaziçi Üniversitesi 1997 Y.

Detaylı

DOKUZ EYLÜL ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ MÜDÜRLÜĞÜ DERS/MODÜL/BLOK TANITIM FORMU. Dersin Orjinal Adı: Pattern Recognition

DOKUZ EYLÜL ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ MÜDÜRLÜĞÜ DERS/MODÜL/BLOK TANITIM FORMU. Dersin Orjinal Adı: Pattern Recognition Dersi Veren Birim: Fen Bilimleri Enstitüsü Dersin Türkçe Adı: Örüntü Tanıma Dersin Orjinal Adı: Pattern Recognition Dersin Düzeyi:(Ön lisans, Lisans, Yüksek Lisans, Doktora) Lisansüstü Dersin Kodu: CSE

Detaylı

Algoritma Geliştirme ve Veri Yapıları 9 Ağaç Veri Modeli ve Uygulaması. Mustafa Kemal Üniversitesi

Algoritma Geliştirme ve Veri Yapıları 9 Ağaç Veri Modeli ve Uygulaması. Mustafa Kemal Üniversitesi Algoritma Geliştirme ve Veri Yapıları 9 Ağaç Veri Modeli ve Uygulaması Ağaç, verilerin birbirine sanki bir ağaç yapısı oluşturuyormuş gibi sanal olarak bağlanmasıyla elde edilen hiyararşik yapıya sahip

Detaylı

TED ÜNİVERSİTESİ BİLİMSEL ARAŞTIRMA PROJESİ

TED ÜNİVERSİTESİ BİLİMSEL ARAŞTIRMA PROJESİ TED ÜNİVERSİTESİ BİLİMSEL ARAŞTIRMA PROJESİ 1. Proje Hakkında Genel Bilgi PROJE BAŞLIĞI: Başvuru Formu PROJE YÜRÜTÜCÜSÜ: BAĞLI BULUNDUĞU BİRİM: (Bölüm, Fakülte) DESTEKLEYEN DİĞER KURULUŞLAR: (Kuruluşun

Detaylı

T.C. HACETTEPE ÜNĐVERSĐTESĐ Sosyal Bilimler Enstitüsü

T.C. HACETTEPE ÜNĐVERSĐTESĐ Sosyal Bilimler Enstitüsü GENEL BĐLGĐLER T.C. HACETTEPE ÜNĐVERSĐTESĐ Sosyal Bilimler Enstitüsü Mütercim-Tercümanlık Anabilim Dalı Đngilizce Mütercim-Tercümanlık Bilim Dalı YÜKSEK LĐSANS PROGRAMI Mütercim-Tercümanlık Bölümü, Edebiyat

Detaylı

Eğitim seti (training set) sınıflandırma modelinin elde edileceği kayıtları içerir

Eğitim seti (training set) sınıflandırma modelinin elde edileceği kayıtları içerir sınıflandırma: temel kavramlar, karar ağaçları ve model değerlendirme Sınıflandırma : Tanım Eğitim seti (training set) sınıflandırma modelinin elde edileceği kayıtları içerir Eğitim setindeki her kayıt

Detaylı

Hafta 09 -Topluluk Yöntemleri - Boyut Azaltma - Anomali Tespiti

Hafta 09 -Topluluk Yöntemleri - Boyut Azaltma - Anomali Tespiti Hafta 09 -Topluluk Yöntemleri - Boyut Azaltma - Anomali Tespiti BGM 565 - Siber Güvenlik için Makine Öğrenme Yöntemleri Bilgi Güvenliği Mühendisliği Yüksek Lisans Programı Dr. Ferhat Özgür Çatak ozgur.catak@tubitak.gov.tr

Detaylı

Kümeleme Algoritmaları. Tahir Emre KALAYCI

Kümeleme Algoritmaları. Tahir Emre KALAYCI Tahir Emre KALAYCI 2010 Gündem En önemli gözetimsiz öğrenme (unsupervised learning) problemi olarak değerlendirilmektedir Bu türdeki diğer problemler gibi etiketsiz veri kolleksiyonları için bir yapı bulmakla

Detaylı

ŞARTNAME TAKİP PROGRAMI (STP2006)

ŞARTNAME TAKİP PROGRAMI (STP2006) ŞARTNAME TAKİP PROGRAMI (STP2006) Firmanız, birden çok kurum veya kuruluşun şartnamelerini takip etmek zorunda ise geliştirmiş olduğumuz Şartname Takip Programı mızı kullanarak bu bilgilerinizi yönetebilirsiniz.

Detaylı

UZAKTAN EĞİTİM MERKEZİ

UZAKTAN EĞİTİM MERKEZİ ÜNİTE 2 VERİ TABANI İÇİNDEKİLER Veri Tabanı Veri Tabanı İle İlgili Temel Kavramlar Tablo Alan Sorgu Veri Tabanı Yapısı BAYBURT ÜNİVERSİTESİ UZAKTAN EĞİTİM MERKEZİ BİLGİSAYAR II HEDEFLER Veri tabanı kavramını

Detaylı

Sözlük Kullanarak Türkçe için Kavram Madenciliği Metotları Geliştirme

Sözlük Kullanarak Türkçe için Kavram Madenciliği Metotları Geliştirme 1 Cem Rıfkı Aydın, 1 Ali Erkan, 1 Tunga Güngör, 2 Hidayet Takçı 1 Boğaziçi Üniversitesi, 2 Cumhuriyet Üniversitesi Sözlük Kullanarak Türkçe için Kavram Madenciliği Metotları Geliştirme AB 14 7 Şubat 2014

Detaylı

Rapor Hazırlama Kuralları

Rapor Hazırlama Kuralları Temel Bilgiler 1. Temel Bilgiler Rapor Hazırlama Kuralları Bilgisayar programcılıüı öğrencilerinin hazırlayacakları tüm proje ve bitirme projesiraporlarını bu belgede açıklandığı biçimde hazırlamaları

Detaylı

Geçmişten Günümüze Kastamonu Üniversitesi Dergisi: Yayımlanan Çalışmalar Üzerine Bir Araştırma 1

Geçmişten Günümüze Kastamonu Üniversitesi Dergisi: Yayımlanan Çalışmalar Üzerine Bir Araştırma 1 Mart 2017 Cilt:25 No:2 Kastamonu Eğitim Dergisi xii-xxi Geçmişten Günümüze Kastamonu Üniversitesi Dergisi: Yayımlanan Çalışmalar Üzerine Bir Araştırma 1 Lütfi İNCİKABI, Samet KORKMAZ, Perihan AYANOĞLU,

Detaylı

VERİ YAPILARI. Yrd. Doç. Dr. Murat GÖK Bilgisayar Mühendisliği Bölümü YALOVA ÜNİVERSİTESİ HASH TABLOLARI.

VERİ YAPILARI. Yrd. Doç. Dr. Murat GÖK Bilgisayar Mühendisliği Bölümü YALOVA ÜNİVERSİTESİ HASH TABLOLARI. VERİ YAPILARI HASH TABLOLARI Yrd. Doç. Dr. Murat GÖK Bilgisayar Mühendisliği Bölümü YALOVA ÜNİVERSİTESİ muratgok@gmail.com Hash tabloları Hash tablo veri yapısı ile veri arama, ekleme ve silme işlemleri

Detaylı

VERİ MADENCİLİĞİ (Kümeleme) Yrd.Doç.Dr. Kadriye ERGÜN

VERİ MADENCİLİĞİ (Kümeleme) Yrd.Doç.Dr. Kadriye ERGÜN VERİ MADENCİLİĞİ (Kümeleme) Yrd.Doç.Dr. Kadriye ERGÜN kergun@balikesir.edu.tr İçerik Kümeleme İşlemleri Kümeleme Tanımı Kümeleme Uygulamaları Kümeleme Yöntemleri Kümeleme (Clustering) Kümeleme birbirine

Detaylı

PROGRAMLAMAYA GİRİŞ. Öğr. Gör. Ayhan KOÇ. Kaynak: Algoritma Geliştirme ve Programlamaya Giriş, Dr. Fahri VATANSEVER, Seçkin Yay.

PROGRAMLAMAYA GİRİŞ. Öğr. Gör. Ayhan KOÇ. Kaynak: Algoritma Geliştirme ve Programlamaya Giriş, Dr. Fahri VATANSEVER, Seçkin Yay. PROGRAMLAMAYA GİRİŞ Öğr. Gör. Ayhan KOÇ Kaynak: Algoritma Geliştirme ve Programlamaya Giriş, Dr. Fahri VATANSEVER, Seçkin Yay., 2007 Algoritma ve Programlamaya Giriş, Ebubekir YAŞAR, Murathan Yay., 2011

Detaylı

YZM ALGORİTMA ANALİZİ VE TASARIM DERS#1: ALGORİTMA KAVRAMI

YZM ALGORİTMA ANALİZİ VE TASARIM DERS#1: ALGORİTMA KAVRAMI YZM 3207- ALGORİTMA ANALİZİ VE TASARIM DERS#1: ALGORİTMA KAVRAMI Algoritma Nedir? Algoritma Bir problemin çözümü için geliştirilmiş özel metot Girdileri çıktılara dönüştüren sıralı hesaplama adımları Tanımlanmış

Detaylı

Değeri $ ve bataryası 7 dakika yetiyor;) Manyetik alan prensibine göre çalıştığı için şimdilik demir ve bakır kaplama yüzeylerde

Değeri $ ve bataryası 7 dakika yetiyor;) Manyetik alan prensibine göre çalıştığı için şimdilik demir ve bakır kaplama yüzeylerde 3.HAFTA Değeri 10.000$ ve bataryası 7 dakika yetiyor;) Manyetik alan prensibine göre çalıştığı için şimdilik demir ve bakır kaplama yüzeylerde kullanılabiliyor. Sistematik bir yöntem kullanmak suretiyle,

Detaylı

Veritabanı Uygulamaları Tasarımı

Veritabanı Uygulamaları Tasarımı Veritabanı Uygulamaları Tasarımı Veri Tabanı Veritabanı yada ingilizce database kavramı, verilerin belirli bir düzene göre depolandığı sistemlere verilen genel bir isimdir. Günümüzde özel veya kamu kuruluşların

Detaylı

http://www.tnc.org.tr

http://www.tnc.org.tr http://www.tnc.org.tr Yeşim Aksan, Mustafa Aksan, S. Ayşe Özel, Hakan Yılmazer, Umut U. Demirhan, Ümit Mersinli, Yasin Bektaş, Serap Altunay Mersin Üniversitesi, Çukurova Üniversitesi Türkçe Ulusal Derlemi

Detaylı

Akdeniz Üniversitesi

Akdeniz Üniversitesi F. Ders Tanıtım Formu Dersin Adı Öğretim Dili Akdeniz Üniversitesi Bilgi Teknolojileri Kullanımı Türkçe Dersin Verildiği Düzey Ön Lisans ( ) Lisans (x) Yüksek Lisans( ) Doktora( ) Eğitim Öğretim Sistemi

Detaylı

ÜNİTE:1. İstatistiğin Tanımı, Temel Kavramlar ve İstatistik Eğitimi ÜNİTE:2. Veri Derleme, Düzenleme ve Grafiksel Çözümleme ÜNİTE:3

ÜNİTE:1. İstatistiğin Tanımı, Temel Kavramlar ve İstatistik Eğitimi ÜNİTE:2. Veri Derleme, Düzenleme ve Grafiksel Çözümleme ÜNİTE:3 ÜNİTE:1 İstatistiğin Tanımı, Temel Kavramlar ve İstatistik Eğitimi ÜNİTE:2 Veri Derleme, Düzenleme ve Grafiksel Çözümleme ÜNİTE:3 Ortalamalar, Değişkenlik ve Dağılma Ölçüleri ÜNİTE:4 Endeksler ÜNİTE:5

Detaylı

ODTÜ KÜTÜPHANESİ YENİ WEB SAYFASININ TASARIMI VE KULLANILABİLİRLİK ÇALIŞMASI

ODTÜ KÜTÜPHANESİ YENİ WEB SAYFASININ TASARIMI VE KULLANILABİLİRLİK ÇALIŞMASI ODTÜ KÜTÜPHANESİ YENİ WEB SAYFASININ TASARIMI VE KULLANILABİLİRLİK ÇALIŞMASI Mustafa DALCI *, Özge ALÇAM*, Yasemin Oran SAATÇİOĞLU*, Feride ERDAL* * Orta Doğu Teknik Üniversitesi, Bilgi İşlem Daire Başkanlığı,

Detaylı

Belge, ABYSIS içinde kullanılan, kayıt, fiş, fatura, hesap kartı gibi bir tanımı veya bir işlemi ifade eden kayıt veya evraklardır.

Belge, ABYSIS içinde kullanılan, kayıt, fiş, fatura, hesap kartı gibi bir tanımı veya bir işlemi ifade eden kayıt veya evraklardır. Belge, ABYSIS içinde kullanılan, kayıt, fiş, fatura, hesap kartı gibi bir tanımı veya bir işlemi ifade eden kayıt veya evraklardır. ROBO Framework içinde uygulanan tüm belgeler aynı yapıdan miras yolu

Detaylı

SBE16 / Akıllı Metropoller Ekim 2016 / İSTANBUL

SBE16 / Akıllı Metropoller Ekim 2016 / İSTANBUL SBE16 / Akıllı Metropoller 13-15 Ekim 2016 / İSTANBUL TAKDİM PLANI Teknolojik Gelişim ve 3 Boyuta Geçiş : 2B gösterim tekniği haritacılığın doğuşundan beri kullanılmaktadır. Bu temsil şekli yerleşmiş alışkanlıklar

Detaylı

Powered by www.etgigrup.com. www.vedubox.com

Powered by www.etgigrup.com. www.vedubox.com Powered by www.etgigrup.com www.vedubox.com Entegre E-Eğitim Sistemi Uzaktan Eğitim Sisteminiz 1DK da Hazır! Kolay Basit İnovatif Esnek Entegre Entegre Eğitim Platformu Uzaktan Eğitim, e-eğitim, Online

Detaylı

BİLECİK ŞEYH EDEBALİ ÜNİVERSİTESİ AKADEMİK ÖZGEÇMİŞ FORMU

BİLECİK ŞEYH EDEBALİ ÜNİVERSİTESİ AKADEMİK ÖZGEÇMİŞ FORMU BİLECİK ŞEYH EDEBALİ ÜNİVERSİTESİ AKADEMİK ÖZGEÇMİŞ FORMU KİŞİSEL BİLGİLER Adı Soyadı Tolga YÜKSEL Ünvanı Birimi Doğum Tarihi Yrd. Doç. Dr. Mühendislik Fakültesi/ Elektrik Elektronik Mühendisliği 23.10.1980

Detaylı

KAHKAHA TANIMA İÇİN RASSAL ORMANLAR

KAHKAHA TANIMA İÇİN RASSAL ORMANLAR KAHKAHA TANIMA İÇİN RASSAL ORMANLAR Heysem Kaya, A. Mehdi Erçetin, A. Ali Salah, S. Fikret Gürgen Bilgisayar Mühendisliği Bölümü Boğaziçi Üniversitesi / Istanbul Akademik Bilişim'14, Mersin, 05.02.2014

Detaylı

PAPATYA YAYINCILIK EĞİTİM Bilgisayar Sis. San. ve Tic. A.Ş. Veri Madenciliği Yöntemleri Dr. Yalçın ÖZKAN -II-

PAPATYA YAYINCILIK EĞİTİM Bilgisayar Sis. San. ve Tic. A.Ş. Veri Madenciliği Yöntemleri Dr. Yalçın ÖZKAN -II- Dr. Yalçın ÖZKAN Dr. Yalçın ÖZKAN PAPATYA YAYINCILIK EĞİTİM Bilgisayar Sis. San. ve Tic. A.Ş. Ankara Caddesi, Prof. Fahreddin Kerim Gökay Vakfı İşhanı Girişi, No: 11/3, Cağaloğlu (Fatih)/İstanbul Tel

Detaylı

Zahmetsiz örüntü tanıma: Nokta bulutlarının karşılaştırılması yoluyla veri-tabanlı ve parametresiz istatistiksel öğrenme

Zahmetsiz örüntü tanıma: Nokta bulutlarının karşılaştırılması yoluyla veri-tabanlı ve parametresiz istatistiksel öğrenme Zahmetsiz örüntü tanıma: Nokta bulutlarının karşılaştırılması yoluyla veri-tabanlı ve parametresiz istatistiksel öğrenme Doç. Dr. Bilge Karaçalı Biyomedikal Veri İşleme Laboratuvarı Elektrik-Elektronik

Detaylı

İÇİNDEKİLER. Çeviri Ekibi /5 Çeviri Önsözü / 6 Şekiller Listesi / 8 Tablolar listesi / 9 Ayrıntılı İçerik / 10

İÇİNDEKİLER. Çeviri Ekibi /5 Çeviri Önsözü / 6 Şekiller Listesi / 8 Tablolar listesi / 9 Ayrıntılı İçerik / 10 İÇİNDEKİLER Çeviri Ekibi /5 Çeviri Önsözü / 6 Şekiller Listesi / 8 Tablolar listesi / 9 Ayrıntılı İçerik / 10 1. Bölüm: Karma Yöntem Araştırmalarının Doğası / 1 2. Bölüm: Karma Yöntem Araştırmalarının

Detaylı

Bilişim Sistemleri. Modelleme, Analiz ve Tasarım. Yrd. Doç. Dr. Alper GÖKSU

Bilişim Sistemleri. Modelleme, Analiz ve Tasarım. Yrd. Doç. Dr. Alper GÖKSU Bilişim Sistemleri Modelleme, Analiz ve Tasarım Yrd. Doç. Dr. Alper GÖKSU Ders Akışı Hafta 10-11. Nesneye Yönelik Sistem Tasarımı Haftanın Amacı Bilişim sistemleri geliştirmede nesneye yönelik sistem tasarımı

Detaylı

AYTUĞ ONAN CELAL BAYAR ÜNİVERSİTESİ, BİLGİSAYAR MÜHENDİSLİĞİ BÖLÜMÜ SERDAR KORUKOĞLU EGE ÜNİVERSİTESİ, BİLGİSAYAR MÜHENDİSLİĞİ BÖLÜMÜ

AYTUĞ ONAN CELAL BAYAR ÜNİVERSİTESİ, BİLGİSAYAR MÜHENDİSLİĞİ BÖLÜMÜ SERDAR KORUKOĞLU EGE ÜNİVERSİTESİ, BİLGİSAYAR MÜHENDİSLİĞİ BÖLÜMÜ Metin Sınıflandırmada Öznitelik Seçim Yöntemlerinin Değerlendirilmesi AYTUĞ ONAN CELAL BAYAR ÜNİVERSİTESİ, BİLGİSAYAR MÜHENDİSLİĞİ BÖLÜMÜ SERDAR KORUKOĞLU EGE ÜNİVERSİTESİ, BİLGİSAYAR MÜHENDİSLİĞİ BÖLÜMÜ

Detaylı

F(A, N, K) // A dizi; N, K integer if N<0 then return K; if A[N]>K then K = A[N]; return F(A, N-1, K);

F(A, N, K) // A dizi; N, K integer if N<0 then return K; if A[N]>K then K = A[N]; return F(A, N-1, K); 2009-2010 BAHAR DÖNEMİ MC 689 ALGORİTMA TASARIMI ve ANALİZİ I. VİZE ÇÖZÜMLERİ 1. a) Böl ve yönet (divide & conquer) tarzındaki algoritmaların genel özelliklerini (çalışma mantıklarını) ve aşamalarını kısaca

Detaylı

Apriori Algoritması. Konu İçeriği. Giriş. Tarihçesi. Apriori Nedir? Örnekler. Algoritma. Açıklama. Weka İle Kullanımı. Kaynakça.

Apriori Algoritması. Konu İçeriği. Giriş. Tarihçesi. Apriori Nedir? Örnekler. Algoritma. Açıklama. Weka İle Kullanımı. Kaynakça. Apriori Algoritması Konu İçeriği Giriş Tarihçesi Apriori Nedir? Örnekler Algoritma Açıklama Weka İle Kullanımı Kaynakça Giriş Veri madenciliğinde kullanılan ve veri kümeleri veya veriler arasındaki ilişkiyi

Detaylı

BİTİRME ÇALIŞMASI ARA RAPOR YAZIM KILAVUZU

BİTİRME ÇALIŞMASI ARA RAPOR YAZIM KILAVUZU BİTİRME ÇALIŞMASI ARA RAPOR YAZIM KILAVUZU 1. Başlık ve Kapak Sayfası Başlık sayfası formatı için bölüm web sayfasında bulunan rapor_kapak.docx başlıklı MS Office Word dokümanı kullanılacaktır. Düzenlenmesi

Detaylı

Sahne Geçişlerinin Geometrik Tabanlı olarak Saptanması

Sahne Geçişlerinin Geometrik Tabanlı olarak Saptanması Sahne Geçişlerinin Geometrik Tabanlı olarak Saptanması 1 Giriş Binnur Kurt, H. Tahsin Demiral, Muhittin Gökmen İstanbul Teknik Üniversitesi, Bilgisayar Mühendisliği Bölümü, Maslak, 80626 İstanbul {kurt,demiral,gokmen}@cs.itu.edu.tr

Detaylı

Bilgisayar programlamanın üç temel mantık yapısından biridir. Diğer ikisi ise Seçilim(Selection) ve Döngü(Loop, Iteration)dür.

Bilgisayar programlamanın üç temel mantık yapısından biridir. Diğer ikisi ise Seçilim(Selection) ve Döngü(Loop, Iteration)dür. SEQUENCE ALGORİTMASI Bilgisayar programlamanın üç temel mantık yapısından biridir. Diğer ikisi ise Seçilim(Selection) ve Döngü(Loop, Iteration)dür. Bir dizi yapısı içinde, bir eylem ya da bir olay, geçmiş

Detaylı

BIP116-H14-1 BTP104-H014-1

BIP116-H14-1 BTP104-H014-1 VERİ YAPILARI VE PROGRAMLAMA (BIP116) Yazar: Doç.Dr.İ.Hakkı.Cedimoğlu SAKARYA ÜNİVERSİTESİ Adapazarı Meslek Yüksekokulu Bu ders içeriğinin basım, yayım ve satış hakları Sakarya Üniversitesi ne aittir.

Detaylı

Web Madenciliği (Web Mining)

Web Madenciliği (Web Mining) Web Madenciliği (Web Mining) Hazırlayan: M. Ali Akcayol Gazi Üniversitesi Bilgisayar Mühendisliği Bölümü Konular Giriş Bilgi Erişiminde Temel Yaklaşımlar Bilgi Erişim Modelleri Boolean model Vector space

Detaylı

Yaşanmış Tecrübe Paylaşımı Önce Test Et Sonra Kodla XP Pratiği

Yaşanmış Tecrübe Paylaşımı Önce Test Et Sonra Kodla XP Pratiği TBD 21. Ulusal Bilişim Kurultayı Sunumu Yaşanmış Tecrübe Paylaşımı Önce Test Et Sonra Kodla XP Pratiği Hasan ÖZKESER Bimar Bilgi İşlem Hizmetleri Aş. 5 Ekim 2004 ODTÜ Kültür ve Kongre Merkezi, Ankara 2004

Detaylı

FineHVAC Yeni Sürüm 9 NG ISK Tasarımı İçin Yeni Nesil Entegre Yazılım Aracı

FineHVAC Yeni Sürüm 9 NG ISK Tasarımı İçin Yeni Nesil Entegre Yazılım Aracı Tesisat Dergisi, Sayı 133, Ocak 2007 FineHVAC Yeni Sürüm 9 NG ISK Tasarımı İçin Yeni Nesil Entegre Yazılım Aracı Süleyman Kavas Makina Mühendisi 4M Teknik Yazılım Ltd. Şti. 1. Giriş FineHVAC ISK (Isıtma,

Detaylı

Yazılım Mühendisliği Bölüm - 3 Planlama

Yazılım Mühendisliği Bölüm - 3 Planlama 1 Yazılım Mühendisliği Bölüm - 3 Planlama 2 3 4 Planlama 5 Yazılım geliştirme sürecinin ilk aşaması Başarılı bir proje geliştirebilmek için projenin tüm resminin çıkarılması işlemi Proje planlama aşamasında

Detaylı

Temel ve Uygulamalı Araştırmalar için Araştırma Süreci

Temel ve Uygulamalı Araştırmalar için Araştırma Süreci BÖLÜM 8 ÖRNEKLEME Temel ve Uygulamalı Araştırmalar için Araştırma Süreci 1.Gözlem Genel araştırma alanı 3.Sorunun Belirlenmesi Sorun taslağının hazırlanması 4.Kuramsal Çatı Değişkenlerin açıkça saptanması

Detaylı

Dosya Sıkıştırma (File Compression) Kütük Organizasyonu 1

Dosya Sıkıştırma (File Compression) Kütük Organizasyonu 1 Dosya Sıkıştırma (File Compression) Kütük Organizasyonu İçerik Dosya sıkıştırma nedir? Dosya sıkıştırma yöntemleri nelerdir? Run-Length Kodlaması Huffman Kodlaması Kütük Organizasyonu 2 Dosya Sıkıştırma

Detaylı

Frekans Seçici Kanallarda Çalışan Yukarı Link MC-CDMA Sistemleri için EM Tabanlı Birleşik Bilgi Sezim ve Kanal Kestirim Yöntemi

Frekans Seçici Kanallarda Çalışan Yukarı Link MC-CDMA Sistemleri için EM Tabanlı Birleşik Bilgi Sezim ve Kanal Kestirim Yöntemi IEEE 15. Sinyal İşleme ve İletişim Uygulamaları Kurultayı - 2007 Frekans Seçici Kanallarda Çalışan Yukarı Link MC-CDMA Sistemleri için EM Tabanlı Birleşik Bilgi Sezim ve Kanal Kestirim Yöntemi Erdal Panayırcı

Detaylı

BĠYOLOJĠ EĞĠTĠMĠ LĠSANSÜSTÜ ÖĞRENCĠLERĠNĠN LĠSANSÜSTÜ YETERLĠKLERĠNE ĠLĠġKĠN GÖRÜġLERĠ

BĠYOLOJĠ EĞĠTĠMĠ LĠSANSÜSTÜ ÖĞRENCĠLERĠNĠN LĠSANSÜSTÜ YETERLĠKLERĠNE ĠLĠġKĠN GÖRÜġLERĠ 359 BĠYOLOJĠ EĞĠTĠMĠ LĠSANSÜSTÜ ÖĞRENCĠLERĠNĠN LĠSANSÜSTÜ YETERLĠKLERĠNE ĠLĠġKĠN GÖRÜġLERĠ Osman ÇİMEN, Gazi Üniversitesi, Biyoloji Eğitimi Anabilim Dalı, Ankara, osman.cimen@gmail.com Gonca ÇİMEN, Milli

Detaylı