Ebat: px
Şu sayfadan göstermeyi başlat:

Download "http://alikoker.name.tr"

Transkript

1 ÖZET...4 TEŞEKKÜR VERİ MADENCİLİĞİ Veri Madenciliğinde Karşılaşılan Problemler Veritabanı Boyutu Gürültülü Veri Boş Değerler Eksik Veri Artık Veri Dinamik Veri Farklı tipteki verileri ele alma Veri Madenciliği Algoritmaları Hipotez Testi Sorgusu Sınıflama Sorgusu Güdümsüz Gruplama Sorgusu Ardışık Örüntüler Eşleştirme Sorgusu Eşleştirme Algoritmaları METİN VERİ MADENCİLİĞİ Metin Verilerinin İncelenmesi ve Enformasyonun Çıkartılması Metin Verilerinin Çözümlenmesi ve Bilgi Çıkarımı Metin Çıkartımı İçin Temel Ölçümler Anahtar Kelime ve Benzerlik Tabanlı Bilgi Çıkartımı Metin Verilerinin Heterojenliği METİN SINIFLANDIRMA Metin Madenciliğinin Ön Aşamaları ve Sınıflama Ayrıştırma Durdurma Kelimelerinin Çıkarılması Gövdeleme Metin Gösterimi Vektör Uzayı Modeli Boyut Küçültme Özellik Seçimi Doküman Frekans Eşikleme Bilgi Kazanımı Yöntemi χ2 (chi kare) İstatistiği Yeniden Değiştirgeleme Ağırlıklandırma Boole Ayırma Kelime Frekans Ağırlıklandırma tf x idf Ağırlıklandırma (Term Frequency x Inverse Document Frequency) tfc-ağırlıklandırma (Term Frequency Component) ltc Ağırlıklandırma (Logarithmic Term Component) Metin Madenciliği Algoritmaları Rocchio Algoritması Naive Bayes Karar Ağacı Ağacı Oluşturma (CART) Ağacın Budanması Destek Yöney Makineleri Ayrılabilir Durumlarda Destek Yöney Makineleri Ayrılamaz Durumlarda Destek Yöney Makineleri Bayesian Ağları

2 4 KÜMELEME ANALİZİ Kümeleme Analizi Uygulamaları Kümeleme Analizinde Veri Tipleri Aralık Ölçekli Değişkenler İkili Değişkenler Nominal (ada bağlı), Ordinal (sıraya bağlı) ve Ondalıklı Değişkenler Karışık Tipteki Değişkenler Ana Kümeleme Yöntemlerinin Kategorilendirilmesi Bölümlendirme Metodu Klasik Bölümlendirme Metotları: k-means, k-medoids Büyük Veritabanlarında k-medoid ten CLARA ya Grid Temelli Metodlar STING (Statistical Information Grid- İstatiksel Bilgi Grid) WaveCluster: Wavelet Dönüşümü Kullanarak Kümeleme CLIQUE (Clustering High-Dimensional Space- Yüksek Boyutlu Alanda Kümeleme) Model Tabanlı Kümeleme Metodları İstatistiksel Yaklaşım Sıradışılık Analizi İstatistiksel Tabanlı Sıradışılık Denetimi Uzaklık-tabanlı Sıradışılık Denetimi Sapma Tabanlı Sıradışılık Denetimi OTOMATİK HABER METİNLERİ SINIFLANDIRMA UYGULAMASI Önerilen Sistem Kullanılan Parser ve Gerekliliği Karar mekanizmasında kullanılan yöntemler Destekleyici Öğrenme (Learning Vector Quantization-LVQ) Naive Bayes Vektörel metinlerde boyut azaltma çalışmaları Principle Component Anaysisl(PCA) Informaiton Gain(IG) Uygulama Sonuçları Sonuç...63 KAYNAKÇA

3 ÖZET İletişim ve bilgisayar teknolojilerindeki gelişmeler, veri toplamak için bilgi teknolojilerinin daha çok ve daha yaygın bir şekilde kullanılmasına, bu yolla toplanan verilerde inanılmaz bir artışa neden olmuştur. Varolan verilerden bilgiyi elde etmeye geniş çapta ihtiyaç duyulmuştur. Bu ihtiyacı gidermek için araştırma kurumları ve üniversiteler çalışmalarıyla yeni disiplinler ortaya çıkarmıştır. Veri madenciliği bu yeni disiplinlerden biridir. Veri madenciliğinin veri tabanları üzerine uygulanmasıyla Veri Tabanında Bilgi Keşfi (VTBK) ortaya çıkmıştır. Veri seçimi, veri temizleme, veri ön işleme, veri indirgeme, veri madenciliği algoritmasının uygulanması ve sonuçların değerlendirilmesi VTBK yi oluşturan basamaklardır. Veri madenciliği üzerindeki eski çalışmalar ilişkisel, görev ile ilişkili ve veri ambarı gibi yapısal veriler üzerine yoğunlaşmıştır. Ancak, WWW de inanılmaz gelişmeler sonucu gerçekte elde edilebilir bilginin büyük bir çoğunluğu metin veri tabanları üzerinde saklanmaktadır. Bu veri tabanları, makaleler, araştırma yazıları, kitaplar, sayısal kütüphaneler, e-posta mesajları ve web sayfaları gibi çeşitli kaynaklardan, büyük ölçekli doküman koleksiyonlarından oluşmaktadır. Geleneksel bilgi kazanım teknikleri, metin verilerinden bilgi çıkarımında etkisiz kalmış ve bunun sonucu olarak da metin veri madenciliği çalışmaları hızla yayılmıştır. Anahtar Kelimeler: Metin madenciliği, metin sınıflandırma algoritmaları, metin kümeleme. 4

4 TEŞEKKÜR Proje hazırlama çalışmalarım sırasındaki yönlendirici önerilerinden ve gerekli kaynak teminindeki katkılarından, ayrıca kaliteli bir Yüksek Lisans Eğitimi almama vesile olan Proje Danışmanım Sayın Dr. Yalçın ÖZKAN a teşekkür ederim. Ek olarak, eğitim dönemindeki ve proje hazırlamam esnasında bana her türlü manevi desteği veren eşim ve çocuklarıma minnettarım. 5

5 GİRİŞ Veri Madenciliği, önceden öngörülemeyen ve saklı durumdaki değerli bilgi ya da bilgilerin, eldeki verilerden, matematiksel yöntemler ile süzülerek, anlamlı şekilde ortaya çıkarılması sürecidir. Bilişim teknolojisinin gelişmediği yıllarda insanlar sınırlı sayıdaki basılı kaynak arasında, kütüphanelerde yazar adı, konu ve kitap başlığına göre arama yapabilirken, günümüzün bilgileri daha çok sayısal metinler olarak saklanmaya doğru yöneldiğinden, bilgi saklama ve bilgiye erişim daha farklı, daha çok seçenek sunabilen ve daha karmaşık bir hal almıştır. Sayısal dokümanların miktarının artmasının nedenleri; Hızla gelişen teknoloji sayesinde, kağıt üzerindeki metinlerin sayısal ortamlara geçirilmesi kolaylaşmış, kelime işlemcilerin üstün yetenekleri sayesinde dokümanların sayısal olarak hazırlanması ve saklanması yaygınlaşmış ve İnternet in popüler olması, bu dokümanların paylaşılmalarını arttırmıştır. İnternet teki ve diğer sayısal ortamlardaki bilgiler hızla çoğaldıkça, insanların bu bilgileri daha iyi düzenleme, bilgilere daha kolay ulaşma ve aradığı bilgiyi daha çabuk bulma ihtiyacı da artar. Çünkü fazlalaşan dokümanlar, kullanıcının aradığı bilgiye ulaşmasını zorlaştırır. Bu problemi ortadan kaldırmak için, bilgisayarın yeteneklerinden ve bilgisayar biliminin bir alt dalı olan bilgi erişimi yöntemlerinden faydalanılır (Bolat 2003). Bilgi erişimi yöntemleri, bilgisayar biliminin yapay zeka, çoklu ortam sistemleri, paralel hesaplama gibi alt dallarını kullanır. Metin Madenciliği, bir sistem yardımıyla kullanıcı ihtiyaçlarının bir sorgu şeklinde alınması ve çok sayıda metin dokümanı olan bir veri tabanı içinden dokümanların kullanıcı isteklerine olan benzerliklerine göre sıralanmış bir liste halinde sunulması işlemidir. Günümüzün arama motorları metin erişimine örnek olarak verilebilir. 6

6 1 VERİ MADENCİLİĞİ Bilgi teknolojilerindeki gelişme, bilgisayarların ve otomatik veri toplama araçlarının geniş bir alanda uygulanmasını sağlamıştır. Yaygın bilgisayar kullanımı sonucunda, çeşitli ortamlarda ve/veya biçimlerde çok büyük ölçekli işletimsel veri birikmiştir. Büyüme işlevleri cinsinden ifade edecek olursak, veri saklama kapasitesi her 9 ayda bir tahmini ikiye katlanmaktadır. Buna karşılık ise, aynı periyotta, Moore kanununa göre hesaplama gücü iki kat daha az büyümektedir. Bu aradaki fark, veriyi yakalama ve saklama oranının onu işleme ve kullanma yeteneğimizi/oranını çoktan geçtiğini göstermektedir. Bir başka deyişle, bir kısım veri nihai olarak bir daha hiç erişilmemek/işlenmemek üzere saklanabilir ki bu durum daha çok veritabanının dışsal boyutu, yani varlıkların ya da nesnelerin sayıları, ile ilgilidir. Sorun, yalnızca, veri yakalama/saklama kapasitesinin ve hesaplama gücünün büyüme oranları arasındaki teknolojik boyutlu üssel fark değildir. Örnek olarak, verinin dışsal ve içsel boyutu ile ilgili mutlak rakamlar verelim. Astronomi veritabanlarında tutanak sayısı lere ulaşırken, sağlık sektöründeki uygulamalarda öznitelik sayısı 10 2 ila 10 3 arasında değişmektedir (Sever vd. 2002). Veritabanının içsel boyutu ile kastedilen, veri sözlüğü ile ilişkilidir; yani, varlıkların tanımı ve veri hacmindeki büyüme oranı her ikisinin ortasında seyretmektedir. 90 ların başında yapılan bir tahmine göre büyüme oranı her bir 20 ayda ikiye katlanmaktadır. Buna karşılık, Internetteki web sayfalarındaki ve sunucu bilgisayarlarındaki artış oranlarına baktığımızda, 90 ların sonu itibariyle rakamlar her bir yılda ikiye katlamaktadır. İşletimsel kaygılardan yola çıkılarak tanımlanmış öz niteliklerin yeniden bilgi keşfetme açısından düzenlenmesi de günümüz veritabanı teknolojilerinin önündeki en büyük meydan okumalardan birisidir. Gerek bilimsel veritabanlarında gerekse de günlük iş aktiviteleri etrafında modellenmiş ticari veritabanlarında bu çok büyük hacimli verilerin analizi alan uzmanlarının kapasitesini çoktan aşmıştır. Bu nedenle gerçek hayat verilerinin otomatik veya yarı otomatik tekniklerle kullanıcı açısından ilginç ve önemli bilgilere dönüştürülmesi ihtiyacı doğmuştur ki bu, bugünün veritabanı yönetim sistemlerinin tipik işlevleriyle gerçekleştirilemez. Bunun en önemli nedeni VTYS ler çevrimiçi oturum işleme (ÇOİ - On Line Transaction Processing, OLTP) göz önünde bulundurularak geliştirilmişlerdir. İşletimsel veri tabanı (VT) üzerinde konuşlanan ÇOİ tipikçe kısa süre gerektiren (örneğin, saniyede 10 lar veya 100 ler mertebesinde işlenebilen oturumlar) ve yapısal ve kodlama bilgisi bilinen alanlara (örneğin, ad/soyad, tarih, ısmarlama no, vs.) göre akort edilmişlerdir. Burada söz konusu olan, oturumların aşağıdakileri sağlamasıdır: (a) ya gerçekleşti ya da gerçekleşmedi (atomik) işlemi, (b) önceki tutarlılığın oturum sonucunda korunması, (c) işlem bir kere istendiğinde sonuç değişikliklerin sürekli olması, (d) izole olması, ve (e) eş zamanlı oturumların veri tabanına etkisinin serileştirilebilir olması. Gerçekte, veri analizini konu alan karar destek uygulamaları, doğası gereği ne kısa süreli olması ne de yapısal bilgileri kullanması gerekmektedir. Bunun ötesinde, karar destek uygulamaları için işletimsel veriler tek başlarına yeterli değillerdir ki bunlar dış veri kaynakları ile birleştirilir. Bu bağlamda birleşik VTYS lerin tek bir küresel sorgu cümlesi ile sorgulanması için oluşturulan birleştirilmiş kavramsal şema 7

7 ile ilgili zorluklar ve meydan okuyucu noktalar karar destek modellerinin oluşturulması esnasında da geçerlidir (Sever vd. 2002). Literatürde, işletimsel veri içinden faydalı örüntülerin bulunması işlemine pek çok terim karşılık gelmektedir. Bunlardan birkaçı veritabanlarında bilgi keşfi (VTBK - Knowledge Discovery From Databases), veri madenciliği (Data Mining), bilgi harmanlama (Information Harvesting) dır. Yeni gelişmekte olan her araştırma dalında olduğu gibi, VTBK nın tanımı ve faaliyet alanının ne olacağı konusunda farklı görüşler vardır. Bazı kaynaklara göre; VTBK daha geniş bir disiplin olarak görülmektedir ve veri madenciliği terimi sadece bilgi keşfi metodlarıyla uğraşan VTBK sürecinde yer alan bir adımdır. VTBK sürecinde yer alan adımlar şöyledir(sever vd.2002): 1 Veri Seçimi (Data Selection): Bu adım birkaç veri kümesini birleştirerek, sorguya uygun örneklem kümesini elde etmeyi gerektirir. 2 Veri Temizleme ve Önişleme (Data Cleaning & Preprocessing): Seçilen örneklemde yer alan hatalı tutanakların çıkarıldığı ve eksik nitelik değerlerinin değiştirildiği aşamadır. Bu aşama keşfedilen bilginin kalitesini arttırır. 3 Veri İndirgeme (Data Reduction): Seçilen örneklemden ilgisiz niteliklerin atıldığı ve tekrarlı tutanakların ayıklandığı adımdır. Bu aşama seçilen veri madenciliği sorgusunun çalışma zamanını iyileştirir. 4 Veri Madenciliği (Data Mining): Verilen bir veri madenciliği sorgusunun (sınıflama, güdümsüz öbekleme, eşleştirme, vb.) işletilmesidir. 5 Değerlendirme (Evaluation): Keşfedilen bilginin geçerlilik, yenilik, yararlılık ve basitlik kıstaslarına göre değerlendirilmesi aşamasıdır. 6 VTBK sistemlerinde kullanılan veri çevrimiçi veya çevrimdışı işletimsel veridir. İşletimsel veri organizasyonel aktiviteler düşünülerek düzenlenir ve normalleştirilir. Bu bilgi keşfi süreci için gerekli verilerin ya bir arada bulunmamasına, ya hiç tutulmamasına ya da ilgili veri içeriğinin birden fazla yorumlanmasına yol açar. Bu yüzden bilgi keşfi açısından işletimsel veri ister çevrimiçi ister çevrimdışı olsun işlenmemiş/ham veri olarak kabul edilir. Şekil 1.1 de VTBK sürecinde yer alan adımlar gösterilmiştir(sever vd. 2002). 8

8 Şekil 1.1: VTBK Adımında Yer Alan Süreçler Veri Madenciliği için yapılan diğer tanımlardan bir kaçı şöyledir: Önceden bilinmeyen ve potansiyel olarak faydalı olabilecek, veri içinde gizli bilgilerin çıkarılmasına veri madenciliği denir. Diğer bir tanım ise, veri madenciliği, büyük veri kümesi içinde saklı olan genel örüntülerin ve ilişkilerin bulunmasıdır. Aktif araştırma alanlarından biri olan veri tabanlarında bilgi keşfi disiplini (VTBK), çok büyük hacimli verileri tam ya da yarı otomatik bir biçimde analiz eden yeni kuşak araç ve tekniklerin üretilmesi ile ilgilenen son yılların gözde araştırma konularından biridir. VTBK, veri seçimi, veri temizleme ve ön işleme, veri indirgeme, veri madenciliği ve değerlendirme aşamalarından oluşan bir süreçtir. Veri Madenciliği, önceden bilinmeyen, veri içinde gizli, anlamlı ve yararlı örüntülerin büyük ölçekli veritabanlarından otomatik biçimde elde edilmesini sağlayan VTBK süreci içinde bir adımdır (Sever vd. 2002). Veri madenciliği, makina öğrenimi, istatistik, veritabanı yönetim sistemleri, veri ambarlama, koşut programlama gibi farklı disiplinlerde kullanılan yaklaşımları birleştirmektedir. Makina öğrenimi, istatistik ve veri madenciliği arasındaki yakın bağ kolaylıkla görülebilir. Bu üç disiplin veri içindeki ilginç düzenlilikleri ve örüntüleri bulmayı amaçlar. Makina öğrenimi yöntemleri veri madenciliği algoritmalarında kullanılan yöntemlerin çekirdeğini oluşturur. Makina öğreniminde 9

9 kullanılan karar ağacı, kural tümevarımı pek çok veri madenciliği algoritmasında kullanılmaktadır. Makina öğrenimi ile veri madenciliği arasında benzerliklerin yanısıra farklılıklar da göze çarpmaktadır. Öncelikle veri madenciliği algoritmalarında kullanılan örneklem boyutu, makina öğreniminde kullanılan veri boyutuna nazaran çok büyüktür. Genellikle makina öğreniminde kullanılan örneklem boyu 100 ile 1000 arasında değişirken veri madenciliği algoritmaları milyonlarca gerçek hayat nesneleri üzerinde uğraşmaktadır ki bunların karakteristiği boş (boş), artık, eksik, gürültülü değerler olarak belirlenebilir. Aynı zamanda veri madenciliği algoritmaları bilgi keşfetmeye uygun nesne niteliklerinin elde edilme sürecindeki karmaşıklıkla baş etmek zorundadır(sever vd. 2002). Olasılıksal veri nedenlemede veri madenciliği, istatistik alanındaki bir çok metodu kullanmasına rağmen, nesnelerin nitelik ve değerlerine bağlı çıkarsama yapmada bilinen istatistiksel metodlardan ayrılmaktadır. Örneğin, x-kare veya t testi gibi istatistiksel test yöntemleri birden fazla nitelik arasında korelasyon derecesini belirli bir güvenlik arasında verebilmesine karşılık, belirli nitelik değerleri arasındaki ilişkinin derecesini açığa çıkaramazlar. İstatistiksel yöntemler karar verme mekanizmasında veri madenciliği disiplini ortaya çıkmadan önce çok sık kullanılırdı. Ancak bu yöntemlerin kullanım zorluğu (uzman kişileri tutma/başvurma), veri madenciliği algoritmalarının uygulama kolaylılığı ile karşılaştırıldığında, veri nedenleme sürecindeki en güç adımı oluşturuyordu. Veritabanı yönetim sistemleri (VTYS) büyük miktardaki yapısal bilgiyi saklama ve etkin bir biçimde erişim sağlamakla yükümlüdür. VTYS lerde veri düzenlemesi, ilgili organizasyonun işletimsel veri ihtiyacı doğrultusunda gerçekleştirilir ki bu her zaman bilgi keşfi perspektifi ile bire-bir çakışmaz. Bu açıdan veritabanındaki veriler temizleme, boyut indirgeme, transfer, vb. işlemlerinden geçirilerek veri madenciliği kullanımına sunulurlar. veri madenciliği teknikleri ayrı araç olarak sağlanabileceği gibi bir VTYS ile de entegre olabilirler. Örneğin, veri kileri, çevrim içi analitik işleme ya da kısaca OLAP. Veri madenciliğinde analitik modelleme, öngörüsel modelleme, tanımsal modelleme, OLAP, sorgulama ve raporlama gibi aşamalardan oluşturulabilir. 10

10 Şekil 1.2 Modelleme Aşamaları 1.1 Veri Madenciliğinde Karşılaşılan Problemler Küçük veri kümelerinde hızlı ve doğru bir biçimde çalışan bir sistem, çok büyük veritabanlarına uygulandığında tamamen farklı davranabilir. Bir veri madenciliği sistemi, tutarlı veri üzerinde mükemmel çalışırken, aynı veriye gürültü eklendiğinde kayda değer bir biçimde kötüleşebilir. İzleyen kesimde günümüz veri madenciliği sistemlerinin karşı karşıya olduğu problemler incelenecektir Veritabanı Boyutu Veritabanı boyutları inanılmaz bir hızla artmaktadır. Pek çok makina öğrenimi algoritması bir kaç yüz tutanaklık oldukça küçük örneklemleri ele alabilecek biçimde geliştirilmiştir. Aynı algoritmaların yüz binlerce kat büyük örneklemlerde kullanılabilmesi için çok büyük dikkat gerekmektedir. Örneklemin büyük olması, örüntülerin gerçekten var olduğunu göstermesi açısından bir avantajdır ancak böyle bir örneklemden elde edilebilecek olası örüntü sayısı çok büyüktür. Bu yüzden veri madenciliği sistemlerinin karşı karşıya olduğu en önemli sorunlardan biri veritabanı boyutunun çok büyük olmasıdır. Dolayısıyla veri madenciliği yöntemleri ya sezgisel/buluşsal bir yaklaşımla arama uzayını taramalıdır ya da örneklemi yatay/dikey olarak indirgemelidir. Yatay indirgeme çeşitli biçimlerde gerçekleştirilebilir. İlkinde, belirli bir niteliğin alan değerleri önceden sıradüzensel olarak sınıflandırılır (ya da kategorize edilir) ki buna genelleştirme işlemi de denilmektedir. Sonrasında ise, ilgili niteliğin değerleri önceden belirlenmiş genelleme sıradüzeninden aşağıdan yukarıya doğru seviye seviye günlenir (yani, üst nitelik değeri ile değiştirilir) ve tekrarlı çoklular çıkarılır (Sever vd. 2002). İkincisinde, oldukça sağlam olan örnekleme kuramı kullanılarak çok 11

11 büyük hacimli veri öyle bir boyuta indirgenir ki hem kaynak veri belirli bir güven aralığında temsil edebilir hem de indirgenen veri kümesinin hacmi makine öğrenimi algoritmalarınca işlenebilir olması olurlu olabilir. Sonuncusunda ise, sürekli değerlerden oluşan bir alana sahip nitelik üzerine kesikleştirme tekniğinin uygulanmasıdır. Sürekli değerlerin belirli aralık değerlerine dönüştürülmesi ile tekrarlılık arz eden çoklular ortadan kaldırılarak yatay indirgeme sağlanabilir. Aslında bu kesikleştirme tekniği, sürekli sayısal değerler için geçerli olmıyan makine öğrenim algoritmaları için bir önkoşul ya da ön işlemedir ki bu konu ayrı bir alt başlık olarak verilecektir. Dikey indirgeme, artık niteliklerin indirgenmesi işlemidir ki bu artık işleme alt başlığında tartışılacaktır Gürültülü Veri Büyük veritabanlarında pek çok niteliğin değeri yanlış olabilir. Bu hata, veri girişi sırasında yapılan insan hataları veya girilen değerin yanlış ölçülmesinden kaynaklanır. Veri girişi ya da veri toplanması sırasında oluşan sistem dışı hatalara gürültü adı verilir. Ancak günümüzde kullanılan ticari ilişkisel veritabanları veri girişi sırasında oluşan hataları otomatik biçimde gidermek konusunda az bir destek sağlamaktadır. Hatalı veri gerçek dünya veritabanlarında ciddi problem oluşturabilir. Bu durum, bir veri madenciliği yönteminin kullanılan veri kümesinde bulunan gürültülü verilere karşı daha az duyarlı olmasını gerektirir. Gürültülü verinin yol açtığı problemler tümevarımsal karar ağaçlarında uygulanan metodlar bağlamında kapsamlı bir biçimde araştırılmıştır (Sever vd. 2002). Eğer veri kümesi gürültülü ise sistem bozuk veriyi tanımalı ve ihmal etmelidir. Quinlan, gürültünün sınıflama üzerindeki etkisini araştırmak için bir dizi deney yapmıştır. Deneysel sonuçlar, etiketli öğrenmede etiket üzerindeki gürültü öğrenme algoritmasının performansını doğrudan etkileyerek düşmesine sebeb olmuştur. Buna karşın eğitim kümesindeki nesnelerin özellikleri/nitelikleri üzerindeki en çok %10 luk gürültü miktarı ayıklanabilmektedir. Gürültünün etkisini analiz etmek için istatiksel yöntemler kullanmışlardır Boş Değerler Bir veritabanında boş değer, birincil anahtarda yer almayan herhangi bir niteliğin değeri olabilir. Boş değer tanımı gereği kendisi de dahil olmak üzere hiç bir değere eşit olmayan değerdir. Bir çokluda eğer bir nitelik değeri boş ise o nitelik bilinmeyen ve uygulanamaz bir değere sahiptir. Bu durum ilişkisel veritabanlarında sıkça karşımıza çıkmaktadır. Bir ilişkide yer alan tüm çoklular aynı sayıda niteliğe, niteliğin değeri boş olsa bile, sahip olmalıdır. Örneğin kişisel bilgisayarların özelliklerini tutan bir ilişkide bazı model bilgisayarlar için ses kartı modeli niteliğinin değeri boş olabilir. Lee, boş değeri, (1) bilinmeyen, (2) uygulanamaz, ve (3) bilinmeyen veya uygulanamaz olacak biçimde üçe ayıran bir yaklaşımı ilişkisel veritabanlarını genişletmek için öne sürmüştür. Mevcut boş değer taşıyan veri için herhangi bir çözüm sunmayan bu yaklaşımın dışında bu konuda sadece bilinmeyen değer üzerinde çalışmalar yapılmıştır. Boş değerli nitelikler veri kümesinde bulunuyorsa, ya bu çoklular tamamıyla ihmal edilmeli ya da bu çoklularda niteliğe olası en yakın değer atanmalıdır(sever vd. 2002). 12

12 1.1.4 Eksik Veri Evrendeki her nesnenin ayrıntılı bir biçimde tanımlandığı ve bu nesnelerin alabileceği değerler kümesinin belirli olduğu varsayılsın. Verilen bir bağlamda her bir nesnenin tanımı kesin ve yeterli olsa idi, sınıflama işlemi basitçe nesnelerin alt kümelerinden faydalanılarak yapılırdı. Bununla birlikte, veriler kurum ihtiyaçları gözönünde bulundurularak düzenlenip, toplandığından, mevcut veri gerçek hayatı yeterince yansıtmayabilir. Örneğin hastalığın tanısını koymak için kurallar sadece çok yaşlı insanların belirtilerinin bulunduğu bir veri kümesi kullanılarak üretilseydi, bu kurallara dayanarak bir çocuğa tanı koymak pek doğru olmazdı. Bu gibi koşullarda bilgi keşfi modeli belirli bir güvenlik (ya da doğruluk) derecesinde tahmini kararlar alabilmelidir (Sever vd. 2002) Artık Veri Verilen veri kümesi, eldeki probleme uygun olmayan veya artık nitelikler içerebilir. Bu durum pek çok işlem sırasında karşımıza çıkabilir. Örneğin, eldeki problem ile ilgili veriyi elde etmek için iki ilişkiyi ortak nitelikler üzerinden birleştirirsek sonuç ilişkide kullanıcının farkında olmadığı artık nitelikler bulunur. Artık nitelikleri elemek için geliştirilmiş algoritmalar özellik seçimi olarak adlandırılır (Sever vd. 2002). Özellik seçimi, tümevarıma dayalı öğrenmede budama öncesi yapılan bir işlemdir. Başka bir deyişle, özellik seçimi, verilen bir ilişkinin içsel tanımını, dışsal tanımın taşıdığı (veya içerdiği) bilgiyi bozmadan onu eldeki niteliklerden daha az sayıdaki niteliklerle (yeterli ve gerekli) ifadeleyebilmektir. Özellik seçimi yalnızca arama uzayını küçültmekle kalmayıp, sınıflama işleminin kalitesini de arttırır Dinamik Veri Kurumsal çevrim-içi veritabanları dinamiktir, yani içeriği sürekli olarak değişir. Bu durum, bilgi keşfi metodları için önemli sakıncalar doğurmaktadır. İlk olarak sadece okuma yapan ve uzun süre çalışan bilgi keşfi metodu bir veritabanı uygulaması olarak mevcut veri tabanı ile birlikte çalıştırılırdığında mevcut uygulamanın da performansı ciddi ölçüde düşer. Diğer bir sakınca ise, veritabanında bulunan verilerin kalıcı olduğu varsayılıp, çevrimdışı veri üzerinde bilgi keşif metodu çalıştırıldığında, değişen verinin elde edilen örüntülere yansıması gerekmektedir. Bu işlem, bilgi keşfi metodunun ürettiği örüntüleri zaman içinde değişen veriye göre sadece ilgili örüntüleri yığmalı olarak günleme yeteneğine sahip olmasını gerektirir. Aktif veritabanları tetikleme mekanizmalarına sahiptir ve bu özellik bilgi keşif metodları ile birlikte kullanılabilir (Sever vd. 2002). Bir ilişki (ya da veri kümesi), içsel ve dışsal olmak üzere iki şekilde tanımlanabilir. İçsel tanım ilişkinin özellikleri ve dışsal tanım varlıkları ile ilgilidir. Örneğin, bir kitap ilişkisinin içsel tanımını K ile ve dışsal 13

13 tanımını i ile gösterelim. O zaman, K(Başlık, Yazarlar, Yayıncı, Yıl, Adres, ISBN) şeması içsel tanımı, ve <Türkçe Arama Motorlarında Performans Değerlendirme, {Y. Tonta, Y. Bitirim, H. Sever}, Total Bilişim, 2002, Ankara, > varlığı i(k) ilişkisinin bir üyesi olarak görülebilir Farklı tipteki verileri ele alma Gerçek hayattaki uygulamalar makina öğreniminde olduğu gibi yalnızca sembolik veya kategorik veri türleri değil, fakat aynı zamanda tamsayı, kesirli sayılar, çoklu ortam verisi, coğrafik bilgi içeren veri gibi farklı tipteki veriler üzerinde işlem yapılmasını gerektirir. Kullanılan verinin saklandığı ortam, düz bir kütük veya ilişkisel veritabanında yer alan tablolar olacağı gibi, nesneye yönelik veritabanları, çoklu ortam veritabanları, coğrafik veritabanları vb. olabilir. Saklandığı ortama göre veri, basit tipte olabileceği gibi karmaşık veri tipleri (çoklu ortam verisi, zaman içeren veri, yardımlı metin, coğrafik, vb.) de olabilir. Bununla birlikte veri tipi çeşitliliğinin fazla olması bir veri madenciliği algoritmasının tüm veri tiplerini ele alabilmesini olanaksızlaştırmaktadır. Bu yüzden veri tipine özgü adanmış veri madenciliği algoritmaları geliştirilmektedir. 1.2 Veri Madenciliği Algoritmaları Veri madenciliği süreci sonunda elde edilen örüntüler kurallar biçiminde ifade edilir. Elde edilen kurallar, (1) koşul yan tümcesi ile sonuç arasındaki eşleştirme derecesini gösterir (if <koşul tümcesi>, then <sonuç>, derece (0..1)), ya da (2) veriyi önceden tanımlanmış sınıflara bölüntüleyebilir ya da (3) veriyi bir takım kriterlere göre sonlu sayıda kümeye ayırır. Bu kurallar veri üzerinde belirli bir tekniğin (algoritmanın) sonlu sayıda yinelenmesiyle elde edilir. Elde edilen bilginin kalitesi veri analizi için kullanılan algoritmaya büyük ölçüde bağlıdır. Veri madenciliği algoritmaları iki grupta toplanabilir (Sever vd. 2002). Bunlar doğrulamaya dayalı algoritmalar ve keşfe dayalı algoritmalardır. Doğrulamaya dayalı veri madenciliği algoritmasında, kullanıcı bir hipotez öne sürer ve sistem bu hipotezi kanıtlamaya çalışır. Doğrulamaya dayalı veri madenciliği algoritmalarının en yaygın olarak kullanıldığı yerler, istatiksel ve çokboyutlu analizlerdir. Öte yandan keşfe dayalı algoritmalar otomatik olarak yeni bilgi çıkarırlar. Aşağıda veri madenciliği sistemlerinde kullanılan algoritmalardan önemli olanları incelenecektir Hipotez Testi Sorgusu Hipotez testi sorgusu algoritması, doğrulamaya dayalı bir algoritmadır. Bir hipotez öne sürülür ve seçilen veri kümesinde hipotez doğruluğu test edilir. Öne sürülen hipotez genellikle belirli bir örüntünün veritabanındaki varlığıyla ilgili bir tahmindir (Sever vd. 2002). Bu tip bir analiz özellikle keşfedilmiş bilginin genişletilmesi veya rötuşlanması işlemleri sırasında yararlıdır. 14

14 Hipotez ya mantıksal bir kural ya da mantıksal bir ifade ile gösterilir. Her iki biçimde de seçilen veritabanındaki nitelik alanları kullanılır. X ve Y birer mantıksal ifade olmak üzere IF X THEN Y biçiminde bir hipotez öne sürülebilir. Verilen hipotez seçilen veritabanında doğruluk ve destek kıstasları baz alınarak sistem tarafından sınanır Sınıflama Sorgusu Sınıflama sorgusu, yeni bir veri elemanını daha önceden belirlenmiş sınıflara atamayı amaçlar (Sever vd. 2002). Veritabanında yer alan çoklular bir sınıflama fonksiyonu yardımıyla kullanıcı tarafından belirlenmiş ya da karar niteliğinin bazı değerlerine göre anlamlı ayrık alt sınıflara ayırır. Bu yüzden sınıflama, denetimli öğrenmeye (supervised learning) girer. Sınıflama algoritması bir sınıfı diğerinden ayıran örüntüleri keşfeder. Sınıflama algoritmaları iki şekilde kullanılır. 1 Karar Değişkeni ile Sınıflama: Seçilen bir niteliğin aldığı değerlere göre sınıflama işlemi yapılır. Seçilen nitelik karar değişkeni adını alır ve veritabanındaki çoklular karar değişkeninin değerlerine göre sınıflara ayrılır. Bir sınıfta yer alan çoklular karar değişkeninin değeri açısından özdeştir. 2 Örnek ile Sınıflama : Bu biçimdeki sınıflamada veritabanındaki çoklular iki kümeye ayrılır. Kümelerden biri pozitif, diğeri negatif çokluları içerir. Yaygın kullanım alanları, banka kredisi onaylama işlemi, kredi kartı sahteciliği tesbiti ve sigorta risk analizidir. Koşul ve sonuç yan tümceleri kural içindeki işlevlerine göre daha önce tanımlanmıştı. Benzer şekilde, bir ilişkinin içsel tanımı (ya da şeması) koşul ve karar niteliklerce karşılıklı dışlayan bir şekilde bölütlenebilir. Böylece, dışsal tanım içindeki varlıklar karar niteliğinin alan değerlerine göre sınıflara ayrılabilir. Her bir sınıf içindeki varlıkların ortak olarak paylaştığı koşul nitelik değerleri ise, o sınıfı belirleyen özellikleri teşkil eder(sever vd. 2002) Güdümsüz Gruplama Sorgusu Gruplama (clustering) algoritması veritabanını alt kümelere ayırır. Her bir kümede yer alan elemanlar dahil oldukları grubu diğer gruplardan ayıran ortak özelliklere sahiptir. Bu yüzden kümeleme, güdümsüz öğrenmeye girer. Güdümsüz (veya etiketsiz) gruplama, güdümlü (veya etiketli) sınıflama için ön işlem olarak da çok sıkça kullanılır. Gruplama konusuna bilgi geri erişim disiplininde oldukça fazla çalışılmıştır ve bu çalışmalar gömü adı altında toplanabilir. Tipik bir bilgi geri erişim sistemi için gömü, terimlerin belli bir ilişkiye göre düzenlenmesidir. Gömü, dizinleme ve erişim hizmetlerinde terimlerin kullanımına rehberlik eder. Bu özelliği ile bir yetke kütüğü olduğu söylenebilir. Gömü ile amaçlanan; kullanıcı sorgusunu, sorguda kullanmadığı ama bilgi ihtiyacı ile ilişkili terimler ile genişletmektir. Sorgu genişletmede kullanılacak terimler gömü ile belirlenir. Böylece sorgular 15

15 kullanıcının ifade şeklinden kısmen bağımsızlaştırılır ve sorguya eklenen terimler ile daha fazla ilgili belgeye erişme imkanı ortaya çıkar. Bir gömünün performansı da dizinleme ve/veya erişim aşamasında kullanıldığı ve kullanılmadığı durumlarda anma ve duyarlılık parametrelerinin karşılaştırılması ile ölçülür. Bu alanda yapılan çalışmalar gömünün üretildiği derleme benzer derlemlerde kullanılması şartıyla anma değerinde %20 lere yaklaşan artışlar elde edilebildiğini göstermiştir (Sever vd. 2002) Ardışık Örüntüler Ardışık örüntü keşfi, bir zaman aralığında sıklıkla gerçekleşen olaylar kümelerini bulmayı amaçlar. Bir ardışık örüntü örneği şöyle olabilir: Bir yıl içinde Orhan Pamuk un Benim Adım Kırmızı romanını satın alan insanların %70 i Buket Uzuner in Güneş Yiyen Çingene adlı kitabını satın almıştır. Bu tip örüntüler perakende satış, telekomünikasyon ve tıp alanlarında yararlıdır Eşleştirme Sorgusu Eşleştirme sorguları, bir ilişkide bir niteliğin aldığı değerler arasındaki bağımlılıkları, anahtarda yer almayan diğer niteliklere göre gruplama yapılmış verileri kullanarak bulur. Bir eşleştirme kuralı örneği şöyle olabilir: Orhan Pamuk un Benim Adım Kırmızı romanını satın alan insanların %40 ı aynı alışverişte Buket Uzuner in Güneş Yiyen Çingene adlı kitabını da satın almıştır. Bu örnekten de görülebileceği gibi, sınıflama ile eşleştirme arasında çok yakın bir ilişki vardır (Ali vd.1997). Yaygın kullanım alanları katalog tasarımı, mağaza ürün yerleşim planı, müşteri kesimleme, telekomünikasyon vb. dir (Sever vd. 2002) Eşleştirme Algoritmaları Geçmiş tarihli hareketleri analiz etmek, karar destek sistemlerinde karar verme aşamasında verilen kararların kalitesini arttırmak için izlenen bir yaklaşımdır. Bununla birlikte, 1990 lı yılların başına kadar, teknik yetersizlikten dolayı, kurumlarda satış yapıldığı anda değil belirli bir zaman aralığı bazında (günlük, aylık, haftalık, yıllık) gerçekleşen satış hareketlerinin tamamına ilişkin genel veriler elektronik ortamda tutulmaktaydı. Otomatik tanıma ve veri toplama uygulamalarındaki gelişme firmaların satış noktalarında barkod/otomat kullanımını yaygınlaştırmıştır. Bu gelişme, bir harekete ait verilerin satış hareketi oluştuğu anda toplanmasına ve elektronik ortama aktarılmasına olanak tanımıştır. Genellikle büyük süpermarketlerde satış noktalarında otomat kullanımı yaygındır, bu nedenle oluşan veriye market - sepeti verisi adı verilir. Market-sepeti verisinde yer alan bir tutanakta, hareket numarası, biriciktir, hareket tarihi ve satın alınan ürünlere ilişkin veriler ( ürün kodu, miktar, fiyat ) yer alır. Başarılı kuruluşlar bu tip bilgileri içeren veritabanlarını pazarlama alt yapısının önemli parçalarından biri olarak görürler. Bu firmalar bilgi teknolojisine dayalı pazarlama sürecini, veri madenciliği ve veritabanı metodlarından faydalanarak kurumsallaştırma çabasındadır. 16

16 Market-sepeti verisi üzerinde eşleştirme kurallarının çıkarımı problemi ilk olarak 1993 yılında ele alınmıştır (Sever vd. 2002). Eşleştirme sorgusu, bir ilişkide bir niteliğin aldığı değerler arasındaki bağımlılıkları, anahtarda yer almayan diğer niteliklere göre gruplama yapılmış verileri kullanarak bulur. Keşfedilen örüntüler örneklemde sıklıkla birlikte geçen nitelik değerleri arasındaki ilişkiyi gösterir. Bir eşleştirme kuralı örneği şöyle olabilir: Ekmek ve yağ satın alınan satış hareketlerinin %90 nında süt de satın alınmıştır. Bu tür eşleştirme örüntüleri ancak, örüntüde yer alan öğelerin birden fazla harekette tekrarlandığında potansiyel olarak mevcut olabilirler. Eşleştirme kurallarının çıkarımı katalog tasarımı, müşterilerin satın alma alışkanlarına göre sınıflandırılması, mağaza ürün yerleşim planı gibi pek çok uygulama alanında kullanılabilir. Gerçek hayattaki uygulamalarda veri madenciliği teknikleri milyonlarca çoklu üzerinde uygulandığından eşleştirme sorgusu sırasında kullanılan algoritmalar hızlı olmalıdır. Diğer veri madenciliği tekniklerinde olduğu gibi, eşleştirme sorguları etkinlik, ölçeklenebilirlik, kullanılabilirlik ve anlaşılabilirlik gibi önemli ölçütleri karşılamalıdır. 17

17 2 METİN VERİ MADENCİLİĞİ Veri madenciliği üzerindeki en eski çalışmalar ilişkisel, görev ile ilişkili ve veri ambarı verileri gibi yapısal veriler üzerine yoğunlaşmıştır. Fakat gerçekte, elde edilebilir bilginin büyük bir çoğunluğu metin veri tabanları (doküman veri tabanları) üzerinde saklanmaktadır. Bu veri tabanları, makaleler, araştırma yazıları, kitaplar, sayısal kütüphaneler, e-posta mesajları ve web sayfaları gibi çeşitli kaynaklardan, geniş ölçekli doküman koleksiyonlarından oluşmaktadır. Metin veri tabanları, elektronik yayınlar, e-posta, CD_ROM lar ve internet gibi elektronik formda elde edilebilir bilgilerin artması nedeniyle çok hızlı büyümektedir (Bolat 2003). Metin veri tabanları saklanan verilerin hemen hepsi ne tamamen yapısal, ne de tamamen yapısallıktan uzak olan yarı yapısal verilerdir. Örneğin, bir doküman başlık, yazarlar, yayım tarihi, boyut, kategori vb. olmak üzere çok az yapısal alan, fakat özet ve içerik gibi büyük boyutlarda yapısal olmayan metin bileşenleri içerir. Son zamanlarda veri tabanı araştırmalarında yarı yapısal verilerin modellenmesi ve uyarlanması üzerinde geniş ölçekli çalışmalar yapılmaktadır. Daha da ötesi, yapısal olmayan verileri işlemek için metin indisleme metotları gibi bilgi kazanım teknikleri geliştirilmiştir. Geleneksel bilgi kazanım teknikleri, metin verilerinin büyük boyutlarda artışı karşısında etkisiz kalmaktadır. Tipik olarak, çoğu elde edilebilir dokumanın yalnızca küçük bir kısmı verilen kullanıcı ile ilişkili olmaktadır. Dokümanların içerisinde ne bulunabileceğini bilmeden verilerin çözümlenmesi ve kullanışlı bilginin çıkarılması için etkili sorgular oluşturmak oldukça zor olmaktadır. Kullanıcılar, farklı dokümanları karşılaştırmak, önemlerine göre derecelendirmek ve ilişki kurmak veya çoklu dokümanlar arasından örnekleri ve eğilimleri bulmak için bazı araçlara ihtiyaç duymaktadırlar. Böylece, metin madenciliği veri madenciliği içerisinde esas temayı oluşturmakta ve git gide popüler olmaktadır. Son zamanlarda elektronik olarak kullanılabilecek olan dijital bilgilerin bolluğu metinsel bilgilerin önemli bir görev içerisine organize edilmesini sağlamıştır. Metin inceleme, metin verilerinden bilginin keşfedilmesi amaçlı yeni bir teknolojidir. World Wide Web de mevcut olan sayfaların sayısının hızlı bir şekilde artışı ile, metin incelemesi enformasyonun ve bilginin yönetilmesinde anahtar bir rol oynamaya başlamıştır ve bu nedenle de gittikçe daha fazla dikkat çekmektedir (Berry 2003). 2.1 Metin Verilerinin İncelenmesi ve Enformasyonun Çıkartılması Metin Verilerinin Çözümlenmesi ve Bilgi Çıkarımı Bilgi çıkarımı nedir?. Bilgi kazanımı yıllardır veri tabanı sistemleri ile paralel olarak geliştirilmektedir. Yapısal veriler üzerinde sorgu ve işlembilgi işleme üzerine odaklanan veri tabanı sistemlerinin aksine bilgi çıkarımı organizasyon ile ilgili olup, metin tabanlı dokümanlardan bilginin çıkarılmasıdır. Tipik bir bilgi çıkartımı problemi anahtar kelimeler veya örnek dokumanlar vb. kullanıcı girişlerine bağlı olarak 18

18 ilişkili dokümanların bulunmasıdır. Tipik bilgi çıkartım sistemleri, çevrim içi kütüphane katalog sistemleri ve çevrim içi doküman yönetim sistemlerini içerir. Madem bilgi çıkartımı ve veri tabanı sistemlerinin her biri farklı tipte veriyi işlemektedirler; uyumluluk kontrolü, geri kazanım, işlembilgi yönetimi ve güncelleme gibi bazı veri tabanı sistemi problemleri, genellikle bilgi çıkartımı sistemlerinde bulunmazlar. Ayrıca yapısal olmayan dokümanlar, anahtar kelimelere bağlı olarak yaklaşıklık taraması ve anlamlılık vb. gibi bazı ortak bilgi çıkartımı problemlerine genellikle, geleneksel veri tabanı sistemlerinde rastlanmaz Metin Çıkartımı İçin Temel Ölçümler Varsayalım ki bir metin çıkartımı sistemi sorgu formundaki bir girişimize bağlı olarak birçok doküman getirmiş olsun. Peki, sistemin doğru çalışıp çalışmadığını nasıl değerlendireceğiz? Sorgu ile ilişkili doküman kümesini [Relevant] olarak ve sonuçta elde edilen dokümanları ise [Retrieved] olarak adlandıralım. Hem ilişkili hem de elde edilen dokümanları Venn şemasında görüldüğü gibi [Relevant] [Retrieved] olarak adlandıralım. Burada metin çıkarımının kalitesini değerlendirmek için iki temel ölçümümüz bulunmaktadır(nahm 2004). Hassasiyet: Sorgu ile ilişkili elde edilen dokümanların, elde edilen dokümanlara olan oranının yüzdesidir (örn. doğru sonuçlar ). [ Relevant] [ Retrieved ] [ Retrieved ] hassasiyet =. (2.1) Çağırma: Sorgu ile ilişkili elde edilen dokümanların, ilişkili olan dokümanlara olan oranının yüzdelik ifadesidir. [ Relevant] [ Retrieved ] [ Relevant] cagirma =. (2.2) Anahtar Kelime ve Benzerlik Tabanlı Bilgi Çıkartımı Bilgi çıkarımı için hangi metotlar bulunmaktadır? Tüm bilgi çıkarım sistemleri anahtar kelime tabanlı ve/veya benzerlik tabanlı çıkarımı destekler. Anahtar kelime tabanlı bilgi çıkarımında, bir doküman anahtar kelimelerden oluşan bir dizgi ile temsil edilir. Kullanıcı anahtar bir kelime veya araç ve tamirhaneler, çay ve kahve, Oracle ın haricindeki veri tabanı sistemleri gibi anahtar kelimelerden oluşan bir küme ifadesi sağlar. İyi bir bilgi çıkarım sistemi bu tür sorgularda eş anlamlı sözcükleri de dikkate almalıdır. Örneğin, araba kelimesi girildiğinde eş anlamlıları olan araç ve otomobil gibi 19

19 kelimeleri de dikkate almalıdır. Anahtar kelime tabanlı sistem iki önemli zorlukla karşı karşıya gelen basit bir sistem modelidir. Bunların ilki eş anlam problemidir: örneğin yazılım ürünü gibi anahtar bir kelime doküman gerçekten bir yazılım ürünü ile ilişkili olsa dokümanın her hangi bir bölümünde bulunmayabilir. İkicisi ise, çokanlamlılıktır; aynı kelime içerik olarak farklı anlamlarda kullanılmış olabilir. Benzerlik tabanlı çıkarım sistemleri ortak anahtar kelimeler kümesini temel alarak benzer dokümanları bulmaktadır. Bu tür bir çıkarımın çıktısı kelimelere yakınlığı, kelimelerin bağıl frekanslarını temel alan bir ölçüm ile belirlenen ilişki derecesini temel almaktadır. Çoğu durumda, anahtar kelime kümeleri arasındaki ilişkinin derecesinin hassasiyet ölçümünü belirlemek zor olmaktadır. Anahtar kelime ve benzerlik tabanlı bilgi çıkarım sistemleri nasıl çalışmaktadır?. Bir metin çıkarım sistemi bir dur listesi ile bir doküman kümesini ilişkilendirir. Bir dur listesi bir kelime kümesini konu ile ilişkisi olmayan olarak addeder. Örneğin bir, nin, için, ile gibi kelimeler sıklıkla karşılaşılmalarına rağmen dur kelimeleridir. Doküman kümeleri değiştikçe dur listeleri de değişmektedir. Örneğin veri tabanı sistemleri bir gazete içerisinde önemli bir kelime olabilir. Bununla beraber, veri tabanı sistemleri konferansında yayınlanan makaleler kümesi içerisinde bir dur kelimesi olarak değerlendirilebilir. Farklı kelimelerden oluşan bir grup, aynı kelime gövdesini paylaşabilir. Bir metin çıkarım sistemi, bir grup içerisindeki kelimelerin diğer kelimelere olan küçük söz dizimsel değişimlerinden oluşan kelimeleri tanımlama ihtiyacı duyar ve her grup için ortak kelime gövdesini derler. Örneğin, drug, drugged ve drugs kelime grubu, aynı drug kelime gövdesini paylaşmakta ve aynı kelimenin farklı bulunma durumlarını gösterebilmektedir. Bilgi çıkarımını gerçekleştirmek için bir dokümanı nasıl modelleyebiliriz? Bir d doküman kümesi ve t terim kümesi ile başlayarak, her dokümanı t boyutlu R t uzayında v vektörü ile modelleyebiliriz. v vektörünün j. koordinatı verilen dokuman için j. terimin ilişkisini ölçen bir sayıdır: bu değer eğer dokuman terimi içermiyorsa genellikle 0, içeriyorsa sıfırdan farklıdır. Bu vektörde sıfırdan farlı girişler için terim ağırlıklandırma tanımlamanın farklı yolları bulunur. Örneğin, eğer j. terime dokuman içerisinde rastlanmış ise v j = 1 olarak tanımlanır veya t i teriminin dokuman içerisinde karşılaşılma sayısı direk olarak kullanılarak v j terim frekansı, terimin karşılaşılma sayısının toplam terimlere oranı kullanılarak göreli frekans değeri olarak kullanılabilir. Veri Madenciliği veya Veri tabanlarında Bilgi Keşfi, verilerdeki yeni ve anlaşılabilir biçimlerin tanımlanması işlemidir(berry 2003). Veri inceleme yalnızca enformasyon veya kullanıcının halihazırda sormayı bildiği sorulara yanıtlar aramakla kalmaz aynı zamanda veriler içerisine gömülmüş olan derin bilgileri de keşfeder. Bunu yapmak için veri inceleme işleminde hesaplama teknikleri kullanılır, bunlar genellikle bir öğrenme algoritması biçimindedir ve verideki potansiyel olarak yararlı biçimlerin 20

20 bulunması amacını taşır. Mevcut veri inceleme yaklaşımlarının büyük bölümü verilerin ilişkisel bir tablosu içerisindeki biçimleri arar. Metin inceleme veya metin verisi inceleme, yararlı veya ilginç biçimlerin, modellerin, yönlerin, eğilimlerin veya kuralların yapılandırılmamış metinden bulunması işlemi, veri inceleme tekniklerinin metinden bilginin otomatik olarak bulunması amaçlı veri inceleme tekniklerinin uygulanmasının açıklanması amacıyla kullanılır. Genellikle metin inceleme işlemine, veri incelemenin doğal bir uzantısı olarak bakılır (Nahm 2004). Bu durum, metin incelemenin bulunmasının, büyük ölçüde veri incelemenin filizlendiği alanı temel alır. Bununla birlikte, ya ilişkisel veri tabanlarında ya da veri depolarında mevcut olan iyi yapılandırılmış koleksiyonlar üzerinde odaklanan veri incelemeden farklı olarak, metin inceleme çok daha az yapılandırılmış olan verileri açığa çıkartır. Bugünün elektronik verilerinin büyük bölümü geleneksel ilişkisel veritabanlarında bulunmaz, bunlar Web de ve doğal dilli dokümanlarda gizlenmiştir. Bu çalışmada geleneksel veri inceleme ve Enformasyon Çıkartılmasının (IE) entegrasyonunu temel alan metin incelemesi için yapılan çalışmalardan sözedilecektir. Bir IE sisteminin amacı doğal dilli metinler içerisindeki özel verilerin bulunmasıdır. Çıkartılacak olan veriler tipik olarak, dokümandan alınan alt dizilerle doldurulacak olan bir yuvalar listesi belirleyen bir şablonla verilir. IE bir dizi uygulama için yararlıdır, özellikle de son zamanlarda Internet in ve web dokümanlarının çoğalması göz önüne alındığında. Yakın zamandaki uygulamalar kurs ve araştırma projesi ana sayfalarını, seminer duyurularını, daire kiralama ilanlarını, iş ilanlarını, coğrafi web dokümanlarını, hükümet raporlarını ve tıbbi özetleri kapsamaktadır (Nahm 2004). Geleneksel veri inceleme işleminde incelenecek olan enformasyonun halihazırda bir ilişkisel veri tabanı biçiminde olduğu varsayılır. Ne yazık ki birçok uygulama için elektronik enformasyon yapılandırılmış veri tabanlarından çok, yalnızca yapılandırılmamış doğal dilli dokümanlar halindedir. IE metinsel dokümanların bir külliyatının daha yapılandırılmış bir veritabanına dönüştürülmesi sorununu hedef alır ve böylece standart VTBK yöntemleri ile birleştirildiğinde metin incelemesinde oynanabilecek olan açık bir rol ortaya koyar. Bu çalışmada, bir IE modülünün ham metin içerisindeki özel veri bölümlerinin konumlandırılması ve sonuçta ortaya çıkan veritabanının kural incelemesi için VTBK modülüne sağlanması amacıyla kullanımı anlatılmaktadır Metin Verilerinin Heterojenliği İlişkisel veri tabanları ile karşılaştırıldığında, Internet üzerinde mevcut olan doğal dilli çoğunlukla heterojen ve gürültülüdür. Birçok metinsel veri tabanı alanına yapılan girişler inceleme algoritmalarının önemli düzenlilikleri keşfetmesine engel olabilecek küçük farklılıklar gösterebilir. Farklılıklar tipografik hatalardan, yanlış yazımlardan, kısaltmalardan ve diğer kaynaklardan kaynaklanabilir. 21

21 Farklılıklar özellikle yapılandırılmamış veya yarı-yapılandırılmış dokümanlardan veya web sayfalardan otomatik olarak çıkartılan verilerde ifade edilir. Örneğin, haber grubu postalarından otomatik olarak çıkardığımız yerel iş olanakları konusundaki verilerde, Windows işletim sistemi değişik şekillerde Microsoft Windows, MS Windows, Windows 95/98/ME vb. şekillerde adlandırılmaktadır(nahm 2004). Daha önce yapılmış olan işlerin bir bölümü benzer veya çoğaltılmış kayıtların tanımlanması sorununu hedef almıştır, bu işlem kayıtların bağlantılandırılması, birleştirme/ayırma sorunu, çoğaltma algılaması yumuşak veri tabanlarının sertleştirilmesi ve referans uyumlandırması olarak adlandırılmıştır. Tipik olarak, sabit bir metinsel benzerlik ölçümü, iki değerin veya kaydın kopya olmak için yeterince benzer olup olmadığının belirlenmesinde kullanılmıştır. Bu yaklaşımda, Microsoft Windows, MS Windows ve Windows 95/98/ME işlem öncesi bir basamak olarak tek bir terim içerisine haritalandırılmıştır(nahm 2004). Ataları ve ardılları veritabanı girişlerine yeterli benzerlik temelinde değerlendirilen yumuşak uyumlandırma kurallarının keşfedilmesi yoluyla kirli verilerin direkt olarak bulunması biçimindeki alternatif yöntemlerden ilerleyen sayfalarda anlatılacaktır. Metnin benzerliği standart kelimeler çantası ölçümleri kullanılarak veya düzenleme-mesafe ölçümleri kullanılarak ölçülebilir; diğer standart benzerlik ölçümleri nümerik ve ek veri türleri için kullanılabilir. Örneğin, Windows bir iş için gerekli becerilerin listesiyse, o zaman bu iş için IIS bilgisi de gereklidir gibi yumuşak uyumlandırma kuralları bir dizi iş ilanından keşfedilir. Bu durumda, Windows ve IIS, sırasıyla MS Windows veya IIS Hizmetleri gibi benzer dizilere uyumlandırılabilir. 22

22 3 METİN SINIFLANDIRMA Sınıf olmak için her kaydın belli ortak özellikleri olması gerekir. Ortak özelliklere sahip olan kayıtların hangi özellikleriyle bu sınıfa girdiğini belirleyen algoritma, sınıflama algoritmasıdır. Sınıflama algoritması, denetimli öğrenme kategorisine giren bir öğrenme biçimidir. Denetimli öğrenme, öğrenme ve test verilerinin hem girdi hem de çıktıyı içerecek şekilde olan verileri kullanmasıdır. Sınıflama sorgusuyla, bir kaydın önceden belirlenmiş bir sınıfa girmesi amaçlanmaktadır (Bolat 2003). Bir kaydın önceden belirlenmiş bir gruba girebilmesi için sınıflama algoritması ile öğrenme verileri kullanılarak hangi sınıfların var olduğu ve bu sınıflara girmek için bir kaydın hangi özelliklere sahip olması gerektiği otomatik olarak keşfedilir. Test verileriyle de bu öğrenmenin testi yapılarak ortaya çıkan kurallar optimum sayısına getirilir. Sınıflama algoritmasının kullanım alanları sigorta risk analizi, banka kredi kartı sınıflaması, sahtecilik tespiti, vb. alanlardır. Metin Sınıflandırma, eldeki sınıflardan birine ait olduğu bilinen bir dokümanın, hangi sınıfa girdiğinin bulunması işlemidir. Günlük hayatta bir gazete ya da bir kitap okunduğunda, bu metinlerde geçen olaylar daha önceden bilinen birtakım olaylara bağlanır. Bir konunun nasıl anlaşıldığı da bu bilgilerin kendi aralarında nasıl bağlandığına ve her konunun içine konduğu sınıflara bağlıdır. Otomatik metin sınıflandırma işlemi de günlük hayattaki bu uygulamanın bilgisayar dünyasındaki karşılığıdır (Bolat 2003). Metin süzme (MS), dokümanların sisteme girmesiyle birlikte denetlenmesi ve kullanıcı sorgusuna uygun olanların seçilmesi işlemidir. MS uygun/uygun olmayan şeklinde karar verirken aslında dokümanları belli sınıflara ayırır. Bu yüzden MS bir sınıflandırma işlemi olarak da görülebilir(sever vd. 2002). Bu bakımdan ele alındığında dosyaların veya elektronik mektupların konularına göre önceden belirlenmiş klasörlere taşınmasında, belirli bir konuya özgün çalışmalarda, konunun belirlenmesinde ve yapısal aramalarda da kullanılabilir. Bir çok alanda yeni metinlerin sınıflandırılmasında profesyonel insanlar rol alır. Metin sınıflandırma çok zaman ve paraya mal olan bir işlemdir. Bundan dolayı otomatik metin süzme ve sınıflandırma işlemlerinde hızla gelişen teknolojiye ve uygulamalara bir ilgi vardır. Bağlanım modelleri, en yakın komşu sınıflandırıcıları, karar ağaçları, Bayesian sınıflandırıcıları, destek yöney makineleri, kural öğrenme algoritmaları, ilgililik geri besleme ve yapay sinir ağları gibi pek çok istatistiksel, matematiksel ve otomatik öğrenme teknikleri bu ilgiden kaynaklanmıştır. 23

23 3.1 Metin Madenciliğinin Ön Aşamaları ve Sınıflama İster Metin Madenciliği, ister metin erişimi olsun, tüm bu konulara ait tekniklerin kullandıkları ortak yöntemler vardır. Bu bölümde bu yöntemlerden bahsedilecektir Ayrıştırma Metin veri madenciliğinde yapılan ilk işlem, karakter dizileri olan metinlerin öğrenme algoritmaları ve sınıflandırma işlemleri için uygun bir hale getirilmesidir. Bunun için ilk önce metindeki XML (EXtensible Markup Language) ve HTML (Hyper Text Markup Language) gibi her türlü etiket kelimesinin çıkarılması gerekir. Ardından harf olmayan karakterler boşluklarla yer değiştirir. Tek harfli sözcükler silinir. Bütün karakterler küçük harflere çevrilir (Tonta 2002) Durdurma Kelimelerinin Çıkarılması Önişlemle, kullanılacak sözcüklerin ortaya çıkmasından sonra, dokümanın içerisinde çokça geçen fakat kendi başlarına bir anlamları olmayan ve dokümanlara fazla anlam katmayan (ve, sonra, ile... gibi) durdurma kelimeleri çıkarılır. Durdurma kelimelerinin bilgi erişim sistemlerinde gerekli olmadığı, bu sistemlerle ilgili çalışmalarının ilk günlerinden beri bilinmektedir. Bu kelimelerle yapılacak herhangi bir sorgunun, eldeki veri kümesinin her elemanını sonuç olarak döndüreceğinden, bu kelimelerin ayrım yaptırma güçleri zayıftır. Ayrıca durdurma kelimeleri, dokümanlarda çok fazla yer tutarak sistemin hantallaşmasına neden olur. Bu kelimeler, her doküman kümesinde istatistiksel yöntemlerle bulunabilse de, genelde tek bir durdurma kelimesi listesi kullanılır. Bu liste bir adres hesaplama tablosunda (hash table) da tutulabilir Gövdeleme Durdurma kelimelerinin çıkarılmasının ardından, her kelimenin eklerinin çıkarılmasıyla kelime kökleri bulunur. Kelime köklerinin bulunması, kelimelerin biçimsel benzerlerinin bulunması anlamına gelir. Böylece, koşucular, koşucu, koşmak, koş, koşuyorum gibi aynı anlam grubundaki kelimeler bir araya getirilmiş olur. Kök bulmada karşılaşılabilecek iki sorun vardır; Birincisi, bu işlemde çok ileri giderek birbirinden anlamca çok farklı kelimelerin aynı anlam grubuna bağlanmasıdır. Bu durumda sistem, konuya uygun olmayan dokümanları da konuyla ilgili şeklinde yorumlayabilir. Diğer bir sorun da, kelimelerin köklerine ulaşılmaya çalışılırken çok az ekin çıkarılması işlemidir. Bu durumda da sistem konuya uygun dokümanları, uygun olmayan dokümanlar olarak algılayabilir. 24

24 Gövdelemeye yarayan pek çok farklı algoritma vardır. Bu yöntemlerden biri tüm dizin sözcüklerinin ve köklerinin Tablo 3.1. deki gibi bir tabloda tutulmasıdır. Tablo 3.1 Kelimelerin ve Köklerinin Bir Tabloda Tutulması Gizlemek Gizlenmek Gizle Gizle Gizle Gizle Bu yöntemin dezavantajı, çok fazla saklama alanına gereksinim duyması ve böyle bir tablonun yaratılmasının zor olmasıdır. Diğer bir yöntem de, eldeki dokümanlardan oluşturulan bir sözlüğün içindeki her kelimenin, her harfinin tek tek ele alınarak ardıl farklılıklarının incelenmesiyle yapılır. Kökü bulunacak kelimenin sözlük içinde farklı bir kelime olarak bulunabilen ilk n harfi, kelimenin kökü olarak alınır. Mesela sözlüğün içerisinde koş ve koşucu kelimeleri olsun. Koşucu kelimesinin kökünü bulmak için, k, ko, koş kelimelerine ulaşılır. Koş sözcüğünün sözlükte bir kelime olarak görülmesiyle kelimenin kökü bulunmuş olur. Yukarıdaki yöntemler her dil için geçerli olan yöntemlerdir. Veri kümesi İngilizce metinlerden oluşan çalışmalarda, Porter Stemmer algoritması, daha basit ve hızlı olmasına rağmen diğerleriyle performans bakımından farkı olmaması nedeniyle, bu konu için en çok kullanılan algoritmadır(bolat 2003) Metin Gösterimi Metinler sayısal ortamlarda saklanırken, en çok, doğal yazının sayısal ortamdaki şekli halinde bulunur. Fakat metin halinde depolanan dokümanların üzerinde hesaplamaya dayanan işlemler yapmak zor olduğu için, dokümanlar farklı gösterim şekillerine dönüştürülür. Aşağıda bu gösterim şekillerinden birisi olan vektör uzayı modeli açıklanmıştır Vektör Uzayı Modeli Bu konudaki en çok bilinen yöntem vektör uzayı modelidir. Bu modele sahip bir dokümanlar kümesinde, her doküman MxN kelime vektörleriyle ifade edilir. M tüm dokümanlardaki her bir farklı kelime ve N de elde bulunan tüm dokümanların sayısıdır. Bu vektördeki her girdi, bir kelimenin o dokümandaki kullanılma sıklığını ifade eder. Mesela A=(a ik) (3.1) 25

25 ifadesinde A bir doküman matrisi, a ik ise dokümanlar topluluğundaki her kelimenin içinde bulunduğu bir sözlükte, i numaralı sırada bulunan kelimenin, k numaralı dokümandaki ağırlığını belirtir. Bu yöntem modern bilgi erişiminin babası olarak kabul edilen Gerard Salton tarafından bilim dünyasına sunulmuştur (Bolat 2003). Metin sınıflama sistemleri bir dokümana ait kelimelerin frekanslarını kullanarak çalışır. Eğitim kümesi elemanlarından çeşitli ağırlıklar bulur ve bu ağırlıkları sisteme yeni giren dokümanların kategorilerini bulmakta kullanır. Vektör uzayı modelinde, yazılışları aynı fakat farklı anlamlara gelen kelimelerin sorun yaratabileceği fikri akla gelebilir. Mesela yüz kelimesi, yüzme, 100 veya insan yüzü anlamlarında kullanılmış olabilir. Bu sorun metin sınıflama tekniklerinde ortadan kalkar. Bunun sebebi; sistem, ağırlıkları belirlerken, gerekirse yüz kelimesinin ağırlığını düşürür ve diğer kelimelerin ağırlıklarını arttırır Boyut Küçültme Her kelime, her dokümanda geçmediği için, yukarıda A ile gösterilen matris genellikle seyrek matristir. Matristeki satır sayısı M, sözlükteki kelime sayısına eşit olduğu için M çok büyük bir sayı olabilir. Bu da matrisin büyümesine ve işlemler sırasında gereksiz zaman ve iş kaybı anlamına gelir. Bu problemi aşmak için farklı algoritmalar uygulanabilir (Bolat 2003) Özellik Seçimi Bütün boyut küçültme algoritmalarında, tüm dokümanlardaki kelimeler bir sözlüğün içinde toplanır. Daha sonra küçültme algoritmalarından çıkan sonuçlara göre bu sözlükten bazı kelimeler çıkarılır. Eldeki dokümanlar tekrar gözden geçirilerek sadece sözlükte bulunan kelimeler kullanılır Doküman Frekans Eşikleme Bir kelimenin doküman frekansı, o kelimenin geçtiği doküman sayısıdır. Doküman frekans eşikleme, sözlükteki her kelimenin doküman frekansını bulur ve belirli bir sayının altında doküman frekansına sahip olan kelimeleri sözlükten çıkarır. Bu yöntem, belirli bir sayı altında dokümanda geçen kelimelerin kümede belirleyici bir role sahip olmadığı ve kategori belirlemede yetersiz olduğu fikrine dayanır(bolat 2003) Bilgi Kazanımı Yöntemi Bu yöntem, her kelimenin, varlığının ve yokluğunun, kategori seçimi üzerindeki etkilerine dayanır. c 1...c K dokümanın ait olabileceği muhtemel kategoriler olsun. Kelime w nin bilgi kazanımı değeri IG(w,) aşağıdaki formül ile bulunur. 26

26 K IG( w) = P( c )log P( c ) + P( w) P( c w)log P( c w) j j j j j= 1 j= 1 K + P( w) P( c w)log P( c w) j= 1 j j K (3.2) Burada P ( c j ) değeri bir dokümanın tüm kategoriler içinde c j kategorisine ait olma olasılığı, P (w) değeri topluluktaki tüm dokümanlar içindeki bir dokümanın içinde w kelimesinin geçme olasılığı, P( c j w) c j kategorisindeki dokümanlardan birinde en az bir kere w kelimesinin geçme olasılığı P( c j w) değeri de c j kategorisindeki dokümanlardan birinde hiç w kelimesinin bulunmaması olasılığıdır. Bilgi kazanımı değeri, koleksiyondaki her eğitim dokümanı kelimesi için hesaplanır ve belli bir değerin altındaki kelimeler koleksiyondan çıkarılır χ 2 (chi kare) İstatistiği χ 2 istatistiği, kelime w ile kategori c j arasındaki bağımsızlığı ölçer ve şu şekilde gösterilir: 2 N *( AD CB) = χ ( w, cj ) ( A + C ) *( B + D)* ( A + B ) * ( C + D ) 2 (3.3) Burada; A c j kategorisindeki içinde w kelimesi geçen doküman sayısı B içinde w kelimesi geçen fakat c j kategorisine ait olmayan doküman sayısı C c j kategorisine ait ve içinde w kelimesi geçmeyen doküman sayısı D c j kategorisine ait olmayan ve içinde w kelimesi geçmeyen doküman sayısı N koleksiyondaki toplam doküman sayısıdır. χ 2 istatistiğine dayanan iki ölçme yöntemi ise; 2 χ ( w) 2 veya χ ( ) max K 2 = P( cj ) χ ( w, cj ) j= 1 2 w = max j χ ( w, cj ) dir. ( ) (3.4) (3.5) 27

27 Eğer χ 2 istatistiği sonucunda ortaya çıkan değer belli bir limitin altındaysa, kelime w sözlükten çıkarılır(bolat 2003) Yeniden Değiştirgeleme Yeniden değiştirgeleme, eldeki özelliklerin yeniden yapılandırılması veya birleştirilmesiyle yeni özellikler yaratılmasına dayanır. Bu yöntemde, kelimelerin arasında gizli bir ilişki olduğu kabul edilir ve bu ilişkiyi ortaya çıkarmak için, Gizli Anlambilimsel Dizinleme (Latent Semantic Indexing) gibi birtakım istatistiksel yöntemler kullanılır Ağırlıklandırma Yukarıda belirtilen A matrisinin taşıdığı ağırlık değerlerinin belirlenmesinde pek çok yöntem kullanılır.fakat bu yöntemlerin hemen hemen hepsi iki önemli noktaya dayanır; Bir sözcük, bir dokümanın içinde ne kadar çok sayıda geçerse, o dokümanın bir kategoriye atanmasında o kadar etkili olur. Bir sözcük ne kadar çok farklı dokümanda bulunursa, o sözcüğün ayırt edici özelliği o kadar azdır. Aşağıda kısaca açıklanacak olan bu yöntemlerde kullanılan temel değişkenler f ik, i indisli kelimenin k metni içerisindeki kullanım sayısı, N toplam doküman sayısı, M toplam sözcük sayısı, n i bu sözcüğe sahip olan doküman sayısına karşılık gelir Boole Ayırma En basit yaklaşım olan Boole ayırma, eğer kelime dokümanda varsa ağırlık değerini 1 e, eğer yoksa 0 a eşitler. a ik 1 eğer fik > 0 = 0 diğer durumlar (3.6) Kelime Frekans Ağırlıklandırma Diğer bir basit yöntem olan kelime frekans ağırlığında, ağırlık kelimenin doküman içerisindeki ham frekansına eşitlenir. a ik = f ik (3.7) 28

28 3.2.3 tf x idf Ağırlıklandırma (Term Frequency x Inverse Document Frequency) Yukarıdaki iki ağırlıklandırma yöntemi, sözcüğün tüm dokümanlar içerisindeki etkilerini incelemeden ağırlık değerini belirliyordu. tf x idf yöntemi ise, eldeki tüm metinleri göz önüne alarak ağırlıklandırma yapar. Bu yöntem, eğer bir kelime az sayıda dokümanda geçiyorsa, kelimenin o dokümanın kategorisinin belirlenmesinde önemli olduğu, eğer bir kelime çok sayıda dokümanda kullanılıyorsa, kelimenin ayırt edici gücünün az olduğu fikriyle açıklanabilir. Yeni ağırlık değeri, formülüyle hesaplanır. a = f *log( N / n ) ik ik i (3.8) tfc-ağırlıklandırma (Term Frequency Component) Uzun dokümanlar, içlerinde daha çok sözcük tuttuklarından, bu dokümanlarda pek çok farklı sözcüğün geçmesi ve bu sözcüklerin frekanslarının da küçük dokümanlara göre daha fazla olma ihtimali fazladır. tfc ağırlıklandırma [16] tf x idf nin bu ihtimal göz önüne alınarak bir düzgeleme işleminden geçirilmesinden oluşur. tf x idf formülünde geçen, kelimenin tüm dokümanlarda kullanılma sayısı olan n i sözlük tablosundan, her bir dokümanda kelimenin kullanılma sayıları ise doküman vektöründen alınmıştır. a ik = = N f jk *log 1 n j M j f ik log N n i 2 (3.9) ltc Ağırlıklandırma (Logarithmic Term Component) tcf nin biraz daha değiştirilmiş hali olan ltc ağırlıklandırma yöntemi, ham frekanslar yerine logaritma kullanarak, frekanslardaki büyük değişiklerin etkilerini azaltır. a ik = = N log( f ik + 1)*log 1 n j M j log( f ik + 1) log N n i 2 (3.10) 29

29 3.3 Metin Madenciliği Algoritmaları Metinler vektör uzayına geçirilip gerekli ağırlık değerleri değişikliklerinin yapılmasının ardından, artık üzerlerinde Metin Madenciliği algoritmaları kullanılabilir hale gelirler. Bu aşamada daha önce kullanılmış birkaç algoritma açıklanacaktır. Bu açıklamalarda kullanılacak olan bazı gösterimler şu şekildedir; d = ( t1,..., t M ) sınıflara ayrılması gereken dokümanlar kümesi ve t ise o dokumandaki terimlerden birisi,. c,..., 1 c K ise olası kategoriler olsun. Ayrıca d,..., 1 d N elimizdeki dokümanların tamamı, y,..., 1 y N ise bu dokümanların ait olduğu sınıflar, N j de c j kategorisine giren dokümanların sayısı olsun Rocchio Algoritması Rocchio yönteminde, her kategori için, o kategoriye ait eğitim örneklerinin ortalaması alınarak prototip bir doküman vektörü oluşturulur. Hangi kategoriye ait olduğu bulunmaya çalışılan dokümanın, oluşturulan prototipe olan mesafesine bakılarak süzme işlemi gerçekleştirilir. Bu oldukça hızlı bir şekilde eğitilebilen ve pekçok türevi olan bir yöntemdir. Bu tez çalışmasında kullanılan EHİ algoritması da, Rocchio algoritmasının türevlerinden birisidir Naive Bayes Naive Bayes yöntemi, bir dokümanın içindeki özellikleri birbirinden bağımsız düşünerek çalışır. Yani bir dokümanın sözcüklerinin birbirleriyle olan kombinasyonları, Naive Bayes yönteminde önemli değildir. Bu bağımsızlık fikri her ne kadar doğru değilmiş gibi görünse de, Naive Bayes büyük bir doğruluk oranı gösterir. Naive Bayes, eğitim kümesi verilerinin ve yeni girilen dokümanın verilerinin her birini tek tek kullanarak, yeni dokümandaki her sözcüğün kategoriyi etkileme ihtimallerini hesaplayarak tahminde bulunmaya çalışır. Naive Bayes formülü olasılıklara dayanır(bolat 2003). P( c d) = j P( c ) P( d c ) j P( d) j (3.11) P ( c j ) değeri bir dokümanın tüm kategoriler içinde c j kategorisine ait olma olasılığıdır. 30

30 (4.10) formülünün payda kısmı kategoriden kategoriye değişmediği için çıkarılabilir. Ayrıca dokümandaki tüm kelimeler birbirinden bağımsız olduğu fikri düşünüldüğü için, M P( d c ) = P( t c ) olarak düşünülebilir. Bu durumda formül; j i j i= 1 M P( c d) = P( c ) P( t c ) j j i j i= 1 (3.12) şekline dönüşür. Burada P( c j ) değerinin yaklaşık hesaplanması olan P ~ ( c j ) değeri, c j kategorisine ait eğitim dokümanlarının tüm dokümanlara olan oranıyla hesaplanabilir. Ayrıca ~ N ( ) j P cj = N (3.13) ~ P( t c ) = M 1+ N ij i j M + k = 1 N kj (3.14) N ij değeri, i kelimesinin kullanıldığı c j kategorisine ait dokümanların sayısı, M ise kullanılan toplam kelime sayısıdır Karar Ağacı Bu yöntemde doküman vektörü d, eğitim kümesi dokümanlarıyla oluşturulan bir karar ağacıyla karşılaştırılarak, kullanıcı için uygun ya da uygun olmadığı anlaşılır. Bu karar ağacının oluşturulmasında farklı algoritmalar kullanılsa da, bu ağacın her yaprağı farklı bir kategoriyi temsil eder. Kullanılan her algoritmanın amacı, yeni bir dokümanı en doğru biçimde bir kategoriye atayabilecek karar ağacını oluşturmaktır (Sebatiani,2005). Aşağıda bu yöntemlerin en popülerlerinden birisi olan, CART yöntemi açıklanacaktır Ağacı Oluşturma (CART) CART, ikili karar ağaçları oluştururken eğitimde kullanılan her bir vektörü, içindeki elemanlarından birini kullanarak, bir fonksiyon yardımıyla, ikiye ayırır. Bu yüzden, ilk karar verilmesi gereken, hangi elemanın en iyi ayrıştırıcı olduğunun saptanmasıdır. En iyi ayrıştırıcı, kümeyi en türdeş biçimde 31

31 ayırabilen ayrıştırıcıdır. Dolayısıyla eğitim kümesindeki çeşitlemeyi en aza indirebilen ayrıştırıcı, en iyi ayrıştırıcıdır. En iyi ayrıştırıcının, aşağıdaki değeri en yüksek seviyede vermesi gerekir. Çeşitlilik (ayırmadan önce) [çeşitlilik (sol çocuk (left child)) +çeşitlilik(sağ çocuk (right child))] En çok kullanılan çeşitlilik hesaplaması yöntemlerinden birisi, entropi yöntemidir. K j= 1 p( c t)log p( c t) j j (4.14) (3.15) p( cj t ), c j kategorisine ait eğitim kümesi elemanının t boğumuna (node) gelme olasılığıdır. Bu olasılık şu şekilde hesaplanabilir. Burada, N j ( t) p( cj t) = N( T) N j ( t ), c j kategorisine ait olan dokümanlar sayısıdır. N( T ) t boğumundaki toplam doküman sayısıdır. (3.16) Ağaçtaki her boğumda en iyi ayrıştırıcıyı bulmak için, doküman vektörünün her elemanı ele alınır. Çeşitlilikteki azalmayı iyilik ölçütü alarak yapılan ikili aramayla, en iyi ayrım değeri bulunmaya çalışılır. Çeşitliliği en aza indiren eleman, o boğum için ayrıştırıcı olarak atanır. Bu işlem hiçbir küme daha fazla ayrılamayacak duruma gelene kadar devam eder. Bu ağacın en altta kalan boğumları yaprak olarak adlandırılır ve her yaprak bir kategoriyle eşleştirilir. Fakat bir yaprağa ulaşan her doküman, o yaprağa ait kategoriye girmek zorunda değildir. Bir dokümanın bir yaprağa yanlış olarak gelme ihtimali hata oranıdır. Bir ağacın hata oranı E( T ), her yaprağın hata oranlarının ağırlıklı toplamıdır. Her yapraktaki hata oranı, yapılan yanlış sınıflamaların tüm sınıflamalardaki oranıyla hesaplanabilir Ağacın Budanması Eğitim kümesini kullanırken hata oranı en aza indirilmiş olsa da, yeni gelen verilerin kategorilere atanmasında en iyi sonucu vermeyebilir. Ağaç tamamen eğitim kümesi elemanlarıyla örtüştüğü için, ağacın yeni verilere uygun olması budanma ile sağlanır. Budama işleminin amacı, her yaprak için en az ayırımcı güce sahip dalların çıkarılmasıdır. Bu dalları bulmak için ağaç T nin ayarlanmış hata oranı bulunur. 32

32 E ( T) = E( T) + αn ( T) α yapraklar (3.17) Nyapraklar ( T ) ağacın yapraklarının sayısı, ve α ise bir parametredir. Başka bir deney kümesi kullanılarak, ağacın kendisi ve alt ağaçlarının tek tek ayarlanmış hata oranları bulunur. Sonuçta en iyi sonucu veren ağaç kullanılır Destek Yöney Makineleri Destek yöney makineleri, metin sınıflamada olduğu kadar diğer pek çok geniş alanda da başarı göstermiştir. Vladimir Vapnik in verilerin dağılımıyla ilgili olan yapısal risk enküçültmesi teorisine dayanır. Destek yöney makineleri yöntemi sadece ikili sınıflamalar yapabildiği için bütün sistem çok sayıdaki ikili kararların birleşmesinden oluşur(bolat 2003). Destek yöney makinesi d vektörünü -1 veya 1 olarak bir kategoriyle ilişkilendirmek için aşağıdaki eşitliği kullanır; ve N T s = w φ( d) + b = αiyik( d, di ) + b y 1 i=1 0 = 1 eğer s > s diğerdurumlar (3.18) Burada { ( 1,1 ) i d } N i i 1 yi = 1 = eğitim kümesi dokümanları, { } N i bu dokümanların ait oldukları kategorilerdir y. K( d, d ) değerine kernel adı verilir ve c ninci dereceden bir polinom olarak gösterilir. i T K( d, d ) = ( d d + 1) i i c (3.19) Destek yöney makinelerinin eğitimindeki amaç, eğitim kümesindeki iki farklı eğitim kümesi elemanının arasındaki en uzak mesafeden geçen w vektörünü bulmaktır. Aşağıda bu işlemlerin nasıl yapılabildiği açıklanacaktır Ayrılabilir Durumlarda Destek Yöney Makineleri Eldeki verilerin doğrusal olarak ayrılabildiği durumlarda, { bir skaler b bulunur. d } N i i= 1 için aşağıdaki gibi bir w vektörü ve de 33

33 T w φ( d) + b 1 eğer y = 1 T w φ( d) + b 1 eğer y = 1 i i (3.20) T Destek yöney makinesi, iki sınıf arasındaki uzaklığı en üst düzeye çıkarabilecek bir w φ ( d) + b hiper düzlemi (hyperplane) bulur. En iyi hiperdüzlem, bulunacak en iyi w vektörünün 2 w değerini en aza indirmekle bulunabilir. En iyi w vektörü, şeklinde ( d ) N i= 1 α y φ( d ) φ ların doğrusal kombinasyonları şeklinde yazılabilir. Burada { α i} i 1 i i i N = nın bulunması da, T 1 Λ 1 Λ T QΛ 2 (3.21) nın en büyütülmesiyle gerçekleştirilir. Bu eşitlikte Λ 0 ve Λ T Y = 0 şartları aranır. Burada Y = { y... y } ve Q ise aşağıdaki elemanlara sahip bir simetrik matristir. i N T Q = y y K( d, d ) = y y φ( d ) φ( d ) ij i j i j i j i j (3.22) Sadece eğitim kümesinin karar verme sınırlarında olan αideğerleri sıfırdan büyük olur. Karar verme sınırları Şekil 3.1 Doğrusal Olarak Ayrılabilen Destek Yöney Makineleri 34

34 Ayrılamaz Durumlarda Destek Yöney Makineleri İki küme vektörlerinin doğrusal olarak ayrılamadığı durumlarda, ayrılabilir durumlarda kullanılan w 2 değeri, yerini 1 2 w 2 N + C ξi i= 1 (3.23) ifadesine bırakır. ξ i değerinin aşağıdaki şartları sağlaması gerekir: T w φ( d) + b 1 ξ eğer y = 1 T w φ( d) + b 1+ ξ eğer y = 1 w vektörünün boyutunun en büyütülmesinde ise, kullanıcı tarafından belirlenen bir C değeri ile aranan şartlar aşağıdaki gibi değiştirilir: i i i i (3.24) 0 Λ C1 ve Λ T Y = 0 (3.25) Bayesian Ağları Bayesian Ağları, pek çok değişken ve çok sayıdaki olasılığın geçerli olduğu bir uzayın yoğunlaştırılmasıyla ilgilidir. Yönlendirilmiş çevrimsiz çizge (directed acyclic graph) (DAG) ile ilişkiler tanımlanır. Her özellik X i, ağın içerisinde bir boğum olarak gösterilir. Her boğum arasındaki yay ise, iki özelliğin birbirleriyle olasılıksal bağımlılıklarını gösterir. Yani iki boğum arasında bir yay olmaması, bu iki boğumun birbirinden bağımsız olduğu anlamına gelir. Boğumlar, sadece alt boğumlarıyla ve bir yayla bağlandıkları boğumlarla ilişkilendirilebilir. Her boğum kendisinin üstündeki Π( X i ) boğumda kendisi için saklanan olasılık değerlerini alır. Üst boğuma sahip olmayan boğumlar, sadece altlarındaki X i boğumları için önsel olasılık dağılımlarına sahiptir. Bayes ağları, dokümanlar için düşünülecek olursa, dokümandaki her terim için bir ikili değer verilerek dokümanın içinde hangi kelimelerin geçtiği ve hangilerinin geçmediği hakkında bir bilgi tutulabilir. Diğer bir deyişle; Bayes ağının içindeki tüm boğumlar bir vektörün içinde toplanmış olur. Şekil 4.2. de 6 terime sahip bir dokümanın Bayes ağ yapısı örneği gösterilmiştir. Bu örnekte, görülmesi beklenen kelimeler arasındaki bağımlılık olasılıkları da belirtilmiştir. Eğer bu 6 boğumun aralarındaki ilişkiler ele alınmazsa elimizde 2 6 =64-1=63 tane kelimeler arası bağıntı olasılığı olur. Diğer bir yöntem ile, ağ içerisinde gösterilen bağlantılar kullanılarak, bu 6 kelime için şu dağılım gerçekleştirilebilir, 35

35 Astronomi X 1 Bilgisayar X 2 Güneş X 3 Bilim X 4 Sistem X 5 Programlama X 6 Şekil 3.2. Bayes Ağları P( X, X, X, X, X, X ) = P( X ). P( X ). P( X X ). P( X X, X ). P( X X, X ). P( X X, X ) Buradan, dağılım çarpanlarının =16 olarak bulunulduğu ve bu sayının da kelimeler arasında bağıntı olmaması düşünüldüğünde çıkan değerin çok altında olduğu görülebilir. Bayes ağlarının da aralarında bağıntı olduğu bilinen kelimeler bir öğrenme algoritmasına gerek kalmadan ağlar içerisine eklenebilir. Ayrıca Bayes ağları şekilsel olduğu için insanlar tarafından da kolaylıkla anlaşılabilir. Bayes ağları oluşturulduktan sonra Naive Bayes yönteminde kullanılan hesaplamalarla en iyi olasılık değerini veren kategori seçimi yapılabilir. 36

36 4 KÜMELEME ANALİZİ Kümeleme algoritması denetimsiz öğrenme kategorisine giren bir algoritmadır. Kümeleme algoritmasındaki amaç verileri alt kümelere ayırmaktır. Sınıflama algoritmasında olduğu gibi ortak özellikleri olan veriler bir kümeye girer. Alt kümelere ayrılmak için keşfedilen kurallar yardımıyla bir kaydın hangi alt kümeye girdiği kümeleme algoritması sayesinde bulunur(jiawei 2001). Kümeleme, fiziksel ya da soyut nesnelerin benzerliklerine göre gruplanmasıdır. Küme, benzer nesnelerin oluşturduğu bir gruptur. Kümeleme analizi pratikte birçok aktivitede kullanılır. Desen tanımlama, veri analizi, resim işleme, pazar araştırması bunların arasındadır. Kümeleyerek, datalar arasındaki ilginç desenler yakalanabilir. 4.1 Kümeleme Analizi Uygulamaları Pazarlamacıların kendi müşterileri arasındaki farklı grupları karakterize etmesini sağlayabilir. Biyolojide bitki ve hayvan taksonomilerini genlere göre sınıflandırmada kullanılır. Yeryüzü incelemelerinde belli toprak parçalarını tanımlamak için kullanılır. Aynı zamanda web deki dokümanları sınıflamakta kullanılır. Veri kümeleme çok hızlı bir gelişim içindedir. Uygulama alanları hızlı bir şekilde genişlemektedir. Yıllar geçtikçe analiz edilecek veri miktarı da sürekli arttığı için çok kullanılacak bir yöntemdir. Kümelemenin sınıflandırmadan farkı sınıflandırmadaki gibi önceden tanımlı sınıf etiketlerinin olmamasıdır. Bu sebeple kümelemede, sınıflandırmadaki gibi örnekleyerek öğrenme yerine gözlemleyerek öğrenme kavramı geçerlidir. Genel olarak 2 tip kümeleme vardır: 1) Geleneksel Kümeleme Nesnelerin geometrik yapısını baz alarak kümeleme yapar. 2) Kavramsal Kümeleme 2 parçadan oluşur: Birincisi; nesneleri farklılıklarına göre gruplar İkincisi; sınıflamada olduğu gibi o her sınıf için bir açıklama oluşturup, nesneleri bu açıklamaya göre sınıflar. Kümelemenin veri madenciliği alanında, daha çok geniş veritabanları üzerinde gruplama yapabilmek için kullanılır. Kümeleme metotlarının ölçeklendirilmesi çok önemlidir. Ölçeklendirme, çok küçük veya çok büyük veriler üzerinde de metodun yapısının değiştirilmeden kullanılabilmesidir. 37

37 Veri madenciliği alanında kümeleme yapabilmek için bazı gereksinimlerin sağlanmış olması gerekir. Ölçeklendirilebilme: Kümelendirme algoritması küçük çaplı nesneler üzerinde çalışabilmesine rağmen büyük veriler üzerinde çok performanslı olmayabilir. Bu durumlarda ölçeklendirme algoritmalarına ihtiyaç vardır. Değişik Nesne Tiplerine Göre Çalışabilme: Günümüzde birçok kümelendirme algoritması sayısal veriler üzerinde çalışması için geliştirilmiştir. Ancak sayısal olmayan ve ikili veriler üzerinde de çalışacak algoritmalara ihtiyaç gittikçe artmaktadır. Farklı Tipteki Nesneleri Ayırabilme: Birçok kümelendirme algoritması nesneler arasında Euclidean ve Manhattan ölçütlerine göre ayrım yapabilmektedir. Bu tür algoritmalar benzer boyuttaki ve benzer yoğunluktaki nesneleri ayırt edebilmektedir. Fakat çok değişik tipte, boyutlarda nesneler olabileceğinden algoritmanın buna uygun olarak çalışması gerekmektedir. En Az Miktarda Alan Bilgisi Gerektirmesi: Birçok kümeleme algoritması kullanıcı girişlerine ihtiyaç duyar. Kümeleme sonucu da bu parametrelere karşı hassastır ve bunlara göre değişiklik gösterir. Algoritma sonucu parametrelere bu kadar bağımlı olmamalı ve sonuç bu derece hassas olmamalıdır. Bu, parametreyi girecek kullanıcılar için büyük bir sıkıntıdır ve analizin sonucunu kontrol etmeyi zorlaştırır. Çöp Veri Ayıklayabilme: Gerçek hayatta kullanılan birçok veritabanı; eksik, tanımlanmamış, ayrık veriler içerir. Kümelendirme algoritmaları bu çöp verilerden dolayı kötü sonuçlar verebilir. Bu sebeple, algoritma bu çöp verileri ayıklayabilmelidir. Algoritma, Verilen Parametrelerin Sırasına Duyarsız Olmalıdır: Bazı algoritmalarda girilen parametrelerin sırası değiştiğinde algoritma sonucu bundan etkilenir. İstenmeyen bu durumun oluşmaması için, algoritmada girilen parametrelerin sırası önemsiz olmalıdır. Yüksek Boyutluluk: Birçok algoritma 2 ya da 3 boyutlu veriler üzerinde iyi çalışır. İnsan gözü de en çok 3 boyutlu veriyi anlayabilecek yapıdadır. Fakat kümeleme algoritması daha fazla boyutta çalışabilmelidir. Kısıtlama Bazlı Kümeleme: Günümüz ihtiyaçlarına cevap verebilecek bir algoritma çeşitli kısıtlamalarla çalışabilmelidir. Yani sonuca yansıyacak veriler filtrelenebilmelidir. 4.2 Kümeleme Analizinde Veri Tipleri Günümüzde kümeleme algoritmaları genel olarak 2 tip veri yapısıyla çalışırlar. Veri Matrisi: Bu tip veri yapısında n tane nesne, p tane değişken olur. Örneğin nesneler; insanlar, evler, araçları temsil ediyorsa, değişkenler; bir insanın yaş, boy, ağırlığını temsil etmektedir. 38

38 n x p boyutlu bir matris elde edilir. (4.1) Benzersizlik Matrisi: Nesnelerin, yine nesnelerle eşlenmesi söz konusudur. Nesnelerin özellikleri bulunmaz. (4.2) Nesneler eşlendikten sonra, oluşturulan nesne gruplarının benzerlikleri karşılaştırılır. İlk metot olan Veri Matrisi metodu, 2 modlu matris olarak da bilinir. (nesne, özellik) İkinci metot olan Benzersizlik Matrisi de tek modlu matris olarak bilinir. (nesne) Birçok algoritma 2. yapı ile çalışır. Eğer veriler ilk yapıdaki gibiyse, önce ikinci yapıdaki duruma çevrilir, daha sonra işlenir Aralık Ölçekli Değişkenler Tam olarak kesin belirlenmiş değerlerden çok, belli bir aralık şeklinde belirlenen verilerde geçerlidir. Ölçümde kullanılan birim çok önemlidir. Birimin değişmesi, analizin sonucunu etkiler. Sonucun kafa karıştırıcı olmaması için analize giren verilerin de standart olması gerekir (verilerin bir kısmı kg, diğerleri gr. olmamalıdır). Standartlaştırmadan sonra Benzersizlik Matrisi ile analiz yapılır. Bu analiz için 2 metot kullanılır: 1) Euclidian (4.3) 2) Manhattan (4.4) İkili Değişkenler Bir ikili değişkenin 0 ve 1 olmak üzere 2 durumu vardır. 0 yok, 1 var anlamında kullanılır. Aralık ölçeklinin tersine, kesin ve net sonuçların olduğu analizlerde kullanılır. Örneğin; yolcu sigara içiyor mu? 39

39 Sorusunun karşılığı, eğer içiyorsa 1, içmiyorsa 0 dır. Yani örnekte cevap olarak bir aralık çıkmamakta, kesin bir cevap alınmaktadır. q: ortak olan 1 lerin sayısı, r: ilk nesne için 1, ikinci nesne için 0 olanların sayısı s: ilk nesne için 0, ikinci nesne için 1 olanların sayısı (4.5) Nominal (ada bağlı), Ordinal (sıraya bağlı) ve Ondalıklı Değişkenler Nominal değişkenler İkili değişkenlere benzer ancak çok sayıda seçeneği olan değişkenlerdir. Örneğin renk değişkeni nominal bir değişkense kırmızı, yeşil, mavi vs. seçenekleri belirlenir. Nominal değer formülü: p: toplam değişken sayısı m: ortak 1 lerin sayısı (4.6) Ordinal Değişkenler Nominal değişkenlerden farklı olarak sırasının önemli olmasıdır. Nominal gibi, belli alanları, seçenekleri olur ve bunların sıraları önemlidir. Altın, gümüş, bronz veya Profesör, Öğretim Üyesi, Asistan gibi. (4.7) Ondalıklı Değişkenler Üstel olarak artan verilerin benzerliğinin bulunmasında kullanılır. Ör: Bakteri popülasyonunu artışı. Ae Bt veya Ae -Bt (4.8.) Karışık Tipteki Değişkenler Birçok gerçek veritabanında değişik tipte veriler bulunur. ikili, nominal, ordinal. Bunların hepsinin bir arada analiz edilmesi gerekir. 40

40 (4.9) 4.3 Ana Kümeleme Yöntemlerinin Kategorilendirilmesi Birçok kümeleme algoritması vardır ve bunlar analiz edilecek olan verinin yapısına göre belirlenir. Kümeleme metotları genel olarak şunlardır: Bölümlendirme Metodu: n tane nesnenin olduğu veritabanında, nesneler mantıksal gruplara ayrılarak analiz edilir. Küçük ve orta boyutlu veritabanlarında birkaç grup olabilirken, veritabanının büyüklüğü arttığında daha çok grup oluşabilir. Gruplandırma yapılırken değişik kriterler değerlendirilebilir. Yapılan gruplandırma analizin kalitesine etki eder. Hiyerarşik Metot: Analiz etmeden önce nesneler, hiyerarşik bir yapıya göre düzenlenir. Veriyi hiyerarşik bir yapıya çevirmek için değişik yöntemler kullanılır. Bunların arasında BIRCH ve CURE yöntemleri bulunur. Yoğunluk Bazlı Metot: Birçok kümeleme yöntemi nesnelerin birbirleri arasındaki farklılıklarına göre kümeleme yaparken, bu metot nesnelerin yoğunluğuna göre gruplama yapar. Yoğunluktan kasıt, analiz edilen nesnelerin sayısıdır. Yoğunluk bazlı metotlara örnek olarak DBscan verilebilir. Grid Bazlı Metot: Nesneleri grid yapısı oluşturacak şekilde sayılarına göre sınıflandırır. Temel avantajı hızlı tamamlanması ve nesnelerin sayısından bağımsız olmasıdır. Bu tipteki metotlara örnek olarak Sting verilebilir. Model Bazlı Metot: Her küme için bir model belirlenir ve bu modele uyan veriler uygun kümeye yerleştirilir Bölümlendirme Metodu n tane nesnesi olan ve k sayıda küme tanımlanmış bir veritabanı düşünelim. Bu durumda bölümlendirme metodu tüm nesneleri k adet kümeye ayıracaktır. Kümeler, nesneler arasındaki benzersizliklere göre oluşturulur Klasik Bölümlendirme Metotları: k-means, k-medoids k-means (orta değer) Bu algoritma şu parametreleri alır: k: kaç küme olacak d: kaç nesne olacak 41

41 Bu nesneler benzersizliklerine göre kümeleme yapılıp geri verilir. Bu algoritmada kümeler arasındaki benzerlik düşük olur. Bu algoritma öncelikle rasgele şekilde k tane nesne seçer. Bunların her birinin orta değeri kendisidir. Kalan nesnelerin tümünü bu seçilen nesnelere yakın olanlara göre kümelere dahil eder ve her defasında yeni mean (orta değer) hesaplar. Her nesnenin bir hata kriter değeri (E) vardır. Algoritma: k-orta değer : k sayıda kümelendirme algoritması Girişler: nesne sayısı (n) ve küme sayısı (k) Çıkış: k sayıdaki minimum hata ile oluşturulmuş kümeler Algoritma: 1. kabaca n tane nesne seç 2. tekrarla 3. değişken benzerliklerine göre grupları oluştur ve her grup için bir ortalama değer hesapla 4. bu ortalama değeri uygun olan kümelere yerleştir 5. yerleştirme bittikten sonra ortalama değerleri güncelle 6. bir değişiklik olmayana dek tekrarla Bu metot ölçeklendirilebilir bir metottur ve çok geniş veritabanları üzerinde de uygulanabilir. Çünkü karmaşıklığı oldukça azdır. Şekil 4.1 k-mean metodu ile kümeleme Şekilde bir nesne setinin k-mean metodu ile kümelenmesi gösterilmiştir. Her bir kümenin orta değeri + ile işaretlenmiştir. Aşağıdaki şekillerde k-means ile kümelenin adımları gösterilmiştir. 42

42 Şekil 4.2. Başlangıç Kümeleri Şekil 4.3 Kümelerde Mesafelerin Ölçümü 43

43 Şekil 4.4.Kümelerde İlk çözümün oluşturulması Şekil 4.5.Kümelerde Mesafeleri Merkeze Öteleme 44

44 Şekil 4.6.Küme Oluşturulması SON ÇÖZÜM k-medoids Çok yüksek değerdeki nesneler, küme dağılımını olumsuz etkiler. Çünkü k-means tüm değerlere karşı duyarlıdır. k-medoid de, k-means gibi tek tek hesaplamak yerine; 1. Her bir küme için kabaca bir temsilci nesne belirlenir (medoid) 2. Kalan her nesneyi bu medoid le karşılaştırır ve benzerliğine göre o nesne kümeye dahil edilir. 3. Bir kümedeki nesneyi alarak, daha yüksek kaliteyi elde edene dek kümeler arasında iteratif olarak yer değiştirme yapılır Şekil 4.7. k-metoids Kümeleme İşlemi + küme merkezi yer değiştirmeden önce --- yer değiştirmeden sonra Algoritma: 1. k tane nesne seç (medoid) 2. tekrarla 3. nesneleri onlara en yakın medoidlere at 4. medoid olmayan rasgele bir nesne seçilir 5. bu nesne bir medoidmiş gibi ele alınıp toplam performans hesaplanır 45

VERI TABANLARıNDA BILGI KEŞFI

VERI TABANLARıNDA BILGI KEŞFI 1 VERİ MADENCİLİĞİ VERI TABANLARıNDA BILGI KEŞFI Veri Tabanlarında Bilgi Keşfi, veriden faydalı bilginin keşfedilmesi sürecinin tamamına atıfta bulunmakta ve veri madenciliği bu sürecin bir adımına karşılık

Detaylı

VERİ MADENCİLİĞİ önemsiz olmayan, gizli, önceden bilinmeyen, potansiyel olarak kullanışlı

VERİ MADENCİLİĞİ önemsiz olmayan, gizli, önceden bilinmeyen, potansiyel olarak kullanışlı Veri Madenciliği, örüntü tanıma, istatistik ve matematiksel yöntemlerin kullanımıyla devasa miktardaki güncel ya da geçmiş veri içerisinden ilgi çekici ( önemsiz olmayan, gizli, önceden bilinmeyen, potansiyel

Detaylı

VERİ MADENCİLİĞİ (Kümeleme) Yrd.Doç.Dr. Kadriye ERGÜN

VERİ MADENCİLİĞİ (Kümeleme) Yrd.Doç.Dr. Kadriye ERGÜN VERİ MADENCİLİĞİ (Kümeleme) Yrd.Doç.Dr. Kadriye ERGÜN kergun@balikesir.edu.tr İçerik Kümeleme İşlemleri Kümeleme Tanımı Kümeleme Uygulamaları Kümeleme Yöntemleri Kümeleme (Clustering) Kümeleme birbirine

Detaylı

VERİ KAYNAKLARI. Bilgi sisteminin öğelerinden biride veri

VERİ KAYNAKLARI. Bilgi sisteminin öğelerinden biride veri VERİ KAYNAKLARI YÖNETİMİ İ İ 5. ÜNİTE GİRİŞ Bilgi sisteminin öğelerinden biride veri yönetimidir. Geleneksel yada çağdaş, birinci yada ikinci elden derlenen veriler amaca uygun veri formlarında tutulur.

Detaylı

VERİ MADENCİLİĞİ F A T M A İ L H A N

VERİ MADENCİLİĞİ F A T M A İ L H A N VERİ MADENCİLİĞİ F A T M A İ L H A N Veri Madenciliği Nedir? Veri madenciliği büyük miktarda veri içinden gelecekle ilgili tahmin yapmamızı sağlayacak bağıntı ve kuralların bilgisayar programı kullanılarak

Detaylı

Veritabanı, Veri Madenciliği, Veri Ambarı, Veri Pazarı

Veritabanı, Veri Madenciliği, Veri Ambarı, Veri Pazarı Veritabanı, Veri Madenciliği, Veri Ambarı, Veri Pazarı Başkent Üniversitesi Bilgisayar Mühendisliği Yönetim Bilişim Sistemleri (Bil 483) 20394676 - Ümit Burak USGURLU Veritabanı Veri tabanı düzenli bilgiler

Detaylı

VERİ MADENCİLİĞİ Metin Madenciliği

VERİ MADENCİLİĞİ Metin Madenciliği VERİ MADENCİLİĞİ Metin Madenciliği Yrd. Doç. Dr. Şule Gündüz Öğüdücü 1 2 Metin için Veri Madenciliği Metin Madenciliğinde Sorunlar Metin madenciliği: Veri madenciliği teknikleri ile yazılı belgeler arasındaki

Detaylı

Kümeleme Algoritmaları. Tahir Emre KALAYCI

Kümeleme Algoritmaları. Tahir Emre KALAYCI Tahir Emre KALAYCI 2010 Gündem En önemli gözetimsiz öğrenme (unsupervised learning) problemi olarak değerlendirilmektedir Bu türdeki diğer problemler gibi etiketsiz veri kolleksiyonları için bir yapı bulmakla

Detaylı

Öğr.Gör.İnan ÜNAL Tunceli Üniversitesi Bilgisayar Mühendisliği Bölümü

Öğr.Gör.İnan ÜNAL Tunceli Üniversitesi Bilgisayar Mühendisliği Bölümü Öğr.Gör.İnan ÜNAL Tunceli Üniversitesi Bilgisayar Mühendisliği Bölümü Büyük miktardaki veriler içerisinden önemli olanlarını bulup çıkarmaya veri Madenciliği denir. Veri madenciliği bir sorgulama işlemi

Detaylı

Veritabanı Yönetimi Bilgisayarların. Keşfi Hedefler. Veritabanı, Veri ve Bilgi. Veritabanı, Veri ve Bilgi. Veritabanı, Veri ve Bilgi

Veritabanı Yönetimi Bilgisayarların. Keşfi Hedefler. Veritabanı, Veri ve Bilgi. Veritabanı, Veri ve Bilgi. Veritabanı, Veri ve Bilgi Hedefler Veritabanı Yönetimi Bilgisayarların Discovering Keşfi 2010 Computers 2010 Living in a Digital World Dijital Dünyada Yaşamak Veritabanı terimini tanımlamak ve bir veritabanının veri ve bilgi ile

Detaylı

Büyük Veri İçin İstatistiksel Öğrenme (Statistical Learning for Big Data)

Büyük Veri İçin İstatistiksel Öğrenme (Statistical Learning for Big Data) Büyük Veri İçin İstatistiksel Öğrenme (Statistical Learning for Big Data) M. Ali Akcayol Gazi Üniversitesi Bilgisayar Mühendisliği Bölümü Bu dersin sunumları, The Elements of Statistical Learning: Data

Detaylı

3. sınıf. Bilgisayarla kataloglamanın doğuşu gelişimi ve bugünkü durum ele alınmaktadır. Bu derste

3. sınıf. Bilgisayarla kataloglamanın doğuşu gelişimi ve bugünkü durum ele alınmaktadır. Bu derste 3. sınıf 5. Yarıyıl (Güz Dönemi) Bilgi Kaynaklarının Tanımlanması ve Erişimi I (AKTS 5) 3 saat Bilgisayarla kataloglamanın doğuşu gelişimi ve bugünkü durum ele alınmaktadır. Bu derste Kütüphane Otomasyon

Detaylı

Web Madenciliği (Web Mining)

Web Madenciliği (Web Mining) Web Madenciliği (Web Mining) Hazırlayan: M. Ali Akcayol Gazi Üniversitesi Bilgisayar Mühendisliği Bölümü Konular Denetimsiz Öğrenmenin Temelleri Kümeleme Uzaklık Fonksiyonları Öklid Uzaklığı Manhattan

Detaylı

Veri Tabanı, Veri Ambarı, Veri Madenciliği. Veri Madenciliği Uygulama Alanları

Veri Tabanı, Veri Ambarı, Veri Madenciliği. Veri Madenciliği Uygulama Alanları 1 Veri Tabanı, Veri Ambarı, Veri Madenciliği Bilgi Keşfi Aşamaları Apriori Algoritması Veri Madenciliği Yöntemleri Problemler Veri Madenciliği Uygulama Alanları 2 Bir bilgisayarda sistematik şekilde saklanmış,

Detaylı

VERİ MADENCİLİĞİNE BAKIŞ

VERİ MADENCİLİĞİNE BAKIŞ VERİ MADENCİLİĞİNE BAKIŞ İçerik Veri Madenciliği Neden Veri Madenciliği? Veri ve Veri Madenciliğinin Önemi Günümüzde Kullanılan Veri Madenciliğinin Çeşitli İsimleri Veri Madenciliği Nedir? Neden Veri Madenciliği?

Detaylı

DİZİN. Not: Koyu harfle yazılan sayfalar ilgili terimin yoğun olarak geçtiği sayfaları göstermektedir.

DİZİN. Not: Koyu harfle yazılan sayfalar ilgili terimin yoğun olarak geçtiği sayfaları göstermektedir. DİZİN Not: Koyu harfle yazılan sayfalar ilgili terimin yoğun olarak geçtiği sayfaları göstermektedir. A ağırlıklandırma bkz. terim ağırlıklandırma AltaVista, 6, 31, 37, 45-47, 93, 135 anahtar sözcükler,

Detaylı

Veritabanı Uygulamaları Tasarımı

Veritabanı Uygulamaları Tasarımı Veritabanı Uygulamaları Tasarımı Veri Tabanı Veritabanı yada ingilizce database kavramı, verilerin belirli bir düzene göre depolandığı sistemlere verilen genel bir isimdir. Günümüzde özel veya kamu kuruluşların

Detaylı

... ROBOTİK VE KODLAMA EĞİTİMİ ÇERÇEVESİNDE ÖĞRETİM YILI BİLİŞİM TEKNOLOJİLERİ DERSİ ÜNİTELENDİRİLMİŞ YILLIK DERS PLANI

... ROBOTİK VE KODLAMA EĞİTİMİ ÇERÇEVESİNDE ÖĞRETİM YILI BİLİŞİM TEKNOLOJİLERİ DERSİ ÜNİTELENDİRİLMİŞ YILLIK DERS PLANI ... ROBOTİK VE KODLAMA EĞİTİMİ ÇERÇEVESİNDE 2018 2019 ÖĞRETİM YILI BİLİŞİM TEKNOLOJİLERİ DERSİ ÜNİTELENDİRİLMİŞ YILLIK DERS PLANI Hazırlayan : Özel Öğretim Kurumları Birliği (ÖZKURBİR) Dersin Adı : Bilişim

Detaylı

Konular. VERİ MADENCİLİĞİ Giriş. Problem Tanımı. Veri Madenciliği: Tarihçe. Veri Madenciliği Nedir? Bilgi Keşfi

Konular. VERİ MADENCİLİĞİ Giriş. Problem Tanımı. Veri Madenciliği: Tarihçe. Veri Madenciliği Nedir? Bilgi Keşfi VERİ MADENCİLİĞİ Giriş Yrd. Doç. Dr. Şule Gündüz Öğüdücü 1 2 Problem Tanımı Veri Madenciliği: Tarihçe teknolojinin gelişimiyle bilgisayar ortamında ve veritabanlarında tutulan veri miktarının da artması

Detaylı

PAPATYA YAYINCILIK EĞİTİM Bilgisayar Sis. San. ve Tic. A.Ş. Veri Madenciliği Yöntemleri Dr. Yalçın ÖZKAN -II-

PAPATYA YAYINCILIK EĞİTİM Bilgisayar Sis. San. ve Tic. A.Ş. Veri Madenciliği Yöntemleri Dr. Yalçın ÖZKAN -II- Dr. Yalçın ÖZKAN Dr. Yalçın ÖZKAN PAPATYA YAYINCILIK EĞİTİM Bilgisayar Sis. San. ve Tic. A.Ş. Ankara Caddesi, Prof. Fahreddin Kerim Gökay Vakfı İşhanı Girişi, No: 11/3, Cağaloğlu (Fatih)/İstanbul Tel

Detaylı

PARALEL VERİ MADENCİLİĞİ ALGORİTMALARI. BAŞARIM 09, 15-18 Nisan 2009, ODTÜ, Ankara

PARALEL VERİ MADENCİLİĞİ ALGORİTMALARI. BAŞARIM 09, 15-18 Nisan 2009, ODTÜ, Ankara PARALEL VERİ MADENCİLİĞİ ALGORİTMALARI BAŞARIM 09, 15-18 Nisan 2009, ODTÜ, Ankara Veri Madenciliğine Genel Bir Bakış Veri Madenciliğinin Görevleri Sınıflama Seri Sınıflama Algoritmaları Paralel Sınıflama

Detaylı

Web Madenciliği (Web Mining)

Web Madenciliği (Web Mining) Web Madenciliği (Web Mining) Hazırlayan: M. Ali Akcayol Gazi Üniversitesi Bilgisayar Mühendisliği Bölümü Konular Giriş Bilgi Erişiminde Temel Yaklaşımlar Bilgi Erişim Modelleri Boolean model Vector space

Detaylı

Öğretim içeriğinin seçimi ve düzenlenmesi

Öğretim içeriğinin seçimi ve düzenlenmesi Öğretim içeriğinin seçimi ve düzenlenmesi Öğretim hedefleri belirlendikten sonra öğrencileri bu hedeflere ulaştıracak içeriğin saptanması gerekmektedir. Eğitim programlarının geliştirilmesinde ikinci aşama

Detaylı

UZAKTAN EĞİTİM MERKEZİ

UZAKTAN EĞİTİM MERKEZİ ÜNİTE 2 VERİ TABANI İÇİNDEKİLER Veri Tabanı Veri Tabanı İle İlgili Temel Kavramlar Tablo Alan Sorgu Veri Tabanı Yapısı BAYBURT ÜNİVERSİTESİ UZAKTAN EĞİTİM MERKEZİ BİLGİSAYAR II HEDEFLER Veri tabanı kavramını

Detaylı

VERİ MADENCİLİĞİ (Veri Ön İşleme-2) Yrd.Doç.Dr. Kadriye ERGÜN

VERİ MADENCİLİĞİ (Veri Ön İşleme-2) Yrd.Doç.Dr. Kadriye ERGÜN VERİ MADENCİLİĞİ (Veri Ön İşleme-2) Yrd.Doç.Dr. Kadriye ERGÜN kergun@balikesir.edu.tr Genel İçerik Veri Madenciliğine Giriş Veri Madenciliğinin Adımları Veri Madenciliği Yöntemleri Sınıflandırma Kümeleme

Detaylı

VERİ MADENCİLİĞİ VE SOSYAL AĞ ANALİZİ ARAŞTIRMA LABORATUVARI

VERİ MADENCİLİĞİ VE SOSYAL AĞ ANALİZİ ARAŞTIRMA LABORATUVARI BİLGİSAYAR MÜHENDİSLİĞİ BÖLÜMÜ VERİ MADENCİLİĞİ VE SOSYAL AĞ ANALİZİ ARAŞTIRMA LABORATUVARI 10 Aralık 2011, Cumartesi Fen ve Mühendislik Alanlarındaki Çeşitli Araştırma Projelerinden Örneklemeler İçerik

Detaylı

Bilgi Erişim Performans Ölçüleri

Bilgi Erişim Performans Ölçüleri Bilgi Erişim Performans Ölçüleri Yaşar Tonta Hacettepe Üniversitesi tonta@hacettepe.edu.tr yunus.hacettepe.edu.tr/~tonta/ DOK324/BBY220 Bilgi Erişim İlkeleri DOK 220 Bahar 2005 2005.03.01 - SLAYT 1 Belge

Detaylı

BAŞAK ÇOBAN MERVE SARITAŞ AZİME AKÇAÖZ BÜŞRA AYDEMİR

BAŞAK ÇOBAN MERVE SARITAŞ AZİME AKÇAÖZ BÜŞRA AYDEMİR VERİ MADENCİLİĞİ İSİMLER BAŞAK ÇOBAN MERVE SARITAŞ AZİME AKÇAÖZ BÜŞRA AYDEMİR MOLEKÜLER BİYOLOJİ ve GENETİK GEBZE TEKNİK ÜNİVERSİTESİ ARALIK 2015 İçindekiler ÖZET... iii 1.GİRİŞ... 1 1.1 Veri Ambarı, Veri

Detaylı

VERİ MADENCİLİĞİ (Web Madenciliği)

VERİ MADENCİLİĞİ (Web Madenciliği) VERİ MADENCİLİĞİ (Web Madenciliği) Yrd.Doç.Dr. Kadriye ERGÜN kergun@balikesir.edu.tr Kaynak: M. Ali Akcayol, Gazi Üniversitesi, Bilgisayar Mühendisliği Bölümü Ders Notları İçerik İnternet World Wide Web

Detaylı

VERİ MADENCİLİĞİ (Sınıflandırma Yöntemleri) Yrd.Doç.Dr. Kadriye ERGÜN kergun@balikesir.edu.tr

VERİ MADENCİLİĞİ (Sınıflandırma Yöntemleri) Yrd.Doç.Dr. Kadriye ERGÜN kergun@balikesir.edu.tr VERİ MADENCİLİĞİ (Sınıflandırma Yöntemleri) Yrd.Doç.Dr. Kadriye ERGÜN kergun@balikesir.edu.tr Genel İçerik Veri Madenciliğine Giriş Veri Madenciliğinin Adımları Veri Madenciliği Yöntemleri Sınıflandırma

Detaylı

Web Madenciliği (Web Mining)

Web Madenciliği (Web Mining) Web Madenciliği (Web Mining) Hazırlayan: M. Ali Akcayol Gazi Üniversitesi Bilgisayar Mühendisliği Bölümü Konular Denetimli Öğrenmenin Temelleri Karar Ağaçları Entropi ID3 Algoritması C4.5 Algoritması Twoing

Detaylı

Yazılım Mühendisliği 1

Yazılım Mühendisliği 1 Yazılım Mühendisliği 1 HEDEFLER Yazılım, program ve algoritma kavramları anlar. Yazılım ve donanım maliyetlerinin zamansal değişimlerini ve nedenleri hakkında yorum yapar. Yazılım mühendisliği ile Bilgisayar

Detaylı

1 Temel Kavramlar. Veritabanı 1

1 Temel Kavramlar. Veritabanı 1 1 Temel Kavramlar Veritabanı 1 Veri Saklama Gerekliliği Bilgisayarların ilk bulunduğu yıllardan itibaren veri saklama tüm kurum ve kuruluşlarda kullanılmaktadır. Veri saklamada kullanılan yöntemler; Geleneksel

Detaylı

Tarih Saat Modül Adı Öğretim Üyesi. 01/05/2018 Salı 3 Bilgisayar Bilimlerine Giriş Doç. Dr. Hacer Karacan

Tarih Saat Modül Adı Öğretim Üyesi. 01/05/2018 Salı 3 Bilgisayar Bilimlerine Giriş Doç. Dr. Hacer Karacan BİLGİ TEKNOLOJİLERİ YÖNETİMİ EĞİTİM MODÜLLERİ Tarih Saat Modül Adı Öğretim Üyesi 01/05/2018 Salı Bilgisayar Bilimlerine Giriş Doç. Dr. Hacer Karacan Bu dersin amacı, bilgisayar bilimlerinin temel kavramlarını

Detaylı

Bilgisayar Mühendisliğine Giriş. Yrd.Doç.Dr.Hacer KARACAN

Bilgisayar Mühendisliğine Giriş. Yrd.Doç.Dr.Hacer KARACAN Bilgisayar Mühendisliğine Giriş Yrd.Doç.Dr.Hacer KARACAN İçerik Dosya Organizasyonu (File Organization) Veritabanı Sistemleri (Database Systems) BM307 Dosya Organizasyonu (File Organization) İçerik Dosya

Detaylı

1. VERİ TABANI KAVRAMLARI VE VERİ TABANI OLUŞTUMA

1. VERİ TABANI KAVRAMLARI VE VERİ TABANI OLUŞTUMA BÖLÜM15 D- VERİ TABANI PROGRAMI 1. VERİ TABANI KAVRAMLARI VE VERİ TABANI OLUŞTUMA 1.1. Veri Tabanı Kavramları Veritabanı (DataBase) : En genel tanımıyla, kullanım amacına uygun olarak düzenlenmiş veriler

Detaylı

VERİ TABANI YÖNETİM SİSTEMLERİ Melih BÖLÜKBAŞI

VERİ TABANI YÖNETİM SİSTEMLERİ Melih BÖLÜKBAŞI VERİ TABANI YÖNETİM SİSTEMLERİ Melih BÖLÜKBAŞI Dersin Hedefleri Veri Tabanı Kullanıcıları Veri Modelleri Veri Tabanı Tasarımı İlişkisel VT Kavramsal Tasarımı (Entity- Relationship, ER) Modeli VT KULLANICILARI

Detaylı

VERİ MADENCİLİĞİ (Karar Ağaçları ile Sınıflandırma) Yrd.Doç.Dr. Kadriye ERGÜN

VERİ MADENCİLİĞİ (Karar Ağaçları ile Sınıflandırma) Yrd.Doç.Dr. Kadriye ERGÜN VERİ MADENCİLİĞİ (Karar Ağaçları ile Sınıflandırma) Yrd.Doç.Dr. Kadriye ERGÜN kergun@balikesir.edu.tr Genel İçerik Veri Madenciliğine Giriş Veri Madenciliğinin Adımları Veri Madenciliği Yöntemleri Sınıflandırma

Detaylı

Okut. Yüksel YURTAY. İletişim : (264) Sayısal Analiz. Giriş.

Okut. Yüksel YURTAY. İletişim :  (264) Sayısal Analiz. Giriş. Okut. Yüksel YURTAY İletişim : Sayısal Analiz yyurtay@sakarya.edu.tr www.cs.sakarya.edu.tr/yyurtay (264) 295 58 99 Giriş 1 Amaç : Mühendislik problemlerinin bilgisayar ortamında çözümünü mümkün kılacak

Detaylı

ÜNİT E ÜNİTE GİRİŞ. Algoritma Mantığı. Algoritma Özellikleri PROGRAMLAMA TEMELLERİ ÜNİTE 3 ALGORİTMA

ÜNİT E ÜNİTE GİRİŞ. Algoritma Mantığı. Algoritma Özellikleri PROGRAMLAMA TEMELLERİ ÜNİTE 3 ALGORİTMA PROGRAMLAMA TEMELLERİ ÜNİTE 3 ALGORİTMA GİRİŞ Bilgisayarların önemli bir kullanım amacı, veri ve bilgilerin kullanılarak var olan belirli bir problemin çözülmeye çalışılmasıdır. Bunun için, bilgisayarlar

Detaylı

VERİ TABANI YÖNETİM SİSTEMLERİ

VERİ TABANI YÖNETİM SİSTEMLERİ VERİ TABANI YÖNETİM SİSTEMLERİ Veri Tabanı Nedir? Sistematik erişim imkânı olan, yönetilebilir, güncellenebilir, taşınabilir, birbirleri arasında tanımlı ilişkiler bulunabilen bilgiler kümesidir. Bir kuruluşa

Detaylı

BÖLÜM 2 VERİ SETİNİN HAZIRLANMASI VE DÜZENLENMESİ

BÖLÜM 2 VERİ SETİNİN HAZIRLANMASI VE DÜZENLENMESİ 1 BÖLÜM 2 VERİ SETİNİN HAZIRLANMASI VE DÜZENLENMESİ Veri seti; satırlarında gözlem birimleri, sütunlarında ise değişkenler bulunan iki boyutlu bir matristir. Satır ve sütunların kesişim bölgelerine 'hücre

Detaylı

Semantik Ağ ve Üst Veri Sistemleri İçin Yeni Nesil Veri Tabanı Yönetim Modeli: NoSQL. R. Orçun Madran Atılım Üniversitesi. www.madran.

Semantik Ağ ve Üst Veri Sistemleri İçin Yeni Nesil Veri Tabanı Yönetim Modeli: NoSQL. R. Orçun Madran Atılım Üniversitesi. www.madran. Semantik Ağ ve Üst Veri Sistemleri İçin Yeni Nesil Veri Tabanı Yönetim Modeli: NoSQL R. Orçun Madran Atılım Üniversitesi www.madran.net İçerik NoSQL Ne Değildir? Neden NoSQL? Ne Zaman NoSQL? NoSQL'in Tarihçesi.

Detaylı

Fiziksel Veritabanı Modelleme

Fiziksel Veritabanı Modelleme Fiziksel Veritabanı Modelleme Fiziksel Veritabanı VTYS, verileri yan bellekte tutar. Bu yüzden VTYS lerde sıklıkla READ (yan bellekten okuma) ve WRITE (yan belleğe yazma) işlemi meydana gelir. READ ve

Detaylı

LOGO İş Zekası çözümü ile kurumsal raporlama ve analizler. Cem Yılmaz Genel Müdür LOGOBI Yazılım

LOGO İş Zekası çözümü ile kurumsal raporlama ve analizler. Cem Yılmaz Genel Müdür LOGOBI Yazılım LOGO İş Zekası çözümü ile kurumsal raporlama ve analizler Cem Yılmaz Genel Müdür LOGOBI Yazılım Hakkımızda LOGOBI Yazılım A.Ş. iş zekası alanında faaliyet gösteren, Türkiye de sahip olduğu yüzlerce müşterinin

Detaylı

Büyük Veri ve Endüstri Mühendisliği

Büyük Veri ve Endüstri Mühendisliği Büyük Veri ve Endüstri Mühendisliği Mustafa Gökçe Baydoğan Endüstri Mühendisliği Bölümü Boğaziçi Üniversitesi İstanbul Yöneylem Araştırması/Endüstri Mühendisliği Doktora Öğrencileri Kolokyumu 21-22 Nisan

Detaylı

BÖLÜM 13 HİPOTEZ TESTİ

BÖLÜM 13 HİPOTEZ TESTİ 1 BÖLÜM 13 HİPOTEZ TESTİ Bilimsel yöntem aşamalarıyla tanımlanmış sistematik bir bilgi üretme biçimidir. Bilimsel yöntemin aşamaları aşağıdaki gibi sıralanabilmektedir (Karasar, 2012): 1. Bir problemin

Detaylı

Aktarımı Çalıştırmak/Geri Almak 146 Alan Seçenekleri 148 Veri Tabanı Şeması 150 Veri Tabanı ile İlgili Bazı Rake Görevleri 162 Modeller 164

Aktarımı Çalıştırmak/Geri Almak 146 Alan Seçenekleri 148 Veri Tabanı Şeması 150 Veri Tabanı ile İlgili Bazı Rake Görevleri 162 Modeller 164 xi Ruby on Rails Nedir? 2 Rails Neden Farklıdır? 2 Başlamadan Önce Bilinmesi Gerekenler 4 İnternet Nasıl Çalışır? 4 İstemci-Web Sunucu İlişkisi 5 HTTP Protokolü 6 URL-Kaynak Konumlandırma Adresleri 7 HTTP

Detaylı

Veritabanı Yönetim Sistemleri (Veritabanı Kavramı) Veritabanı Sistemleri

Veritabanı Yönetim Sistemleri (Veritabanı Kavramı) Veritabanı Sistemleri Veritabanı Yönetim Sistemleri (Veritabanı Kavramı) Veritabanı Sistemleri Konular Büyük Resim Ders Tanıtımı Niçin Veritabanı? Veri ve Bilgi Kavramları Klasik Dosya Yapıları Klasik Dosya Sistemlerinin Zayıflıkarı

Detaylı

VERİ TABANI YÖNETİM SİSTEMLERİ

VERİ TABANI YÖNETİM SİSTEMLERİ VERİ TABANI YÖNETİM SİSTEMLERİ ÖĞR.GÖR.VOLKAN ALTINTAŞ 26.9.2016 Veri Tabanı Nedir? Birbiriyle ilişkisi olan verilerin tutulduğu, Kullanım amacına uygun olarak düzenlenmiş veriler topluluğunun, Mantıksal

Detaylı

Algoritma Geliştirme ve Veri Yapıları 2 Veri Modelleri. Mustafa Kemal Üniversitesi

Algoritma Geliştirme ve Veri Yapıları 2 Veri Modelleri. Mustafa Kemal Üniversitesi Algoritma Geliştirme ve Veri Yapıları 2 Veri Modelleri Veri modelleri, veriler arasında ilişkisel ve sırasal düzeni gösteren kavramsal tanımlardır. Her program en azından bir veri modeline dayanır. Uygun

Detaylı

İş Zekâsı Sistemi Projesi

İş Zekâsı Sistemi Projesi BI İş Zekâsı Sistemi Projesi Ulaş Kula, Bilişim Ltd. Esinkap 5. Ar-Ge Proje Pazarı 31 Mayıs 2012 Bilişim Ltd. 1985 te kurulan Bilişim Ltd, Türkiye nin üstün başarıyla sonuçlanmış önemli projelerine imza

Detaylı

Yrd. Doç. Dr. Gökçe BECİT İŞÇİTÜRK. Gökçe BECİT İŞÇİTÜRK 1

Yrd. Doç. Dr. Gökçe BECİT İŞÇİTÜRK. Gökçe BECİT İŞÇİTÜRK 1 Yrd. Doç. Dr. Gökçe BECİT İŞÇİTÜRK Gökçe BECİT İŞÇİTÜRK 1 Gökçe BECİT İŞÇİTÜRK 2 Kullanıcıların site içeriğini belirlemede rol oynadığı, Dinamik, Teknik bilgi gerektirmeyen, Çok yönlü etkileşim sağlayan,

Detaylı

1. GİRİŞ Kılavuzun amacı. Bu bölümde;

1. GİRİŞ Kılavuzun amacı. Bu bölümde; 1. GİRİŞ Bu bölümde; Kılavuzun amacı EViews Yardım EViews Temelleri ve Nesneleri EViews ta Matematiksel İfadeler EViews Ana Ekranındaki Alanlar 1.1. Kılavuzun amacı Ekonometri A. H. Studenmund tarafından

Detaylı

Veri Ambarları. Erdem Alparslan

Veri Ambarları. Erdem Alparslan Veri Ambarları Erdem Alparslan İçerik Veri Ambarı nedir? Data Mart OLTP ve Veri Ambarı arasındaki farklar Veri Ambarının Yararları Veri Ambarı Mimarileri Ana Kavramlar Araçlar ve Teknolojiler Veri Ambarı

Detaylı

Kümeler arası. Küme içi. uzaklıklar. maksimize edilir. minimize edilir

Kümeler arası. Küme içi. uzaklıklar. maksimize edilir. minimize edilir Kümeleme Analizi: Temel Kavramlar ve Algoritmalar Kümeleme Analizi Nedir? Her biri bir dizi öznitelik ile, veri noktalarının bir kümesi ve noktalar arasındaki benzerliği ölçen bir benzerlik ölçümü verilmiş

Detaylı

SPSS E GİRİŞ SPSS TE TEMEL İŞLEMLER. Abdullah Can

SPSS E GİRİŞ SPSS TE TEMEL İŞLEMLER. Abdullah Can SPSS E GİRİŞ SPSS TE TEMEL İŞLEMLER SPSS in üzerinde işlem yapılabilecek iki ana ekran görünümü vardır. DATA VIEW (VERİ görünümü) VARIABLE VIEW (DEĞİŞKEN görünümü) 1 DATA VIEW (VERİ görünümü) İstatistiksel

Detaylı

Kalite Kontrol Yenilikler

Kalite Kontrol Yenilikler Kalite Kontrol Yenilikler Amaç ve Fayda Kalite Kontrol modülünde ISO 2859 standardının desteklenmesine, kullanımın daha fonksiyonel ve rahat olabilmesine yönelik bazı iyileştirme çalışmaları yapılmıştır.

Detaylı

BÖLÜM-1.BİLİM NEDİR? Tanımı...1 Bilimselliğin Ölçütleri...2 Bilimin İşlevleri...3

BÖLÜM-1.BİLİM NEDİR? Tanımı...1 Bilimselliğin Ölçütleri...2 Bilimin İşlevleri...3 KİTABIN İÇİNDEKİLER BÖLÜM-1.BİLİM NEDİR? Tanımı...1 Bilimselliğin Ölçütleri...2 Bilimin İşlevleri...3 BÖLÜM-2.BİLİMSEL ARAŞTIRMA Belgesel Araştırmalar...7 Görgül Araştırmalar Tarama Tipi Araştırma...8

Detaylı

BÖLÜM 1 ÖLÇME VE DEĞERLENDİRMEDE TEMEL KAVRAMLAR

BÖLÜM 1 ÖLÇME VE DEĞERLENDİRMEDE TEMEL KAVRAMLAR İÇİNDEKİLER BÖLÜM 1 ÖLÇME VE DEĞERLENDİRMEDE TEMEL KAVRAMLAR I. Öğretimde Ölçme ve Değerlendirmenin Gerekliliği... 2 II. Ölçme Kavramı... 3 1. Tanımı ve Unsurları... 3 2. Aşamaları... 3 2.1. Ölçülecek

Detaylı

VERİ YAPILARI VE PROGRAMLAMA

VERİ YAPILARI VE PROGRAMLAMA VERİ YAPILARI VE PROGRAMLAMA (BIP116) Yazar: Doç.Dr.İ.Hakkı.Cedimoğlu SAKARYA ÜNİVERSİTESİ Adapazarı Meslek Yüksekokulu Bu ders içeriğinin basım, yayım ve satış hakları Sakarya Üniversitesi ne aittir.

Detaylı

Akdeniz Üniversitesi

Akdeniz Üniversitesi F. Ders Tanıtım Formu Dersin Adı Öğretim Dili Akdeniz Üniversitesi Bilgi Teknolojileri Kullanımı Türkçe Dersin Verildiği Düzey Ön Lisans ( ) Lisans (x) Yüksek Lisans( ) Doktora( ) Eğitim Öğretim Sistemi

Detaylı

İş Zekası için Dört-Katmanlı Veri Modellemesi Gerçekleştirimi. Harun Gökçe EG Yazılım, TOBB ETÜ

İş Zekası için Dört-Katmanlı Veri Modellemesi Gerçekleştirimi. Harun Gökçe EG Yazılım, TOBB ETÜ İş Zekası için Dört-Katmanlı Veri Modellemesi Gerçekleştirimi Harun Gökçe EG Yazılım, TOBB ETÜ İçerik İş Zekası Kavramı Tarihçesi İş Zekası Tanım, Kavramlar ve Gereklilik Dört-Katmanlı Veri Modellemesi

Detaylı

Data Science Boot Camp

Data Science Boot Camp Data Science Boot Camp Eğitim Detayları Eğitim Süresi : 3 Gün Kontenjan : 12 Ön Koşullar : Eğitim Hakkında Data Science Boot Camp Sertifikasyon Programı Introductory Python, Data Science with Python: Data

Detaylı

Öğr. Gör. Serkan AKSU http://www.serkanaksu.net. http://www.serkanaksu.net/ 1

Öğr. Gör. Serkan AKSU http://www.serkanaksu.net. http://www.serkanaksu.net/ 1 Öğr. Gör. Serkan AKSU http://www.serkanaksu.net http://www.serkanaksu.net/ 1 JavaScript JavaScript Nedir? Nestcape firması tarafından C dilinden esinlenerek yazılmış, Netscape Navigator 2.0 ile birlikte

Detaylı

TANIMLAYICI İSTATİSTİKLER

TANIMLAYICI İSTATİSTİKLER TANIMLAYICI İSTATİSTİKLER Tanımlayıcı İstatistikler ve Grafikle Gösterim Grafik ve bir ölçüde tablolar değişkenlerin görsel bir özetini verirler. İdeal olarak burada değişkenlerin merkezi (ortalama) değerlerinin

Detaylı

TEMEL İSTATİSTİKİ KAVRAMLAR YRD. DOÇ. DR. İBRAHİM ÇÜTCÜ

TEMEL İSTATİSTİKİ KAVRAMLAR YRD. DOÇ. DR. İBRAHİM ÇÜTCÜ TEMEL İSTATİSTİKİ KAVRAMLAR YRD. DOÇ. DR. İBRAHİM ÇÜTCÜ 1 İstatistik İstatistik, belirsizliğin veya eksik bilginin söz konusu olduğu durumlarda çıkarımlar yapmak ve karar vermek için sayısal verilerin

Detaylı

Uzaktan Algılama Teknolojileri

Uzaktan Algılama Teknolojileri Uzaktan Algılama Teknolojileri Ders 11 Hiperspektral Görüntülerde Kümeleme ve Sınıflandırma Alp Ertürk alp.erturk@kocaeli.edu.tr Sınıflandırma Sınıflandırma işleminin amacı, her piksel vektörüne bir ve

Detaylı

Yapay Sinir Ağları ile Web İçeriklerini Sınıflandırma. Yazarlar: Esra Nergis Güven, Hakan Onur ve Şeref Sağıroğlu. Sunan : Esra Nergis Güven

Yapay Sinir Ağları ile Web İçeriklerini Sınıflandırma. Yazarlar: Esra Nergis Güven, Hakan Onur ve Şeref Sağıroğlu. Sunan : Esra Nergis Güven Yapay Sinir Ağları ile Web İçeriklerini Sınıflandırma Yazarlar: Esra Nergis Güven, Hakan Onur ve Şeref Sağıroğlu Sunan : Esra Nergis Güven İçerik Giriş Amaç ve Kapsam Sınıflandırma Geliştirilen Sistem

Detaylı

2-Veritabanı Yönetim Sistemleri/ Temel Kavramlar

2-Veritabanı Yönetim Sistemleri/ Temel Kavramlar 2-Veritabanı Yönetim Sistemleri/ Temel Kavramlar Öğr. Gör. Saliha Kevser KAVUNCU Veritabanı neden kullanılır? Veritabanının amacı; insanların ve organizasyonların birşeyleri takip edebilmesine yardımcı

Detaylı

VERİ MADENCİLİĞİ (Veri Önişleme-1) Yrd.Doç.Dr. Kadriye ERGÜN

VERİ MADENCİLİĞİ (Veri Önişleme-1) Yrd.Doç.Dr. Kadriye ERGÜN VERİ MADENCİLİĞİ (Veri Önişleme-1) Yrd.Doç.Dr. Kadriye ERGÜN kergun@balikesir.edu.tr Genel İçerik Veri Madenciliğine Giriş Veri Madenciliğinin Adımları Veri Madenciliği Yöntemleri Sınıflandırma Kümeleme

Detaylı

Dr. Ergün AKGÜN Kimdir?

Dr. Ergün AKGÜN Kimdir? Dr. Ergün AKGÜN Kimdir? Dr. Ergün AKGÜN 1985 yılında Bursa nın İnegöl İlçesinde doğmuştur. Lisans eğitimini Muğla Üniversitesi Sınıf Öğretmenliği bölümünde yapmıştır. Muğla Üniversitesinde Eğitim Programları

Detaylı

BEDEN EĞİTİMİ VE SPOR ÖĞRETMENLİĞİ BÖLÜMÜ ARAŞTIRMA PROJESİ DERSİ UYGULAMA KURALLARI

BEDEN EĞİTİMİ VE SPOR ÖĞRETMENLİĞİ BÖLÜMÜ ARAŞTIRMA PROJESİ DERSİ UYGULAMA KURALLARI BEDEN EĞİTİMİ VE SPOR ÖĞRETMENLİĞİ BÖLÜMÜ ARAŞTIRMA PROJESİ DERSİ UYGULAMA KURALLARI 1. Bu uygulama kurallarının amacı, Beden Eğitimi ve Spor Yüksekokulu Beden Eğitimi ve Spor Eğitimi bölümü 8. Yarıyılda

Detaylı

Eğitim seti (training set) sınıflandırma modelinin elde edileceği kayıtları içerir

Eğitim seti (training set) sınıflandırma modelinin elde edileceği kayıtları içerir sınıflandırma: temel kavramlar, karar ağaçları ve model değerlendirme Sınıflandırma : Tanım Eğitim seti (training set) sınıflandırma modelinin elde edileceği kayıtları içerir Eğitim setindeki her kayıt

Detaylı

Ders 9 Hastanelerde Veri Toplama Yöntemleri

Ders 9 Hastanelerde Veri Toplama Yöntemleri Ders 9 Hastanelerde Veri Toplama Yöntemleri İstatistik Nedir? İstatistik; veri olarak ifade edilir. Sayılabilen her bilgi veridir. İstatistik; verilerin toplanması, düzenlenmesi, analiz edilmesi ve yorumlanmasıdır.

Detaylı

Üst Düzey Programlama

Üst Düzey Programlama Üst Düzey Programlama XML 1 XML XML (Extensible Markup Language) verileri belirli yapıda tutmak için kullanılan bir işaretleme dilidir. Bu yapı bilindiği için verinin istenildiğinde kullanılmasını, değiştirilmesini

Detaylı

Analitik Hiyerarşi Prosesi (AHP) Yrd.Doç.Dr. Sabahattin Kerem AYTULUN

Analitik Hiyerarşi Prosesi (AHP) Yrd.Doç.Dr. Sabahattin Kerem AYTULUN Analitik Hiyerarşi Prosesi (AHP) Yrd.Doç.Dr. Sabahattin Kerem AYTULUN Giriş AHP Thomas L.Saaty tarafından 1970'lerde ortaya atılmıştır. Amaç alternatifler arasından en iyisinin seçilmesidir. Subjektif

Detaylı

K En Yakın Komşu Methodu (KNearest Neighborhood)

K En Yakın Komşu Methodu (KNearest Neighborhood) K En Yakın Komşu Methodu (KNearest Neighborhood) K-NN algoritması, Thomas. M. Cover ve Peter. E. Hart tarafından önerilen, örnek veri noktasının bulunduğu sınıfın ve en yakın komşunun, k değerine göre

Detaylı

İSTATİSTİK STATISTICS (2+0) Yrd.Doç.Dr. Nil TOPLAN SAÜ.MÜH. FAK. METALURJİ VE MALZEME MÜH. BÖLÜMÜ ÖĞRETİM ÜYESİ ÖĞRETİM YILI

İSTATİSTİK STATISTICS (2+0) Yrd.Doç.Dr. Nil TOPLAN SAÜ.MÜH. FAK. METALURJİ VE MALZEME MÜH. BÖLÜMÜ ÖĞRETİM ÜYESİ ÖĞRETİM YILI İSTATİSTİK STATISTICS (+) Yrd.Doç.Dr. Nil TOPLAN SAÜ.MÜH. FAK. METALURJİ VE MALZEME MÜH. BÖLÜMÜ ÖĞRETİM ÜYESİ ÖĞRETİM YILI KONU BAŞLIKLARI :. İSTATİSTİĞE GİRİŞ. VERİLERİN DÜZENLENMESİ. MERKEZİ EĞİLİM ÖLÇÜLERİ.

Detaylı

WEB ARAÇLARI VE UZAKTAN EĞİTİM CEIT357-4.HAFTA

WEB ARAÇLARI VE UZAKTAN EĞİTİM CEIT357-4.HAFTA WEB ARAÇLARI VE UZAKTAN EĞİTİM CEIT357-4.HAFTA 1 Giriş Bu bölümümde günümüzde en çok kullanılan Web araçları tanıtılacak ve anlatılacaktır.bunların eğitimde, özellikle uzaktan eğitimde nasıl kullanıldığından

Detaylı

Bilişim Sistemleri. Modelleme, Analiz ve Tasarım. Yrd. Doç. Dr. Alper GÖKSU

Bilişim Sistemleri. Modelleme, Analiz ve Tasarım. Yrd. Doç. Dr. Alper GÖKSU Bilişim Sistemleri Modelleme, Analiz ve Tasarım Yrd. Doç. Dr. Alper GÖKSU Ders Akışı Hafta 10-11. Nesneye Yönelik Sistem Tasarımı Haftanın Amacı Bilişim sistemleri geliştirmede nesneye yönelik sistem tasarımı

Detaylı

PERFORMANS YÖNETĐMĐ. Hedefe Odaklı Çalışma ve Yetkinlik Yönetimi.

PERFORMANS YÖNETĐMĐ. Hedefe Odaklı Çalışma ve Yetkinlik Yönetimi. PERFORMANS YÖNETĐMĐ Kurumların yapısına uygun performans yönetimi sistemini esnek yapı sayesinde Đnsan Kaynakları uygulaması içinde tanımlayarak takip edebilme Performans kayıtlarını yöneticilere e-posta

Detaylı

Site Türleri ve Yapıları. Web Teknolojileri ve Programlama ODTÜ-SEM

Site Türleri ve Yapıları. Web Teknolojileri ve Programlama ODTÜ-SEM Site Türleri ve Yapıları Web Teknolojileri ve Programlama ODTÜ-SEM Site Türleri Halka açık Web Siteleri: Belirli bir sınıfın erişimine kapalı olmayan İnternet sayfalarıdır. İç İnternet, intranet. Bir kuruluşa

Detaylı

Başlıca Ürün-Bilgi Sistemleri

Başlıca Ürün-Bilgi Sistemleri BİLGİ SİSTEMLERİ Başlıca Ürün-Bilgi Sistemleri Süreç İşleme Sistemleri, Ofis Otomasyon Sistemleri ve Bilgi İşleme Sistemleri, Yönetim Bilişim Sistemleri, Karar Destek Sistemleri, Uzman Sistemler ve Yapay

Detaylı

Büyük Veri Analitiği (Big Data Analytics)

Büyük Veri Analitiği (Big Data Analytics) Büyük Veri Analitiği (Big Data Analytics) M. Ali Akcayol Gazi Üniversitesi Bilgisayar Mühendisliği Bölümü Bu dersin sunumları, Mining of Massive Datasets, Jure Leskovec, Anand Rajaraman, Jeffrey David

Detaylı

Yükleme Emrinde bulunan belge numarası, kamyon plaka numarası ve şoför adının irsaliyeye taşınması,

Yükleme Emrinde bulunan belge numarası, kamyon plaka numarası ve şoför adının irsaliyeye taşınması, SEVK VE YÜKLEME EMRİ YENİLİKLERİ Amaç ve Fayda Sevk ve Yükleme Emrine bağlı işlemlerde yapılan yenilikler ile; Yükleme Emri oluştururken stok bakiye kontrolü, Yükleme Emri Oluşturulurken stoktan ayrılan

Detaylı

Metin Sınıflandırma. Akış

Metin Sınıflandırma. Akış Metin Sınıflandırma Mehmet Fatih AMASYALI BLM 5212 Doğal Dil İşlemeye Giriş Ders Notları Akış Görev Eğiticili Eğiticisiz Öğrenme Metin Özellikleri Metin Kümeleme Özellik Belirleme Çok Boyutlu Verilerle

Detaylı

DERS TANITIM BİLGİLERİ. Dersin Adı Kodu Yarıyıl Teori (saat/hafta) Laboratuar (saat/hafta) Uygulama (saat/hafta) AKTS. Yerel Kredi

DERS TANITIM BİLGİLERİ. Dersin Adı Kodu Yarıyıl Teori (saat/hafta) Laboratuar (saat/hafta) Uygulama (saat/hafta) AKTS. Yerel Kredi DERS TANITIM BİLGİLERİ Dersin Adı Kodu Yarıyıl Teori (saat/hafta) Uygulama (saat/hafta) Laboratuar (saat/hafta) Yerel Kredi AKTS Temel Bilgi ve İletişim BEB650 Güz / 0 2 0 1 2 Teknolojileri Kullanımı Bahar

Detaylı

İÇİNDEKİLER BİRİNCİ KISIM: TASARIM PAZARLAMA ARAŞTIRMASINA GİRİŞ

İÇİNDEKİLER BİRİNCİ KISIM: TASARIM PAZARLAMA ARAŞTIRMASINA GİRİŞ İÇİNDEKİLER ÖNSÖZ... v TEŞEKKÜR... vi İKİNCİ BASKIYA ÖNSÖZ VE TEŞEKKÜR... vii İÇİNDEKİLER... ix ŞEKİLLER LİSTESİ... xviii TABLOLAR LİSTESİ... xx BİRİNCİ KISIM: TASARIM BİRİNCI BÖLÜM PAZARLAMA ARAŞTIRMASINA

Detaylı

İLİŞKİSEL VERİ MODELİ

İLİŞKİSEL VERİ MODELİ İLİŞKİSEL VERİ MODELİ Tablolar ile Gösterim Her İlişki iki boyutlu bir tablo olarak gösterilir. Tablonun her sütununa bir nitelik atanır. Tablonun her satırı ise bir kaydı gösterir. Bilimsel kesimde daha

Detaylı

BS503 BİLİMSEL NEDENSELLİK VE YAZIM

BS503 BİLİMSEL NEDENSELLİK VE YAZIM Temel Kavramlar 1. Seminer BS503 BİLİMSEL NEDENSELLİK VE YAZIM MSGSÜ Enformatik Bölümü BST/MKE Y. Lisans Programları PROF. DR. SALİH OFLUOĞLU Araştırma Neden araştırma yapılır? Belirli bir alanda: varolan

Detaylı

ÇEVRİM İÇİ VERİ TABANLARININ SEÇİMİ VE KULLANIMINDA KÜTÜPHANECİLERİN ROLÜ

ÇEVRİM İÇİ VERİ TABANLARININ SEÇİMİ VE KULLANIMINDA KÜTÜPHANECİLERİN ROLÜ ÇEVRİM İÇİ VERİ TABANLARININ SEÇİMİ VE KULLANIMINDA KÜTÜPHANECİLERİN ROLÜ Dr. Hatice Kübra Bahşişoğlu ÜNAK Kamil Çömlekçi ÜNAK Kütüphanecilerin Değişen Rolleri Geleneksel Roller Koleksiyon geliştirme ve

Detaylı

HASTANE OTOMASYONU VERİ TABANI YÖNETİM SİSTEMLERİ TEMEL VERİTABANI KAVRAMLARI

HASTANE OTOMASYONU VERİ TABANI YÖNETİM SİSTEMLERİ TEMEL VERİTABANI KAVRAMLARI VERİ TABANI YÖNETİM SİSTEMLERİ HASTANE OTOMASYONU Öğr. Gör. Handan ÇETİNKAYA İstanbul Gelişim Üniversitesi Günümüzde en basitinden en karmaşığına kadar pek çok veritabanı mevcuttur. En basiti Microsoft

Detaylı

Mesleki Terminoloji II Veri Madenciliği

Mesleki Terminoloji II Veri Madenciliği Mesleki Terminoloji II Veri Madenciliği Burak Düşün - 14011055 Akif Berkay Gürcan - 14011023 Veri Madenciliği Nedir? Veri madenciliği, büyük miktarda verinin anlamlı örüntüler bulmak amacıyla otomatik

Detaylı

TEMEL KAVRAMLAR. BS503 ARAŞTIRMA YÖNTEMLERİ 1. seminer PROF. DR. SALİH OFLUOĞLU MSGSÜ ENFORMATİK BÖLÜMÜ BİLGİSAYAR ORTAMINDA SANAT VE TASARIM 1

TEMEL KAVRAMLAR. BS503 ARAŞTIRMA YÖNTEMLERİ 1. seminer PROF. DR. SALİH OFLUOĞLU MSGSÜ ENFORMATİK BÖLÜMÜ BİLGİSAYAR ORTAMINDA SANAT VE TASARIM 1 TEMEL KAVRAMLAR 1. seminer PROF. DR. SALİH OFLUOĞLU MSGSÜ ENFORMATİK BÖLÜMÜ BİLGİSAYAR ORTAMINDA SANAT VE TASARIM 1 ARAŞTIRMA Neden araştırma yapılır? Araştırma sorularına yanıt bulmak Araştırma problemlerinin

Detaylı

ALP OĞUZ ANADOLU LİSESİ EĞİTİM ÖĞRETİM YILI BİLGİSAYAR BİLİMİ DERSİ 2.DÖNEM 2.SINAV ÖNCESİ ÇALIŞMA SORULARI VE YANITLARI

ALP OĞUZ ANADOLU LİSESİ EĞİTİM ÖĞRETİM YILI BİLGİSAYAR BİLİMİ DERSİ 2.DÖNEM 2.SINAV ÖNCESİ ÇALIŞMA SORULARI VE YANITLARI ALP OĞUZ ANADOLU LİSESİ 2017-2018 EĞİTİM ÖĞRETİM YILI BİLGİSAYAR BİLİMİ DERSİ 2.DÖNEM 2.SINAV ÖNCESİ ÇALIŞMA SORULARI VE YANITLARI Doğru yanıtlar kırmızı renkte verilmiştir. 1. Problemlerin her zaman sıradan

Detaylı

10-Veri Tabanları. www.cengizcetin.net

10-Veri Tabanları. www.cengizcetin.net 10-Veri Tabanları 1 VERİ TABANI VERİTABANI (DATABASE) Birbiri ile ilişkili bir veya daha fazla tablodan oluşan bilgi topluluğudur. Veri tabanındaki tablolara ulaşılarak sorgulama yapılır ve istenilen bilgiler

Detaylı

ÜRETİMDE SONLU KAPASİTE ÇİZELGELEME VE YAZILIMIN ÖNEMİ! Üretim ve Planlama Direktörü

ÜRETİMDE SONLU KAPASİTE ÇİZELGELEME VE YAZILIMIN ÖNEMİ! Üretim ve Planlama Direktörü ÜRETİMDE SONLU KAPASİTE ÇİZELGELEME BİLAL AKAY Üretim ve Planlama Direktörü 1 Üretim planlama yazılımı denince birçoğumuzun aklına ilk gelen, MRP/ERP grubundaki yazılımlardır. Genellikle Üretim Planlama

Detaylı

SBE16 / Akıllı Metropoller Ekim 2016 / İSTANBUL

SBE16 / Akıllı Metropoller Ekim 2016 / İSTANBUL SBE16 / Akıllı Metropoller 13-15 Ekim 2016 / İSTANBUL TAKDİM PLANI Teknolojik Gelişim ve 3 Boyuta Geçiş : 2B gösterim tekniği haritacılığın doğuşundan beri kullanılmaktadır. Bu temsil şekli yerleşmiş alışkanlıklar

Detaylı

Öğretim planındaki AKTS Ulusal Kredi

Öğretim planındaki AKTS Ulusal Kredi Ders Kodu Teorik Uygulama Lab. Yazılım Gereksinimleri Mühendisliği Ulusal Kredi Öğretim planındaki AKTS 481052000001303 3 0 0 3 5 Dersin Yürütülmesi Hakkında Bu ders gerçek dünya problemlerinin analiz

Detaylı