Veri madenciliği yöntemleri

Transkript

1 Sınıflandırma ve Kümeleme Kavramları Giriş Verinin içerdiği ortak özelliklere göre ayrıştırılması işlemi sınıflandırma olarak adlandırılır, veri madenciliği tekniklerinden en çok bilinenidir; veri tabanlarındaki gizli örüntüleri açığa çıkarmakta kullanılır. Kümeleme ise verinin kendi içindeki benzerliklerin göz önüne alınarak gruplandırılması işlemidir. Veri madenciliği yöntemleri Veri madenciliğinde kullanılan çok sayıda yöntem vardır. Bu yöntemlerin çoğu istatiksel tabanlıdır. Temel olarak üç gruba ayırabiliriz: Sınıflandırma(Classification) Kümeleme(Clustering) Birliktelik kuralları (Association rules)

2 Gözetimli öğrenme(supervised learning) ve Gözetimsiz öğrenme(unsupervised learning) Elimizdeki verinin sınıf sayısı belli, hangi girdilerin hangi sonuçları ürettiği mevcutsa ve bu bilgileri kullanarak bir öğrenme yapılıyorsa bu gözetimli(supervised) öğrenmeye girmektedir. Sınıflandırma işlemi örnek olarak verilebilir. Fakat elimizdeki verinin kaç sınıfa ayrıldığını, girdilerin hangi sonuçları ürettiğini bilmeden yani ham veriden bir anlam çıkarmaya çalışılıyorsa bu işlem gözetimsiz (unsupervised) öğrenmedir. Kümeleme işlemi örnek olarak verilebilir. Sınıflandırma(Classification) nedir? Verinin içerdiği ortak özelliklere göre ayrıştırılması işlemine sınıflandırma denir. Veri madenciliğinde sıkça kullanılan bir yöntemdir. Veri tabanındaki gizli örüntüleri ortaya çıkarmakta kullanılır. Resim, örüntü tanıma, dolandırıcılık tespiti, kalite kontrol çalışmaları ve pazarlama alanlarında sınıflandırma tekniği sıkça kullanılır. Verinin sınıflandırılması için belirli bir süreç izlenir. Öncelikle var olan veri tabanının bir kısmı eğitim amacıyla kullanılarak sınıflandırma kurallarının oluşturulması sağlanır. Sınıflandırma süreci Verinin sınıflandırılma süreci iki adımdan oluşur. a) İlk adım, veri kümesine uygun bir modelin ortaya konulmasıdır.

3 Söz konusu model, veri tabanındaki kayıtların öznitelikleri kullanılarak gerçekleştirilir. Sınıflandırma modelinin elde edilmesi için veri tabanının belli bir kısmı eğitim verisi olarak kullanılır. Eğitim verisi veri tabanından rastgele seçilir. Veriye bir sınıflandırma algoritması uygulanarak sınıflama modeli elde edilir. Eğitim verisi Müşteri Borç Gelir Risk Mehmet Yüksek Yüksek Kötü Ece Yüksek Yüksek Kötü Ali Düşük Yüksek İyi Ayşe Yüksek Düşük Kötü Sinem Düşük Yüksek İyi Ahmet Düşük Düşük Kötü Eğitim verisine sınıflandırma algoritması uygulanır. Sınıflayıcı model Eğer borç = yüksek ise risk= kötü; Eğer borç = düşük ve gelir = düşük ise risk = kötü; Eğer borç = düşük ve gelir= yüksek ise risk= iyi; b) Test verisine dayanılarak sınıflandırma kuralları belirlenir. Söz konusu kurallar bu kez test verisine uygulanarak sınanır. Test verisi

4 Müşteri Borç Gelir Risk Alp Yüksek Düşük Kötü Merve Düşük Yüksek İyi Elif Düşük Düşük Kötü Cem Yüksek Yüksek Kötü Sınıflayıcı model Eğer borç = yüksek ise risk= kötü; Eğer borç = düşük ve gelir = düşük ise risk = kötü; Eğer borç = düşük ve gelir= yüksek ise risk= iyi; Kredi talep eden yeni müşteri Müşteri Borç Gelir Risk Hakan Düşük Yüksek? Risk = iyi Sınıflandırma Yöntemleri Karar Ağaçları (Decision Trees) Örnek Tabanlı Yöntemler: k en-yakın komşu (Instance Based Methods- k nearest neighbor) Bayes Sınıflandırıcı (Bayes Classifier) Yapay Sinir Ağları (Artificial Neural Networks) Genetik Algoritmalar (Genetic Algorithms) Karar Ağaçları(decision tree) ile sınıflandırma Karar ağaçları gözetimli öğrenme için çok yaygın bir yöntemdir.

5 Algoritmanın adımları: T öğrenme kümesini oluştur T kümesindeki örnekleri en iyi ayıran niteliği belirle Seçilen nitelik ile ağacın bir düğümünü oluştur ve bu düğümden çocuk düğümleri veya ağacın yapraklarını oluştur. Çocuk düğümlere ait alt veri kümesinin örneklerini belirle 3. adımda yaratılan her alt veri kümesi için Örneklerin hepsi aynı sınıfa aitse Örnekleri bölecek nitelik kalmamışsa Kalan niteliklerin değerini taşıyan örnek yoksa işlemi sonlandır. Diğer durumda alt veri kümesini ayırmak için 2. adımdan devam et. K- en yakın komşu(k nearest neighborhood) ile sınıflandırma Bütün örnekler n boyutlu uzayda bir nokta olarak alınır. Öklid mesafesi kullanılarak en yakın komşu belirlenir, dist(x 1,X 2 ) Hangi sınıfa ait olduğu bilinmeyen X q örneği, kendisine en yakın k örneğin sınıfına aittir denir. Örneğin xq noktasına en yakın beş komşu değerinden üç tanesi (-), iki tanesi (+) ise K =5 için bakıldığında xq (-) değerinde olur. Bayes Sınıflandırıcılar(Bayes Classifier) Bayes Sınıflayıcı Bayes teoremine göre istatistiksel kestirim yapar. Bir örneğin sınıf üyelik olasılığını kestirir. Naïve

6 Bayesian sınıflandırıcı (simple Bayesian classifier) oldukça başarılı bir sınıflayıcıdır. Bayes Kuralı p(x Cj) : Sınıf j den bir örneğin x olma olasılığı P(Cj) : Sınıf j nin ilk olasılığı p(x) : Herhangi bir örneğin x olma olasılığı P(Cj x) : x olan bir örneğin sınıf j den olma olasılığı (son olasılık) T öğrenme kümesinde bulunan her örnek n boyutlu uzayda tanımlı olsun, X = (x 1, x 2,, x n ) Veri kümesinde m adet sınıf bulunuyor olsun, C 1, C 2,, C m Sınıflamada son olasılığı en büyütme aranır ( the maximal P(C i X) ) Bayes teoreminden türetilebilir. P(X) olasılıgı bütün sınıflar için sabit olduğuna göre, sadece değer aranır. olasılığı için en büyük Eğer bu basitleştirilmiş ifadede bütün özellikler bağımsız ise

7 P(X C i ) aşağıdaki şekilde yazılabilir. Böylece hesap karmaşıklığı büyük ölçüde azaltılmış olur. Avantajları : Gerçekleşmesi kolaydır Çoğu durumda iyi sonuç verir. Dezavantajları: Varsayım: sınıf bilgisi verildiğinde niteliklerin bağımsız olması ve gerçek hayatta değişkenlerin birbirine bağımlı olması Değişkenler arası ilişkinin modellenememesi Kümeleme(Clustering) nedir? Kümeleme birbirlerine benzeyen veri parçalarını ayırma işlemidir. Kümeleme yöntemlerinin çoğu veri arasındaki uzaklıkları kullanır. Örneğin Öklid, manhattan ve minkowski uzaklık bağıntıları kümeleme işleminde alt işlem olarak kullanılır. Kümeleme yöntemlerinden en bilinenleri en yakın komşu algoritması ve en uzak komşu algoritmasıdır; bunlar hiyerarşik kümeleme yöntemleri olarak da bilinir. Hiyerarşik olmayan kümeleme yöntemleri arasında k-ortalamalar yöntemi sayılabilir. Uzaklık ölçüleri Kümeleme yöntemlerinin birçoğu, gözlem değerleri arasındaki uzaklıkların hesaplanması esasına dayanmaktadır. Bu nedenle

8 iki nokta arasındaki uzaklığı hesaplayan bağıntılara ihtiyaç duyulmaktadır. Bu bağıntılardan üç tanesi şunlardır: a) Öklid uzaklığı b) Manhattan uzaklığı c) Minkowski uzaklığı Öklid uzaklığı Uygulamada en çok kullanılan uzaklık ölçüsüdür. Bu uzaklık Pisagor teoreminin bir uygulamasıdır. Manhattan uzaklığı ve Minkowski uzaklığı Manhattan uzaklığı, gözlemler arasındaki mutlak uzaklıkların toplamı alınarak hesaplanır. Ve şu şekilde ifade edilir: P sayıda değişken göz önüne alınarak gözlem değerleri arasındaki uzaklığın hesaplanmasında minkowski uzaklık bağıntısı kullanılabilir.

9 Kümeleme(Clustering) Yöntemleri K-Means(k-ortalama) Kümeleme Hierarşik Kümeleme Yapay Sinir Ağları (SOM-Self Organized Feature Map) Genetik Algoritmalar K-Ortalama(K- means) Algoritması K Ortalama algoritması sürekli olarak kümelerin yenilendiği ve en uygun çözüme ulaşana kadar devam eden döngüsel bir algoritmadır. Bölümlemeli algoritmaların tipik özelliklerini taşır. İlk olarak 1967 yılında K- Ortalama algoritması ortaya atılmıştır[macqueen, 1967]. K Ortalama algoritması eldeki verileri k adet kümede ve kümelerin ortalamalarına göre kümelere ayırır. K küme sayısı kullanıcı tarafından verilir. Algoritmanın kaba kodu aşağıdaki gibidir: Girdiler: D ={t1,t2, tn} // eldeki veri tabanı K// verilen küme sayısı Adımlar: 1. Keyfi olarak m1,m2 m_kortalama belirle.

10 2. Her bir ti yi en yakın olduğu mi nin kümesine ata. 3. Kümelere ait m1,m2 m_k değerlerini yeniden hesapla. 4. Küme elemanlarında herhangi bir değişiklik yoksa dur. 5. İlk adımdan itibaren tekrar et. K-ortalama(k-means) örneği İlk adım olarak başlangıç değeri belirliyoruz. K=2 için birbirine uzak iki küme belirliyoruz. Nesneler arasındaki uzaklığı Öklid uzaklık bağıntısıyla buluyoruz. Örneğin Nesne 1 ile Nesne 2 arasındaki uzaklığı hesaplayalım. KareKök((1-1.5))^2+ (1-2))^2) = Tüm nesneler arasındaki uzaklığı hesapladıktan sonra en uzak iki nesneyi seçtik. Adım 2: Her nesneyi en uygun gruba ata ve her atama işleminden sonra atama yapılan k kitle merkezini hesapla. İterasyon

11 Nesne 1 ve Nesne 4 centroid(kitle noktası) olarak belirlendikleri için direkt gruplarına eklenirler. Nesneler için tekrar öklid uzaklıkları hesaplanır. Ancak öklid uzaklığı hesaplanırken her seferinde yeni centroid noktaları da hesaplanır. Yeni centroid noktası hesaplanırken küme elemanlarının aynı koordinatlarının değerleri toplamı bölü nesne sayısı şeklinde hesaplanmıştır. Örneğin Nesne 2 için birinci centroid e uzaklı iken ikinci centroid e uzaklık tür. Buna göre centroid biri seçeriz. Yeni centroid noktası X için (1+1.5)/2 = ve Y için (1+2)/2 = 1.5 tur. Tüm nesneler için işlemler yapıldıktan sonra gruplar ve yeni centroid(kitle) değerleri de ortaya çıkmıştır. İkinci iterasyonla tekrar bir grupları oluşturalım. Bunun için bir önceki iterasyonun centroid değerlerini alıyoruz. Tüm nesneler için tekrar grup belirleme işlemi yapıyoruz.

12 İki iterasyonun son bölümünde oluşan grupları kıyasladığımızda bir farklılık olduğunu görürüz. 3 nolu nesne ikinci kümeye girmeye karar vermiş. Bu durumda tekrar adım 2 ye döneriz. Adım 3: Yeni oluşan grubu geçmişteki grup ile kıyasla. Grupta değişim yok ise algoritmayı bitir, aksi takdirde adım 2 ye geri dön (1 defa adım 2 ye döndük). 3. iterasyon sonunda gruplarda değişim olmaz. Bu durumda algoritma sonladırılır. En son oluşan centroid değerleri küme 1 için (1.3, 1.5) iken küme 2 için (3.9, 5.1) dir. K ortalama algoritması sadece sayısal verilerde kullanılabilir; kategorik verilerde kullanılamaz. Çünkü bu verilerden elde edilecek ortalamalar bir kümeyi diğerinden ayıran anlamlı sayılar olmayacaktır. Sadece dışbükey şeklindeki kümelerin tespit edilmesinde kullanılabilir. Gürültülü ve uçtaki verilerden oldukça etkilenir.

13 En yakın komşu(k-nearest neighborhood) algoritması En yakın komşu yöntemine tek bağlantılı kümeleme yöntemi de denilmektedir. Başlangıçta tüm gözlem değerleri birer küme olarak değerlendirilir. Adım adım bu kümeler birleştirilerek yeni kümeler elde edilir. Bu yöntemle öncelikle gözlemler arasındaki uzaklıklar belirlenir. Şekilde k- en yakın komşu algoritmasının kümeleme aşamaları basitçe gösterilmiştir. Birliktelik kuralları(association rules) Veri tabanındaki bilgi miktarı arttıkça kurumlar sahip oldukları bilgiler arasında ilişkileri ortaya çıkarıp önemli sonuçlar elde etmişlerdir. İlişki analizi veri tabanındaki bir dizi bilgi ya da kaydın diğer kayıtlarla olan bağlantısını açıklayan işlemler dizisidir. Bir kayıt varken, herhangi bir başka kaydın var olma olasılığı nedir? Ya da bu iki kayıt varken, diğer üçüncü bir kaydın veri tabanına girme olasılığı nedir? İlişki analizi bu tür soruların cevaplarını verir ve verilerin birlikte olan

14 kurallarını ortaya çıkarır. İlişki analizi satış pazarlama, ürün katalog tasarımı gibi birçok alanda kullanılır. Örnek : Kola satın alan müşteriler 40% olasılıkla patates cipsi de alırlar. Birliktelik kuralları için kullanılan çok farklı algoritmalar bulunmaktadır. Bunlardan bazıları aşağıdaki gibidir. AIS: Agrawal tarafından 1993 yılında geliştirilmiştir, Apriori: Agrawal ve Srikant tarafından 1994 yılında geliştirilmiştir, SETM: Houtsma ve Swami tarafından 1995 yılında geliştirilmiştir, Partition: Savasere tarafından 1995 yılında geliştirilmiştir, FP-Growth: Han P.,Pei J.,Yin Y. Tarafından 2000 yılında geliştirilmiştir, RARM (Rapid Association Rule Mining): Das tarafından 2001 yılında geliştirilmiştir, CHARM: Zaki ve Hsiao tarafından 2002 yılında geliştirilmiştir. Bu algoritmalardan ilki AIS, en bilineni Apriori Algoritması dır Birliktelik kuralının matematiksel modeli Agrawal, Imielinski ve Swami tarafından 1993 yılında ortaya çıkarılmıştır. Birliktelik Kuralları nda Kullanılan Temel Kavramlar; Öğeler Kümesi (itemset): Bir veya daha çok öğeden oluşan kümedir. Destek sayısı (support count): Öğeler kümesinin veri kümesinde görülme sıklığıdır. Destek(support): Veride bağıntının ne kadar sık olduğunu tanımlar, öğeler kümesinin içinde bulunduğu birlikteliklerin

15 toplam birliktelik sayısına oranıdır. Destek(A=>B) şeklinde gösterilmektedir. Güven (confidence) : A malını almış bir kişinin B malını alma olasılığını vermektedir. Öğeler arasındaki birlikteliklerin doğruluğunu ifade etmektedir. Güven(A=>B) şeklinde gösterilmektedir. Yaygın öğeler (frequent itemsest): Destek değeri minimum destek değerinden büyük ya da eşit olan öğeler kümesidir. Destek (A)= Destek (A=>B)= Güven (A=>B)= Olasılık(B A) Yaygın Öğeler; 1-Elemanlı Öğeler Kümesi {Süt}à Destek Sayısı(Süt)=4; Tablo 1 deki örneğe göre 5 Pazar sepetinin 4 ünde {Süt} ürünü satın alınmış, bu yüzden {Süt} ürününün destek sayısı 4 dür. {Ekmek}-> Destek Sayısı(Ekmek)=3 {Yumurta}-> Destek Sayısı(Yumurta)=3 {Peynir}-> Destek Sayısı(Peynir)=3 Tablo1: farklı zamanlarda oluşturulmuş Pazar sepetleri A1 A2 A3 A4 Süt, Ekmek Ekmek, Yumurta Süt, Peynir Yumurta, Ekmek, Peynir, Süt A5 Peynir, Yumurta, Süt 2-Elemanlı Öğeler Kümesi

16 {Süt, Ekmek}-> Destek Sayısı(Süt, Ekmek)=2 {Ekmek, Yumurta}-> Destek Sayısı(Ekmek, Yumurta)=2 {Süt, Peynir}-> Destek Sayısı(Süt, Peynir)=3 {Yumurta, Peynir}-> Destek Sayısı(Yumurta, Peynir)=2 {Yumurta, Süt}-> Destek Sayısı(Yumurta, Süt)=2 3-Elemanlı Kümeler {Yumurta, Ekmek, Peynir}-> Destek Sayısı(Yumurta, Ekmek, Peynir)=1 {Yumurta, Ekmek, Süt}-> Destek Sayısı(Yumurta, Ekmek, Süt)=1 {Ekmek, Peynir, Süt}-> Destek Sayısı(Ekmek, Peynir, Süt)=1 {Peynir, Yumurta, Süt}-> Destek Sayısı(Peynir, Yumurta, Süt)=2 4-Elemanlı Kümeler {Yumurta, Ekmek, Peynir, Süt}-> Destek Sayısı(Yumurta, Ekmek, Peynir, Süt)=1 Hesaplamalar yapılırken minimum destek sayısı filtresi verilebilir. Örneğin minimum destek sayısı filtresi 2 ise hesaplamalara destek sayısı 1 olanlar dahil edilmez. Destek ve Güven sayılarının nasıl hesaplandığı aşağıdaki örnek ile anlaşılabilir: Destek({Yumurta}=>{Peynir})= Destek Sayısı(Yumurta,Peynir)/Toplam Alışveriş Sayısı=2/5 Güven ({Peynir, Süt}=>{Yumurta})=Destek Sayısı(Peynir,Yumurta,Süt)/Destek Sayısı(Peynir,Süt)=2/3 Bütün yaygın öğe kümeleri oluşturulduktan sonra minimum destek sayısı ve minimum güven değerlerine eşit ve büyük olan kümeler yaygın öğeler kümesine dahil edilir ve birliktelik kuralları oluşturulur.

17 Destek ve güven değerleri 0 ile 1 arasında değişmektedir. 1 e ne kadar yakınlarsa aralarındaki ilişki o kadar güçlüdür denilebilir. Güven değeri %100 ise kural kesin dir. Bu yüzden minimum güven kriterinin büyük verilmesi doğru sonucu vermesi açısından önemlidir. İki öğenin birlikteliğinin kesine yakın olabilmesi için hem destek hem de güven kriterinin yüksek olması gerekmektedir. Ayrıca minimum destek değeri küçük belirlenirse yöntem karmaşıklaşır ve çok sayıda yaygın öğe kümesi elde edilir. Kaynakça 1. Silahtaroğlu Gökhan Veri madenciliği kavram ve algoritmaları, papatya yayınları. 2. Özkan Yalçın Veri madenciliği yöntemleri, papatya yayınları. 3. Şadi evren şeker veri madenciliği youtube videoları: =PLh9ECzBB8tJNScCBWJFoMdpMkCdpnwUEl 4. ervised-ve-gozetimsiz-unsupervised-ogrenme-learningnedir/ 5. alari-k-means-algoritmasi 6.