Dr. Hidayet Takçı Veri Madencilii Dersi G Y T E Dr. Hidayet Takçı 10/05/2008 1
Çok miktarda veri toplanmı ve ambarlanmıtır. Web verisi, e-ticaret Bölüm ve dükkanlardaki ödemeler Banka/Kredi kartı ilemleri Bilgisayarlar daha ucuz ve daha güçlü hale gelmitir. Rekabetçi baskı güçlüdür Daha iyi sonuçlar ve özelletirilmi servisler salar (Örn. Müteri ilikileri yönetiminde (CRM)) Veri Madencilii Dersi G Y T E Dr. Hidayet Takçı 10/05/2008 2
Veri anormal hızlıekilde toplanmakta ve saklanmaktadır (saatte gigabyte lar seviyesinde) Uydular üzerinden uzak algılayıcılar Gökyüzünü tarayan teleskoplar Genleri açıklamak için üretilen mikro diziler Bilimsel simülasyonlar tarafından üretilen terabyte lar seviyesinde veri Geleneksel teknikler ham veri için yeterli deildir Veri madencilii bilim adamlarına u konularda yardımcı olur Veriyi sınıflandırma ve parçalara bölme Hipotez oluturmada Veri Madencilii Dersi G Y T E Dr. Hidayet Takçı 10/05/2008 3
ğ! Sıklıkla veri içindeki bilgi gizlidir ve okunabilir durumda deildir Faydalı bilgilerin kefedilmesi analistler için birkaç haftayı bulur Verilerin çou tam olarak hiçbir zaman analiz edilmemitir 4,000,000 3,500,000 3,000,000 2,500,000 2,000,000 1,500,000 1,000,000 500,000 0 1995 ten bu yana toplam depolama alanları (TB) Veri Miktarı Analistlerin sayısı 1995 1996 1997 1998 1999 From: Veri Madencilii R. Grossman, Dersi C. Kamath, G Y V. T Kumar, E Dr. Data Hidayet Mining Takçı for Scientific and Engineering 10/05/2008 Applications 4
Birkaç Tanım Dolaylı anlatılan, önceden bilinmeyen ve potansiyel olarak faydalı bilginin veriden önemsiz olmayan yöntemlerle kefi Anlamlı örüntülerin kefedilmesi için büyük miktardaki verinin, otomatik veya yarı otomatik olarak kefi & analiz edilmesidir. Veri Madencilii Dersi G Y T E Dr. Hidayet Takçı 10/05/2008 5
"# Ne deildir? telefon rehberinde bir telefona ait numaranın aranması Amazon hakkında bilgi için arama motorunda sorgu çalıtırmak Nedir? Bazı isimlere bazı yörelerde dierlerinden daha yaygın olarak raslanma durumu (O Brien, O Rurke, O Reilly gibi isimlerin Boston bölgesinde daha sık olması gibi) Kapsamlarına göre benzer dokümanların bir arada gruplanması (Amazon yamur ormanları ile, Amazon.com gibi) Veri Madencilii Dersi G Y T E Dr. Hidayet Takçı 10/05/2008 6
$ Veri Madenciliinin merkezinde, makine örenimi, örüntü tanıma, istatistik, ve veritabanı sistemleri yer alır Geleneksel teknikler bazı sebeplerden dolayı uygun olmayabilir Verinin aırı büyüklüü Verinin yüksek boyutu Verinin homojen olmaması ve daıtık yapısı Statistics/ AI Data Mining Machine Learning/ Pattern Recognition Database systems Veri Madencilii Dersi G Y T E Dr. Hidayet Takçı 10/05/2008 7
$! Tahmin (Prediction) Metotları Bazı deikenler bilinmeyen deikenleri veya dier deikenlerin gelecekteki deerlerini tahmin için kullanılır. Tanımlama (Description) Metotları Veriyi açıklayacak, insanlar tarafından yorumlanabilir örüntüleri bulacak metotlar From [Fayyad, et.al.] Advances in Knowledge Discovery and Data Mining, 1996 Veri Madencilii Dersi G Y T E Dr. Hidayet Takçı 10/05/2008 8
$!%%% Sınıflandırma (Classification) [Predictive] Kümeleme (Clustering) [Descriptive] Birliktelik Kuralları Kefi (Association Rule Discovery) [Descriptive] Sıralı Örüntü Kefi (Sequential Pattern Discovery) [Descriptive] Regresyon (Regression) [Predictive] Sapma Bulma (Deviation Detection) [Predictive] Veri Madencilii Dersi G Y T E Dr. Hidayet Takçı 10/05/2008 9
& Kayıtların bir koleksiyonu verilmi olsun (training set ) Her bir kayıt niteliklerin bir kümesini içerir (attributes), bu niteliklerden birisi sınıf niteliidir (class) Dier niteliklerin deerlerinin bir fonksiyonu olarak sınıf nitelii için bir model bulma. y=f(x1,x2,,xn) Hedef: önceden görülmeyen kayıtların olabildii kadar doru bir ekilde bir sınıfa atanması. Bir test set modelin doruluunu belirlemek için kullanılır. Genellikle, verilen veri seti eitim ve tes veri setlerine bölünür, eitim veri seti ile model kurulur, test veri seti ile de model dorulanır. Veri Madencilii Dersi G Y T E Dr. Hidayet Takçı 10/05/2008 10
1 0 10 &' Tid Geri Ödeme categorical Medini Durum categorical Gelir continuous Hileci class Geri Ödeme Medeni Durum Gelir Hileci 1 Yes Single 125K No 2 No Married 100K No 3 No Single 70K No 4 Yes Married 120K No 5 No Divorced 95K Yes 6 No Married 60K No 7 Yes Divorced 220K No No Single 75K? Yes Married 50K? No Married 150K? Yes Divorced 90K? No Single 40K? No Married 80K? Test Set 8 No Single 85K Yes 9 No Married 75K No 10 No Single 90K Yes Training Set Learn Classifier Model Veri Madencilii Dersi G Y T E Dr. Hidayet Takçı 10/05/2008 11
&(gu + Dorudan Pazarlama Hedef: Yeni bir cep telefonu ürününü almaya meyilli müterilerin bir kümesini hedefleyen mail gönderimi için maliyeti azaltmak. Yaklaım: Önceden tanıtımı yapılmı benzer bir ürün için elde edilen veri kullanılır. Müterilerin ürünü almak veya almamak yönündeki kararını biliyoruz. Bu durum sınıf niteliinin {buy, don t buy} karar formlarıeklinde sunulur. Böylesi bütün müteriler için çeitli demografik, yaam stili, irket balantıları ile ilgili bilgileri toplanır. Müterinin ii, nerede ikamet ettii, ayda ne kadar kazandıı, v.s. Bu bilgi bir sınıflayıcı modelini örenmek için kullanılır From [Berry & Linoff] Data Mining Techniques, 1997 Veri Madencilii Dersi G Y T E Dr. Hidayet Takçı 10/05/2008 12
&(gu, stisna Tespiti Hedef: Kredi kartı ilemlerinde istisna durumların tahmin edilmesi. Yaklaım: Kredi kartı ilemleri ve kredi kartında tutulan bilgileri nitelikler olarak kullan. Müteri ne zaman (gün, saat) alıveri yapar, ne alır, ne sıklıkta vaktinde ödeme yapar, vs Geçmi ilemleri dürüst (fair) ve istisna (fraud) olarak etiketle. Fair ve fraud sınıf nitelikleri olsun. lemlerden sınıf için bir model ören. Bir model aracılııyla bir hesap üzerindeki kredi kartı ilemlerini gözlemleyerek istisnayı tespit et. Veri Madencilii Dersi G Y T E Dr. Hidayet Takçı 10/05/2008 13
&(gu- Müteri Memnuniyeti/Memnuniyetsizlii : Hedef: Bir müterinin bir rakibe kaptırılma olasılıı olup olmadıı tahmin edilmeye çalıılır. Yaklaım: Nitelikleri bulmak için eski ve u andaki müterilerin her birinin detaylı ilem kayıtları kullanılır. Müteri çarıları ne sıklıktadır, nerede çaırırlar, en çok günün hangi saatinde çaırma yapılır, müterinin finansal durumu, medeni durumu nedir, vs. Müteriler sadık veya sadık deil diye etiketlenir. Sadakat için bir model bulunur. From [Berry & Linoff] Data Mining Techniques, 1997 Veri Madencilii Dersi G Y T E Dr. Hidayet Takçı 10/05/2008 14
&(gu. Gökyüzü Aratırmaları Kataloglama Hedef: Teleskopik resimlere dayalı olarak, özellikle görsel olarak sönük olan, gök cisimlerinin sınıfını (yıldız veya galaksi) tahmin etmek. Her biri 23,040 x 23,040 pixel ile sunulan toplam 3000 resim Yaklaım: Resmi bölümlere ayır Resim niteliklerini ölç (özellikler) her bir nesne için 40 adet Bu özelliklere dayalı olarak sınıfları modelle Baarı Hikayesi: Bulunması çok zor 16 yeni gök cismi bulunmutur From [Fayyad, et.al.] Advances in Knowledge Discovery and Data Mining, 1996 Veri Madencilii Dersi G Y T E Dr. Hidayet Takçı 10/05/2008 15
& Courtesy: http://aps.umn.edu lk balarda & Ouu Arada 3$0" g "!% En sonda u u /, 0",1 g gu2 3 4+51 Veri Madencilii Dersi G Y T E Dr. Hidayet Takçı 10/05/2008 16
Her biri bir dizi öznitelik ile, veri noktalarının bir kümesi ve noktalar arasındaki benzerlii ölçen bir benzerlik ölçümü verilmi olsun, kümelemenin amacı aaıdaki özellikleri salayan kümeleri bulmaktır Bir kümedeki veri noktaları dier noktalara göre daha benzerdir Farklı kümelerdeki veri noktaları dier noktalara göre daha az benzerdir. Benzerlik Ölçümleri: Eer öznitelikler sürekli deerler ise o zaman Euclidean Distance. Dierlerinde probleme uygun ölçümler kullanılır. Veri Madencilii Dersi G Y T E Dr. Hidayet Takçı 10/05/2008 17
$ Küme içi içi uzaklıklar minimize edilir Kümeler arası uzaklıklar maksimize edilir Veri Madencilii Dersi G Y T E Dr. Hidayet Takçı 10/05/2008 18
(gu + Pazar Bölümlemesi: Amaç: Her biri ayrı bir pazarlama stratejisi için uygun olabilecek farklı müteri alt gruplarını bulmak. Yaklaım: Müterilerin corafi ve yaam stillerine dayalı öznitelikleri toplanır Benzer müterilerin kümeleri bulunur. farklı Aynı kümedeki müteri örüntüleri gözlemlenip dier kümelerle karılatırma yapılarak kümeleme kalitesi ölçülür. Veri Madencilii Dersi G Y T E Dr. Hidayet Takçı 10/05/2008 19
(gu, Doküman Kümeleme: Hedef: çerisinde geçen önemli terimlere dayalı olarak benzer dokümanların gruplarını bulmak. Yaklaım: Her bir dokümanda kullanılan terimlerin frekansları belirlenir. Terimlerin frekanslarına dayalı olarak bir benzerlik bulunur. Bu bilgi kümeleme için kullanılır. Veri Madencilii Dersi G Y T E Dr. Hidayet Takçı 10/05/2008 20
u & Verilen bir koleksiyondan bazı elemanları içeren kayıtların bir kümesi verilmi olsun; Bir elemanın tekrar adedini, dier elemanların tekrar adetlerini kullanarak tahmin edecek kurallar üretilir. TID Items 1 Bread, Coke, Milk 2 Beer, Bread 3 Beer, Coke, Diaper, Milk 4 Beer, Bread, Diaper, Milk 5 Coke, Diaper, Milk Rules Discovered: 7897: 8 8 7#;"8978 Veri Madencilii Dersi G Y T E Dr. Hidayet Takçı 10/05/2008 21
u &(gu+ Supermarketin kendi kendine yönetimi Hedef: Birçok müteri tarafından birlikte satın alınan elemanların belirlenmesi. Yaklaım: Elemanlar arasındaki balantıları bulmak için barkod tarayıcılar ile toplanan satı noktası verileri ilenir. Bir klasik kural -- Eer bir müteri bez ve süt satın almısa, büyük ihtimalle bira da alır. Böylece, bez, süt ve bira yakın raflara konmalıdır Veri Madencilii Dersi G Y T E Dr. Hidayet Takçı 10/05/2008 22
u &(gu, Envanter Yönetimi: Hedef: Bir müteri araç bakım irketi onun müterilerine ait ürünlerin olası onarımlarını tahmin ederek ona uygun ekilde araç ekipmanlarını elde tutmak istemektedir. Yaklaım: farklı müteri yerleimlerinde önceki onarımlarda ihtiyaç duyulan parça ve araçlar hakkındaki veri ilenir ve örüntüler arasındaki tekrarlar kefedilir. Veri Madencilii Dersi G Y T E Dr. Hidayet Takçı 10/05/2008 23
' & Olayların kendi zaman sınırları ile uyumlu nesnelerinin bir kümesi verilmi olsun, farklı olaylar arasındaki güçlü sıralı baıntıları tahmin edecek kurallar bulunur. (A B) (C) (D E) Kurallar zaman bilgisi ile sunulmaktadır. (A B) (C) (D E) <= xg >ng <= ws <= ms Veri Madencilii Dersi G Y T E Dr. Hidayet Takçı 10/05/2008 24
' &' Satı noktası için ilem dizileri, Bilgisayar Kitapevi: (Intro_To_Visual_C) (C++_Primer) --> (Perl_for_dummies,Tcl_Tk) Spor giyim dükkanı: (Shoes) (Racket, Racketball) --> (Sports_Jacket) Telekomünikasyon alarm loglarında, (Inverter_Problem Excessive_Line_Current) (Rectifier_Alarm) --> (Fire_Alarm) Veri Madencilii Dersi G Y T E Dr. Hidayet Takçı 10/05/2008 25
3g Dier deikenlerin deerlerine dayalı olarak bir sürekli deerli hedef deiken tahmin edilmektedir, hedef deiken ile giri deikenler arasında dorusal veya dorusal olmayan bir iliki varsayılabilir. statistik ve yapay sinir aları sahalarında çalıılmıtır Örnekler: Yeni bir ürün için satı miktarlarının tahmini. Rüzgar hızlarını sıcaklık, nem oranı ve hava basıncının bir fonksiyonu olarak tahmin vs. Stok market indekslerinin zaman serileri eklinde tahmini Veri Madencilii Dersi G Y T E Dr. Hidayet Takçı 10/05/2008 26
;< ; Normal davranıtan önemli sapmaların tespiti Uygulamalar: Kredi kartı istisna saptaması A nüfuz tespiti Typical network traffic at University level may reach over 100 million connections per day Veri Madencilii Dersi G Y T E Dr. Hidayet Takçı 10/05/2008 27
= 4 Ölçeklenebilirlik Yüksek Boyut Karmaık ve Düzensiz Veri Veri Kalitesi Veri Sahiplii ve Daıtım Mahremiyetin Korunması Akan (multimedya) Veri Veri Madencilii Dersi G Y T E Dr. Hidayet Takçı 10/05/2008 28