Dr. Hidayet Takçı. Veri Madenciliği Dersi GYTE Dr. Hidayet Takçı 10/05/2008 1

Benzer belgeler
Dr. Hidayet Takçı. Veri Madencilii Dersi GYTE Dr. Hidayet Takçı 10/05/2008 1

YZM 3217 YAPAY ZEKA DERS#10: KÜMELEME

VERİ MADENCİLİĞİ (Veri Önişleme-1) Yrd.Doç.Dr. Kadriye ERGÜN

VERİ MADENCİLİĞİ (Veri Ön İşleme-2) Yrd.Doç.Dr. Kadriye ERGÜN

Kümeler arası. Küme içi. uzaklıklar. maksimize edilir. minimize edilir

Konular. VERİ MADENCİLİĞİ Veri Önişleme. Değer Kümeleri. Veri Nedir? Nitelik Türleri. Konular. Veri Veri Önişleme Benzerlik ve farklılık

VERİ MADENCİLİĞİ (Kümeleme) Yrd.Doç.Dr. Kadriye ERGÜN

Web Madenciliği (Web Mining)

VERİ MADENCİLİĞİ Metin Madenciliği

REGRESYON ANALİZİ VE UYGULAMA. Yrd. Doç. Dr. Hidayet Takcı

Genetik Algoritmalar. Bölüm 1. Optimizasyon. Yrd. Doç. Dr. Adem Tuncer E-posta:

Hafta 03/04 - Uzaklık/Benzerlik - En Yakın Komşular - Karar Ağaçları

K En Yakın Komşu Methodu (KNearest Neighborhood)

Makine Öğrenmesi 2. hafta

MATEMATİK ÖĞRETMENLİK ALAN BİLGİSİ - DENEME SINAVI DENEME. Diğer sayfaya geçiniz.

Bu bölümde; Çok ölçütlü karar verme yöntemlerinden biri olan TOPSİS yöntemi anlatılacaktır.

GENETİK ALGORİTMA ÖZNUR CENGİZ HİLAL KOCA

Genel olarak test istatistikleri. Merkezi Eğilim (Yığılma) Ölçüleri Dağılım (Yayılma) Ölçüleri. olmak üzere 2 grupta incelenebilir.

Oluşturulan evren listesinden örnekleme birimlerinin seçkisiz olarak çekilmesidir

3.2. Raster Veriler. Satırlar. Sütunlar. Piksel/hücre büyüklüğü

TEMEL İSTATİSTİKİ KAVRAMLAR YRD. DOÇ. DR. İBRAHİM ÇÜTCÜ

BÖLÜM I MATEMATİK NEDİR? Matematik Nedir? 14

7. BÖLÜM İÇ ÇARPIM UZAYLARI İÇ ÇARPIM UZAYLARI İÇ ÇARPIM UZAYLARI İÇ ÇARPIM UZAYLARI .= Genel: Vektörler bölümünde vektörel iç çarpım;

Büyük boyutun laneti (Curse of Dimensionality)

İÇİNDEKİLER ÖNSÖZ Bölüm 1 KÜMELER Bölüm 2 SAYILAR

İÇİNDEKİLER ÖNSÖZ Bölüm 1 SAYILAR 11 Bölüm 2 KÜMELER 31 Bölüm 3 FONKSİYONLAR

İMGE İŞLEME Ders-9. İmge Sıkıştırma. Dersin web sayfası: (Yrd. Doç. Dr. M.

Genel Graf Üzerinde Mutlak 1-merkez

8.Konu Vektör uzayları, Alt Uzaylar

Uzaktan Algılama Teknolojileri

MEH535 Örüntü Tanıma. 6. Boyut Azaltımı (Dimensionality Reduction)

TANIMLAYICI İSTATİSTİKLER

Dr. Y. İlker TOPCU. Dr. Özgür KABAK web.itu.edu.tr/kabak/

Hafta 09 -Topluluk Yöntemleri - Boyut Azaltma - Anomali Tespiti

Korelasyon. Korelasyon. Merkezi eğilim ve değişim ölçüleri bir defada sadece bir değişkenin özelliklerini incelememize imkan tanır.

İSTATİSTİKTE TEMEL KAVRAMLAR

Görüntü Segmentasyonu (Bölütleme)

Web Madenciliği (Web Mining)

GENETİK ALGORİTMALARA GİRİŞ (II) BİNARİ KODLANMIŞ GA

Eğitim seti (training set) sınıflandırma modelinin elde edileceği kayıtları içerir

14. LİSELERARASI MATEMATİK YARIŞMASI EKİP FİNAL SORULARI

Fonksiyon Optimizasyonunda Genetik Algoritmalar

KABLOSUZ İLETİŞİM

VERİ KÜMELERİNİ BETİMLEME

DOĞU AKDENİZ ÜNİVERSİTESİ MATEMATİK BÖLÜMÜ 23. LİSELERARASI MATEMATİK YARIŞMASI

BULANIK MANTIK VE SİSTEMLERİ BAHAR DÖNEMİ ÖDEV 1. Müslüm ÖZTÜRK Bilişim Teknolojileri Mühendisliği ABD Doktora Programı

Zeki Optimizasyon Teknikleri

VERİ MADENCİLİĞİ (Karar Ağaçları ile Sınıflandırma) Yrd.Doç.Dr. Kadriye ERGÜN

PERGEL YAYINLARI LYS 1 DENEME-6 KONU ANALİZİ SORU NO LYS 1 MATEMATİK TESTİ KAZANIM NO KAZANIMLAR

A GRUBU Noktaları adlandırılmış K 6 tam çizgesinin tam olarak 3 noktalı kaç tane alt çizgesi vardır? A) 9 B) 20 C) 24 D) 60 E) 160

Adım Adım SPSS. 1- Data Girişi ve Düzenlemesi 2- Hızlı Menü. Y. Doç. Dr. İbrahim Turan Nisan 2011

Simpleks Yönteminde Kullanılan İlave Değişkenler (Eşitliğin yönüne göre):

Appendix C: İstatistiksel Çıkarsama

YTÜ İktisat Bölümü EKONOMETRİ I Ders Notları

6. Ali her gün cebinde kalan parasının (2009) a, b ve c farklı pozitif tamsayılar, 9. x, y, z pozitif gerçek sayılar,

Şimdi de [ ] vektörünün ile gösterilen boyu veya büyüklüğü Pisagor. teoreminini iki kere kullanarak

1. BÖLÜM Polinomlar BÖLÜM II. Dereceden Denklemler BÖLÜM II. Dereceden Eşitsizlikler BÖLÜM Parabol

Uzaktan Algılama Uygulamaları

TAMSAYILAR. 9www.unkapani.com.tr. Z = {.., -3, -2, -1, 0, 1, 2, 3, } kümesinin her bir elemanına. a, b, c birer tamsayı olmak üzere, Burada,

Çok-öbekli Veri için Aradeğerlemeci Ayrışım

Otomata Teorisi (BIL 2114)

Appendix B: Olasılık ve Dağılım Teorisi

YTÜ İktisat Bölümü EKONOMETRİ I Ders Notları

YTÜ İktisat Bölümü EKONOMETRİ I Ders Notları

MATEMATİK TESTİ LYS YE DOĞRU. 1. Bu testte Matematik ile ilgili 50 soru vardır.

Zeki Optimizasyon Teknikleri

MOD419 Görüntü İşleme

Olimpiyat Soruları. sonuçları tekrar fonksiyonda yerine koyup çıkan tüm sonuçları toplayan program (iterasyon sayısı girilecek)

MIT OpenCourseWare Ekonomide İstatistiksel Yöntemlere Giriş Bahar 2009

BİLGİSAYAR PROGRAMLAMA DERSİ

Bilgisayarla Görüye Giriş

2. REGRESYON ANALİZİNİN TEMEL KAVRAMLARI Tanım

İSTATİSTİK STATISTICS (2+0) Yrd.Doç.Dr. Nil TOPLAN SAÜ.MÜH. FAK. METALURJİ VE MALZEME MÜH. BÖLÜMÜ ÖĞRETİM ÜYESİ ÖĞRETİM YILI

Web Madenciliği (Web Mining)

FAKTÖR ANALİZİ VAHİDE NİLAY KIRTAK

28/04/2014 tarihli LYS-1 Matematik-Geometri Testi konu analizi SORU NO LYS 1 MATEMATİK TESTİ KAZANIM NO KAZANIMLAR 1 / 31

MAK 210 SAYISAL ANALİZ

Boyut: Belirli bir doğrultuda ölçülmüş bir büyüklüğü ifade etmek için kullanılan geometrik bir terim.

2. Klasik Kümeler-Bulanık Kümeler

T.C. Ölçme, Seçme ve Yerleştirme Merkezi

Algoritma Geliştirme ve Veri Yapıları 3 Veri Yapıları. Mustafa Kemal Üniversitesi

T.C. Ölçme, Seçme ve Yerleştirme Merkezi

Mühendislik Mekaniği Statik. Yrd.Doç.Dr. Akın Ataş

HABERLEŞMENIN AMACI. Haberleşme sistemleri istenilen haberleşme türüne göre tasarlanır.

Programlama Dilleri. C Dili. Programlama Dilleri-ders02/ 1

İLKMATZUM 8. SINIF MATEMATİK 2016 DENEME-2

Bilgisayarla Görüye Giriş

9. SINIF Geometri TEMEL GEOMETRİK KAVRAMLAR

Gezgin Satıcı Probleminin İkili Kodlanmış Genetik Algoritmalarla Çözümünde Yeni Bir Yaklaşım. Mehmet Ali Aytekin Tahir Emre Kalaycı

Makine Öğrenmesi 11. hafta

Dr. Fatih AY Tel: fatihay@fatihay.net

Çok fazla bilgiden gizli kalmış örüntüleri ortaya çıkarma sürecine Veri Madenciliği denir.

BÖLÜM 24 PAULI SPİN MATRİSLERİ

OPTİMİZASYON TEKNİKLERİ. Kısıtsız Optimizasyon

Büyük Veri İçin İstatistiksel Öğrenme (Statistical Learning for Big Data)

Görüntü İşleme. Dijital Görüntü Tanımları. Dijital görüntü ise sayısal değerlerden oluşur.

KORELASYON VE REGRESYON ANALİZİ. Doç. Dr. Bahar TAŞDELEN

DERS 2 : BULANIK KÜMELER

Mesleki Terminoloji II Veri Madenciliği

Transkript:

İkinci Ders Veri Madenciliği: Veri Dr. Hidayet Takçı Veri Madenciliği Dersi GYTE Dr. Hidayet Takçı 10/05/2008 1

Veri Nedir? Sayısal veya mantıksal her türlü değer bir veridir. Öznitelik Bir nesneye ait özellik veya onun bir karakteristiğidir Örnek: bir kişinin göz rengi, ağırlığı vb. Öznitelik, değişken veya saha olarak ta bilinir. Nesneler Nesne Bir nesneyi açıklayacak özniteliklerin bir koleksiyonu kayıt olarak bilinir. Nesne; bir kayıt, bir nokta, bir durum, bir varlık veya bir örnek olarak da bilinir. Öznitelikler Veri Madenciliği Dersi GYTE Dr. Hidayet Takçı 10/05/2008 2

Öznitelik Değerleri Öznitelik değerleri; bir özniteliğe atanan sayılar veya sembollerdir. Öznitelikler ve öznitelik değerleri arasındaki fark Aynı öznitelik farklı öznitelik değerlerine eşlenebilir Örnek: yükseklik feet veya metre ile ölçülebilir. Farklı öznitelikler değerlerin aynı kümesi ile eşlenebilirler. Örnek: ID ve yaş için öznitelik değerleri tamsayıdır Fakat öznitelik değerlerinin özellikleri farklı olabilir. ID için bir limit yoktur ama yaş için maksimum ve minimum değerler vardır. Veri Madenciliği Dersi GYTE Dr. Hidayet Takçı 10/05/2008 3

Özniteliklerin Tipleri Özniteliklerin farklı tipleri vardır, bunlar aynı zamanda ölçüm seviyelerini verirler. Nominal Sayısal büyüklük ifade etmeyen kategorik veri tipi Örnek: ID numarası, göz rengi, posta kodu gibi Ordinal Verilerin belli bir ölçüte göre büyükten küçüğe veya küçükten büyüğe sıralandığı veri tipi Örnek: rütbe, derece, yükseklik {uzun, orta, kısa} gibi sıralı verileri içerir. Interval Bir aralık içerisindeki değerleri sunmak için kullanılan veri tipi Örnek: Tarih, Celsius veya Fahrenheit cinsinden sıcaklıklar. Ratio Gözlemlerin aldığı değerlerin, oransal olarak karşılaştırılabildiği veri tipidir Örnek: Kelvin cinsinden sıcaklık, boyut, zaman ve sayılar Veri Madenciliği Dersi GYTE Dr. Hidayet Takçı 10/05/2008 4

Sürekli ve Süreksiz Öznitelikler Sürekli öznitelik Özellik değerleri gerçek sayılar içerir Örnek: sıcaklık, yükseklik veya genişlik. Sürekli öznitelikler tipik olarak kayan noktalı değişkenlerle sunulurlar. Ayrık veya süreksiz öznitelik Özellik değerleri tam sayılar içerir Örnek: posta kodu, bir doküman koleksiyonundaki kelimelerin kümesi Sıklıkla tamsayı değişkenlerle sunulurlar. Not: ikili öznitelikler ayrık özniteliklerin özel bir durumunu meydana getirir. Veri Madenciliği Dersi GYTE Dr. Hidayet Takçı 10/05/2008 5

Veri Kümelerinin Tipleri Kayıt (Çizgisel) Veri matrisi Doküman verisi İşlem (Transaction) verisi Grafik World Wide Web Moleküler yapılar Sıralı Uzaysal veri Geçici veri Ardışık veri Genetik dizi verisi Veri Madenciliği Dersi GYTE Dr. Hidayet Takçı 10/05/2008 6

Kayıt Verisi Her biri özniteliklerin bir kümesi olan kayıtların bir koleksiyonu kayıt verisi olarak tutulur. Veri Madenciliği Dersi GYTE Dr. Hidayet Takçı 10/05/2008 7

Veri Matrisi Eğer veri nesneleri sayısal özniteliklerin sabit bir kümesine sahipse o zaman veri nesneleri her bir boyutun ayrık bir özniteliği sunduğu çok boyutlu uzayda noktalar olarak düşünülebilir. Böylesi veri setleri m adet satır ve n adet sütunun bulunduğu (m x n) boyutlu matris ile sunulabilir. Her bir nesne için n sütun ve bir satır bulunur. Projection of x Load Projection of y load Distance Load Thickness 10.23 5.27 15.22 2.7 1.2 12.65 6.25 16.22 2.2 1.1 Veri Madenciliği Dersi GYTE Dr. Hidayet Takçı 10/05/2008 8

Doküman Verisi Her bir doküman bir terim vektörü haline gelir, Her bir terim, vektörün bir bileşenidir (öznitelik), Her bir bileşenin değeri doküman içerisinde ilgili terimin kaç kez tekrarlandığı ile ilgilidir. season timeout lost wi n game score ball pla y coach team Veri Madenciliği Dersi GYTE Dr. Hidayet Takçı 10/05/2008 9

İşlem Verisi Kayıt verisinin özel bir tipidir, Her bir işlem (transaction) elemanların bir kümesini içermektedir. Örneğin, bir dükkan düşünün. Burada, ödemesi yapılan ürünlerin bir kümesi bir işlem kaydını verir. Veri Madenciliği Dersi GYTE Dr. Hidayet Takçı 10/05/2008 10

Grafik Verisi Örnek: jenerik grafikler ve HTML linkleri. 5 2 2 5 1 <a href="papers/papers.html#bbbb"> Data Mining </a> <li> <a href="papers/papers.html#aaaa"> Graph Partitioning </a> <li> <a href="papers/papers.html#aaaa"> Parallel Solution of Sparse Linear System of Equations </a> <li> <a href="papers/papers.html#ffff"> N-Body Computation and Dense Linear System Solvers Veri Madenciliği Dersi GYTE Dr. Hidayet Takçı 10/05/2008 11

Kimyasal Veri Benzen Molekülü: C 6 H 6 Veri Madenciliği Dersi GYTE Dr. Hidayet Takçı 10/05/2008 12

Sıralı Veri İşlemlerin sırasının önemli olduğu veri setleridir. Elemanlar/Olaylar Sıradaki bir eleman Veri Madenciliği Dersi GYTE Dr. Hidayet Takçı 10/05/2008 13

Sıralı Veri Uzaysal-geçici veri Karaların ve okyanusların ortalama aylık sıcaklıkları Veri Madenciliği Dersi GYTE Dr. Hidayet Takçı 10/05/2008 14

Sıralı Veri Gen dizisi verisi GGTTCCGCCTTCAGCCCCGCGCC CGCAGGGCCCGCCCCGCGCCGTC GAGAAGGGCCCGCCTGGCGGGCG GGGGGAGGCGGGGCCGCCCGAGC CCAACCGAGTCCGACCAGGTGCC CCCTCTGCTCGGCCTAGACCTGA GCTCATTAGGCGGCAGCGGACAG GCCAAGTAGAACACGCGAAGCGC TGGGCTGCCTGCTGCGACCAGGG Veri Madenciliği Dersi GYTE Dr. Hidayet Takçı 10/05/2008 15

Veri Kalitesi Bazı faktörler öne çıkmaktadır: Veri kalitesi problemleri hangi çeşitlerdedir? Veri ile ilgili problemleri nasıl tespit edebiliriz? Bu problemlerle ilgili olarak ne yapabiliriz? Veri kalitesi ile ilgili problemler: Gürültü ve taşmalar Kayıp değerler Veri tekrarı Veri Madenciliği Dersi GYTE Dr. Hidayet Takçı 10/05/2008 16

Gürültü Gürültü orijinal değerlerin bozulması anlamına gelir. Örnekler: düşük kaliteli bir telefonda konuşurken kişinin sesinin biçimin bozulması ve televizyon ekranındaki karlanma gürültü örnekleridir. İki Sinüs Dalgası İki Sinüs Dalgası + Gürültü Veri Madenciliği Dersi GYTE Dr. Hidayet Takçı 10/05/2008 17

Taşmalar Taşma (outlier), veri kümesinde, diğer nesnelerden ciddi şekilde farklı olan veri nesnelerinin gösterdiği karakteristiktir. Veri Madenciliği Dersi GYTE Dr. Hidayet Takçı 10/05/2008 18

Kayıp Değerler Kayıp değerler için çeşitli sebepler vardır: Bilgi toplanamaması (örn., insanlar yaşları ve kiloları ile ilgili bilgi vermeyi istemezler) Öznitelikler bütün durumlar için uygun olmayabilir (örn., yıllık gelir çocuklar için uygun değildir) Kayıp değerlerle mücadele Veri nesnelerinin elenmesi Kayıp değerlerin tahmin edilmesi Analizler sırasında kayıp değerlerin es geçilmesi Bütün olası değerlerle yer değiştirilmesi (onların olasılıkları ile ağırlık verilmesi) Veri Madenciliği Dersi GYTE Dr. Hidayet Takçı 10/05/2008 19

Tekrar Eden Veri Veri seti tekrar eden kayıtlar içerebilir, veya bazı kayıtlar hemen hemen tamamen diğerine eşittir Bu durum genellikle heterojen kaynaklardan gelen veriler birleştirildiğinde meydana gelir. Örnekler: Aynı kişiye ait birden fazla mail adresinin bulunması Veri temizleme Tekrar eden verilerin işlenmesi ile ilgili bir prosestir. Veri Madenciliği Dersi GYTE Dr. Hidayet Takçı 10/05/2008 20

Veri Ön İşleme Bir araya getirmek (Aggregation) Örnekleme (Sampling) Boyut Düşürme (Dimensionality Reduction) Altküme özellikleri seçimi (Feature subset selection) Özellik oluşturma (Feature creation) Ayrıklaştırma ve ikili hale getirme (Discretization and Binarization) Öznitelik dönüşümü (Attribute Transformation) Veri Madenciliği Dersi GYTE Dr. Hidayet Takçı 10/05/2008 21

Bir Araya Getirme İki veya daha fazla öznitelik veya nesnenin tek bir öznitelik veya nesne halinde birleştirilmesidir. Amaç Veri azaltma öznitelikler veya nesnelerin sayısının azaltılması Ölçeğin değiştirilmesi şehirler; bölgeler, eyaletler, ülkeler v.b. halinde bir araya getirilir. Daha dayanıklı veri bir araya toplanan veri daha az değişkenliğe sahip olacaktır. Veri Madenciliği Dersi GYTE Dr. Hidayet Takçı 10/05/2008 22

Bir Araya Getirme Avustralya da meydana gelen yağışların aylık ve yıllık değişimi: görüldüğü gibi bir araya getirilen verinin standart sapması düşmüştür. Yağışların aylık ortalama standart sapması Yağışların yılık ortalama standart sapması Veri Madenciliği Dersi GYTE Dr. Hidayet Takçı 10/05/2008 23

Örnekleme Örnekleme veri seçimi için üzerinde çalışılan en temel tekniktir. Örnekleme, sıklıkla hem başlangıç araştırmaları için ve hem de final veri analizleri için kullanılır. Verinin tamamı ile ilgilenmek oldukça masraflı bir iş olduğu için istatistikçiler ve veri madencileri verinin bir kısmını elde etmeye çalışırlar. Veri Madenciliği Dersi GYTE Dr. Hidayet Takçı 10/05/2008 24

Örnekleme Etkili örnekleme için anahtar prensip şöyledir: Eğer örnek temsil edici nitelikte ise örnek ile çalışmak bütün veri seti ile çalışmak kadar iyi sonuç verecektir. Eğer örnek verisi orijinal veri kadar yaklaşık olarak aynı özelliğe sahip ise o veri temsil edici veridir. Veri Madenciliği Dersi GYTE Dr. Hidayet Takçı 10/05/2008 25

Örnekleme Tipleri Basit rasgele örnekleme Herhangi bir kısmi elemanın seçilme olasılığı diğer parçaların seçilme olasılığına eşittir. Yer değiştirmeden örnekleme Herhangi bir eleman seçildiğinde o popülasyondan silinir Yer değiştirme ile örnekleme Nesneler örnekleme için seçildiklerinde popülasyondan silinmezler. örneklemede aynı eleman birden fazla sefer çekilebilir Katmanlaşmış örnekleme D veri kümesi tüm kayıtları kapsayacak şekilde katman olarak adlandırılan parçalara bölünmüştür, her katmanda basit rasgele örnekleme yapılarak katmanlaşmış örnekleme yapılabilir. Veri Madenciliği Dersi GYTE Dr. Hidayet Takçı 10/05/2008 26

Boyutların Fazlalığı Boyutlar artarken, veri uzayda daha seyrek şekilde gözükmeye başlar. Boyutlar fazla olduğu zaman; kümeleme ve taşma bulmada kritik öneme sahip olan iki nokta arasındaki uzaklık ve yoğunluğun tanımları daha az anlamlı hale gelmektedir. Rasgele 500 nokta üretin Nokta çiftleri arasındaki max ve min uzaklıkları bulunuz Veri Madenciliği Dersi GYTE Dr. Hidayet Takçı 10/05/2008 27

Boyut Düşürme Amaç: Boyut fazlalığın problemlerini çözmek, Veri madenciliği algoritmaları tarafından ihtiyaç duyulan bellek ve zaman miktarını azaltmak, Daha kolaylıkla görselleştirmeye müsaade etmek (Örn. çok boyutlu uzay üç boyuta düşürülerek görselleştirme araçları ile veriler görselleştirilebilir) İlişkisiz özellikleri elemeye veya gürültüyü azaltmaya yardımcı olmak (belli bir eşiğin altında kalan olasılığa sahip veriler dikkate alınmaz) Teknikler Temel bileşen analizi (Principle Component Analysis) Tekil değer ayrışması (Singular Value Decomposition) Diğerleri: denetimli veya doğrusal olmayan teknikler Veri Madenciliği Dersi GYTE Dr. Hidayet Takçı 10/05/2008 28

Boyut Azaltma: PCA Amaç verideki değişimin en büyük miktarını yakalayacak bir projeksiyonu bulmaktır. Orijinal veriden n tane kayıt alınarak bundan k tanesi seçilir. x 2 e Şekilde iki boyutun (x1 ve x2) tek boyuta (e) düşürülmesi görülmektedir. x 1 Veri Madenciliği Dersi GYTE Dr. Hidayet Takçı 10/05/2008 29

Özellik Alt Kümesi Seçimi Veri boyutu azaltma için bir diğer yol özellik alt kümesi seçimidir. Gereksiz özellikler Çok fazla ikileme veya bilginin tamamının bir veya daha çok öznitelikte tekrar etmesi. Örnek : bir ürünün ödeme fiyatı ve ödeme taksitleri bilgisinin yer alması gibi. İlişkisiz özellikler Veri madenciliği görevi için faydalı hiçbir bilgi içermeyen özelliklerdir. Örnek : öğrencilerin notunu hesaplamada öğrenci numarasının hiçbir katkısı yoktur. Veri Madenciliği Dersi GYTE Dr. Hidayet Takçı 10/05/2008 30

Özellik Oluşturma Orijinal öz niteliklerden daha etkin olarak bir veri kümesindeki önemli bilgiyi yakalayabilmek için yeni öz nitelikler oluşturulur. Üç genel metodoloji vardır: Özellik çıkarma etki alanı özel Verinin yeni uzaya eşleştirilmesi Özellik inşa edilmesi özelliklerin birleştirilmesi Veri Madenciliği Dersi GYTE Dr. Hidayet Takçı 10/05/2008 31

Öznitelik Dönüşümü Bir fonksiyon bütün veri setindeki değerleri yeni değerlere dönüştürürken ilgili öz niteliklerin yer değiştirmesini, eşleşmesini yapar. Basit fonksiyonlar: x k, log(x), e x, x Standardizasyon ve Normalizasyon Veri Madenciliği Dersi GYTE Dr. Hidayet Takçı 10/05/2008 32

Benzerlik ve Benzemezlik Benzerlik İki veri nesnesinin birbirine ne kadar benzer olduğunun sayısal ölçümüdür. Nesneler daha benzer olduğunda benzerlik bilgisi büyür mü? Sıklıkla benzerlik bilgisi [0,1] aralığında yer alır. Benzemezlik İki veri nesnesinin birbirinden ne kadar farklı olduğunun sayısal ölçümüdür. Nesneler daha benzer olduğunda değeri düşüktür Minimum benzemezlik sıklıkla 0 dır. Üst limit değişkendir Yakınlık benzerlik veya benzemezlik manasına gelir. Veri Madenciliği Dersi GYTE Dr. Hidayet Takçı 10/05/2008 33

Basit Öznitelikler için Benzerlik/Benzemezlik p ve q iki veri nesnesi için öznitelik değerleridir. Veri Madenciliği Dersi GYTE Dr. Hidayet Takçı 10/05/2008 34

Öklidyen Uzaklık Öklidyen uzaklık dist = n k= 1 ( p k q k 2 ) burada, n boyutların sayısıdır ve p k ile q k ise p ve q veri nesnelerinin k th özniteliklerinin değerini verir. Eğer ölçek farklı ise standardizasyon gereklidir. Veri Madenciliği Dersi GYTE Dr. Hidayet Takçı 10/05/2008 35

Öklidyen Uzaklık 3 2 1 0 p1 p3 p4 p2 0 1 2 3 4 5 6 point x y p1 0 2 p2 2 0 p3 3 1 p4 5 1 p1 p2 p3 p4 p1 0 2.828 3.162 5.099 p2 2.828 0 1.414 3.162 p3 3.162 1.414 0 2 p4 5.099 3.162 2 0 Uzaklık matrisi Veri Madenciliği Dersi GYTE Dr. Hidayet Takçı 10/05/2008 36

Minkowski Uzaklığı Minkowski uzaklığı öklidyen uzaklığının genelleştirilmesi ile elde edilir. dist = n ( k= 1 p k q k burada r bir parametredir, n boyutların sayısıdır ve p k ile q k ise p ve q nesnelerinin k th öznitelik değerleridir. r ) 1 r Veri Madenciliği Dersi GYTE Dr. Hidayet Takçı 10/05/2008 37

Minkowski Uzaklığı: Örnekler r = 1. City block (Manhattan, L 1 norm) uzaklık. Bunun genel bir örneği Hamming uzaklığıdır, hamming uzaklığı iki ikili vektör arasındaki birbirinden farklı bitlerin sayısıdır. r = 2. öklidyen uzaklık r. supremum (L max norm, L norm) uzaklığı. Bu vektörlerin herhangi bir bileşeni arasındaki maksimum farktır. n ile r yi karıştırmamak lazım, bütün bu uzaklıklar boyutların bütün sayıları için tanımlanırlar. Veri Madenciliği Dersi GYTE Dr. Hidayet Takçı 10/05/2008 38

Minkowski Uzaklığı point x y p1 0 2 p2 2 0 p3 3 1 p4 5 1 L1 p1 p2 p3 p4 p1 0 4 4 6 p2 4 0 2 4 p3 4 2 0 2 p4 6 4 2 0 L2 p1 p2 p3 p4 p1 0 2.828 3.162 5.099 p2 2.828 0 1.414 3.162 p3 3.162 1.414 0 2 p4 5.099 3.162 2 0 L p1 p2 p3 p4 p1 0 2 3 5 p2 2 0 1 3 p3 3 1 0 2 p4 5 3 2 0 Distance Matrix Veri Madenciliği Dersi GYTE Dr. Hidayet Takçı 10/05/2008 39

Bir Uzaklığın Genel Özellikleri Öklidyen gibi uzaklıkların bazı iyi bilinen özellikleri vardır. 1. bütün p ve q nesneleri için d(p, q) 0 dir, sadece p değeri q değerine eşit olduğunda d(p, q) = 0 2. bütün p ve q değerleri için d(p, q) = d(q, p), simetri özelliği 3. d(p, r) d(p, q) + d(q, r) bütün p, q ve r nesneleri için (üçgen eşitsizliği) kuralı geçerlidir. burada d(p, q), p ve q noktaları arasındaki uzaklık veya benzemezliği vermektedir. Bir uzaklık bu özellikleri taşıyorsa bir metriktir. Veri Madenciliği Dersi GYTE Dr. Hidayet Takçı 10/05/2008 40

Bir Benzerliğin Genel Özellikleri Benzerliklerin de bazı bilinen özellikleri vardır. 1. Sadece p = q olduğunda s(p, q) = 1 (maximum similarity). 2. Bütün p ve q değerleri için s(p, q) = s(q, p). (Symmetry) burada s(p, q) p ve q noktaları arasındaki benzerliği vermektedir. Veri Madenciliği Dersi GYTE Dr. Hidayet Takçı 10/05/2008 41

İkili Vektörler Arasındaki Benzerlik p ve q ikili vektörler olduğunda aşağıdaki kurallar geçerlidir. Takip eden miktarlar kullanılarak benzerlikler hesap edilir. M 01 = p değeri 0 ve q değeri 1 olan öz niteliklerin sayısı M 10 = p değeri 1 ve q değeri 0 olan öz niteliklerin sayısı M 00 = p değeri 0 ve q değeri 0 olan öz niteliklerin sayısı M 11 = p değeri 1 ve q değeri 1 olan öz niteliklerin sayısı Basit eşleştirme ve Jaccard katsayıları SMC = eşlemlerin sayısı / öz niteliklerin sayısı = (M 11 + M 00 ) / (M 01 + M 10 + M 11 + M 00 ) J = 11 eşleşmelerinin sayısı / ikisi birlikte 0 olmayan özniteliklerin sayısı = (M 11 ) / (M 01 + M 10 + M 11 ) Veri Madenciliği Dersi GYTE Dr. Hidayet Takçı 10/05/2008 42

SMC Jaccard a karşı: Örnek p = 1 0 0 0 0 0 0 0 0 0 q = 0 0 0 0 0 0 1 0 0 1 M 01 = 2 (p=0, q=1) M 10 = 1 (p=1, q=0) M 00 = 7 (p=0, q=0) M 11 = 0 (p=1, q=1) SMC = (M 11 + M 00 )/(M 01 + M 10 + M 11 + M 00 ) = (0+7) / (2+1+0+7) = 0.7 J = (M 11 ) / (M 01 + M 10 + M 11 ) = 0 / (2 + 1 + 0) = 0 Veri Madenciliği Dersi GYTE Dr. Hidayet Takçı 10/05/2008 43

Kosinüs Benzerliği eğer d 1 ve d 2 iki doküman vektörü ise, o zaman cos( d 1, d 2 ) = (d 1 d 2 ) / d 1 d 2, burada sembolü nokta çarpım manasına gelir, d ise d vektörünün boyudur. örnek: d 1 = 3 2 0 5 0 0 0 2 0 0 d 2 = 1 0 0 0 0 0 0 1 0 2 d 1 d 2 = 3*1 + 2*0 + 0*0 + 5*0 + 0*0 + 0*0 + 0*0 + 2*1 + 0*0 + 0*2 = 5 d 1 = (3*3+2*2+0*0+5*5+0*0+0*0+0*0+2*2+0*0+0*0) 0.5 = (42) 0.5 = 6.481 d 2 = (1*1+0*0+0*0+0*0+0*0+0*0+0*0+1*1+0*0+2*2) 0.5 = (6) 0.5 = 2.245 cos( d 1, d 2 ) =.3150 Veri Madenciliği Dersi GYTE Dr. Hidayet Takçı 10/05/2008 44

Korelasyon Korelasyon, nesneler arasındaki doğrusal ilişkileri ölçer. Korelasyonu karşılaştırmak için, veri nesnelerini standardize ederiz, p ve q, ve daha sonra onların nokta çarpımlarını alırız. p k = ( p mean( p)) / std( p) k q k = ( q mean( q)) / std( q) k correlatio n( p, q) = p q Veri Madenciliği Dersi GYTE Dr. Hidayet Takçı 10/05/2008 45

Benzerlik Birleştirme için Genel Yaklaşım Bazen birçok farklı tipteki öznitelik ile benzerlik bulunması gerekebilir. Veri Madenciliği Dersi GYTE Dr. Hidayet Takçı 10/05/2008 46

Benzerlik Birleştirme için Genel Yaklaşım Bütün özniteliklerin aynı ağırlıkta olmasını istemeyebiliriz. w k ağırlıklarını kullanabiliriz, ağırlıkların değeri 0 ile 1 arasındadır ve toplamları 1 değerine eşittir. Veri Madenciliği Dersi GYTE Dr. Hidayet Takçı 10/05/2008 47

Yoğunluk Yoğunluk tabanlı kümeleme yoğunluk hakkında bir görüşe ihtiyaç duyar Örnekler: Euclidean yoğunluk Euclidean yoğunluk = her bir birimdeki noktaların sayısı Olasılık yoğunluğu Grafik tabanlı yoğunluk Veri Madenciliği Dersi GYTE Dr. Hidayet Takçı 10/05/2008 48

Euclidean Yoğunluk Hücre Tabanlı En basit yaklaşım bölgeyi dikdörtgenlere bölmek ve her bir dikdörtgende kaç adet nokta bulunduğunu sayılarla sunmaktır. Veri Madenciliği Dersi GYTE Dr. Hidayet Takçı 10/05/2008 49

Euclidean Yoğunluk Merkez Tabanlı Euclidean yoğunluk bir nokta merkez olmak üzere ona yarıçap uzaklığındaki bütün noktaların sayısı sunulur. Veri Madenciliği Dersi GYTE Dr. Hidayet Takçı 10/05/2008 50