VERİ MADENCİLİĞİ (Veri Ön İşleme-2) Yrd.Doç.Dr. Kadriye ERGÜN

Benzer belgeler
Konular. VERİ MADENCİLİĞİ Veri Önişleme. Değer Kümeleri. Veri Nedir? Nitelik Türleri. Konular. Veri Veri Önişleme Benzerlik ve farklılık

VERİ MADENCİLİĞİ (Veri Önişleme-1) Yrd.Doç.Dr. Kadriye ERGÜN

VERİ MADENCİLİĞİ (Kümeleme) Yrd.Doç.Dr. Kadriye ERGÜN

VERİ MADENCİLİĞİ (Karar Ağaçları ile Sınıflandırma) Yrd.Doç.Dr. Kadriye ERGÜN

YZM 3217 YAPAY ZEKA DERS#10: KÜMELEME

Web Madenciliği (Web Mining)

VERİ MADENCİLİĞİ (Karar Ağaçları ile Sınıflandırma) Yrd.Doç.Dr. Kadriye ERGÜN

VERİ MADENCİLİĞİ (Sınıflandırma Yöntemleri) Yrd.Doç.Dr. Kadriye ERGÜN

Kümeler arası. Küme içi. uzaklıklar. maksimize edilir. minimize edilir

K En Yakın Komşu Methodu (KNearest Neighborhood)

Hafta 03/04 - Uzaklık/Benzerlik - En Yakın Komşular - Karar Ağaçları

TEMEL İSTATİSTİKİ KAVRAMLAR YRD. DOÇ. DR. İBRAHİM ÇÜTCÜ

Sürekli Rastsal Değişkenler

3 KESİKLİ RASSAL DEĞİŞKENLER VE OLASILIK DAĞILIMLARI

TANIMLAYICI İSTATİSTİKLER

CBS ve Coğrafi Hesaplama

Kümeleme Algoritmaları. Tahir Emre KALAYCI

İÇİNDEKİLER. BÖLÜM 1 Değişkenler ve Grafikler 1. BÖLÜM 2 Frekans Dağılımları 37

Ders 8: Verilerin Düzenlenmesi ve Analizi

BULANIK MANTIK ile KONTROL

13. Olasılık Dağılımlar

K-En Yakın Komşu Algoritması Parametrelerinin Sınıflandırma Performansı Üzerine Etkisinin İncelenmesi

Web Madenciliği (Web Mining)

İMGE İŞLEME Ders-9. İmge Sıkıştırma. Dersin web sayfası: (Yrd. Doç. Dr. M.

KLASİK FRAKTALLAR FRAKTAL ÖZELLİKLERİ VE BOYUT

BÖLÜM 6 MERKEZDEN DAĞILMA ÖLÇÜLERİ

Uzaktan Algılama Teknolojileri

SÜREKLİ OLASILIK DAĞILIMI

MEH535 Örüntü Tanıma. 6. Boyut Azaltımı (Dimensionality Reduction)

Hafta 05 - Karar Ağaçları/Kümeleme

OLASILIK ve KURAMSAL DAĞILIMLAR

VERI TABANLARıNDA BILGI KEŞFI

KONU 4: DOĞRUSAL PROGRAMLAMA MODELİ İÇİN ÇÖZÜM YÖNTEMLERİ I

VERİ MADENCİLİĞİ Metin Madenciliği

Büyük Veri İçin İstatistiksel Öğrenme (Statistical Learning for Big Data)

YZM ALGORİTMA ANALİZİ VE TASARIM DERS#9: AÇGÖZLÜ ALGORİTMALAR

Görüntü Segmentasyonu (Bölütleme)

MOD419 Görüntü İşleme

BTP 207 İNTERNET PROGRAMCILIĞI I. Ders 8

İÇİNDEKİLER ÖN SÖZ...

Hafta 09 -Topluluk Yöntemleri - Boyut Azaltma - Anomali Tespiti

Merkezi Limit Teoremi

Örneklem. Yöntemleri FBED511 Eğitim Bilimlerinde Temel Araştırma Yöntemleri 1. Evren & Örneklem. Evren. Örneklem ve örnekleme

Görüntü Segmentasyonu (Bölütleme) Dijital Görüntü İşleme Fevzi Karslı, KTÜ Segmentasyon, görüntüyü aynı cinsten obje ve bölgelere ayırmaktır.

Büyük boyutun laneti (Curse of Dimensionality)

Makine Öğrenmesi 3. hafta

Üniversite Öğrencileri İçin Bilgisayar Okuryazarlığını Etkileyen Faktörlerin Etkisinin Veri Madenciliği İle Analizi

İÇİNDEKİLER ÖNSÖZ Bölüm 1 KÜMELER Bölüm 2 SAYILAR

Örnekleme Yöntemleri

Web Madenciliği (Web Mining)

Erciyes Üniversitesi İktisadi ve İdari Bilimler Fakültesi Dergisi, Sayı: 21, Temmuz-Aralık 2003, ss VERİ ÖN İŞLEME

Dr. Hidayet Takçı. Veri Madenciliği Dersi GYTE Dr. Hidayet Takçı 10/05/2008 1

Bu bölümde; Çok ölçütlü karar verme yöntemlerinden biri olan TOPSİS yöntemi anlatılacaktır.

2.1 Bir Sınıfı Örneklerinden Öğrenme Vapnik-Chervonenkis (VC) Boyutu Olası Yaklaşık Doğru Öğrenme... 21

T TESTİ: ORTALAMALAR ARASI FARKLARIN TEST EDİLMESİ. Yrd. Doç. Dr. C. Deha DOĞAN

Örüntü Tanıma (EE 448) Ders Detayları

Kitle: Belirli bir özelliğe sahip bireylerin veya birimlerin tümünün oluşturduğu topluluğa kitle denir.

Bilgisayarla Görüye Giriş

BÖLÜM 12 STUDENT T DAĞILIMI

BKİ farkı Standart Sapması (kg/m 2 ) A B BKİ farkı Ortalaması (kg/m 2 )

SÜREKLİ ŞANS DEĞİŞKENLERİ. Üstel Dağılım Normal Dağılım

Konular. VERİ MADENCİLİĞİ Giriş. Problem Tanımı. Veri Madenciliği: Tarihçe. Veri Madenciliği Nedir? Bilgi Keşfi

Makine Öğrenmesi 2. hafta

2.1 Gri Düzey Eş Oluşum Matrisi ( GLCM) Gri düzey eş oluşum matrisi Haralick tarafından öne sürülmüştür [1]. Đstatistiksel doku analizi yöntemidir.

Oluşturulan evren listesinden örnekleme birimlerinin seçkisiz olarak çekilmesidir

Genel Graf Üzerinde Mutlak 1-merkez

MONTE CARLO BENZETİMİ

BİYOİSTATİSTİK DERSLERİ AMAÇ VE HEDEFLERİ

BÖLÜM 5 MERKEZİ EĞİLİM ÖLÇÜLERİ

SPSS E GİRİŞ SPSS TE TEMEL İŞLEMLER. Abdullah Can

Ağaç (Tree) Veri Modeli

Metin Sınıflandırma. Akış

Tanımı Amacı Özellikleri Kullanım Alanları Varsayımları Yöntemleri Uygulama aşamaları. Neleri göreceğiz?

İş Zekası. Hafta 6 Kestirimci Modelleme Teknikleri. Yrd. Doç. Dr. H. İbrahim CEBECİ

KLASİK FRAKTALLAR, FRAKTAL ÖZELLİKLERİ VE BOYUT ( C L A S S I C A L F R AC TA L S, F R AC TA L P R O P E R T I E S AND D I M E N S I O N )

JEODEZİK VERİLERİN İSTATİSTİK ANALİZİ. Prof. Dr. Mualla YALÇINKAYA

Veri Madenciliği. Yrd. Doç. Dr. Mustafa Gökçe Baydoğan. blog.mustafabaydogan.


KARAR AĞAÇLARI SÜMEYYE ÖZKAN BAHAR BAKAR İZEL KOLCU

Nesne Yönelimli Programlama

7. BÖLÜM İÇ ÇARPIM UZAYLARI İÇ ÇARPIM UZAYLARI İÇ ÇARPIM UZAYLARI İÇ ÇARPIM UZAYLARI .= Genel: Vektörler bölümünde vektörel iç çarpım;

ÖRNEK BULGULAR. Tablo 1: Tanımlayıcı özelliklerin dağılımı

Uygulama 3 Dr. Öğr. Üyesi Aslı SUNER KARAKÜLAH

Konum ve Dağılım Ölçüleri. BBY606 Araştırma Yöntemleri Güleda Doğan

İSTATİSTİKSEL TAHMİNLEME. Örneklem istatistiklerinden hareketle ana kütle parametreleri hakkında genelleme yapmaya istatistiksel tahminleme denir.

PARÇACIK SÜRÜ OPTİMİZASYONU BMÜ-579 METASEZGİSEL YÖNTEMLER YRD. DOÇ. DR. İLHAN AYDIN

Hipotez Testlerine Giriş. Hipotez Testlerine Giriş

SÜREKLİ OLASILIK DAĞILIŞLARI

Boosting. Birol Yüceoğlu Migros T.A.Ş.

PAPATYA YAYINCILIK EĞİTİM Bilgisayar Sis. San. ve Tic. A.Ş. Veri Madenciliği Yöntemleri Dr. Yalçın ÖZKAN -II-

İstatistik Dersi Çalışma Soruları Arasınav(Matematik Müh. Bölümü-2014)

Çok fazla bilgiden gizli kalmış örüntüleri ortaya çıkarma sürecine Veri Madenciliği denir.

Destekçi Vektör Makineleri. Destekçi Vektör Makineleri(Support Vector Machines)

MIT OpenCourseWare Ekonomide İstatistiksel Yöntemlere Giriş Bahar 2009

İçindekiler. Ön Söz... xiii

VERİ MADENCİLİĞİ (Birliktelik Kuralları) Yrd.Doç.Dr. Kadriye ERGÜN

Çok-öbekli Veri için Aradeğerlemeci Ayrışım

Algoritma Geliştirme ve Veri Yapıları 2 Veri Modelleri. Mustafa Kemal Üniversitesi

GENETİK ALGORİTMA ÖZNUR CENGİZ HİLAL KOCA

Genel olarak test istatistikleri. Merkezi Eğilim (Yığılma) Ölçüleri Dağılım (Yayılma) Ölçüleri. olmak üzere 2 grupta incelenebilir.

Transkript:

VERİ MADENCİLİĞİ (Veri Ön İşleme-2) Yrd.Doç.Dr. Kadriye ERGÜN kergun@balikesir.edu.tr

Genel İçerik Veri Madenciliğine Giriş Veri Madenciliğinin Adımları Veri Madenciliği Yöntemleri Sınıflandırma Kümeleme İlişkilendirme/birliktelik kuralları Metin madenciliği WEB madenciliği Veri Madenciliği Uygulamaları 2

Veri Önişleme Veri Veri Önişleme Veriyi Tanıma Veri temizleme Veri birleştirme Veri dönüşümü Veri azaltma Benzerlik ve farklılık 3

Veri Dönüşümü Veri, veri madenciliği uygulamaları için uygun olmayabilir Seçilen algoritmaya uygun olmayabilir Veri belirleyici değil Çözüm Veri düzeltme Bölmeleme Kümeleme Eğri Uydurma Biriktirme Genelleme Normalizasyon Nitelik oluşturma 4

Normalizasyon min-max normalizasyon ondalık normalizasyon min-max normalleştirmesi ile orijinal veriler yeni veri aralığına doğrusal dönüşüm alınan ile dönüştürülürler. Bu veri aralığı genellikle 0-1 hareket aralığıdır. normalleştirme z-score normalizasyon gerçekleştirilir. z Skor normalleştirmede (veya 0 ortalama normalleştirme) ise değişkenin her hangi bir y değeri, değişkenin ortalaması ve standart sapmasına bağlı olarak bilinen Z dönüşümü ile normalleştirilir. Ondalık ölçekleme ile normalleştirmede ise, ele değişkenin değerlerinin ondalık kısmı ettirilerek Hareket edecek ondalık nokta sayısı, değişkenin maksimum mutlak değerine bağlıdır. Ondalık ölçeklemenin formülü aşağıdaki şekildedir: Örneğin 900 maksimum değer ise, n=3 olacağından 900 sayısı 0,9 olarak normalleştirilir. 5

Normalizasyon 6

Nitelik Oluşturma Yeni nitelikler yarat orjinal niteliklerden daha önemli bilgi içersin alan=boy x en veri madenciliği algoritmalarının başarımı daha iyi olsun 7

Veri Azaltma 8

Veri Azaltma Veri miktarı çok fazla olduğu zaman veri madenciliği algoritmalarının çalışması ve sonuç üretmesi çok uzun sürebilir veriyi azaltma başarımı artırır sonucun (nerdeyse) hiç değişmemesi gerekir Veri azaltma nitelik birleştirme nitelik azaltma veri sıkıştırma veri ayrıştırma ve kavram oluşturma veri küçültme eğri uydurma kümeleme histogram örnekleme 9

Nitelik Birleştirme 10

Nitelik Seçme - Nitelik Azaltma Nitelik Seçme Nitelikler kümesinin bir alt kümesi seçilerek veri madenciliği işlemi yapılır. Nitelik azaltma d boyutlu veri kümesi k<d olacak şekilde k boyuta taşınır. 11

Nitelik Seçme Nitelik seçme Veri madenciliği uygulaması için gerekli olan niteliklerin seçilmesi Nitelikler altkümesi kullanılarak elde edilen sınıfların dağılımları gerçek dağılıma eşit ya da çok yakın olmalı Veri madenciliği işlemi yer ve zaman karmaşıklığını azaltma Sistemin başarımını artırma Sezgisel yöntemler kullanılarak nitelikler seçilebilir. istatistiksel anlamlılık testi (statistical significance) bilgi kazancı (information gain) karar ağaçları 12

Örnek 13

Nitelik Azaltma Çok boyutlu veriyi daha küçük boyutlu uzaya taşıma d nitelikten oluşan n adet veri D={x 1, x 2,...,x n } k boyutlu uzaya taşınır: Veri kümesinde yer alan bütün nitelikler kullanılır Niteliklerin doğrusal kombinasyonu Niteliklerin ayırıcılığına artırma 14

Veri Sıkıştırma Verinin boyutunu azaltır daha az saklama ortamı veriye ulaşmak daha çabuk Kayıplı ve kayıpsız veri sıkıştırma bazı yöntemler bazı veri tiplerine uygun her veri tipi için kullanılan yöntemler de var Eğer veri madenciliği yöntemi sıkıştırılmış veri üzerinde doğrudan çalışabiliyorsa elverişli 15

Veri Ayrıştırma Bazı veri madenciliği algoritmaları sadece ayrık veriler ile çalışır. Sürekli bir nitelik değerini bölerek her aralığı etiketler. Verinin değeri, bulunduğu aralığın etiketi ile değişir. Veri boyutu küçülür. Kavram oluşturmak için kullanılır. 16

Kavram Oluşturma Sayısal veriler çok geniş aralıkta olabilir değerleri çok sık değişebilir Sayısal veriler için kavram oluşturma bölmeleme histogram kümeleme entropi 17

Veri Küçültme Veriyi farklı şekillerde gösterme parametrik eğri uydurma parametrik olmayan histogram kümeleme örnekleme 18

Histogram ile Veri Küçültme Verinin dağılımı Veriyi bölerek her bölüm için veri değerini gösterir (toplam, ortalama) eşit genişlik (equi-width): bölmelerin genişliği eşit eşit yükseklik (equi-height): her bölmedeki veri sayısı eşit v-optimal: en az varyansı olan histogram Σ(countb*valueb) MaxDiff: bölme genişliğini kullanıcı belirler 19

Kümeleme ile Veri Küçültme Veri kümelere ayrılır Veri kümeleri temsil eden örnekler (küme merkezleri) ve aykırılıklar ile temsil edilir Etkisi verinin dağılımına bağlı. Hiyerarşik kümeleme yöntemleri kullanılabilir. 20

Örnekleme ile Veri Küçültme Büyük veri kümesini daha küçük bir alt küme ile temsil etme Alt küme nasıl seçiliyor? yerine koymadan örnekleme (SRSWOR) yerine koyarak örnekleme (SRSWR) küme örnekleme (yerine koymadan veya koyarak) katman örnekleme (katman: nitelik değerine göre grup) 21

Benzerlik ve Farklılık 22

Benzerlik ve Farklılık Benzerlik iki nesnenin benzerliğini ölçen sayısal değer nesneler birbirine daha benzer ise daha büyük genelde 0-1 aralığında değer alır Farklılık iki nesnenin birbirinden ne kadar farklı olduğunu gösteren sayısal değer nesneler birbirine daha benzer ise daha küçük en küçük farklılık genelde 0 üst sınır değişebilir. 23

Uzaklık Çeşitleri Öklid(Euclid) Minkowski Manhattan 24

Öklid Uzaklığı 25

Minkowski Uzaklığı 26

Uzaklık Özellikleri 27

Benzerlik Özellikleri İki nesne arası benzerlik özellikleri 1. sim(i,j)>=0 2. sim(i,j)=sim(j,i) 28

İkili Değişkenler Arası Benzerlik 29

Kosinüs Benzerliği 30