VERİ MADENCİLİĞİ (Veri Ön İşleme-2)

Benzer belgeler
VERİ MADENCİLİĞİ (Veri Ön İşleme-2) Yrd.Doç.Dr. Kadriye ERGÜN

Konular. VERİ MADENCİLİĞİ Veri Önişleme. Değer Kümeleri. Veri Nedir? Nitelik Türleri. Konular. Veri Veri Önişleme Benzerlik ve farklılık

VERİ MADENCİLİĞİ (Kümeleme) Yrd.Doç.Dr. Kadriye ERGÜN

VERİ MADENCİLİĞİ (Karar Ağaçları ile Sınıflandırma) Yrd.Doç.Dr. Kadriye ERGÜN

YZM 3217 YAPAY ZEKA DERS#10: KÜMELEME

Sürekli Rastsal Değişkenler

VERİ MADENCİLİĞİ (Veri Önişleme-1) Yrd.Doç.Dr. Kadriye ERGÜN

Web Madenciliği (Web Mining)

Merkezi Limit Teoremi

TEMEL İSTATİSTİKİ KAVRAMLAR YRD. DOÇ. DR. İBRAHİM ÇÜTCÜ

Ders 8: Verilerin Düzenlenmesi ve Analizi

Kümeler arası. Küme içi. uzaklıklar. maksimize edilir. minimize edilir

JEODEZİK VERİLERİN İSTATİSTİK ANALİZİ. Prof. Dr. Mualla YALÇINKAYA

K En Yakın Komşu Methodu (KNearest Neighborhood)

Kümeleme Algoritmaları. Tahir Emre KALAYCI

13. Olasılık Dağılımlar

Dr. Hidayet Takçı. Veri Madenciliği Dersi GYTE Dr. Hidayet Takçı 10/05/2008 1

Bu bölümde; Çok ölçütlü karar verme yöntemlerinden biri olan TOPSİS yöntemi anlatılacaktır.

Örnekleme Yöntemleri

TANIMLAYICI İSTATİSTİKLER

BULANIK MANTIK ile KONTROL

Ders 9: Kitle Ortalaması ve Varyansı için Tahmin

Büyük boyutun laneti (Curse of Dimensionality)

Hafta 09 -Topluluk Yöntemleri - Boyut Azaltma - Anomali Tespiti

Hafta 03/04 - Uzaklık/Benzerlik - En Yakın Komşular - Karar Ağaçları

CBS ve Coğrafi Hesaplama

Makine Öğrenmesi 2. hafta

İÇİNDEKİLER ÖNSÖZ Bölüm 1 KÜMELER Bölüm 2 SAYILAR

Genel Graf Üzerinde Mutlak 1-merkez

8.Hafta. Değişkenlik Ölçüleri. Öğr.Gör.Muhsin ÇELİK. Uygun değişkenlik ölçüsünü hesaplayıp yorumlayabilecek,

7. BÖLÜM İÇ ÇARPIM UZAYLARI İÇ ÇARPIM UZAYLARI İÇ ÇARPIM UZAYLARI İÇ ÇARPIM UZAYLARI .= Genel: Vektörler bölümünde vektörel iç çarpım;

T.C. DOKUZ EYLÜL ÜNİVERSİTESİ SOSYAL BİLİMLER ENSTİTÜSÜ EKONOMETRİ ANABİLİM DALI EKONOMETRİ DOKTORA PROGRAMI

Verilerin Özetlenmesinde Kullanılan Sayısal Yöntemler

SÜREKLĠ OLASILIK DAĞILIMLARI

İMGE İŞLEME Ders-9. İmge Sıkıştırma. Dersin web sayfası: (Yrd. Doç. Dr. M.

SÜREKLİ OLASILIK DAĞILIŞLARI

ANADOLU ÜNİVERSİTESİ. ENM 317 Prof. Dr. Nihal ERGİNEL

BÖLÜM 6 MERKEZDEN DAĞILMA ÖLÇÜLERİ

Copyright 2004 Pearson Education, Inc. Slide 1

Çok fazla bilgiden gizli kalmış örüntüleri ortaya çıkarma sürecine Veri Madenciliği denir.

Örneklem. Yöntemleri FBED511 Eğitim Bilimlerinde Temel Araştırma Yöntemleri 1. Evren & Örneklem. Evren. Örneklem ve örnekleme

Web Madenciliği (Web Mining)

Üniversite Öğrencileri İçin Bilgisayar Okuryazarlığını Etkileyen Faktörlerin Etkisinin Veri Madenciliği İle Analizi

Yapılan alan araştırması sonucunda aşağıdaki sonuçlar elde edilmiştir. ( ) ( ) ( ) ( )

Genel olarak test istatistikleri. Merkezi Eğilim (Yığılma) Ölçüleri Dağılım (Yayılma) Ölçüleri. olmak üzere 2 grupta incelenebilir.

SÜREKSİZ(DISCRETE) OLASILIK DAĞILIMLARI

İÇİNDEKİLER ÖN SÖZ...

KONU 4: DOĞRUSAL PROGRAMLAMA MODELİ İÇİN ÇÖZÜM YÖNTEMLERİ I

Kitle: Belirli bir özelliğe sahip bireylerin veya birimlerin tümünün oluşturduğu topluluğa kitle denir.

Örüntü Tanıma (EE 448) Ders Detayları

Erciyes Üniversitesi İktisadi ve İdari Bilimler Fakültesi Dergisi, Sayı: 21, Temmuz-Aralık 2003, ss VERİ ÖN İŞLEME

Ders 10. Prof.Dr.Haydar Eş Prof.Dr.Timur Karaçay. Simpleks Yöntemine Giriş Alıştırmalar 10

Ders 4: Rastgele Değişkenler ve Dağılımları

VERİ MADENCİLİĞİNİN GÖREVLERİ

Prof.Dr.A.KARACABEY Doç.Dr.F.GÖKGÖZ RANDOM DEĞİŞKEN

Dr. Hidayet Takçı. Veri Madencilii Dersi GYTE Dr. Hidayet Takçı 10/05/2008 1

İstatistik Nedir? İstatistiğin Önemi Nedir? Tanımlayıcı ve Çıkarımcı İstatistik ttitik Tanımlayıcı İstatistik Türleri Çıkarımcı İstatistiğin i iği

Dr. Y. İlker TOPCU. Dr. Özgür KABAK web.itu.edu.tr/kabak/

rasgele değişkeninin olasılık yoğunluk fonksiyonu,

Oluşturulan evren listesinden örnekleme birimlerinin seçkisiz olarak çekilmesidir


BULANIK MANTIK DENETLEYİCİLERİ. Bölüm-4 Bulanık Çıkarım

BÖLÜM 3 KURAMSAL ÇATI VE HİPOTEZ GELİŞ

MIT OpenCourseWare Ekonomide İstatistiksel Yöntemlere Giriş Bahar 2009

SÜREKLİ OLASILIK DAĞILIMI

K-En Yakın Komşu Algoritması Parametrelerinin Sınıflandırma Performansı Üzerine Etkisinin İncelenmesi

MONTE CARLO BENZETİMİ

SÜREKLİ( CONTINUOUS) OLASILIK

BİLGİSAYAR PROGRAMLAMA

Bilgisayarla Görüye Giriş

Örnekleme Teknikleri

Sayılar Teorisi SAYILAR TEORİSİ VE SAYILAR

YZM ALGORİTMA ANALİZİ VE TASARIM DERS#9: AÇGÖZLÜ ALGORİTMALAR

Çok-öbekli Veri için Aradeğerlemeci Ayrışım

Korelasyon. Korelasyon. Merkezi eğilim ve değişim ölçüleri bir defada sadece bir değişkenin özelliklerini incelememize imkan tanır.

İSTATİSTİKSEL TAHMİNLEME. Örneklem istatistiklerinden hareketle ana kütle parametreleri hakkında genelleme yapmaya istatistiksel tahminleme denir.

Tanımı Amacı Özellikleri Kullanım Alanları Varsayımları Yöntemleri Uygulama aşamaları. Neleri göreceğiz?

Kaynak: A. İŞLİER, TESİS PLANLAMASI, 1997

Boosting. Birol Yüceoğlu Migros T.A.Ş.

Temel Mikroişlemci Tabanlı Bir Sisteme Hata Enjekte Etme Yöntemi Geliştirilmesi. Buse Ustaoğlu Berna Örs Yalçın

BTP 207 İNTERNET PROGRAMCILIĞI I. Ders 8

LAÜ FEN EDEBĐYAT FAKÜLTESĐ PSĐKOLOJĐ BÖLÜMÜ PSK 106 ĐSTATĐSTĐK YÖNTEMLER I BAHAR DÖNEMĐ TELAFĐ SINAVI SORULARI

İÇİNDEKİLER. BÖLÜM 1 Değişkenler ve Grafikler 1. BÖLÜM 2 Frekans Dağılımları 37

Uygulama 3 Dr. Öğr. Üyesi Aslı SUNER KARAKÜLAH

BÖLÜM 12 STUDENT T DAĞILIMI

ÖRNEKLEME TEORİSİ. Prof.Dr.A.KARACABEY Doç.Dr.F.GÖKGÖZ

EM302 Yöneylem Araştırması 2 Doğrusal Olmayan Programlamaya Giriş. Dr. Özgür Kabak

İş Zekası. Hafta 6 Kestirimci Modelleme Teknikleri. Yrd. Doç. Dr. H. İbrahim CEBECİ

MATEMATİK MÜHENDİSLİĞİ PROGRAMI

Merkezi eğilim ölçüleri ile bir frekans dağılımının merkezi belirlenirken; yayılma ölçüleri ile değişkenliği veya yayılma düzeyini tespit eder.

OLASILIK ve KURAMSAL DAĞILIMLAR

KLASİK FRAKTALLAR FRAKTAL ÖZELLİKLERİ VE BOYUT

Temelleri. Doç.Dr.Ali Argun Karacabey

Dr. Y. İlker TOPCU. Dr. Özgür KABAK web.itu.edu.tr/kabak/

BÖLÜM 10 PUAN DÖNÜŞÜMLERİ

İÇİNDEKİLER 1. GİRİŞ...

KONU 13: GENEL UYGULAMA

4/4/2013. Ders 8: Verilerin Düzenlenmesi ve Analizi. Betimsel İstatistik Merkezsel Eğilim Ölçüleri Dağılım Ölçüleri Grafiksel Gösterimler

Hatalar Bilgisi ve İstatistik Ders Kodu: Kredi: 3 / ECTS: 5

Transkript:

VERİ MADENCİLİĞİ (Veri Ön İşleme-2)

Veri Dönüşümü Veri, veri madenciliği uygulamaları için uygun olmayabilir Seçilen algoritmaya uygun olmayabilir Çözüm Veri belirleyici değil Veri düzeltme Normalizasyon

Normalizasyon min-max normalizasyon ondalık normalizasyon min-max normalleştirmesi ile Ondalık ölçekleme ile orijinal veriler yeni veri normalleştirmede ise, ele aralığına doğrusal dönüşüm alınan değişkenin ile dönüştürülürler. Bu veri değerlerinin ondalık kısmı aralığı genellikle 0-1 hareket ettirilerek aralığıdır. normalleştirme z-score normalizasyon gerçekleştirilir. Hareket edecek ondalık nokta sayısı, z Skor normalleştirmede değişkenin maksimum (veya 0 ortalama mutlak değerine bağlıdır. normalleştirme) ise Ondalık ölçeklemenin değişkenin her hangi bir y formülü aşağıdaki şekildedir: değeri, değişkenin ortalaması Örneğin 900 maksimum ve standart sapmasına bağlı olarak bilinen Z dönüşümü ile normalleştirilir. değer ise, n=3 olacağından 900 sayısı 0,9 olarak normalleştirilir.

Normalizasyon

Normalizasyon Min-max normalizasyon: v ' v mina maxa min Ör. Yıllık gelir $12,000 ile $98,000 arasını [0.0, 1.0] aralığına normalize edelim. $73,000 kaça denk gelir? Z-score normalizasyon (μ: ortalama, σ: standard sapma): v v ' A Ör. Let μ = 54,000, σ = 16,000. Öyleyse: Ondalıklı Normalizasyon v' v 10 j A A ( new_ max $73,000 kaça denk gelir? v = 0.73 A new_ mina) new_ min 73,600 12,000 (1.0 0) 0 0.716 98,000 12,000 73,600 54,000 1.225 16,000 5 A

Nitelik Oluşturma Yeni nitelikler yarat orjinal niteliklerden alan=boy x en veri daha daha önemli bilgi içersin madenciliği algoritmalarının başarımı iyi olsun

Veri Azaltma

Veri Azaltma Veri miktarı çok fazla olduğu zaman veri madenciliği algoritmalarının çalışması ve sonuç üretmesi çok uzun sürebilir Veri azaltma veriyi azaltma başarımı artırır sonucun (nerdeyse) hiç değişmemesi gerekir nitelik azaltma veri sıkıştırma veri ayrıklaştırma veri küçültme

Nitelik Azaltma Nitelikler kümesinin bir alt kümesi seçilerek veri madenciliği işlemi yapılır. d boyutlu veri kümesi k<d olacak şekilde k boyuta taşınır. Nitelik seçme Veri madenciliği uygulaması için gerekli olan niteliklerin seçilmesi

Örnek

Veri Sıkıştırma Verinin boyutunu azaltır daha az saklama ortamı veriye ulaşmak daha çabuk Kayıplı ve kayıpsız veri sıkıştırma bazı yöntemler bazı veri tiplerine uygun Eğer veri madenciliği yöntemi sıkıştırılmış veri üzerinde doğrudan çalışabiliyorsa elverişli

Veri Sıkıştırma Orijinal veri Sıkıştırılmış veri kayıpsız Orijinale Benzeyen Veri

Veri Ayrıklaştırma Bazı veri madenciliği algoritmaları sadece ayrık veriler ile çalışır. Sürekli bir nitelik değerini bölerek her aralığı etiketler. Verinin değeri, bulunduğu aralığın etiketi ile değişir. Veri boyutu küçülür.

Veri Ayrıklaştırma Müşteri Yaşına göre ayrıklaştırma Bebek Çocuk Genç Yetişkin Yaşlı İleri yaş Orta Yaş Çok yaşlı

Veri Küçültme Veriyi farklı şekillerde gösterme histogram kümeleme örnekleme

Histogram ile Veri Küçültme Verinin dağılımı Veriyi bölerek her bölüm için veri değerini gösterir (toplam, ortalama)

Kümeleme ile Veri Küçültme Veri kümelere ayrılır Veri kümeleri temsil eden örnekler merkezleri) ve aykırılıklar ile temsil Etkisi verinin dağılımına bağlı. (küme edilir

Kümeleme ile veri küçültme Kümelenmiş veri Her kümeden orantılı sayıda temsilci seçimi

Örnekleme ile Veri Küçültme Büyük veri kümesini daha küçük bir alt küme ile temsil etme Alt küme nasıl seçiliyor? yerine yerine koymadan örnekleme (SRSWOR) koyarak örnekleme (SRSWR) katman örnekleme (katman: nitelik değerine göre grup)

Raw Data Örnekleme

Benzerlik ve Farklılık

Benzerlik ve Farklılık Benzerlik iki nesnenin benzerliğini ölçen sayısal değer nesneler birbirine daha benzer ise daha genelde 0-1 aralığında değer alır Farklılık büyük iki nesnenin birbirinden ne kadar farklı olduğunu gösteren sayısal değer nesneler birbirine daha benzer ise daha küçük en küçük farklılık genelde 0 üst sınır değişebilir.

Uzaklık Çeşitleri Öklid Minkowski (Manhattan)

Öklid Uzaklığı

Öklid Uzaklığı 3 2 1 0 p1 p3 p4 p2 0 1 2 3 4 5 6 point x y p1 0 2 p2 2 0 p3 3 1 p4 5 1 p1 p2 p3 p4 p1 0 2.828 3.162 5.099 p2 2.828 0 1.414 3.162 p3 3.162 1.414 0 2 p4 5.099 3.162 2 0 Uzaklık Matrisi

Minkowski Uzaklığı

Minkowski Uzaklığı Manhattan Uzaklık Matrisi point x y p1 0 2 p2 2 0 p3 3 1 p4 5 1 L1 p1 p2 p3 p4 p1 0 4 4 6 p2 4 0 2 4 p3 4 2 0 2 p4 6 4 2 0 Öklid Uzaklık Matrisi L2 p1 p2 p3 p4 p1 0 2.828 3.162 5.099 p2 2.828 0 1.414 3.162 p3 3.162 1.414 0 2 p4 5.099 3.162 2 0

Benzerlik Özellikleri İki nesne arası benzerlik özellikleri 1. 2. sim(i,j)>=0 sim(i,j)=sim(j,i)

İkili Değişkenler Arası Benzerlik

Örnek