Veri-Nesne-Nitelik. Bölüm 2. Veri Önişleme

Benzer belgeler

Veri Madenciliği. Bölüm 2. Veri Önişleme. Doç. Dr. Suat Özdemir. w3.gazi.edu.tr/~suatozdemir

CHAPTER 7: DISTRIBUTION OF SAMPLE STATISTICS. Sampling from a Population

Veri Toplama Yöntemleri. Prof.Dr.Besti Üstün

*Bir boyutlu veri (bir özellik, bir rasgele değişken, bir boyutlu dağılım): ( x)

ÜNİTE 5 KESİKLİ RASSAL DEĞİŞKENLER VE OLASILIK DAĞILIMLARI

BÖLÜM 3 FREKANS DAĞILIMLARI VE FREKANS TABLOLARININ HAZIRLANMASI

SÜREÇ YÖNETİMİ VE SÜREÇ İYİLEŞTİRME H.Ömer Gülseren > ogulseren@gmail.com

BÖLÜM 7 BİLGİSAYAR UYGULAMALARI - 1

BÖL-1B. Fatih University- Faculty of Engineering- Electric and Electronic Dept.

1. YAPISAL KIRILMA TESTLERİ

RİSK ANALİZİ VE. İşletme Doktorası

Exponential Distribution. diger. Probability Distributions. Sürekli Şans Değişkenleri. 0 diger. SÜREKLİ RASSAL DEĞİŞKENLER ve OLASILIK DAĞILIMLARI

Veri Objeleri ve Attribute (öznitelik) tipleri

ALGILAMA - ALGI. Alıcı organların çevredeki enerjinin etkisi altında uyarılmasıyla ortaya çıkan nörofizyolojik süreçler.

YILDIZ TEKNİK ÜNİVERSİTESİ DERS GÖREVLENDİRME YÖNERGESİ

VERİ MADENCİLİĞİ (Veri Önişleme-1) Yrd.Doç.Dr. Kadriye ERGÜN

İki Değişkenli Bağlanım Modelinin Uzantıları

Istatistik ( IKT 253) 1. Çal şma Sorular - Cevaplar

Yarışma Sınavı A ) 60 B ) 80 C ) 90 D ) 110 E ) 120. A ) 4(x + 2) B ) 2(x + 4) C ) 2 + ( x + 4) D ) 2 x + 4 E ) x + 4

Etkinliklere katılım, ücretli ve kontenjan ile sınırlıdır.

HAM PUAN: Üniversite Sınavlarına giren adayların sadece netler üzerinden hesaplanan puanlarına hem puan denir.

İstatistik ve Olasılığa Giriş. İstatistik ve Olasılığa Giriş. Ders 3 Verileri Sayısal Ölçütlerle İfade Etme. Verileri Sayısal Ölçütlerle İfade Etme

SÜRE BİLİŞİM TEKNOLOJİLERİ ÜNİTE 1: : BİLGİ VE TEKNOLOJİ DERS SAATİ: 7

Bölüm 3. Sentaks ve semantik tarifi ISBN

13 Kasım İlgili Modül/ler : Satın Alma ve Teklif Yönetimi. İlgili Versiyon/lar : ETA:SQL, ETA:V.8-SQL

Nedensel-Karşılaştırma Yöntemi

Konular. VERİ MADENCİLİĞİ Veri Önişleme. Değer Kümeleri. Veri Nedir? Nitelik Türleri. Konular. Veri Veri Önişleme Benzerlik ve farklılık

Yedi Karat Kullanım Klavuzu. Yedi Karat nedir? Neden Karat?

DENEY 2: PROTOBOARD TANITIMI VE DEVRE KURMA

BIM BUILDING INFORMATION MODELING YAPI BİLGİ MODELİ

KORELASYON VE REGRESYON ANALİZİ

TEKNİK RESİM. Ders Notları: Mehmet Çevik Dokuz Eylül Üniversitesi. Görünüşler - 1

AB ve Türkiye Telekomünikasyon Pazarları 2009 Yılı Durum Karşılaştırması

MODEL KURMA HATALARI ve VERİ SORUNLARI

DİKKAT! SORU KİTAPÇIĞINIZIN TÜRÜNÜ "A" OLARAK CEVAP KÂĞIDINA İŞARETLEMEYİ UNUTMAYINIZ. SAYISAL BÖLÜM SAYISAL-2 TESTİ

B02.8 Bölüm Değerlendirmeleri ve Özet

Pazarlama Araştırması Grup Projeleri

Saplama ark kaynağı (Stud welding) yöntemi 1920'li yıllardan beri bilinmesine rağmen, özellikle son yıllarda yaygın olarak kullanılmaktadır.

CS 553 INTELLIGENT DATA ANALYSIS PROJECT WORKSHOP ORHUN ALP ORAL

6. Ders. Genelleştirilmiş Lineer Modeller (Generalized Linear Models, GLM)

ATH-SW Serisi yüzey montaj termostat

Mak-204. Üretim Yöntemleri II. Vida ve Genel Özellikleri Kılavuz Çekme Pafta Çekme Rayba Çekme

6.5 Basit Doğrusal Regresyonda Hipotez Testleri İçin Hipotez Testi: 1. Hipotez kurulur. 2. Test istatistiği hesaplanır.

M. Selçuk ERCAN. Bina Yönetim Sistemleri Alarko-Carrier A.Ş.

EĞİTİM VE ÖĞRETİM YILI TED KDZ EREĞLİ KOLEJİ ORTAOKULU MATEMATİK 8.SINIF ÜNİTELENDİRİLMİŞ YILLIK PLANDIR.

ÖĞRENME FAALĠYETĠ GELĠġMĠġ ÖZELLĠKLER

1.3. NİTEL ARAŞTIRMA YÖNTEMLERİ GİRİŞ NİTEL ARAŞTIRMALARDA GEÇERLİK VE GÜVENİRLİK SORUNLARI... 2

It is symmetrical around the mean The random variable has an in nite theoretical range: 1 to +1

Yrd. Doç.Dr. Neşet Demirci, Balıkesir Üniversitesi, NEF, Fizik Eğitimi. Hipotez Testine Giriş

T.C. ERCİYES ÜNİVERSİTESİ MÜHENDİSLİK FAKÜLTESİ MEKATRONİK MÜHENDİSLİĞİ BÖLÜMÜ MEKATRONİK LABORATUVARI 1. BASINÇ, AKIŞ ve SEVİYE KONTROL DENEYLERİ

SÜRE BĠLĠġĠM TEKNOLOJĠLERĠ ÜNĠTE 1: ĠLETĠġĠM DERS SAATĠ: 1. Gelecekteki bilişim teknoloji

İstatiksel Analiz ve Enstrümantasyon (MFGE 312) Ders Detayları

MARMARA ÜNĠVERSĠTESĠ YABANCI DĠL VE TÜRKÇE HAZIRLIK SINIFLARI EĞĠTĠM-ÖĞRETĠM ve SINAV YÖNERGESĠ Senato: 13 Ekim 2009 /

HÂKİMLER VE SAVCILAR YÜKSEK KURULU HUKUKİ MÜZAKERE TOPLANTILARI PROJE FİŞİ

Ortaö retim Alan Ö retmenli i Tezsiz Yüksek Lisans Programlar nda Akademik Ba ar n n Çe itli De i kenlere Göre ncelenmesi: Mersin Üniversitesi Örne i

İSTANBUL TİCARET ÜNİVERSİTESİ BİLGİSAYAR MÜHENDİSLİĞİ BÖLÜMÜ BİLGİSAYAR SİSTEMLERİ LABORATUARI YÜZEY DOLDURMA TEKNİKLERİ

Konveyörler NP, NI Serisi

Konu 4 Tüketici Davranışları Teorisi

Kılavuz Çekmek. Üretim Yöntemleri 15

Fen-Teknoloji-Toplum-Çevre I (Elektrik ve Manyetik Alanın Toplumsal ve Çevresel Etkileri)

T.C. Hitit Üniversitesi. Sosyal Bilimler Enstitüsü. İşletme Anabilim Dalı

Bilgisayarla Tasarım I (GRT 207) Ders Detayları

Deneysel Verilerin Değerlendirilmesi

Regresyon. Regresyon korelasyon ile yakından ilişkilidir

CHAPTER 8: CONFIDENCE INTERVAL ESTIMATION: ONE POPULATION

ELLE SÜT SAĞIM FAALİYETİNİN KADINLARIN HAYATINDAKİ YERİ ARAŞTIRMA SONUÇLARI ANALİZ RAPORU

DİJİTAL FOTOĞRAF MAKİNELERİ VE KAMERALAR ÜRÜN E-EĞİTİMİ ÖZETİ

KAPSAMLI İÇERİK SADELEŞTİRİLMİŞ ARAMA MOTORU YENİLİKÇİ BİLGİ İŞLEME TEKNOLOJİSİ PRATİK GÖRÜNTÜLEME ARAÇLARI MOBİL ERİŞİM

MİKRO İKTİSAT ÇALIŞMA SORULARI-10 TAM REKABET PİYASASI

2008 YILI MERKEZİ YÖNETİM BÜTÇESİ ÖN DEĞERLENDİRME NOTU

PAZARLAMA VE PERAKENDE

UYGULAMA 4 TANIMLAYICI İSTATİSTİK DEĞERLERİNİN HESAPLANMASI

OKUL BAZLI BÜTÇELEME KILAVUZU

Ders 2: Aktüerya. Ankara Üniversitesi. İST424 Aktüeryal Risk Analizi Ders Notları. Doç.Dr. Fatih Tank. Sigortacılığın.

İçindekiler. 2. Zaman Verilerinin Belirlenmesi 47

SPSS (Statistical Package for Social Sciences)

F İ R M a. Herşey Bir Kaynaktan. Düz profillerin ve baraların işlenmesinde uzman

İçindekiler Şekiller Listesi

0 dan matematik. Bora Arslantürk. çalışma kitabı

TURBOCHARGER REZONATÖRÜ TASARIMINDA SES İLETİM KAYBININ NÜMERİK VE DENEYSEL İNCELENMESİ

- TESTO Hava Hızı ve Debisi Ölçüm Cihazı TANITMA VE KULLANMA KILAVUZU

ELITE A.G. KS100/HEFM SICAK-SOĞUK ETĐKET BOY KESME VE ĐŞARETLEME MAKĐNASI KULLANIM KILAVUZU

SEYAHAT PERFORMANSI MENZİL

USB KVM Switch. Ses özellikli ve 2 portlu USB KVM switch. Ses özellikli ve 4 portlu USB KVM switch

01 OCAK 2015 ELEKTRİK AKIMI VE LAMBA PARLAKLIĞI SALİH MERT İLİ DENİZLİ ANADOLU LİSESİ 10/A 436

İSTANBUL KEMERBURGAZ ÜNİVERSİTESİ ÖNLİSANS VE LİSANS PROGRAMLARI ARASINDA YATAY GEÇİŞ YÖNERGESİ. BİRİNCİ BÖLÜM Amaç, Kapsam, Dayanak ve Tanımlar

Temel Bilgisayar Programlama

Olasılık ve İstatistik Dersinin Öğretiminde Deney ve Simülasyon

İşte sınavla öğrenci alan liselerin kontenjanları

İçerik EBYS Raporlama... 2 Belge İşlemleri Raporu... 2 Birim Gelen Belge Listesi Raporu... 3 Birim Gelen Belge Sayıları Raporu... 4 Birim Giden Belge

Bilgiye Ulaşma. Markush Arama

Doç. Dr. Mehmet Durdu KARSLI Sakarya Üniversitesi E itim fakültesi Doç. Dr. I k ifa ÜSTÜNER Akdeniz Üniversitesi E itim Fakültesi

OPERATÖRLER BÖLÜM Giriş Aritmetik Operatörler

İZMİR KÂTİP ÇELEBİ ÜNİVERSİTESİ ENGELSİZ ÜNİVERSİTE KOORDİNATÖRLÜĞÜ VE ENGELLİ ÖĞRENCİ BİRİMİ ÇALIŞMA USUL VE ESASLARI BİRİNCİ BÖLÜM

BÖLÜM 1 YAZILIM TASARIMINA GİRİŞ YZM211 YAZILIM TASARIMI. Yrd. Doç. Dr. Volkan TUNALI Mühendislik ve Doğa Bilimleri Fakültesi / Maltepe Üniversitesi

Yandaki resimlerde Excel Pazartesi den başlayarak günleri otomatik olarak doldurmuştur.

Analiz aşaması sıralayıcı olurusa proje yapımında daha kolay ilerlemek mümkün olacaktır.

KARMAŞIK YAPILARDA TEŞVİK MÜDAHALESİ. Metin Durgut, TEPAV 5. Bölgesel Kalkınma ve Yönetişim Sempozyumu, Ocak 2011

Üniversitelerde Yabancı Dil Öğretimi

Transkript:

10 Bölüm 2. Veri Önişleme http://ceng.gazi.edu.tr/~ozdemir Veri-Nesne-Nitelik Veri: Nesneler ve nesnelerin niteliklerinden oluşan küme Nesne terimi yerine kayıt (record), varlık (entity), örnek (sample, instance) kullanılabilir Nitelik (attribute) bir nesnenin (object) bir özelliğidir bir insanın yaşı, ortamın sıcaklığı.. Nitelik yerine boyut (dimension), özellik (feature, characteristic) kullanılabilir Nitelikler ve bu niteliklere ait değerler bir nesneyi oluşturur. Nesneler grubu veriyi oluşturur Öğrenci kayıt listesi Nesne (Objects) Nitelik (Attributes) Tid Refund Marital Taxable Status Income Cheat 1 Yes Single 125K No 2 No Married 100K No 3 No Single 70K No 4 Yes Married 120K No 5 No Divorced 95K Yes 6 No Married 60K No 7 Yes Divorced 220K No 8 No Single 85K Yes 9 No Married 75K No 10 No Single 90K Yes VERİ 1

Ayrık ve sürekli nitelikler Ayrık Nitelik / Discrete Attribute Sonlu sayıda değerden oluşan nitelikler E.g., posta kodu, meslek, ya da doküman seti içerisindeki kelimeler Tamsayı değerler olarak ifade edilebilir İkili / binary nitelikler de ayrık niteliklerin özel bir türüdür Sürekli Nitelik / Continuous Attribute Değeri gerçek sayılar olan nitelikler E.g., sıcaklık, k yükseklik, klik ya da ağırlıkğ Floating-point değerler olarak ifade edilebilir Neden veri önişleme? Gerçek hayatta karşılaştığımız veriler genelde eksik (missing or incomplete), hatalı (noisy), ve tutarsız (inconsistent) olma eğilimindedir. Düşük ş kaliteli veri Veri kalitesini düşüren sorunlar: Noise / Gürültü Outliers / Sapan veri Missing values / Eksik veri Duplicate data / Tekrarlı veri Veri iletim hataları Teknolojik sınırlamalar Veri isimlendirmede veya yapısında uyumsuzluk 2

Noise / Gürültü Orjinal veride oluşan istenmeyen değişimlerdir Örnek: telefonda konuşurken sesimizin bozulması, televizyon ekranındaki karlanma İki Sinüs Dalgası İki Sinüs Dalgası + Gürültü Outliers / Sapan veri Sapan veriler veri setinin geri kalan kısmından çok farklı olan verileridir. 3

Missing Values / Eksik veri Nedenler Bilginin toplanamaması Yaşını, kilosunu ya da gelirini belirtmek istemeyen insanlar Uygun olmayan nitelikler Çocuklar için gelir niteliği uygulanamaz Çözümler Eksik verileri dikkate alma Eksik veriyi tahmin et (ortalama vs.) Duplicate Data / Tekrarlı veri Birbirinin aynısı olan veriler Değişik veritabanlarının birleştirilmesi sırasında ortaya çıkar Birden çok eposta adresine sahip insan Çözüm Veri temizleme 4

Neden veri önişleme? Düşük kaliteli veri düşük kaliteli veri madenciliği sonuçlarına yol açar Veri önişleme? Veri madenciliği kalitesini artırmak Veri madenciliğini kolaylaştırmak Verimliliği artırmak hedeflenir Tanımlayıcı veri özetleme Veri önişlemenin temeli Veriyi daha iyi anlamak ve anlatmak Verinin merkezi eğilimi Ortalama, ortanca (median), mode Verinin dağılımı Çeyreklikler (quartiles), IQR, variance, boxplots 5

Ortalama (Mean) Ortalama (mean) n 1 x Örnekleme n i 1 x i Popülasyon Ağırlıklı ortalama x x N n i 1 n i 1 w i x i w i Ortanca (Median) Veri setinde ortadaki verinin değeri Çift sayıda veri varsa ortadaki iki verinin ortalaması Gruplanmış veriler için interpolation yolu ile bulunur Yaş Frekans 5 10 120 11 15 50 16 20 160 21 25 70 26 30 200 n / 2 ( f ) l median L1 ( ) c f Ortanca aralığın ilk elemanı Ortanca aralıktan aşağıdaki aralıklardaki eleman sayılarının toplamı f median 600 / 2 (270) median 16 ( )5 16.9 160 Ortanca aralığın genişliği Ortanca aralığın frekansı 6

Mod (Mode) Veri seti içinde en çok tekrarlanan veri Unimodal Bimodal Ti Trimodal Deneysel (empirical) formül mean mode 3( mean median) Simetrik ve Çarpık Veri Ortalama, ortanca ve mod değerleri Mean Median Mode 7

Verinin dağılımı Quartiles, outliers and boxplots Çeyrek (Quartile): Q 1 (25 th percentile), Q 3 (75 th percentile) Inter-quartile range: IQR = Q 3 Q 1 Five number summary: min, Q 1, M, Q 3, max Boxplot: ends of the box are the quartiles, median is marked, whiskers, and plot outlier individually Sapan veri (Outlier): usually, a value higher/lower than 1.5 x IQR Verinin dağılımı Varyans ve standart sapma (örnekleme: s, populasyon: σ) Varyans: s 2 1 n1 n i1 ( x x) i 2 1 [ n1 n n 2 xi ( i1 n i1 2 x ) ] Standart sapma s (ya da σ) varyansın kare kökü 1 i n n 2 1 2 1 ( xi ) N i1 N i1 x 2 i 2 8

Normal dağılım eğrisinin özellikleri Normal dağılım eğrisi (μ σ) ile (μ+σ) arasında verilerin yaklaşık %68i bulunur (μ: ortalama, σ: standart sapma) (μ 2σ) ile (μ+2σ) arasında %95i (μ 3σ) ile (μ+3σ) arasında %99.7si 68% 95% 99.7% 3 2 1 0 +1 +2 +3 3 2 1 0 +1 +2 +3 3 2 1 0 +1 +2 +3 Görsel tanımlayıcı veri özetleme Veriyi daha iyi ifade edebilmek için kullandığımız yöntemler Boxplot Histogram, sıklık histogramı, bar chart Eşit bölen (Quantile) grafikleri Q-Q grafikleri Serpme (scatter) grafikleri 9

Boxplot analizi Five number summary nin grafik olarak gösterimi Minimum, Q1, M, Q3, Maximum Boxplot Veri bir kutu olarak gösterilir Kutunun alt ve üst çizgileri 1. ve 3. çeyreklerdir Ortanca bir çizgi ile belirtilir Maxve mindeğerleri kutunun dışında iki çizgi (Whiskers) ile belirtilir Histogram analizi Basit istatistiksel sınıfları gösteren grafik Veri setindeki çeşitli sınıflara ait verilerin sayısını ya da frekansını veren dikdörtgenlerden oluşur 10

Quantile plot Kullanıcının hem normal verileri hem de aykırılıklarını görmesini sağlar Quantile bilgisi verir Veri x i ile gösterilirse, f i değeri ğ veri setindeki verilerin i %100f i sinin x i den küçük ya da eşit olduğunu gösterir Tek değişkenli analiz Quantile-Quantile plot Karşılaştırma yapar, eğilimi gösterir Çift değişkenli analiz Q1 M Q3 Quantile-quantile plots (also called q-q plots) are used to determine if two data sets come from populations with a common distribution. In such a plot, points are formed from the quantiles of the data. Şube 1 de satılan ürünler şube 2 de satılanlardan daha ucuz olma eğiliminde 11

Scatter plot Veri içindeki sapan verileri, kümeleri gösterir Özet: Veri Dağılımının Grafiksel Olarak Gösterimi Histogram Boxplot Quantile plot: each value x i is paired with f i indicating that approximately 100 f i %ofdata are x i Quantile-quantile (q-q) plot: graphs the quantiles of one univariant distribution against the corresponding quantiles of another Scatter plot: each pair of values is a pair of coordinates and plotted as points in the plane 12

Veri önişleme Veri temizleme Eksik veri tamamlama, hatalı verileri düzeltme, tutarsız verileri kaldırma Veri bütünleştirme Artık verileri ortadan kaldırma, veritabanlarını birleştirme Veri değiştirme Veriyi daha anlaşılabilir bir halde ifade etme, normalizasyon Veri azaltma Veri bütünleştirme, nitelik alt kümesi seçme, boyut küçültme, vb. Veri önişleme 13

Veri önişleme Veri temizleme Eksik veri tamamlama, hatalı verileri düzeltme, tutarsız verileri kaldırma Veri bütünleştirme Artık verileri ortadan kaldırma, veritabanlarını birleştirme Veri değiştirme Veriyi daha anlaşılabilir bir halde ifade etme, normalizasyon Veri azaltma Veri bütünleştirme, nitelik alt kümesi seçme, boyut küçültme, vb. Veri temizleme Eksik veri tamamlama, hatalı verileri düzeltme, tutarsız verileri kaldırma Eksik veri tamamlama (missing values) Kaydı yok say Elle doldurma Global bir değerle doldurma Nitelik ortalamasıyla doldurma Eksik verinin ait olduğu grubun nitelik ortalamasıyla doldurma En olası değerle doldurma (regression, Bayesian inference) 14

Veri temizleme Hatalı verileri düzeltme (gürültülü-noisy data) hatalı veri toplama gereçleri veri giriş problemleri veri girişi i i sırasında kullanıcıların l hatalı yorumları veri iletim hataları teknolojik sınırlamalar veri isimlendirmede veya yapısında uyumsuzluk Hatalı verinin tespiti? Sapan veriler Veri temizleme Çözüm yöntemleri Kova metodu (Binning): Veriyi düzleştirme, lokal çözüm Kova ortalaması ile düzleştirme Kova ortancası ile düzleştirme Kova sınırları ile düzleştirme Eğri uydurma (Regression) Demetleme (Clustering) İnsan-bilgisayar incelemesi 15

Kova metodu (Binning) Eşit genişlik (Equal-width (distance) partitioning) Veri setini N eşit aralığa böler: uniform grid Eğer A ve B veri setindeki en büyük ve en küçük değerler ise her bir aralığın genişliği: W = (B A)/N. Basit ancak sapan verilerden etkilenir Çarpık (skewed) veri iyi ifade edilemez Kova metodu (Binning) Eşit derinlik (Equal-depth (frequency) partitioning) Her bir veri aralığı yaklaşık olarak aynı sayıda veri içerir Ölçeklenebilir 16

Binning - Örnek Sorted data for price (in dollars): 4, 8, 9, 15, 21, 21, 24, 25, 26, 28, 29, 34 Partition into equal-frequency (equi-depth) bins: - Bin 1: 4, 8, 9, 15 - Bin 2: 21, 21, 24, 25 - Bin 3: 26, 28, 29, 34 Smoothing by bin means: - Bin 1: 9, 9, 9, 9 - Bin 2: 23, 23, 23, 23 - Bin 3: 29, 29, 29, 29 Smoothing by bin boundaries: - Bin 1: 4, 4, 4, 15 - Bin 2: 21, 21, 25, 25 - Bin 3: 26, 26, 26, 34 Regresyon Y1 Y1 y = x + 1 X1 x 17

Demetleme / Kümeleme Veri önişleme Veri temizleme Eksik veri tamamlama, hatalı verileri düzeltme, tutarsız verileri kaldırma Veri bütünleştirme Artık verileri ortadan kaldırma, veritabanlarını birleştirme Veri değiştirme Veriyi daha anlaşılabilir bir halde ifade etme, normalizasyon Veri azaltma Veri bütünleştirme, nitelik alt kümesi seçme, boyut küçültme, vb. 18

Veri bütünleştirme Artık verileri ortadan kaldırma, veritabanlarını birleştirme Schema bütünleştirme Varlık tanımlama (entity identification) problem Veritabanı 1 -> Cust_id Veritabanı 2 -> Cust_number Metadata kullanımı Her niteliği tanımla Artık/tekrarlı veri temizleme Korelasyon analizi Chi-squaretest Korelasyon Analizi Correlation coefficient (also called Pearson s product moment coefficient) r A, B ( A A )( B B ) ( AB ) N A B N A B N A B where n is the number of tuples, A and B are the respective means of A and B, σ A and σ B are the respective standard deviation of A and B, and Σ(AB) is the sum of the AB crossproduct. If r A,B > 0, A and db are positively correlated d(a (A s values increase as B s). The higher, the stronger correlation. r A,B = 0: independent; r A,B < 0: negatively correlated 19

Pearson s product moment coefficient r A,B değerlerinin anlamı Correlation Negative Positive None 0.09 to 0.0 0.0 to 0.09 Small 0.3 to 0.1 0.1 to 0.3 Medium 0.5 to 0.3 0.3 to 0.5 Strong 1.0 to 0.5 0.5 to 1.0 Korelasyon Analizi - Örnek 20

Chi-square Test Ayrık / kategorik veri için korelasyon Χ 2 (chi-square) test 2 ( Observed Expected ) Expected The larger the Χ 2 value, the more likely the variables are related The cells that contribute the most to the Χ 2 value are those whose actual count is very different from the expected count Correlation does not imply causality # of hospitals and # of car-theft in a city are correlated Both are causally linked to the third variable: population 2 Chi-square Test - Örnek male female Sum (row) fiction 250(90) 200(360) 450 non-fiction 50(210) 1000(840) 1050 Sum(col.) 300 1200 1500 Χ 2 (chi-square) calculation (numbers in parenthesis are expected counts calculated based on the data distribution in the two categories) 2 2 2 2 2 (250 90) (50 210) (200 360) (1000 840) 507.93 90 210 360 840 Bu hipotezin yanlış olduğunu red etmek için Bağımsızlık derecesi = (r-1)(c-1)=(2-1)(2-1)=1 ve belli bir önem derecesi için chisquare dağılımının kritik değer tablosuna bakılır 0.001 önem değeri için 10.828 10.828 < 507.93 olduğundan Cinsiyet ve okuma tercihi birbirlerinden bağımsız değil denir (çok kuvvetli bir ilişki vardır). 21

Kritik değer tablosu Veri önişleme Veri temizleme Eksik veri tamamlama, hatalı verileri düzeltme, tutarsız verileri kaldırma Veri bütünleştirme Artık verileri ortadan kaldırma, veritabanlarını birleştirme Veri değiştirme Veriyi daha anlaşılabilir bir halde ifade etme, normalizasyon Veri azaltma Veri bütünleştirme, nitelik alt kümesi seçme, boyut küçültme, vb. 22

Veri değiştirme Veriyi daha anlaşılabilir bir halde ifade etme, normalizasyon Düzeltme (smoothing) Birleştirme (aggregation) Genelleme Normalizasyon Max-min normalizasyon Z-score normalizasyon Normalizasyon by decimal scaling Nitelik oluşturma Veri değiştirme Min-max normalization: to [new_min A, new_max A ] v mina v ' ( new_ maxa new_ mina) new_ mina maxa mina Ex. Let income range $12,000 to $98,000 normalized to [0.0, 1.0]. Then $73,600 is mapped to 73,600 12,000 (1.0 0) 0 0.716 98,000 12,000 v A Z-score normalization (μ: mean, σ: standard deviation): v ' A Ex. Let μ = 54,000, σ = 16,000. Then 73,600 54,000 1.225 16,000 Normalization by decimal scaling v v' 10 j Where j is the smallest integer such that Max( ν ) < 1 v <1 olacak şekilde v değerini en büyük yapacak j değeri 23

Veri önişleme Veri temizleme Eksik veri tamamlama, hatalı verileri düzeltme, tutarsız verileri kaldırma Veri bütünleştirme Artık verileri ortadan kaldırma, veritabanlarını birleştirme Veri değiştirme Veriyi daha anlaşılabilir bir halde ifade etme, normalizasyon Veri azaltma Veri bütünleştirme, nitelik alt kümesi seçme, boyut küçültme, vb. Veri azaltma Veri boyutunu düşür Orijinal verinin özelliklerini koru Boyut küçültmek için harcanan zaman veri madenciliği ğ yaparken kazanacağımız ğ zamanı geçmemelidir Bazı metotlar Veri küpü birleştirme Nitelik altkümesi seçme Boyut azaltma Numerosity reduction (Veriyi modellerle yada görsel olarak ifade etme) Ayrıştırma ve konsept hiyerarşisi geliştirme 24

Nitelik altkümesi seçme Veriye ait tüm nitelikler yapılacak iş için önemli olmayabilir Alışveriş eğiliminin belirlenmesi/müşterilerin telefon numaraları Tekrarlı/redundant l/ d nitelikler Verinin dağılım özelliğini bozmadan veriyi ifade edebilecek en küçük nitelik altkümesinin seçilmesi Sonuçta ortaya çıkan örüntü sayısı azaltılarak veri anlaşılması daha kolay hale getirilir Veriyi i iyi i şekilde ifade edecek nitelik altkümesi nasıl bulunacak? Nitelik altkümesi seçme İyi ve kötü nitelikler bağımsızlık testleri, karar ağaçları gibi yöntemlerle belirlenir Bilgi kazancı vb. n nitelik için 2 n altküme (exponential) Sezgisel (heuristic) i metotlar : İleri adım adım seçme (Step-wise forward selection) Boş küme ile başlayıp en iyi nitelikler kümeye dahil edilir Geri adım adım eleme (Step-wise backward elimination) Tüm nitelikler ile başlanıp, her basamakta en kötü olan(lar) elenir İleri seçme ve geri elemenin birleştirilmesi Karar ağacı çıkarma (Decision-tree induction) Ağaç ortaya çıkarılır ağaç üzerinde görülmeyen nitelikler kötü/önemsiz olarak nitelendirilir ve elenir 25

Boyut azaltma (Dimentionality Reduction) Kodlama (encoding) ve değiştirmeyle veriyi sıkıştırma Wavelet transforms Principle Component Analysis (PCA) Numerosity reduction Veriyi modellerle yada görsel olarak daha küçük formlarda ifade etme Eğri uydurma modelleri Histogramlar Demetleme Örnekleme 26

Regresyon Analizi Bağımlı değişken ile bir veya daha çok bağımsız değişken arasındaki ilişkiyi incelemek amacıyla kullanılan bir analiz yöntemidir. Regresyon analizi ile bağımlı ve bağımsız değişkenler arasında bir ilişki var mıdır? Eğer bir ilişki varsa bu ilişkinin gücü nedir? Değişkenler arasında ne tür bir ilişki vardır? gibi sorulara cevap aranmaya çalışılır. y Y1 Y1 X1 y = x + 1 x Histogramlar Equ-width/Eşit genişlik Equ-depth/Eşit derinlik V optimal (Barlar arasında en düşük varyans) Olası bütün histogramlardan barlar arasından en düşük varyansa sahip olanı seç MaxDiff (Veriler arasındaki en fazla fark eden değer çiftleri sınırları belirler) B kova sayısı En yüksek B-1 tane farkı belirle ve kovaları ayır 40 35 30 25 20 15 10 5 0 10000 30000 50000 70000 90000 27

Demetleme / Kümeleme Veri setini benzerliklerine göre demetlere ayırma Sadece demeti ifade eden bilgiyi sakla Merkez ve çap Gruplu yapıya sahip veri setinde daha iyi sonuç verir Hiyeraşik demetleme yapılabilir ve indeks ağaçları olarak ifade edilebilir Örnekleme Tüm veri seti N i temsil edecek küçük veri seti s i seçmek Basit metotların performansı iyi değil Uyarlanabilir metotlar Strafied örnekleme Belli bir kurala göre sınıfla her sınıftan eşit sayıda örnek al 28

Örnekleme çeşitleri Simple random sampling There is an equal probability of selecting any particular item Sampling without replacement Once an object is selected, it is removed from the population Sampling with replacement A selected object is not removed from the population Stratified sampling: Partition the data set, and draw samples from each partition (proportionally, i.e., approximately the same percentage of the data) Used in conjunction with skewed data Sampling: With or without Replacement Raw Data 29

Sampling: Cluster or Stratified Sampling Raw Data Cluster/Stratified Sample Ayrıştırma ve konsept hiyerarşisi geliştirme Sayısal veri Binning Histogram analizi Kategorik veri Şema seviyesinde (kullanıcılar tarafından) Cadde<semt<şehir<ülke Gruplama {ankara,kayseri,konya}-> içanadolu Anlamsal bağlantılar Bazen adres olarak sadece şehir bilgisi yetebilir. Cadde sokak numara nitelikleri atılır. 30