Veri edir? p Veri edir? Geometrik bir bakış açısı p Bezerlik Olasılıksal bir bakış açısı p Yoğuluk p Veri kalitesi p Veri öişleme Birleştirme Öreklem Veri küçültme p Temel bileşe aalizi (Pricipal Compoet Aalysis) p Çok boyutlu ölçekleme (Multidimesioal Scalig) Veri Nedir?, Akademik Bilişim Koferası Karabük Üiversitesi, 27.01.2018 1
Veri Nedir? p Geel olarak veri d bir matris ile ifade edilir satır ve d sütu, p Satırlar öreklere p Sütular özelliklere (değişkelere) işaret eder. Veri Nedir?, Akademik Bilişim Koferası Karabük Üiversitesi, 27.01.2018 2
Veri Nedir? p Örek sayısı,, verii büyüklüğüü (size), özitelik (özellik, değişke) sayısı, d, ise verii boyutuu (boyutsallıkdimesioality) d=1 > Tek değişkeli aaliz (uivariate) d=2 -> Çift değişkeli aaliz (bivariate) d>2 -> Çok değişkeli aaliz (multivariate) Veri Nedir?, Akademik Bilişim Koferası Karabük Üiversitesi, 27.01.2018 3
Iris veri seti http://e.wikipedia.org/wiki/iris_flower_data_set Veri Nedir?, Akademik Bilişim Koferası Karabük Üiversitesi, 27.01.2018 4
Diğer tip veri setleri p Her veri seti matris formatıda olmayabilir p Daha karmaşık veri setleri aşağıdaki öğeleri içerebilir Kayıt tipi veri p İşlem/hareket (trasactio) Sıralı veri p DNA/Protei, p Meti, p Zama serisi, p Resim, p Ses p Video, ve diğerleri Ağ (graph) tipi veri p World Wide Web p Molekül yapıları p aaliz içi daha özelleşmiş tekikler gerektirir. Veri Nedir?, Akademik Bilişim Koferası Karabük Üiversitesi, 27.01.2018 5
Özitelik tipleri p Alabileceği değer kümesie göre iki aa itpe ayrılır. Kategorik özitelikler p Nomial: Göz regi, TC Kimlik No p Ordial: Eğitim durumu, aket sorusu cevabı (kötü, orta, iyi) Numerik özitelikler p Aralık-ölçekli (Iterval-scale): Sıcaklık 10 ve 20 derece iki hava durumuu, dü bugüde iki kat soğuktu demeyiz. p Ora-ölçekli (Ratio-scaled): yaş 20 yaşıdaki bir isa 10 yaşıdaki isada iki kat daha yaşlıdır. Veri Nedir?, Akademik Bilişim Koferası Karabük Üiversitesi, 27.01.2018 6
Farklı bir kategorizasyo Kesikli ve Sürekli Özitelikler p Kesikli özitelikler Değer kümesi sayılabile (coutable) öziteliklerdir. örekler: posta kodu, paragrafta yer ala kelimeler, araba markaları Çoğulukla tam sayılar ile ifade edilir p Sürekli özitelikler Reel sayılar ile ifade edilir. örekler: sıcaklık, ağırlık, uzuluk Ölçülebile ve solu sayıda rakam ile ifade edile öziteliklerdir. Veri Nedir?, Akademik Bilişim Koferası Karabük Üiversitesi, 27.01.2018 7
Veri Aalizie Yaklaşım Geometrik bakış p d tae özitelik içere D veri matriside tüm özitelikler ümerik ise her satır d- boyutlu uzayda bir okta olarak ifade edilebilir. Veri Nedir?, Akademik Bilişim Koferası Karabük Üiversitesi, 27.01.2018 8
Bezerlik Farklılık (Similarity Dissimilarity) p Bezerlik İki verii e kadar bezer olduğuu bir ölçütüdür. Veriler bezediğide büyük değerler alır. Geellikle [0,1] aralığıda ifade edilir. p Farklılık. İki verii e kadar farklı olduğuu bir ölçütüdür. Veriler bezediğide küçük değerler alır. E düşük farklılık çoğulukla sıfır ile ifade edilir. Üst limit değişebilir. p Bezerlik ya da farklılık kimi zama Yakılık (Proximity) olarak ifade edilir. Veri Nedir?, Akademik Bilişim Koferası Karabük Üiversitesi, 27.01.2018 9
Basit özitelikler içi bezerlik/farklılık Öklit Uzaklık p Öklit uzaklık dist = t ( p k q k 2 ) k= 1 p ve q öreklerii k özitelik değerlerii farklarıı karesii tüm özitelikler (t tae) üzeride toplaması ile buluur. p Özitelik ölçekleri farklı olduğu durumda, stadardizasyo gereklidir. Veri Nedir?, Akademik Bilişim Koferası Karabük Üiversitesi, 27.01.2018 10
Basit özitelikler içi bezerlik/farklılık Öklit Uzaklık 3 2 1 0 p1 p3 p4 p2 0 1 2 3 4 5 6 örek x y p1 0 2 p2 2 0 p3 3 1 p4 5 1 p1 p2 p3 p4 p1 0 2.828 3.162 5.099 p2 2.828 0 1.414 3.162 p3 3.162 1.414 0 2 p4 5.099 3.162 2 0 Uzaklık Matrisi (Distace Matrix) Veri Nedir?, Akademik Bilişim Koferası Karabük Üiversitesi, 27.01.2018 11
Basit özitelikler içi bezerlik/farklılık Mikowski Uzaklık p Mikowski Uzaklık geelleştirilmiş bir uzaklık ölçüsüdür dist = t ( k= 1 p q k k r parametresii değerlerie göre uzaklık taımı değişir. r ) 1 r Veri Nedir?, Akademik Bilişim Koferası Karabük Üiversitesi, 27.01.2018 12
Basit özitelikler içi bezerlik/farklılık Mikowski Uzaklık p r = 1. Mahatta, L 1 orm p r = 2. Öklit, L 2 orm p r. supremum (L max orm, L orm) distace. Özitelikler arası farkları maximumu Veri Nedir?, Akademik Bilişim Koferası Karabük Üiversitesi, 27.01.2018 13
Basit özitelikler içi bezerlik/farklılık Mikowski Uzaklık L1 p1 p2 p3 p4 p1 0 4 4 6 p2 4 0 2 4 p3 4 2 0 2 p4 6 4 2 0 örek x y p1 0 2 p2 2 0 p3 3 1 p4 5 1 L2 p1 p2 p3 p4 p1 0 2.828 3.162 5.099 p2 2.828 0 1.414 3.162 p3 3.162 1.414 0 2 p4 5.099 3.162 2 0 L p1 p2 p3 p4 p1 0 2 3 5 p2 2 0 1 3 p3 3 1 0 2 p4 5 3 2 0 Uzaklık matrisi Veri Nedir?, Akademik Bilişim Koferası Karabük Üiversitesi, 27.01.2018 14
Veri Aalizie Yaklaşım Olasılıksal bakış p Her özitelik rassal bir değişkedir. Her deeyi soucuda belli bir kurala değer ataya bir foksiyo. Makie-Süreç Bilimeye olasılık dağılımı -tipi -parametreleri X Iris verisetide gövde uzuluğu, =150 - Sürekli bir rassal değişke Veri Nedir?, Akademik Bilişim Koferası Karabük Üiversitesi, 27.01.2018 15
Veri Aalizie Yaklaşım Olasılıksal bakış p Her öziteliği tek değişkeli bir rassal sayı olarak taımlamak yerie, veri setimizi çok değişkeli bir rassal sayıda oluştuğuu düşüebiliriz. Zar atma p P(1,1)=1/36 p P(1,2)=1/36 p. Örek p İki değişkeli (bivariate) Normal dağılım Gaus (Gaussia) dağılım olarak da taımlaır (bir ya da birde çok değişkeli rassal sayılar içi) Gerçek hayat problemleri çoğulukla çok değişkelidir. Veri Nedir?, Akademik Bilişim Koferası Karabük Üiversitesi, 27.01.2018 16
Olasılıksal bakış Normal (Gaus) dağılım p E çok kullaıla dağılımdır, ede? Merkezi limit teoremi p Ayı tipte dağılıma sahip birbiride bağımsız rassal değişkelerde elde edile sayıları ortalaması yaklaşık olarak Normal dağılım gösterir Veri Nedir?, Akademik Bilişim Koferası Karabük Üiversitesi, 27.01.2018 17
Olasılıksal bakış Öklit dağılım p Eğer dağılımı bilmiyorsak Uzayı eşit aralıklara bölü oktaları sayarak dağılımı ifade edebiliriz. Veri Nedir?, Akademik Bilişim Koferası Karabük Üiversitesi, 27.01.2018 18
Olasılıksal bakış Kovaryas p İki rassal değişkei birlikte değişimii ölüsüdür. Öreği 2 boyutlu Normal dağılım izleye bir 50 örekli bir veri setimiz olsu. Birici değişke İkici değişke -2-1 0 1 2-2 -1 0 1 2 0 10 20 30 40 50 0 10 20 30 40 50 Gözlemler Gözlemler Veri Nedir?, Akademik Bilişim Koferası Karabük Üiversitesi, 27.01.2018 19
Olasılıksal bakış Kovaryas p İki boyut birlikte çizildiğide Dim 2-2 -1 0 1 2 Problem, gürültü ya da aykırı davraış? İlişkileri modellemesi öemlidir. -2-1 0 1 2 Dim 1 Veri Nedir?, Akademik Bilişim Koferası Karabük Üiversitesi, 27.01.2018 20
Olasılıksal bakış Çok değişkeli Normal dağılım p Tek değişkeli ormal dağılımı parametreleri ortalama ve stadart sapmadır. p Çok değişkeli Normal dağılım ortalama vektörü ve kovaryas matrisi ile taımlaır. Veri Nedir?, Akademik Bilişim Koferası Karabük Üiversitesi, 27.01.2018 21
Olasılıksal bakış Çok değişkeli Normal dağılım p R örekleri Veri Nedir?, Akademik Bilişim Koferası Karabük Üiversitesi, 27.01.2018 22
Korelasyo p İki örek arası lieer ilişkiyi modeller Veri Nedir?, Akademik Bilişim Koferası Karabük Üiversitesi, 27.01.2018 23
Görsel olarak korelasyo İlişkii değeri 1 ile 1 arası değişir. Veri Nedir?, Akademik Bilişim Koferası Karabük Üiversitesi, 27.01.2018 24
Veri kalitesie etki ede faktörler p Doğruluk Veri girişide yapıla hatalar p Bütülük Kayıp veri p Teklik (Uiqueess) Ayı verii birde fazla kaydı p Gücellik (Timeliess) Vakti geçmiş işe yaramaya veri p Tutarlılık Verii kedisiyle çeliştiği durumlar Veri aalizideki e öemli aşama öişleme aşamasıdır. Tekikler: Örekleme, Boyut küçültme, Değişke seçimi. Zorlu bir aşamadır ama geelde e öemli aşamalarda biridir. Veri Nedir?, Akademik Bilişim Koferası Karabük Üiversitesi, 27.01.2018 25
Veri kalitesi Kirli veri p Kirli veri e demek? Eksik veri p kayıp (missig) değerler Tutarsız veri p (farklı kodlama, imkasız değerler) Gürültülü veri p (hatalı girilmiş değerler) Veri Nedir?, Akademik Bilişim Koferası Karabük Üiversitesi, 27.01.2018 26
Veri kalitesi Eksik veri p Kayıp değerler Bilgii toplaamaması (yaşıı ya da kilosuu söylemek istemeye kişi) Bazı bilgileri olmaması (öreği çocuklar yıllık geliri yoktur) p Kayıp değerler ile çalışmak Veriyi atmak Kayıp değeri tahmi etmek Aaliz sırasıda eksik veriyi gözardı etmek Olası tüm değerleri kayıp veriyi doldurup, souçları karşılaştırmak Veri Nedir?, Akademik Bilişim Koferası Karabük Üiversitesi, 27.01.2018 27
Veri kalitesi Gürültülü Veri p Asıl değerleri değişim göstermesie gürültü (oise) deir. Örek: Telefoda isaı sesi Veri Nedir?, Akademik Bilişim Koferası Karabük Üiversitesi, 27.01.2018 28
Veri kalitesi Aykırı veri p Aykırı veri diğer verilerde dağılım ya da uzaklık alamıda farklılık gösterir. Veri Nedir?, Akademik Bilişim Koferası Karabük Üiversitesi, 27.01.2018 29
Veri öişleme p Veri temizleme Kayıp değerleri doldurma, gürültü azaltma, aykırı veriyi ayıklama p Veri döüştürme Stadardizasyo, ormalizasyo p Veri azaltma Bilgi kaybıı e aza idirecek şekilde veriyi azaltma Veri Nedir?, Akademik Bilişim Koferası Karabük Üiversitesi, 27.01.2018 30
Birleştirme (Aggregatio) p Birde çok öziteliği tek özitelik olarak ya da birde çok öreği tek örek olarak ifade etmek p Amaç Veri küçültmek p özitelik ya da örek sayısıı azaltmak Ölçek değiştirme p Şehirleri bölgeler ya da ülkeler ciside ifade etmek Daha stabil veri p Birleştirile veri geellikle daha az varyasa sahiptir. Veri Nedir?, Akademik Bilişim Koferası Karabük Üiversitesi, 27.01.2018 31
Örekleme p Veri seçimi içi e çok kullaıla yötemdir. Çoğulukla ö aaliz içi tercih edilir. Bazı yötemler farklı öreklemler üzeride çalışıp, farklı modelleri birleştirir. p İstatistikçiler öreklem üzeride çalışır çükü tüm veriyi elde etmek masraflı olabilir. Ayrıca tüm veriyle çalışmak hesaplama zamaı açısıda soru yaratabilir. Veri Nedir?, Akademik Bilişim Koferası Karabük Üiversitesi, 27.01.2018 32
Öreklem Büyüklüğü 8000 gözlem 2000 Gözlem 500 Gözlem Veri Nedir?, Akademik Bilişim Koferası Karabük Üiversitesi, 27.01.2018 33
Öreklem Büyüklüğü p 10 grubu her biride e az bir tae örek alabilmek içi e kadar büyük bir öreklem gerekli? Veri Nedir?, Akademik Bilişim Koferası Karabük Üiversitesi, 27.01.2018 34