Büyük Veri Analitiği (Big Data Analytics) M. Ali Akcayol Gazi Üniversitesi Bilgisayar Mühendisliği Bölümü Bu dersin sunumları, Mining of Massive Datasets, Jure Leskovec, Anand Rajaraman, Jeffrey David Ullman, Stanford University, 2011. kitabı kullanılarak hazırlanmıştır. Genel bilgiler Değerlendirme Arasınav : 25% Ödevler : 15% Final Projesi : 30% Final Sınavı : 30% Ders kaynakları Mining of Massive Datasets, Jure Leskovec, Anand Rajaraman, Jeffrey David Ullman, Stanford University, 2011. Real-Time Big Data Analytics: Emerging Architecture, Mike Barlow, O Reilly Media, 2013. Big Data, Data Mining, and Machine Learning: Value Creation for Business Leaders and Practitioners, Jared Dean, Wiley, 2014. Data Science and Big Data Analytics: Discovering, Analyzing, Visualizing and Presenting Data, EMC Education Services, 2015. e-posta web : akcayol@gazi.edu.tr : http://w3.gazi.edu.tr/~akcayol 2 1
Genel bilgiler Araştırma ödevleri Haftalık konu ile ilgili bir makale incelenerek detaylı rapor hazırlanacaktır. İncelenen makalede ilgili yöntemin/algoritmanın/yaklaşımın kullanılmasının gerekçeleri, elde edilen sonuçları değerlendirilecektir. İncelenen makale son 3 yılda yayınlanmış olacaktır. Makale SCI-E tarafından taranan bir dergide yayınlanmış olacaktır. SCI-E tarafından tarandığını gösterir bilgi ödeve eklenecektir. Hazırlanan rapora makalenin tam metni de eklenecektir. 3 Genel bilgiler Final Projeleri Bir yöntemin/algoritmanın bir alana uygulamasını içerecektir. Geliştirilecek uygulamanın algoritma kısmında hazır araç, fonksiyon veya kütüphane kullanılmayacaktır. Hazırlanan projenin tüm dokümanları CD ile, proje raporu ise çıktı ile teslim edilecektir. 4 2
Genel bilgiler Ders içeriği 1. Büyük Veri Madenciliği 2. MapReduce 3. Benzer elemanların bulunması 4. Uzaklık ölçütleri 5. Data stream madenciliği 6. Link analizi 7. Frequent itemset ler 8. Öbekleme 9. Web reklamcılığı 5 Konular Veri ve Bilgi Büyük Veri Analitiği Veri Madenciliği İstatistiksel model Makine öğrenmesi Modellemede hesaplamalı yaklaşımlar Özetleme Özellik çıkarımı Veri Madenciliğinde İstatistiksel Limitler Toplam bilgi farkındalığı Bonferroni prensibi Temel Bilgiler Veri standartlaştırma Dokümanlardaki kelimelerin önemi Hash fonksiyonları İndeksler İkincil depolama birimi 6 3
Veri ve Bilgi Bilgi, insanoğlu için vazgeçilmez unsurların başında gelir. Günümüzde bilginin elde edilmesi, paylaşılması ve oluşturulması üzerinde teknolojik gelişmeler oldukça etkilidir. Yeni teknolojilerin ortaya çıkması toplumsal yaşamın değişmesine, yeni ilişkiler ağının ortaya çıkmasına ve bilgilerin sürekli olarak yenilenmesine neden olmaktadır. Sözlük anlamıyla bilgi; öğrenme, araştırma ve gözlem yoluyla elde edilen her türlü gerçek ve kavrayışın tümüdür. Bilgi, önceden belirlenen bir dizi sistematik kural ve prosedüre uygun bir biçimde işlenmiş enformasyondur. 7 Veri ve Bilgi Veri ve bilgi arasındaki ilişki aşağıda görülmektedir*. *Data and knowledge mining with big data towards smart production, Cheng, Ken Chen, Hemeng Sun, Yongping Zhang, Fei Tao, Journal of Industrial Information Integration, 9, 1-13, 2018. 8 4
Veri ve Bilgi Türk Dil Kurumuna göre; Veri (data): olgu, kavram veya komutların, iletişim, yorum ve işlem için elverişli biçimli gösterimi, Enformasyon (Information): haber alma, haber verme, haberleşme, Bilgi (knowledge): veriye yöneltilen anlam, insan aklının erebileceği olgu, gerçek ve ilkelerin bütünü, Anlayış (understanding): görüş ve inanış etmenlerinin etkisiyle beliren düşünme yolu, düşünüş biçimi, zihniyet, mantalite, Bilgelik (wisdom): herkesin ulaşamadığı derin, kapsamlı, bütünsel bilgi olarak tanımlanmaktadır. 9 Veri ve Bilgi Veri ve bilgelik arasındaki ilişki aşağıda görülmektedir*. *https://medium.com/@iyer/strive-to-get-higher-on-the-data-information-knowledge-understanding-and-wisdom-continuum-c5ccb96438 10 5
Veri ve Bilgi Veri (Data): sayılar, rakamlar, sözcükler, metinler, resimler, olaylar vb. biçiminde temsil edilen ham gerçekliklerdir. (Örn: 54000, 01/22/2006) Enformasyon (Information): herhangi bir konu ile ilgili bir bilinmeyeni giderme konusunda yardımcı olan tanımlayıcı ifadelerdir (Örn: Nazlı nın bankada 54.000 TL si var, Kemal in doğum tarihi 01/22/2006). Bilgi (Knowledge): işlenmiş enformasyondur (Örn: Nazlı nın bankada biriken 54.000 TL si beklediğinden fazladır). Anlayış (Understanding): sonuç veya bilgi ile ilgili neden bulma veya kavrama süredir (Örn: Nazlı banka işlemlerine bakınca tanımadığı birisinin 4.000 TL yatırdığını farketti. Bu nedenle bankadaki parası yüksekmiş.). Bilgelik (Wisdom): başka bir bakış açısıyla, değişen şartlar çerçevesinde ileriyi görebilme veya gözlem etkilerine göre prensipler ortaya koyma yeteneğidir. 11 Konular Veri ve Bilgi Büyük Veri Analitiği Veri Madenciliği İstatistiksel model Makine öğrenmesi Modellemede hesaplamalı yaklaşımlar Özetleme Özellik çıkarımı Veri Madenciliğinde İstatistiksel Limitler Toplam bilgi farkındalığı Bonferroni prensibi Temel Bilgiler Veri standartlaştırma Dokümanlardaki kelimelerin önemi Hash fonksiyonları İndeksler İkincil depolama birimi 12 6
Büyük Veri Analitiği Büyük veri, kendine özgü özelliklere sahip olan ve genellikle yüksek hacimlerdeki ve çok farklı kaynaklardan elde edilen veridir. Büyük veri analiz yöntemleri, farklı kaynaklardan elde edilen düzenli veya düzensiz verileri anlamlı ve işlenebilir hale dönüştürür. Dünyadaki verilerin %90 ı son 3-4 yılda oluşturulmuştur. Sosyal medya, blog, fotoğraf, müzik, video, IoT, log dosyaları, 13 Büyük Veri Analitiği Büyük veri terimi ilk ortaya çıktığından itibaren farklı sayıdaki özellikler ile ifade edilmiştir. Bütyük veri özellikleri 3V, 5V, 7V, 10V ve hatta 42V olarak ifade edilmiştir. Yaygın kullanılan 10V: 1. Volume 2. Velocity 3. Variety 4. Variability 5. Veracity 6. Validity 7. Vulnerability 8. Volatility 9. Visualization 10. Value 14 7
Volume Büyük Veri Analitiği Büyük verinin en çok bilinen karakteristiğidir. YouTube a her bir dakikada 300 saatlik video yüklenmektedir. 2016 yılında 1.1 trilyon fotoğraf çekildiği tahmin edilmektedir. 2016 yıllında cep telefonu veri trafiğinin 6.2 exabyte olduğu tahmin edilmektedir. Twitter kullanıcıları her bir dakikada 277.000 tweet atmaktadır. Apple kullanıcıları her bir dakikada 48.000 uygulama indirmektedir. Facebook kullanıcıları her bir dakikada 2.460.000 içerik paylaşmaktadır. E-posta kullanıcıları her bir dakikada 204.000.000 mesaj göndermektedir. Google her bir dakikada 4.000.000 arama sorgusu almaktadır. 15 Velocity Büyük verinin üretilme, tüketilme, oluşturulma ve güncellenme hızını ifade eder. Facebook günde 600 terabyte verinin geldiğini ifade etmektedir. Google her saniyede 40.000 sorguya cevap ürettiğini ifade etmektedir. Günde 3,5 milyar sorguya cevap verdiği söylenebilir. Variety Büyük Veri Analitiği Büyük verideki çeşitliliği ifade eder. Büyük veride yapılandırılmış, yarı yapılandırılmış ve çoğunlukla yapılandırılmamış veri bulunur (ses, video, görüntü, sosyal medya güncellemeleri, log dosyaları, click verileri, makine ve sensör verileri vb.). 16 8
Variability Büyük veride bazı farklı verilerde olabilir. Bunlar, veride tutarsızlıklara neden olabilir. Bu verilerin anomaly veya outlier algılama yöntemleri ile bulunup yapılan analizlerin daha anlamlı hale getirilmesi gereklidir. Veracity Büyük Veri Analitiği Veri kaynaklarının güvenilirliğini ifade eder. Büyük veride yukarıda bahsedilen özellikler artarken verinin güvenilirliği ve doğruluğu düşer. Verinin kim tarafından oluşturulduğu, hangi metodoloji ile toplandığı, aynı türdeki kaynaklardan mı toplandığı, veriyi toplayanın özetleme yapıp yapmadığı, veri başka birisi tarafından değiştirildi mi gibi sorulara cevap aranır. 17 Validity Büyük Veri Analitiği Verinin nasıl doğrulandığı ve geçerliliğinin nsaıl test edildiğiyle ilgilenir. Verinin analiz işleminden önce doğrulanması gereklidir. Vulnerability Büyük veri yeni güvenlik konularını da beraberinde getirir. Verinin hack lenmemesi, kaynağından elde edildikten sonra bozulmadan ve güvenlik saldırısı sonucu değişmeden alınması gereklidir. Volatility Verinin, güncel olup olmadığı, kullanılabilir olup olmadığı ile ilgilenir. Güncel veriyle istenen sonuçlar elde edilebilir. Kurumlarda veya büyük şirketlerde veri sürekli saklanır ve elde edilen büyük verinin önemli bir kısmı güncelliğini yitirebilir. 18 9
Visualization Büyük verinin görselleştirilmesi sonuçların kolay anlaşılması ve analiz edilmesi için gereklidir. Günümüzde büyük veri görselleştirmeyle ilgili hafıza kısıtları gibi teknik kısıtlar halen bulunmaktadır. Klasik grafik araçları ve yöntemleriyle büyük verideki milyarlarca noktanın görselleştirilmesi mümkün değildir. Bunun için kümeleme, ağaç haritaları, dairesel ağ diyagramları gibi görselleştirme yöntemlerinin kullanılması gereklidir. Value Büyük Veri Analitiği Büyük veriden anlamlı ve değerli bilgiyi çıkarmadıkça diğer bütün karakteristikleri anlamsızdır. Anlamlı ve değerli bilgiyi elde etmek için veri madenciliği yöntemleri gibi karmaşık süreçlerin uyarlanıp kullanılması gereklidir. 19 Büyük Veri Analitiği Büyük veri analitiği, büyük ve çeşitli veri setleri üzerinde işlem yaparak gizli örüntüleri çıkarma, bilinmeyen ilişkileri keşfetme sürecidir. Kullanılan yöntemlerle elde edilen bilgi firmalara, kurumlara veya ticari girişimlere yönelik önemli bilgiler sağlamaktadır. Büyük veri analitiği uygulamaları veri bilimcilere modelleri tahmin etme, istatistikçilere ve diğer analiz alanında çalışan profesyonellere büyüyen verileri kolay analiz yapma yeteneği kazandırır. Büyük veri analitiği klasik yöntemlerle yönetilmesi çok zor olan çok büyük, yapılandırılmamış ve çok hızlı değişen veriyle uğraşır ve anlamlı örüntüler elde eder. Büyük veri analitiği yöntemleri veriyi saklamak, veriyi elde etmek ve analiz etmek için gelişmiş teknolojiyi kullanır. 20 10
Büyük Veri Analitiği Büyük veri; analiz türü, işleme yöntemi, veri frekansı, veri türü, içerik biçimi, veri kaynağı, veri tüketicisi ve donanıma göre sınıflandırılabilir. https://www.ibm.com/developerworks/library/bd-archpatterns1/index.html 21 Büyük Veri Analitiği Büyük verinin kullanım alanları Büyük veri günümüzde, veri madenciliği, makine öğrenmesi, örüntü tanıma, istatistik, görselleştirme, yüksek performanslı hesaplama, veritabanı teknolojisi, algoritma gibi çok farklı disiplinlerde yaygın bir şekilde kullanılmaktadır. 22 11
Büyük verinin kullanım alanları Büyük veri uygulamaları farklı uygulama alanlarında başarılı bir şekilde kullanılmaktadır. İşletme Büyük Veri Analitiği Özellikle büyük ölçekli işletmeler müşteri analizi, müşteriye özel tavsiye, reklam veya öneri oluşturma, ürün dağıtımı ve lojistik optimizasyonu gibi çok sayıdaki alanda büyük veri analiz yöntemlerini kullanmaktadır. Perakende Satış Personel gelir optimizasyonu, müşteri davranış analizi, müşteri ilişkileri analizi, ürün çeşitliliği, kampanya yönetimi ve fiyat optimizasyonu gibi uygulamalarda büyük veri analiz yöntemleri kullanılmaktadır. 23 Kamu Verilere kolay ve güvenli erişebilirliği sağlama, gizlilik ve şeffaflık oluşturma, uygun ürün ve hizmetlerin sunumu, risk ve sahtekarlığı azaltmaya yönelik alanlarda büyük veri analiz yöntemleri kullanılmaktadır. Teknoloji Gerçek zamanlı analiz ve işlem (menü) özelleştirme, işlem süresini azaltma, riskleri azaltma, otomatik sistemler ile karar verme gibi alanlarda büyük veri analiz yöntemleri kullanılmaktadır. Eğitim Büyük Veri Analitiği Eğitimde öğrenci analizi, ders planlaması gibi alanlarda büyük veri analiz yöntemleri kullanılmaktadır. 24 12
Kişisel Konum Verileri Konum tabanlı reklam, akıllı yönlendirme, acil müdahale gibi alanlarda büyük veri analiz yöntemleri kullanılmaktadır. Sağlık Büyük Veri Analitiği Hastalık tespiti, hasta izlenmesi, kişisel DNA analizi gibi alanlarda büyük veri analiz yöntemleri kullanılmaktadır. Bankacılık Geçmiş verinin, nakit hareketlerinin, öngörülebilen felaketlerin, soygunların ve müşteri davranışlarının anlaşılmasında büyük veri analiz yöntemleri kullanılmaktadır. 25 Büyük Veri Analitiği Akış verisi Akış verisi geldiği anda işlem yapılmazsa (depolama, data process vs.) kalıcı şekilde kaybedilebilir. Veriyi işleme hızından daha hızlı veri gelmesi durumunda da kaybedilebilir. Akış verisinde işlem yapan algoritmalar akış verisini genellikle özetleyerek kullanırlar. Akış verisi madenciliği algoritmaları, faydalı örnekleri seçer ve istenmeyen örnekleri filtrelerler. Başka bir özetleme yaklaşımında ise, sabit boyutlu bir pencere içerisindeki elemanlarla (belirli bir süre için geçmiş veri) özetleme yapılmaktadır. 26 13
Büyük Veri Analitiği Akış verisi Akış verisinin özetlenmesiyle birlikte daha küçük alanda saklanması da sağlanmış olur. Akış işlemcisi bir tür veri yönetim sistemi olarak görülebilir. Sisteme çok sayıda farklı stream den veri gelebilir. Veri türleri, veri oranları ve veri gelme aralıklarının dağılımları farklı olabilir. 27 Büyük Veri Analitiği Akış verisi 28 14
Büyük Veri Analitiği Akış verisi kaynakları Sensor data Bir okyanus yüzeyindeki ısı sensörü her saat ölçtüğü ısı değerini reel sayı olarak bir istasyona gönderirse, veri oranı çok düşük olduğundan günümüz teknolojisinde tüm veri ana hafızada tutulabilir. GPS birimindeki sensör yüzeydeki yükseklik değişimini ölçüp bir istasyona gönderirse, bu durumda veri oranı yüksektir ve ancak ana hafızada veya ayrı bir diskte tutulabilir. Bir okyanusun tüm davranışını ölçmek istersek, milyonlarca sensör kullanılır ve günlük birkaç terabyte veri alınabilir. 29 Büyük Veri Analitiği Akış verisi kaynakları Image data Uydulardan sürekli dünyaya ilişkin görüntüler alınıp yeryüzündeki istasyonlara gönderilir. Bu görüntü verilerinin boyutları günlük birkaç terabyte düzeyinde olabilir. Şehirlerdeki güvenlik kameraları uyduya göre düşük çözünürlüktedir, ancak her birisi akış verisi oluşturur. Londra da 6 milyon kamera olduğu belirtilmektedir ve her birisi Akış verisi oluşturur. 30 15
Büyük Veri Analitiği Akış verisi kaynakları İnternet ve Web trafiği İnternet anahtarlama düğümleri (router) IP paketlerinden oluşan stream leri alır ve çıkış portlarına yönlendirme yapar. Anahtarlama elemanlarının görevi sorgulama veya saklama değildir. Günümüzde anahtarlama elemanlarının kapasitesinin artırılmasına (DOS ataklarının algılanması, tıkanıklık denetimi yapılması) yönelik eğilim vardır. Web siteleri her gün milyonlarca sorgu almaktadır (Google her gün yüzlerce milyon arama sorgusu almaktadır, Yahoo milyarlarca click almaktadır.). Bu tür verilerden faydalı bilgiler elde edilebilir (sorgulardaki ani yükselme, click sayısındaki ani yükselme veya düşme). 31 Konular Veri ve Bilgi Büyük Veri Analitiği Veri Madenciliği İstatistiksel model Makine öğrenmesi Modellemede hesaplamalı yaklaşımlar Özetleme Özellik çıkarımı Veri Madenciliğinde İstatistiksel Limitler Toplam bilgi farkındalığı Bonferroni prensibi Temel Bilgiler Veri standartlaştırma Dokümanlardaki kelimelerin önemi Hash fonksiyonları İndeksler İkincil depolama birimi 32 16
Veri Madenciliği Veri madenciliğinin en yaygın kabul edilen tanımı, bilgi için model keşfetmek şeklindedir. Veri için oluşturulan modeller farklı şekillerde ve farklı amaçlar için oluşturulabilir. Veriden elde edilmek istenen sonuca göre model oluşturma süreçleri farklıdır. Oluşturulan modellerin istenen amaca uygunluğunun test edilerek doğrulanması gereklidir. 33 Konular Veri ve Bilgi Büyük Veri Analitiği Veri Madenciliği İstatistiksel model Makine öğrenmesi Modellemede hesaplamalı yaklaşımlar Özetleme Özellik çıkarımı Veri Madenciliğinde İstatistiksel Limitler Toplam bilgi farkındalığı Bonferroni prensibi Temel Bilgiler Veri standartlaştırma Dokümanlardaki kelimelerin önemi Hash fonksiyonları İndeksler İkincil depolama birimi 34 17
İstatistiksel model Veri madenciliği terimini ilk defa istatistikçiler kullanmıştır. Veri madenciliği, veri tarafından doğrudan desteklenmeyen bilginin çıkartılması olarak ifade edilmiştir. İstatistiksel model, veriden elde edilen bir dağılımı ifade eder. İstatistikçiler veri madenciliğini istatistiksel model oluşturma olarak görürler. 35 Konular Veri ve Bilgi Büyük Veri Analitiği Veri Madenciliği İstatistiksel model Makine öğrenmesi Modellemede hesaplamalı yaklaşımlar Özetleme Özellik çıkarımı Veri Madenciliğinde İstatistiksel Limitler Toplam bilgi farkındalığı Bonferroni prensibi Temel Bilgiler Veri standartlaştırma Dokümanlardaki kelimelerin önemi Hash fonksiyonları İndeksler İkincil depolama birimi 36 18
Makine öğrenmesi Makine öğrenmesinde, veri bir eğitim kümesi olarak alınır ve bir algoritmanın öğrenmesi için kullanılır. Makine öğrenmesi, Bayes ağları, destek vektör makinesi, yapay sinir ağları, karar ağaçları gibi modelleri kullanır. Makine öğrenmesi yöntemleri çok az bilgi kullanarak istenen amaca yönelik sonuçlar oluşturabilir. 37 Konular Veri ve Bilgi Büyük Veri Analitiği Veri Madenciliği İstatistiksel model Makine öğrenmesi Modellemede hesaplamalı yaklaşımlar Özetleme Özellik çıkarımı Veri Madenciliğinde İstatistiksel Limitler Toplam bilgi farkındalığı Bonferroni prensibi Temel Bilgiler Veri standartlaştırma Dokümanlardaki kelimelerin önemi Hash fonksiyonları İndeksler İkincil depolama birimi 38 19
Modellemede hesaplamalı yaklaşımlar Bilgisayar bilimlerinde, veri madenciliğine bir algoritmik problem olarak bakılır. Verilerden birtakım parametreler elde edilir. Makine öğrenmesi yöntemleri çok az bilgi kullanarak istenen amaca uygun sonuçlar oluşturabilir. Veri, kesin olarak veya yaklaşık olarak özetlenebilir. Verideki bazı önemli özellikler çıkartılır diğerleri göz ardı edilir. 39 Konular Veri ve Bilgi Büyük Veri Analitiği Veri Madenciliği İstatistiksel model Makine öğrenmesi Modellemede hesaplamalı yaklaşımlar Özetleme Özellik çıkarımı Veri Madenciliğinde İstatistiksel Limitler Toplam bilgi farkındalığı Bonferroni prensibi Temel Bilgiler Veri standartlaştırma Dokümanlardaki kelimelerin önemi Hash fonksiyonları İndeksler İkincil depolama birimi 40 20
Özetleme Web madenciliğindeki özetleme yöntemlerinde, Web in karmaşık yapısı her sayfa için basit verilerle özetlenebilir. Kullanıcıların arama yaptıkları sorgulara göre sayfaların önemi belirlenebilir (PageRank). Özetlemenin diğer bir uygulama alanı ise öbeklemedir (clustering). Veriler çok boyutlu uzayda birer nokta olarak alınır ve birbirine yakın olanlar aynı kümeye atanır. Oluşturulan cluster, merkez nokta veya başka bir özellik hesaplanarak elde edilen özet veri tarafından ifade edilebilir. 41 Konular Veri ve Bilgi Büyük Veri Analitiği Veri Madenciliği İstatistiksel model Makine öğrenmesi Modellemede hesaplamalı yaklaşımlar Özetleme Özellik çıkarımı Veri Madenciliğinde İstatistiksel Limitler Toplam bilgi farkındalığı Bonferroni prensibi Temel Bilgiler Veri standartlaştırma Dokümanlardaki kelimelerin önemi Hash fonksiyonları İndeksler İkincil depolama birimi 42 21
Özellik çıkarımı Büyük ölçekli verideki elemanlar arasındaki ilişki, aralarındaki bağlantı kullanılarak ifade edilir. Frequent itemset, veri içerisindeki elemanların birlikte bulunma oranlarına göre özellik çıkarımı yapar. Örneğin, market alışverişinde, belirli oranın üzerinde aynı alışverişte birlikte alınan ürünler. Similar items, büyük veri kümesi içerisinde birbirine benzeyen elemanları bularak özellik çıkarımı yapar. Örneğin, benzer ürün grubuyla ilgilinen kullanıcılar kümesi. 43 Konular Veri ve Bilgi Büyük Veri Analitiği Veri Madenciliği İstatistiksel model Makine öğrenmesi Modellemede hesaplamalı yaklaşımlar Özetleme Özellik çıkarımı Veri Madenciliğinde İstatistiksel Limitler Toplam bilgi farkındalığı Bonferroni prensibi Temel Bilgiler Veri standartlaştırma Dokümanlardaki kelimelerin önemi Hash fonksiyonları İndeksler İkincil depolama birimi 44 22
Toplam bilgi farkındalığı 2002 yılında Amerika hükümeti, kredi kartı makbuzları, otel kayıtları, seyahat verileri ve diğer çok farklı türdeki verilerin tamamında veri madenciliği yöntemlerini uygulayarak terörist aktiviteleri izlemeyi planladığını duyurmuştur (Total Information Awareness (TIA) isimli proje). Bu proje kongre tarafından gizlilik ve güvenlik nedenlerinden ötürü iptal edilmiştir. Bu kadar büyük veri içerisindeki bazı davranışlar terörist aktivite olmamasına rağmen terörist gibi algılanabilir. Gerçekten bazı şüpheli davranışların da terörizmle ilgisi olmayabilir. Terörist aktiviteyi tam olarak tanımlayıp ilgili olanların polis tarafından izlenmesi güvenlik, gizlilik ve maliyet açısından gereklidir. 45 Konular Veri ve Bilgi Büyük Veri Analitiği Veri Madenciliği İstatistiksel model Makine öğrenmesi Modellemede hesaplamalı yaklaşımlar Özetleme Özellik çıkarımı Veri Madenciliğinde İstatistiksel Limitler Toplam bilgi farkındalığı Bonferroni prensibi Temel Bilgiler Veri standartlaştırma Dokümanlardaki kelimelerin önemi Hash fonksiyonları İndeksler İkincil depolama birimi 46 23
Bonferroni prensibi Bir veri tamamen rastgele bile olsa aranan olayın olma olasılığı vardır. Verinin boyutu arttıkça aranan bu olayın olma sıklığı da artar. Beklenmediği kadar çok tekrar eden (önemli görünen) bu olay gerçekte önemli olmayabilir. Bonferroni prensibi, sanki gerçekmiş gibi görünen rastgele tekrar eden bu olayları belirlemeyi sağlar. Eğer bir olayın veri içerisindeki tekrarlanma sayısı, gerçek örneklerden ve beklenenden çok fazla ise sahtedir. Örneğin büyük bir veri içerisinde kişilerin belirlenmiş davranışlarına göre terörist sayısı çok az olmalıdır. Bu sayı beklenenden çok fazla çıkarsa elde edilen sonuçlar gerçek dışıdır. 47 Konular Veri ve Bilgi Büyük Veri Analitiği Veri Madenciliği İstatistiksel model Makine öğrenmesi Modellemede hesaplamalı yaklaşımlar Özetleme Özellik çıkarımı Veri Madenciliğinde İstatistiksel Limitler Toplam bilgi farkındalığı Bonferroni prensibi Temel Bilgiler Veri standartlaştırma Dokümanlardaki kelimelerin önemi Hash fonksiyonları İndeksler İkincil depolama birimi 48 24
Verilerin standartlaştırılması bazı uygulamalarda gereklidir. Öklid uzaklığına dayalı kümelemede veri standartlaştırma zorunludur. Örnek Veri Standartlaştırma İki nitelik değerinden birisi 0-1, diğeri ise 0-1000 aralığında olsun. x i = (0.9, 720) ve x j = (0.1, 20) ise aralarındaki uzaklık, olur. İki nitelik değerleri de 0-1 aralığında ölçeklenirse, 20 -> 0,02 ve 720 -> 0,72 olur. Uzaklık değeri 1,063 olur. 49 Veri Standartlaştırma Interval-scaled attributes Aralıklı ölçeklendirme yönteminde en yaygın olarak aşağıdaki yöntemler kullanılır: range (min-max) z-score 50 25
Veri Standartlaştırma range (min-max) Her nitelik için değerler minimum ve maksimum değerler arasındaki değere göre, 0-1 arasında değer alır. Burada, min(f) f niteliğinin minimum değerini, max(f) f niteliğinin maksimum değerini ve x if ise i. gözlemin f. nitelik değerini ifade eder. 51 z-score Veri Standartlaştırma Her nitelik için ortalama değerden uzaklığa ve nitelik değerlerindeki standart sapmaya göre yeni değeri hesaplanır. Burada, f f niteliğinin standart sapması, µ f f niteliğinin ortalama değeri ve z(x if ) ise i. gözlemin f. nitelik değerinin yeni değerini ifade eder. 52 26
Veri Standartlaştırma Ratio-scaled attributes Bazı uygulamalarda nitelik değeri üssel değişebilir. Burada, A ve B katsayılar ve t nitelik değeridir. Bu tür durumlarda logaritmik değer ile standartlaştırma yapılır. 53 Konular Veri ve Bilgi Büyük Veri Analitiği Veri Madenciliği İstatistiksel model Makine öğrenmesi Modellemede hesaplamalı yaklaşımlar Özetleme Özellik çıkarımı Veri Madenciliğinde İstatistiksel Limitler Toplam bilgi farkındalığı Bonferroni prensibi Temel Bilgiler Veri standartlaştırma Dokümanlardaki kelimelerin önemi Hash fonksiyonları İndeksler İkincil depolama birimi 54 27
Dokümanlardaki kelimelerin önemi Çoğu veri madenciliği uygulamasında, dokümanların konularına göre gruplandırılması gerekir. Dokümanların konuları belirli anahtar kelimelere göre belirlenebilir. Bir dokümanda sık geçen kelimelerin o doküman için önemli olduğu tahmin edilebilir. Bazen sık kullanılan kelimeler konu belirlemek için uygun olmayabilir. the, and gibi kelimeler (stop words) İngilizce dokümanlarda çok sık kullanılır. Bir dokümanda bir kelimenin az kullanılması da konu belirlemek için tek başına yeterli değildir. 55 Dokümanlardaki kelimelerin önemi Kelimelerin bir dokümanda bulunma sıklığı (term frequency) ile diğer tüm dokümanlarda bulunma sıklığı (inverse document frequency) birlikte daha anlam sonuç vermektedir. Burada, f ij ile i.kelimenin j.dokümandaki frekansı gösterilmektedir. max k f kj ile j.dokümanda en sık geçen kelimenin frekansı ifade edilmektedir. Burada, N tüm doküman sayısını, n i ise i.kelimenin geçtiği doküman sayısını ifade etmektedir Bu iki değerin çarpımı ile bir kelimenin bir doküman için önemi hesaplanır. 56 28
Örnek Dokümanlardaki kelimelerin önemi Veritabanında 2 20 doküman olsun. Bir w kelimesi 2 10 dokümanda geçiyorsa IDF w = log 2 (2 20 / 2 10 ) = 10 olur. Bir j dokümanında w kelimesi 20 kez geçiyorsa ve bu en sık geçen kelime ise TF wj = 1 olur. TF.IDF wj = 10 olur. Bir k dokümanında w kelimesi 1 kez geçiyorsa ve en sık geçen başka bir kelime ise 20 kez geçiyorsa TF wk = 1/20 olur. TF.IDF wk = 10 x (1 / 20) = 1/2 olur. 57 Konular Veri ve Bilgi Büyük Veri Analitiği Veri Madenciliği İstatistiksel model Makine öğrenmesi Modellemede hesaplamalı yaklaşımlar Özetleme Özellik çıkarımı Veri Madenciliğinde İstatistiksel Limitler Toplam bilgi farkındalığı Bonferroni prensibi Temel Bilgiler Veri standartlaştırma Dokümanlardaki kelimelerin önemi Hash fonksiyonları İndeksler İkincil depolama birimi 58 29
Hash fonksiyonları Hash fonksiyonu, bir h anahtarı alır ve bir sonuç değer üretir. Bu sonuç değer, 0 ile B-1 arasında bir tamsayı olabilir. Burada, B maksimum değer aralığını gösterir. Anahtar sayısı ile sonuç sayısı birbirine eşit olabilir. Bu durumda, her anahtar sadece bir sonuç üretebilir veya her sonuç için sadece bir anahtar olabilir. Anahtar sayısı ile sonuç sayısı birbirinden farklı olabilir. Bu durumda, her anahtar birden fazla sonuç üretir veya her sonuç için birden fazla anahtar vardır. h (x) = x mod B 59 Konular Veri ve Bilgi Büyük Veri Analitiği Veri Madenciliği İstatistiksel model Makine öğrenmesi Modellemede hesaplamalı yaklaşımlar Özetleme Özellik çıkarımı Veri Madenciliğinde İstatistiksel Limitler Toplam bilgi farkındalığı Bonferroni prensibi Temel Bilgiler Veri standartlaştırma Dokümanlardaki kelimelerin önemi Hash fonksiyonları İndeksler İkincil depolama birimi 60 30
İndeksler İndeks, nesnelere (kayıtlara) etkin bir şekilde ulaşmak için kullanılan veri yapısıdır. İndeks, genellikle kayıt içerisindeki bir alan (field) kullanılarak oluşturulur. Hash tablosu ile indeks oluşturulabilir. Field, hash fonksiyonu için anahtar değeri ifade eder ve hash fonksiyonunun sonucu kullanılarak kaydın tamamı elde edilir. Sonuç değer, hafızada bir adres, diskte bir blok, vb. olabilir. 61 İndeksler 800-555-1212 telefon numarası hash key olarak kullanılarak kayda ulaşılıyor. 62 31
Konular Veri ve Bilgi Büyük Veri Analitiği Veri Madenciliği İstatistiksel model Makine öğrenmesi Modellemede hesaplamalı yaklaşımlar Özetleme Özellik çıkarımı Veri Madenciliğinde İstatistiksel Limitler Toplam bilgi farkındalığı Bonferroni prensibi Temel Bilgiler Veri standartlaştırma Dokümanlardaki kelimelerin önemi Hash fonksiyonları İndeksler İkincil depolama birimi 63 İkincil depolama birimi Disk üzerindeki veriye ulaşma süresi hafızaya göre çok uzundur. Disk üzerindeki bir bloğa erişim hızı hafızaya göre 10.000 kez daha yavaştır. Her hash anahtarıyla hesaplanan sonuç değere göre ayrı ayrı okuma yapmak performansı çok düşürür. Diskler mantıksal olarak silindir şeklinde organize edilir ve çok sayıdaki track üzerindeki sektör farklı okuma kafaları ile aynı anda okunur. 64 32
Ödev Doküman özetleme hakkında bir araştırma ödevi hazırlayınız. 65 33