Büyük Veri Analitiği (Big Data Analytics)

Benzer belgeler
Büyük Veri İçin İstatistiksel Öğrenme (Statistical Learning for Big Data)

Büyük Veri Analitiği (Big Data Analytics)

Büyük Veri Analitiği (Big Data Analytics)

Büyük Veri Analitiği (Big Data Analytics)

Büyük Veri Analitiği (Big Data Analytics)

Büyük Veri İçin İstatistiksel Öğrenme (Statistical Learning for Big Data)

VERİ MADENCİLİĞİ Metin Madenciliği

Zeki Optimizasyon Teknikleri

Büyük Veri Analitiği (Big Data Analytics)

Web Madenciliği (Web Mining)

Zeki Optimizasyon Teknikleri

Web Madenciliği (Web Mining)

Büyük Veri Analitiği (Big Data Analytics)

Metin Sınıflandırma. Akış

Zeki Optimizasyon Teknikleri

Büyük Veri Analitiği (Big Data Analytics)

Web Madenciliği (Web Mining)

Web Madenciliği (Web Mining)

Web Madenciliği (Web Mining)

Büyük, Dağıtık, Veri Yoğunluklu Uygulamalarda Programlama Paradigmaları

Web Madenciliği (Web Mining)

DOKUZ EYLÜL ÜNİVERSİTESİ MÜHENDİSLİK FAKÜLTESİ DEKANLIĞI DERS/MODÜL/BLOK TANITIM FORMU. Dersin Kodu: CME 4410

Büyük Veri İçin İstatistiksel Öğrenme (Statistical Learning for Big Data)

VERİ MADENCİLİĞİ (Kümeleme) Yrd.Doç.Dr. Kadriye ERGÜN

Arama metodlarında temel işlem anahtarları karşılaştırmaktır.

DOKUZ EYLÜL ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ MÜDÜRLÜĞÜ DERS/MODÜL/BLOK TANITIM FORMU. Dersin Orjinal Adı: Pattern Recognition

Zeki Optimizasyon Teknikleri

Dosya Saklama Ortamları (Sabit Diskler) Kütük Organizasyonu 1

X ve Y boş olmayan iki küme olsun. İki küme arasında tanımlanmış olan bir bulanık ilişki R, X x Y nin bir bulanık alt kümesidir.

Yaklaşık Düşünme Teorisi

DOKUZ EYLÜL ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ MÜDÜRLÜĞÜ DERS/MODÜL/BLOK TANITIM FORMU. Dersin Kodu: CSE 6003

Makine Öğrenmesi 2. hafta

DERS TANITIM BİLGİLERİ. Dersin Adı Kodu Yarıyıl Teori (saat/hafta) Laboratuar (saat/hafta) Uygulama (saat/hafta) AKTS. Yerel Kredi

Kümeleme Algoritmaları. Tahir Emre KALAYCI

PARALEL VERİ MADENCİLİĞİ ALGORİTMALARI. BAŞARIM 09, Nisan 2009, ODTÜ, Ankara

Manisa Celal Bayar Üniversitesi Yazılım Mühendisliği Bölümü YZM Veri Yapıları Dersi. Proje#2

K En Yakın Komşu Methodu (KNearest Neighborhood)

Akdeniz Üniversitesi

Makine Öğrenmesi İle Duygu Analizinde Veri Seti Performansı

BİLGİSAYAR MÜHENDİSLİĞİ DOKTORA DERS PROGRAMI (Lisanstan gelenler için)

Veri Yapıları. Öğr.Gör.Günay TEMÜR Düzce Üniversitesi Teknolojis Fakültesi

BİLGİSAYAR VE ENFORMASYON BİLİMLERİ YÜKSEK LİSANS DERS PROGRAMI (Tezli Program)

MİLLİ SAVUNMA ÜNİVERSİTESİ KARA HARP OKULU DEKANLIĞI BİLGİSAYAR MÜHENDİSLİĞİ BÖLÜMÜ DERS TANITIM BİLGİLERİ

DERS BİLGİLERİ. Ders Kodu Yarıyıl T+U Saat Kredi AKTS. Maya ve Bakteri Biyoteknolojisi BTEC Yüksek Lisans ve Doktora

Hafta 10 - Vektör Uzay Modelleri

Akdeniz Üniversitesi

İleri Bilgisayar Mimarileri (COMPE 532) Ders Detayları

Zeki Optimizasyon Teknikleri

Web Server Sunucu Loglarının K-Komşu Algoritması ile İ ncelenmesi

VERİ MADENCİLİĞİ VE SOSYAL AĞ ANALİZİ ARAŞTIRMA LABORATUVARI

127 - Twoing Algoritması ile Sınıflandırma Kalp Hastalığı Uygulaması MEHMET AKİF ERSOY ÜNİVERSİTESİ İLHAN UYSAL MEHMET BİLEN SAMİ ULUKUŞ

KULLANICI REHBERİ. Sınırsız Bilgiye Kesintisiz Erişimin adresi

KABA KÜME TEORİSİ (Rough Set Theory) Dr. Sedat TELÇEKEN

YZM VERİ YAPILARI DERS#9: HASH FONKSİYONLARI

Web Madenciliği (Web Mining)

Web Sayfasında Google Analitik Kullanımı ve Kullanıcı Davranışlarının Belirlenmesi: İstanbul Ticaret Üniversitesi Kütüphane Web Sayfası.

İleri Yazılım Mimarisi (SE 658) Ders Detayları

DERS BİLGİLERİ. Ders Kodu Yarıyıl T+U Saat Kredi AKTS SİSTEM MÜHENDİSLİĞİ METODOLOJİSİ ESYE

Makine Öğrenmesi (COMPE 565) Ders Detayları

DENİZ HARP OKULU TEMEL BİLİMLER BÖLÜM BAŞKANLIĞI DERS TANITIM BİLGİLERİ

T.C GAZİOSMANPAŞA ÜNİVERSİTESİ

Uzaktan Algılama Teknolojileri

Akdeniz Üniversitesi

1 Temel Kavramlar. Veritabanı 1

Ders Adı : Nesne Tabanlı Programlama-I Ders No : Teorik : 3 Pratik : 1 Kredi : 3.5 ECTS : 4. Ders Bilgileri.

MUĞLA SITKI KOÇMAN ÜNİVERSİTESİ. ECTS Info Pack. ECTS Bilgi Paketi Çalışmaları. Bilgi İşlem Daire Başkanlığı YAZILIM-WEB GRUBU

DOKUZ EYLÜL ÜNİVERSİTESİ MÜHENDİSLİK FAKÜLTESİ DEKANLIĞI DERS/MODÜL/BLOK TANITIM FORMU. Dersin Kodu: CME 3006

Bilgiye Erişim Sistemleri Information Retrieval (IR) Systems. M.Fatih AMASYALI BLM 5212 Doğal Dil İşlemeye Giriş Ders Notları

DOKUZ EYLÜL ÜNİVERSİTESİ MÜHENDİSLİK FAKÜLTESİ DEKANLIĞI DERS/MODÜL/BLOK TANITIM FORMU. Dersin Kodu: CME 1003

Programlama Dilleri 1. Ders 3: Rastgele sayı üretimi ve uygulamaları

DOKUZ EYLÜL ÜNİVERSİTESİ MÜHENDİSLİK FAKÜLTESİ DEKANLIĞI DERS/MODÜL/BLOK TANITIM FORMU. Dersin Orjinal Adı: LINEAR ALGEBRA. Dersin Kodu: CME 1004

Öğretim planındaki AKTS Ulusal Kredi

Analitik Geometri (MATH172) Ders Detayları

Örüntü Tanıma (EE 448) Ders Detayları

VERİ MADENCİLİĞİNE BAKIŞ

Bilgi Erişim Performans Ölçüleri

BMB204. Veri Yapıları Ders 12. Dizgi Eşleme (String Matching) Algoritmaları İleri Veri Yapıları

Ders Adı Kodu Yarıyılı T+U Saati Ulusal Kredisi AKTS. Veri Organizasyonu ve Yönetimi BIL


IEEE Xplore KULLANIM KILAVUZU

Uzaktan Algılama Uygulamaları

T.C. MARDİN ARTUKLU ÜNİVERSİTESİ MİDYAT MESLEK YÜKSEKOKULU BİLGİSAYAR PROGRAMCILIĞI (UZAKTAN ÖĞRETİM) ÖNLİSANS PROGRAMI Eğitim Öğretim Yılı

Bu bölümde; Çok ölçütlü karar verme yöntemlerinden biri olan TOPSİS yöntemi anlatılacaktır.

BM-311 Bilgisayar Mimarisi

VERİ YAPILARI. Yrd. Doç. Dr. Murat GÖK Bilgisayar Mühendisliği Bölümü YALOVA ÜNİVERSİTESİ HASH TABLOLARI.

Yapay Sinir Ağları ile Web İçeriklerini Sınıflandırma. Yazarlar: Esra Nergis Güven, Hakan Onur ve Şeref Sağıroğlu. Sunan : Esra Nergis Güven

Çevik Yazılım Geliştirme Yaklaşımları (SE 571) Ders Detayları

BİLGİSAYAR PROGRAMLAMA DERSİ

INS4801 Coğrafi Bilgi Sistemleri (CBS) (3 + 0)

SİBER SUÇLARA KARŞI SİBER ZEKA

VERİ MADENCİLİĞİ (Veri Ön İşleme-2) Yrd.Doç.Dr. Kadriye ERGÜN

Analitik Geometri II (MATH 122) Ders Detayları

PARÇACIK SÜRÜ OPTİMİZASYONU BMÜ-579 METASEZGİSEL YÖNTEMLER YRD. DOÇ. DR. İLHAN AYDIN

Bilgi Güvenliği Eğitim/Öğretimi

C Programlama Dili (MCS116) Ders Detayları

Kullanıcı Arayüzü Analiz ve Tasarımı (SE 440) Ders Detayları

Analitik Geometri I (MATH 121) Ders Detayları

Bilişim Sistemleri. Modelleme, Analiz ve Tasarım. Yrd. Doç. Dr. Alper GÖKSU

Yazılım Mühendisliğinin Temelleri (SE 100) Ders Detayları

Transkript:

Büyük Veri Analitiği (Big Data Analytics) M. Ali Akcayol Gazi Üniversitesi Bilgisayar Mühendisliği Bölümü Bu dersin sunumları, Mining of Massive Datasets, Jure Leskovec, Anand Rajaraman, Jeffrey David Ullman, Stanford University, 2011. kitabı kullanılarak hazırlanmıştır. Genel bilgiler Değerlendirme Arasınav : 25% Ödevler : 15% Final Projesi : 30% Final Sınavı : 30% Ders kaynakları Mining of Massive Datasets, Jure Leskovec, Anand Rajaraman, Jeffrey David Ullman, Stanford University, 2011. Real-Time Big Data Analytics: Emerging Architecture, Mike Barlow, O Reilly Media, 2013. Big Data, Data Mining, and Machine Learning: Value Creation for Business Leaders and Practitioners, Jared Dean, Wiley, 2014. Data Science and Big Data Analytics: Discovering, Analyzing, Visualizing and Presenting Data, EMC Education Services, 2015. e-posta web : akcayol@gazi.edu.tr : http://w3.gazi.edu.tr/~akcayol 2 1

Genel bilgiler Araştırma ödevleri Haftalık konu ile ilgili bir makale incelenerek detaylı rapor hazırlanacaktır. İncelenen makalede ilgili yöntemin/algoritmanın/yaklaşımın kullanılmasının gerekçeleri, elde edilen sonuçları değerlendirilecektir. İncelenen makale son 3 yılda yayınlanmış olacaktır. Makale SCI-E tarafından taranan bir dergide yayınlanmış olacaktır. SCI-E tarafından tarandığını gösterir bilgi ödeve eklenecektir. Hazırlanan rapora makalenin tam metni de eklenecektir. 3 Genel bilgiler Final Projeleri Bir yöntemin/algoritmanın bir alana uygulamasını içerecektir. Geliştirilecek uygulamanın algoritma kısmında hazır araç, fonksiyon veya kütüphane kullanılmayacaktır. Hazırlanan projenin tüm dokümanları CD ile, proje raporu ise çıktı ile teslim edilecektir. 4 2

Genel bilgiler Ders içeriği 1. Veri madenciliği 2. MapReduce 3. Benzer elemanların bulunması 4. Uzaklık ölçütleri 5. Data stream madenciliği 6. Link analizi 7. Frequent itemset ler 8. Öbekleme 9. Web reklamcılığı 10. Tavsiye sistemleri 11. Sosyal ağ graflarında madencilik 12. Büyük ölçekli makine öğrenmesi 5 6 3

Veri Madenciliği Nedir? Veri madenciliğinin en yaygın kabul edilen tanımı, bilgi için model keşfetmek şeklindedir. Veri için oluşturulan modeller farklı şekillerde ve farklı amaçlar için oluşturulabilir. Veriden elde edilmek istenen sonuca göre modelleri oluşturma süreçleri farklıdır. Oluşturulan modellerin istenen amaca uygunluğunun test edilerek doğrulanması gereklidir. 7 8 4

İstatistiksel model Veri madenciliği terimini ilk defa istatistikçiler kullanmıştır. Veri madenciliği, veri tarafından doğrudan desteklenmeyen bilginin çıkartılması olarak ifade edilmiştir., veriden elde edilen bir dağılımı ifade eder. İstatistikçiler veri madenciliğini istatistiksel model oluşturma olarak görürler. 9 10 5

Makine öğrenmesi nde, veri bir eğitim kümesi olarak alınır ve bir algoritmanın öğrenmesi için kullanılır., Bayes ağları, destek vektör makinesi, yapay sinir ağları, karar ağaçları gibi modelleri kullanır. yöntemleri çok az bilgi kullanarak istenen amaca yönelik sonuçlar oluşturabilir. 11 12 6

Modellemede hesaplamalı yaklaşımlar Bilgisayar bilimlerinde, veri madenciliğine bir algoritmik problem olarak bakılır. Verilerden birtakım parametreler elde edilir. yöntemleri çok az bilgi kullanarak istenen amaca uygun sonuçlar oluşturabilir. Veri, kesin olarak veya yaklaşık olarak özetlenebilir. Verideki bazı önemli özellikler çıkartılır diğerleri göz ardı edilir. 13 14 7

Özetleme Web madenciliğindeki özetleme yöntemlerinde, Web in karmaşık yapısı her sayfa için basit verilerle özetlenebilir. Kullanıcıların arama yaptıkları sorgulara göre sayfaların önemi belirlenebilir (PageRank). nin diğer bir uygulama alanı ise öbeklemedir (clustering). Veriler çok boyutlu uzayda birer nokta olarak alınır ve birbirine yakın olanlar aynı kümeye atanır. Oluşturulan cluster, merkez nokta veya başka bir özellik hesaplanarak elde edilen özet veri tarafından ifade edilebilir. 15 16 8

Özellik çıkarımı Büyük ölçekli verideki elemanlar arasındaki ilişki, aralarındaki bağlantı kullanılarak ifade edilir. Frequent itemset, veri içerisindeki elemanların birlikte bulunma oranlarına göre özellik çıkarımı yapar. Örneğin, market alışverişinde, belirli oranın üzerinde aynı alışverişte birlikte alınan ürünler. Similar items, büyük veri kümesi içerisinde birbirine benzeyen elemanları bularak özellik çıkarımı yapar. Örneğin, benzer ürün grubuyla ilgilinen kullanıcılar kümesi. 17 18 9

Toplam bilgi farkındalığı 2002 yılında Amerika hükümeti, kredi kartı makbuzları, otel kayıtları, seyahat verileri ve diğer çok farklı türdeki verilerin tamamında veri madenciliği yöntemlerini uygulayarak terörist aktiviteleri izlemeyi planladığını duyurmuştur (Total Information Awareness (TIA) isimli proje). Bu proje kongre tarafından gizlilik ve güvenlik nedenlerinden ötürü iptal edilmiştir. Bu kadar büyük veri içerisindeki bazı davranışlar terörist aktivite olmamasına rağmen terörist gibi algılanabilir. Gerçekten bazı şüpheli davranışların da terörizmle ilgisi olmayabilir. Terörist aktiviteyi tam olarak tanımlayıp ilgili olanların polis tarafından izlenmesi güvenlik, gizlilik ve maliyet açısından gereklidir. 19 20 10

Bonferroni prensibi Bir veri tamamen rastgele bile olsa aranan olayın olma olasığı vardır. Verinin boyutu arttıkça aranan bu olayın olma sıklığı da artar. Beklenmediği kadar çok tekrar eden (önemli görünen) bu olay gerçekte önemli olmayabilir., sanki gerçekmiş gibi görünen rastgele tekrar eden bu olayları belirlemeyi sağlar. Eğer bir olayın veri içerisindeki tekrarlanma sayısı, gerçek örneklerden ve beklenenden çok fazla ise sahtedir. Örneğin büyük bir veri içerisinde kişilerin belirlenmiş davranışlarına göre terörist sayısı çok az olmalıdır. Bu sayı beklenenden çok fazla çıkarsa elde edilen sonuçlar sahtedir. 21 22 11

Dokümanlardaki kelimelerin önemi Çoğu veri madenciliği uygulamasında, dokümanların konularına göre gruplandırılması gerekir. Dokümanların konuları belirli anahtar kelimelere göre belirlenebilir. Bir dokümanda sık geçen kelimelerin o doküman için önemli olduğu tahmin edilebilir. Bazen sık kullanılan kelimeler konu belirlemek için uygun olmayabilir. the, and gibi kelimeler (stop words) İngilizce dokümanlarda çok sık kullanılır. Bir dokümanda bir kelimenin az kullanılması da konu belirlemek için tek başına yeterli değildir. 23 Dokümanlardaki kelimelerin önemi Kelimelerin bir dokümanda bulunma sıklığı (term frequency) ile diğer tüm dokümanlarda bulunma sıklığı (inverse document frequency) birlikte daha anlam sonuç vermektedir. Burada, f ij ile i.kelimenin j.dokümandaki frekansı gösterilmektedir. max k f kj ile j.dokümanda en sık geçen kelimenin frekansı ifade edilmektedir. Burada, N tüm doküman sayısını, n i ise i.kelimenin geçtiği doküman sayısını ifade etmektedir Bu iki değerin çarpımı ile bir kelimenin bir doküman için önemi hesaplanır. 24 12

Örnek Dokümanlardaki kelimelerin önemi Veritabanında 2 20 doküman olsun. Bir w kelimesi 2 10 dokümanda geçiyorsa IDF w = log 2 (2 20 / 2 10 ) = 10 olur. Bir j dokümanında w kelimesi 20 kez geçiyorsa ve bu en sık geçen kelime ise TF wj = 1 olur. TF.IDF wj = 10 olur. Bir k dokümanında w kelimesi 1 kez geçiyorsa ve en sık geçen başka bir kelime ise 20 kez geçiyorsa TF wk = 1/20 olur. TF.IDF wk = 10 x (1 / 20) = 1/2 olur. 25 26 13

Hash fonksiyonları Hash fonksiyonu, bir h anahtarı alır ve bir sonuç değer üretir. Bu sonuç değer, 0 ile B-1 arasında bir tamsayı olabilir. Burada, B maksimum değer aralığını gösterir. Anahtar sayısı ile sonuç sayısı birbirine eşit olabilir. Bu durumda, her anahtar sadece bir sonuç üretebilir veya her sonuç için sadece bir anahtar olabilir. Anahtar sayısı ile sonuç sayısı birbirinden farklı olabilir. Bu durumda, her anahtar birden fazla sonuç üretir veya her sonuç için birden fazla anahtar vardır. h (x) = x mod B 27 28 14

İndeksler İndeks, nesnelere (kayıtlara) etkin bir şekilde ulaşmak için kullanılan veri yapısıdır. İndeks, genellikle kayıt içerisindeki bir alan (field) kullanılarak oluşturulur. Hash tablosu ile indeks oluşturulabilir. Field, hash fonksiyonu için anahtar değeri ifade eder ve hash fonksiyonunun sonucu kullanılarak kaydın tamamı elde edilir. Sonuç değer, hafızada bir adres, diskte bir blok, vb. olabilir. 29 İndeksler 800-555-1212 telefon numarası hash key olarak kullanılarak kayda ulaşılıyor. 30 15

31 İkincil depolama birimi Disk üzerindeki veriye ulaşma süresi hafızaya göre çok uzundur. Disk üzerindeki bir bloğa erişim hızı hafızaya göre 10.000 kez daha yavaştır. Her hash anahtarıyla hesaplanan sonuç değere göre ayrı ayrı okuma yapmak performansı çok düşürür. Diskler mantıksal olarak silindir şeklinde organize edilir ve çok sayıdaki track üzerindeki sektör farklı okuma kafaları ile aynı anda okunur. 32 16

Ödev Doküman özetleme hakkında bir araştırma ödevi hazırlayınız. 33 17