Büyük Veri ve Endüstri Mühendisliği Mustafa Gökçe Baydoğan Endüstri Mühendisliği Bölümü Boğaziçi Üniversitesi İstanbul Yöneylem Araştırması/Endüstri Mühendisliği Doktora Öğrencileri Kolokyumu 21-22 Nisan 2016
Başlıklar Veri / Veri Madenciliği Klasik Veri Analizi ve Veri Madenciliği Büyük Veri ve Potansiyel Araştırma Konuları Tavsiyeler 2
Veri / Veri Madenciliği Büyük hacimli verilerden üstü kapalı (implicit), çok net olmayan (non-trivial), önceden bilinmeyen ancak potansiyel olarak kullanışlı örüntülerin (pattern) veya bilginin çıkarılmasıdır. Örnek: Twitter verisi kullanarak kamuoyu yoklama 3
Kayıt zamanı atılan tweetlerin incelenmesi 2014 yılı Bahar döneminde Boğaziçi Üniversitesi kayıt döneminde ne oldu? Analizler R istatistik dili kullanarak yapıldı. #boun içeren tweetleri al ve önişlemeye tabi tut Linkleri at Küçük harfe çevir Noktalama işaretlerini at... 4
Kayıt zamanı atılan tweetlerin incelenmesi Kelime Bulutu 5
Kayıt zamanı atılan tweetlerin incelenmesi İçerik anlama? Kümeleme (clustering) kullanarak hangi kelimeler birlikte gözüktü D2 Document 1 Document2 I 1 1 Like 1 0 Hate 0 1 Databases 1 1 1 1 D1 6
Veri madenciliği Ne yaptık? Kayıt haftası öğrenciler rahatsız (kota, izin vb. sebepler) Kümeleme #boun içeren tweetler Temizlik (link at, küçük harfe çevir, vb) Sayısal olarak ifade et (döküman-terim matrisi) 7
Klasik Veri Analizi ve Veri Madenciliği Hipotez ortaya atarak veri toplama Araçlar ANOVA F testleri, t testleri vb. 8
Klasik Veri Analizi ve Veri Madenciliği Süreç veri üretiyor, başlangıçta belirli bir hipotez yok (bir fikir olsa da) 9
Klasik Veri Madenciliği Problemleri Gözetimsiz (Unsupervised) Öğrenme Amaç veriyi anlamak Kümeleme Kural çıkarma (sıralı, sırasız) Görselleştirme Gözetimli (Supervised) Öğrenme Amaç tahmin yapmak Regresyon (sürekli bir sonucu tahmin etme) Sınıflandırma (kesikli bir sonucu tahmin etme) 10
Büyük Veri Popüler bir buzzword ama çok yeni bir kavram değil Temel amaç: Algoritmik karmaşıklığı düşük algoritmalar geliştirmek (hafıza ve işlemci gereksinimleri açısından) 11
Büyük Veri ve Uygulamalar Farklı kaynaklardan gelen bilgiyi birleştirmek Örnek: İnternetten öde ve izle talebinin tahmini Bahis istatistikleri Süper lig istatistikleri İzlenme sayıları Google Trends Hava durumu 12
Büyük Veri ve Uygulamalar Öde ve izle talebi BJK - TS BJK - GS FB - TS FB - GS FB - BJK GS - TS GS - BJK TS - FB GS - FB BJK - FB TS - GS BJK - TS BJK - GS FB - TS FB - GS FB - BJK GS - TS GS - BJK TS - FB GS - FB BJK - FB TS - GS 13
Büyük Veri ve Uygulamalar Talep tahmini Klasik regresyon problemi ama Varsayımsal sorunlar Kirli veri Çoklu eşdoğrusallık (Multicollinearity) Lineer olmayan ilişkiler Etkileşim etkileri... Potansiyel çözümler ve araştırma alanları Cezalı (Penalized) regresyon yaklaşımları Değişken sayısı azaltma 14
Büyük Veri ve Uygulamalar Talep tahmini Cezalı (Penalized) regresyon 15
Büyük Veri ve Uygulamalar Algoritmik ticaret Bitcoin piyasası (Bitcoin ve Ethereum) https://poloniex.com/exchange#btc_eth API var Geçmiş veri ışığında, kural tabanlı algoritmalar? 16
Büyük Veri ve Uygulamalar Alışveriş sitelerinde kullanıcı tercihlerini anlama (Clickstream Verisi) Bir kategorideki ürünler (örneğin laptop) Özellikleri Fiyat Renk İşlemci... Kriterler Her kullanıcının (ya da bir kullanıcı kümesinin) fayda fonksiyonunu modelleme Sitede gezinti bilgisi tercih konusunda fikir verir mi? Büyük veri? Promosyon Hava durumu Reklam Kredi kartı kampanyaları... 17
Büyük Veri ve Uygulamalar Google reklamlarında anahtar kelimlere verilen teklif miktarı optimizasyonu 18
Büyük Veri ve Uygulamalar Google reklamlarında anahtar kelimlere verilen teklif miktarı optimizasyonu Büyük veri Deney tasarımı ile veri toplama Sezonsallık (saatlik, günlük ve benzeri) Talep tahmini Pekiştirmeli Öğrenme (Reinforcement learning) 19
Büyük Veri ve Uygulamalar Öznitelik öğrenme (Feature/Representation Learning) Görüntü uzayda bir vektör ile ifade edilir 20
Büyük Veri ve Uygulamalar Görüntü işleme ve veri küçültme Elimizdeki görüntüleri kullanarak jenerik görüntüler bulabilir miyiz? Jenerik görüntülerin doğrusal bir kombinasyonu ile asıl görüntüye dönebilir miyiz? (Encoding ve Decoding) 21
Büyük Veri ve Uygulamalar Kereste yamukluk tahmini Kurutma öncesi yaş odun görüntüleri Yamukluğa sebep olan alanların tespiti Bow Crook Kurutma sonrası ölçümler yapılır 22
Büyük Veri ve Uygulamalar Kereste yamukluk tahmini 200 k 200 400 400 600 n X 600 800 800 1000 1000 1200 1200 50 100 150 200 250 50 100 150 200 250 23
Büyük Veri ve Uygulamalar Görüntü işleme Hareket algılama (motion recognition) Video t adet zaman üzerinde değişen görüntü Çok değişkenli bir zaman serisi Doğrusal olmayan ve korelasyonu yüksek Hareket modellenebilir mi? 24
Tavsiyeler Kod yazma, yeni bir dil öğrenme Uygulama motivasyonu Parelel algoritmalar Parametresi az, basit algoritmalar Derin öğrenme (deep learning) 25
Teşekkürler Sorular ve Yorumlar e-posta mustafa.baydogan@boun.edu.tr web www.mustafabaydogan.com 26