Büyük Veri. Yrd. Doç. Dr. Özgür Yılmazel Gökhan Çapan Anadolu Üniversitesi



Benzer belgeler
Büyük Veri de Türkiye den Uygulama Örnekleri Dr. Güven Fidan

BÜYÜK VERİ. Abdulkadir ŞAN Proje Yöneticisi 7/1/2014 VERİ SİSTEMLERİ. Anayurt Güvenliği Md. Yrd. Metin Madenciliği ve Kaynaştırma Sistemleri

Yapısal Olmayan Verinin Potansiyelini Açığa Çıkarın

İçerik. Apache Hadoop Project

Büyük Veri Analitiği (Big Data Analytics)

Büyük Veri Analizi. Göksel Okay Kıdemli Sistem Mühendisi

Büyük, Dağıtık, Veri Yoğunluklu Uygulamalarda Programlama Paradigmaları

EMC Forum Yazılım Temelli Veri Depolama Moro Hekim Sistem Mühendisi

AKILLI TATIL PLANLAMA SISTEMI

Cloudera Training for Apache HBase

IT-515 E-Devlet ve e-dönüşüm Türk Hava Kurumu Üniversitesi Bilişim Teknolojileri Yüksek Lisans Programı 2014

Veri Yönetiminde Son Nokta. Sedat Zencirci, Teknoloji Satış Danışmanlığı Direktörü, Orta Asya ve Türkiye

IBM Big Data. Emre Uzuncakara Big Data Sales IBM Corporation

1 Milyon Kullanıcıya Nasıl Hizmet Veriyoruz? CloudLMS Teknik Alt Yapı ve Mimarimiz

NoSQL. Buğra Çakır. 23 Mart 13 Cumartesi

Kamu Sektörü İçin SAP Karar Destek Sistemleri Zirvesi. Gökhan NALBANTOĞLU / CEO, Ereteam 9 Aralık 2014, Salı

Android e Giriş. Öğr.Gör. Utku SOBUTAY

VERİ MADENCİLİĞİ önemsiz olmayan, gizli, önceden bilinmeyen, potansiyel olarak kullanışlı

Data Science Boot Camp

"STRATEJİK BÜYÜK VERİNİN YATIRIMLAR ÜZERİNDEKİ ETKİLERİ" TEZ SUNUMU

Levent Özen.

MongoDB. Doğan Aydın. Eylül, 2011

Yüksek Performanslı Veri Ambarı ve Analitik

Büyük Veri İçin İstatistiksel Öğrenme (Statistical Learning for Big Data)

UZAKTAN EĞİTİM MERKEZİ

JAVA RMI ve Hibernate teknolojileri kullanılarak çok amaçlı bir yazılım altyapısı hazırlanması

Sınırsız Analitik. MicroStrategy Analitik Platform

10 yıllık sektör deneyimimiz ve yazılım teknolojileri alanında uzmanlaşmış eğitmen kadromuzla, size, ekibinize ve yazılım kültürünüze değer katacak

SOCIAL SCIENCES STUDIES JOURNAL SSSjournal (ISSN: )

İş Analitiği'ne Netezza ile Yüksek Performans Katın

PAPERWORK TEKNİK MİMARİ

Akıllı telefonlar, avuçiçi bilgisayarlar ile taşınabilir (cep) telefonların özelliklerini birleştiren cihazlardır. Akıllı telefonlar kullanıcıların

Bilgiyi Keşfedin! Özelleştirme, Eklenti ve Veri Entegrasyonu Kurumsal Seviyede Yönetim ve Performans

YAŞAR ÜNİVERSİTESİ MÜHENDİSLİK FAKÜLTESİ BİLGİSAYAR MÜHENDİSLİĞİ BÖLÜMÜ 4 YILLIK EĞİTİM PLANI ( AKADEMİK YILINDAN İTİBAREN GEÇERLİDİR)

Yazılım Mühendisliğine Giriş 2018 GÜZ

Ahmet Demirhan. 07 Haziran İstanbul

Bilişim Teknolojileri Temelleri 2011

Google Web Toolkit ile Öğretim Elemanı Otomasyon Sistemi

BULUT BİLİŞİM VE BÜYÜK VERİ ARAŞTIRMA LABORATUVARI. Ekim 2017

Hisar Okullarında Bilgisayar Dersi Dilara Vardar

MOBİL UYGULAMA GELİŞTİRME

Compiere Açık kodlu ERP + CRM yazılımı. Hüseyin Ergün Önsel Armağan Serkan Demir

Büyük Veri Analitiği (Big Data Analytics)

YZM 3215 İleri Web Programlama

Dijital pazarlama bir satış yöntemi değil; ulaşılan sonuçları sayesinde satış artışı sağlayan, bir ilişkilendirme ve iletişim sürecidir.

Büyük Verinin Büyük Güvenlik İhtiyacı. Yavuz S. Selim Yüksel Bilişim Teknolojileri ve Siber Güvenlik Derneği Yönetim Kurulu Başkanı

VERİ KAYNAKLARI. Bilgi sisteminin öğelerinden biride veri

Tarih Saat Modül Adı Öğretim Üyesi. 01/05/2018 Salı 3 Bilgisayar Bilimlerine Giriş Doç. Dr. Hacer Karacan

NoSql ve MongoDB. Saygın Topatan

IOT NEDİR? Bölüm 1. Internet of Things ekosistemi altında donanım, programlama, veri tabanı, veri analizi gibi alt yapılar yer almaktadır.

Big Data (Buyuk Veri) Kamu ve Ozel Sektore Etkileri

Veritabanı Yönetimi Bilgisayarların. Keşfi Hedefler. Veritabanı, Veri ve Bilgi. Veritabanı, Veri ve Bilgi. Veritabanı, Veri ve Bilgi

PROJE ÇALIŞMA KONULARI

BÖLÜM BÜYÜK VERİ VE BÜYÜK VERİ İŞLEME MİMARİLERİ. Dr. Umut Demirezen - STM A. Ş. - Yapay Zeka ARGE Grup Yöneticisi

TOBB ETU HADOOP - IBM BigInsights Cluster Erişim ve Kullanımı

Ders Kodu Yarıyıl T+U Saat Kredi AKTS. Programlama Dilleri

OpenAIRE Avrupa İçin Açık Bilimsel İletişim ve Bilimsel Bilgi Altyapısı: Son Gelişmeler

Bil101 Bilgisayar Yazılımı I. M. Erdem ÇORAPÇIOĞLU Bilgisayar Yüksek Mühendisi

Turquaz. Açık kodlu muhasebe yazılımı Turquaz Proje Grubu

WEB ARAÇLARI VE UZAKTAN EĞİTİM CEIT357-4.HAFTA

Script. Statik Sayfa. Dinamik Sayfa. Dinamik Web Sitelerinin Avantajları. İçerik Yönetim Sistemi. PHP Nedir? Avantajları.

R ile Programlamaya Giriş ve Uygulamalar

Ders Adı : Nesne Tabanlı Programlama-I Ders No : Teorik : 3 Pratik : 1 Kredi : 3.5 ECTS : 4. Ders Bilgileri.

LOGO İş Zekası çözümü ile kurumsal raporlama ve analizler. Cem Yılmaz Genel Müdür LOGOBI Yazılım

Semantik Ağ ve Üst Veri Sistemleri İçin Yeni Nesil Veri Tabanı Yönetim Modeli: NoSQL. R. Orçun Madran Atılım Üniversitesi.

Anahtar Kelimeler: Hadoop, Map Reduce, Hdfs, Map Reduce Performans Parametreleri,

Yanıtlar: Twitter Facebook Instagram Myspace

Sunucu Taraflı JavaScript ile Gerçek Zamanlı Web Uygulamaları Geliştirme

4. Bölüm Programlamaya Giriş

Web Tarayıcıları ve Arama Motorları

Kurulum 14 FTP ye Bağlanmak ve Dosyaları Atmak 14 Veritabanı Oluşturulması ve Bağlanıp Kurulumun Tamamlanması 15

10 yıllık sektör deneyimimiz ve yazılım teknolojileri alanında uzmanlaşmış eğitmen kadromuzla, size, ekibinize ve yazılım kültürünüze değer katacak

DİJİTAL & SOSYAL MEDYA NIN GELENEKSEL MEDYA YA GÖRE AVANTAJLARI

e-öğrenme için Öğretim ve İçerik Yönetim Sistemleri Prof. Dr. Yasemin GÜLBAHAR

İŞ ZEKÂSI & ÇEVİK RAPORLAMA ARACI. REPX ile verinize değer katın.

S.O.S Günışığı Lojistik Saha Operasyon Sistemi

EĞİTİMDE BİLGİSAYAR UYGULAMALARI. Yrd. Doç. Dr. Halil Ersoy

Tekir (Ön Muhasebe Yazılımı)

Kamuda Büyük Veri ve Uygulamaları

Sosyal Ağlar ve Kütüphaneler. Tuba Akbaytürk Çanak

Küme Bilgisayarlar. Enabling Grids for E-sciencE. Onur Temizsoylu. Grid ve Küme Bilgisayarlarda Uygulama Geliştirme Eğitimi ODTÜ, Ankara

Eğitimde Yeni Teknolojiler

Zekeriya Beşiroğlu TURKISH ORACLE USER GROUP. Oracle Cloud G nin GİDİŞİ. C nin GELİŞİ. Bilginc IT Academy /Oracle University Istanbul

Eğitimde Yeni Teknolojiler

Sosyal Medya Analitiği Demo

Spring Giriş Eğitimi

MODSECURITY DENETİM KAYITLARINI ANLAMAK. Gökhan Alkan,

Veritabanı Uygulamaları Tasarımı

BİG DATA, MUHASEBE VE MALİ MÜŞAVİRLİK MESLEĞİ. Prof.Dr.Yıldız ÖZERHAN Doç.Dr.Ümmühan ASLAN

İş Zekâsı Sistemi Projesi

HP Yazılım Zirvesi - İstanbul 20 May Wyndham Grand Levent Erdem Alaşehir / Finansbank Güvenlik Olay Korelasyonunda Büyük Veri Kullanımı

Vodafone dan Office 365. Satış temsilcisi ismi Tarih

MPS. Multi-service Platform System Powered by QIHAN

Türkiye Barolar Birliği internet sitesi

Web Uygulama Güvenliği Kontrol Listesi 2010

Bilgi ve İletişim Teknolojileri (JFM 102) Ders 7. LINUX OS (Sistem Yapısı) BİLGİ & İLETİŞİM TEKNOLOJİLERİ. LINUX Yapısı

Yüksek Performanslı Veri Ambarı ve Analitik. Ayhan Önder Pure Data for Analytics CTP

PostgreSQL 9.3 Kullanılabilirlik ve Başarım

CAN TECİM HEDEF DENEYİM. Tecrübe bütün öğretmenlerin en iyisidir. Publilus Syrus

Spring Framework Eğitimi

Transkript:

Büyük Veri Yrd. Doç. Dr. Özgür Yılmazel Gökhan Çapan Anadolu Üniversitesi

Büyük Veri Nedir? Büyük veriler her yerde Bilimsel hesaplamalar Medikal görseller Web Sunucu log dosyaları Ama büyük veri ne kadar büyük? Boyut her zaman önemli mi?

Büyük Veri Ne Kadar Büyük? CERN 40 TB/ Saniye 12,233 TwiXer posts / saniye Superbowl maçında

Büyük Veri Ne Kadar Büyük? Yeri geldiğinde: 40MB Powerpoint Distributed to hundreds of people via email 1TB Medikal Görüntü eş zamanlı konsultasyon alımında kullanılmalı 1PB 3 Boyutlu filmin derlenmesi

Boyutu kadar Ne Yapılacağı da Önemli Büyük Veriyi tanımlayan özellik, sistemin kapasitesini veya iş isterlerini zora sokan tüm özelliklerden birisi olabilir. Verinin oluşma veya geliş hızı Kaynakların çeşitliliği ve sayısı Tüm büyük veriler eşit yara_lmamış Yapısal Veriler Yapısal Olmayan Veriler

Büyük Veri Yapısal Veriler ilişkisel veri tabanları, banka transacaonları, alış veriş geçmişleri Yapısal Olmayan Veriler Bloglar, email, sosyal medya, sensor bilgileri, fotograflar Otomaak Oluşturulan Veriler Şahısların Oluşturduğu Veriler

Ne Yapmalı? Veri Toplama Düzenle Yorumla

Ne Yapmalı? Veri Toplama Düzenle Yorumla Veri Toplama: Bir çok farklı apde veri Yapısal Yapısal Olmayan XML Meansel Görseller Yüksek hız bilinen geçikme Saniye de 12Bin Tweet Yüksek sayıda veri Esnek Veri Yapıları

Ne Yapmalı? Veri Toplama Düzenle Yorumla Düzenle: Yüksek verim çıkış hızı Anlık ve Yerinde düzenlemeler Tüm kaynaklara ve tüm yapılara uyum

Ne Yapmalı? Veri Toplama Düzenle Yorumla Yorumlama: Derinlemesine Analiz Çevik Gelişarmelere uyumlu Çok büyük ölçeklenebilirlik Gerçek Zamanlı Sonuçlar

Ne Yapmalı? Veri Toplama Düzenle Yorumla Neredeyse her zaman paralel Onlarca yüzlerce haxa bazen binlerce bilgisayara dağınık durumda

Kimler Yapıyor?

Nasıl Yapalım? Tamamı açık kaynak kodlu projeler: Hadoop HDFS MapReduce Pig Hive HBase Mahout

Hadoop Açık kaynak kodlu Dağı_k Hesaplama Çok basit bir model MapReduce Bir birine bağlı bir grup bilgisayar

Örnek Hadoop Kurulumları Ebay 532 node 532x8 Core 4256 Core Facebook 1100 node 8800 core 12 PB Storage LinkedIn 1200 + 580 + 120 node Quantcast 3000 node 3.5 PB 1PB+ günlük veri Kaynak:Hadoop wiki powered by

Hadoop Bileşenleri: Veri Saklama - HDFS dağı_k disk dosya sistemi Veri İşleme - MapReduce

HDFS Google File System Dagiak bir dosya sistemi Dosyaların bir küme üzerinde dağı_lmalarından sorumlu Dosya boyutları genelde gigabytelar seviyesinde Hata toleransli Replikasyon Yatay olceklenebilir HDFS fiziksel lokasyon konusunda bilgi sahibidir.

HDFS Hadoop Shell aracılığıyla, Java API veya Web UI ile ulaşılabilir Dört ap node: NameNode dosya sisteminin meta verisini yönear Job Tracker MapReduce Task Tracker MapReduce Data Node Verilerin saklandığı NameNode taraundan adreslenen nodelardır

MapReduce Büyük Veri İşleme - Google Dağı_k Hesaplama Modeli Anahtar Değer ikilisi ile veri işleme Kolay bir programlama çerçevesi (framework) sadece map() ve reduce() fonksiyonlarını gelişarmeniz yeterli

Map: İlk Adım Elemanları bir anahtar ile eşleşarip bir sonraki işleme hazır hale gearir. Veri temizleme Basit bir hesap yapma Virgül veya TAB ile ayrılmış diziyi parçalama

Reduce: Son Adım Iterator ile aynı anahtar için bir değerler listesi alır ve bunları Birikarerek Filtereleyerek Örnekleyerek azal_r. Sonuçlarını HDFS veya HBASEe yazar

MapReduce - Mimari K1,V1 K1,V1.. K1,V1 K1,V1 K1,V1 K1,V1. K1,V1 K1,V1 M M M M M M M M M K2,V2 K2,V2 K2,V2 K2,V2 K2,V2 K2,V2 K2,V2 K2,V2 K2,V2 K2,V2 K2,V2 K2,V2 K2,V2 K2,V2 K2,V2 K2,V2 HDFS CLUSTER GRUPLAMA SIRALAMA K2, Iterable<V2> K2, Iterable<V2> K2, Iterable <V2> R K3,V3 K3,V3

Apache Pig Yahoo! Büyük veri setlerinin kolay analiz edilmesi için tasarlanmış Javada Map Reduce yazmaktan daha basit Pig Laan dilinde kodlanabilir Gelişarilebilir Diğer scripang dillerine çok benzer 10 Sa_rlık bir Pig kodu yüzlerce sa_r Java koduna denk gelebilir Sıklıkla hızlı protoap çıkarmak için ve anlık sorgulamalarda kullanılır

Pig Koşturmak! Grunt Shell Java arayüzü Eclipse ve IntelliJ IDEA pluginleri %tweets = load /today/tweets as (user, mention, tweet)! %twitters = group tweets by mention!

Apache Hive Hadoop için Veri Ambarı Projesi Veri özetleme Anlık sorgulamalar SQL benzeri bir dil HiveQL Özel mapper ve reducer tanımlamalarına olanak Hive Compilerı SQL sorgularını MapReduce operasyonlarına çevirir Hadoopun karmaşıklığından son kullanıcıyı kurtarır.

HBase Her zaman ilişkisel veri tabanlarına ihayacımız yok Ölçeklenebilirlik ihayacımız var Tablo boyutlarımız çok büyük olabiliyor Çok hızlı erişim isayoruz Distributed Key- Sorted Persistent Map

HBase Google Big Table klonu HDFS üzerinde çalışır hata toleransı ölçeklenebilirlik MapReduce girdi çık_sı Hbase = HDFS + rastgele okuma (Random read/ write)

HBase Nerelerde Kullanılır: Sosyal Medya Tavsiye Sistemleri Arama Motorları İsahbarat ve İzleme Servisleri Finansal Sistemler dolandırıcılık - sahtekarlık

Apache Mahout Basit analizlerden öteye geçelim Sınıflandırma Email Spam Çağrı Merkezi Kümeleme Yeni haber bulma Tavsiye Sistemleri

Apache Mahout Ölçeklenebilir Hadoop üzerinde çalışan veri madenciliği ve yapay öğrenme kütüphanesi Yapay öğrenme çalışanları petabytelar seviyesinde veri ile uğraşmıyorlar Ticari uygulamalar hazır değil Gerçek problemlerin verileri büyük Milyonlarca kredi kar_ başvurusu Milyonlarca telefon konuşması Milyarlarca kullanıcı davranışı logu

Apache Mahout Veriden Bilgiye ulaşmak Veri hazırlama Model oluşturma Bilgiye ulaşma Mahout tüm adımlar için araçlar sağlar Hadoop üzerinde çalışır Hbase veya HDFS veri giriş çıkışı için kullanılabilir.

Hazır Algoritmalar: Sınıflandırma: Logisac Regression Bayesian Random Forests Uygulama Mean Sınıflandırma Çağrı yönlendirme Yüz tanıma Apache Mahout

Apache Mahout Hazır Algoritmalar: Kümeleme: kmeans Canopy Mean Shi} MinHash Latent Dirichlet Allocaaon (LDA) Uygulama Yeni haber bulma Dolandırıcılık sahtekarlık bulma

Apache Mahout Hazır Algoritmalar: Tavsiye: Distributed Item based Matrix Factorizaaon Non distributed item/user based Uygulama eticaret - Amazon Film tavsiyesi NetFlix Müzik tavsiyesi LastFM Mekan Tavsiyesi - FourSquare

Nerede Ne Kullanılmalı? Veri Toplamak: Flume - cloudera Scribe facebook Veri Saklamak: HDFS HBASE Veri Analizi MapReduce Pig Hive Akıllı Uygulamalar Mahout

Teşekkürler