Yapısal Olmayan Verinin Potansiyelini Açığa Çıkarın Alp Taşdemir 1
Geleneksel Kurumsal Analitik İşleme 2
Temel Paradigma Kayması Internet çağı ve patlayan veri artışı Oluşan eğilimleri ve fırsatları belirlemek için kurumların yeni veri kaynaklarını değerlendirmesi Geleneksel veri tabanı araçlarının yetersiz kalması 3
Hadoop: Büyük Veri Platformu Esnek Ölçeklenebilir Ucuz Hataya dayanıklı Yapısal olmayan verinin kavranması Çabuk benimsenen 4
Hadoop ile Analitik İşleme 5
Ekonomik Şartlar Oyunun Kuralını Değişitiriyor $80.000 $60.000 $40.000 Büyük Veri Platform Maliyeti /TB Büyük Veri RDBMS maliyetleri sonunda Hadoop maliyetleri ile örtüşecek $20.000 $- 2008 2009 2010 2011 2012 2013 Big Data DB Hadoop 6
Hadoop Üzerine Bahislerimiz 1. HDFS yeni nesil veri altyapıları için veri yüzeyi olacak 2. HDFS üzerinde ve onunla entegre, kurumsal ölçekte bir çok servis oluşacak 3. Kapasite sağlanmasındaki esneklik bu veri altyapısının kritik özelliklerinden olacak 7
Pivotal ve Hadoop 8
Veri Akışının Soğurulması Akış Servisleri Veri Toplama Platformu Veri Yönetimi Servisleri Pivotal Veri Çatısı Analitik Sorgulama Operasyonel Zeka Bellek içi DB Run-Time Uygulamalar Bellek içi nesneler HDFS Kurumsal Veri Ambarı RDBMS Kayıt sistemi olarak servise devam Geleneksel BI/Raporlama Data Veri Görüntüleme Visualization Uyumluluk ve finansal raporlama 9
Esnek Kullanıma Alma Modeli Kullanıma Alım Özel Bulut Veri Merkezi Açık Bulut 10
PIVOTAL HD Dünyadaki En Güçlü Hadoop Sürümü 11
Pivotal HD Nedir? Dünyadaki ilk gerçek SQL işleyen kurumsal ölçekteki Hadoop dağıtımı 100% Apache Hadoop tabanlı bir platform VMware ve Isilon teknolojileri ile sanallaştırma ve bulut ortamlarına hazır Hem yazılım hem de entegre cihaz şeklinde sunulmakta 12
Pivotal HD Mimarisi: Apache Kaynak Yönetimi & İş Akışı Yarn Zookeeper HBase Sqoop HDFS Pig, Hive, Mahout Map Reduce Flume Apache 13
Pivotal HD Mimarisi: Enterprise Pivotal HD Enterprise Kaynak Yönetimi ve İş Akışı Yarn Zookeeper HBase Hadoop Sanallaştırma (HVE) HDFS Pig, Hive, Mahout Map Reduce Komuta Merkezi Sqoop Veri Yükleyici Flume Apache Pivotal HD Enterprise 14
Veri Yükleyici Mimarisi Akımlar Dışarı çek Veri Yükleyici İçeri al Bağdaştırıcılar Web GUI ve CLI Flume Dosyalar Veri Kaynağı Kayıdı İş Yönetimi Veri Hedefi Kayıdı HDFS HDFS NFS HTTP FTP Kopyalama Stratejisi Optimizasyonu Veri İşleme Veri Kopyalama Local REST APIs.. 15
Komuta Merkezi ile Cluster Yönetimi Kullanıma Alma Ayarlama Analiz İzleme Yönetim 16
Pivotal HD Mimarisi: HAWQ HAWQ İleri Veritabanı Servisleri Pivotal HD Enterprise Kaynak Yönetimi ve İş Akışı Yarn Zookeeper HBase Genişleme Yapısı ANSI SQL + Analitik Katalog Servisleri Dinamik Hat Oluşturma HDFS Sorgu İyileştirici Hadoop Sanallaştırma (HVE) Pig, Hive, Mahout Map Reduce Komuta Merkezi Sqoop Veri Yükleyicisi Flume Apache Pivotal HD Enterprise HAWQ 17
HAWQ: Hadoop için Gerçek SQL Motoru Ölçek ve Performans Hataya Dayanıklılık İşlem Desteği Veri Yönetimi ve Analizi 18
Hadoop Üstünde Greenplum Veritabanından Faydalanmak HAWQ Kaynak Yönetimi Sorgulama Motoru Planlayıcı İyileştirici Çalıştırıcı İşlem Yöneticisi Katalog Servisleri GPXF Genişleme Yapısı HDFS 19
GPXF: Genişleme Yapısı GPXF Genişleme Yapısı Diğer veri kaynakları için özel bağdaştırıcı oluşturulmasına olanak sağlar HDFS HBase Hive 20
HAWQ Nasıl Çalışır: Sorgunun Sunulması İstemciler SELECT beer, price FROM Bars b, Sells s WHERE b.name = s.bar AND b.city = San Francisco JDBC/ODBC SQL Konsolu HAWQ Ana Sorgu Ayrıştırıcı Sorgu İyileştirici HDFS İsim Sorgu İşleyici Sorgu İşleyici Sorgu İşleyici... HDFS Veri HDFS Veri HDFS Veri 21
HAWQ Nasıl Çalışır: Sorgu İyileştirici İstemciler Ayrıştırma Ağacı JDBC/ODBC SQL Konsolu HAWQ Ana Sorgu Ayrıştırıcı Sorgu İyileştirici HDFS İsim Metadata Maliyet Modeli Kaynaklar Sorgu İşleyici Sorgu İşleyici Sorgu İşleyici... HDFS Veri HDFS Veri HDFS Veri 22
HAWQ Sorgu Planı İstemciler Motion Gather Project s.beer, s.price JDBC/ODBC SQL Konsolu HAWQ Ana Sorgu Ayrıştırıcı Sorgu İyileştirici HDFS İsim s Scan Sells HashJoin b.name = s.bar Motion Redist(b.name) Filter b.city = 'San Francisco' b Scan Bars Sorgu İşleyici Sorgu İşleyici Sorgu İşleyici... HDFS Veri HDFS Veri HDFS Veri 23
s b s b Sorgu Planı larına İletilir İstemciler JDBC/ODBC SQL Konsolu HAWQ Ana Sorgu Ayrıştırıcı Sorgu İyileştirici HDFS İsim s Scan Sells Motion Gather Project s.beer, s.price HashJoin b.name = s.bar Motion Redist(b.name) Filter b.city = 'San Francisco' b Scan Bars Motion Gather Project s.beer, s.price HashJoin b.name = s.bar Motion Motion Redist(b.name) Redist(b.name) Scan Sorgu İşleyici Scan Sorgu İşleyici Sells Filter b.city = 'San Francisco' Sells Filter b.city = 'San Francisco' Sorgu İşleyici Scan Bars Motion Gather Project s.beer, s.price HashJoin b.name = s.bar Scan Bars... HDFS Veri HDFS Veri HDFS Veri 24
HAWQ Dinamik Hat Oluşturur İstemciler JDBC/ODBC SQL Konsolu HAWQ Ana Sorgu Ayrıştırıcı Sorgu İyileştirici HDFS İsim Dinamik Hat Oluşturma Sorgu İşleyici Sorgu İşleyici Sorgu İşleyici... HDFS Veri Suncu HDFS Veri HDFS Veri 25
Toparlanmış Veri Ana ve İstemcilere Aktarılır İstemciler JDBC/ODBC SQL Konsolu HAWQ Ana Sorgu Ayrıştırıcı Sorgu İyileştirme HDFS İsim su Sorgu İşleyici Sorgu İşleyici Sorgu İşleyici... HDFS Veri HDFS Veri HDFS Veri 26
HAWQ Kullanıma Alma Modeli Ana lar ve İsim ları Sorgu planlama ve sevk... ODBC/JDBC Driver... Dinamik Hat Oluşturma Parça ları ve Veri ları Sorgu işleme ve veri depolama...... HDFS Harici Kaynaklar Yükleme, veri akışı, vs. 27
HAWQ Skorları Kullanıcı zekası 4.2 198 Satış analizi 8.7 161 Tıklama analizi 2.0 415 Veri araştırma 2.7 1,285 BI detaylandırma 2.8 1,815 47X 19X 208X 476X 648X 28
HAWQ: Büyük Verinin Temeli Pivotal Veri Çatısı Veri Akışının Soğurulması Akış Servisleri Veri Toplama Platformu Veri Yönetimi Servisleri Analitik Sorgulama Operasyonel Zeka Bellek içi DB Run-Time Uygulamalar Bellek içi nesneler HDFS 29