Büyük Veri İçin İstatistiksel Öğrenme (Statistical Learning for Big Data)

Benzer belgeler
Büyük Veri Analitiği (Big Data Analytics)

Büyük Veri de Türkiye den Uygulama Örnekleri Dr. Güven Fidan

Büyük Veri Analitiği (Big Data Analytics)

BÜYÜK VERİ. Abdulkadir ŞAN Proje Yöneticisi 7/1/2014 VERİ SİSTEMLERİ. Anayurt Güvenliği Md. Yrd. Metin Madenciliği ve Kaynaştırma Sistemleri

Büyük Veri Analitiği (Big Data Analytics)

IT-515 E-Devlet ve e-dönüşüm Türk Hava Kurumu Üniversitesi Bilişim Teknolojileri Yüksek Lisans Programı 2014

Büyük Veri İçin İstatistiksel Öğrenme (Statistical Learning for Big Data)

VERİ MADENCİLİĞİ önemsiz olmayan, gizli, önceden bilinmeyen, potansiyel olarak kullanışlı

Kamu Sektörü İçin SAP Karar Destek Sistemleri Zirvesi. Gökhan NALBANTOĞLU / CEO, Ereteam 9 Aralık 2014, Salı

IBM Big Data. Emre Uzuncakara Big Data Sales IBM Corporation

Büyük Veri Analitiği (Big Data Analytics)

İnnova Bilişim Çözümleri.

AMAÇ. Kesintisiz ATM hizmetlerini en uygun maliyetlerle sunarak, müşteri memnuniyetini ve kârlılığı artırmak

Biz Kimiz? Ekibimizi yakından tanıyın: adresgezgini.com/ekibimiz

Veritabanı Yönetim Sistemleri (Veritabanı Kavramı) Veritabanı Sistemleri

Planla, Tahmin Et, Yönet IBM Perakende Planlama Çözümleri

Büyük Veri ve Endüstri Mühendisliği

BİLGİYİ YÖNETME. Mustafa Çetinkaya

Bilgiyi Keşfedin! Özelleştirme, Eklenti ve Veri Entegrasyonu Kurumsal Seviyede Yönetim ve Performans

Data Science Boot Camp

Başlıca Ürün-Bilgi Sistemleri

AJANS SUNUMU.

Büyük Veri Analitiği (Big Data Analytics)

Yapısal Olmayan Verinin Potansiyelini Açığa Çıkarın

Lojistik ve Bilgi Sistemleri ÖĞR. GÖR. MUSTAFA ÇETİNKAYA

UZAKTAN EĞİTİM MERKEZİ

BSM 532 KABLOSUZ AĞLARIN MODELLEMESİ VE ANALİZİ OPNET MODELER

BİG DATA, MUHASEBE VE MALİ MÜŞAVİRLİK MESLEĞİ. Prof.Dr.Yıldız ÖZERHAN Doç.Dr.Ümmühan ASLAN

Büyük Veri Analitiği (Big Data Analytics)

Büyük Veri İçin İstatistiksel Öğrenme (Statistical Learning for Big Data)

Büyük Veri Analizi. Göksel Okay Kıdemli Sistem Mühendisi

Ağ Trafik ve Forensik Analizi

Dijital pazarlama bir satış yöntemi değil; ulaşılan sonuçları sayesinde satış artışı sağlayan, bir ilişkilendirme ve iletişim sürecidir.

VERİ MADENCİLİĞİ (Web Madenciliği)

S.O.S Günışığı Lojistik Saha Operasyon Sistemi

Kurumsal Uygulamalar ve Bilgi Teknolojileri Entegrasyonu

SİSTEM ANALİZİ VE TASARIMI. Sistem Analizi -Bilgi Sistemleri-

VERİ TABANI YÖNETİM SİSTEMLERİ

Bilişim Teknolojileri Temelleri 2011

Veri Yönetiminde Son Nokta. Sedat Zencirci, Teknoloji Satış Danışmanlığı Direktörü, Orta Asya ve Türkiye

HAKKIMIZDA. Misyonumuz; Vizyonumuz;

İşletmenin en çok ve an az ziyaret aldığı zamanları belirleme

Biz Kimiz? Ekibimizi yakından tanıyın: adresgezgini.com/ekibimiz

Büyük Verinin Büyük Güvenlik İhtiyacı. Yavuz S. Selim Yüksel Bilişim Teknolojileri ve Siber Güvenlik Derneği Yönetim Kurulu Başkanı

Veritabanı Yönetimi Bilgisayarların. Keşfi Hedefler. Veritabanı, Veri ve Bilgi. Veritabanı, Veri ve Bilgi. Veritabanı, Veri ve Bilgi

AKILLI KAVŞAK YÖNETİM SİSTEMİ

İşletme Bilgi Yönetimi. Doç. Dr. Serkan ADA

Bilgisayar Mühendisliğine Giriş. Yrd.Doç.Dr.Hacer KARACAN

Semantik Ağ ve Üst Veri Sistemleri İçin Yeni Nesil Veri Tabanı Yönetim Modeli: NoSQL. R. Orçun Madran Atılım Üniversitesi.

DİJİTAL & SOSYAL MEDYA NIN GELENEKSEL MEDYA YA GÖRE AVANTAJLARI

Satış Noktalarındaki Yeni Dijital Medya İletişim Mecranız

GEOVISION GROUP ÇÖZÜMLERİ

COĞRAFİ BİLGİ SİSTEMLERİ

VERI TABANLARıNDA BILGI KEŞFI

Seo Eğitimi (300 Sattlik Eğitim) Seo. Genel Amaçları. Seo da Kullanılan Terimler. Nedir? Nasıl Çalışır? Nasıl Olmalıdır?

Çözümleri ADAPTİF TRAFİK YÖNETİM SİSTEMİ (ATAK) İSBAK A.Ş., İstanbul Büyükşehir Belediyesi iştirakidir.

VERİ KAYNAKLARI. Bilgi sisteminin öğelerinden biride veri

Sistem Nasıl Çalışıyor: Araç İzleme ve Filo Yönetim Sistemi

Android Telefonlarla Yol Bozukluklarının Takibi: Kitle Kaynaklı Alternatif Çözüm

İGABİS. İGDAŞ Altyapı Bilgi Sistemi

Saha İş Gücü Yönetim Sistemi ve Güzergah Optimizasyonu

Veritabanı. Ders 2 VERİTABANI

«Pek çok küçük şey, doğru reklamla devleşmiştir.» Mark Twain

BİLGİSAYAR MÜHENDİSLİĞİ BÖLÜM BAŞKANLIĞI DERS TANITIM BİLGİLERİ

CloudPro Server Backup. Güçlü bir Veri Yedekleme Çözümü ile İş Sürekliliğinizde Devamlılığın Anahtarı

Kepware Veritabanı Ürünleri. Teknolojiye Genel Bir Bakış

Bilkent Üniversitesi Bilgisayar Mühendisliği Bölümü. Bilgisayar Mühendisliği

Ekin SAFE TRAFFIC Plaka Tanıma Sistemi

Veri Ambarından Veri Madenciliğine

Vodafone dan Office 365. Satış temsilcisi ismi Tarih

EMC Forum Yazılım Temelli Veri Depolama Moro Hekim Sistem Mühendisi

MAYIS 2010 ÖZGÜR DOĞAN İŞ GELİŞTİRME YÖNETİCİSİ KAMU SEKTÖRÜ

LOGO İş Zekası çözümü ile kurumsal raporlama ve analizler. Cem Yılmaz Genel Müdür LOGOBI Yazılım

CHAOS TM Dinamik Kavşak Kontrol Sistemi

Street Smart Marketing

Algoritma Geliştirme ve Veri Yapıları 2 Veri Modelleri. Mustafa Kemal Üniversitesi

HAKKIMIZDA. Sizin Hayalleriniz. Bizim İşimiz. Neden Bizi Tercih Etmelisiniz? İşimizde Uzmanız. Kalite Politikamız. Yenilikçi ve Üretkeniz

Veritabanı Uygulamaları Tasarımı

Ana müşteri hizmeti. boschsecurity.com/instoreanalytics. Mağaza İçi Analiz Operasyon Modülü

"STRATEJİK BÜYÜK VERİNİN YATIRIMLAR ÜZERİNDEKİ ETKİLERİ" TEZ SUNUMU

10 yıllık sektör deneyimimiz ve yazılım teknolojileri alanında uzmanlaşmış eğitmen kadromuzla, size, ekibinize ve yazılım kültürünüze değer katacak

Muhammet Fatih AKBAŞ, Enis KARAARSLAN, Cengiz GÜNGÖR

VERİ MADENCİLİĞİNE BAKIŞ

JetSMS Direct Çözümü

İŞ ZEKASI (BI * ) Veriniz geleceğe ışık tutsun İşinizi geleceğe göre planlayın

ÜRETİM SÜREÇLERİNİ GÖZLEMLEMEK VE KONTROL ETMEK İÇİN KABLOSUZ ÇÖZÜM

NovaFortis Yazılım Danışmanlık. E-dönüşüm adaptörü

DENİZ HARP OKULU BİLGİSAYAR MÜHENDİSLİĞİ BÖLÜM BAŞKANLIĞI DERS TANITIM BİLGİLERİ

FAN SELECTOR FAN SELECTOR FAN SEÇİM YAZILIMI.

Tarih Saat Modül Adı Öğretim Üyesi. 01/05/2018 Salı 3 Bilgisayar Bilimlerine Giriş Doç. Dr. Hacer Karacan

Güç Parmaklarınızın Ucunda

MongoDB. Doğan Aydın. Eylül, 2011

AKILLI TATIL PLANLAMA SISTEMI

1. Oracle Data Miner 11g Release 2 Kurulumu Aşamaları

Veri Tabanı-I 1.Hafta

Su endüstrisinde yaşam döngüsü

Nesnelerin İnternetinde Veri Analizi

2000 li yıllardan itibaren teknolojinin hızlı gelişiminden belki de en büyük payı alan akıllı telefon ve tabletler gibi kablosuz iletişim olanağı

BİLİŞİM SİSTEMLERİNİN PRENSİPLERİ

VIERO ARAÇ SAYIM SİSTEMİ

Transkript:

Büyük Veri İçin İstatistiksel Öğrenme (Statistical Learning for Big Data) M. Ali Akcayol Gazi Üniversitesi Bilgisayar Mühendisliği Bölümü Bu dersin sunumları, The Elements of Statistical Learning: Data Mining, Inference, and Prediction, Trevor Hastie, Robert Tibshirani, Jerome Friedman, Springer, 2017. ve Mining of Massive Datasets, Jure Leskovec, Anand Rajaraman, Jeffrey David Ullman, Stanford University, 2011. kitapları kullanılarak hazırlanmıştır. Konular Büyük Veri Akış Verisi Akış Verisi Kaynakları Büyük Veri Analitiği Büyük Veri Uygulamaları Büyük Veri Teknolojileri 2 1

Büyük Veri Büyük veri kendine özgü özelliklere sahip olan ve genel olarak yüksek hacimlerdeki veriler için kullanılan bir terimdir. Dünyadaki verilerin %90 ı son 3-4 yılda oluşmuştur. Büyük veri çok farklı kaynaklardan elde edilebilir. Büyük veri analitiği yöntemleri, farklı kaynaklardan elde edilen düzenli veya düzensiz verileri anlamlı ve işlenebilir hale dönüştürür. 3 Büyük Veri Sosyal medya paylaşımları, blog yazıları, fotoğraf, müzik, video arşivleri, müşteri veya çalışan bilgileri, IoT verileri ve kullanıcı hareketlerinin kaydedildiği log dosyaları gibi çeşitli kaynaklardan elde edilen veriler kullanılır. Sosyal medyadaki veri miktarı petabyte, exabyte veya zettabyte seviyelerine çıkabilmektedir. Geçmişte bilgi kirliliği olarak görülen bu veriler gereksiz ve faydasız olarak görülmekteydi. İlişkisel veritabanı sistemlerinde (Relational Database Management Systems - RDMS) oluşturulan sorgular sonucunda alınan kararlar, yanlış ve eksik bilgi nedeniyle hatalı olabiliyordu. 4 2

Büyük Veri Büyük veri terimi ilk ortaya çıktığından itibaren farklı sayıdaki özellikleriyle ifade edilmiştir. Bu özellikler 3V, 5V, 7V, 10V ve hatta 42V olarak ifade edilmiştir. Yaygın kullanılan 10V: Volume Velocity Variety Variability Veracity Validity Vulnerability Volatility Visualization Value 5 Volume Büyük Veri Büyük verinin en çok bilinen karakteristiğidir. Son birkaç yıl içerisinde önceki tüm zamanların yaklaşık 10 katı veri oluşturulmuştur. YouTube a her bir dakikada 300 saatlik video yüklenmektedir. 2016 yılında 1.1 trilyon fotoğraf çekildiği tahmin edilmektedir. 2016 yıllında cep telefonu veri trafiği 6.2 exabyte tahmin edilmektedir. Twitter kullanıcıları her bir dakikada 277.000 tweet atmaktadır. Apple kullanıcıları her bir dakikada 48.000 uygulama indirmektedir. Facebook kullanıcıları her bir dakikada 2.460.000 içerik paylaşmaktadır. Her bir dakikada 204.000.000 e-posta mesajı gönderilmektedir. Google her bir dakikada 2.400.000 arama sorgusu almaktadır. 6 3

Velocity Büyük Veri Velocity verinin üretilme, tüketilme, oluşturulma ve güncellenme hızıdır. Facebook günde 600 terabyte verinin geldiğini ifade etmektedir. Google her saniyede 40.000 sorguya cevap oluşturduğunu ifade etmektedir. Günde yaklaşık 3,5 milyar sorguya cevap verdiği söylenebilir. Variety Büyük veride yapılandırılmış, yarı yapılandırılmış ve çoğunlukla yapılandırılmamış veri bulunur. Bunlar; ses, video, görüntü, sosyal medya güncellemeleri, log dosyaları, click verileri, makine ve sensör verileri vb. olabilir. 7 Büyük Veri Variability Büyük veride tutarsızlıklara neden olan bazı farklı verilerde olabilir. Bu verilerin anomaly veya outlier algılama yöntemleri ile bulunup yapılan analizlerin daha anlamlı hale getirilmesi gereklidir. Veracity Büyük veride boyut, çeşitlilik ve tutarsızlık artarken verinin güvenilirliği ve doğruluğu düşer. Veracity veri kaynaklarının güvenilirliğini ifade eder. Verinin kim tarafından oluşturulduğu, hangi metodoloji ile toplandığı, aynı türdeki kaynaklardan mı toplandığı, veriyi toplayanın özetleme yapıp yapmadığı, veri başka birisi tarafından değiştirildi mi gibi sorulara cevap aranır. 8 4

Büyük Veri Validity Verinin nasıl doğrulandığı ve geçerliliğinin nasıl test edildiğiyle ilgilenir. Verinin analiz işleminden önce doğrulanması gereklidir. Vulnerability Büyük veri yeni güvenlik konularını da beraberinde getirir. Verinin hack lenmemesi gereklidir. Kaynağından elde edildiği gibi herhangi bir bozulmaya veya güvenlik saldırısı sonucu değişmeye uğramaması gereklidir. Volatility Verinin ne kadar eski olduğu, hala güncel olup olmadığı, kullanılabilir olup olmadığı ile ilgilenir. 9 Büyük Veri Visualization Büyük verinin görselleştirilmesi analizini kolaylaştırır. Görselleştirmeyle ilgili hafıza gibi teknik kısıtlar halen bulunmaktadır. Klasik grafik araçları ve yöntemleriyle büyük verideki milyarlarca noktanın görselleştirilmesi mümkün değildir. Büyük veri için kümeleme, ağaç haritaları, dairesel ağ diyagramları gibi görselleştirme yöntemlerinin kullanılması gereklidir. Value Büyük veriden anlamlı ve değerli bilgiyi çıkarmadıkça diğer bütün karakteristikleri anlamsızdır. Büyük veriden anlamlı ve değerli verinin elde edilmesi için veri madenciliği yöntemleri gibi karmaşık süreçlerin büyük veriye özgü bir şekilde uyarlanıp kullanılması gereklidir. 10 5

Büyük veri sınıflandırma Büyük Veri 11 Büyük Veri Büyük verinin kullanım alanları Büyük veri, veri madenciliği, makine öğrenmesi, örüntü tanıma, istatistik, görselleştirme, yüksek performanslı hesaplama, veritabanı teknolojisi, algoritma, uygulamalar gibi disiplinlerde kullanılmaktadır. Veri madenciliği yöntemleri birçok alanda başarılı bir şekilde kullanılmaktadır. 12 6

İşletme Büyük Veri Özellikle büyük ölçekli işletmeler müşteri analizi, müşteriye özelleştirilmiş tavsiye, reklam veya öneri oluşturma, ürün dağıtımı ve lojistik optimizasyonu gibi çok sayıdaki alanda büyük veri analiz yöntemlerini kullanmaktadır. Perakende Satış Personel gelir optimizasyonu, müşteri davranış analizi, müşteri ilişkileri analizi, ürün çeşitliliği, kampanya yönetimi ve fiyat optimizasyonu gibi uygulamalarda yaygın bir şekilde büyük veri analiz yöntemleri kullanılmaktadır. 13 Kamu Büyük Veri Verilere kolay ve güvenli erişebilirliği sağlama, gizlilik ve şeffaflık oluşturma, uygun ürün ve hizmetlerin sunumu, risk ve sahtekarlığı azaltmaya yönelik alanlarda büyük veri analiz yöntemleri kullanılmaktadır. Teknoloji Gerçek zamanlı analiz ve işlem (menü) özelleştirme, işlem süresini azaltma, riskleri azaltma konusunda otomatik sistemler ile karar verme gibi alanlarda büyük veri analiz yöntemleri kullanılmaktadır. 14 7

Eğitim Büyük Veri Eğitimde öğrenci analizi, ders planlaması gibi alanlarda büyük veri analiz yöntemleri kullanılmaktadır. Kişisel Konum Verileri Konum tabanlı reklam, akıllı yönlendirme, acil müdahale gibi alanlarda büyük veri analiz yöntemleri kullanılmaktadır. Sağlık Hastalık tespiti, hasta izlenmesi, kişisel DNA analizi gibi alanlarda büyük veri analiz yöntemleri kullanılmaktadır. 15 Konular Büyük Veri Akış Verisi Akış Verisi Kaynakları Büyük Veri Analitiği Büyük Veri Uygulamaları Büyük Veri Teknolojileri 16 8

Akış Verisi Akış verisi geldiği anda işlem yapılmazsa (depolama, data process vs.) kalıcı şekilde kaybedilebilir. Veriyi işleme hızından daha hızlı veri gelmesi durumunda da kaybedilebilir. Akış verisinde işlem yapan algoritmalar akış verisini özetler. Akış madenciliği algoritmaları, faydalı örnekleri seçer ve istenmeyen örnekleri filtreler. Başka bir özetleme yaklaşımında ise, sabit boyutlu bir pencere içerisindeki elemanlarla (belirli bir süre için geçmiş veri) özetleme yapılmaktadır. Akış verisinin özetlenmesiyle birlikte daha küçük alanda saklanması da sağlanmış olur. 17 Akış Verisi Akış işlemcisi bir tür veri yönetim sistemi olarak görülebilir. Sisteme çok sayıda farklı stream den veri gelebilir. Veri türleri, veri oranları ve veri gelme aralıklarının dağılımları farklı olabilir. 18 9

Akış Verisi Stream lerden gelen veriler büyük bir depolama biriminde (archival storage) saklanabilir. Bu depolama birimindeki veri üzerinde uzun zaman alan işlemlerin ardından sorgulama yapılabilir. Working storage depolama birimi ise akış verisinin özetini veya bir parçasını saklar. Working storage birimi, işlem hızı gereksinimine göre disk veya ana hafıza olabilir. Working storage birimi sınırlı kapasiteye sahiptir ve akış verisinin tamamını saklayamaz. 19 Konular Büyük Veri Akış Verisi Akış Verisi Kaynakları Büyük Veri Analitiği Büyük Veri Uygulamaları Büyük Veri Teknolojileri 20 10

Akış Verisi Kaynakları Sensor data Bir okyanus yüzeyindeki ısı sensörü her saat ölçtüğü ısı değerini reel sayı olarak bir istasyona göndersin. Bu durumda veri oranı çok düşük olduğundan günümüz teknolojisinde tüm veri ana hafızada tutulabilir. GPS birimindeki sensör yüzeydeki yükseklik değişimini ölçüp bir istasyona göndersin. Bu durumda veri oranı yüksektir ve ancak ana hafızada veya ayrı bir diskte tutulabilir. Bir okyanusun tüm davranışını ölçmek istersek, milyonlarca sensör kullanılır ve günlük birkaç terabyte veri alınabilir. 21 Akış Verisi Kaynakları Image data Uydulardan sürekli dünyaya ilişkin görüntüler alınıp yeryüzündeki istasyonlara gönderilir. Bu görüntü verilerinin boyutları günlük birkaç terabyte düzeyinde olabilir. Şehirlerdeki güvenlik kameraları uyduya göre düşük çözünürlüktedir, ancak her birisi akış verisi oluşturur. Londra da 6 milyon kamera olduğu belirtilmektedir ve her birisi akış verisi oluşturur. 22 11

Akış Verisi Kaynakları İnternet ve Web trafiği İnternet anahtarlama düğümleri (router) IP paketlerinden oluşan stream leri alır ve çıkış portlarına yönlendirme yapar. Anahtarlama elemanlarının görevi verileri sorgulamak veya tutmak değildir. Ancak, günümüzde anahtarlama elemanlarının kapasitesinin artırılmasına yönelik eğilim (DOS ataklarının algılanması, tıkanıklık denetimi yapılması) vardır. Web siteleri her gün milyonlarca sorgu almaktadır (Google her gün yüzlerce milyon arama sorgusu almaktadır, Yahoo milyarlarca click almaktadır.). Bu tür verilerden faydalı bilgiler elde edilebilir (sorgulardaki ani yükselme, click sayısındaki ani yükselme veya düşme). 23 Konular Büyük Veri Akış Verisi Akış Verisi Kaynakları Büyük Veri Analitiği Büyük Veri Uygulamaları Büyük Veri Teknolojileri 24 12

Büyük Veri Analitiği Büyük veri analitiği, büyük ve çeşitli veri setleri üzerinde işlem yaparak gizli örüntüleri çıkarma, bilinmeyen ilişkileri keşfetme sürecidir. Kullanılan yöntemlerle elde edilen bilgi; firmalara, kurumlara veya ticari girişimlere yönelik önemli bilgiler sağlamaktadır. Büyük veri analitiği uygulamaları veri bilimcilere modelleri tahmin etme, istatistikçilere ve diğer analiz alanında çalışan profesyonellere büyüyen verileri kolay analiz etme yeteneği kazandırır. Büyük veri analitiği klasik yöntemlerle yönetilmesi çok zor olan çok büyük, yapılandırılmamış ve çok hızlı değişen veriyle uğraşır ve anlamlı örüntüler elde eder. Büyük veri analitiği yöntemleri veriyi saklamak, veriyi elde etmek ve analiz etmek için gelişmiş teknolojiyi kullanır. 25 Konular Büyük Veri Akış Verisi Akış Verisi Kaynakları Büyük Veri Analitiği Büyük Veri Uygulamaları Büyük Veri Teknolojileri 26 13

Büyük Veri Uygulamaları Ekonomik ve ticari faaliyetlerden kamu yönetimine, ulusal güvenlikten bilimsel araştırmalara kadar birçok alanda büyük veriden yararlanılmaktadır. Büyük veri uygulamalarının en önemli amacı, tüketici deneyimlerinin iyileştirilmesi, maliyetlerin düşürülmesi, daha iyi pazarlama stratejilerinin oluşturulması ve mevcut süreçlerin etkinliğinin artırılmasıdır. Günümüzde güvenlik saldırıları ve veri gizliliği konularında da büyük veri kullanılmaya başlanmıştır. Büyük verinin başlıca uygulama alanları arasında bankacılık, iletişim, medya ve eğlence sektörü, sağlık hizmetleri, eğitim, üretim, devlet hizmetleri, sigortacılık, perakendecilik ve ticaret, ulaşım, enerji sektörü ve ölçüm verisinin analiz edilmesi yer almaktadır. 27 Büyük Veri Uygulamaları Statista tarafında yapılan araştırmalara göre, 2016 yılı itibarıyla büyük veri ve analitiğinin dünya genelindeki pazar payında, üretim %20,03 ile en çok gelir sağlayan uygulama alanı olmuştur. Bankacılığı, %13,10 ile bankacılık, %7,60 ile devlet hizmetleri ve %7,40 ile de profesyonel hizmetler takip etmiştir. 2016 yılında büyük verinin tüm uygulama alanlarındaki toplam pazar değeri ise 130,10 milyar dolar seviyesine ulaşmıştır. Diğer bir araştırma kuruluşu IDC ise 2016 da elde edilen bu toplam gelir değerinin, yıllık %11,7 lik büyüme oranı ile 2020 yılında 203 milyar dolardan daha fazla seviyelere ulaşacağını öngörmektedir. 28 14

Büyük Veri Uygulamaları Bankacılıkta büyük veri uygulamaları Bankacılık alanında büyük veri analitiği ile geçmiş veri kümelerinden düne göre daha fazla kazanç elde edilmektedir. Geçmiş veri, nakit hareketlerinin, öngörülebilen felaketlerin, soygunların ve müşteri davranışlarının anlaşılmasında yardımcı olmaktadır. Büyük veri kullanımıyla bankalar; para hareketlerinin detaylarını görebilmekte, felaketleri ve hırsızlık olaylarını önceden öngörüp önleyebilmekte, tüketici davranışlarını daha iyi anlayabilmekte ve analiz edebilmektedir. 29 Büyük Veri Uygulamaları İletişim, medya ve eğlence sektörlerinde büyük veri uygulamaları Haberleşme ve sosyalleşme aracı olan sosyal medya, her geçen gün insan hayatındaki önemini artırmaktadır. Akıllı telefonların kullanımının artması ve yüksek hızlı mobil ağların genişlemesi, kişiler tarafından üretilen verinin anlık olarak Web sayfalarına yüklenmesi kültürünü ortaya çıkarmaktadır. Büyük verinin en çok kullanım alanları arasında, sosyal medya üzerinden müşteri memnuniyetinin ölçülmesi yer almaktadır. Müşterilerin ürün ve hizmetler hakkındaki düşüncelerini yakından takip edebilmek için organizasyonlar müşteri geri bildirimlerine değer vermelidir. Tüketicilerin bir ürün hakkındaki düşüncelerini yansıtan Web sayfası üzerindeki beğen butonlarından elde edilen veri, Twitter üzerinden paylaşılan yorumlar örnek teşkil etmektedir. 30 15

Büyük Veri Uygulamaları Sağlık hizmetinde büyük veri uygulamaları Sağlık hizmetleri alanında üretilen verinin miktarı gün geçtikçe artmaya devam etmektedir. Hastalıklarla mücadele eden bireylerin sağlık kayıtları büyük veriyi oluşturan önemli kaynaklar arasında yer almaktadır. Büyük veri, belirli hastalıkların örüntü ve eğilimlerinin gözden geçirilmesini sağlamakta ve erken teşhis fırsatını sunmaktadır. Eğitimde büyük veri uygulamaları Büyük veri, birçok eğitim organizasyonu tarafından öğrencilerin sistemlere ne zaman giriş yaptıkları, gezindikleri Web sayfaları, sayfalarda ne kadar süre harcadıkları ve belirli bir zaman içindeki faaliyetleri gibi olayların genel örüntüsünün ortaya çıkartılmasında büyük veriden yararlanılabilmektedir. 31 Büyük Veri Uygulamaları Üretimde büyük veri uygulamaları Üretim ve kaynak temini alanlarında karar verme süreçlerini desteklemek ve bu bağlamda rekabet avantajı elde etmek için, büyük verinin coğrafi, grafiksel, metinsel ve zamansal unsurlarından bilgi çıkaran tahmin modellerinden yararlanılmaktadır. Ayrıca, akıllı üretim süreci ve ürün yaşam döngüsü yönetimi gibi gelişmekte olan uygulamalar, büyük veriyle birlikte gerçek yaşamda kullanılmaya başlamıştır. Akıllı üretim sistemlerinde aktif önleyici bakım, büyük veri analitiği yoluyla uygulanabilmektedir. Üretim alanındaki büyük verinin desteğiyle üretim cihazlarının sağlık durumunu değerlendirmek ve arızalarını önceden tespit etmek için cihaz alarmları, cihaz olay kayıtları ve cihaz durum bildirimleri gibi gerçek zamanlı birçok cihaz verisi analiz edilebilmektedir. 32 16

Büyük Veri Uygulamaları Devlet hizmetlerinde büyük veri uygulamaları Kamu kurum ve kuruluşları, büyük veriyi toplayan, araştıran ve analiz eden yeni araçlar ile yapısal olmayan veriden faydalı bilgi elde edebilmektedir. Devlet hizmetlerinde, her gün petabaytlar seviyesinde veri üretilmektedir. Büyük verinin gerçek zamanlı analizi; eğitim kalitesinin artırılması, işsizlik oranının azaltılması, trafikle ilgili canlı akış verisi temel alınarak trafik yoğunluğunun kontrol edilmesi ve mobil ambulans hizmetlerinin iyileştirilmesi gibi birçok alanda yardımcı olmaktadır. 33 Büyük Veri Uygulamaları Sigortacılıkta büyük veri uygulamaları Sigortacılık alanında büyük verinin kullanılmasıyla daha iyi fiyat ayarlaması yapılarak ve daha iyi müşteri ilişkileri kurularak, sigorta organizasyonlarının kârlılığı ve performansı artırılabilmektedir. Perakendecilik ve ticarette büyük veri uygulamaları Perakendecilikte büyük veri akışı beş boyutta görselleştirilebilmektedir: Müşteriler, ürünler, zaman, yer ve kanallar. Perakendecilikte büyük veri kullanımının sağladığı başlıca faydalar arasında; stokların doğru bir şekilde gösterilmesi, zamanında analiz edilmesi, alışveriş örüntülerinden elde edilebilecek bilgilerin kullanılmasıyla personel istihdamının optimizasyonu ve müşteri ilişkilerinde devamlılığın sağlanması yer almaktadır. 34 17

Büyük Veri Uygulamaları Ulaşımda büyük veri uygulamaları Trafiği kontrol etmek, en iyi ulaşım rotasını planlamak, akıllı ulaşım sistemleri geliştirmek, trafik koşullarını tahmin ederek oluşabilecek tıkanıklıkları yönetmek için büyük veriden yararlanabilmektedir. Özel sektörde ise büyük veri sayesinde gönderilerin nakliye hareketlerinin optimizasyonu sağlanarak gelirlerde artış ve rekabetçi avantaj elde edilebilmektedir. Bireysel olarak yakıt ve zamandan tasarruf sağlamak amacıyla uygun ulaşım rotasının planlanmasında büyük veri kullanılabilir. GPS alıcı-vericileri, CCTV sistemleri, dedektörler, cep telefonları ve diğer taşınabilir cihazlar ile toplanan yol durumu, araç ve sürücü davranışları büyük veriyi oluşturmaktadır. Bu verinin kullanımıyla geliştirilen hızlı ve dinamik modellemeler, akıllı ulaşım sistemleri için daha iyi simülasyon ortamları sağlayabilmektedir. 35 Büyük Veri Uygulamaları Enerji sektöründe büyük veri uygulamaları Büyük veri analiz yöntemleri kaynak ve işgücü yönetiminin sağlanması, problemlerin önceden tespit edilmesi amacıyla kullanılmaktadır. Enerji sektöründe sensörlerin, bulut bilişim teknolojilerinin, kablosuz ve ağ iletişiminin kullanılmasıyla birlikte büyük miktarda veri elde edilmektedir. Kendi kendine ölçümde büyük veri uygulamaları Kişisel aktivite ve davranışlarını ölçümleyen bireyler tarafından üretilen veri, kendi kendine ölçüm verisi (self-quantification data) olarak adlandırılmaktadır. Kişilerin hareketlerini, egzersizlerini izleyen ve buradan elde edilen veriyi akıllı telefon uygulamasına aktararak verinin analiz edilmesini sağlayan bileklikler kendi kendine ölçüm verisi üretmektedir. 36 18

Konular Büyük Veri Akış Verisi Akış Verisi Kaynakları Büyük Veri Analitiği Büyük Veri Uygulamaları Büyük Veri Teknolojileri 37 Büyük Veri Teknolojileri Apache Flume Apache Flume dağıtık ve güvenilir bir veri aktarma sistemidir. Apache Flume veriyi toplamak, çok büyük boyuttaki veriyi çok sayıdaki kaynaktan merkezi bir depolama birimine taşımak için kullanılır. Apache Sqoop Apache Sqoop komut satırı arayüzüne sahip bir araçtır ve Hadoop ile ilişkisel veritabanları arasında veri transferi için kullanılır. Sqoop verileri MySQL, Oracle, MS SQL Server gibi ilişkisel veritabanlarından dağıtık Hadoop Distributed File System (HDFS) içerisine import edebilir. MapReduce kullanılarak işlemler yapıldıktan sonra tekrar export edilebilir. 38 19

Büyük Veri Teknolojileri Apache Pig Hadoop üzerinde çalışır ve yüksek seviyeli dillerle Hadoop un MapReduce kütüphanesinin kullanımını sağlar. Apache Pig, okuma, yazma, filtreleme, dönüştürme ve birleştirme gibi işlemleri tanımlamak için betik dil sağlar. Apache Hive Apache Hive Facebook tarafından geliştirilmiştir ve Hadoop verisini veri ambarına dönüştürmek, SQL ile sorgulama yapmak ve MapReduce işlemleri için kullanılabilir. 39 Büyük Veri Teknolojileri Apache ZooKeeper Apache ZoooKeeper açık kaynak bir sunucu sağlar ve dağıtık koordinasyona sahip yüksek güvenilirlikli bir sistemdir. Hadoop cluster larının senkronizasyonunu sağlayan servisleri sunar. MongoDB MongoDB açık kaynak doküman tabanlı ve NoSQL bir veritabanıdır. Apache Cassandra Apache Cassandra açık kaynak NoSQL veritabanıdır. Yüksek ölçeklenebililrlik ve yüksek performansa sahip dağıtık bir veritabanı yönetim sistemidir ve gerçek zamanlı büyük veri üzerinde işlem yapabilir. 40 20

Büyük Veri Teknolojileri Apache Hadoop Apache Hadoop açık kaynak bir framework tür ve bilgisayar kümeleri arasında büyük veri kümelerinin dağıtık işlenmesini mümkün kılar. Apache Hadoop bir bilgisayardan binlerce bilgisayar ölçeklenebilecek şekilde tasarlanmıştır. Bir sorguyu alıp çok sayıdaki bilgisayardan sonuçları toplayıp birleştirme işlemini gerçekleştirir. 41 Büyük Veri Teknolojileri MapReduce MapReduce dağıtık veri işlemek için Google tarafından 2004 yılında geliştirilmiş bir modeldir. MapReduce mimarisinin temel yaklaşımı problemi parçalara bölmek elde edilen sonuçları birleştirmek şeklinde ifade edilebilir. Apache Splunk Splunk zaman serisi, metin verileri, sıralı ve sırasız veriler üzerinde arama, analiz, grafiksel sunum ve raporlama aracıdır. 42 21

Ödev Akış verisi madenciliği hakkında bir araştırma ödevi hazırlayınız. 43 22