BÜYÜK VERI UYGULAMALARı DERS 2. Doç. Dr. Yuriy Mishchenko

Benzer belgeler
BÜYÜK VERI UYGULAMALARı DERS 3. Doç. Dr. Yuriy Mishchenko

IBM Big Data. Emre Uzuncakara Big Data Sales IBM Corporation

VERİ MADENCİLİĞİ önemsiz olmayan, gizli, önceden bilinmeyen, potansiyel olarak kullanışlı

BÜYÜK VERI UYGULAMALARı DERS 7. Doç. Dr. Yuriy Mishchenko

Veri Bilim - Yapay Öğrenme Yaz Okulu, 2017 Matematiksel Temeller ve Vaka Çalışmaları

Bilkent Üniversitesi Bilgisayar Mühendisliği Bölümü. Bilgisayar Mühendisliği

Planla, Tahmin Et, Yönet IBM Perakende Planlama Çözümleri

Büyük Veri de Türkiye den Uygulama Örnekleri Dr. Güven Fidan

Sosyal Medya Uzmanlığı Ders Programı

Büyük Verinin Büyük Güvenlik İhtiyacı. Yavuz S. Selim Yüksel Bilişim Teknolojileri ve Siber Güvenlik Derneği Yönetim Kurulu Başkanı

BİTİRME ÖDEVİ KONU BİLDİRİM FORMU

Sent Sen e t z e LIVE İş Çözümleri Çö Plat Pla f t o f rmu o sentez.com

A/B TESTING. Mert Hakan ÖZLÜ N

Büyük Veri İş Yapış Şekillerini Nasıl Etkiliyor?

VERI TABANLARıNDA BILGI KEŞFI

IRMAK HANDAN

VERİ MADENCİLİĞİ VE SOSYAL AĞ ANALİZİ ARAŞTIRMA LABORATUVARI

BÜYÜK VERI UYGULAMALARı DERS 4. Doç. Dr. Yuriy Mishchenko

Tarih Saat Modül Adı Öğretim Üyesi. 01/05/2018 Salı 3 Bilgisayar Bilimlerine Giriş Doç. Dr. Hacer Karacan

ULUSLARARASI ANTALYA ÜNİVERSİTESİ ENDÜSTRİ MÜHENDİSLİĞİ BÖLÜMÜ DERS KATALOĞU

Büyük Veri ve Endüstri Mühendisliği

Sürdürülebilir Verimliliğin Esasları. Bülent Dal Genel Müdür ve Kurucu Ortak

Google Ads Müşteri Bilgilendirme Dökümanı

Biz Kimiz? Ekibimizi yakından tanıyın: adresgezgini.com/ekibimiz

BİG DATA, MUHASEBE VE MALİ MÜŞAVİRLİK MESLEĞİ. Prof.Dr.Yıldız ÖZERHAN Doç.Dr.Ümmühan ASLAN

Lojistik ve Bilgi Sistemleri ÖĞR. GÖR. MUSTAFA ÇETİNKAYA

DERS PROFİLİ. Kuram+PÇ+Lab (saat/hafta) Dersin Adı Kodu Yarıyıl Dönem. Bahar Endüstriyel ve Servis Pazarlaması MAN 528T.

Yapay Sinir Ağları ile Web İçeriklerini Sınıflandırma. Yazarlar: Esra Nergis Güven, Hakan Onur ve Şeref Sağıroğlu. Sunan : Esra Nergis Güven

Doğal olarak dijital

Winka Kurumsal. İş Yönetimi

VERİ MADENCİLİĞİNE BAKIŞ

1. YIL 1. DÖNEM DERS KODU DERS ADI T+U+L KREDİ AKTS. Atatürk İlkeleri ve İnkılap Tarihi I

Ana müşteri hizmeti. boschsecurity.com/instoreanalytics. Mağaza İçi Analiz Operasyon Modülü

NORMAL ÖĞRETİM DERS PROGRAMI

Dijital pazarlama bir satış yöntemi değil; ulaşılan sonuçları sayesinde satış artışı sağlayan, bir ilişkilendirme ve iletişim sürecidir.

Nebim Winner Kurumsal Fiyat Listesi

Veri Madenciliği Yaklaşımı ile Mesleki Yönlendirme Sistemi

İşletme Bilgi Yönetimi. Doç. Dr. Serkan ADA

Neden Endüstri Mühendisliği Bölümünde Yapmalısınız?

Biz Kimiz? Ekibimizi yakından tanıyın: adresgezgini.com/ekibimiz

YZM 2116 Veri Yapıları

Street Smart Marketing

... Perakende ve e-ticaret için 5 Bildirim Kampanyası Önerisi

Yazılım Mühendisliği 1

SOSYAL MEDYA YÖNETİMİ SUNUM DOSYASI

AVĐVASA da Veri Madenciliği Reşat Fırat ERSĐN Stratejik Planlama ve ĐşGeliştirme Birim Yöneticisi

Nisan-Mayıs Kampanyası

LOGO İş Zekası çözümü ile kurumsal raporlama ve analizler. Cem Yılmaz Genel Müdür LOGOBI Yazılım

AVM ve mağazalar için

Google Adwords. Yalnızca Sonuç Aldığınızda Para Ödersiniz. Neden Adwords?

Müşteri Sadakat Kartlarınız Fraud Kanalınız Olabilir mi?

+90 (312)

Büyük Veri. Yrd. Doç. Dr. Özgür Yılmazel Gökhan Çapan Anadolu Üniversitesi

YÖNEYLEM ARAŞTIRMASI - I

Kosullu Olasılık & Bayes Teoremi

GALATASARAY ÜNİVERSİTESİ BİLİMSEL ARAŞTIRMA PROJELERİ MÜHENDİSLİK VE TEKNOLOJİ FAKÜLTESİ ÖĞRETİM ÜYELERİ TARAFINDAN YÜRÜTÜLEN PROJELER ( )

EDM SAP Business One

Veri Tabanı, Veri Ambarı, Veri Madenciliği. Veri Madenciliği Uygulama Alanları

Teklif Yönetim Sistemi. Pdf Dökümanına Bakmak İçin Tıklayınız.

Olasılık ve İstatistik nedir? Bilgisayar Mühendisliğindeki yeri

DENİZ HARP OKULU ENDÜSTRİ MÜHENDİSLİĞİ BÖLÜM BAŞKANLIĞI DERS TANITIM BİLGİLERİ

2015Yılında Bilinmesi Gereken 5 Önemli Dijital Trend

PROF. DR. ŞAKİR ESNAF IN BİTİRME PROJESİ KONULARI

BENZERSİZ SORUNLARA BENZERSİZ ÇÖZÜMLER

Omnichannel ile Multichannel Pazarlama Arasındaki 4 Temel Fark

bonprix sonunda Türkiye de!

EDM SAP Business One

AKILLI TATIL PLANLAMA SISTEMI

SYS Version Satış Yönetim Sistemi

Esnek Hesaplamaya Giriş

KONU İLGİ. NutriOpt TERCÜME VE DERLEME KAYNAKÇA YAYININ KAPSAMI

2011 yılında yeni konsepti ve büyüyen ekibiyle şu anki yüzüne kavuşmuştur.

Bütünleşik Örnek Olay Çalışması: Bandon Grup Şirketi. Bölüm 1 Kurumsal Kaynak Planlaması Sistemlerine Giriş 1

Ramazan da rekor kırmaya hazır mısınız?

Zaman Serileri Tutarlılığı

BIG CONTENT > BIG DATA

WINDESKCONCENTO. sıgnum. Kurumsal İş Süreçleri Uygulamaları. windesk.com.tr

İÇİNDEKİLER KALİTE YE KUŞBAKIŞI

PERAKENDE YÖNETİMİ KURS PROGRAMI

Bunların takibini kolaylaştırmak için tüm haberlerin tek bir noktada eksiksiz ve güncel şekilde bir araya getirilmesi gerekiyordu.

Yapı Kredi Bankası Ar-Ge Çalışmaları Araştırma, Vizyon ve Uygulama. Eğitmen: Onur AĞIN

entbus pro web tabanlı enerji izleme yazılımı

Bilişim Teknolojileri Temelleri 2011

BÜTÜNLEŞİK PAZARLAMA İLETİŞİMİ YÖNETİMİ (Bölüm 12)

İSTANBUL ÜNİVERSİTESİ MÜHENDİSLİK FAKÜLTESİ BİLGİSAYAR MÜHENDİSLİĞİ BÖLÜMÜ

ISLYLU1700 Uzmanlık Alan Dersi (Zorunlu)

S.O.S Günışığı Lojistik Saha Operasyon Sistemi

Büyük Veri Analizi. Göksel Okay Kıdemli Sistem Mühendisi

ELEKTRONİK TİCARET (E-TİCARET) NEDIR? Ticaret Nedir?

Merhaba! Karşınızda Pisano;

GEOVISION GROUP ÇÖZÜMLERİ

Web Madenciliği (Web Mining)

NEDEN DOĞULİNE. Detaylı Analiz. Doğru Planlama. Hedef Kitleye Uygunluk. Doğru İçerik Stratejisi. 7/24 Destek. Deneyimli Ekip

GOOGLE AdWords REKLAMLARI

Kredi Limit Optimizasyonu:

Analitiğin Gücü ile Üretkenliğinizi Arttırın. Umut ŞATIR GÜRBÜZ Tahmine Dayalı Analitik Çözüm Mimarı, CEE

GoFeed Kullanıcı Arayüzü

Pazarlama Yönetiminin 2 temel fonksiyonu: Talep Yaratma ve Talep Tahminidir. Pazarlama; hangi mamullerin üretileceği ve özellikleri ile hangi

MODA YÖNETİMİ KURS PROGRAMI

Copyright 2012 EMC Corporation. All rights reserved.

Transkript:

1 BÜYÜK VERI UYGULAMALARı DERS 2 Doç. Dr. Yuriy Mishchenko

PLAN Büyük veri nedir, kaynaklar nedir, kullanım alanları Örnekler Felsefesi ve temel yaklaşım Diagramlar Yaklaşım prensibi Ayrıntılı örnekler 2

3 BÜYÜK VERI KAVRAMı

BÜYÜK VERI NEDIR? Büyük veri Excel i kraş edecek herşey Küçük veri RAM a sokulabilir, Büyük Veri bilgisayarı kapattır çünkü RAM yetmiyor Diğer değişle, Büyük Veri eski, alıştığımız metotlarla işletebilmek için fazla miktarda olan veriler demektir https://en.wikipedia.org/wiki/pointy-haired_boss 4

BÜYÜK VERI NEDIR? Zamanımızda veri çök yüksek hızla üretilip toplanmaktadır İnternette ziyaretçilerin tıklamaları Alişveriş ödemeleri Sensör kayıtları Güvenlik kameraların kayıtları GPS verileri Sosial media etkileşimleri... Bu tip verileri kaydedip işletmek ve analiz etmek gerçekten zor olmaya başlamıştır 5

WWW DEN VVV E 6

WWW DEN VVV E Volume (Hacim) Bugünkü iş/kurum/şirketlerin verileri inanılmaz miktarda dır Variety (Çeşitliği) İş/kurum/şirketlerin verilerinin karmaşıklığı artmaktadır Her gün yeni tür veriler toplanmaya başlamaktadır Velocity (Hız) Verilerin toplama hızı artmaktadır Baze verilerin doğasına göre anlık işlenmesi ve tepki zorunludur bu tür verilere veri akışları (data streams) denir 7

BÜYÜK VERININ 4ÜNCÜ V Veracity (Kalitesi) Veri toplamanın hızı artmakla beraber, verilerin kalitesi ve güvenilirlik düşmektedir Veriler sağlayan kaynaklardan yanlış, eksik, bozuk biçimdee veriler gelebilmektedir 8

BEKLENTI Bügünkü sistemler, şirketler ve kurumlar Terabyte ten Petabyte e kadar rutin olarak bilgi üretmekte dir Bilgi, şirket/kurumun başarısı için büyük önem taşımakta dır İyi kararlar verebilmek için anlamlı verilerin var olması ve dikkate alınması şarttır 9

Volume Variety Terabyte Veri kayıtları İşlem kayıtları Tablolar Dosyalar Loglar Büyük Verinin Üç V Yapılandırılmış Yapılandırılmamış Yarı-yapılanıdırılmış Karışık Velocity Batch veri analizi Neredeyse gerçek zamanlı veri Gerçek zamanlı veri Veri akışları 10

ÇEŞITLIĞI XML dosyaları yarı yapılandırılmış veri Word, PDF, TXT dosyaları yapılandırılmamış veri Email metinleri yapılandırılmamış Veri tabanları ve Excel tabloları yapılandırılmış Sosial media mesajları yapılandırılmamış İşlem logları yarı yapılandırılmış 11

BÜYÜK VERILERDEN - BÜYÜK BEKLENTILER! 12

KULLANıM ALANLARı İnternet ve e-komerse Tavsiye (recommender) motorları Reklam hedeflenmesi Arama kalitesi artırma Yasal olmayan faaliyetlerin keşfetme Telekom Müşterilerin memnuniyeti takip etme Telekom ağın performansı takip etme Telekom ağları optimizasyon Müşterilerin davranışları analizi Ağın çalışması analizi ve arza durumlarının tahmin etme 13

KULLANıM ALANLARı Devlet Siber güvenlik Emniyet ve yasal araştırmaları Nüfus bilgi toplama ve analizi Ekonomik bilgi toplama ve analizi Diğer Tıp ve medikal Tıp kayıtların işlenmesi Genetik araştırmaları Hizmet iyileştirilmesi İlaç/tedavi güvenliği araştırmaları 14

KULLANıM ALANLARı Banka ve finans Risk modellenmesi Tehdit analizi Dolandırıcılık keşfetme Kredi skorlar Perakende POS kayıtların analizi Müşteri memnuniyet takibi İmaj araştırmaları ve analizi 15

SPESIFIK ÖRNEKLERI: SPOR 16

SPESIFIK ÖRNEKLERI: SPOR Büyük sporda büyük veri yaklaşımı bilet satışı, pazarlama ve reklam stratejilerinin geliştirilmesi için kullanılır, Bunun için sosial media kullanılarak reklam kampanyaların verimliği ve alması gereken yönler seçiliyor Spor takımları büyük veri modelleri oyun strateji, oyuncular seçimi vb konular için de kullanılır 17

SPESIFIK ÖRNEKLERI: TıP Tıpta hastaların kayıtları analiz edilerek tedavi sonuçları ve daha iyi müdahale yapmak için yöntemler araştırılmakta Genel test sonuçları kullanılan teşhis tespiti yöntemleri de geliştirilmekte 18

SPESIFIK ÖRNEKLERI: E-KOMERS Online satıcılar inanılmaz miktarda kullanıcı ve ürün hakkında bilgilere sahiptir Bu bilgi, kullanıcıların davranışları analiz etmek, hedeflenen reklam üretmek ve alişverişteyken daha faydalı ürün önerileri yapmak için kullanılmakta 19

SPESIFIK ÖRNEKLERI: ONLINE Netflix online film seyretme hizmeti dir Kullanıcının daha önce seyrettiği film tarihçesi kullanılarak, kullanıcının ilgisi özel olarak çekebilecek film önerileri makine öğrenme yöntemleri yardımıyla Netflix in seçtiği ünlü dür Netflix in film deposu da 1Petabyte geçtiği bilinmekte 20

SPESIFIK ÖRNEKLERI: ILAÇ Tıpta ilaç ve tedavi güvenliği ve verimliği araştırmaları yeni değildir Bu araştırmalar, büyük veri kavramı temel olarak oluşturan veri modelleme ve veri analizi yaklaşımları yardımıyla gerçekleştirilmekte 21

SPESIFIK ÖRNEKLERI: ALIŞVERIŞ Target, Amerikadaki bir alişveriş zinciri, müşterilerinin alış tarihçesine bakarak hedeflenen reklam üretmeye çalışmakta 2012 de bu yöntemler kullanılarak aylesi bilmeyen bir genç kızın hamile olduğunu ve yaklaşık doğum tarihi tespit ettiği ile haberlere çıkmıştır 22

SPESIFIK ÖRNEKLERI: TARıM Tarım ve hayvan bilimi, tarımda kullanılan bitki ve hayvanların genetik bilgileri ve üreme tarihçeleri gibi veri analiz ederek, performansı artırmak için yapay seleksiyon planları modellenir ve kullanılmakta 23

DAHA ÇOK ÖRNEK Spor Basketbol oyunların planlanmasında veri analiz oldukça kullanılır Futbolda benzer eğilim görünmektedir Eğlence sektöründe Bilgisayar oyunları müşteri veri analizine büyük önem vermektedir Yapılacak filmlerin seçiminde benzer eğilim vardır Finans Viza otomatik ödeme bilgilerinin analizi ile dolandırıcılık keşfetme sistemleri geliştirmiştir Google ve Facebook Kullanıcıların bilgilerinde veri madenciliği yaparak reklam ve benzer faaliyetleri hadefliyor 24

DAHA DAHA ÇOK Tarım başkanlığı Tarım şirket ve çiftliklerin verileri Doğum, ölüm, taşınma, tedaviler, örnekler gibi verileri Enerji üretim Elektrik enerji üretimi ve tüketim, en uygun dağıtım şekli, dinamik elektrik fiyatları, arza ihtimali, müşterin sayaç kurcalama Petrol ve madencilik Geolojik veriler, işlem veriler, lojistik, mühendislik Perakendeciler Müşteri modellenmesi, önceki Target örneğine bakın Satışlar ve hava, sezon vb durumlarla ilişkileri, lojistik ve stok yönetimi 25

ORTAK DESEN... Genel biçimde olan çeşitli veri serileri Alişveriş kayıtları Üreme tarihçesi Süt/et üretimleri Çeşitli tıp test sonuçları Sosiyal mediya postları Doktora ziyaret kayıtları Haber parçaları... Saklı ilişki İş kararı 2626

ORTAK DESEN... Bir veri kümesi Analiz sonuçları 27

NASıL İstatistik Olasılık Diferensiyal Linear cebir Algoritmalar Programlama... Ben bunu bildiysem ben de yapardım... 28 28

29 BÜYÜK VERI FELSEFESI

İKI PROBLEM ÇÖZME YAKLAŞıMı Alıştığımız problem çözme Problemin mantığını anlamak Mevcut kavramlar arasındaki ilişkiler kesinleştirmek Mevcut olan faktörlerin muhtemel etkileri belirtmek Belirli müdahale olduğunda problemde değişiklikleri tahmin etmek 30

ESKI PROBLEM ÇÖZME YAKLAŞıMı (NORMAL) Problem tanımla Sonuçlar incele Bilgi topla ve fikirler yarat Fikri uygula ve test et En iyi fikri seç 31

Bugünkü iş yönetiminde bu yaklaşımı uygulamak her gün daha zor oluyor Veri miktarı artmakta Dikkate alınabilir ilişki sayısı artmakta İlişkilere mevcut olan eleman sayısı artmakta Elemanların doğası ve biçimi karmaşık ve açık değil Model ilişkisi çok, doğası belirsiz ve karmaşık 32

PROBLEM ÇÖZME Bunu nasıl yaptığımız hoşuma gitmedi Sen ne yapardın? Bunu başka bir şekilde yapabilirdik Bu şeyi tamamen unutsaydık, nasıl olur? Onu böyle yapalım 33

ALTERNATIF (MODERN) YAKLAŞıM Yeni problem çözmeye yaklaşım Belirli problemi için genel bir parametreli model oluştur Bu modelin parametreleri mevcut verilerden tahmin et Müdahalenin sonucunu bu modelden tahmin et 34

ALTERNATIF PROBLEM ÇÖZME YAKLAŞıMı (YENI) Gerçek problem ve dahil olacak değişkenler tanımla a, c, X, Y, ξ, μ,... Bir genel parametreli model seç Y a X a X a X 1 1 2 2 3 3... Parametreleri tahmin et ve model kullan Burada omalıyız 35

BÜYÜK VERI TEOREMI Veri miktarı büyük olduğunda, basit modellerin performansı ve çok karmaşık model performansı arasında büyük fark yok Büyük Veri Küçük Veri 36 Banko and Brill [2001] Scaling to Very Very Large Corpora for Natural Language Disambiguation

BÜYÜK VERI TEOREMI Büyük veri rejiminde genel basit modeller, probleme özel tasarımlanmış ve çok karmaşık olan modeller den genelde daha başarılıdır YÜK KUVVET 37

BÜYÜK VERI TEOREMINDEN UYGULAMALARıNA Teknolojinin gelişimiyle mevcut olmaya başlayan büyük miktarda olan iş yönetimi ile alakalı verilerden faydalanmak için... İş yönetimi ile ilgili soruların modellenmesi için genel makine öğrenme aletleri kullanılır ve... Bu modellerin sonuçları iş yönetim kararları vermek için kullanılır 38

BÜYÜK VERI IÇIN MAKINE ÖĞRENME ALETLERI Kümeleme Regresiyon İlişkisel kural madenciliği Sınıflandırma Bayes tahmini En yakın eşleştirme Karar ağaçları Boyut azaltma Yapay sınır ağları 39

BÜYÜK VERI FELSEFESI Bir veri kümesi Kümeleme, ilişki veri madenciliği,regresiyo n,sınıflaandırıcılar,ba yes tahmini, en yakın eşleştirme, karar ağaçları,boyut azaltma,yapay sınır ağları,... Analiz sonuçları 40

41 BÜYÜK VERI IÇERISI

BÜYÜK VERI NIN SORUNLARı Veri toplama hangi veriler kullanılacak? Veri depolama TerraByte/PettaByte veri nerede kaydedilecek? Veri transferleri TB/PB veri nasıl transfer edilecek? Veri sorgulanması TB/PB veri setleri nasıl sorgulanacak? Veri analizi ve sonuç çıkartma Karmaşık ilişkiler nasıl ortaya çıkartılacak? Sonuç bilgilendirme Karmaşık sonuçlar nasıl incelenip bilgilendirecek? 42

BÜYÜK VERI BILEŞENLERI İstatistik Veri yapıları Bilgisayar Mühendisliği İş alan uzmanlığı Büyük Veri Visualizasyon 43

BÜYÜK VERI AŞAMALARı Büyük Veri Veri Tasarımı Makine Öğrenmesi Analiz Alet: Hadoop Alet: Mahout Alet: R 44

Hacking Makine öğrenmesi Matematik ve istatistik Büyük Veri Tehlike! Normal araştırma İş alanı uzmanlığı 45 http://drewconway.com/zia/2013/3/26/the-data-science-venn-diagram

BÜYÜK VERI NIN IKI TARAFı Veri analizi/makine öğrenmesi/istatistik Verilerden kavrama yaratabilmek Büyük ölçekli bilgi işlem/bilgisayar programlama Verilerin büyük hacimleri işletebilmek Son yıllarda Google Prediction API, Microsoft Azura ML, Amazon ML, BigML gibi Big Veri bulut çözümleri bu ikisi işi oldukça kolaylaştırmıştı 46

47 DETAYLı ÖRNEKLER

BÜYÜK VERI UYGULAMALARı Problemin ne olduğunu anlamak Genel analiz algoritmasını seçmek Gereken veri bulmak Veri temizlemek ve kontrol etmek Sonuçları incelemek Büyük gerçek analiz gerçekleştirmek Küçük bir analiz başarmak 48

MEDIA KULLANıM ÖRNEĞI Problem tanımı: Bir büyük media şirketi, 1980 den itibaren belirli konuda popüler haberleri incelemek istiyor. Analizi kolaylaştırmak için, tüm haberleri benzer kümelerine ayırdırmak istiyor 49

MEDIA KULLANıM ÖRNEĞI Metin haberleri içeriklerine göre kümellenecek Genel kümelleme algoritması K- means kümelleme Veriler haber arşivlerden elde edilebilir Temel metinlerin kontrolü Elde edilen ayrı kümeleri gözden geçirir Analiz tüm haber veri tabanına uygulanır Haber metinlerin küçük alt kümesi kullanılarak analiz uygulanır 50

ALIŞVERIŞ KULLANıM ÖRNEĞI Problem tanımı Bir magaza müşterilerinin davranışı ve satın alınları anlamak istiyor. Bu bilgi müşterilerine daha iyi hizmet sağlamak için kullanılacak. Analiz magazaya, müşterilerin bir ürünle beraber başka ürünlerin satın aldığını ortaya çıkabilir; bu halde söz konusu ürüne uygulanacak kampanya ilişkili ürünlerin satışı artırıp magazanın geliri etkileyebilir 51

ALIŞVERIŞ KULLANıM ÖRNEĞI Ürün ve tarihsel satış bilgileri Genel ilişkisel öğrenme algoritması İlişkisel kural madenceliği Veriler magazanın satış kayıtlardan elde edilebilir Temel verilerin kontrolü Ortaya çıkan ilişkiler incelenir Analiz tüm satış veri tabanına uygulanır Satış verilerin küçük alt kümesi kullanılarak analiz uygulanır 52

TıP KULLANıM ÖRNEĞI Problem tanımı Bir hastane hastaların demografik özellikleri ile beraber çeşitli test sonuçları ve hastalığın başlangıcı arasında muhtemelen ilişkiyi ortaya çıkartmak istiyor Bunları kullanılarak tahmini müdahale stratejileri tasarımlamak istiyor 53

TıP KULLANıM ÖRNEĞI Genel tıp veri tabanları, hastanenin kayıtları Genel regresiyon algoritması lojistik regresyon Veriler genel tıp ve hastane kayıtlardan elde edilebilir Temel verilerin kontrolü Ortaya çıkan regresyon ilişkileri incelenir Analiz tüm veri tabanına uygulanır Verilerin küçük alt kümesi kullanılarak analiz uygulanır 54

SOSIYAL MEDIA KULLANıM ÖRNEĞI Problem tanımı Sosiyal media araştırma şirketi Facebook taki sıcak konuları analiz ederek onları aşağıdaki kategorilerine sınıflandırmak istiyor: Giyisi (ayakabı, kıyafet, saat, takı,...) Sanat (Kitaplar, film, DVD, VCD, müsik) Photokameralar Olaylar (seyahat, konser, film,...) Sağlık (güzellik, spa,...) Ev (mutfak, mobilya, bahçe,...) Teknoloji (bilgisayar, laptop, tablet, smartphone,...) 55

SOSIYAL MEDIA KULLANıM ÖRNEĞI Veri Facebook API yardımıyla elde edilebilir Genel sınıflandırma algoritması Naive Bayes Veriler internet veri setlerinden ve Facebooktan elde edilebilir Temel verilerin kontrolü Ortaya çıkan konu algılamalar incelenir Analiz tüm veri tabanına uygulanır Verilerin küçük alt kümesi kullanılarak analiz uygulanır 56

57 ALETLER

GOOGLE PREDICTION API 58

DEMO 59

AZURA ML 60

AMAZON ML 61

REAL STATISTICS EXCEL İleri istatistik MS Excel inize 62

DAHA Open Source kaynaklar: Hadoop, Apache Mahout, MapReduce, TensorFlow Google, H2O on Hadoop, Spark MLib, Weka-Java, SHOGUN, WSO2 Data Analytics, DARWIN, scikit, FAIR Facebook, vb. Daha ileri ve düşük seviyeli ARGE için 63

BÜYÜK VERI UYGULAMA TARIFI 1. Mevcut iş sorunları ve veri kaynakları inceleyip özetleyin 2. Uygun bir sorun modelleme problemi olarak tanımlayın ve mevcut veri kaynaklarından ilgili olabilecek kaynakları belirtin 3. Sorunu ve veri bağlayacak bir genel makine öğrenme modeli ve analiz algoritmasını seçin 4. Gereken veri toplayın ve kalite açısından inceleyin, gerekirse --- veri temizleyin 5. İstediğiniz analiz işleminin adımları seçip, küçük bir denetleme veri kümesi üzerinde uygulayın 6. Analizinizi tüm verilerinize uygulayın 7. Analiz sonuçları uygun görsel şekilde gösterin ve orijinal soruna dair sonuçlar çıkartın 64

SOSIYAL MEDIA ÖRNEĞI Problem ve veri kaynak seçimi (1.-2.) Model ve analiz algoritma seçimi (3.) Veri toplama ve temizlenmesi (4.) Veri Facebook API yardımıyla elde edilebilir Genel sınıflandırma algoritması Naive Bayes Veriler internet veri setlerinden ve Facebooktan elde edilebilir Temel verilerin kontrolü Ortaya çıkan konu algılamalar incelenir Analiz tüm veri tabanına uygulanır Verilerin küçük alt kümesi kullanılarak analiz uygulanır Sonuçların inlenmesi (7.) Analizin uygulanması (6.) Analizin denetlenmesi (5.) 65

BÜYÜK VERI UYGULAMA TARIFI 1. Mevcut iş sorunları ve veri kaynakları inceleyip özetleyin 2. Uygun bir sorun modelleme problemi olarak tanımlayın ve mevcut veri kaynaklarından ilgili olabilecek kaynakları belirtin 3. Sorunu ve veri bağlayacak bir genel makine öğrenme modeli ve analiz algoritmasını seçin 4. Gereken veri toplayın ve kalite açısından inceleyin, gerekirse --- veri temizleyin 5. İstediğiniz analiz işleminin adımları seçip, küçük bir denetleme veri kümesi üzerinde uygulayın 6. Analizinizi tüm verilerinize uygulayın 7. Analiz sonuçları uygun görsel şekilde gösterin ve orijinal soruna dair sonuçlar çıkartın 66

ÖDEV/DÖNEM PROJE ÖN-ÇALıŞMASı Öbür derse kadar lütfen, iş alanınızdan bir problemi seçin Mesleki alanınızdan Kolay ulaşılabilir veri (elektronik halde) İlginç bir soru 10 dakika geçmeyen, derste sunulmak üzere bir tanıtım sunuşu hazırlayın 67

ÖDEV/DÖNEM PROJE ÖN-ÇALıŞMASı Dönem projesi Problemin tanımı Modelin tanımı Veri elde edilmesi Bulut araçları yardımıyla analiz edilmesi Sonuçların incelenmesi 68