BLM 442: Büyük Veri Analizine Giriş

Benzer belgeler
Data Science Boot Camp

Ders Adı Kodu Yarıyılı T+U Saati Ulusal Kredisi AKTS

Maltepe Üniversitesi Endüstri Mühendisliği Bölümü Veri Tabanı Yönetimi (END 210)

Büyük, Dağıtık, Veri Yoğunluklu Uygulamalarda Programlama Paradigmaları

Veri Bilim - Yapay Öğrenme Yaz Okulu, 2017 Matematiksel Temeller ve Vaka Çalışmaları

AKILLI TATIL PLANLAMA SISTEMI

Büyük Veri ve Endüstri Mühendisliği

Büyük Veri de Türkiye den Uygulama Örnekleri Dr. Güven Fidan

Çok fazla bilgiden gizli kalmış örüntüleri ortaya çıkarma sürecine Veri Madenciliği denir.

Büyük Veri Analitiği (Big Data Analytics)

DERS SEÇİM KILAVUZU. Sınıf Dönemi Kodu Adı Sınıf Dönemi Kodu Adı. Nesne Yönelimli Programlama. Yazılım Tasarımı ve Mimarisi

İSTANBUL RUMELİ ÜNİVERSİTESİ MESLEK YÜKSEKOKULU BİLGİSAYAR PROGRAMCILIĞI 1.SINIF 2.YARIYIL İNTERNET PROGRAMCILIĞI II DERS İZLENCESİ

Maltepe Üniversitesi Bilgisayar Mühendisliği Bölümü Veri Tabanı ve Yönetimi (BİL 301)

Microsoft SQL Server Sorgulama

TOBB EKONOMİ VE TEKNOLOJİ ÜNİVERSİTESİ MÜHENDİSLİK FAKÜLTESİ BİLGİSAYAR MÜHENDİSLİĞİ BÖLÜMÜ I. SINIF EĞİTİM - ÖĞRETİM PROGRAMI

SPSS (Statistical Package for Social Sciences)

AOSB 2017 EĞİTİM PROGRAMI

BLM 4811 MESLEKİ TERMİNOLOJİ II Salı , D-109 Dr. Göksel Biricik

BÜYÜK VERI UYGULAMALARı DERS 7. Doç. Dr. Yuriy Mishchenko

Hafta 01 - Giriş. BGM Siber Güvenlik için Makine Öğrenme Yöntemleri. Yüksek Lisans Programı. Dr. Ferhat Özgür Çatak

Pandas. Prof.Dr. Bahadır AKTUĞ JFM212 Python ile Mühendislik Uygulamaları. *Kaynakça bölümünde verilen kaynaklardan derlenmiştir.

Ders Adı Kodu Yarıyılı T+U Saati Ulusal Kredisi AKTS

BEDEN EĞİTİMİ I: Haftalık ders 1 saattir (T-0 ) (U-l) (K-0).

GALATASARAY ÜNİVERSİTESİ

NoSql ve MongoDB. Saygın Topatan

AST415 Astronomide Sayısal Çözümleme - I. 0. Derse Giriş

EĞİTİM-ÖĞRETİM YILI MÜHENDİSLİK FAKÜLTESİ BİLGİSAYAR MÜHENDİSLİĞİ (İNGİLİZCE) BÖLÜMÜ DERS PROGRAMINDA YAPILAN DEĞİŞİKLİKLER

Veri Madenciliği. Yrd. Doç. Dr. Mustafa Gökçe Baydoğan. blog.mustafabaydogan.

MATEMATİK BÖLÜMÜ BÖLÜM KODU:3201

Her bölüm için kısa bazı girişler yapılacak ve bölüm içerisinde anlatılacak olan konuların genel başlıkları belirtilecektir.

MÜFREDAT DERS LİSTESİ

R ile Programlamaya Giriş ve Uygulamalar

GALATASARAY ÜNİVERSİTESİ

BİLGİSAYAR MÜHENDİSLİĞİ BÖLÜM BAŞKANLIĞI DERS TANITIM BİLGİLERİ

MAPINFO PRO TEMEL VE İLERİ SEVİYE EĞİTİM İÇERİĞİ

Open Source Coding: Python

ELIF KIOTZEOGLOU RESUL MURAD MERT PACOLARI

Teori/Saat Uygulama/Saat Laboratuar/Saat AKTS BLM Dersin Amacı

Teori/Saat Uygulama/Saat Laboratuar/Saat AKTS BLM Dersin Amacı

İş Zekası için Dört-Katmanlı Veri Modellemesi Gerçekleştirimi. Harun Gökçe EG Yazılım, TOBB ETÜ

3. sınıf. Bilgisayarla kataloglamanın doğuşu gelişimi ve bugünkü durum ele alınmaktadır. Bu derste

Sınırsız Analitik. MicroStrategy Analitik Platform

SPSS & AKILLI KURUMLAR. Dr. Tülin GÜZEL ÖZDEMİR SPSS Türkiye Genel Müdür tguzel@spss.com.tr

DERS TANITIM BİLGİLERİ. Dersin Adı Kodu Yarıyıl Teori (saat/hafta) Laboratuar (saat/hafta) Uygulama (saat/hafta) AKTS. Yerel Kredi

<Insert Picture Here> Primavera P6 Enterprise PPM

VERİ TABANI UYGULAMALARI

T.C. ERCİYES ÜNİVERSİTESİ MÜHENDİSLİK FAKÜLTESİ BİLGİSAYAR MÜHENDİSLİĞİ BÖLÜMÜ EĞİTİM ÖĞRETİM YILI DERS KATALOĞU

IOT NEDİR? Bölüm 1. Internet of Things ekosistemi altında donanım, programlama, veri tabanı, veri analizi gibi alt yapılar yer almaktadır.

İleri Veritabanları (COMPE 502) Ders Detayları

SELÇUK ÜNİVERSİTESİ SEYDİŞEHİR MESLEK YÜKSEKOKULU BİLGİSAYAR TEKNOLOJİLERİ BÖLÜMÜ BİLGİSAYAR PROGRAMCILIĞI PROGRAMI DERS DAĞILIM ÇİZELGESİ (2010)

Ders İ zlencesi. Ders Başlığı. Dersin amacı. Önceden sahip olunması gereken beceri ve bilgiler. Önceden alınması gereken ders veya dersler

D.Saati AKTS Zorunlu Ders (Z) Meslek Dersi (M) Seçmeli Ders (S) TOPLAM

1. Oracle Data Miner 11g Release 2 Kurulumu Aşamaları

We are looking for Software Engineer who will work in Machine Learning and Artificial Intelligence and wants to make the dream a reality.

DOKUZ EYLÜL ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ MÜDÜRLÜĞÜ DERS/MODÜL/BLOK TANITIM FORMU. Dersin Kodu: CSE 6003

T.C. MALTEPE ÜNĠVERSĠTESĠ MÜHENDĠSLĠK FAKÜLTESĠ ENDÜSTRĠ MÜHENDĠSLĠĞĠ BÖLÜMÜ LĠSANS PROGRAMI Güz Yarıyılı

DOKUZ EYLÜL ÜNİVERSİTESİ MÜHENDİSLİK FAKÜLTESİ DEKANLIĞI DERS/MODÜL/BLOK TANITIM FORMU. Dersin Kodu: CME 3006

BÜYÜK VERİ. Abdulkadir ŞAN Proje Yöneticisi 7/1/2014 VERİ SİSTEMLERİ. Anayurt Güvenliği Md. Yrd. Metin Madenciliği ve Kaynaştırma Sistemleri

Giriş BLM 105 Programlama I Toplam 30 Toplam MUH 204 Elektronik ve Uygulamaları

Ders Adı Kodu Yarıyılı T+U Saati Ulusal Kredisi AKTS

Büyük veriye genel bakış, mimari ve çözümler

Hafta 1 Sayısal Görüntü İşlemeye Giriş ve Temel Adımlar

Bilgisayar ve Bilgi Sistemleri (COMPE 107) Ders Detayları

MÜHENDİSLİK FAKÜLTESİ / ENSTİTÜSÜ / YÜKSEKOKULU BİLİŞİM SİSTEMLERİ MÜHENDİSLİĞİ BÖLÜMÜ /ABD LİSANS PROGRAMI - 2 ( yılı öncesinde birinci

Veri Tabanı-I 1.Hafta

VERİ TABANI YÖNETİM SİSTEMLERİ

TÜRKSAT UYDU HABERLEŞME KABLO TV VE İŞLETME A.Ş. İŞÇİ STATÜSÜNDE PERSONEL ALIM İLANI (Bilişim Hizmetleri)

İş Analitiği'ne Netezza ile Yüksek Performans Katın

DERS BİLGİLERİ Ders Kodu Yarıyıl T+U Saat Kredi AKTS Çok Değişkenli İstatistik EKO428 Bahar Ön Koşul Dersin Dili

Yüksek Performanslı Veri Ambarı ve Analitik

DOKUZ EYLÜL ÜNİVERSİTESİ MÜHENDİSLİK FAKÜLTESİ DEKANLIĞI DERS/MODÜL/BLOK TANITIM FORMU. Dersin Kodu: CME 4410

Kepware Veritabanı Ürünleri. Teknolojiye Genel Bir Bakış

Veri Madenciliği - Giriş. Erdem Alparslan

Önsöz. İçindekiler Algoritma Algoritma Nasıl Hazırlanır? Yazılımda Algoritma Mantığı Nedir? 1.2. Algoritma Örnekleri ve Sorular

Bilgisayar Programlama (COMPE 102) Ders Detayları

Turquaz. Açık kodlu muhasebe yazılımı Turquaz Proje Grubu

Bilgisayar Programlama (COMPE 102) Ders Detayları

BÖLÜM 8 BİLGİSAYAR UYGULAMALARI - 2

Power BI. Neler Öğreneceksiniz?

ISCOM Kurumsal ISCOM KURUMSAL BİLİŞİM TEKNOLOJİLERİ EĞİTİM KATALOĞU

1. YIL 1. DÖNEM DERS KODU DERS ADI T+U+L KREDİ AKTS. Atatürk İlkeleri ve İnkılap Tarihi I

Mantıksal Kontrol ve Döngü Komutları

adresinde görüldüğü üzere birçok ülkedeki kaynaktan indirme işlemi yapılabilir.

ADNAN MENDERES ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ MATEMATİK ANABİLİM DALI MATEMATİK PROGRAMI DERS LİSTESİ

DOKUZ EYLÜL ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ MÜDÜRLÜĞÜ DERS/MODÜL/BLOK TANITIM FORMU. Dersin Orjinal Adı: Pattern Recognition

Maltepe Üniversitesi Bilgisayar Mühendisliği Bölümü Internet ve Bilgi Teknolojileri (BİL 309) Dersi

DENİZ HARP OKULU BİLGİSAYAR MÜHENDİSLİĞİ BÖLÜM BAŞKANLIĞI DERS TANITIM BİLGİLERİ

DOKUZ EYLÜL ÜNİVERSİTESİ MÜHENDİSLİK FAKÜLTESİ DEKANLIĞI DERS/MODÜL/BLOK TANITIM FORMU. Dersin Kodu: CME 3001

DENİZ HARP OKULU TEMEL BİLİMLER BÖLÜM BAŞKANLIĞI DERS TANITIM BİLGİLERİ

VERİ MADENCİLİĞİ VE SOSYAL AĞ ANALİZİ ARAŞTIRMA LABORATUVARI

10 yıllık sektör deneyimimiz ve yazılım teknolojileri alanında uzmanlaşmış eğitmen kadromuzla, size, ekibinize ve yazılım kültürünüze değer katacak

Veritabanı Yönetimi Bilgisayarların. Keşfi Hedefler. Veritabanı, Veri ve Bilgi. Veritabanı, Veri ve Bilgi. Veritabanı, Veri ve Bilgi

Veritabanı Yönetim Sistemleri (Veritabanı Kavramı) Veritabanı Sistemleri

Dersin Adı- Kodu: Eğitimde Bilişim Teknolojileri Programın Adı: Ortak Ders Eğitim ve Öğretim Yöntemleri Yarıyıl. Diğer Toplam Çalışması

TURGUT ÖZAL ÜNİVERSİTESİ MÜHENDİSLİK FAKÜLTESİ BİLGİSAYAR MÜHENDİSLİĞİ. DERS TANITIM ve UYGULAMA BİLGİLERİ. Ders. Yarıyılı

Veritabanı Tasarım ve Yönetimi (COMPE 341) Ders Detayları

Yapay Sinir Ağları ve Yüksek Enerji Fiziği Uygulamaları

Her Yönüyle SQL Enjeksiyonu. OWASP-Türkiye Bünyamin Demir

Değerlendirme Soruları 140. Şerit Kullanımı 124 Şerit Sekmeleri 124 Şeridi Gizleme 125 Eklentiler 125

DOKUZ EYLÜL ÜNİVERSİTESİ MÜHENDİSLİK FAKÜLTESİ DEKANLIĞI DERS/MODÜL/BLOK TANITIM FORMU. Dersin Kodu: CME 4423

Transkript:

BLM 442: Büyük Veri Analizine Giriş Dr. Süleyman Eken Kocaeli Üniversitesi Bilgisayar Mühendisliği 2018-2019 Bahar

Sunum Planı Ders ne ile ilgili? Dersi kimler almalı? & Kimler almamalı? Keşif çalışmları, karşılıklı geri bildirimler ve sınavlar Ders takibi ve bir takım bilgiler Ders konuları 2

Ders ne ile ilgilidir? Büyük veri araç ve tekniklerinin temellerini öğrenmek isteyen ve öğrendiklerini kendi çalışma alanlarına (bitirme, iş vs) uygulayan lisans öğrencilerine yöneliktir. Bilim, teknoloji, işletme, tıp, politika ve tümünü içine alan bu alanlardaki en büyük keşif ve kararlarının çoğu, büyük veri setlerini analiz etme temeline dayanmaktadır. Bu ders büyük veri analizine geniş bir bakış açısı sağlar. Veritabanlarını içeren veri analizi teknikleri; makine öğrenmesi ve veri görselleştirme; elektronik tablolar, Tableau, ilişkisel veritabanları ve SQL ve Python içeren veri analiz araçları; lineer cebir, olasılık ve istatistik temelleri; Apache Hadoop tasarım kalıpları; Amazon büyük veri platform ve araçları; Apache Spark ile akan veri analizi; ağ analizi, çizge veritabanları üzerinde veri analizi; yapılandırılmamış verilere giriş ve derin öğrenmeye giriş. Ders kapsamındaki araçlar uygulamalı anlatılacak olup yapacağınız keşiflere yol gösterici olacaktır. Ön koşullar: Orta seviye/üzeri Python veya Java bilgisinin olması önerilir. Keşif aktiviteleri Python, Scala, Java veya R'da yapılmalıdır. 3

Ders ne ile ilgilidir? Büyük veri araç ve tekniklerinin temellerini öğrenmek isteyen ve öğrendiklerini kendi çalışma alanlarına (bitirme, iş vs) uygulayan lisans öğrencilerine yöneliktir. Bilim, teknoloji, işletme, tıp, politika ve tümünü içine alan bu alanlardaki en büyük keşif ve kararlarının çoğu, büyük veri setlerini analiz etme temeline dayanmaktadır. Bu ders büyük veri analizine geniş bir bakış açısı sağlar. Veritabanlarını içeren veri analizi teknikleri; makine öğrenmesi ve veri görselleştirme; elektronik tablolar, Tableau, ilişkisel veritabanları ve SQL ve Python içeren veri analiz araçları; lineer cebir, olasılık ve istatistik temelleri; Apache Hadoop tasarım kalıpları; Amazon büyük veri platform ve araçları; Apache Spark ile akan veri analizi; ağ analizi, çizge veritabanları üzerinde veri analizi; yapılandırılmamış verilere giriş ve derin öğrenmeye giriş. Ders kapsamındaki araçlar uygulamalı anlatılacak olup yapacağınız keşiflere yol gösterici olacaktır. Ön koşullar: Orta seviye/üzeri Python veya Java bilgisinin olması önerilir. Keşif aktiviteleri Python, Scala, Java veya R'da yapılmalıdır. 4

Dersi kimler almalı? Büyük veri araç ve tekniklerinin temellerini öğrenmek isteyen ve öğrendiklerini kendi çalışma alanlarına (bitirme, iş vs) uygulayan lisans öğrencilerine yöneliktir. Bilim, teknoloji, işletme, tıp, politika ve tümünü içine alan bu alanlardaki en büyük keşif ve kararlarının çoğu, büyük veri setlerini analiz etme temeline dayanmaktadır. Bu ders büyük veri analizine geniş bir bakış açısı sağlar. Veritabanlarını içeren veri analizi teknikleri; makine öğrenmesi ve veri görselleştirme; elektronik tablolar, Tableau, ilişkisel veritabanları ve SQL ve Python içeren veri analiz araçları; lineer cebir, olasılık ve istatistik temelleri; Apache Hadoop tasarım kalıpları; Amazon büyük veri platform ve araçları; Apache Spark ile akan veri analizi; ağ analizi, çizge veritabanları üzerinde veri analizi; yapılandırılmamış verilere giriş ve derin öğrenmeye giriş. Ders kapsamındaki araçlar uygulamalı anlatılacak olup yapacağınız keşiflere yol gösterici olacaktır. Ön koşullar: Orta seviye/üzeri Python veya Java bilgisinin olması önerilir. Keşif aktiviteleri Python, Scala, Java veya R'da yapılmalıdır. 5

Dersi kimler almamalı? Yanlış yerde olduğunuzu düşünüyor ve tüm bunlara ne gerek var diyorsanız danışmanınıza dersi hemen bırakmayı talep ediniz. 6

Keşif aktiviteleri & Geri bildirimler Konular Hafta Teslim Seçilecek spreadsheet üzerinde birtakım problemler (analiz, gorsellestime iceren) gerçeklenecek (csv, excel vs) 1 Mart 8 Mart SQL Uygulamaları 8 Mart 15 Mart Python temeller ve veri yapıları üzerine 15 Mart 22 Mart pandas & plotlib 22 Mart 29 Mart scikit-learn 12 Nisan 26 Nisan Apache Hadoop Tasarım kalıbı uygulaması 26 Nisan 3 Mayıs Akan veri üzerine uygulama 10 Mayıs 17 Mayıs Neo4j uygulama 17 Mayıs 24 Mayıs Konular Hafta Teslim Tableau kullanarak seçilecek olan bir spreadsheet üzerinde veri analizi ve görselleştirme İnteraktif CV hazırlama 1 Mart 22 Mart scikit-learn uygulaması 12 Nisan 7 Haziran 7

Sınavlar Sınav Hafta Şekli Vize 13-21 Nisan Klasik Final 10-18 Haziran Klasik 8

Notlandırma %28 (ara sınav), %16 (KAs), %16 (KGBs), %40 (final). Ara sınav ve final sınavları; öğrenilen programlama dili/teknolojiyi ilgilendiren sorular, kod/pseuco-code yazımı üzerine olacaktır. Her KA'nın genel ortalamaya katkısı: 2 puan Her KGB'nin genel ortalamaya katkısı: 8 puan Geç teslim politikası: 1 gün %10, 2 gün %30, geri kalan günler dikkate alınmaz. 9

Ders Kaynakları Tableau Your Data! : Fast and Easy Visual Analysis with Tableau Software, 2nd Edition, Dan Murray, January 2016 Python for Data Analysis, 2nd Edition Data Wrangling with Pandas, NumPy, and IPython, William McKinney, 2017 Learning scikit-learn: Machine Learning in Python November 25, 2013, Raúl Garreta, Guillermo Moncecchi Building Machine Learning Systems with Python, Willi Richert, Luis Pedro Coelho, 2013 MapReduce Design Patterns: Building Effective Algorithms and Analytics for Hadoop and Other Systems, 2nd Edition, Donald Miner, Adam Shook, February 25, 2017 Learning Spark : Lightning-Fast Big Data Analysis, Holden Karau, Andy Kowinski, Mark Hamstra, Matei Zaharia, 01 Nov 2015 Pro Spark Streaming: The Zen of Real-Time Analytics Using Apache Spark, 1st ed. Edition, Zubair Nabi, June 14, 2016 Graph Databases, Second Edition, Ian Robinson, Jim Webber, and Emil Eifrem, June 2015 10

Haberleşme kanallarımız Genelde Görüntü İşleme laboratuvarındayım. Mail yoluyla bir gün öncesinden randevu (suleyman.eken@kocaeli.edu.tr) Web sitesi: https://suleymaneken.github.io/teaching/ Piazza Duyurular Sorular ve Cevaplar (özel ve genel) Tartışma class link: piazza.com/kocaeli_university/spring2019/blm442/home code: blm442 11

İntihal Netten alınacak kısmi kod parçaları önceden kod içinde/raporda belirtilmek ve soru sorulduğunda cevaplanması durumunda sıkıntı çıkarmayacaktır. (i) Internet kaynağını belirtmeyen/açıklayamayan/üzerinde geliştirme yapmayan veya (ii) birbirleriyle benzer/aynı çalışma teslim edenlerin aktiviteleri sıfır üzerinden değerlendirilecektir. 12

13 Konular

Hafta 1: Büyük veri analizine genel bakış Dağıtık sistemlere kısa temas Büyük veri nedir? Büyük veri ile neler yapılabilir? Büyük veri nasıl işlenir? Nereden başlamalı? Sertifika programları, iş ilanları vs 14

Hafta 2: Elektronik Tablolar (Spreadsheets) Kullanarak Veri Analizi ve Görselleştirme Elektronik tablo oluşturma ve veri ile doldurma Kolay görüntüleme için veri biçimlendirme Formüllerle veri üzerinde işlem (toplama, ort, filtreleme, fonksiyonlar vs) Veriyi tutma, paylaşma, modifiye etme vs Google E-Tablolar'daki grafik türleri 15

Hafta 2: Tableau kullanarak gelişmiş görselleştirme Tableau Desktop and Tableau Reader Popüler bağımsız veri görselleştirme ve analitik aracı Elektronik tablolara benzer görselleştirme türleri (daha sezgisel ve kullanımı daha kolay) Etkileşimli görselleştirmeler oluşturma yeteneği Etkileşimli görselleştirme ve yayınlayabilme Grafik türleri İnteraktif kontrol paneli (dashboard) 16

Hafta 3: İlişkisel veritabanları ve temel SQL Oracle, Microsoft SQL Server, IBM DB2, vd (ticari) MySQL, SQLite, PostgreSQL, vd (açık kaynak) Tablo & Elektronik tablolar Veri oluşturma ve yükleme Sorgular, joins, veri modifiyesi ipython-sql: Jupyter Notebook vasıtasıyla İlişkisel veritabanına erişim 17

Hafta 4: Pyhton'a giriş, built-in veri yapıları, built-in fonksiyonlar Modüller, aritmetik, fonksiyonlar Strings, lists, tuples, dictionaries, sets veri yapıları Koşul ifadeler ve döngüler Sıralama, list comprehensions, generators, iterators Nesne yönelimli programlama Functional tools, enumerate, zip vs. 18

Hafta 5: pandas Pandas veri analizi için bir Python paketidir. Veri setlerinin manipülasyonunu ve analizini basitleştiren built-in veri yapıları sağlar. Series, DataFrame Satır, sütun seçme ve indeksleme, groupby, merge Dosyadan okuma, dosyaya yazma Zaman serileri analizi 19

Hafta 5: Görselleştirme Matplotlib: 2D görselleştirme aracı Bar, line charts Scatter plots Seaborn: istatistiksel veri görselleştirme aracı Tematik haritalar Folium, Basemap, Cartopy, Iris, Diğer görselleştirme araçları Bokeh (interaktif plots), plotly, 20

Hafta 6: Lineer Cebir, İstatistik, Olasık Temeller Lineer Cebir Vektörler, Matrisler, SciPy İstatitstik mean, varyans -veri saçılımıstandart sapma, min, max, median, mode, korelasyon matrisi vs. Olasılık Koşullu olasılık, bayes teoremi, normal dağılım, merkezi limit teoremi vs. 21

Büyük veri araçları ve teknikleri Temel veri manipülasyon ve analizi Iyi tanımlanmış hesaplamalar yaptırma veya iyi tanımlanmış sorular sorma (queries) Veri madenciliği Veri içindeki desenleri (patterns) arama Makine öğrenmesi Veriyi kullanarak model oluşturma ve tahmin yapma Veri görselleştirme Verinin grafiksel yorumu Veri toplama ve hazırlama 22

Makine öğrenmesi Supervised machine learning Set of labeled examples to learn from: training data Develop model from training data Use model to make predictions about new data Unsupervised machine learning Unlabeled data, look for patterns or structure (similar to data mining) Reinforcement learning Improve model as new data arrives Semi-supervised learning Labeled + unlabeled Active learning Semi-supervised, ask user for labels 23

Hafta 7: Regresyon Supervised Training data, each example: Set of predictor values - independent variables Numeric output value - dependent variable Model is function from predictors to output Use model to predict output value for new predictor values Example Predictors: mother height, father height, current age Output: height 24

Hafta 7: Diğer ML tipleri Classification Like regression except output values are labels or categories Example Predictor values: age, gender, income, profession Output value: buyer, non-buyer Clustering Unsupervised Group data into sets of items similar to each other Example -group customers based on spending patterns 25

Hafta 8: Python Kullanarak Makine Öğrenmesi Scikit-learn açık kaynak kodlu bir Python kütüphanesidir. Bir dizi makine öğrenmesi, ön işleme, çapraz doğrulama ve görselleştirme algoritmaları sunar. Ön işleme Standardization, Normalization, Binarization, Encoding Categorical Features, Imputing Missing Values, and etc. Model oluşturma Supervised Learning Estimators (LR, SVM, NB, KNN, and etc.) Unsupervised Learning Estimators (PCA, K-mean, and etc.s) Model oturtma (fitting) ve tahmin Performans değerlendirme Sınıflandırma: doğruluk, karışıklık matrisi, kesinlik, f1-score vs. Regresyon metrics: MSE, MAE, and etc. Kümeleme: Homogeneity, V-measure, and etc. Model ayarlama (tuning) 26

Hafta 9: Apache Hadoop Tasarım Kalıpları Summarization Patterns Numerical Summarization Inverted Index Summarization Counting with Counters Filtering Patterns Bloom Filtering Distinct Data Organization Patterns Partitioning Join Patterns Reduce Side Join Replicated Join Cartesian Product 27

Hafta 10: Amazon Big Data Platforms and Services Misafir Katılımcı (Amazon) 28

Hafta 11: Apache Spark, Spark ML, Akan Veri Analizi Apache Spark Nedir? RDD, dönüşüm ve aksiyonlar, RDD sürekliliği Spark Uygulama Geliştirme, Shell'den çalıştırma Demo 1: Scala, Java (wordcount) Spark Kütüphaneleri Spark SQL, MLlib, Streaming, GraphX Demo 2: Streaming uygulama (NetworkWordCount) Big Learning Spark ML paketi, algoritmaları, pipeline yapısı, Demo 3: Sınıflandırma (Naive Bayes) 29

Hafta 12: NoSQL Veritabanları, Ağ Analizi, Graf Veritabanları, Neo4j NoSQL Veritabanları çeşitleri Graf/çizge veritabanları nedir, nerelerde kullanılır? Bir çizge veritabanı: Neo4j Ağ analizi, çizge özellikleri Betweennes, closeness centrality Eigenvector centrality Directed graphs and PageRank 30

Hafta 13: Yapısal olmayan veri analizi, metin analizi Yapısal olmayan veri: text, görüntü, video vs Küçük tweets Orta e-postalar, ürün yorumu dokümanları Büyük belgeler Çok büyük kitaplar, corpus vs. Sorgulamaya yönelik: Metin analitiği, Metin madenciliği Anlamaya yönelik: Doğal dil işleme/anlama Arama motorları, Spam sınıflandırma, Doküman özetleme, Dil çevirileri, Sesten metne veya metinden sese dönüşüm vs. Görüntü analizi Spesifikasyonlara göre görüntüleri sıralama (ranking), görüntü geri getirimi Sınıflandırma, etiketleme vs. Video = görüntü dizisi + ses akışı 31

32 Hafta 14: Evrişimsel Sinir Ağları ve Tensor Flow