Mesleki Terminoloji II Veri Madenciliği

Benzer belgeler
Çok fazla bilgiden gizli kalmış örüntüleri ortaya çıkarma sürecine Veri Madenciliği denir.

Web Madenciliği (Web Mining)

Veri ve Metin Madenciliği

Web Madenciliği (Web Mining)

VERİ MADENCİLİĞİNE BAKIŞ

Veri ve Metin Madenciliği. Zehra

Nesnelerin İnternetinde Veri Analizi

Konular. VERİ MADENCİLİĞİ Giriş. Problem Tanımı. Veri Madenciliği: Tarihçe. Veri Madenciliği Nedir? Bilgi Keşfi

VERİ MADENCİLİĞİ (Veri Ön İşleme-2) Yrd.Doç.Dr. Kadriye ERGÜN

VERI TABANLARıNDA BILGI KEŞFI

VERİ MADENCİLİĞİ (Kümeleme) Yrd.Doç.Dr. Kadriye ERGÜN

VERİ MADENCİLİĞİ (Veri Önişleme-1) Yrd.Doç.Dr. Kadriye ERGÜN

YZM 3217 YAPAY ZEKA DERS#10: KÜMELEME

Kümeleme Algoritmaları. Tahir Emre KALAYCI

Veri Madenciliği. Bölüm 1. Giriş. Doç. Dr. Suat Özdemir. w3.gazi.edu.tr/~suatozdemir

VERİ MADENCİLİĞİ önemsiz olmayan, gizli, önceden bilinmeyen, potansiyel olarak kullanışlı

Büyük Veri ve Endüstri Mühendisliği

Veri Madenciliği. Yrd. Doç. Dr. Mustafa Gökçe Baydoğan. blog.mustafabaydogan.

Bölüm 1. Giriş. Öğretim üyesi: Doç. Dr. Suat Özdemir E-posta: Websayfası:

127 - Twoing Algoritması ile Sınıflandırma Kalp Hastalığı Uygulaması MEHMET AKİF ERSOY ÜNİVERSİTESİ İLHAN UYSAL MEHMET BİLEN SAMİ ULUKUŞ

Makine Öğrenmesi İle Duygu Analizinde Veri Seti Performansı

VERİ KAYNAKLARI. Bilgi sisteminin öğelerinden biride veri

BAŞAK ÇOBAN MERVE SARITAŞ AZİME AKÇAÖZ BÜŞRA AYDEMİR

Veri Tabanı, Veri Ambarı, Veri Madenciliği. Veri Madenciliği Uygulama Alanları

bitık MOBİL TİCARET UYGULAMASI ABDULLAH ÇİÇEKCİ

Büyük Veri İçin İstatistiksel Öğrenme (Statistical Learning for Big Data)

Makine Öğrenmesi 2. hafta

Web Madenciliği (Web Mining)

VERİ MADENCİLİĞİ F A T M A İ L H A N

VERİ TABANI UYGULAMALARI

VERİ MADENCİLİĞİ Metin Madenciliği

Uzaktan Algılama Uygulamaları

VERİ MADENCİLİĞİ (Birliktelik Kuralları) Yrd.Doç.Dr. Kadriye ERGÜN

HAM VERİNİN NİTELİKLİ BİLGİYE DÖNÜŞTÜRÜLME SÜRECİ

Kümeler arası. Küme içi. uzaklıklar. maksimize edilir. minimize edilir

Öğr.Gör.İnan ÜNAL Tunceli Üniversitesi Bilgisayar Mühendisliği Bölümü

Veritabanı Yönetimi Bilgisayarların. Keşfi Hedefler. Veritabanı, Veri ve Bilgi. Veritabanı, Veri ve Bilgi. Veritabanı, Veri ve Bilgi

VERİ MADENCİLİĞİ (Karar Ağaçları ile Sınıflandırma) Yrd.Doç.Dr. Kadriye ERGÜN

VERİ MADENCİLİĞİ VE SOSYAL AĞ ANALİZİ ARAŞTIRMA LABORATUVARI

Fonksiyon Optimizasyonunda Genetik Algoritmalar

APRIORI ALGORİTMASI İLE ÖĞRENCİ BAŞARISI ANALİZİ

Veritabanı, Veri Madenciliği, Veri Ambarı, Veri Pazarı

YÖNETİM BİLGİ SİSTEMLERİ İŞLETME ZEKASININ TEMELLERİ VERİTABANI VE BİLGİ YÖNETİMİ

Microsoft SQL Server 2008 Oracle Mysql (Ücretsiz) (Uygulamalarımızda bunu kullanacağız) Access

KABA KÜME TEORİSİ (Rough Set Theory) Dr. Sedat TELÇEKEN

İSTATİSTİKTE TEMEL KAVRAMLAR

HAM VERİNİN NİTELİKLİ BİLGİYE DÖNÜŞTÜRÜLME SÜRECİ

İş Analitiği'ne Netezza ile Yüksek Performans Katın

Tedarik Zinciri Yönetiminde Yapay Zeka Teknikler

Yapı Kredi Bankası Ar-Ge Çalışmaları Araştırma, Vizyon ve Uygulama. Eğitmen: Onur AĞIN

Apriori Algoritması. Konu İçeriği. Giriş. Tarihçesi. Apriori Nedir? Örnekler. Algoritma. Açıklama. Weka İle Kullanımı. Kaynakça.

PARALEL VERİ MADENCİLİĞİ ALGORİTMALARI. BAŞARIM 09, Nisan 2009, ODTÜ, Ankara

K En Yakın Komşu Methodu (KNearest Neighborhood)

Veritabanı Yönetim Sistemleri, 2. basım Zehra ALAKOÇ BURMA, 2009, Seçkin Yayıncılık

Veri Madenciliği - Giriş. Erdem Alparslan

DOKUZ EYLÜL ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ MÜDÜRLÜĞÜ DERS/MODÜL/BLOK TANITIM FORMU. Dersin Kodu: CSE 5072

Bilgiyi Keşfedin! Özelleştirme, Eklenti ve Veri Entegrasyonu Kurumsal Seviyede Yönetim ve Performans

Çok-öbekli Veri için Aradeğerlemeci Ayrışım

İleri Veri Madenciliği (COMPE 506) Ders Detayları

TEMEL İSTATİSTİKİ KAVRAMLAR YRD. DOÇ. DR. İBRAHİM ÇÜTCÜ

Veri Madenciliği Projelerinin Yaşam Döngüsü - 1

K-En Yakın Komşu Algoritması Parametrelerinin Sınıflandırma Performansı Üzerine Etkisinin İncelenmesi

Web Madenciliği (Web Mining)

Ankara Üniversitesi, SBF İstatistik 2 Ders Notları Prof. Dr. Onur Özsoy 1

Konular. VERİ MADENCİLİĞİ Veri Önişleme. Değer Kümeleri. Veri Nedir? Nitelik Türleri. Konular. Veri Veri Önişleme Benzerlik ve farklılık

MOD419 Görüntü İşleme

Power BI. Neler Öğreneceksiniz?

CRYSTAL BALL Eğitimi

Fonksiyon Minimizasyonunda Simulated Annealing Yöntemi

Veri Madenciliği Karar Ağacı Oluşturma

Sözlük Kullanarak Türkçe için Kavram Madenciliği Metotları Geliştirme

Web Madenciliği (Web Mining)

Veri madenciliği yöntemleri

Web Madenciliği (Web Mining)

Apriori Algoritması ile Teknik Seçmeli Ders Seçim Analizi

VERİ MADENCİLİĞİ (Karar Ağaçları ile Sınıflandırma) Yrd.Doç.Dr. Kadriye ERGÜN

Değişken Türleri, Tanımlayıcı İstatistikler ve Normal Dağılım. Dr. Deniz Özel Erkan

VERİ KÜMELERİNİ BETİMLEME

YZM ALGORİTMA ANALİZİ VE TASARIM DERS#2: ALGORİTMA ANALİZİ

Veri Madenciliği Yaklaşımı ile Mesleki Yönlendirme Sistemi

3. sınıf. Bilgisayarla kataloglamanın doğuşu gelişimi ve bugünkü durum ele alınmaktadır. Bu derste

Olasılık ve İstatistik nedir? Bilgisayar Mühendisliğindeki yeri

Görüntü Segmentasyonu (Bölütleme)

AKILLI TATIL PLANLAMA SISTEMI

GENETİK ALGORİTMALAR BÜŞRA GÜRACAR

Birliktelik Kuralları Analizi. Yard. Doç. Dr. Derya BİRANT Prof. Dr. Alp KUT

Veri Madenciliği Süreci

PAPATYA YAYINCILIK EĞİTİM Bilgisayar Sis. San. ve Tic. A.Ş. Veri Madenciliği Yöntemleri Dr. Yalçın ÖZKAN -II-

Ders 8: Verilerin Düzenlenmesi ve Analizi

Üç Boyutlu Serpilme (Saçılım) Grafikleri

UZAKTAN EĞİTİM MERKEZİ

D.Saati AKTS Zorunlu Ders (Z) Meslek Dersi (M) Seçmeli Ders (S) TOPLAM

COĞRAFİ BİLGİ SİSTEMLERİ

Yazarlar hakkında Editör hakkında Teşekkür

Ders Kitabı. Doç. Dr. İrfan Yolcubal Kocaeli Üniversitesi Jeoloji Mühendisliği Bölümü htpp:/jeoloji.kocaeli.edu.tr/

VERİ MADENCİLİĞİ (Data Mining) (Veri Madenciliğine Giriş) Yrd.Doç.Dr. Kadriye ERGÜN

Mühendislikte Veri Tabanları Dersi Uygulamaları (MS-Access)

Veritabanı Uygulamaları Tasarımı

MONTE CARLO BENZETİMİ

Transkript:

Mesleki Terminoloji II Veri Madenciliği Burak Düşün - 14011055 Akif Berkay Gürcan - 14011023

Veri Madenciliği Nedir? Veri madenciliği, büyük miktarda verinin anlamlı örüntüler bulmak amacıyla otomatik veya yarı otomatik olarak işlenmesidir.

Veri Madenciliği Nedir? Bilgi ortaya çıkarma adımları Veri temizleme (Data cleaning) Gürültü (noise) ve tutarsız verinin silinmesi Veri birleştirme (Data integration) Farklı veri kaynaklarının bir araya getirilmesi Veri seçme (Data selection) Yapılacak analiz için anlamlı olan verinin ayıklanması Veri dönüştürme (Data transformation) Verinin, madencilik işlemlerinin gerçekleştirilmesi için uygun formata getirilmesi Veri madenciliği (Data mining) Akıllı yöntemlerle veriden örüntüler elde edilmesi Örüntü değerlendirmesi (Pattern evaluation) Bulunan örüntüler içinden bilgiyi en iyi ifade edenlerin önem ölçütlerine göre belirlenmesi Bilgi sunumu (Knowledge presentation) Veriden çıkartılan bilginin çeşitli görsel ve bilgi ifade etme yöntemleri kullanılarak sunulması

Veri Madenciliğine Neden İhtiyaç Var? Çok büyük miktarda (onlarca petabyte) veri üretiliyor ve depolanıyor: Global telekomünikasyon ağları trafiği Tıp ve sağlık alanında üretilen tıbbi kayıtlar, hasta gözlemlenmesi ve tıbbi görüntüleme Şirketlerin ticari kayıtları, banka ve kredi kartı işlemleri Arama motorları aracılığıyla milyarlarca internet araması Topluluklar ve sosyal medya aracılığıyla oluşan resim, video, blog ve sosyal ağlar Veriden bilgi elde edilerek veri kullanılabilir hale getirilmelidir. Geleneksel yöntemler bilgi elde etmek için yetersiz. Analistlerin aynı işi yapması aylar sürebilir. Verinin büyük bir bölümü işlenmiyor. Karar verilirken tam bilgi yerine sezgi veya eksik bilgi kullanılıyor.

Nasıl Veriler İşlenebilir? İlişkisel veritabanı verileri Müşteri, ürün, satış gibi farklı ama birbiriyle ilişkili varlıkların ve ilişkilerinin saklandığı veritabanı türüdür. Örnek: Girilen müşteri verilerinden müşterinin kredi uygunluk durumunu tespit etme Veri ambarı (data warehouse) verileri Farklı fiziksel konumlardaki veritabanlarının birleştirilerek tek yerde saklanmasıdır. Veri ambarları oluşturulurken veri temizleme, birleştirme, dönüştürme adımlarından yararlanılır. Örnek: Mağazanın farklı şube verilerinin tek bir bölgede toplanması. Ardından, mağazanın, dünya genelinde her ürününün şubeler bazında satışlarının belirlenebilmesi İşlemsel (transactional) veriler Her bir işlemin bir satır olarak saklandığı veritabanı türüdür. Örnek: Satış kayıtlarının incelenerek hangi ürünlerin beraber daha çok satıldığının bulunması

Nasıl Veriler İşlenebilir? Diğer veri çeşitleri Geçici veri (temporal data): Örnek: Borsa verilerine göre yatırım planı yapılması Bilgisayar ağı veri akışlarından ağ saldırılarının tespit edilmesi Mekansal veri (spatial data): Şehirlerin anayollardan uzaklığı ile şehrin yoksulluk oranı arasında ilişki bulunması Metin verileri: Veri madenciliğinin son 10 yıldaki literatürünün incelenmesi -> veri madenciliğinin gelişiminde ortaya çıkan popüler konuların belirlenmesi Ürün yorumlarının incelenmesi -> ürün geliştirilmesine katkı Web verileri: Arama verilerine bağlı olarak trendlerin belirlenmesi

Veri Madenciliğinin Yararlandığı Disiplinler İstatistik İstatistik, bir veriyi ve veri sınıflarını modellemek için kullanılır. Bir sınıfın özellikleri, davranışları; rastgele değişkenler ve onların olasılık dağılımlarına göre tanımlanır. Makine Öğrenmesi Bilgisayarların verilere göre otomatik olarak örüntüleri öğrenerek akıllı kararlar vermesidir. Veri Tabanı ve Ambarı Bilgiler veri tabanından da alınabildiği için veri tabanı işlemleri bilinmelidir. Kimi sistemler anlık ve büyük miktarda veri işlediklerinden veri tabanı optimizasyonu ve ölçeklendirme, etkili sorgu yöntemlerine ihtiyaç duyulur. Veri ambarları sayesinde çok boyutlu veri madenciliği gerçekleştirilebilir. Bilgiye Erişim (Information Retrieval) Bilgiye erişim, bir iş için gerekli dökümanları arama ve gerekli bilgileri bulma bilimidir. Metine dayalı veri madenciliğinde kullanılır.

Veri Madenciliğinde Standart İş Akışı: CRISP-DM

Nitelik türleri Nitelik (Attribute): Bir veri objesinin karakterini gösteren veri alanı. İsimsel (Nominal) Nitelikler Her bir değer bir kategori, kod veya durumu belirtir. Kategorik olarak da bilinirler. Örnek: saç_rengi, evlilik_durumu İkili (Binary) Nitelikler İki durumdan birinin olduğunu ifade ederler. Örnek: sarı_saçlı, mavi_gözlü Sırasal (Ordinal) Nitelikler İsimsel niteliklerin sıralı olarak belirli bir anlama sahip oldukları nitelik türü. Örnek: menü_boyutu: küçük, orta, büyük Sayısal Nitelikler Nicel olarak ölçülebilen özelliklerdir. Örnek: Derece, boy, kilo

Ön işleme Örnekleme (sampling) Boyut İndirgeme Veri Temizleme Eksik Veri Sorunu Yanlış Sınıflandırmaların Tespiti Uçdeğer (outlier) Sorunu Özellik Dönüşümü

Veri Görselleştirme Histogram Kutu Grafiği Chernoff Yüzleri

Veri Madenciliğinin Temelleri Model Oluşturma İlişki Kuralları ve Ardışıl Örüntüler (Association Rules and Sequential Patterns) Gözetimli Öğrenme Gözetimsiz Öğrenme Yarı-Gözetimli Öğrenme Performans Değerlendirmesi Topluluk Yöntemleri (Ensemble methods)

İlişki Kuralları ve Ardışıl Örüntüler İlişki Kuralları (Association Rules) Veri örnekleri (data instance) arasında birlikte bulunurluk (co-occurrence) durumu aranır. Ardışıl Örüntüler (Sequential Patterns) Veri örneklerinin görüldüğü sıra hesaba katılarak n elemanlı altdiziler oluşturulur.

Öğrenme Öğrenme, bilgisayarların bu iş için özel olarak programlanmadan sonuç tahmin etmesinde daha başarılı olmasını sağlayan bir yöntemdir. Öğrenme için kullanılan veri kümesine "eğitim kümesi" denir. Bir model öğrenildikten veya eğitim kümesine dayanılarak bir öğrenme algoritması tarafından oluşturulduktan sonra "test kümesi" kullanılarak modelin başarısı değerlendirilir.

Gözetimli Öğrenme Bu tip öğrenme eylemi, insanın geçmiş tecrübelerinden edindiği bilgileri kullanarak iş yapma becerisini geliştirmesine benzetilebilir. Öte yandan, bilgisayarların "tecrübeleri" olmayacağından dolayı, saf veriden öğrenme gerçekleştirilir. Gözetimli öğrenmede eğtim aşamasında veri kümesindeki sınıflar bellidir.

Gözetimsiz Öğrenme Verinin altında yatan birtakım ilişkilerin tespit edilmesi gerekebilir. Bu ilişkilerin tespiti için kullanılan tipik yöntem kümeleme (clustering) olarak isimlendirilir. Kümeleme, örnek uzayını benzerlik gruplarına böler. Buradaki anafikir aynı gruptaki veri örneklerinin (data instance) birbirlerine benzer olanlardan seçilmesi ve farklı gruplardakilerin birbirlerinden alakasız olmasıdır. Kümelemeden sıklıkla gözetimsiz öğrenme şeklinde bahsedilir, zira gözetimli öğrenmenin aksine a priori bir gruplama/sınıflandırma söz konusu değildir.

Yarı-gözetimli Öğrenme Eğitimde, veri kümesinin çoğunluğunun etiketsiz verilerden oluştuğu eğitim türüdür. Örneğin "normal" sınıfına ait veriler eğitilir ve test edilecek verilerin normal veya anormal olduğunun tespit edilmesi beklenir.

Performans Değerlendirmesi Temel Metrikler Doğru pozitif, yanlış pozitif, doğru negatif, yanlış negatif, doğruluk, kesinlik, Duyarlılık, F - ölçütü ( Accuracy, Precision, Recall, F - Measure ) Karmaşıklık Matrisi Bir öğrenme algoritmasının başarısını gösteren bir tablodur. Her satırda sınıfların gerçekte kaç tane oldukları ve sütunlarda bu sınıfın ha ngi sınıf olarak tahmin edildiği bilgisi bulunur. Çapraz Doğrulama (Cross-Validation) K-katlama çapraz doğrulamasında, başlangıç verileri rastgele birbirine yakın alt gruplara ayrılır. İ. adımda, i. kesit test, kalan veriler eğitim verisi olur.

Kaynaklar http://blog.euromsg.com/data-mining-veri-madenciligi-nedir/ https://www-users.cs.umn.edu/~kumar/dmbook/dmslides/chap1_intro.pdf Jiawei Han, Micheline Kamber, Jian Pei - Data Mining and Concepts, 3rd Edition Bing Liu Web Data Mining: Exploring Hyperlinks, Contents, and Usage Data, 2nd Edition

Teşekkürler