Veri ve Metin Madenciliği. Zehra

Benzer belgeler
Veri ve Metin Madenciliği

Eğitim seti (training set) sınıflandırma modelinin elde edileceği kayıtları içerir

Veri Madenciliği Yaklaşımı ile Mesleki Yönlendirme Sistemi

127 - Twoing Algoritması ile Sınıflandırma Kalp Hastalığı Uygulaması MEHMET AKİF ERSOY ÜNİVERSİTESİ İLHAN UYSAL MEHMET BİLEN SAMİ ULUKUŞ

BÜYÜK VERI UYGULAMALARı DERS 7. Doç. Dr. Yuriy Mishchenko

Yapay Sinir Ağları ile Web İçeriklerini Sınıflandırma. Yazarlar: Esra Nergis Güven, Hakan Onur ve Şeref Sağıroğlu. Sunan : Esra Nergis Güven

YAPAY SİNİR AĞLARI. Araş. Gör. Nesibe YALÇIN BİLECİK ÜNİVERSİTESİ

Makine Öğrenmesi İle Duygu Analizinde Veri Seti Performansı

Düşük yoğunluklu savaş

Web Madenciliği (Web Mining)

K En Yakın Komşu Methodu (KNearest Neighborhood)

Yeşim AKSAN, Selma Ayşe ÖZEL, Yasin BEKTAŞ, Mustafa AKSAN, Umut Ufuk DEMİRHAN, Ümit MERSİNLİ, Hakan YILMAZER. Sunan : Yasin BEKTAŞ.

Mesleki Terminoloji II Veri Madenciliği

TANI TESTLERİNİN İSTATİSTİKSEL DEĞERLENDİRİLMESİ

Web Madenciliği (Web Mining)

VERİ MADENCİLİĞİ önemsiz olmayan, gizli, önceden bilinmeyen, potansiyel olarak kullanışlı

bitık MOBİL TİCARET UYGULAMASI ABDULLAH ÇİÇEKCİ

Kümeler arası. Küme içi. uzaklıklar. maksimize edilir. minimize edilir

VERİ MADENCİLİĞİ (Karar Ağaçları ile Sınıflandırma) Yrd.Doç.Dr. Kadriye ERGÜN

MEÜ. SAĞLIK BĠLĠMLERĠ ENSTĠTÜSÜ DERS TANIMI FORMU

Dr. Ergün AKGÜN Kimdir?

BAYES ÖĞRENMESİ BİLECİK ÜNİVERSİTESİ. Araş. Gör. Nesibe YALÇIN. Yapay Zeka-Bayes Öğrenme

İSTATİSTİKTE TEMEL KAVRAMLAR

Proje kapsamında Arazi İzleme Sisteminin bir bütün olarak sunulması için bir portal yapısı hazırlanmıştır. Arazi İzleme Sistemi;

FREKANS VERİLERİ. Prof.Dr. Levent ŞENYAY III - 1

Yapay Sinir Ağları. (Artificial Neural Networks) DOÇ. DR. ERSAN KABALCI

VERI TABANLARıNDA BILGI KEŞFI

Doğal Dil İşleme Nedir? Doğal Dil İşleme

Konular. VERİ MADENCİLİĞİ Giriş. Problem Tanımı. Veri Madenciliği: Tarihçe. Veri Madenciliği Nedir? Bilgi Keşfi

Konular VERİ MADENCİLİĞİ. Örnek Tabanlı Yöntemler. En Yakın Komşu Sınıflandırıcı. En Yakın Komşu Yöntemi. Farklı Sınıflandırma Yöntemleri

Büyük Veri İçin İstatistiksel Öğrenme (Statistical Learning for Big Data)

VERİ KAYNAKLARI. Bilgi sisteminin öğelerinden biride veri

İş Zekası. Hafta 6 Kestirimci Modelleme Teknikleri. Yrd. Doç. Dr. H. İbrahim CEBECİ

WEB SAYFALARINA İLİŞKİN YAPAY SİNİR AĞLARI İLE SINIFLANDIRMA YÖNTEMİ

Yazılı Materyaller. Yazılı Materyaller. Yazılı Materyaller. Yazı boyutu Yazı boyutu. Görsel Araç-Gereç ve Materyaller

VERİ MADENCİLİĞİ (Karar Ağaçları ile Sınıflandırma) Yrd.Doç.Dr. Kadriye ERGÜN

VERİ MADENCİLİĞİ Kavram ve Algoritmaları

Veri madenciliği sınıflandırma ve kümeleme teknikleri yardımıyla Wisconsin veriseti üzerinde Göğüs Kanseri Teşhisi. Hazırlayan: Nury Amanmadov

Proje Adı : MATLAB Real-Time Windows Target toolbox kullanımı ve ilişkili bir uygulama geliştirilmesi

Makine Öğrenmesi 3. hafta

Nesnelerin İnternetinde Veri Analizi

Metin Sınıflandırma. Akış

Büyük Veri ve Endüstri Mühendisliği

Özörgütlemeli Öğrenme (SOM) A. Cumhur KINACI

Sözlük Kullanarak Türkçe için Kavram Madenciliği Metotları Geliştirme

Veri Madenciliği Karar Ağacı Oluşturma

Karaciğerde Oluşan Hastalıkların Tespitinde Makine Öğrenmesi Yöntemlerinin Kullanılması

2. Oracle Data Miner İle Örnek Bir Veri Madenciliği Çalışması

BSM 532 KABLOSUZ AĞLARIN MODELLEMESİ VE ANALİZİ OPNET MODELER

JEODEZİK VERİLERİN İSTATİSTİK ANALİZİ. Prof. Dr. Mualla YALÇINKAYA

Veritabanı Yönetimi Bilgisayarların. Keşfi Hedefler. Veritabanı, Veri ve Bilgi. Veritabanı, Veri ve Bilgi. Veritabanı, Veri ve Bilgi

Web Madenciliği (Web Mining)

SÜREKLĠ OLASILIK DAĞILIMLARI

KABA KÜME TEORİSİ (Rough Set Theory) Dr. Sedat TELÇEKEN

Türkçe Twitter Mesajlarında Gizli Dirichlet Tahsisine Dayalı Duygu Analizi

Bilkent Üniversitesi Bilgisayar Mühendisliği Bölümü. Bilgisayar Mühendisliği

D-Tek Uzaktan Eğitim Platformu

Bilgisayar Mühendisliği Yüksek Lisans Programı

Sosyal Medyada Makine Öğrenmesi ile Duygu Analizinde Dengeli ve Dengesiz Veri Setlerinin Performanslarının Karşılaştırılması

Algoritma Geliştirme ve Veri Yapıları 3 Veri Yapıları. Mustafa Kemal Üniversitesi

Otomatik Doküman Sınıflandırma

BİYOMETRİK İRİS SINIFLANDIRMA SİSTEMLERİ

tree) nedir? Karar Ağacı (Decision Decisiontree

Ulusal Envanter Sisteminin Kurulması

VERİLERİ ÖZETLEME. Prof.Dr. Levent ŞENYAY III - 1

İnternet Destekli Temel Bilgisayar Bilimleri Dersinde Anket Uygulaması

VERİ MADENCİLİĞİ (Veri Ön İşleme-2) Yrd.Doç.Dr. Kadriye ERGÜN

Bilgisayar Mühendisliği Yüksek Lisans Programı

Demetleme Yönteminin Y 3-Katmanlı Mimari Yapı ile Gerçeklenmesi. eklenmesi. KalacakYer.com

Yrd. Doç. Dr. Fatih TOSUNOĞLU Erzurum Teknik Üniversitesi Mühendislik Fakültesi İnşaat Mühendisliği Bölümü

DİZİN. Not: Koyu harfle yazılan sayfalar ilgili terimin yoğun olarak geçtiği sayfaları göstermektedir.

Konular VERİ MADENCİLİĞİ. Örnek Tabanlı Yöntemler. En Yakın Komşu Sınıflandırıcı. En Yakın Komşu Yöntemi. Farklı Sınıflandırma Yöntemleri

Yapay Sinir Ağları ve Yüksek Enerji Fiziği Uygulamaları

tarih ve 272 sayılı Eğitim Komisyonu Kararı Eki-1

ÜRETİM SİSTEMLERİ ve ÖZELLİKLERİ

Makine Öğrenmesi 2. hafta

OLASILIK VE İSTATİSTİK

AlgoTrader. Algorithmic Trading Platformu. Matriks Bilgi Dağıtım Hizmetleri A.Ş.

ASSAM YÖNERGESİNE EK-T ASSAM WEB SİTESİ YÖNERGESİNE LAHİKA-2 WEB SİTESİ MAKALE EKLEME KILAVUZU ASSAM

Avrupa Patent Akademisi. Patent Eğitim Seti

NDEN BELİRLENEBİLME LME POTANSİYELİ UYDU GÖRÜNTÜLERİNDEN

Otomatik Doküman Sınıflandırma

Örneklemden elde edilen parametreler üzerinden kitle parametreleri tahmin edilmek istenmektedir.

Zahmetsiz örüntü tanıma: Nokta bulutlarının karşılaştırılması yoluyla veri-tabanlı ve parametresiz istatistiksel öğrenme

Klinik Mikrobiyoloji Testlerinde Doğrulama (verifikasyon) ve Geçerli Kılma (validasyon)

Birliktelik Kuralları Analizi. Yard. Doç. Dr. Derya BİRANT Prof. Dr. Alp KUT

SENİ TÜRKİYE NİN BANKASINA BEKLİYORUZ. UZMAN YARDIMCISI ALIM SINAVI 13 EKİM 2018

K-En Yakın Komşu Algoritması Parametrelerinin Sınıflandırma Performansı Üzerine Etkisinin İncelenmesi

MAPINFO PRO TEMEL VE İLERİ SEVİYE EĞİTİM İÇERİĞİ

Naive Bayes Yöntemi ile Spam Mail Teşhisi Kübra KURNAZ

Web Madenciliği (Web Mining)

Bir işaretli büyüklük sayısında en soldaki basamak bir işaret içerir. Diğer basamaklarda ise sayısal değerin büyüklüğü (mutlak değeri) gösterilir.

3.2. Raster Veriler. Satırlar. Sütunlar. Piksel/hücre büyüklüğü

ELEKTRONİK İMZADA GÜVENLİK VE STANDARTLAR

Güncel Kriptografik Sistemler

Ark Flaşı Riskine Karşı Pratik Uygulamalar- Almanya dan Örnekler

SE4SEE A Grid-Enabled Search Engine for

8 Haziran 2007 TBD İstanbul Bilişim Kongresi

VERİ MADENCİLİĞİ Metin Madenciliği

Transkript:

Veri ve Metin Madenciliği Zehra Taşkın @zehrataskin

Büyük Veri https://www.youtube.com/watch?v=tzxmjbl-i4y

Veri Madenciliği Bir kutu toplu iğne İçine 3 boncuk düşürdünüz Nasıl alacağız?

Veri Madenciliği Data - Information - Knowledge Veri madenciliği; Büyük yoğunluklu veri/metinler içinden önemli/ilginç örüntüler keşfetme görevleri Toplu iğne örneği

Veri Madenciliği İlişkili olduğu alanlar; Bilgibilim Makine öğrenme, bilgisayar bilimleri Veri tabanı teknolojileri Görselleştirme İstatistik

Neden Veri Madenciliği İhtiyacım olan veriyi bulamıyorum! İhtiyacım olan veriyi buluyorum ama elde edemiyorum! Bulduğum veriyi anlamıyorum! Anladığım veriyi kullanamıyorum!

Veri Madenciliği Süreçleri

Veri Madenciliği Araçları Nooj Weka KNIME Angoss Knowledge Studio Matlab

Veri Madenciliği Uygulamaları Bilgi erişim (information retrieval) Bilgi çıkarımı (information extraction) Makine çevirisi (machine translation) Özetleme (summarization) Metin kategorizasyonu (text categorization)

Bilgi Erişim İnsanların herhangi bir paragrafın, kitabın ya da büyük yoğunluklu metnin içinden ihtiyaç duydukları herhangi bir kısma erişimlerinin sağlanabilmesi Nasıl yapılabilir?

Bilgi Çıkarımı Büyük yoğunluklu bir metnin içinden temel anahtar unsurların (kişiler, kurumlar, konumlar, ülkeler gibi) tanımlanması, etiketlenmesi ve çıkarımı Bilgi çıkarımı yapılınca işlem biter mi? Nooj programında bir veri çıkarımı uygulaması Elde edilen verileri anlamlandırmak için ne yapılabilir?

Makine Çevirisi Bir dilden diğer dile otomatik çeviri Algoritmalar nasıl yapılandırılabilir?

Makine Çevirisi

Otomatik Özetleme Büyük yoğunluklu metinlerde yer alan cümle ya da paragraflar içinden, Dilsel veya istatistiksel bazı yöntemleri kullanarak, En önemli sözcükleri ya da cümleleri seçmeye, Metni temsil eden anlamlı bir özet çıkarmaya dayanır

Metin Kategorizasyonu Tahminleyici bir metot Neleri tahmin edebiliriz? Hava nasıl olacak? Patron kim olacak? Eurovision u kim kazanacak? Golü kim atacak? 2 soru Nasıl tahmin edecek? Nasıl başarıya ulaşacak?

Gözetimli vs. Gözetimsiz Metin Kategorizasyonu Gözetimsiz Tamamen bilgisayar yardımı ile Gözetimli Uzman gözetiminde Her ikisinin de avantaj ve dezavantajları neler olabilir?

Metin Kategorizasyonunda Kullanılan Teknik ve Algoritmalar Karar ağaçları İstatistiğe dayalı algoritmalar Mesafeye dayalı algoritmalar Yapay sinir ağları

Karar Ağaçları

Karar Ağaçları Sınıflandırma için bir ağaç oluşturulur (kök) Daha sonra her bir kayıt bu ağaca uygulanır (yaprak/düğüm) Çıkan sonuca göre kayıtlar sınıflandırılır Çeşitli algoritmaları var ID3, C4.5, CART

İstatistiğe Dayalı Algoritmalar Verilerin önceden sınıflara ayrılması Gelecekte elde edilen sonuçların tahmini Yani sınıfların tahmini Mesela; Öğrenci mezun olduysa Araştırma Yöntemleri dersinden geçmiştir. Yüksek notla geçtiyse istatistiğe dayalı algoritmaları daha kolay anlar.

Mesafeye Dayalı Algoritmalar Eldeki verilerin birbirlerine olan uzaklığı veya benzerliği kullanılarak sınıflandırma yapılır

Yapay Sinir Ağları Biyolojik sinir ağlarından esinlenerek geliştirilmiştir Yapay sinir hücrelerinin birbirleriyle çeşitli şekilde bağlanmasından oluşur Genel olarak katmanlar şeklinde düzenlenir 3 temel katman vardır (girdi, gizli ve çıktı)

Performans Değerlendirme Metodolojik değerlendirme Test ve eğitim seti Çapraz doğrulama Sayısal Değerlendirme Başarımın sayısal ölçümü Anma? Duyarlık? f değeri? ROC eğrisi

Performans Değerlendirme Tahmin edilen kategori Gerçek kategori Kategori 1 Kategori 2 Kategori 1 Doğru pozitif (TP) Yanlış pozitif (FP) Kategori 2 Yanlış negatif (FN) Doğru negatif (TN) Anma = TP / TP+FN Duyarlılık: TP / TP+FP f = 2*anma*duyarlılık (anma + duyarlılık) ROC Eğrisi

Bilgi Danışmanlığı ve Veri Madenciliği "Talep o kadar çok ki firmalar arasında paslaşmak zorunda kalıyoruz" Talepler ne olabilir Bilgi danışmanı neyi nasıl sunar? Sunmalı?

Bilgi Danışmanlığı ve Veri Madenciliği

Bilgi Danışmanlığı ve Veri Madenciliği

Bilgi Danışmanlığı ve Veri Madenciliği

Büyük Veri ve Yeni Dünya https://www.youtube.com/watch?v=k8kycz8bprs

Veri ve Metin Madenciliği Zehra Taşkın