Doğal Dil İşleme Nedir? Doğal Dil İşleme

Benzer belgeler
Dil Modelleri. İstatistiksel Dil Modelleri*

Smart Commerce Proje Teklifi

Metin Sınıflandırma. Akış

Bilgiye Erişim. GE 101 Üniversite Hayatına Giriş Dersi

Sosyal ve Anlamsal Ağlar WWW. Web 1.0. Bilgi. Albert Long Hall, Boğazi 4-55 Nisan Ortak Beyin. Snow Crash. Kullanıcı: Tüketici

Diyalog Sistemleri. Sohbet ve sanal asistan uygulamaları

DİZİN. Not: Koyu harfle yazılan sayfalar ilgili terimin yoğun olarak geçtiği sayfaları göstermektedir.

ÜNİTE NESNE TABANLI PROGRAMLAMA I. Uzm. Orhan ÇELİKER VERİTABANI SORGULARI İÇİNDEKİLER HEDEFLER

Vsp Teknoloji Son sistem güvenlik duvarlarıyla korunmaktadır, Kullanıcı bilgilerini doğru girdiğinde giriş sayfasına bağlanacaktır.

FortiMail Gateway Modunda Kurulum. v4.00-build /08

Yapı Kredi Bankası Ar-Ge Çalışmaları Araştırma, Vizyon ve Uygulama. Eğitmen: Onur AĞIN

Çizim Yapma. Renk. Boyama

Marketing plan for your startup

Bilgi Servisleri (IS)

Doktor Web Tasarım ile sıfır hatada Dünya standartlarında web kalite politikasına uygun web sitesi oluşturabileceksiniz

Veri ve Metin Madenciliği

Veri ve Metin Madenciliği. Zehra

1. Müşteriler Bölümü: 2. Ticket Bölümü: 3. Dosya Yöneticisi:

Seo Eğitimi (300 Sattlik Eğitim) Seo. Genel Amaçları. Seo da Kullanılan Terimler. Nedir? Nasıl Çalışır? Nasıl Olmalıdır?

VERİ MADENCİLİĞİ Metin Madenciliği

BEDEN EĞİTİMİ I: Haftalık ders 1 saattir (T-0 ) (U-l) (K-0).

Türkiye gelişiyor... dünya değişiyor... ticaret online dünyada büyüyor... değişime ayak uydurun... yeniliğe açık olun...

Ekin SAFE TRAFFIC Kırmızı Işık İhlal Tespit Sistemi

İş Zekâsı Sistemi Projesi

SORGULAR. Öğr.Gör.Volkan Altıntaş

KULLANIM KILAVUZU. VSP Teknoloji ile sıfır hatada Dünya standartlarında web kalite politikasına uygun web sitesi oluşturabileceksiniz

Ekin SAFE TRAFFIC Plaka Tanıma Sistemi

Microsoft Office Access Ders İçeriği 25 Saat. Access Temel 10 saat

Ufuk2020.org.tr Erişime Açıldı!

ÜNİTE NESNE TABANLI PROGRAMLAMA I. Uzm. Orhan ÇELİKER VERİTABANI SORGULARI İÇİNDEKİLER HEDEFLER

VERİ MADENCİLİĞİ VE SOSYAL AĞ ANALİZİ ARAŞTIRMA LABORATUVARI

WEB 2.0 ARAÇLARINI TANIMAK

Dijital Dönüşüm Adımları

T.C. 15 Temmuz ve Demokrasi. 15 Temmuz Hikâye. açıktır. bir yayın. ve metin

Veri Tabanı-I 1.Hafta

İÇİNDEKİLER BÖLÜM-1. BİLGİSAYARIN TANIMI VE ÇALIŞMA PRENSİBİ...1 BÖLÜM-2. WİNDOWS XP İŞLETİM SİSTEMİ...27

Legal Collection. Gazi Üniversitesi Merkez Kütüphanesi

Marketing plan for your startup

Ekin MICRO SPOTTER Mobil Plaka Tanıma Sistemi. Tamamen Yeni Jenerasyon. Leader in Safe City Technologies

DR. RAMAZAN DEMİR TÜRK TELEKOM 9 MART 2010 CONRAD HOTEL

Türkçe Eğitimi Anabilim Dalı- Tezli Yüksek Lisans Programı Ders İçerikleri

Maltepe Üniversitesi Bilgisayar Mühendisliği Bölümü Internet ve Bilgi Teknolojileri (BİL 309) Dersi

UZAKTAN EĞİTİM MERKEZİ

Karar Destek Sistemleri

Makine Öğrenmesi 2. hafta

Programın Adı: Eğitim ve Öğretim Yöntemleri Proje/Alan Çalışması. Diğer Toplam Kredi AKTS Kredisi

SİSTEM ANALİZİ VE TASARIMI. Sistem Analizi -Bilgi Sistemleri-

GEODI: Dokümanlarınıza Erişmek Hiç Bu Kadar Kolay Olmamıştı

İSTANBUL RUMELİ ÜNİVERSİTESİ MESLEK YÜKSEKOKULU BİLGİSAYAR PROGRAMCILIĞI 1.SINIF 2.YARIYIL İNTERNET PROGRAMCILIĞI II DERS İZLENCESİ

Sanal Santral A.Ş. Çözümleri

ONLINE MONITORING. BROTINTELLIGENCE çözüm ortaklığı

ODTÜ BLOG SERVĐSĐ ve BLOG HAZIRLAMA

Bilişim Teknolojileri

Maltepe Üniversitesi Endüstri Mühendisliği Bölümü Veri Tabanı Yönetimi (END 210)

Şimdi Pro Zamanı: MapInfo Pro 64 bit versiyonu tanıtımı!

Aşağıdaki şemaya dikkat edin. Sorgulamalarımızı genellikle bu şemaya göre yapacağız.

. ROBOTİK VE KODLAMA EĞİTİMİ ÇERÇEVESİNDE ÖĞRETİM YILI BİLİŞİM TEKNOLOJİLERİ DERSİ ÜNİTELENDİRİLMİŞ YILLIK DERS PLANI

BİLGİSAYAR MÜHENDİSLİĞİ BÖLÜMÜ

Seminer Dersi Ders Kimlik Formu (DEKİM)

GROVE ART ONLINE GAZİ ÜNİVERSİTESİ MERKEZ KÜTÜPHANESİ

Hızlı Başlangıç Kılavuzu

Farkındalık Okuma öncesinde kullanılan stratejiler Okuma sırasında kullanılan stratejiler

Ders Adı Kodu Yarıyılı T+U Saati Ulusal Kredisi AKTS

YENİ NESİL KÜTÜPHANECİLER

Akdeniz Üniversitesi

Kümeleme Algoritmaları. Tahir Emre KALAYCI

Yer Sezimi ve Özet Bölüt Çizgeleri

Veri Tabanı Yönetim Sistemleri Bölüm - 7

Google Scripts. Neticaret Sistemine Google Analytics ve AdWords sistemleriyle ilgili 3 yeni parametre eklenmiştir.

BİLGİSAYAR MÜHENDİSLİĞİ BÖLÜM BAŞKANLIĞI DERS TANITIM BİLGİLERİ

Virtual Welding. Yarınların Eğitimi

Ekin SAFE TRAFFIC Hız İhlal Tespit Sistemi

KALİTATİF STÜDYO. Ne gördüğünüz nereye baktığınıza bağlıdır.

Veritabanı Yönetimi Bilgisayarların. Keşfi Hedefler. Veritabanı, Veri ve Bilgi. Veritabanı, Veri ve Bilgi. Veritabanı, Veri ve Bilgi

Ekin SPOTTER Dünyanın İlk ve Tek Tamamen Modüler Akıllı Şehir Mobilyası

Netsis CRM. Her yerden erişim Diğer web servislerinden faydalanma (Google Takvim, Haritalar, Outlook)

Veri Tabanı, Veri Ambarı, Veri Madenciliği. Veri Madenciliği Uygulama Alanları

HOTEL IPTV SYSTEMS. ETUS IPTV Solutions Zum Laurenberg Hof Frankfurt am Main GERMANY

YENİ BİLGİ MODELLEME VE PROGRAMLAMA FELSEFESİYLE SEMANTIC WEB

İÇİNDEKİLER VII İÇİNDEKİLER

AMAÇLAR: GÜVENLİK TESTLERİNDE BİLGİ TOPLAMA: AKTİF BİLGİ TOPLAMA

Connection Manager Kullanım Kılavuzu

Türkiye de Güvenli İnternet ve Uygulamaları

KURUMSAL İÇERİK ÇÖZÜMLERİ DİJİTAL YAYINCILIK E-TİCARET ÇÖZÜMLERİ MOBİL KONSEPT GELİŞTİRME SOSYAL MEDYA İÇERİK ÇÖZÜMLERİ

WEB ARAÇLARI VE UZAKTAN EĞİTİM CEIT357-4.HAFTA

3. Yazma Becerileri Sempozyumu

Semantik Ağ ve Üst Veri Sistemleri İçin Yeni Nesil Veri Tabanı Yönetim Modeli: NoSQL. R. Orçun Madran Atılım Üniversitesi.

T.C. MALTEPE ÜNĠVERSĠTESĠ MÜHENDĠSLĠK FAKÜLTESĠ ENDÜSTRĠ MÜHENDĠSLĠĞĠ BÖLÜMÜ LĠSANS PROGRAMI Güz Yarıyılı

Bilgi Merkezi Web Siteleri

Bilgi Okuryazarlığı Eğitim Programı

Büyük Veri ve Endüstri Mühendisliği

Bilim Kahramanları Buluşuyor

Kılavuzu ; bir ürün veya sistemin kullanımıyla ilgili açıklamaların olduğu dokümantasyon olarak tanımlayabiliriz.

Bilgisayar ve Bilgi Sistemleri (CMPE106) Ders Detayları

SEO Nedir? SEO = Pazarlama + Strateji

bilişim ltd İş Zekâsı Sistemi

Powerpoint; Microsoft ofis programları içinde bulunan bir sunum hazırlama programıdır.

Ders Kodu Yarıyıl T+U Saat Kredi AKTS. Programlama Dilleri

VERİ MADENCİLİĞİ önemsiz olmayan, gizli, önceden bilinmeyen, potansiyel olarak kullanışlı

Dijital Varlık Yönetimi Yardım Dokümanı

Transkript:

Doğal Dil İşleme Nedir? Mehmet Fatih AMASYALI Doğal Dil İşleme Tanım: İnsanların iletişim için kullandıkları dillerin çeşitli amaçlar için bilgisayarla işlenmesi 1

Dersin Amacı Doğal Dil işlemenin uygulama alanları ve yöntemleri hakkında genel bilgi vermek Belli alanlarda uygulama yapmak Uygulama alanları Sesten yazıya çeviri Komut anlama E-mail filtreleme / sınıflandırma Farklı diller arası çeviri Duygu durum analizi Benzer anlamda metin üretme İmla denetimi / düzeltme Bilgiye erişim (arama motorları) Bilgi çıkarımı (metinden veri tabanına) Soru cevaplama Doğal dille veri tabanı (yapısal, resim, video) sorgulama Metin özetleme Sanal müşteri temsilcileri Sohbet robotları Aşırma tespiti Hikaye, şiir üretimi 2

Sesten yazıya çeviri Giriş: ses sinyali, Çıkış: metin Kullanım alanları: sesle not alma, filmler için altyazı üretimi vb. P(soğan yedim)>p(sol an yedim) P(Fatih Sultan Mehmet) > P(Fatih Tultan Mehmet) Praat Komut anlama Giriş: text, Çıkış: komut ve parametreleri Sabit bir komut kümesine eşleme Yarın hava nasıl olacak? Hava_durumu_bul(mevcut tarih+1gün, mevcut konum) Ör: Siri, Cortana, Alexa, Arçelik 3

E-mail filtreleme / sınıflandırma Spam filter Gelen müşteri email lerini ilgili bölüme yönlendirme Farklı diller arası çeviri Türkçe İngilizce Ne tür metinlerde daha başarılı? Dil modelleme gerekli. Kaynak dildeki bir kelimenin hedef dilde birden fazla karşılığı olabilir. P(taze balık aldım)>p(yeni balık aldım) 4

Duygu durum Analizi Bir firma, kişi, parti, kurum, ürün, olay vb. hakkında kamuoyu algısını ölçmek Popülerliği artan bir konu 120 100 80 60 40 20 0 2004-01 2004-06 2004-11 2005-04 2005-09 2006-02 2006-07 2006-12 2007-05 2007-10 2008-03 2008-08 2009-01 2009-06 2009-11 2010-04 2010-09 2011-02 2011-07 2011-12 2012-05 2012-10 2013-03 2013-08 2014-01 2014-06 2014-11 2015-04 2015-09 2016-02 2016-07 2016-12 2017-05 2017-10 2018-03 Algı operatörü bot lara dikkat (tahminen %20) Eğitim kümesi genelde eskir. Güncelleme gerekir. Yemeğimi 5 dakikada getirdiniz çok teşekkürler. Yemeğimi 55 dakikada getirdiniz çok teşekkürler Benzer anlamda metin üretme Pastırma üreticileri artan maliyetler sebebiyle zam kararı aldı. Maliyetlerdeki artış yüzünden pastırma üreticileri fiyatları arttıracaklarını açıkladı. Metin benzerliğini ölçme Haber metni içerik değiştirme Web sayfası içerik değiştirme Twitter bot % 20 5

İmla denetimi / düzeltme Denetim: Morfolojik analiz gerekir ama yetmez. Dil modeli gerektirir Maliye akanı yaptığı açıklamada Düzeltme: edit distance kullanılır. Dil modelleme gerekir. Ali soan yedi P(ali soğan yedi)>p(ali sokan yedi) Bilgiye erişim (arama motorları) Kullanıcısı sorgusu ile ilgili sayfaları / belgeleri bulmak Sorgu genişletme / çoğaltma Cevapları sıralama (pagerank) 6

Bilgi çıkarımı Yapısal olmayan kaynağı, yapısal bir kaynağa dönüştürme Metin veri tabanı kayıtları Yöntemler: Şablonlar, varlık ismi tanıma Soru cevaplama factoid Basit hikayelerde çıkarım: 1 Mary banyoya gitti. 2 Sandra bahçeye gitti. 3 Daniel bahçeye gitti. 4 Daniel ofise gitti. 5 Sandra oradaki sütü aldı. 6 Sandra sütü oraya bıraktı. 7 Süt nerede? bahçe 6 2 7

Doğal dille veri tabanı (yapısal, metin, resim, video) sorgulama text2sql (komut anlama) Parkta oynayan çocuk resimleri Komik kedi videoları Klasik yaklaşım: web sayfalarında resim / videolar için yazılan tanımları kullanma Otomatik resim ve video işleme / etiketleme gelişiyor (image captioning) Metin özetleme Cümle seçme (kısmen kolay) Textrank: en çok cümlenin benzediği cümleleri seç, seçilen cümleler de birbirinden farklı olsun Üretici modeller (zor) 8

Sanal müşteri temsilcileri Sitelerde rutin sorulara cevap veren / rutin işlemleri yapan sanal asistanlar Cevaplayamayacağını anladığında gerçek müşteri temsilcilerine yönlendirir Dialogflow Sohbet robotları Konu kısıtı olmadan sizinle sohbet edebilen sistemler Eğlencelik Gerçekten yapılması çok zor Eliza psikoterapist Alice (AIML) Loebner prize 2017 kazananı https://www.pandorabots.com/mitsuku/ 9

Aşırma (İntihal) tespiti Çoğu intihal sentaktik benzerlik taşır. Bir çoğu da çeviri tabanlı Çeviri de otomatik yapılmışsa yakalamak kolay Semantik benzerlik Hikaye, şiir üretimi Üretilmiş bir şiir (eğlencelik) Ben kimim içimde bir de gör. Sen bir yana bağrına bakarsak Bir damla dağların bir çocuk kanıyorum Durdum korkunun kalın yağmurlarında Ben bende bu yolda yürekler Bir gün karanlığın beni Görmeyen bir gün kalmadım Doğmaya bakarsan bir zaman https://www.plot-generator.org.uk/ 10

Klasik yaklaşım: kural tabanlı Tarihçe anlaşılabilirlik ön planda Popüler yaklaşım: büyük veriler üzerinde istatistiksel öğrenme tabanlı fonksiyonellik ön planda Turing öne geçmiş durumda Yöntemler Metin temsilleri Şekilsel Anlamsal Morfolojik analiz (Zemberek) Bağımlılık çözümleme (İTÜ NLP pipeline) Zamir çözümleme Deyiş tespiti İstatistiksel dil modelleme Makine öğrenmesi 11