Doğal Dil Đşleme (DDĐ) Natural Language Processing (NLP)



Benzer belgeler
Doğal Dil İşleme Nedir? Doğal Dil İşleme

HUNGAROLOJİ ANABİLİM DALI EĞİTİM ÖĞRETİM ÖĞRETİM YILI GÜZ PROGRAMI

YD 101 İngilizce-I (A1) 4+0 English-I (A1) 4 YD 107 Almanca-I (A-1) 4+0 German-I (A-1) 4 I. Yarıyıl Toplam Kredi 17 I. Yarıyıl Toplam AKTS 30

Veri ve Metin Madenciliği. Zehra

Veri ve Metin Madenciliği

Metin Sınıflandırma. Akış

ANKARA ÜNİVERSİTESİ A ÖĞRENCİ İŞLERİ DAİRE BAŞKANLIĞI

Kelime Gösterimleri (Word Representation Word Embeddings)

BOĞAZİÇİ ÜNİVERSİTESİ FEN EDEBİYAT FAKÜLTESİ DİLBİLİM BÖLÜMÜ

TS Corpus Türkçe Derlemi *

VT Sistem Gerçeklemesi. Ders Notları- #8

BİLGİSAYAR MÜHENDİSLİĞİ BÖLÜM BAŞKANLIĞI DERS TANITIM BİLGİLERİ

KIRIKKALE ÜNİVERSİTESİ FEN-EDEBİYAT FAKÜLTESİ/YÜKSEKOKULU BATI DİLLERİ VE EDEBİYATLARI BÖLÜMÜ/PROGRAMI MÜTERCİM-TERCÜMANLIK ANABİLİM DALI

Dilbilim Nedir? .Dili bir araştırma konusu olarak ele alan ilk çalışmalara Grek, Hint, Çin, Arap uygarlıklarında rastlanmaktadır.

RUS DİLİ VE EDEBİYATI ANABİLİM DALI EĞİTİM-ÖĞRETİM YILI BAHAR PROGRAMI

Bilkent Üniversitesi Bilgisayar Mühendisliği Bölümü. Bilgisayar Mühendisliği

Lesson 21: Who. Ders 21: Kim

PROGRAMLAMA TEMELLERİ

İTÜ LISANSÜSTÜ DERS KATALOG FORMU (GRADUATE COURSE CATALOGUE FORM)

Sunum İçeriği: I. Dilbilim Hk. II. Bölüm Hk.

KIRIKKALE ÜNİVERSİTESİ FEN-EDEBİYAT FAKÜLTESİ BATI DİLLERİ VE EDEBİYATLARI BÖLÜMÜ FRANSIZCA MÜTERCİM-TERCÜMANLIK ANABİLİM DALI

Türkçe için Karşılaştırmalı bir Kelime Anlamı Belirginleştirme Uygulaması

1) Programlama dillerinin temel kavramlarını öğrenir. 1,2,4 1

Bilgisayar Mühendisliğine Giriş. Yrd.Doç.Dr.Hacer KARACAN

Sözdizimsel Analiz (Syntactic Analysis)

SPOKEN DIALOGUE SYSTEMS

DENİZ HARP OKULU BİLGİSAYAR MÜHENDİSLİĞİ BÖLÜM BAŞKANLIĞI DERS TANITIM BİLGİLERİ

Sağlık Bilimleri Türkçe Derlemi

VERİ TABANI UYGULAMALARI

Sözlük Kullanarak Türkçe için Kavram Madenciliği Metotları Geliştirme

Türkçe de Ünlülerin Formant Analizi

DİZİN. Not: Koyu harfle yazılan sayfalar ilgili terimin yoğun olarak geçtiği sayfaları göstermektedir.

Türkçe Eğitimi Anabilim Dalı- Tezli Yüksek Lisans Programı Ders İçerikleri

Alkın Küçükbayrak Çeşitli Alanlarda Yapay Zeka Ajanları I

TEMEL BİLGİTEKNOLOJİLERİ

Bil101 Bilgisayar Yazılımı I. M. Erdem ÇORAPÇIOĞLU Bilgisayar Yüksek Mühendisi

UNI-101 Üniversite Yaşamına Giriş Dersi İNGİLİZ DİLBİLİMİ BÖLÜMÜ

Büyük, Dağıtık, Veri Yoğunluklu Uygulamalarda Programlama Paradigmaları

Oracle Database 11g: Introduction to SQL

Sosyal Bilimler Metinleri Çevirisi (ETI303) Ders Detayları

Yeşim AKSAN, Selma Ayşe ÖZEL, Yasin BEKTAŞ, Mustafa AKSAN, Umut Ufuk DEMİRHAN, Ümit MERSİNLİ, Hakan YILMAZER. Sunan : Yasin BEKTAŞ.

SQL veri tabalarına erişmek ve onları kullanmak için geliştirilmiş bir lisandır.

VERİ MADENCİLİĞİ Metin Madenciliği

Lesson 22: Why. Ders 22: Neden

Fen Edebiyat Fakültesi Mütercim Tercümanlýk (Ýngilizce)

Bilgi Erişim Sorunu. Yaşar Tonta. Hacettepe Üniversitesi yunus.hacettepe.edu.tr/~tonta/ BBY163 Bilgi Yönetimi Kavramları

Internet te Pazarlama

Sunum: Yrd. Doç. Dr. Şadi Evren ŞEKER

ARDAHAN ÜNİVERSİTESİ İNSANİ BİLİMLER VE EDEBİYAT FAKÜLTESİ ÇAĞDAŞ TÜRK LEHÇELERİ VE EDEBİYATLARI BÖLÜMÜ DÖRT YILLIK-SEKİZ YARIYILLIK DERS PROGRAMI

Bu işleçlerin dışında, aşağıda belirtilen karşılaştırma işleçlerinden de yararlanılır.

Bilgisayara Giriş (CMPE103) Ders Detayları

İTÜ LİSANSÜSTÜ DERS KATALOG FORMU (GRADUATE COURSE CATALOGUE FORM)

TEMEL BĐLGĐ TEKNOLOJĐLERĐ KULLANIMI BÜLENT TURAN

Yazılım Mühendisliği 1

Türkçe nin Bağlılık Ayrıştırması. Gülşen Cebiroğlu Eryiğit

İşletim Sisteminin Temel İşlemleri

MESLEKİ TERMİNOLOJİ I 1. HAFTA YAZILIM MÜH. TEMEL KAVRAMLAR

ANKARA ÜNİVERSİTESİ DİL ve TARİH-COĞRAFYA FAKÜLTESİ DİLBİLİM BÖLÜMÜ LİSANS PROGRAMI DERS İÇERİĞİ

I. SINIF-GÜZ DÖNEMİ DİLBİLİME GİRİŞ I (3+0) 3 AKTS 6

T.C. HACETTEPE ÜNĐVERSĐTESĐ Sosyal Bilimler Enstitüsü

VERİ MADENCİLİĞİ önemsiz olmayan, gizli, önceden bilinmeyen, potansiyel olarak kullanışlı

Lesson 35: Gerund 2 Ders 35: İsim-fiil 2

MÜFREDAT DERS LİSTESİ

Soru Cevaplama. Reyyan Yeniterzi. Özyeğin Üniversitesi Bilgisayar Mühendisliği Bölümü

Hayat Bilgisi Veritabanı Kullanarak Otomatik Cümle Üretimi

Yazılım Çeşitleri. Uygulama Yazılımları. İşletim Sistemleri. Donanım

VERİ YAPILARI VE PROGRAMLAMA

ANKARA ÜNİVERSİTESİ ÖĞRENCİ İŞLERİ DAİRE BAŞKANLIĞI

Karar Destek Sistemleri

Oxford English Dictionary Online. Gazi Üniversitesi Merkez Kütüphanesi

İşletim Sistemi. BTEP205 - İşletim Sistemleri

Öğr.Gör. Gökhan TURAN Gölhisar Meslek Yüksekokulu

BLM 4811 MESLEKİ TERMİNOLOJİ II Salı , D-109 Dr. Göksel Biricik

Maltepe Üniversitesi Endüstri Mühendisliği Bölümü Veri Tabanı Yönetimi (END 210)

READING WRITING ORAL COMMUNICATIO N SKILLS BASIC INFORMATION TECHNOLOGIES INTRODUCTION TO EDUCATION

Veritabanı. SQL (Structured Query Language)

T.C. ERCİYES ÜNİVERSİTESİ MÜHENDİSLİK FAKÜLTESİ BİLGİSAYAR MÜHENDİSLİĞİ BÖLÜMÜ EĞİTİM ÖĞRETİM YILI DERS KATALOĞU

Ders Adı Kodu Yarıyılı T+U Saati Ulusal Kredisi AKTS. İngilizce İNG

Programlama Nedir? Bir bilgisayar bilimcisi gibi düşünmek ve programlama ne demektir?

Veri Tabanı Tasarım ve Yönetimi

Doğal Dil İşleme(Natural Language Processing)

Öğrenim Kazanımları Bu programı başarı ile tamamlayan öğrenci;

Ünite-3 Bilgisayar Yazılımı.

FABREKA YAZILIM ELEKTRONİK DANIŞMANLIK TİC. LTD. ŞTİ.

Genel Çeviri II (ETI420) Ders Detayları

Lojistikte Karar Yönetimi ve Optimizasyon (LOJ 430) Ders Detayları

Sarıyer Belediyesi ile Her çocuk İngilizce konuşsun

WEB ARAÇLARI VE UZAKTAN EĞİTİM CEIT357-4.HAFTA

Bilişim Sistemleri. Modelleme, Analiz ve Tasarım. Yrd. Doç. Dr. Alper GÖKSU

Dilbilim ve Çeviri (ETI105) Ders Detayları

Güz Dönemi Zorunlu Dersleri

TURK DİL BİLGİSİ ÖĞRETİMİNDE BİRLEŞİK FULLERİN İŞLENİŞİ ÜZERİNE

Bilgiye Erişim Sistemleri Information Retrieval (IR) Systems. M.Fatih AMASYALI BLM 5212 Doğal Dil İşlemeye Giriş Ders Notları

İletişim ve Medya Çevirisi (ETI310) Ders Detayları

Dilbilgisi ve Diller

Marketing plan for your startup

Hidden Markov Model. Forward Algoritması Viterbi Algoritması. Doç.Dr.Banu Diri. Rasgele Olmayan /Gerekirci Model

"Her zaman düzeltme öner" seçeneği işaretliyse solda bulunan pencerenin "Öneriler" bölümünde düzeltme önerir.

Hafta 10 - Vektör Uzay Modelleri

Makine Öğrenmesi (COMPE 565) Ders Detayları

Transkript:

Doğal Dil Đşleme (DDĐ) Natural Language Processing (NLP) Doç.Dr.Banu Diri Konular DDĐ Genel Bakış (Course Overview) Dilbiliminin Esasları (Linguistics Essentials) Dilbilgisi ve Diller (Grammer and Language) Dil Modelleri (Language Models) SözDizimsel Analiz-POS (Part of Speech Tagging) Corpora ve N-Grams (Corpus & N-Grams) Eşdizimlilik (Collocation) HHM, Viterbi Algoritması 1

Konular Metin Sınıflandırma (Text Classification) Bilgi Çıkarımı (Information Extraction) Bilgiye Erişim Sistemleri (Information Retrieval) Makine Öğrenmesi (Machine Learning) Soru Cevaplama Sistemleri (Question Answering) Kelime Anlamları (Word Semantic) Machine Translation (Makine Çevirisi) Projeler (mayıs ayı içerisinde sunumu yapılacak) Araştırma Ödevi/Seminer Kaynaklar Speech and Language Processing: An Introduction to Natural Language Processing, Coputational Linguistics and Speech Recognition, D.Jurafsky and J. Martin Foundations of Statistical Natural Language Processing, C. Manning and H. Schutze Statistical Language Learning, Eugene Charniak and INTERNET 2

Dil Nedir? Sözcük ve cümle birimleri aracılığıyla, düşünceyi konuşmayla ilişkilendiren çok seviyeli bir sistemdir N.Chomsky Đnsanlar arasında bir iletişim aracıdır. Dilin bilgisayar ortamında modeli oluşturulursa iletişim için önemli bir araç elde edilmiş olur. Doğal Dil Đşleme, NLP (Natural Language Processing) olarak bilinen Yapay Zeka ve Dil Biliminin bir alt kategorisidir. Türkçe, Đngilizce, Almanca, Fransızca gibi doğal dillerin (insana özgü tüm diller) işlenmesi ve kullanılması amacı ile araştırma yapan bilim dalıdır. Dil bilimi veya Lengüistik, insan dilinin ilmi araştırmasıdır. Lengüistik, lisanların gelişmesini, aralarındaki bağları ve dünya üzerinde dağılımını araştırır. Bu araştırmayı yürütene lengüist denir. Lengüistiğin başlıca hedefi, insanın kendisi ve dünyası hakkında bilgi edinmek, bilgiyi depolamak ve ulaştırmaktır. 3

Uzman Sistemler ve Doğal Dil Đşleme NLP yani Doğal Dil Đşleme, doğal dillerin kurallı yapısını çözümlenerek anlaşılması veya yeniden üretilmesi amacını taşır. Bu çözümlemenin insana getireceği kolaylıklar, Sözcük işlemci (word processing) Yazılı dokümanların bir dilden diğer bir dile yarı otomatik olarak çevrilmesi Soru-cevap makineleri (bir veri tabanına SQL ile değilde, bir doğal dil ile sorgu yöneltme ve sistemin bunu çözümleyerek bir SQL sorgusuna çevirdikten sonra sonuçları kullanıcıya vermesi) Bilgisayar yardımıyla dil öğretmek, Çok ve tek dilli sözlüklere erişmek Doğal dilde cümle ve metin üretmek Metin özetleme Otomatik konuşma ve komut anlama Konuşma sentezi Konuşma tanıma ve üretme Bilgi sağlama gibi birçok başlıkla özetlenebilir. Bilgisayar teknolojisinin yaygın kullanımı, bu başlıklardan üretilen uzman yazılımların gündelik hayatımızın her alanına girmesini sağlamıştır. Örneğin, tüm kelime işlem yazılımları birer imla düzeltme aracı taşır.bu araçlar aslında yazılan metni çözümleyerek dil kurallarını denetleyen doğal dil işleme yazılımlarıdır. Konuşma ve komut anlama yazılımları gelecekte insan ve bilgisayar arasındaki klavye, fare gibi veri girişi aygıtlarını ortadan kaldıracak yazılımlardır. Bu gelişmeler makine-insan iletişiminde yeni ve devrimci değişimlere yol açacak ve bilgisayarın daha çok insan tarafından kabul görmesini sağlayacaktır. 4

Doğal Dil Đşleme Nedir? DDĐ, ana işlevi bir doğal dili çözümleme, anlama, yorumlama ve üretme olan bilgisayar sistemlerinin tasarımını ve gerçekleştirilmesini konu alan bir mühendislik dalıdır. Sabit algoritmalar içermediğinden ve belirsizliklere sahip olduğundan bir NP problemidir. Yapay zeka, biçimsel diller kuramı, kuramsal dilbilim, bilgisayar destekli dilbilim ve bilişsel pisikoloji gibi değişik alanlarda geliştirilmiş kuram, yöntem ve teknolojiler bütünüdür. Niçin Doğal Dil Đşleme? Tür, cinsiyet, sahiplik(yazar) Büyük miktarlarda veri Internet = en az 9 milyar sayfa Intranet Çok fazla sayıdaki dokümanların işlenmesi DDĐ de uzmanlık gerektirir Dokümanların kategorilerine göre sınıflandırılması Dokümanlarda arama ve indeksleme Otomatik çeviri Konuşma anlama Telefon konuşmalarını anlama Bilgi çıkarma DDĐ ile bir soru yöneltildiğinde Özgeçmişlerden sistem bunu gerekli çözümler bilgilerin ve SQL çıkarılması sorgusuna dönüştürüp işler sonra Otomatik özetleme kullanıcıya cevap döndürür Kitabın bir sayfasına yoğunlaşmak Soru cevaplama Bilgi elde etme Text ve diyalog üretmek 5

Doğal dil alanındaki temel araştırmalar Doğal dillerin işlev ve yapısının daha iyi anlaşılması Bilgisayar ve insanlar arasında arabirim olarak doğal dili kullanmak ve aradaki iletişimi kolaylaştırmak Bilgisayar yardımıyla bir dilden diğerine çeviri yapmak Japonya, Almanya, Đngiltere, ABD, Hollanda gibi ülkelerde bu alanda yazılımlar geliştirilmiş Bilim ve iş alanındaki geçerli dil Đngilizce Türkçe deki çalışmalar yetersiz kalmaktadır Doğal? Doğal Dil? Đnsanlar tarafından konuşulan diller, Đngilizce, Japonca, Türkçe, vs., buna karşılık yapay diller, C++, Java, vs. 3000 ile 4000 arasında değişik dil var UNESCO tarafından 6 tanesi resmi dil olarak kabul edilmiştir (Çince-1 milyar, Đngilizce-400 milyon, Đspanyolca-300 milyon, Rusça-280 milyon, Fransızca-200 milyon ve Arapça-180 milyon) Türk dili ve lehçeleri 150 milyon Çok dillilik ve iletişim güçlüğü yapay dillerin doğmasına neden olmuştur (hiçbir halkın dili olmayan mantıksal düzende kurulu) Yapay dillerin en tanınmışı Polonyalı L.L. Zamenkov un ortaya attığı Esperanto dur Bilim ve iş dünyasının dili Đngilizce olmuştur Türkiye Cumhuriyetleri nde Türkiye Türkçesi önemli bir yer tutmaktadır 6

Niçin Doğal Dil Đşleme? kjfmmfj mmmvvv nnnffn333 Uj iheale eleee mnster vensi credur Baboi oi cestnitze Coovoel2^ ekk; ldsllk lkdf vnnjfj? Fgmflmllk mlfm kfre xnnn!!!! Bilgisayarlar doğal dilde yazılmış bir dokümanı bizim bir önceki slaytı gördüğümüz gibi görür! Đnsanların bir dili anlaması zor değildir Sağduyuya sahip Mantıklı düşünebilme kapasitesi (reasoning capacity) Deneyim Bilgisayarlar ise Sağduyuya sahip değil Mantıklı düşünemez Biz onlara öğretmediğimiz sürece! 7

DDĐ nin bilgisayar bilimindeki yeri neresidir? Bilgisayar Bilimleri Veritabanı... Yapay Zeka... Algoritmalar Network Robotlar... Doğal Dil Đşleme... Uzman Sistemler Bilgi elde etme (Information Retrieval) Otomatik Çeviri... (Machine Translation)... Dil Analizi (Language Analysis) Anlamsal (Semantics) Ayrıştırma (Parsing) Analizin dilbilimsel seviyesi Konuşma Yazım Dili Sesbilim (phonology): sesler / harfler / telaffuz Biçimbilim (morphology): kelimenin yapısı Sözdizim (syntax): cümlenin anlamını oluşturan birimlerin hiyerarşik bir yapıda ifade edilmesi Anlamsal (semantic): cümlenin anlamı Seviyeler arasındaki etkileşim 8

Sözdizim-Syntax the dog ate my homework - Who did what? 1. Part of speech tagging (POS etiketleri) belirlenmesi Dog = noun ; ate = verb ; homework = noun 2. Identify collocations mother in law, hot dog Birleşik isimler (kitap kurdu)... Yüzeysel ayrıştırma: the dog chased the bear the dog chased the bear özne - yüklem ile ilgili olan Temel yapının belirlenmesi NP-[the dog] VP-[chased the bear] 9

... Tam ayrıştırma: John loves Mary... Anaphora Ayrıştırma (anaphora resolution): The dog entered my room. It scared me Köpek odama girdi ve beni ısırdı Edat ekleme (preposition attachment) I saw the man in the park with a telescope 10

Anlamsal-Semantics Doğal dili anlamak! Ama nasıl? plant = industrial plant plant = living organism Kelimelerdeki belirsizlikler Anlamsal analizin önemi? Machine Translation: hatalı çeviri Information Retrieval: hatalı bilgi Anaphora Resolution: hatalı referans Niçin Anlamsal Analiz? The sea is home to million of plants and animals English French [commercial MT system] Le mer est a la maison de billion des usines (fabrika) et des animaux French English 11

... Kelimenin anlamını nasıl öğreniriz? Sözlük kullanarak: plant, works, industrial plant -- (buildings for carrying on industrial labor; "they built a large plant to manufacture automobiles") plant, flora, plant life -- (a living organism lacking the power of locomotion) They are producing about 1,000 automobiles in the new plant The sea flora consists in 1,000 different plant species The plant was close to the farm of animals. Word Sense Disambigution (Kelime Anlamını Berraklaştırma)... Etiketlenmiş örneklerden öğrenme: Đçerisinde plant geçen 100 örneğin elle etiketlendiğini varsayalım Öğrenme algoritmalarıyla sistemi eğitelim (machine learning alg.) Sistemin duyarlılığını kontrol edelim Đngilizce çalışmalardaki başarı 60%-70%-(80%) 12

Bilgi Çıkarımı- Information Extraction There was a group of about 8-9 people close to the entrance on Highway 75 Who? 8-9 people Where? highway 75 Đstenilen bilgiyi çıkarma Yeni kalıplar (patern) bulmak Saklı bilgi, vs. US-Gov./mil. Milyonlarca dolar harcamaktadır IE araştırmalarına Bilgiyi Elde Etme-Information Retrieval Genel model: Çok fazla sayıda doküman Sorgu Görev: Verilen sorgu ile ilgili dokümanları bulma Nasıl? Đndeks yarat, bir kitabın indeksi gibi Sonra Vektörel modeller (vectorial models) Boolean modeller Örnek: Google, Yahoo, Altavista, vs. 13

... Indekslemenin anlamı (=living organism) anlamını taşıyan plant kelimesi aranırken içerisinde (=industrial plant) anlamına gelen plant kelimesinin geçtiği dokümanların gelmemesi Fakat flora veya ilgili bir başka kelimenin yer aldığı dokümanların arama sonucunda getirilmesi Index parsed relations... Özel bir bilgininde getirilmesi istenebilir Soru Cevaplama (question answering) What is the height of mount Everest? 11,000 feet Current state-of-the-art 40-50% Belirlenmiş özel bir alanda soru cevap yapmak 14

... Karşı dilde bilgiyi bulma! Cross Language Information Retrieval What is the minimum age requirement for car rental in Italy? Đtalyanca text lerde de arama yapabilmek için cümle Đtalyancaya çevrilir. eta minima per noleggio macchine Makine Çevirisi-Machine Translations Text to Text Machine Translations Speech to Speech Machine Translations Bu tip çalışmalar yaygın olan dil çiftleri için yapılmıştır Đngilizce-Fransızca, Đngilizce-Çince 15

... Text bir dilden diğerine nasıl çevrilir? Önceden yapılmış olan çeviriler sisteme öğretilir Paralel bir külliyata ihtiyaç vardır Fransızca-Đngilizce, Çince-Đngilizce Makul çeviriler Çince-Hintçe günümüzde uygun bir külliyat yoktur! 16