Dil Modelleri. Doç.Dr.Banu Diri

Benzer belgeler

Kelime Gösterimleri (Word Representation Word Embeddings)

Hidden Markov Model. Forward Algoritması Viterbi Algoritması. Doç.Dr.Banu Diri. Rasgele Olmayan /Gerekirci Model

HECE TABANLI ĠSTATĠSTĠKSEL YÖNTEMLER ĠLE YAZIM HATASI BULMA VE DÜZELTME. Müh. Özlem Sema EROĞLU

Ünite 6. Hungry Planet II. Kampüsiçi Ortak Dersler İNGİLİZCE. Okutman Hayrettin AYDIN

İNGİLİZCE II Yrd. Doç. Dr. Emrah EKMEKÇİ

Dil Modelleri. İstatistiksel Dil Modelleri*

Örnek 4.1: Tablo 2 de verilen ham verilerin aritmetik ortalamasını hesaplayınız.

Lesson 30: will, will not Ders 30: will, will not

SÜREKLĠ OLASILIK DAĞILIMLARI

«Soru Sormak ve Bir Şey İstemek»

KRİPTOANALİZ DERSİ FİNAL ÖDEVİ. PSO ile TRANSPOSITION CIPHER ÇÖZÜMÜ

Eşdizimlilik (Collocation)

Metin Sınıflandırma. Akış

Lesson 63: Reported speech. Ders 63: Bildirilen konuşma

Genel olarak test istatistikleri. Merkezi Eğilim (Yığılma) Ölçüleri Dağılım (Yayılma) Ölçüleri. olmak üzere 2 grupta incelenebilir.

1. English? a. She is b. Is c. He d. Is she. 1. This is an office, and tables. a. those are b. that are c. these d. that is. 1. This is girlfriend.

Türkçe için Verimli bir Cümle Sonu Belirleme Yöntemi

Formal Diller Ve Otomat Teorisi

I WOULD come to the party but... You He,She,It We They

Dil Gelişimi. temel dil gelişimi imi bilgileri

5. Sınıf (Hazırlık) 5. Sınıf 6. Sınıf 7. Sınıf 8. Sınıf Story Time My Word Bank

NATURAL LANGUAGE PROCESSING

Türkçe Dokümanlar Ġçin Yazar Tanıma

Lesson 22: Why. Ders 22: Neden

Büyük, Dağıtık, Veri Yoğunluklu Uygulamalarda Programlama Paradigmaları

Toplam İkinci harmonik. Temel Üçüncü harmonik. Şekil 1. Temel, ikinci ve üçüncü harmoniğin toplamı

ECEM ERDURU GAMZE SERİN ZEHRA SABUR EMİNE ÖLMEZ. o TAMSAYILAR KONUSU ANLATILMAKTADIR

Görüntü Segmentasyonu (Bölütleme)

FORMÜL ADI (FONKSİYON) FORMÜLÜN YAZILIŞI YAPTIĞI İŞLEMİN AÇIKLAMASI

Bir özvektörün sıfırdan farklı herhangi bri sabitle çarpımı yine bir özvektördür.

Belirteç Seçiminin Huffman Kodlaması Üzerine Etkisi

Herhangi bir rastgele değişken için kümülatif dağılım fonksiyonu/cumulative distribution function (KDF/CDF) şu şekilde tanımlanır.

KONU2 MERKEZİ EĞİLİM ÖLÇÜLERİ EĞİLİM ÖLÇÜLERİ ANALİTİK ORTALAMALAR ANALİTİK OLMAYAN MERKEZİ. Aritmetik ortalama **Medyan(median)

Adım Adım SPSS. 1- Data Girişi ve Düzenlemesi 2- Hızlı Menü. Y. Doç. Dr. İbrahim Turan Nisan 2011

can herhangi bir şeyi yapabilmeye yetenekli olduğumuzu belirtmek için

<abbrevations> <abbr> </abbr>

İŞLETMELERDE BECERİ EĞİTİMİ DERSİ MİCROSOFT WORD 2007 ÇALIŞMALARI

Doküman dili tanıma için ikili örüntüler tabanlı yeni bir yaklaşım

İNGİLİZCE KURSLARI İÇİN KAYIT KABUL FORMU

T.C. AKSARAY ÜNİVERSİTESİ REKTÖRLÜĞÜ AKADEMİK YABANCI DİL DESTEK (AYDD) BİRİMİ ÇALIŞMA ESASLARI

ÜĞÜ AR-GE BİRİMİ ÇALIŞMASIDIR

Sözlük Kullanarak Türkçe için Kavram Madenciliği Metotları Geliştirme

Algoritmalar ve Programlama. DERS - 2 Yrd. Doç. Dr. Ahmet SERBES

Sargın Test 8. Sınıf

BİYOİSTATİSTİK Olasılıkta Temel Kavramlar Yrd. Doç. Dr. Aslı SUNER KARAKÜLAH

Kümülatif Dağılım Fonksiyonları. F X (x) = P (X x) = P X (x) = P (X x) = p X (x ) f X (x) = df X(x) dx

Lesson 19: What. Ders 19: Ne

REFLECTIONS. 8.Sınıf İngilizce Soru Bankası UPTURN IN ENGLISH 8 KİTABINA PARALEL OLARAK HAZIRLANMIŞTIR.

Bir işaretli büyüklük sayısında en soldaki basamak bir işaret içerir. Diğer basamaklarda ise sayısal değerin büyüklüğü (mutlak değeri) gösterilir.

He eats meat. She eats meat. It eats meat.

6. SINIF GENEL AÇIKLAMA

TEST. kar daki resimde di italolarak ea a dakilerden. parents every morning. hangisidir?

Üyelerimizi; "anlıyorum konuşamıyorum", "konuşabiliyorum", "akıcı konuşabiliyorum" şeklinde üçe ayırıyoruz.

Tanımlayıcı İstatistikler. Yrd. Doç. Dr. Emre ATILGAN

TEOG 1. MERKEZİ ORTAK SINAVLAR İNGİLİZCE DERSİ BENZER SORULARI

VERİ MADENCİLİĞİ Metin Madenciliği

DEÜ MÜHENDİSLİK FAKÜLTESİ FEN BİLİMLERİ DERGİSİ Cilt: 12 Sayı: 3 sh Ekim 2010 BİÇİMBİLİME DAYALI DOKÜMAN SIKIŞTIRMA

Get started with Google Drive

ALGORİTMA VE PROGRAMLAMA I DERS NOTU#8

Otomatik Ses Tanıma: Türkçe için Genel Dağarcıklı Akustik Model Oluşturulması ve Test Edilmesi

Verilerin Özetlenmesinde Kullanılan Sayısal Yöntemler

İstatistik ve Olasılık

İÇİNDEKİLER. BÖLÜM 1 Değişkenler ve Grafikler 1. BÖLÜM 2 Frekans Dağılımları 37

Grade 8 / SBS PRACTICE TEST Test Number 6 SBS PRACTICE TEST OH! Thank you very much. You are a A) occupied / fought

a) Present Continuous Tense (Future anlamda) I am visiting my aunt tomorrow. (Yarin halamı ziyaret ediyorum-edeceğim.)

Hafta 10 - Vektör Uzay Modelleri

PROJE ADI: TEKRARLI PERMÜTASYONA BİNOM LA FARKLI BİR BAKIŞ

Lesson 41: may, might, might not. Ders 41: -ebilmek, might, might not

Toplam Olasılık Prensibi

Prof.Dr.İhsan HALİFEOĞLU

Ses Temelli Cümle Yöntemi. 1 Hazırlayan: Doç. Dr. Berrin Baydık

Lesson 33: Interrogative forms of be going to, be + verb~ing for expressing near future

Bugünkü Değer Hesaplamaları

Türkçe Dokümanlar İçin N-gram Tabanlı Yeni Bir Sınıflandırma(Ng-ind): Yazar, Tür ve Cinsiyet

TÜRKÇE DOKÜMANLARIN SINIFLANDIRILMASI

İstatistik Nedir? İstatistiğin Önemi Nedir? Tanımlayıcı ve Çıkarımcı İstatistik ttitik Tanımlayıcı İstatistik Türleri Çıkarımcı İstatistiğin i iği

Merkezi Eğilim ve Dağılım Ölçüleri

Zihinsel Yetersizliği olan bireylere Okuma- Yazma Öğretimi. Emre ÜNLÜ

E-Learning, Sınıf ve Özel eğitimlerimiz için adresinden bilgi alabilirsiniz.

Türkçe ve Arapçada Sessiz Harfler Karşılaştırma Çalışması

Dosya Sıkıştırma (File Compression) Kütük Organizasyonu 1

BİLGİSAYAR MÜHENDİSLİĞİ ALGORİTMA VE PROGRAMLAMA II 2.HAFTA SWİTCH (CASE), SAYAÇLAR, DÖNGÜLER,

Madde güçlük indeksi: Herbir maddenin zorluk derecesini, uygun güçlük düzeyine sahip olup olmadığını gösterir.

1. Superlative lerden sonra gelen fiil infinitive olur. ( the latest species to join the

Lesson 24: Prepositions of Time. (in, on, at, for, during, before, after) Ders 24: Zaman Edatları. Zaman Edatlarını Kullanmak

Yaklaşık Düşünme Teorisi

2. (x 1 + x 2 + x 3 + x 4 + x 5 ) 10 ifadesinin açılımında kaç terim vardır?

BASICS OF ENGLISH SENTENCE STRUCTURE

Example: 1 Shall I give the baby some tea? (Bebeğe biraz çay vereyim mi?)

Parametrik Olmayan İstatistik. Prof. Dr. Cenk ÖZLER

BMB204. Veri Yapıları Ders 12. Dizgi Eşleme (String Matching) Algoritmaları İleri Veri Yapıları

Nitel Tepki Bağlanım Modelleri

56. Future Continuous Tense Konu Anlatımı (Gelecekte Devam Eden Zaman) (

Algoritma ve Akış Diyagramları

6. SINIF TATİL PROGRAMI

2) Aşağıda verilen işlemleri yazınız. g) ( ) 3) Aşağıda verilen işlemleri yazınız. 4) Aşağıda verilen işlemleri yazınız.

MATE211 BİYOİSTATİSTİK

HAYAT BİLGİSİ. Nükhet YILMAZ İlkokul Akademik Koord.

Lesson 38: Infinitive 3. (how, what, where, when + infinitive) Ders 38: Mastar 3. (nasıl, ne, nerede, ne zaman + mastar)

Transkript:

Dil Modelleri Doç.Dr.Banu Diri Dilin modellenmesinin amacı Konuşma tanıma (Speech recognition) El yazısı tanıma (Handwriting recognition) İmla hatalarının düzeltilmesi (Spelling correction) Makine çeviri sistemleri (Machine translation systems) Optik karakter tanıma (Optical character recognizers) Slide 1 1

El yazısı tanıma (Handwriting recognition) Bankadaki veznedara bir not verildiğini düşünün, ve veznedar notu I have a gub olarak okusun. (cf. Woody Allen) NLP burada yardımcı olur. gub ingilizcede anlamlı bir kelime değildir. gun, gum, Gus, ve gull olabilir, fakat gun kelimesinin banka ile ilişki olasılığı daha fazla olduğundan gub, gun olarak alınır. Slide 2 İmla hatalarının kontrolünde Birbirinin yerine sıklıkla geçebilen kelimeler piece/peace, whether/weather, their/there... Örnek: On Tuesday, the whether On Tuesday, the weather Slide 3 2

Harf-tabanlı (Letter-based) dil modelleri Slide 4 Harf-tabanlı (Letter-based) dil modelleri W Slide 5 3

Harf-tabanlı (Letter-based) dil modelleri Wh Slide 6 Harf-tabanlı (Letter-based) dil modelleri Wha Slide 7 4

Harf-tabanlı (Letter-based) dil modelleri What Slide 8 Harf-tabanlı (Letter-based) dil modelleri What d Slide 9 5

Harf-tabanlı (Letter-based) dil modelleri What do Slide 10 Harf-tabanlı (Letter-based) dil modelleri What do you think the next letter is? Slide 11 6

Letter-based Language Models What do you think the next letter is? Guess the next word: Slide 12 Harf-tabanlı (Letter-based) dil modelleri What do you think the next letter is? Guess the next word: What Slide 13 7

Harf-tabanlı (Letter-based) dil modelleri What do you think the next letter is? Guess the next word: What do Slide 14 Harf-tabanlı (Letter-based) dil modelleri What do you think the next letter is? Guess the next word: What do you Slide 15 8

Harf-tabanlı (Letter-based) dil modelleri What do you think the next letter is? Guess the next word: What do you think Slide 16 Harf-tabanlı (Letter-based) dil modelleri What do you think the next letter is? Guess the next word: What do you think the Slide 17 9

Harf-tabanlı (Letter-based) dil modelleri What do you think the next letter is? Guess the next word: What do you think the next Slide 18 Harf-tabanlı (Letter-based) dil modelleri What do you think the next letter is? Guess the next word: What do you think the next word is? Slide 19 10

zero-order approximation: harflerin sıraları birbirinden bağımsız xfoml rxkhrjffjuj zlpwcwkcy ffeyvkcqsghyd first-order approximation: harfler birbirinden bağımsızdır, fakat dildeki (Ingilizce) harflerin dağılımlarına göre meydana gelir ocro hli rgwr nmielwis eu ll nbnesebya th eei alhentppa oobttva nah Slide 20 second-order approximation: bir harfin görülme olasılığı bir önceki harfe bağlıdır On ie antsoutinys are t inctore st bes deamy achin dilonasive tucoowe at teasonare fuzo tizin andy tobe seace ctisbe third-order approximation: bir harfin görülme olasılığı kendisinden önce gelen iki harfe bağlıdır in no ist lat whey cratict froure birs grocid pondenome of demonstures of the reptagin is regoactiona of cre Slide 21 11

Farklı diller için yüksek frekanslı trigram lar: İngilizce: THE, ING, ENT, ION Almanca: EIN, ICH, DEN, DER Fransızca: ENT, QUE, LES, ION İtalyanca: CHE, ERE, ZIO, DEL İspanyolca:QUE, EST, ARA, ADO Slide 22 Dillerdeki hece benzerlikleri Aynı aile içerisinde bulunan diller birbirlerine diğer dillere göre daha fazla benzer Aynı aile içerisinde yer alan diller birbirlerine nasıl benzerler? Hece tabanlı benzerlik Slide 23 12

Aile içerisinde yer alan her bir dildeki en fazla kullanılan kelimeler çıkarılır; Kelimeler hecelerine ayrılır; Hecelerin frekansları hesaplanır; Heceye dayalı dildeki benzerlik hesaplanır Slide 24 Örnek: Romance dilleri ailesi Romance dillerindeki heceler Slide 25 13

Latin-Romance Dillerinin Benzerliği Slide 26 Slide 27 14

Slide 28 Slide 29 15

Kelime Tabanlı Dil Modelleri Dil modeli, S cümlesinin olasılığını (likelihood/probability) hesaplamaya yardımcı olur, P(S). En basit haliyle, herbir kelime bir sonraki w kelimesini eşit olasılıkla izler (0-gram). V sözlüğünün boyunun V olduğunu farzedelim. Buna göre n uzunluğundaki S cümlesinin olasılığı (likelihood) = 1/ V 1/ V 1/ V olarak hesaplanır. Eğer bir dilde 100,000 kelime varsa, gelecek olan herbir kelimenin olasılığı 1/100000 =.00001 dır. Slide 30 Kesin: gelecek olan her kelimenin olasılığı kelimenin frekansı ile ilişkilidir. cümlenin olasılığı S = P(w 1 ) P(w 2 ) P(w n ) herbir kelimenin olasılığı diğer kelimelerin olasılıklarından bağımsızdır. En kesin: daha önce verilmiş olan kelimenin olasılığına bakılır (n-gram). S cümlesinin olasılığı = P(w 1 ) P(w 2 w 1 ) P(w n w n-1 ) her kelimenin olasılığının diğer kelimelerin olasılıklarına bağlı olduğu farzedilir. Slide 31 16

Zincir Kuralı (Chain Rule) Şartlı olasılık P(A 1,A 2 ) = P(A 1 ) P(A 2 A 1 ) Zincir kuralı, çoklu olaylar ile genelleştirildiğinde (A 3 A 1,A 2 ) P(A n A 1 A n-1 ) yazılır. Örnekler: P(the dog) = P(the) P(dog the) P(the dog bites) = P(the) P(dog the) P(bites the dog) Slide 32 For a Word String Bir string w 1n = w 1 w n oluşsun. Bu stringin olasılığı P(w 1n ) = P(w 1 )P(w 2 w 1 )P(w 3 w 1..w 2 ) P(w n w 1 w n-1 ) = n k = 1 P( w k w1 k 1 ) Fakat bu yaklaşım genelde, bir kelime sırasının olasılığını belirlemek için çok yararlı değildir. Hesaplama maliyeti çok yüksektir. Slide 33 17

Markov Yaklaşımı P(w n w 1 n-1 ) nasıl hesaplanır? P(rabbit I saw a) yerine, P(rabbit a) kullanılabilir. Bigram model: P(the barking dog) = P(the <start>)p(barking the)p(dog barking) Markov modeller olasılık modeli olup, gelecek bir birimin olasılığını çok uzak geçmişine bakmaksızın yakın geçmişe bakarak olasılıklarını tahmin etmedir. N=2 (bigram): P(w 1n ) Π k=1 n P(w k w k-1 ); w 0 = <start> Slide 34 Terminoloji Cümle/Sentence: yazım dilinin birimi Söz-laf/Utterance: konuşma dilinin birimi Kelime formu/word Form: Kullanıma göre kelimenin formunun değiştirilmesi Types (V): corpus içerisinde yer alan ayrık kelime sayısı (vocabulary size) Token (N T ): corpus içerisindeki toplam kelime sayısı Şimdiye kadar gözüken kelime sayısı (T): corpus da görülen ayrık kelime sayısı (V ve N T küçüktür) Slide 35 18

Basit N-Grams N-gram model, gelecek kelimeyi tahmin edebilmek için önceki N-1 adet kelimeyi kullanır. P(w n w n-n+1 w n-n+2 w n-1 ) unigrams: P(dog) bigrams: P(dog big) trigrams: P(dog the big) quadrigrams: P(dog chasing the big) Slide 36 N-Grams kullanımı Hatırla N-gram: P(w n w 1 n-1 ) P(w n w n-n+1 n-1 ) Bigram: P(w 1n ) n k = 1 ( ) P w k w k 1 Bigram grameri: Cümlenin olasılığı P(cümle), cümle içerisinde yer alan bütün bigram ların olasılıklarının çarpına yakın bir değerdir. Örnek: P(I want to eat Chinese food) = P(I <start>) P(want I) P(to want) P(eat to) P(Chinese eat) P(food Chinese) Slide 37 19

Bigram Gramer Parçaları Eat on.16 Eat Thai.03 Eat some.06 Eat breakfast.03 Eat lunch.06 Eat in.02 Eat dinner.05 Eat Chinese.02 Eat at.04 Eat Mexican.02 Eat a.04 Eat tomorrow.01 Eat Indian.04 Eat dessert.007 Eat today.03 Eat British.001 Slide 38 Ek gramer <start> I.25 Want some.04 <start> I d.06 Want Thai.01 <start> Tell.04 To eat.26 <start> I m.02 To have.14 I want.32 To spend.09 I would.29 To be.02 I don t.08 British food.60 I have.04 British restaurant.15 Want to.65 British cuisine.01 Want a.05 British lunch.01 Slide 39 20

Cümlenin olasılığının hesaplanması P(I want to eat British food) = P(I <start>) P(want I) P(to want) P(eat to) P(British eat) P(food British) =.25.32.65.26.001.60 =.000080 P(I want to eat Chinese food) =.00015 Olasılıklar dünyanın bildiği bir gerçeği göstermektedir. Slide 40 N-grams sonuçları Sparse data Eğitim seti içerisinde bütün N-gram lar yer almayabilir ve bu n- gram ların frekansı sıfır olarak alınır, bu yüzden yumuşatma (smoothing) tekniklerine ihtiyaç duyulur. P( And nothing but the truth ) 0.001 P( And nuts sing on the roof ) 0 Slide 41 21

Bigram Sayıları I Want To Eat Chinese Food lunch I 8 1087 0 13 0 0 0 Want 3 0 786 0 6 8 6 To 3 0 10 860 3 0 12 Eat 0 0 2 0 19 2 52 Chinese 2 0 0 0 0 120 1 Food 19 0 17 0 0 0 0 Lunch 4 0 0 0 0 1 0 Slide 42 Bigram Olasılıkları: Unigram sayısını kullanarak Unigram değerleri I Want To Eat Chinese Food Lunch 3437 1215 3256 938 213 1506 459 Computing the probability of I I P(I I) = C(I I)/C(I) = 8 / 3437 =.0023 Bigram grameri VxV boyutunda bir olasılıklar matrisidir. V, sözlük boyutu Slide 43 22

Bigram Grameri Bigram için kullanılan formül (parameter estimation) P(w n w n-1 ) = C(w n-1 w n )/C(w n-1 ) Slide 44 Yumuşatma (Smoothing) Teknikleri Çok geniş bir corpora ya sahip olsak bile N- gram eğitim matrisi sparse bir matrisdir (Zipf s law ). Çözüm: gözükmeyen n-gram olasılıklarını tahmin etmek Slide 45 23

Add-one Smoothing Her n-gram değerine 1 eklenir. N T /(N T +V) katsayısı ile normalize edilir Yumuşatılmış toplam: (smoothed count) c i =(c i +1) NT N + V T Yumuşatılmış olasılık (smoothed probability): P (w i ) = c i /N T Slide 46 Add-one Smoothed Bigrams P(w n w n-1 ) = C(w n-1 w n )/C(w n-1 ) P (w n w n-1 ) = [C(w n-1 w n )+1]/[C(w n-1 )+V] Slide 47 24

Slide 48 Slide 49 25

Diğer yumuşatma teknikleri: Good-Turing Balık tutmaya çıktığınızı hayal edin... Ve 10 tane aynalı sazan (carp), 3 tane morina (cod), 2 tane tuna, 1 tane alabalık (trout), 1 tane som balığı (salmon), 1 tane de yılan balığı (eel) yakalamış olun. Bir sonra ki yakalanacak olan balığın yeni bir tür olma olasılığı nedir? 3/18 Slide 50 Back-off Yöntemi Hatırlatma :N-gram lar her zaman (N-1) gram a göre daha duyarlıdır. Fakat, N-gram lar (N-1) gram a göre daha fazla sparse tır. Bu ikisi nasıl birleştirilir? N-gram ın frekans değeri uygun değilse (sıfır ise) vazgeçilir (back-off) ve (n-1) gram a dönülür. Monogram a kadar devam edilir. Recursive bir yapı sözkonusudur. Slide 51 26

Slide 52 27