Dil Modelleri. İstatistiksel Dil Modelleri*

Benzer belgeler
Doğal Dil İşleme Nedir? Doğal Dil İşleme

Metin Sınıflandırma. Akış

Sözlük Kullanarak Türkçe için Kavram Madenciliği Metotları Geliştirme

Ayrık Olasılık. Ayrık Olasılığa Giriş

İstatistik Dersi Çalışma Soruları Arasınav(Matematik Müh. Bölümü-2014)

MIT OpenCourseWare Ekonomide İstatistiksel Yöntemlere Giriş Bahar 2009

VERİ MADENCİLİĞİ Metin Madenciliği

Başbakanlıktan: Karar Sayısı : 2016/477. Başbakanlıktan: Karar Sayısı : 2016/ /08/2016 Recep Tayyip ERDOĞAN CUMHURBAŞKANI.

Gezgin Satıcı Probleminin İkili Kodlanmış Genetik Algoritmalarla Çözümünde Yeni Bir Yaklaşım. Mehmet Ali Aytekin Tahir Emre Kalaycı

ÜNİTE:1. İstatistiğin Tanımı, Temel Kavramlar ve İstatistik Eğitimi ÜNİTE:2. Veri Derleme, Düzenleme ve Grafiksel Çözümleme ÜNİTE:3

BAYES KURAMI. Dr. Cahit Karakuş

BÖLÜM III: Şebeke Modelleri. Şebeke Kavramları. Şebeke Kavramları. Şebeke Kavramları. Yönlü Şebeke (Directed Network) Dal / ok

( ) (, ) Kombinasyon. Tanım: r n olmak üzere n elemanlı bir kümenin r elemanlı her alt kümesine bu n elemanın r li kombinasyonu denir.

YÖNEYLEM ARAŞTIRMASI-2 -Markov Zincirleri-

BÖLÜM 1. İLETİŞİM, ANLAMA VE DEĞERLENDİRME (30 puan) Metni okuyunuz ve soruları cevaplayınız. MUTLULUK HİKAYESİ

Makro İktisat II Örnek Sorular. 1. Tüketim fonksiyonu ise otonom vergi çarpanı nedir? (718 78) 2. GSYİH=120

kişi biri 4 kişilik, üçü ikişer kişilik 4 takıma kaç farklı şekilde ayrılabilir? (3150)

İSTATİSTİKSEL TAHMİNLEME. Örneklem istatistiklerinden hareketle ana kütle parametreleri hakkında genelleme yapmaya istatistiksel tahminleme denir.

8. AB ve BA iki basamaklı sayılarının 17 ile bölümünden kalanların toplamı 17 dir. Buna göre A B kaçtır? işleminin sonucu kaçtır?

EKONOMİK VE MALİ POLİTİKA GENEL BAŞKAN YARDIMCILIĞI Aralık 2011, No:14

Toplam Olasılık Prensibi

3. Ünsal Tülbentçi Matematik Yarışması Mayıs Sınıf Sayfa 1

Söz konusu dönemde benzinli otomobil sayısı ise yüzde 27,8'lik azalışla 4 milyon 62 bin adetten 2 milyon 929 bin adete geriledi.

Case & Fair & Oster. Bölüm 4 Talep ve Arz Uygulamaları

ĐŞLE 544 ĐSTATĐSTĐK ARA SINAV 11 Mayıs 2006

TEMEL KAVRAMLAR Test -1

ALKÜ EKONOMİ ve FİNANS BÖLÜMÜ ISL 207 İSTATİSTİK I ALIŞTIRMALAR

KPSS 2009 GY-(31) YAPRAK TEST SORU KONU ANLATIM SAYFA SORU x olduğuna göre, x kaçtır? A) 5 B) 4 C) 3 D) 2 E) 1

-ÖRÜNTÜ NEDİR? Bir örnek verebilir misin?

ABCDE beş basamaklı bir doğal sayıdır.

Boyut: Belirli bir doğrultuda ölçülmüş bir büyüklüğü ifade etmek için kullanılan geometrik bir terim.

Türkçe Ders Kitaplarının İncelenmesi

YGS - LYS SAYILAR KONU ÖZETLİ ÇÖZÜMLÜ SORU BANKASI

VERİ MADENCİLİĞİ (Kümeleme) Yrd.Doç.Dr. Kadriye ERGÜN

AST416 Astronomide Sayısal Çözümleme - II. 6. Monte Carlo

YÖNETİM KURULU FAALİYET RAPORU ( )

İNSAN FAKTÖRLERİ. 3. Hafta / Yanlış İzlenimler Tevfik Uyar

Uygulama 6. Transkripsiyon yönü. Ekzonlar (kodlama bölgeleri) Transkripsiyon. Sonlandırıcı kodon başlangıcı

Cebir Notları. Birinci Derecen Denklemler TEST I. Gökhan DEMĐR, x

a. Aynı sırada çekilen herhangi iki kartın aynı d. 4. çekişte iki torbadan da 4 numaralı kartların e. 2. ve 4. çekişte aynı numaralı kartların

Temel Kavramlar 1 Doğal sayılar: N = {0, 1, 2, 3,.,n, n+1,..} kümesinin her bir elamanına doğal sayı denir ve N ile gösterilir.

Olasılık Föyü KAZANIMLAR

İki İlişkili Örneklem için t-testi. Tekrarlı ölçümler için t hipotez testine uygun araştırma çalışmalarının yapısını anlamak.

OLASILIK (İHTİMAL) TEORİSİ. DENEY (experiment),sonuç (outcome), OLAY (event) DENEY:Bir aktivitenin gözlemlenmesi ve ölçüm yapma şekilleridir.

I) DÖNEM PROJESİ. A) Sektörel Proje. Kapak Sayfası Başlık Öğrencinin Adı Soyadı Teslim Edildiği Tarih

İSTATİSTİK 2. Hipotez Testi 21/03/2012 AYŞE S. ÇAĞLI.

Dil Modelleri. Doç.Dr.Banu Diri

TÜRKİYE POLİPROPİLEN RAPORU 2016 PAGEV

MIT OpenCourseWare Ekonomide İstatistiksel Yöntemlere Giriş Bahar 2009

Olasılık, bir deneme sonrasında ilgilenilen olayın tüm olaylar içinde ortaya çıkma ya da gözlenme oranı olarak tanımlanabilir.

8. SINIF LGS MATEMATİK DENEME SINAVI - 2

HACETTEPE ÜNİVERSİTESİ BAHAR DÖNEMİ

Normal Alt Gruplar ve Bölüm Grupları...37

KONYA OTOMOTİV YAN SANAYİ İŞ KÜMESİ

Temel Kavramlar. (r) Sıfırdan farklı kompleks sayılar kümesi: C. (i) Rasyonel sayılar kümesi: Q = { a b

JEAN MONNET BURS PROGRAMI Akademik Yılı Farkındalık Artırma Toplantıları

Terör Olayları ve Enerji Zinciri : İstatistiksel bir İnceleme

SİMÜLASYON ÇEŞİTLERİ HAZIRLAYAN: ÖZLEM AYDIN

8.Hafta. Değişkenlik Ölçüleri. Öğr.Gör.Muhsin ÇELİK. Uygun değişkenlik ölçüsünü hesaplayıp yorumlayabilecek,

5. SINIF COŞMAYA SORULARI

6.Hafta Kıyım Fonksiyonu (Hashing), BST. Doğrudan erişim tabloları Çarpışmaları ilmekleme ile çözmek Kıyım fonksiyonu seçimi Açık adresleme

23 NİSAN İLKOKULU 2/C SINIFI DENEME SINAVI

Yrd. Doç. Dr. Fatih TOSUNOĞLU Erzurum Teknik Üniversitesi Mühendislik Fakültesi İnşaat Mühendisliği Bölümü

Düzce Üniversitesi Ziraat ve Doğa Bilimleri Fakültesi tarafından düzenlenen Düzce Fındık Çalıştayı İstiklal Konferans Salonu nda gerçekleştirildi

Yıldız Teknik Üniversitesi Endüstri Mühendisliği Bölümü KARAR TEORİSİ MARKOV SÜREÇLERİ. Markov Analizi

16. 6 kişinin katıldığı bir sınav başarı yönünden kaç farklı şekilde sonuçlanabilir? (64)

Finansal Matematik-WEB SORULARI Ekim-2016

İSTATİSTİK DERS NOTLARI

İçİ İç ndek ndek ler Birinci Kısım GİRİŞ 1. Dijital Devrim Yeni Ekonomi Küreselleşme ve Değişim...35

ANADOLU ÜNİVERSİTESİ OLASILIĞA GİRİŞ

7.Ders Bazı Ekonometrik Modeller. Đktisat (ekonomi) biliminin bir kavramı: gayrisafi milli hasıla.

OLASILIĞA GİRİŞ P( )= =

MIT OpenCourseWare Ekonomide İstatistiksel Yöntemlere Giriş Bahar 2009

MIT OpenCourseWare Ekonomide İstatistiksel Yöntemlere Giriş Bahar 2009

Olasılık bir olayın meydana gelme şansının sayısal ifadesidir. Örnekler:

Hidden Markov Model. Forward Algoritması Viterbi Algoritması. Doç.Dr.Banu Diri. Rasgele Olmayan /Gerekirci Model

Bölüm 3 Merkezi Konum (Eğilim) Ölçüleri. Giriş Veri kümesi. Ortalamalar iki grupta incelenir. A. Duyarlı olan ortalama. B. Duyarlı olmayan ortalama

YÖNEYLEM ARAŞTIRMASI - I

HADİ BAKALIM KOLAY GELSİN DİJİTAL İŞLEM NE UYGULANDI? SİNEMA - TİYATRO - KONSER

8. SINIF MATEMATiK OLASILIK. Murat ÇAVDAR OLASILIK. Olasılık: Sonucu önceden kesin olarak bilinmeyen rastlantıya bağlı olaylara olasılık denir.

İŞLEM KAVRAMI - 2. Çarpma-Bölme

DIŞ TİCARET BEKLENTİ ANKETİ ÇEYREĞİNE İLİŞKİN BEKLENTİLER

MIT OpenCourseWare Ekonomide İstatistiksel Yöntemlere Giriş Bahar 2009

YGS MATEMATİK SORU BANKASI

Ulusoy Un Sanayi ve Ticaret A.Ş. Halka Arz Fiyat Tespit Raporuna İlişkin Değerlendirme Raporu 10 Kasım 2014

Varant nedir? Varantların dayanak varlığı ne olacak? İlk uygulamada borsa endeksleri ve dolar/tl olacak.

İNŞAAT MALZEMELERİ SANAYİ DIŞ TİCARET ENDEKSLERİ SAYI-7 ŞUBAT 2018

MATEMATİK. Doç Dr Murat ODUNCUOĞLU

KÂR - ZARAR PROBLEMLERİ Test -1

Şartlı Olasılık. Pr[A A ] Pr A A Pr[A ] Bir olayın (A 1 ) olma olsılığı, başka bir olayın (A 2 ) gerçekleştiğinin bilinmesine bağlıysa;

BLM-431 YAPAY ZEKA. Ders-3 Durum Uzayında Arama. Yrd. Doç. Dr. Ümit ATİLA

İŞLEM KAVRAMI. Çarpma-Bölme

Sevdiğim Birkaç Soru

KAHRAMANMARAŞ SÜTÇÜ İMAM ÜNİVERSİTESİ EĞİTİM ÖĞRETİM YILI FEN-EDEBİYAT FAKÜLTESİ MATEMATİK BÖLÜMÜ BİRİNCİ VE İKİNCİ ÖĞRETİM DERSLERİ

İçindekiler. Ön Söz... xiii

2. (x 1 + x 2 + x 3 + x 4 + x 5 ) 10 ifadesinin açılımında kaç terim vardır?

istatistik El 10 1_ ve 2_ sorular a Ş3 gldakl bilgilere göre Al 4 Bl 6 cı 7 Dl 8 Al 5 B) 12 CL 27 D) 28 E) 35 2Q 10 BS 4200-A

BKİ farkı Standart Sapması (kg/m 2 ) A B BKİ farkı Ortalaması (kg/m 2 )

MIT OpenCourseWare Ekonomide İstatistiksel Yöntemlere Giriş Bahar 2009

'Büyük Ödül' Assan'ın oldu

Transkript:

Dil Modelleri Mehmet Fatih AMASYALI BLM 5212 Doğal Dil İşlemeye Giriş Ders Notları İstatistiksel Dil Modelleri* Bir cümlenin olasılığını bulmak Kullanım alanları Makine Çevirisi P(taze balık aldım)>p(yeni balık aldım) Yazım düzeltimi Ali soan yedi P(ali soğan yedi)>p(ali sokan yedi) Konuşmadan Metne P(soğan yedim)>p(sol an yedim) vb. https://web.stanford.edu/~jurafsky/slp3/slides/lm_4.pdf 1

İstatistiksel Dil Modelleri Amaç 1: bir cümlenin olasılığını bulmak P(W)=P(w1,w2,,wn) Amaç 2: bir kelime sekansından sonra gelecek kelimenin olasılığını bulmak P(w5 w1,w2,w3,w4) Bunları nasıl hesaplayacağız? Bayes Kuralı : P(A B)=P(A,B)/P(B) P(A,B)=P(B)*P(A B)=P(A)*P(B A) Zincir Kuralı: P(A,B,C,D)=P(A)*P(B A)*P(C A,B)*P(D A,B,C) İstatistiksel Dil Modelleri Zincir kuralının genel hali: P(w 1,w 2,w 3,,w n )= P(w 1 )P(w 2 w 1 )P(w 3 w 1,w 2 ) P(w n w 1,,w n-1 ) Örnek: P(ali,okuldan,buraya,geldi)= P(ali) * P(okuldan ali) * P(buraya ali,okuldan) * P(geldi ali,okuldan,buraya) P(geldi ali,okuldan,buraya) yı nasıl bulacağız? Bir olasılık : frekans(ali okuldan buraya geldi) P(geldi ali,okuldan,buraya) = frekans(ali okuldan buraya) Ama bu yolla güvenilir değerler elde etmek için yeterli büyüklükte bir derlemimiz elimizde olmaz. Çoğu frekans 0 olacaktır. Çünkü dil, diskrit uzayda çok seyrek. Peki ne yapalım? 2

İstatistiksel Dil Modelleri Markov imdada yetişir Markov varsayımı: her olasılık kendinden önceki k bileşene bağlıdır. k=0 için her olasılık bağımsızdır P(w1,w2,w3,w4)=P(w1)*P(w2)*P(w3)*P(w4) P(w4 w1,w2,w3)=p(w4) P(geldi ali,okuldan,buraya)=p(geldi) k=1 için her olasılık sadece bir öncekine bağlıdır P(w1,w2,w3,w4)=P(w2 w1)*p(w3 w2)*p(w4 w3) P(w4 w1,w2,w3)=p(w4 w3) P(geldi ali,okuldan,buraya)=p(geldi buraya) k=2 için her olasılık sadece bir ve iki öncekine bağlıdır P(w1,w2,w3,w4)=P(w3 w1,w2)*p(w4 w2,w3) P(w4 w1,w2,w3)=p(w4 w2,w3) P(geldi ali,okuldan,buraya)=p(geldi okuldan,buraya) k değerini istediğimiz gibi arttırabiliriz. 3

Markov varsayımının avantajları: daha az işlem daha az seyrek veriler Dezavantajı: Dil, uzak bağımlılıklar içerdiğinden çok yeterli bir model değil Çine yaptığım ziyarette çok uğraştım ama bir türlü Çinceyi öğrenemedim. Burada Çinceyi kelimesi belki onlarca kelime öncesindeki Çine kelimesine bağlı. K seçimi burada bir ikilem 4

1000 ekonomi haberi 5 ten az geçen kelimeleri sildikten sonra yaklaşık 8K*8K lık bir matris Çok seyrek, ~64M den sadece ~140K 0 değil 400 500 600 700 800 900 1000 1100 1200 1300 1400 1500 1600 1700 1800 nz = 135956 5

fuar 18 1 1/18 otomotiv 78 4 4/78 sektörüne 35 1 1/35 önemli 560 162 162/560 bir 3940 4 4/3940 hareket 42 1 1/42 0 larla başetmek Smoothing 6

En olası dizilişi bulmak Kelimeler = önemli, hareket, bir Olası dizilişler P LS (önemli bir hareket)= -11.8570 P LS (önemli hareket bir)= -18.1881 P LS (bir önemli hareket)= -17.4616 P LS (bir hareket önemli)= -16.8926 P LS (hareket önemli bir)= -13.0944 P LS (hareket bir önemli)= -17.4034 Smoothing kullanmasaydık? Bir başka uygulama: Şu kelimelerle bir cümle kurun Dil modellerini değerlendirmek Elimizde 2 dil modeli olsun (A, B). Hangisi daha iyi? Harici yöntem: her 2 modeli de farklı görevler için (Makine Çevirisi, Yazım düzeltimi, Konuşmadan Metne) kullan. O görevlerdeki performanslarına göre karşılaştır Dahili yöntem: Derlemi eğitim ve test kümesi olarak ayır. A ve B yi eğitim üzerinden oluştur. Test kümesindeki cümlelere hangisi daha yüksek olasılık veriyorsa o daha iyidir. Bir cümlenin başı verildiğinde sonunu hangisi doğru tahmin ediyorsa o daha iyidir. Bu görevlerde Markov varsayımında k=0 seçimi nasıldır? 7

Dil modelleriyle cümle / dizilim üretimi Bir ilk kelime seçelim. Bundan sonra gelecek kelimeleri dil modeli ile belirleyelim. K=0 için her zaman en yüksek olasılığı seçersek hep aynı kelime tekrar eder K=1 için, her zaman en yüksek olasılığı seçersek bir kelimeden sonra hep aynı kelime gelir. K=2 için, ardışık 2 kelimeden sonra hep aynı 3. kelime gelir. Bunu aşmanın 2 yolu var En yüksek olasılıklı t taneden birini rasgele seçmek Hepsi içinden olasılıklarına göre seçim yapmak (Shannon Game) Ne zaman duracağız: İstediğimiz sayıda kelime / cümle ürettiğimizde Bigram (K=1) modeli ile En yüksek olasılıklı t taneden birini rasgele seçer. t değeri azaldıkça metinlerde kopya çekme olasılığı artar. t=5 1000 ekonomi haberi ile "fonların yüzde 5 de bu konuda son 10 ın da çok sayıda türk telekom gibi çok önemli olduğunu belirten bakan şimşek 2012 nin." "mesleki eğitim ve ticaret bakanlığı ın piyasa ile ilgili olarak belirlendi bu nedenle bir önceki yıla da en fazla artış oranı ise lira oldu bu." "akademik araştırmalar sonucunda yer aldığı bilgiye göre bir şekilde diyen ve yüzde 10 yılda bir süre içerisinde türkiye istatistik verilerine borsa seçimlerinin dikkati çekti türkiye." Burada first order (K=1) yapının problemi bariz görünüyor. "yer aldığı bilgiye yüzde 10 yılda 8

trigram (K=2) modeli, t=5 1000 ekonomi haberiyle üretilen cümleler "yaşanan sıkıntıları için devamlı ucuz bilet satıyoruz 100 90 ı aslında biz bu bitireceğiz inşallah yıl sonuna kadar türkiyede üretilen fazlasını belirterek geçen yıl kasım ayı ihracatını" "birlikte fiyatlardaki üzerindeki etkileri takip edilecek gerek halinde düzenlemede birtakım yeni getirilecek talepler daha önceki bir açıklamasında 2012 yılının ilk 2 ihaleyi 500 adet olacak satış faaliyet" 1000 magazin haberiyle üretilen cümleler: "arkadaşlarının da kendisini hiç söyleyen nilüfer kanser olduğunu tüm anlattı ilk itibaren dizinin kerem benim olduğu gibi bu hafta muhteşem neler olacak ali ikna eder ama şimdi" "oyuncuların eğitimi yoktu ama hep başka şeyleri yapmak için burada bu arkadaşlar benim dönüş ve benim gibi tabii ki oldu ama devam çok bir adam alman sevgilisiyle" Ardışık 3 lüler daha anlamlı artık. 9