Türkçe için Konuşma Tanıma ve Derin Öğrenmeyle Dil Modelleme

Benzer belgeler
Doğan Can, Murat Saraçlar. Bebek, İstanbul. 9 Mart, 2009

ÖZGEÇMİŞ. 7. Yayınlar 7.1 Uluslararası hakemli dergilerde yayınlanan makaleler (SCI,SSCI,Arts and Humanities)

Kelime Gösterimleri (Word Representation Word Embeddings)

ÖZGEÇMİŞ. Yrd. Doç. Dr. MURAT SARAÇLAR

SÜREKLİ SAKLI MARKOV MODELLERİ İLE METİNDEN BAĞIMSIZ KONUŞMACI TANIMA PARAMETRELERİNİN İNCELENMESİ

Doküman dili tanıma için ikili örüntüler tabanlı yeni bir yaklaşım

Pamukkale Üniversitesi Mühendislik Bilimleri Dergisi Pamukkale University Journal of Engineering Sciences

Çabuk Yazılandırma Kılavuzu (Rapid Transcription Guide) v0.4

ÖZGEÇMİŞ. 1. Adı Soyadı : Olcay Taner Yıldız. 2. Doğum Tarihi : Unvanı : Doç. Dr. 4. Öğrenim Durumu :

2.1 Bir Sınıfı Örneklerinden Öğrenme Vapnik-Chervonenkis (VC) Boyutu Olası Yaklaşık Doğru Öğrenme... 21

KAHKAHA TANIMA İÇİN RASSAL ORMANLAR

Türkçe Dokümanlar Ġçin Yazar Tanıma

BİLECİK ÇEVRESİNDE DEPREM TEHLİKESİNİN SAKLI MARKOV MODELİ İLE TAHMİNİ

SINGLE-CHANNEL SPEECH-MUSIC SEPARATION USING NMF FOR AUTOMATIC SPEECH RECOGNITION

Hidden Markov Model. Forward Algoritması Viterbi Algoritması. Doç.Dr.Banu Diri. Rasgele Olmayan /Gerekirci Model

DOKUZ EYLÜL ÜNİVERSİTESİ MÜHENDİSLİK FAKÜLTESİ DEKANLIĞI DERS/MODÜL/BLOK TANITIM FORMU. Dersin Kodu: CME 4410

Büyük Veri ve Endüstri Mühendisliği

Metin Sınıflandırma. Akış

Elena Battini SÖNMEZ Önder ÖZBEK N. Özge ÖZBEK. 2 Şubat 2007

Otomatik Diyet Gözetimi için Gıda İmgelerinin Anlamsal Bölütlemesi

Türkçe de Ünlülerin Formant Analizi

T.C. ERCİYES ÜNİVERSİTESİ MÜHENDİSLİK FAKÜLTESİ BİLGİSAYAR MÜHENDİSLİĞİ BÖLÜMÜ EĞİTİM ÖĞRETİM YILI DERS KATALOĞU

Büyük Veri İçin İstatistiksel Öğrenme (Statistical Learning for Big Data)

VERİ MADENCİLİĞİ Metin Madenciliği

İstanbul Şehir Üniversitesi Bahar

Sözlük Kullanarak Türkçe El yazısı Tanıma

IŞIK ÜNİVERSİTESİ BİLİMSEL ARAŞTIRMA PROJELERİ SONUÇ RAPORU

DOÇ. DR. HAKAN GÜRKAN Işık Üniversitesi Mühendislik Fakültesi Elektrik-Elektronik Mühendisliği Bölümü


Derin Yapay Sinir Ağları ve Derin Öğrenme ye Kısa Bir Giriş

Geliştirilmiş Fisher Ayraç Kriteri Kullanarak Hiperspektral Görüntülerde Sınıflandırma

MÜHENDİSLİK FAKÜLTESİ / ENSTİTÜSÜ / YÜKSEKOKULU BİLİŞİM SİSTEMLERİ MÜHENDİSLİĞİ BÖLÜMÜ /ABD LİSANS PROGRAMI - 2 ( yılı öncesinde birinci

BİLGİSAYAR DESTEKLİ BİR DİL PROGRAMI -Türkçe Konuşma - Tanıma Sistemi-

Doğal Dil İşleme Nedir? Doğal Dil İşleme

Aşağı Link MC-CDMA Sistemlerinde Kullanılan PIC Alıcının EM-MAP Tabanlı Olarak İlklendirilmesi

Hafta 10 - Vektör Uzay Modelleri

Dinamik Zaman Bükmesi Yöntemiyle Hece Tabanlı Konuşma Tanıma Sistemi

Türkçe de Ünlülerin FormantĐncelemesi

Uzaktan Algılama Teknolojileri

Otomatik Doküman Sınıflandırma

Türkçe nin Bağlılık Ayrıştırması. Gülşen Cebiroğlu Eryiğit

Konuşma Terapisine Yönelik Otomatik Konuşma Tanıma Yöntemleri

Yer Sezimi ve Özet Bölüt Çizgeleri

El Yazısı Tanıma Problemi için Bütünsel Parametre Kestirimi ve Bölütleme Algoritmaları

YAPAY ZEKA VE DERİN ÖĞRENMENİN GÜNÜMÜZDEKİ UYGULAMA ALANLARI

Koşullu Rastgele Alanlar ile Türkçe Haber Metinlerinin Etiketlenmesi (Labelling Turkish News Stories with Conditional Random Fields)

Otomatik Doküman Sınıflandırma

Kelebek Görüntülerin Sınıflandırılmasında Yeni Yerel İkili Örüntüler

Mekatronik Mühendisliği Uygulamalarında Yapay Zekâ. Ders 1- Yapay Zekâya Giriş. Erhan AKDOĞAN, Ph.D.

Bilgisayar ve Bilişim Bilimleri Fakültesi Sakarya Üniversitesi

Dil Modelleri. Doç.Dr.Banu Diri

Concept Learning. Araş. Gör. Nesibe YALÇIN BİLECİK ÜNİVERSİTESİ. Yapay Zeka - Kavram Öğrenme

Yinelemeli ve Uyarlanır Ayrıt Saptayıcı Süzgeçleri

Geriye Yayılım ve Levenberg Marquardt Algoritmalarının YSA Eğitimlerindeki Başarımlarının Dinamik Sistemler Üzerindeki Başarımı. Mehmet Ali Çavuşlu

BİLECİK ŞEYH EDEBALİ ÜNİVERSİTESİ AKADEMİK ÖZGEÇMİŞ FORMU

K En Yakın Komşu Methodu (KNearest Neighborhood)

ANKARA ÜNİVERSİTESİ A ÖĞRENCİ İŞLERİ DAİRE BAŞKANLIĞI

Akıllı Ortamlarda Sensör Kontrolüne Etmen Tabanlı Bir Yaklaşım: Bir Jadex Uygulaması

Sponsorlar için detaylı bilgi, ekte sunulan Sponsor Başvuru Dosyası nda yer almaktadır.

ÖZGEÇMİŞLERDEN VE İŞ İLANLARINDAN DOĞAL DİL İŞLEME YÖNTEMLERİ İLE BİLGİ ÇIKARIMI

Araştırma Geliştirme Ltd. Şti. - Firma Tanıtım Sunumu -

Veri Bilim - Yapay Öğrenme Yaz Okulu, 2017 Matematiksel Temeller ve Vaka Çalışmaları

Yazılım Mühendisliği Bölüm - 3 Planlama

Derin Öğrenme. M. Ali Akcayol Gazi Üniversitesi

VERİ MADENCİLİĞİ VE SOSYAL AĞ ANALİZİ ARAŞTIRMA LABORATUVARI

Ö Z G E Ç M İ Ş. 1. Adı Soyadı: Mustafa GÖÇKEN. 2. Doğum Tarihi: 12 Haziran Unvanı: Yrd. Doç. Dr. 4. Öğrenim Durumu: Ph.D.

BCA605 Bilgisayar Oyunlarında Yapay Zeka

K-En Yakın Komşu Algoritması Parametrelerinin Sınıflandırma Performansı Üzerine Etkisinin İncelenmesi

Lale AKARUN, Boğaziçi Üniversitesi.

Türkçe için Karşılaştırmalı bir Kelime Anlamı Belirginleştirme Uygulaması

Karaciğerde Oluşan Hastalıkların Tespitinde Makine Öğrenmesi Yöntemlerinin Kullanılması

Wordnet ve Bilgisayar Ağ Terimleri Sözlüğünün Oluşturulması

VERİ MADENCİLİĞİ (Sınıflandırma Yöntemleri) Yrd.Doç.Dr. Kadriye ERGÜN

Hafta 09 -Topluluk Yöntemleri - Boyut Azaltma - Anomali Tespiti

YAPAY SİNİR AĞI KULLANARAK DEPREM EĞİLİMİNİN KESTİRİMİ. Umut FIRAT

İKTİSADİ VE İDARİ BİLİMLER FAKÜLTESİ İŞLETME BÖLÜMÜ BÖLÜM KODU: 0207

Alman Dili Üzerinde Konuşmacı Cinsiyetinin Otomatik Olarak Belirlenmesi. Automatic Determination of the Speaker on the German Language

OTOMATİK VE İNTERAKTİF BÖLÜTLEME YÖNTEMLERİNİN KARŞILAŞTIRILMASI

Türkçe Metinler için Hece Tabanlı Konuşma Sentezleme Sistemi

Öğrenciler analiz programları hakkında bilgi sahibi olurlar

Yüksek Mobiliteli OFDM Sistemleri için Ortak Veri Sezimleme ve Kanal Kestirimi

Ses Temelli Cümle Yöntemi. 1 Hazırlayan: Doç. Dr. Berrin Baydık

DOKUZ EYLÜL ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ MÜDÜRLÜĞÜ DERS/MODÜL/BLOK TANITIM FORMU. Dersin Kodu: CSE 6001

İnşaat Mühendisliği Bölüm Başkanlığı na

Yeşim AKSAN, Selma Ayşe ÖZEL, Yasin BEKTAŞ, Mustafa AKSAN, Umut Ufuk DEMİRHAN, Ümit MERSİNLİ, Hakan YILMAZER. Sunan : Yasin BEKTAŞ.

Bireysel Emeklilik Sisteminde Katılımcı Memnuniyetinin Artırılması. Mert C. Demir, Ph.D. Emeklilik Gözetim Merkezi

Çeşme Yarımadası İçin Rüzgar Bilgisi Analizi Ve

Elbistan Meslek Yüksek Okulu Güz Yarıyılı

Kolektif Öğrenme Metotları

HUNGAROLOJİ ANABİLİM DALI EĞİTİM ÖĞRETİM ÖĞRETİM YILI GÜZ PROGRAMI

KONUŞMA TANIMA TEORİSİ VE TEKNİKLERİ 1 SPEECH RECOGNITION THEORY AND TECHNIQUES

DEÜ MÜHENDİSLİK FAKÜLTESİ FEN BİLİMLERİ DERGİSİ Cilt: 12 Sayı: 3 sh Ekim 2010 BİÇİMBİLİME DAYALI DOKÜMAN SIKIŞTIRMA

TAM METİN YAZIM KURALLARI

Zeki Optimizasyon Teknikleri

Sözlük Kullanarak Türkçe için Kavram Madenciliği Metotları Geliştirme

ANKARA ÜNİVERSİTESİ MÜHENDİSLİK FAKÜLTESİ

YAPAY SİNİR AĞLARI. Araş. Gör. Nesibe YALÇIN BİLECİK ÜNİVERSİTESİ

Web Madenciliği (Web Mining)

Öğrencilere bilgisayar destekli titreşim analizi yeteğinin kazandırılması

Markov Zinciri Monte Carlo Yaklaşımı. Aktüeryal Uygulamaları

Transkript:

Türkçe için Konuşma Tanıma ve Derin Öğrenmeyle Dil Modelleme Ebru Arısoy Elektrik-Elektronik Mühendisliği Bölümü MEF Üniversitesi 3 Temmuz 218

EBRU ARISOY 22 Boğaziçi Universitesi EE (BS) 24 Boğaziçi Universitesi EE (MS) 29 Boğaziçi Universitesi EE (PhD) 21-213 IBM TJ Watson Research Center 214-215 IBM Türkiye 215 - MEF Üniversitesi

Içerik Part 1: Otomatik Konuşma Tanıma (Genel Bilgi) Part 2: Türkçe Konuşma Tanıma Part 3: Derin Öğrenme ile Dil Modelleme

Otomatik Konuşma Tanıma Part I Otomatik Konuşma Tanıma (Genel Bilgi)

Otomatik Konuşma Tanıma Genel Bilgi Akustik Model Dil Modeli Otomatik Konuşma Tanıma Amaç: Bir ses sinyaline karşılık gelen metinleri otomatik olarak belirlemek nice cat W ^ W mice cat W = {w 1 nice cat w n}, w i V: sabit ve sınırlı dağarcık Dağarcık Dışı Kelime (DDK) A = {a 1 a 2 a t}, a i A: sinyal işleme yöntemleri ile öznitelik çıkarımı P(A W )P(W ) Ŵ = argmax P(W A) = argmax P(A) W W = argmax P(A W )P(W ) W

Otomatik Konuşma Tanıma Genel Bilgi Akustik Model Dil Modeli Otomatik Konuşma Tanıma Amaç: Bir ses sinyaline karşılık gelen metinleri otomatik olarak belirlemek nice cat W ^ W mice cat W = {w 1 nice cat w n}, w i V: sabit ve sınırlı dağarcık Dağarcık Dışı Kelime (DDK) A = {a 1 a 2 a t}, a i A: sinyal işleme yöntemleri ile öznitelik çıkarımı P(A W )P(W ) Ŵ = argmax P(W A) = argmax P(A) W W = argmax P(A W )P(W ) W

Otomatik Konuşma Tanıma Genel Bilgi Akustik Model Dil Modeli Otomatik Konuşma Tanıma Amaç: Bir ses sinyaline karşılık gelen metinleri otomatik olarak belirlemek nice cat W Front-end A Decoder ^ W mice cat W = {w 1 nice cat w n}, w i V: sabit ve sınırlı dağarcık Dağarcık Dışı Kelime (DDK) A = {a 1 a 2 a t}, a i A: sinyal işleme yöntemleri ile öznitelik çıkarımı P(A W )P(W ) Ŵ = argmax P(W A) = argmax P(A) W W = argmax P(A W )P(W ) W

Otomatik Konuşma Tanıma Genel Bilgi Akustik Model Dil Modeli Otomatik Konuşma Tanıma Amaç: Bir ses sinyaline karşılık gelen metinleri otomatik olarak belirlemek nice cat W Front-end A Decoder ^ W mice cat W = {w 1 nice cat w n}, w i V: sabit ve sınırlı dağarcık Dağarcık Dışı Kelime (DDK) A = {a 1 a 2 a t}, a i A: sinyal işleme yöntemleri ile öznitelik çıkarımı P(A W )P(W ) Ŵ = argmax P(W A) = argmax P(A) W W = argmax P(A W )P(W ) W

Otomatik Konuşma Tanıma Genel Bilgi Akustik Model Dil Modeli Otomatik Konuşma Tanıma Amaç: Bir ses sinyaline karşılık gelen metinleri otomatik olarak belirlemek nice cat W Front-end A Decoder ^ W mice cat W = {w 1 nice cat w n}, w i V: sabit ve sınırlı dağarcık Dağarcık Dışı Kelime (DDK) A = {a 1 a 2 a t}, a i A: sinyal işleme yöntemleri ile öznitelik çıkarımı P(A W )P(W ) Ŵ = argmax P(W A) = argmax P(A) W W = argmax P(A W )P(W ) W

Otomatik Konuşma Tanıma Genel Bilgi Akustik Model Dil Modeli Otomatik Konuşma Tanıma Amaç: Bir ses sinyaline karşılık gelen metinleri otomatik olarak belirlemek nice cat W HMM for phones ae1 ae2 ae3 lexicon cat: k ae t P(A W) Front-end A Decoder ^ W mice cat W = {w 1 nice cat w n}, w i V: sabit ve sınırlı dağarcık Dağarcık Dışı Kelime (DDK) A = {a 1 a 2 a t}, a i A: sinyal işleme yöntemleri ile öznitelik çıkarımı P(A W )P(W ) Ŵ = argmax P(W A) = argmax P(A) W W = argmax P(A W )P(W ) W

Otomatik Konuşma Tanıma Genel Bilgi Akustik Model Dil Modeli Otomatik Konuşma Tanıma Amaç: Bir ses sinyaline karşılık gelen metinleri otomatik olarak belirlemek nice cat W HMM for phones ae1 ae2 ae3 lexicon cat: k ae t language model P(A W) P(W) Front-end A Decoder ^ W mice cat W = {w 1 nice cat w n}, w i V: sabit ve sınırlı dağarcık Dağarcık Dışı Kelime (DDK) A = {a 1 a 2 a t}, a i A: sinyal işleme yöntemleri ile öznitelik çıkarımı P(A W )P(W ) Ŵ = argmax P(W A) = argmax P(A) W W = argmax P(A W )P(W ) W

Otomatik Konuşma Tanıma Genel Bilgi Akustik Model Dil Modeli Otomatik Konuşma Tanıma Amaç: Bir ses sinyaline karşılık gelen metinleri otomatik olarak belirlemek nice cat W HMM for phones ae1 ae2 ae3 lexicon cat: k ae t language model P(A W) P(W) Front-end A Decoder ^ W mice cat W = {w 1 nice cat w n}, w i V: sabit ve sınırlı dağarcık Dağarcık Dışı Kelime (DDK) A = {a 1 a 2 a t}, a i A: sinyal işleme yöntemleri ile öznitelik çıkarımı P(A W )P(W ) Ŵ = argmax P(W A) = argmax P(A) W W = argmax P(A W )P(W ) W

Otomatik Konuşma Tanıma Genel Bilgi Akustik Model Dil Modeli Akustik Model Akustik Model: Akustik model olarak Saklı Markov Model (SMM) kullanılır Ses kayıtları ve bunlara karşılık gelen referans metinleri kullanılarak eğitilir start ae1 ae2 ae3 æ" için 3-durumlu SMM end start k1 k2 k3 ae1 ae2 ae3 t1 t2 t3 end cat: k æ t" kelimesi için SMM

Otomatik Konuşma Tanıma Genel Bilgi Akustik Model Dil Modeli Akustik Model SMM deki durum çıktı olasılıkları için kullanılan modeller P(A/Q) A: Akustik öznitelik vektörü Q: Sesçik/durum etiketleri Gauss Karışım Modeli (GKM) P(A/Q) hesabı GKM ile yapılır Derin Sinir Ağları (DSA) P(Q/A) hesabı DSA ile yapılır P(A/Q) P(Q/A)/P(Q) SMM de P(A/Q) kullanılır

Otomatik Konuşma Tanıma Genel Bilgi Akustik Model Dil Modeli Dil Modeli İstatistiksel Dil Modeli Bir dildeki her kelime dizilimine olasılık atar, P(W ) n li Dizilimli Dil Modeli W = {w 1 w N } = bu kedi çok sevimli P(W ) = P(bu kedi çok sevimli) = P(bu)P(kedi bu)p(çok bu kedi)p(sevimli bu kedi çok)

Otomatik Konuşma Tanıma Genel Bilgi Akustik Model Dil Modeli Dil Modeli İstatistiksel Dil Modeli Bir dildeki her kelime dizilimine olasılık atar, P(W ) n li Dizilimli Dil Modeli W = {w 1 w N } = bu kedi çok sevimli P(W ) = P(bu kedi çok sevimli) = P(bu)P(kedi bu)p(çok bu kedi)p(sevimli bu kedi çok)

Otomatik Konuşma Tanıma Genel Bilgi Akustik Model Dil Modeli Dil Modeli İstatistiksel Dil Modeli Bir dildeki her kelime dizilimine olasılık atar, P(W ) n li Dizilimli Dil Modeli W = {w 1 w N } = bu kedi çok sevimli P(W ) = P(bu kedi çok sevimli) = P(bu)P(kedi bu)p(çok bu kedi)p(sevimli bu kedi çok)

Otomatik Konuşma Tanıma Genel Bilgi Akustik Model Dil Modeli Dil Modeli İstatistiksel Dil Modeli Bir dildeki her kelime dizilimine olasılık atar, P(W ) n li Dizilimli Dil Modeli W = {w 1 w N } = bu kedi çok sevimli P(W ) = P(bu kedi çok sevimli) = P(bu)P(kedi bu)p(çok bu kedi)p(sevimli }{{} bu kedi çok) }{{} tahmin geçmiş

Otomatik Konuşma Tanıma Genel Bilgi Akustik Model Dil Modeli Dil Modeli İstatistiksel Dil Modeli Bir dildeki her kelime dizilimine olasılık atar, P(W ) n li Dizilimli Dil Modeli W = {w 1 w N } = bu kedi çok sevimli P(W ) = P(bu kedi çok sevimli) = P(bu)P(kedi bu)p(çok bu kedi)p(sevimli }{{} bu kedi çok) }{{} tahmin geçmiş Eğer n = 2 (2 li dizilim) P(W ) P(bu)P(kedi bu)p(çok kedi)p(sevimli çok)

Otomatik Konuşma Tanıma Genel Bilgi Akustik Model Dil Modeli Dil Modeli İstatistiksel Dil Modeli Bir dildeki her kelime dizilimine olasılık atar, P(W ) n li Dizilimli Dil Modeli W = {w 1 w N } = bu kedi çok sevimli P(W ) = P(bu kedi çok sevimli) = P(bu)P(kedi bu)p(çok bu kedi)p(sevimli }{{} bu kedi çok) }{{} tahmin geçmiş Eğer n = 2 (2 li dizilim) P(W ) P(bu)P(kedi bu)p(çok kedi)p(sevimli çok ) }{{} geçmiş n-1 kelime

Otomatik Konuşma Tanıma Genel Bilgi Akustik Model Dil Modeli Dil Modeli n li Dizilimli Dil Modeli Koşullu olasılıklar en büyük olabilirlik kestirimi ile metin verisi üzerinden öğrenilir P(w h) = P(w k w k n+1 w k 1 ) = C(w k n+1 w k 1 w k ) C(w k n+1 w k 1 ) 3 lü dizilim: P(çok bu kedi) = C(bu kedi çok) C(bu kedi) Veri tabanında geçmeyen n li dizilimlere küçük olasılık dağıtımları yapılır

Otomatik Konuşma Tanıma Genel Bilgi Akustik Model Dil Modeli Dil Modeli İleribesleme Sinir Ağı Dil Modeli Sinir Ağları Dil Modeli Koşullu olasılıklar sinir ağları kullanılarak hesaplanır Kelimeler için sürekli uzay gösterimleri öğrenilir w j-n+1 w j-n+2 1 1 Projection layer M c d o (n-1) x P b Hidden layer H V k Output layer P(w j =1 h j ) P(w j =i h j ) P(w j =N h j ) w j-1 1

Otomatik Konuşma Tanıma Genel Bilgi Akustik Model Dil Modeli Dil Modeli Öznitelik Tabanlı Dil Modeli Dilbilimsel bilginin dil modelinde kullanılmasını kolaylaştırır Dilbilimsel bilgi öznitelik vektörüne dönüştürülüp dil modellinde kullanılır En büyük entropi dil modeli: Ayırıcı dil modeli: P(w h) = 1 Z (h) e i α i Φ i (w,h) F(W ) = i α i Φ i (W )

Otomatik Konuşma Tanıma Genel Bilgi Akustik Model Dil Modeli Dil Modeli Öznitelik Tabanlı Dil Modeli Dilbilimsel bilginin dil modelinde kullanılmasını kolaylaştırır Dilbilimsel bilgi öznitelik vektörüne dönüştürülüp dil modellinde kullanılır En büyük entropi dil modeli: Ayırıcı dil modeli: P(w h) = 1 Z (h) e i α i Φ i (w,h) F(W ) = i α i Φ i (W )

Türkçe için Konuşma Tanıma ve Zorlukları Konuşta Tanıma için Kelima-altı Birimler Türkçe Konuşta Tanıma Sistemleri ve Veri Tabanları Part II Türkçe Konuşma Tanıma

Türkçe için Konuşma Tanıma ve Zorlukları Konuşta Tanıma için Kelima-altı Birimler Türkçe Konuşta Tanıma Sistemleri ve Veri Tabanları Türkçe nin Dil Özellikleri Türkçe nin Konuşma Tanıma Açısından Zorlukları Türkçe nin Dil Özellikleri 1 Türkçe üretken biçimbilimsel yapıya sahip sondan eklemeli bir dildir bildiridekiler bildiri -de -ki -ler ruhsatlandırılamamasındaki ruhsat -lan -dır -ıl -ama -ma -sı -nda -ki 2 Türkçe serbest kelime dizilimine sahiptir Ben çocuğa kitabı verdim Çocuğa kitabı ben verdim Ben kitabı çocuğa verdim

Türkçe için Konuşma Tanıma ve Zorlukları Konuşta Tanıma için Kelima-altı Birimler Türkçe Konuşta Tanıma Sistemleri ve Veri Tabanları Türkçe nin Dil Özellikleri Türkçe nin Konuşma Tanıma Açısından Zorlukları Türkçe nin Konuşma Tanıma Açısından Zorlukları 1 Sondan eklemeli (üretken biçimbilimsel yapı) bildiridekiler bildiri -de -ki -ler *Şekil için Mathias Creutz a teşekkür ederiz 5 Unique words [1 words] 45 4 35 3 25 2 15 1 5 Estonian (planned) Finnish (planned) Turkish (planned) Arabic (planned) Arabic (spontaneous) English (planned) English (spontaneous) 2 4 6 8 1 12 14 16 18 Corpus size [1 words] Sondan eklemeli diller: Türkçe, Fince, Estonyaca, Macarca

Türkçe için Konuşma Tanıma ve Zorlukları Konuşta Tanıma için Kelima-altı Birimler Türkçe Konuşta Tanıma Sistemleri ve Veri Tabanları Türkçe nin Dil Özellikleri Türkçe nin Konuşma Tanıma Açısından Zorlukları Türkçe nin Konuşma Tanıma Açısından Zorlukları 1 Sondan eklemeli (üretken biçimbilimsel yapı) yüksek DDK oranı Her DDK 15 Kelime Hata Oranı (KHO) verir! *Şekil için Mathias Creutz a teşekkür ederiz 5 Unique words [1 words] 45 4 35 3 25 2 15 1 5 Estonian (planned) Finnish (planned) Turkish (planned) Arabic (planned) Arabic (spontaneous) English (planned) English (spontaneous) 2 4 6 8 1 12 14 16 18 Corpus size [1 words] Sondan eklemeli diller: Türkçe, Fince, Estonyaca, Macarca

Türkçe için Konuşma Tanıma ve Zorlukları Konuşta Tanıma için Kelima-altı Birimler Türkçe Konuşta Tanıma Sistemleri ve Veri Tabanları Türkçe nin Dil Özellikleri Türkçe nin Konuşma Tanıma Açısından Zorlukları Türkçe nin Konuşma Tanıma Açısından Zorlukları Unique words [1 words] 1 Sondan eklemeli (üretken biçimbilimsel yapı) yüksek DDK oranı Her DDK 15 Kelime Hata Oranı (KHO) verir! *Şekil için Mathias Creutz a teşekkür ederiz 5 45 4 35 3 25 2 15 1 5 Estonian (planned) Finnish (planned) Turkish (planned) Arabic (planned) Arabic (spontaneous) English (planned) English (spontaneous) 2 4 6 8 1 12 14 16 18 Corpus size [1 words] Türkçe: 5K %1 DDK oranı OOV rate (%) 3 2 1 2 7% 1% 1K 2K 6K 2K 5K Vocabulary size İngilizce: 6K %1 DDK oranı

Türkçe için Konuşma Tanıma ve Zorlukları Konuşta Tanıma için Kelima-altı Birimler Türkçe Konuşta Tanıma Sistemleri ve Veri Tabanları Türkçe nin Dil Özellikleri Türkçe nin Konuşma Tanıma Açısından Zorlukları Türkçe nin Konuşma Tanıma Açısından Zorlukları 2 Serbest kelime dizilimi Koşullu olasılıklar için gürbüz kestirimler yapılamaz Ben çocuğa kitabı verdim P(W ) P(ben)P(çocuğa ben) P(verdim kitabı) Çocuğa kitabı ben verdim Ben kitabı çocuğa verdim

Türkçe için Konuşma Tanıma ve Zorlukları Konuşta Tanıma için Kelima-altı Birimler Türkçe Konuşta Tanıma Sistemleri ve Veri Tabanları Türkçe nin Dil Özellikleri Türkçe nin Konuşma Tanıma Açısından Zorlukları Türkçe nin Konuşma Tanıma Açısından Zorlukları 2 Serbest kelime dizilimi Koşullu olasılıklar için gürbüz kestirimler yapılamaz Ben çocuğa kitabı verdim P(W ) P(ben)P(çocuğa ben) P(verdim kitabı) Çocuğa kitabı ben verdim P(W ) P(çocuğa)P(kitabı çocuğa) P(verdim ben) Ben kitabı çocuğa verdim P(W ) P(ben)P(kitabı ben) P(verdim çocuğa)

Türkçe için Konuşma Tanıma ve Zorlukları Konuşta Tanıma için Kelima-altı Birimler Türkçe Konuşta Tanıma Sistemleri ve Veri Tabanları Türkçe nin Dil Özellikleri Türkçe nin Konuşma Tanıma Açısından Zorlukları Türkçe nin Konuşma Tanıma Açısından Zorlukları Sondan eklemeli diller için önerilen çözüm: Kelimeler yerine kelime-altı birimlerin konuşma tanımada kullanılması Kelime-altı birimler: Anlamlı kelime bölütleri bildiridekiler bildiri -de -ki -ler Kelime-altı birimlerin konuşma tanıma açısından zorlukları hatalı ses değişimi: bildiri-de-ki-lar hatalı ek dizilimi: bildiri-ki-de-ler anlamlı olmayan dizilim: -ki-de-ler

Türkçe için Konuşma Tanıma ve Zorlukları Konuşta Tanıma için Kelima-altı Birimler Türkçe Konuşta Tanıma Sistemleri ve Veri Tabanları Türkçe nin Dil Özellikleri Türkçe nin Konuşma Tanıma Açısından Zorlukları Türkçe nin Konuşma Tanıma Açısından Zorlukları Sondan eklemeli diller için önerilen çözüm: Kelimeler yerine kelime-altı birimlerin konuşma tanımada kullanılması Kelime-altı birimler: Anlamlı kelime bölütleri bildiridekiler bildiri -de -ki -ler Kelime-altı birimlerin konuşma tanıma açısından zorlukları hatalı ses değişimi: bildiri-de-ki-lar hatalı ek dizilimi: bildiri-ki-de-ler anlamlı olmayan dizilim: -ki-de-ler

Türkçe için Konuşma Tanıma ve Zorlukları Konuşta Tanıma için Kelima-altı Birimler Türkçe Konuşta Tanıma Sistemleri ve Veri Tabanları Türkçe nin Dil Özellikleri Türkçe nin Konuşma Tanıma Açısından Zorlukları Türkçe nin Konuşma Tanıma Açısından Zorlukları Sondan eklemeli diller için önerilen çözüm: Kelimeler yerine kelime-altı birimlerin konuşma tanımada kullanılması Kelime-altı birimler: Anlamlı kelime bölütleri bildiridekiler bildiri -de -ki -ler Kelime-altı birimlerin konuşma tanıma açısından zorlukları hatalı ses değişimi: bildiri-de-ki-lar hatalı ek dizilimi: bildiri-ki-de-ler anlamlı olmayan dizilim: -ki-de-ler

Türkçe için Konuşma Tanıma ve Zorlukları Konuşta Tanıma için Kelima-altı Birimler Türkçe Konuşta Tanıma Sistemleri ve Veri Tabanları Türkçe nin Dil Özellikleri Türkçe nin Konuşma Tanıma Açısından Zorlukları Türkçe nin Konuşma Tanıma Açısından Zorlukları Sondan eklemeli diller için önerilen çözüm: Kelimeler yerine kelime-altı birimlerin konuşma tanımada kullanılması Kelime-altı birimler: Anlamlı kelime bölütleri bildiridekiler bildiri -de -ki -ler Kelime-altı birimlerin konuşma tanıma açısından zorlukları hatalı ses değişimi: bildiri-de-ki-lar hatalı ek dizilimi: bildiri-ki-de-ler anlamlı olmayan dizilim: -ki-de-ler

Türkçe için Konuşma Tanıma ve Zorlukları Konuşta Tanıma için Kelima-altı Birimler Türkçe Konuşta Tanıma Sistemleri ve Veri Tabanları Türkçe nin Dil Özellikleri Türkçe nin Konuşma Tanıma Açısından Zorlukları Türkçe nin Konuşma Tanıma Açısından Zorlukları Sondan eklemeli diller için önerilen çözüm: Kelimeler yerine kelime-altı birimlerin konuşma tanımada kullanılması Kelime-altı birimler: Anlamlı kelime bölütleri bildiridekiler bildiri -de -ki -ler Kelime-altı birimlerin konuşma tanıma açısından zorlukları hatalı ses değişimi: bildiri-de-ki-lar hatalı ek dizilimi: bildiri-ki-de-ler anlamlı olmayan dizilim: -ki-de-ler

Türkçe için Konuşma Tanıma ve Zorlukları Konuşta Tanıma için Kelima-altı Birimler Türkçe Konuşta Tanıma Sistemleri ve Veri Tabanları Türkçe nin Dil Özellikleri Türkçe nin Konuşma Tanıma Açısından Zorlukları Türkçe nin Konuşma Tanıma Açısından Zorlukları Sondan eklemeli diller için önerilen çözüm: Kelimeler yerine kelime-altı birimlerin konuşma tanımada kullanılması Kelime-altı birimler: Anlamlı kelime bölütleri bildiridekiler bildiri -de -ki -ler Kelime-altı birimlerin konuşma tanıma açısından zorlukları hatalı ses değişimi: bildiri-de-ki-lar hatalı ek dizilimi: bildiri-ki-de-ler anlamlı olmayan dizilim: -ki-de-ler

Türkçe için Konuşma Tanıma ve Zorlukları Konuşta Tanıma için Kelima-altı Birimler Türkçe Konuşta Tanıma Sistemleri ve Veri Tabanları Kelime-altı Birimler ile Konuşma Tanıma Anlamlı Kelime-Altı Birimler Kelime-altı Birimler ile Konuşma Tanıma Motivasyon: Yöntem: Konuşma Tanımadaki DDK problemini çözmek 1 kelimeleri daha kısa ve anlamlı birimlere bölmek harfler: bildiridekiler b i l d i r i d e k i l e r heceler: bildiridekiler bil di ri de ki ler kök ve ekler: bildiridekiler de ki ler kök ve kök sonrası: bildiridekiler bildiri dekiler 2 kelime-altı birimleri sözlükte kullanmak (Akustik model aynı kalır!) bil: b i l 3 Kelime-altı birimler üzerinden dil modeli eğitmek 3 lü dizilim: P(ri bil di)

Türkçe için Konuşma Tanıma ve Zorlukları Konuşta Tanıma için Kelima-altı Birimler Türkçe Konuşta Tanıma Sistemleri ve Veri Tabanları Kelime-altı Birimler ile Konuşma Tanıma Anlamlı Kelime-Altı Birimler Kelime-altı Birimler ile Konuşma Tanıma Motivasyon: Yöntem: Konuşma Tanımadaki DDK problemini çözmek 1 kelimeleri daha kısa ve anlamlı birimlere bölmek harfler: bildiridekiler b i l d i r i d e k i l e r heceler: bildiridekiler bil di ri de ki ler kök ve ekler: bildiridekiler de ki ler kök ve kök sonrası: bildiridekiler bildiri dekiler 2 kelime-altı birimleri sözlükte kullanmak (Akustik model aynı kalır!) bil: b i l 3 Kelime-altı birimler üzerinden dil modeli eğitmek 3 lü dizilim: P(ri bil di)

Türkçe için Konuşma Tanıma ve Zorlukları Konuşta Tanıma için Kelima-altı Birimler Türkçe Konuşta Tanıma Sistemleri ve Veri Tabanları Kelime-altı Birimler ile Konuşma Tanıma Anlamlı Kelime-Altı Birimler Kelime-altı Birimler ile Konuşma Tanıma Motivasyon: Yöntem: Konuşma Tanımadaki DDK problemini çözmek 1 kelimeleri daha kısa ve anlamlı birimlere bölmek harfler: bildiridekiler b i l d i r i d e k i l e r heceler: bildiridekiler bil di ri de ki ler kök ve ekler: bildiridekiler de ki ler kök ve kök sonrası: bildiridekiler bildiri dekiler 2 kelime-altı birimleri sözlükte kullanmak (Akustik model aynı kalır!) bil: b i l 3 Kelime-altı birimler üzerinden dil modeli eğitmek 3 lü dizilim: P(ri bil di)

Türkçe için Konuşma Tanıma ve Zorlukları Konuşta Tanıma için Kelima-altı Birimler Türkçe Konuşta Tanıma Sistemleri ve Veri Tabanları Kelime-altı Birimler ile Konuşma Tanıma Anlamlı Kelime-Altı Birimler Kelime-altı Birimler ile Konuşma Tanıma Motivasyon: Yöntem: Konuşma Tanımadaki DDK problemini çözmek 1 kelimeleri daha kısa ve anlamlı birimlere bölmek harfler: bildiridekiler b i l d i r i d e k i l e r heceler: bildiridekiler bil di ri de ki ler kök ve ekler: bildiridekiler bildiri de ki ler kök ve kök sonrası: bildiridekiler bildiri dekiler 2 kelime-altı birimleri sözlükte kullanmak (Akustik model aynı kalır!) bil: b i l 3 Kelime-altı birimler üzerinden dil modeli eğitmek 3 lü dizilim: P(ri bil di)

Türkçe için Konuşma Tanıma ve Zorlukları Konuşta Tanıma için Kelima-altı Birimler Türkçe Konuşta Tanıma Sistemleri ve Veri Tabanları Kelime-altı Birimler ile Konuşma Tanıma Anlamlı Kelime-Altı Birimler Kelime-altı Birimler ile Konuşma Tanıma Motivasyon: Yöntem: Konuşma Tanımadaki DDK problemini çözmek 1 kelimeleri daha kısa ve anlamlı birimlere bölmek harfler: bildiridekiler b i l d i r i d e k i l e r heceler: bildiridekiler bil di ri de ki ler kök ve ekler: bildiridekiler bildiri de ki ler kök ve kök sonrası: bildiridekiler bildiri dekiler 2 kelime-altı birimleri sözlükte kullanmak (Akustik model aynı kalır!) bil: b i l 3 Kelime-altı birimler üzerinden dil modeli eğitmek 3 lü dizilim: P(ri bil di)

Türkçe için Konuşma Tanıma ve Zorlukları Konuşta Tanıma için Kelima-altı Birimler Türkçe Konuşta Tanıma Sistemleri ve Veri Tabanları Kelime-altı Birimler ile Konuşma Tanıma Anlamlı Kelime-Altı Birimler Kelime-altı Birimler ile Konuşma Tanıma Motivasyon: Yöntem: Konuşma Tanımadaki DDK problemini çözmek 1 kelimeleri daha kısa ve anlamlı birimlere bölmek harfler: bildiridekiler b i l d i r i d e k i l e r heceler: bildiridekiler bil di ri de ki ler kök ve ekler: bildiridekiler bildiri de ki ler kök ve kök sonrası: bildiridekiler bildiri dekiler 2 kelime-altı birimleri sözlükte kullanmak (Akustik model aynı kalır!) bil: b i l 3 Kelime-altı birimler üzerinden dil modeli eğitmek 3 lü dizilim: P(ri bil di)

Türkçe için Konuşma Tanıma ve Zorlukları Konuşta Tanıma için Kelima-altı Birimler Türkçe Konuşta Tanıma Sistemleri ve Veri Tabanları Kelime-altı Birimler ile Konuşma Tanıma Anlamlı Kelime-Altı Birimler Kelime-altı Birimler ile Konuşma Tanıma Motivasyon: Yöntem: Konuşma Tanımadaki DDK problemini çözmek 1 kelimeleri daha kısa ve anlamlı birimlere bölmek harfler: bildiridekiler b i l d i r i d e k i l e r heceler: bildiridekiler bil di ri de ki ler kök ve ekler: bildiridekiler bildiri de ki ler kök ve kök sonrası: bildiridekiler bildiri dekiler 2 kelime-altı birimleri sözlükte kullanmak (Akustik model aynı kalır!) bil: b i l 3 Kelime-altı birimler üzerinden dil modeli eğitmek 3 lü dizilim: P(ri bil di)

Türkçe için Konuşma Tanıma ve Zorlukları Konuşta Tanıma için Kelima-altı Birimler Türkçe Konuşta Tanıma Sistemleri ve Veri Tabanları Kelime-altı Birimler ile Konuşma Tanıma Anlamlı Kelime-Altı Birimler Kelime-altı Birimler ile Konuşma Tanıma Motivasyon: Yöntem: Konuşma Tanımadaki DDK problemini çözmek 1 kelimeleri daha kısa ve anlamlı birimlere bölmek harfler: bildiridekiler b i l d i r i d e k i l e r heceler: bildiridekiler bil di ri de ki ler kök ve ekler: bildiridekiler bildiri de ki ler kök ve kök sonrası: bildiridekiler bildiri dekiler 2 kelime-altı birimleri sözlükte kullanmak (Akustik model aynı kalır!) bil: b i l start b1 b2 b3 i1 i2 i3 l1 l2 l3 end 3 Kelime-altı birimler üzerinden dil modeli eğitmek 3 lü dizilim: P(ri bil di)

Türkçe için Konuşma Tanıma ve Zorlukları Konuşta Tanıma için Kelima-altı Birimler Türkçe Konuşta Tanıma Sistemleri ve Veri Tabanları Kelime-altı Birimler ile Konuşma Tanıma Anlamlı Kelime-Altı Birimler Kelime-altı Birimler ile Konuşma Tanıma Motivasyon: Yöntem: Konuşma Tanımadaki DDK problemini çözmek 1 kelimeleri daha kısa ve anlamlı birimlere bölmek harfler: bildiridekiler b i l d i r i d e k i l e r heceler: bildiridekiler bil di ri de ki ler kök ve ekler: bildiridekiler bildiri de ki ler kök ve kök sonrası: bildiridekiler bildiri dekiler 2 kelime-altı birimleri sözlükte kullanmak (Akustik model aynı kalır!) bil: b i l start b1 b2 b3 i1 i2 i3 l1 l2 l3 end 3 Kelime-altı birimler üzerinden dil modeli eğitmek 3 lü dizilim: P(ri bil di)

Türkçe için Konuşma Tanıma ve Zorlukları Konuşta Tanıma için Kelima-altı Birimler Türkçe Konuşta Tanıma Sistemleri ve Veri Tabanları Kelime-altı Birimler ile Konuşma Tanıma Anlamlı Kelime-Altı Birimler Anlamlı Kelime-Altı Birimler Kelime-altı birimler bir dildeki kelimeleri üretebilmeli V harfler V heceler < V kök ve ekler < V kök ve kök sonrası V kelimeler dil modeli olasılıklarının hesabı açısından anlamlı birimler olmalı harfler < heceler < kök ve ekler < kök ve kök sonrası fazladan (anlamsız) kelime üretmeye karşı dayanıklı olmalı harfler < heceler < kök ve ekler < kök ve kök sonrası

Türkçe için Konuşma Tanıma ve Zorlukları Konuşta Tanıma için Kelima-altı Birimler Türkçe Konuşta Tanıma Sistemleri ve Veri Tabanları Kelime-altı Birimler ile Konuşma Tanıma Anlamlı Kelime-Altı Birimler Anlamlı Kelime-Altı Birimler Kelime-altı birimler bir dildeki kelimeleri üretebilmeli V harfler V heceler < V kök ve ekler < V kök ve kök sonrası V kelimeler dil modeli olasılıklarının hesabı açısından anlamlı birimler olmalı harfler < heceler < kök ve ekler < kök ve kök sonrası fazladan (anlamsız) kelime üretmeye karşı dayanıklı olmalı harfler < heceler < kök ve ekler < kök ve kök sonrası

Türkçe için Konuşma Tanıma ve Zorlukları Konuşta Tanıma için Kelima-altı Birimler Türkçe Konuşta Tanıma Sistemleri ve Veri Tabanları Kelime-altı Birimler ile Konuşma Tanıma Anlamlı Kelime-Altı Birimler Anlamlı Kelime-Altı Birimler Kelime-altı birimler bir dildeki kelimeleri üretebilmeli V harfler V heceler < V kök ve ekler < V kök ve kök sonrası V kelimeler dil modeli olasılıklarının hesabı açısından anlamlı birimler olmalı harfler < heceler < kök ve ekler < kök ve kök sonrası fazladan (anlamsız) kelime üretmeye karşı dayanıklı olmalı harfler < heceler < kök ve ekler < kök ve kök sonrası

Türkçe için Konuşma Tanıma ve Zorlukları Konuşta Tanıma için Kelima-altı Birimler Türkçe Konuşta Tanıma Sistemleri ve Veri Tabanları Kelime-altı Birimler ile Konuşma Tanıma Anlamlı Kelime-Altı Birimler Anlamlı Kelime-Altı Birimler Kelime-altı birimler bir dildeki kelimeleri üretebilmeli V harfler V heceler < V kök ve ekler < V kök ve kök sonrası V kelimeler dil modeli olasılıklarının hesabı açısından anlamlı birimler olmalı harfler < heceler < kök ve ekler < kök ve kök sonrası fazladan (anlamsız) kelime üretmeye karşı dayanıklı olmalı harfler < heceler < kök ve ekler < kök ve kök sonrası

Türkçe için Konuşma Tanıma ve Zorlukları Konuşta Tanıma için Kelima-altı Birimler Türkçe Konuşta Tanıma Sistemleri ve Veri Tabanları Kelime-altı Birimler ile Konuşma Tanıma Anlamlı Kelime-Altı Birimler Anlamlı Kelime-Altı Birimler Kelime-altı birimler bir dildeki kelimeleri üretebilmeli V harfler V heceler < V kök ve ekler < V kök ve kök sonrası V kelimeler dil modeli olasılıklarının hesabı açısından anlamlı birimler olmalı harfler < heceler < kök ve ekler < kök ve kök sonrası fazladan (anlamsız) kelime üretmeye karşı dayanıklı olmalı harfler < heceler < kök ve ekler < kök ve kök sonrası

Türkçe için Konuşma Tanıma ve Zorlukları Konuşta Tanıma için Kelima-altı Birimler Türkçe Konuşta Tanıma Sistemleri ve Veri Tabanları Kelime-altı Birimler ile Konuşma Tanıma Anlamlı Kelime-Altı Birimler Anlamlı Kelime-Altı Birimler Kelime-altı birimler bir dildeki kelimeleri üretebilmeli V harfler V heceler < V kök ve ekler < V kök ve kök sonrası V kelimeler dil modeli olasılıklarının hesabı açısından anlamlı birimler olmalı harfler < heceler < kök ve ekler < kök ve kök sonrası fazladan (anlamsız) kelime üretmeye karşı dayanıklı olmalı harfler < heceler < kök ve ekler < kök ve kök sonrası

Türkçe için Konuşma Tanıma ve Zorlukları Konuşta Tanıma için Kelima-altı Birimler Türkçe Konuşta Tanıma Sistemleri ve Veri Tabanları Kelime-altı Birimler ile Konuşma Tanıma Anlamlı Kelime-Altı Birimler Anlamlı Kelime-Altı Birimler Kelime-altı birimler bir dildeki kelimeleri üretebilmeli V harfler V heceler < V kök ve ekler < V kök ve kök sonrası V kelimeler dil modeli olasılıklarının hesabı açısından anlamlı birimler olmalı harfler < heceler < kök ve ekler < kök ve kök sonrası fazladan (anlamsız) kelime üretmeye karşı dayanıklı olmalı harfler < heceler < kök ve ekler < kök ve kök sonrası

Türkçe için Konuşma Tanıma ve Zorlukları Konuşta Tanıma için Kelima-altı Birimler Türkçe Konuşta Tanıma Sistemleri ve Veri Tabanları Kelime-altı Birimler ile Konuşma Tanıma Anlamlı Kelime-Altı Birimler Anlamlı Kelime-Altı Birimler Kelime-altı birimler bir dildeki kelimeleri üretebilmeli V harfler V heceler < V kök ve ekler < V kök ve kök sonrası V kelimeler dil modeli olasılıklarının hesabı açısından anlamlı birimler olmalı harfler < heceler < kök ve ekler < kök ve kök sonrası fazladan (anlamsız) kelime üretmeye karşı dayanıklı olmalı harfler < heceler < kök ve ekler < kök ve kök sonrası

Türkçe için Konuşma Tanıma ve Zorlukları Konuşta Tanıma için Kelima-altı Birimler Türkçe Konuşta Tanıma Sistemleri ve Veri Tabanları Kelime-altı Birimler ile Konuşma Tanıma Anlamlı Kelime-Altı Birimler Anlamlı Kelime-Altı Birimler Dilbilgisel Birimler Kural tabanlı biçimbilimsel ayrıştırıcı kullanılarak elde edilir kök ve ekler, kök ve kök sonrası, İstatistiksel Birimler Metin verisinden eğitmensiz öğrenme ile elde edilir Linguistica, Morfessor 1, Paramor, kök ve ekler: bildiridekiler bildiri -de -ki -ler istatistiksel birimler: bildiridekiler bildir -ide -kiler Kelimelerin sürekli uzay gösterimi ile bölütleme de yapılmaktadır 2 1 Creutz M, Lagus K (25) Unsupervised morpheme segmentation and morphology induction from text corpora using Morfessor 1 Publications in Computer and Information Science Report A81, HUT, Helsinki, Finland 2 Üstün A, Can B Unsupervised Morphological Segmentation Using Neural Word Embeddings In Proceedings of SLSP 216, Pilsen, Czech Republic, 216

Türkçe için Konuşma Tanıma ve Zorlukları Konuşta Tanıma için Kelima-altı Birimler Türkçe Konuşta Tanıma Sistemleri ve Veri Tabanları Kelime-altı Birimler ile Konuşma Tanıma Anlamlı Kelime-Altı Birimler Anlamlı Kelime-Altı Birimler Dilbilgisel Birimler Kural tabanlı biçimbilimsel ayrıştırıcı kullanılarak elde edilir kök ve ekler, kök ve kök sonrası, İstatistiksel Birimler Metin verisinden eğitmensiz öğrenme ile elde edilir Linguistica, Morfessor 1, Paramor, kök ve ekler: bildiridekiler bildiri -de -ki -ler istatistiksel birimler: bildiridekiler bildir -ide -kiler Kelimelerin sürekli uzay gösterimi ile bölütleme de yapılmaktadır 2 1 Creutz M, Lagus K (25) Unsupervised morpheme segmentation and morphology induction from text corpora using Morfessor 1 Publications in Computer and Information Science Report A81, HUT, Helsinki, Finland 2 Üstün A, Can B Unsupervised Morphological Segmentation Using Neural Word Embeddings In Proceedings of SLSP 216, Pilsen, Czech Republic, 216

Türkçe için Konuşma Tanıma ve Zorlukları Konuşta Tanıma için Kelima-altı Birimler Türkçe Konuşta Tanıma Sistemleri ve Veri Tabanları Türkçe Konuşma Tanıma Üzerine Çalışmalar Türkçe Konuşma Tanıma Sistemi Geliştirilmesi 1 Veri tabanı oluşturulması Akustik veri: Ses kayıtları ve referans metinleri Metin verisi: Örün sitelerinden toplanmış metinler 2 Akustik model eğitimi SMM-GKM ve DSA ile eğitim Yöntemler dilden bağımsızdır Türkçe için sözlükte (genelde) sesler için harfler kullanılır 3 Dil modeli eğitimi Türkçe için anlamlı kelime-altı birimlerinin araştırılması Ayırıcı dil modellerinin dilbilimsel ve istatistiksel özniteliklerle kullanılması Sinir Ağları (SA) dil modellerinin kullanılması

Türkçe için Konuşma Tanıma ve Zorlukları Konuşta Tanıma için Kelima-altı Birimler Türkçe Konuşta Tanıma Sistemleri ve Veri Tabanları Türkçe Konuşma Tanıma Üzerine Çalışmalar Türkçe Konuşma Tanıma Sistemi Geliştirilmesi 1 Veri tabanı oluşturulması Akustik veri: Ses kayıtları ve referans metinleri Metin verisi: Örün sitelerinden toplanmış metinler 2 Akustik model eğitimi SMM-GKM ve DSA ile eğitim Yöntemler dilden bağımsızdır Türkçe için sözlükte (genelde) sesler için harfler kullanılır 3 Dil modeli eğitimi Türkçe için anlamlı kelime-altı birimlerinin araştırılması Ayırıcı dil modellerinin dilbilimsel ve istatistiksel özniteliklerle kullanılması Sinir Ağları (SA) dil modellerinin kullanılması

Türkçe için Konuşma Tanıma ve Zorlukları Konuşta Tanıma için Kelima-altı Birimler Türkçe Konuşta Tanıma Sistemleri ve Veri Tabanları Türkçe Konuşma Tanıma Üzerine Çalışmalar Türkçe Veri tabanları Akustik Veri Tabanı = Ses Kayıtları + Referans Metinleri Mikrofon ile Toplanan Kayıtlar: GlobalPhone: Türkçe için 17 saat (ELRA ve Appen Butler Hill Pty Ltd) METU Microphone Speech: 1 saat (LDC - LDC26S33) Sabancı Üniversitesi nde toplanan akustik veri: 3 saat 3 Telefon Üzerinden Toplanan Kayıtlar: OrienTel Projesi: 17 konuşmacı (ELRA) IARPA Babel Turkish Language Pack: 213 saat (LDC - LDC216S1) SESTEK in topladığı çağrı merkezi konuşmaları: 1 saat 4 Haber Programı Kayıtları: 13 saat Türkçe programlar (LDC - LDC212S6) 3 Erdogan H, Büyük O, Oflazer K (25) Incorporating language constraints in sub-word based speech recognition In: Proceedings of ASRU, San Juan, PR, pp 98 13 4 Haznedaroğlu A, Arslan LM, Büyük O, Eden M (21) Turkish LVCSR system for call center conversations In: Proceedings of SIU, Diyarbakır, Turkey, pp 372 375

Türkçe için Konuşma Tanıma ve Zorlukları Konuşta Tanıma için Kelima-altı Birimler Türkçe Konuşta Tanıma Sistemleri ve Veri Tabanları Türkçe Konuşma Tanıma Üzerine Çalışmalar Türkçe Veri tabanları MetinVeritabanı 184 M kelimelik gazete haberleri metinleri 5 81 M kelimelik haber ve e-kitap metinleri 6 5 Sak H, Güngör T, Saraçlar M (211) Resources for Turkish morphological processing Language Resources and Evaluation 45(2):249 261 6 Erdogan H, Büyük O, Oflazer K (25) Incorporating language constraints in sub-word based speech recognition In: Proceedings of ASRU, San Juan, PR, pp 98 13

Türkçe için Konuşma Tanıma ve Zorlukları Konuşta Tanıma için Kelima-altı Birimler Türkçe Konuşta Tanıma Sistemleri ve Veri Tabanları Türkçe Konuşma Tanıma Üzerine Çalışmalar Türkçe için Akustik Model Akustik model olarak Saklı Markov Model (SMM) kullanılmıştır SMM deki durum çıktı olasılıkları için GKM ve DSA denemiştir DSA Akustik Modeli Derin sinir ağı mimarileri Çok katmanlı ileribesleme Yinelemeli ve türevleri Zaman gecikmeli Amaç işlevleri Çapraz entropi Dizisel ayırıcı eğitim Örüsüz en büyük ortak bilgi

Türkçe için Konuşma Tanıma ve Zorlukları Konuşta Tanıma için Kelima-altı Birimler Türkçe Konuşta Tanıma Sistemleri ve Veri Tabanları Türkçe Konuşma Tanıma Üzerine Çalışmalar Türkçe için Akustik Model - Sonuçlar Türkçe Haber Programları için GDSKT 7 Akustik Veri: 188 saat (eğitim), 3 saat (geliştirme), 3 saat (sınama) Metin Verisi: 1823 M kelime (haber metinleri) + 18 M kelime (referans metinler) Dil Modeli: 2 K dağarcık, 3 lü dizilim kelime Akustik Model Sınama KHO (%) SMM-GKM 183 Çok katmanlı ileribesleme (çapraz entropi) 1424 Çok katmanlı ileribesleme (dizisel ayırıcı eğitim) 1342 Zaman gecikmeli SA (çapraz entropi) 1245 Zaman gecikmeli SA (örüsüz en büyük ortak bilgi) 192 7 Arısoy E, Saraçlar M (218) Turkish Broadcast News Transcription Revisited In: Proceedings of SIU 218, Çeşme, Türkiye

Türkçe için Konuşma Tanıma ve Zorlukları Konuşta Tanıma için Kelima-altı Birimler Türkçe Konuşta Tanıma Sistemleri ve Veri Tabanları Türkçe Konuşma Tanıma Üzerine Çalışmalar Türkçe için Akustik Model - Sonuçlar Türkçe Haber Programları için GDSKT 7 Akustik Veri: 188 saat (eğitim), 3 saat (geliştirme), 3 saat (sınama) Metin Verisi: 1823 M kelime (haber metinleri) + 18 M kelime (referans metinler) Dil Modeli: 2 K dağarcık, 3 lü dizilim kelime Akustik Model Sınama KHO (%) SMM-GKM 183 Çok katmanlı ileribesleme (çapraz entropi) 1424 Çok katmanlı ileribesleme (dizisel ayırıcı eğitim) 1342 Zaman gecikmeli SA (çapraz entropi) 1245 Zaman gecikmeli SA (örüsüz en büyük ortak bilgi) 192 7 Arısoy E, Saraçlar M (218) Turkish Broadcast News Transcription Revisited In: Proceedings of SIU 218, Çeşme, Türkiye

Türkçe için Konuşma Tanıma ve Zorlukları Konuşta Tanıma için Kelima-altı Birimler Türkçe Konuşta Tanıma Sistemleri ve Veri Tabanları Türkçe Konuşma Tanıma Üzerine Çalışmalar Türkçe için Dil Modeli Kelime-altı Birimler /A/ yüzeysel gösterimde /a/ veya /e/ olabilir Sözlüksel Gösterim kelimeler: sunulacak bildiridekiler istatistiksel birimler: sunul -acak bildir -ide -kiler kök ve ekler (yüzeysel): sun -ul -acak bildiri -de -ki -ler (sözlüksel 8 ): kök ve kök sonrası (yüzeysel): sun -ul-acak bildiri -de-ki-ler (sözlüksel 8 ): /H/ yüzeysel gösterimde /ı/, /i/, /u/, veya /ü/ olabilir Farklı yüzeysel gösterimler için aynı sözlüksel gösterim Gürbüz dil modeli kestirimleri Ses değişimlerinin doğruluğu Fazladan (anlamsız) kelimeleri üretme hataları azalır 8 Arısoy E, Sak H, Saraçlar M (27) Language modeling for automatic Turkish broadcast news transcription In: Proceedings of INTERSPEECH, Antwerp, Belgium, pp 2381 2384

Türkçe için Konuşma Tanıma ve Zorlukları Konuşta Tanıma için Kelima-altı Birimler Türkçe Konuşta Tanıma Sistemleri ve Veri Tabanları Türkçe Konuşma Tanıma Üzerine Çalışmalar Türkçe için Dil Modeli Kelime-altı Birimler /A/ yüzeysel gösterimde /a/ veya /e/ olabilir Sözlüksel Gösterim kelimeler: sunulacak bildiridekiler istatistiksel birimler: sunul -acak bildir -ide -kiler kök ve ekler (yüzeysel): sun -ul -acak bildiri -de -ki -ler (sözlüksel 8 ): kök ve kök sonrası (yüzeysel): sun -ul-acak bildiri -de-ki-ler (sözlüksel 8 ): /H/ yüzeysel gösterimde /ı/, /i/, /u/, veya /ü/ olabilir Farklı yüzeysel gösterimler için aynı sözlüksel gösterim Gürbüz dil modeli kestirimleri Ses değişimlerinin doğruluğu Fazladan (anlamsız) kelimeleri üretme hataları azalır 8 Arısoy E, Sak H, Saraçlar M (27) Language modeling for automatic Turkish broadcast news transcription In: Proceedings of INTERSPEECH, Antwerp, Belgium, pp 2381 2384

Türkçe için Konuşma Tanıma ve Zorlukları Konuşta Tanıma için Kelima-altı Birimler Türkçe Konuşta Tanıma Sistemleri ve Veri Tabanları Türkçe Konuşma Tanıma Üzerine Çalışmalar Türkçe için Dil Modeli Kelime-altı Birimler kelimeler: sunulacak bildiridekiler istatistiksel birimler: sunul -acak bildir -ide -kiler kök ve ekler (yüzeysel): sun -ul -acak bildiri -de -ki -ler (sözlüksel 8 ): sun -Hl -AcAk bildiri -da -ki -lar kök ve kök sonrası (yüzeysel): sun -ul-acak bildiri -de-ki-ler (sözlüksel 8 ): sun -Hl-AcAk bildiri -da-ki-lar /A/ yüzeysel gösterimde /a/ veya /e/ olabilir Sözlüksel Gösterim /H/ yüzeysel gösterimde /ı/, /i/, /u/, veya /ü/ olabilir Farklı yüzeysel gösterimler için aynı sözlüksel gösterim Gürbüz dil modeli kestirimleri Ses değişimlerinin doğruluğu Fazladan (anlamsız) kelimeleri üretme hataları azalır 8 Arısoy E, Sak H, Saraçlar M (27) Language modeling for automatic Turkish broadcast news transcription In: Proceedings of INTERSPEECH, Antwerp, Belgium, pp 2381 2384

Türkçe için Konuşma Tanıma ve Zorlukları Konuşta Tanıma için Kelima-altı Birimler Türkçe Konuşta Tanıma Sistemleri ve Veri Tabanları Türkçe Konuşma Tanıma Üzerine Çalışmalar Türkçe için Dil Modeli Kelime-altı Birimler kelimeler: sunulacak bildiridekiler istatistiksel birimler: sunul -acak bildir -ide -kiler kök ve ekler (yüzeysel): sun -ul -acak bildiri -de -ki -ler (sözlüksel 8 ): sun -Hl -AcAk bildiri -da -ki -lar kök ve kök sonrası (yüzeysel): sun -ul-acak bildiri -de-ki-ler (sözlüksel 8 ): sun -Hl-AcAk bildiri -da-ki-lar /A/ yüzeysel gösterimde /a/ veya /e/ olabilir Sözlüksel Gösterim /H/ yüzeysel gösterimde /ı/, /i/, /u/, veya /ü/ olabilir Farklı yüzeysel gösterimler için aynı sözlüksel gösterim Gürbüz dil modeli kestirimleri ev -lar ev -ler kitap -lar kitap -lar Ses değişimlerinin doğruluğu Fazladan (anlamsız) kelimeleri üretme hataları azalır 8 Arısoy E, Sak H, Saraçlar M (27) Language modeling for automatic Turkish broadcast news transcription In: Proceedings of INTERSPEECH, Antwerp, Belgium, pp 2381 2384

Türkçe için Konuşma Tanıma ve Zorlukları Konuşta Tanıma için Kelima-altı Birimler Türkçe Konuşta Tanıma Sistemleri ve Veri Tabanları Türkçe Konuşma Tanıma Üzerine Çalışmalar Türkçe için Dil Modeli Kelime-altı Birimler kelimeler: sunulacak bildiridekiler istatistiksel birimler: sunul -acak bildir -ide -kiler kök ve ekler (yüzeysel): sun -ul -acak bildiri -de -ki -ler (sözlüksel 8 ): sun -Hl -AcAk bildiri -da -ki -lar kök ve kök sonrası (yüzeysel): sun -ul-acak bildiri -de-ki-ler (sözlüksel 8 ): sun -Hl-AcAk bildiri -da-ki-lar /A/ yüzeysel gösterimde /a/ veya /e/ olabilir Sözlüksel Gösterim /H/ yüzeysel gösterimde /ı/, /i/, /u/, veya /ü/ olabilir Farklı yüzeysel gösterimler için aynı sözlüksel gösterim Gürbüz dil modeli kestirimleri ev -lar ev -ler kitap -lar kitap -lar Ses değişimlerinin doğruluğu Fazladan (anlamsız) kelimeleri üretme hataları azalır ev -lar ev -ler ev -lar 8 Arısoy E, Sak H, Saraçlar M (27) Language modeling for automatic Turkish broadcast news transcription In: Proceedings of INTERSPEECH, Antwerp, Belgium, pp 2381 2384

Türkçe için Konuşma Tanıma ve Zorlukları Konuşta Tanıma için Kelima-altı Birimler Türkçe Konuşta Tanıma Sistemleri ve Veri Tabanları Türkçe Konuşma Tanıma Üzerine Çalışmalar Türkçe için Dil Modeli Sonuçlar Türkçe Haber Programları için GDSKT 9 Akustik Veri: 188 saat (eğitim), 3 saat (geliştirme), 3 saat (sınama) Metin Verisi: 1823 M kelime (haber metinleri) + 18 M kelime (referans metinler) Akustik Model: SMM-GKM Dil Modeli Sınama KHO (%) Kelime 231 Kök ve kök sonrası (yüzeysel) 219 Kök ve ekler (sözlüksel) 218 İstatistiksel birimler 217 Kök ve kök sonrası (sözlüksel) 213 9 Sak H, Saraçlar M, Güngör T (212) Morpholexical and discriminative language models for Turkish automatic speech recognition IEEE Transactions on Audio, Speech, and Language Processing 2(8):2341 2351

Türkçe için Konuşma Tanıma ve Zorlukları Konuşta Tanıma için Kelima-altı Birimler Türkçe Konuşta Tanıma Sistemleri ve Veri Tabanları Türkçe Konuşma Tanıma Üzerine Çalışmalar Türkçe için Dil Modeli Sonuçlar Türkçe Haber Programları için GDSKT 9 Akustik Veri: 188 saat (eğitim), 3 saat (geliştirme), 3 saat (sınama) Metin Verisi: 1823 M kelime (haber metinleri) + 18 M kelime (referans metinler) Akustik Model: SMM-GKM Dil Modeli Sınama KHO (%) Kelime 231 Kök ve kök sonrası (yüzeysel) 219 Kök ve ekler (sözlüksel) 218 İstatistiksel birimler 217 Kök ve kök sonrası (sözlüksel) 213 9 Sak H, Saraçlar M, Güngör T (212) Morpholexical and discriminative language models for Turkish automatic speech recognition IEEE Transactions on Audio, Speech, and Language Processing 2(8):2341 2351

Türkçe için Konuşma Tanıma ve Zorlukları Konuşta Tanıma için Kelima-altı Birimler Türkçe Konuşta Tanıma Sistemleri ve Veri Tabanları Türkçe Konuşma Tanıma Üzerine Çalışmalar Türkçe için Dil Modeli - Sonuçlar Türkçe Haber Programları için GDSKT 1 Akustik Model Dil Modeli Sınama KHO (%) SMM-GKM 3 lü kelime 183 Zaman gecikmeli SA 3 lü kelime 192 Zaman gecikmeli SA 3 lü kök ve kök sonrası 112 Yüzeysel gösterim 1 Arısoy E, Saraçlar M (218) Turkish Broadcast News Transcription Revisited In: Proceedings of SIU 218, Çeşme, Türkiye

Türkçe için Konuşma Tanıma ve Zorlukları Konuşta Tanıma için Kelima-altı Birimler Türkçe Konuşta Tanıma Sistemleri ve Veri Tabanları Türkçe Konuşma Tanıma Üzerine Çalışmalar Türkçe için Dil Modeli - Sonuçlar Türkçe Haber Programları için GDSKT 1 Akustik Model Dil Modeli Sınama KHO (%) SMM-GKM 3 lü kelime 183 Zaman gecikmeli SA 3 lü kelime 192 Zaman gecikmeli SA 3 lü kök ve kök sonrası 112 Yüzeysel gösterim 1 Arısoy E, Saraçlar M (218) Turkish Broadcast News Transcription Revisited In: Proceedings of SIU 218, Çeşme, Türkiye

Türkçe için Konuşma Tanıma ve Zorlukları Konuşta Tanıma için Kelima-altı Birimler Türkçe Konuşta Tanıma Sistemleri ve Veri Tabanları Türkçe Konuşma Tanıma Üzerine Çalışmalar Üretici Dil Modeli - Ayırıcı Dil Modeli Üretici Dil Modeli: n-li dizilim klasik model Koşullu olasılıklar en büyük olabilirlik kestirimi ile hesaplanır Ayırıcı Dil Modeli: Üretici modeli tamamlayıcı bir yöntemdir Hata oranını en iyilemek için ses kayıtları ve onların referans metinleri ile eğitilir Avantajları: Model hem doğru hem de yanlış örneklerden öğrenir Farklı öznitelikler aynı modelde kolayca kullanılabilir biçimbilimsel, sözdizimsel, anlambilimsel,

Türkçe için Konuşma Tanıma ve Zorlukları Konuşta Tanıma için Kelima-altı Birimler Türkçe Konuşta Tanıma Sistemleri ve Veri Tabanları Türkçe Konuşma Tanıma Üzerine Çalışmalar Ayırıcı Dil Modeli haberleri sundu cümlesinin ses sinyalinin konuşma tanıma çıktısı hangi/1 Örü Çıktısı 1 haberler/6 haberleri/3 evi/1 2 sundu/8 sorduk/2 3/1 En iyi N hipotez 1 haberler sundu 48 2 haberleri sundu 24 3 haberler sorduk 12 Φ(x, y): Öznitelik vektörü x: Konuşma y: Aday hipotez Φ k (x, y) = haberleri sundu" dizilimin y de kaç defa geçtiği ᾱ: Öznitelik parametreleri Ayırıcı eğitim ile öğrenilir F(x) = argmax y GEN(x) Φ(x, y) ᾱ GEN(x): x e karşılık gelen en iyi N hipotez

Türkçe için Konuşma Tanıma ve Zorlukları Konuşta Tanıma için Kelima-altı Birimler Türkçe Konuşta Tanıma Sistemleri ve Veri Tabanları Türkçe Konuşma Tanıma Üzerine Çalışmalar Ayırıcı Dil Modeli haberleri sundu cümlesinin ses sinyalinin konuşma tanıma çıktısı hangi/1 Örü Çıktısı 1 haberler/6 haberleri/3 evi/1 2 sundu/8 sorduk/2 Φ(x, y): Öznitelik vektörü x: Konuşma y: Aday hipotez 3/1 En iyi N hipotez 1 haberler sundu 48 2 haberleri sundu 24 (Doğru) 3 haberler sorduk 12 Φ k (x, y) = haberleri sundu" dizilimin y de kaç defa geçtiği ᾱ: Öznitelik parametreleri Ayırıcı eğitim ile öğrenilir F(x) = argmax y GEN(x) Φ(x, y) ᾱ GEN(x): x e karşılık gelen en iyi N hipotez

Türkçe için Konuşma Tanıma ve Zorlukları Konuşta Tanıma için Kelima-altı Birimler Türkçe Konuşta Tanıma Sistemleri ve Veri Tabanları Türkçe Konuşma Tanıma Üzerine Çalışmalar Türkçe Ayırıcı Dil Modeli 11 Kullanılan öznitelikler: 1 Kelimelerin n li dizilimleri 2 Kelime-altı birimlerin n li dizilimleri Dilbilimsel: kelimelerin biçimbilimsel analizinden elde edilir İstatistiksel: kelimelerin istatistiksel yöntemlerle bölütlenmesinden elde edilir 3 Sözdizimsel öznitelikler: cümlelerin bağlılık analizinden elde edilir 11 Arısoy E, Saraçlar M, Roark B, Shafran I (212) Discriminative language modeling with linguistic and statistically derived features IEEE Transactions on Audio, Speech, and Language Processing 2(2):54 55

Derin Öğrenme ile Dil Modelleme Part III Derin Öğrenmeyle Dil Modelleme

Derin Öğrenme ile Dil Modelleme Klasik Dil Modeli ile Sinir Ağı Dil Modeli Karşılaştırması Sinir Ağı Dil Modelleri Sürekli Uzay Gösterimleri Türkçe Sinir Ağı Dil Modeli Çalışmaları Klasik ile Sinir Ağı Dil Modellerinin Karşılaştırması Klasik n li Dizilimli Dil Modeli: Kelimeler ayrık birimlerdir Veri tabanında geçmeyen veya az geçen dizilimler için gürbüz kestirimler yapılamaz P(sevimli bu kedi çok) = C(bu kedi çok sevimli) C(bu kedi çok) = 25 P(sevimli bu köpek çok) = C(bu köpek çok sevimli) C(bu köpek çok) =

Derin Öğrenme ile Dil Modelleme Klasik Dil Modeli ile Sinir Ağı Dil Modeli Karşılaştırması Sinir Ağı Dil Modelleri Sürekli Uzay Gösterimleri Türkçe Sinir Ağı Dil Modeli Çalışmaları Klasik ile Sinir Ağları Dil Modellerinin Karşılaştırması Sinir Ağları (SA) Dil Modeli Kelimler için sürekli uzay gösterimleri öğrenilir Anlamsal ve dilbilimsel olarak benzer kelimeler sürekli uzayda yakın yerlerde bulunurlar Olasılık kestirimleri sürekli uzayda SA kullanılarak yapılır SA dil modeli ile daha gürbüz kestirimler yapılabilmektedir P(sevimli bu kedi çok) P(sevimli bu köpek çok) SA Mimarileri: ileribesleme, yinelemeli, uzun kısa-süreli bellek

Derin Öğrenme ile Dil Modelleme 12 13 İleribesleme Sinir Ağı (SA) Dil Modeli Klasik Dil Modeli ile Sinir Ağı Dil Modeli Karşılaştırması Sinir Ağı Dil Modelleri Sürekli Uzay Gösterimleri Türkçe Sinir Ağı Dil Modeli Çalışmaları Olasılık kestirimleri kelimelerin sürekli uzay gösterimleri ile yapılır Giriş Katmanı İzdüşüm Katmanı Saklı Katman ( (n 1) P ) d j = tanh l=1 M jl c l + b j Çıktı Katmanı o i = H j=1 V ijd j + k i p i = exp(o i ) V r=1 exp(or ) = P(w j = i h j ) w j-n+1 w j-n+2 w j-1 1 1 1 Projection layer M c d o (n-1) x P b Hidden layer H V k Output layer P(w j =1 h j ) P(w j =i h j ) P(w j =N h j ) 12 Bengio Y, Ducharme R, Vincent P, Jauvin C (23) A neural probabilistic language model Journal of Machine Learning Research 3:1137 1155 13 Schwenk H (27) Continuous space language models Computer Speech and Language 21(3):492 518

Derin Öğrenme ile Dil Modelleme 12 13 İleribesleme Sinir Ağı (SA) Dil Modeli Klasik Dil Modeli ile Sinir Ağı Dil Modeli Karşılaştırması Sinir Ağı Dil Modelleri Sürekli Uzay Gösterimleri Türkçe Sinir Ağı Dil Modeli Çalışmaları Olasılık kestirimleri kelimelerin sürekli uzay gösterimleri ile yapılır Giriş Katmanı İzdüşüm Katmanı Saklı Katman ( (n 1) P ) d j = tanh l=1 M jl c l + b j Çıktı Katmanı o i = H j=1 V ijd j + k i p i = exp(o i ) V r=1 exp(or ) = P(w j = i h j ) w j-n+1 w j-n+2 w j-1 1 1 1 Projection layer M c d o (n-1) x P b Hidden layer H V k Output layer P(w j =1 h j ) P(w j =i h j ) P(w j =N h j ) 12 Bengio Y, Ducharme R, Vincent P, Jauvin C (23) A neural probabilistic language model Journal of Machine Learning Research 3:1137 1155 13 Schwenk H (27) Continuous space language models Computer Speech and Language 21(3):492 518

Derin Öğrenme ile Dil Modelleme 12 13 İleribesleme Sinir Ağı (SA) Dil Modeli Klasik Dil Modeli ile Sinir Ağı Dil Modeli Karşılaştırması Sinir Ağı Dil Modelleri Sürekli Uzay Gösterimleri Türkçe Sinir Ağı Dil Modeli Çalışmaları Olasılık kestirimleri kelimelerin sürekli uzay gösterimleri ile yapılır Giriş Katmanı İzdüşüm Katmanı Saklı Katman ( (n 1) P ) d j = tanh l=1 M jl c l + b j Çıktı Katmanı o i = H j=1 V ijd j + k i p i = exp(o i ) V r=1 exp(or ) = P(w j = i h j ) w j-n+1 w j-n+2 w j-1 1 1 1 Projection layer M c d o (n-1) x P b Hidden layer H V k Output layer P(w j =1 h j ) P(w j =i h j ) P(w j =N h j ) 12 Bengio Y, Ducharme R, Vincent P, Jauvin C (23) A neural probabilistic language model Journal of Machine Learning Research 3:1137 1155 13 Schwenk H (27) Continuous space language models Computer Speech and Language 21(3):492 518

Derin Öğrenme ile Dil Modelleme 12 13 İleribesleme Sinir Ağı (SA) Dil Modeli Klasik Dil Modeli ile Sinir Ağı Dil Modeli Karşılaştırması Sinir Ağı Dil Modelleri Sürekli Uzay Gösterimleri Türkçe Sinir Ağı Dil Modeli Çalışmaları Olasılık kestirimleri kelimelerin sürekli uzay gösterimleri ile yapılır Giriş Katmanı İzdüşüm Katmanı Saklı Katman ( (n 1) P ) d j = tanh l=1 M jl c l + b j Çıktı Katmanı o i = H j=1 V ijd j + k i p i = exp(o i ) V r=1 exp(or ) = P(w j = i h j ) w j-n+1 w j-n+2 w j-1 1 1 1 Projection layer M c d o (n-1) x P b Hidden layer H V k Output layer P(w j =1 h j ) P(w j =i h j ) P(w j =N h j ) 12 Bengio Y, Ducharme R, Vincent P, Jauvin C (23) A neural probabilistic language model Journal of Machine Learning Research 3:1137 1155 13 Schwenk H (27) Continuous space language models Computer Speech and Language 21(3):492 518

Derin Öğrenme ile Dil Modelleme 12 13 İleribesleme Sinir Ağı (SA) Dil Modeli Klasik Dil Modeli ile Sinir Ağı Dil Modeli Karşılaştırması Sinir Ağı Dil Modelleri Sürekli Uzay Gösterimleri Türkçe Sinir Ağı Dil Modeli Çalışmaları Olasılık kestirimleri kelimelerin sürekli uzay gösterimleri ile yapılır Giriş Katmanı İzdüşüm Katmanı Saklı Katman ( (n 1) P ) d j = tanh l=1 M jl c l + b j Çıktı Katmanı o i = H j=1 V ijd j + k i p i = exp(o i ) V r=1 exp(or ) = P(w j = i h j ) w j-n+1 w j-n+2 w j-1 1 1 1 Projection layer M c d o (n-1) x P b Hidden layer H V k Output layer P(w j =1 h j ) P(w j =i h j ) P(w j =N h j ) 12 Bengio Y, Ducharme R, Vincent P, Jauvin C (23) A neural probabilistic language model Journal of Machine Learning Research 3:1137 1155 13 Schwenk H (27) Continuous space language models Computer Speech and Language 21(3):492 518

Derin Öğrenme ile Dil Modelleme 12 13 İleribesleme Sinir Ağı (SA) Dil Modeli Klasik Dil Modeli ile Sinir Ağı Dil Modeli Karşılaştırması Sinir Ağı Dil Modelleri Sürekli Uzay Gösterimleri Türkçe Sinir Ağı Dil Modeli Çalışmaları İleribesleme SA dil modeli hata geri yayılım algoritması is eğitilir Giriş Katmanı İzdüşüm Katmanı Saklı Katman ( (n 1) P ) d j = tanh l=1 M jl c l + b j Çıktı Katmanı o i = H j=1 V ijd j + k i p i = exp(o i ) V r=1 exp(or ) = P(w j = i h j ) w j-n+1 w j-n+2 w j-1 1 1 1 Projection layer M c d o (n-1) x P b Hidden layer H V k Output layer P(w j =1 h j ) P(w j =i h j ) P(w j =N h j ) 12 Bengio Y, Ducharme R, Vincent P, Jauvin C (23) A neural probabilistic language model Journal of Machine Learning Research 3:1137 1155 13 Schwenk H (27) Continuous space language models Computer Speech and Language 21(3):492 518

Derin Öğrenme ile Dil Modelleme İleribesleme Sinir Ağı (SA) Dil Modeli Klasik Dil Modeli ile Sinir Ağı Dil Modeli Karşılaştırması Sinir Ağı Dil Modelleri Sürekli Uzay Gösterimleri Türkçe Sinir Ağı Dil Modeli Çalışmaları ojection layer M c d o n-1) x P b Hidden layer H V k Output layer Önerilen Çözümler: P(w j =1 h j ) P(w j =i h j ) P(w j =N h j ) SA Dil Modelindeki Zorluklar: Çıktı katmanındaki hesaplama karmaşıklığı (H V ) p i = exp(o i ) V r=1 exp(or ) = P(w j = i h j ) H 3 5, V 6K 2K Daha küçük çıkış dağarcığı kullanmak: V o << V V o 2K Hiyerarşik bir çıkış katmanı tanımlamak: P(w h) = P(c(w) h)p(w h, c(w))

Derin Öğrenme ile Dil Modelleme Derin Sinir Ağı (DSA) Dil Modeli 14 DSA birden fazla doğrusal olmayan katmana sahiptir Klasik Dil Modeli ile Sinir Ağı Dil Modeli Karşılaştırması Sinir Ağı Dil Modelleri Sürekli Uzay Gösterimleri Türkçe Sinir Ağı Dil Modeli Çalışmaları w j-n+1 w j-n+2 1 1 Projection layer c M b Hidden layers M 1 M k b 1 b k V k Output layer P(w j =1 h j ) P(w j =i h j ) o (n-1) x P P(w j =N h j ) w j-1 1 14 Arısoy E, Sainath T, Kingsbury B, Ramabhadran B (212) Deep neural network language models In: Proceedings of NAACL-HLT Workshop, Montreal, Canada

Derin Öğrenme ile Dil Modelleme Derin Sinir Ağı (DSA) Dil Modeli 14 DSA birden fazla doğrusal olmayan katmana sahiptir Klasik Dil Modeli ile Sinir Ağı Dil Modeli Karşılaştırması Sinir Ağı Dil Modelleri Sürekli Uzay Gösterimleri Türkçe Sinir Ağı Dil Modeli Çalışmaları w j-n+1 w j-n+2 1 1 Projection layer c M b Hidden layers M 1 M k b 1 b k V k Output layer P(w j =1 h j ) P(w j =i h j ) o (n-1) x P P(w j =N h j ) w j-1 1 14 Arısoy E, Sainath T, Kingsbury B, Ramabhadran B (212) Deep neural network language models In: Proceedings of NAACL-HLT Workshop, Montreal, Canada

Derin Öğrenme ile Dil Modelleme Yinelemeli Sinir Ağı (SA) Dil Modeli 15! Klasik Dil Modeli ile Sinir Ağı Dil Modeli Karşılaştırması Sinir Ağı Dil Modelleri Sürekli Uzay Gösterimleri Türkçe Sinir Ağı Dil Modeli Çalışmaları Input!layer! Olasılık kestirimleri yinelemeli SA ile yapılır Output! layer! Daha uzun geçmiş kelime kullanılarak koşullu olasılıklar hesaplanır wt)1! Projection! layer! P(wt=i wt)1,ht)2)! Zaman boyunca geri yayılım algoritması ile eğitim yapılır Recursive!! Hidden!layer! 15 Mikolov T, Karafiat M, Burget L, Cernocky J, Khudanpur S (21) Recurrent neutral network based language model In: Proceedings of INTERSPEECH, Japan, pp 145 148

Derin Öğrenme ile Dil Modelleme Yinelemeli Sinir Ağı (SA) Dil Modeli 15! Klasik Dil Modeli ile Sinir Ağı Dil Modeli Karşılaştırması Sinir Ağı Dil Modelleri Sürekli Uzay Gösterimleri Türkçe Sinir Ağı Dil Modeli Çalışmaları Input!layer! Olasılık kestirimleri yinelemeli SA ile yapılır Output! layer! Daha uzun geçmiş kelime kullanılarak koşullu olasılıklar hesaplanır wt)1! Projection! layer! P(wt=i wt)1,ht)2)! Zaman boyunca geri yayılım algoritması ile eğitim yapılır Recursive!! Hidden!layer! 15 Mikolov T, Karafiat M, Burget L, Cernocky J, Khudanpur S (21) Recurrent neutral network based language model In: Proceedings of INTERSPEECH, Japan, pp 145 148

Derin Öğrenme ile Dil Modelleme Yinelemeli Sinir Ağı (SA) Dil Modeli 15! Klasik Dil Modeli ile Sinir Ağı Dil Modeli Karşılaştırması Sinir Ağı Dil Modelleri Sürekli Uzay Gösterimleri Türkçe Sinir Ağı Dil Modeli Çalışmaları Input!layer! Olasılık kestirimleri yinelemeli SA ile yapılır Output! layer! Daha uzun geçmiş kelime kullanılarak koşullu olasılıklar hesaplanır wt)1! Projection! layer! P(wt=i wt)1,ht)2)! Zaman boyunca geri yayılım algoritması ile eğitim yapılır Recursive!! Hidden!layer! 15 Mikolov T, Karafiat M, Burget L, Cernocky J, Khudanpur S (21) Recurrent neutral network based language model In: Proceedings of INTERSPEECH, Japan, pp 145 148

Derin Öğrenme ile Dil Modelleme Yinelemeli Sinir Ağı (SA) Dil Modeli 15! Klasik Dil Modeli ile Sinir Ağı Dil Modeli Karşılaştırması Sinir Ağı Dil Modelleri Sürekli Uzay Gösterimleri Türkçe Sinir Ağı Dil Modeli Çalışmaları Input!layer! Olasılık kestirimleri yinelemeli SA ile yapılır Output! layer! Daha uzun geçmiş kelime kullanılarak koşullu olasılıklar hesaplanır wt)1! Projection! layer! P(wt=i wt)1,ht)2)! Zaman boyunca geri yayılım algoritması ile eğitim yapılır Recursive!! Hidden!layer! cümle başından itibaren tüm bilgiyi içerir! 15 Mikolov T, Karafiat M, Burget L, Cernocky J, Khudanpur S (21) Recurrent neutral network based language model In: Proceedings of INTERSPEECH, Japan, pp 145 148

Derin Öğrenme ile Dil Modelleme Yinelemeli Sinir Ağı (SA) Dil Modeli 15! Klasik Dil Modeli ile Sinir Ağı Dil Modeli Karşılaştırması Sinir Ağı Dil Modelleri Sürekli Uzay Gösterimleri Türkçe Sinir Ağı Dil Modeli Çalışmaları Input!layer! Olasılık kestirimleri yinelemeli SA ile yapılır Output! layer! Daha uzun geçmiş kelime kullanılarak koşullu olasılıklar hesaplanır wt)1! Projection! layer! P(wt=i wt)1,ht)2)! Zaman boyunca geri yayılım algoritması ile eğitim yapılır Recursive!! Hidden!layer! 15 Mikolov T, Karafiat M, Burget L, Cernocky J, Khudanpur S (21) Recurrent neutral network based language model In: Proceedings of INTERSPEECH, Japan, pp 145 148

Derin Öğrenme ile Dil Modelleme Yinelemeli Sinir Ağı (SA) Dil Modeli Klasik Dil Modeli ile Sinir Ağı Dil Modeli Karşılaştırması Sinir Ağı Dil Modelleri Sürekli Uzay Gösterimleri Türkçe Sinir Ağı Dil Modeli Çalışmaları Yinelemeli SA modeli zaman boyunca hata geri yayılım algoritması ile eğitilir w(t) y(t) s(t) U V w(t-1) W w(t) y(t) U s(t) V U V W w(t-2) W s(t-1) U y(t-1) V s(t-1) W s(t-2) Figure 31: Simple recurrent neural network Şekiller Mikolov 212 den alınmıştır 16 V y(t-2) The network is trained by stochastic gradient descent using either usual backpropagation (BP) algorithm, or backpropagation through time (BPTT) [65] The network is s(t-3) represented by input, hidden and output layers and corresponding weight matrices - matrices U and W between the input and the hidden layer, and matrix V between the hidden and the output layer Output values in the layers are computed as follows: y(t-3) X sj(t) =f wi(t)uji + X! 16 Mikolov T (212) Statistical Language Figure 33: Example of batch mode training Red arrows indicate how the gradients are sl(t 1)wjl Models (31) Based on Neural Networks Ph D propagated thesis, Brno through University the unfolded recurrent of Technology neural network i l 1 X

Derin Öğrenme ile Dil Modelleme Çift Yönlü Yinelemeli Sinir Ağı (SA) Dil Modeli Zamanda açılmış tek yönlü yinelemeli SA Klasik Dil Modeli ile Sinir Ağı Dil Modeli Karşılaştırması Sinir Ağı Dil Modelleri Sürekli Uzay Gösterimleri Türkçe Sinir Ağı Dil Modeli Çalışmaları Zamanda açılmış çift yönlü yinelemeli SA Output Output Output Output Hidden Hidden Forward States Hidden Hidden Hidden Backward States Hidden Input Input t-1 t h t = tanh(w xh x t + W hh h t 1 + b h ) y t = W hy h t + b y p(w t = i w t 1, h t 2 ) = exp(y i t ) N j=1 exp(y j t ) Input Input t-1 t ht F = tanh(wxhx F t + Whhh F t 1 F + bh F ) ht B = tanh(wxhx B t + Whhh B t+1 B + bh B ) y t = Whyh F t F + Whyh B t B + b y

Derin Ög renme ile Dil Modelleme Klasik Dil Modeli ile Sinir Ag ı Dil Modeli Kars ılas tırması Sinir Ag ı Dil Modelleri Sürekli Uzay Gösterimleri Türkçe Sinir Ag ı Dil Modeli Çalıs maları Uzun Kısa-Sureli Bellik Sinir Ag ı (SA) Dil Modeli 17 Yinelemeli SA Dil Modelinin Kısıtları: Yinelemeli SA pratikte 5-1 zaman adımından bilgi kullanır Gradyan zaman içerisinde üstel olarak azalır Uzun Kısa-Süreli Bellik SA: Dog rusal hafıza deg is tirilir Asolmayan training criterionbirimler the cross entropy error is bloklarıyla used ing units The final unit is depicted in Fig 1, where we have included two modifications of the original LSTM unit proposed in [12] and [13] which is equivalent to maximum likelihood We also follow this approach It is generally advised to normalzaman içindeki bag ımlılıkları daha iyi modeller ize the input data of a neural network ([15]) which means that a linear transformation is applied so that the data have zero mean and unit variance When using 1-of-K coding, this is obviously not the case it sparseness = σ(w + W(which + Wci ct 1 + bi ) xi xt features hi ht 1 Giving up the of the input is usually exploited to speed up matrix computations, cf [16]), the = σ(w Whfclosed-form ht 1 + Wcf ct 1 + bf ) t + exist xf xthere data can easilyftbe normalized because solutions for the mean and variance of the 1-of-K encoded input ct = ct 1 + icounts t tanh(w xc xt + Whc ht 1 + bc ) features that depend only onftthe unigram of the words observed in the training data On the contrary we observed that ot considerably = σ(w convergence was slowed down normalization xo x t +byw ho ht 1 + Wco ct + bo ) It seems that it suffices when the input data in each dimension lie in the sameh[, range ot tanh(ct ) t 1] = As the input P features are highly correlated (e g, we have xi = 1 the i-th dimension of an input vari17 i6=j xi ) for Sundermeyer M, Schluter R, Ney H (212) LSTM Neural Networks for Language Modeling In: Proceedings of INTERSPEECH, Portland, OR, USA able x), applying a whitening transform to the features appears Figure 1: LSTM memory cell with gating units be more promising Because of thetanıma high dimensionality, EtoArısoy Türkçe Konus ma ve Derin Öthis g renmeyle Dil Modelleme

Derin Öğrenme ile Dil Modelleme Sinir Ağı Dil Modeli Sonuçlar Klasik Dil Modeli ile Sinir Ağı Dil Modeli Karşılaştırması Sinir Ağı Dil Modelleri Sürekli Uzay Gösterimleri Türkçe Sinir Ağı Dil Modeli Çalışmaları İngilizce Haber Programları için GDSKT 18 eğitim verisi: 35 M kelime Dil Modeli KHO (%) 4 lü kelime 13 + tek yönlü - yinelemeli 127 + çift yönlü - yinelemeli 125 + tek yönlü - uzun kısa-süreli bellek 124 + çift yönlü - uzun kısa-süreli bellek 124 P = 18, H = 3, eğitim verisi: 12 M kelime 18 Arısoy E, Sethy A, Ramabhadran B, Chen S (215) Bidirectional recurrent neural network language models for automatic speech recognition In: Proceedings of ICASSP, Brisbane, Australia, pp 5421-5425

Derin Öğrenme ile Dil Modelleme Sinir Ağı Dil Modeli Sonuçlar Klasik Dil Modeli ile Sinir Ağı Dil Modeli Karşılaştırması Sinir Ağı Dil Modelleri Sürekli Uzay Gösterimleri Türkçe Sinir Ağı Dil Modeli Çalışmaları İngilizce Haber Programları için GDSKT 18 eğitim verisi: 35 M kelime Dil Modeli KHO (%) 4 lü kelime 13 + tek yönlü - yinelemeli 127 + çift yönlü - yinelemeli 125 + tek yönlü - uzun kısa-süreli bellek 124 + çift yönlü - uzun kısa-süreli bellek 124 P = 18, H = 3, eğitim verisi: 12 M kelime 18 Arısoy E, Sethy A, Ramabhadran B, Chen S (215) Bidirectional recurrent neural network language models for automatic speech recognition In: Proceedings of ICASSP, Brisbane, Australia, pp 5421-5425

Derin Öğrenme ile Dil Modelleme Sürekli Uzay Gösterimleri Klasik Dil Modeli ile Sinir Ağı Dil Modeli Karşılaştırması Sinir Ağı Dil Modelleri Sürekli Uzay Gösterimleri Türkçe Sinir Ağı Dil Modeli Çalışmaları Sürekli uzay gösterimleri doğal dil işleme uygulamaları için önemli bilgiler taşır 19 France Paris + Italy = Roma Table 8: Examples of the word pair relationships, using the best word vectors from Table 4 (Skipgram model trained on 783M words with 3 dimensionality) Relationship Example 1 Example 2 Example 3 France - Paris Italy: Rome Japan: Tokyo Florida: Tallahassee big - bigger small: larger cold: colder quick: quicker Miami - Florida Baltimore: Maryland Dallas: Texas Kona: Hawaii Einstein - scientist Messi: midfielder Mozart: violinist Picasso: painter Sarkozy - France Berlusconi: Italy Merkel: Germany Koizumi: Japan copper - Cu zinc: Zn gold: Au uranium: plutonium Berlusconi - Silvio Sarkozy: Nicolas Putin: Medvedev Obama: Barack Microsoft - Windows Google: Android IBM: Linux Apple: iphone Microsoft - Ballmer Google: Yahoo IBM: McNealy Apple: Jobs Japan - sushi Germany: bratwurst France: tapas USA: pizza 19 Mikolov T, et al (213) Distributed representations of words and phrases and their compositionality In: Proceedings of NIPS 213, pages 3111 3119 assumes exact match, the results in Table 8 would score only about 6%) We believe that word vectors trained on even larger data setse with Arısoy larger dimensionality Türkçe Konuşma will perform Tanıma significantly ve Derin Öğrenmeyle better, Dil Modelleme

Derin Öğrenme ile Dil Modelleme Sürekli Uzay Gösterimleri Klasik Dil Modeli ile Sinir Ağı Dil Modeli Karşılaştırması Sinir Ağı Dil Modelleri Sürekli Uzay Gösterimleri Türkçe Sinir Ağı Dil Modeli Çalışmaları INPUT PROJECTION OUTPUT INPUT PROJECTION OUTPUT w(t-2) w(t-2) w(t-1) SUM w(t-1) w(t) w(t) w(t+1) w(t+1) w(t+2) w(t+2) CBOW Skip-gram Şekiller Mikolov 213 den alınmıştır 2 2 Mikolov T, et al (213) Figure Distributed 1: New representations model architectures of words The CBOW and phrases architecture and their predicts compositionality the current word In: Proceedings based on the of NIPS 213, pages 3111 3119 context, and the Skip-gram predicts surrounding words given the current word

Derin Öğrenme ile Dil Modelleme Sürekli Uzay Gösterimleri Klasik Dil Modeli ile Sinir Ağı Dil Modeli Karşılaştırması Sinir Ağı Dil Modelleri Sürekli Uzay Gösterimleri Türkçe Sinir Ağı Dil Modeli Çalışmaları Türkçe kök ve kök sonrası sürekli uzay vektörlerinin iki boyutta gösterimi (TSNE) +in +ların +lerinin +sinin +ın +lerin +larının +sının

Derin Öğrenme ile Dil Modelleme Sürekli Uzay Gösterimleri Klasik Dil Modeli ile Sinir Ağı Dil Modeli Karşılaştırması Sinir Ağı Dil Modelleri Sürekli Uzay Gösterimleri Türkçe Sinir Ağı Dil Modeli Çalışmaları Türkçe kök ve kök sonrası sürekli uzay vektörlerinin iki boyutta gösterimi (TSNE) +in +ların +lerinin +sinin +ın +lerin +larının +sının