Hayat Bilgisi Veritabanı Kullanarak Otomatik Cümle Üretimi

Benzer belgeler
Automatic Sentence Generation Using Common Sense Databases

=A1+A2-A3, =A1*A2/A3,

Yaşanmış Tecrübe Paylaşımı Önce Test Et Sonra Kodla XP Pratiği

YENİ BİLGİ MODELLEME VE PROGRAMLAMA FELSEFESİYLE SEMANTIC WEB

VERİ TABANI I. Yrd.Doç.Dr. İlker ÜNAL. Teknik Bilimler Meslek Yüksekokulu

Bilgi ve İletişim Teknolojileri (JFM 102) Ders 10. LINUX OS (Programlama) BİLGİ & İLETİŞİM TEKNOLOJİLERİ GENEL BAKIŞ

Swing ve JDBC ile Database Erişimi

Veritabanı Yönetimi Bilgisayarların. Keşfi Hedefler. Veritabanı, Veri ve Bilgi. Veritabanı, Veri ve Bilgi. Veritabanı, Veri ve Bilgi

Üst Düzey Programlama

Endüstri 4.0 Ahmet Furkan GİRGİN. Emrah BİLGİÇ

Doğal Dil İşleme Nedir? Doğal Dil İşleme

bitık MOBİL TİCARET UYGULAMASI ABDULLAH ÇİÇEKCİ

Microsoft SQL Server 2008 Oracle Mysql (Ücretsiz) (Uygulamalarımızda bunu kullanacağız) Access

ŞARTNAME TAKİP PROGRAMI (STP2006)

1.PROGRAMLAMAYA GİRİŞ

DataRut Portal Öne Çıkan Genel Özellikleri

Binalarda enerji performansı yönetmeliği ve süreçleri

İnternet Programcılığı

VERİ TABANI YÖNETİM SİSTEMLERİ

Tekrar. Veritabanı 2

Asp.Net Veritabanı İşlemleri

T.C. NAMIK KEMAL ÜNİVERSİTESİ ÇORLU MÜHENDİSLİK FAKÜLTESİ

Yaşar Üniversitesi Bilgi Merkezi

Akıllı telefonlar, avuçiçi bilgisayarlar ile taşınabilir (cep) telefonların özelliklerini birleştiren cihazlardır. Akıllı telefonlar kullanıcıların

Sosyal Ağlar ve Çevrimiçi Kütüphane Katalogları: OPAC 2.0

ICATT ÇEVİRİ UYGULAMASI SİSTEM MİMARİSİ VE VERİTABANI TASARIMI

Veritabanı Uygulamaları Tasarımı

İLİŞKİSEL VERİTABANLARI

Veritabanı Dersi. Teoriden Pratiğe. Çağıltay N.E., Tokdemir G. Veritabanı Sistemleri Dersi -Bölüm XXV: Web'den Erişim Çağıltay, N., Tokdemir, G.

JetSMS Direct Çözümü

TUİK Netsis Erp Paketi Entegrasyonu ve Yıllık İş İstatistikleri Sanayi ve Hizmet Araştırması (YSHİ) Anketi

KULLANICI REHBERİ. Sınırsız Bilgiye Kesintisiz Erişimin adresi

IDE4DB Veritabanı Geliştirme Platformu Bitirme Projesi Sunumu

3. sınıf. Bilgisayarla kataloglamanın doğuşu gelişimi ve bugünkü durum ele alınmaktadır. Bu derste

İyi Girişimler ve Uygulamalar II. Ulusal Açık Erişim Çalıştayı Ekim 2013, İzmir Yüksek Teknoloji Enstitüsü, Urla, İzmir

Yazılım Mühendisliği Bölüm - 3 Planlama

Yaz.Müh.Ders Notları #6 1

LOGO İş Zekası çözümü ile kurumsal raporlama ve analizler. Cem Yılmaz Genel Müdür LOGOBI Yazılım

Basit Mimari, Katmanlı Mimari ve doğrudan çalıştırma olarak üçe ayrılır.

Marketing plan for your startup

BMÜ-421 Benzetim ve Modelleme Kesikli Olay Benzetimi. İlhan AYDIN

FIRAT ÜNİVERSİTESİ WEB TABANLI KÜTÜPHANE OTOMASYONU

BİTİRME RAPORU. Ömer Furkan ARI Yıldız Teknik Üniversitesi

Oracle Database 11g: Introduction to SQL

WEB KULLANILABİLİRLİĞİ

Önemli noktalar. Paradigma Nesnelere Giriş Mesajlar / Ara bağlantılar Bilgi Gizleme (Information Hiding ) Sınıflar(Classes) Kalıtım/Inheritance

İNÖNÜ ÜNİVERSİTESİ MALATYA MESLEK YÜKSEKOKULU DERS TANITIM FORMU. Kredisi AKTS Eğitim Dili Tipi: Zorunlu/ Saat

10.DERS Yazılım Gerçekleştirme

Üst Düzey Programlama

VERİ TABANI ve YÖNETİMİ

Sunum İçeriği. Programlamaya Giriş

Veri Toplama Sistemini

Bilgisayar Mühendisliğine Giriş. Yrd.Doç.Dr.Hacer KARACAN

HASTANE OTOMASYONU VERİ TABANI YÖNETİM SİSTEMLERİ TEMEL VERİTABANI KAVRAMLARI

3. Otomatik Özet Çıkarma Sistemi Konunun Belirlenmesi Yorumlama Üretme Puanlamada Kullanılan Özellikler

Bilgi Servisleri (IS)

Veritabanı Tasarımı Ve Yönetimi. Varlık-İlişki Modeli

1-) Veritabanımıza bağlanmak için bir SqlConnection nesnesi, 2-) Veritabanındaki bilgileri kullanmak (seçme, kaydetme, silme, güncelleme) için

Fırat Üniversitesi Hastanesi Dinamik Web Sayfası

VIERO ARAÇ SAYIM SİSTEMİ

SİSTEM VE YAZILIM. o Bilgisayar sistemleri donanım, yazılım ve bunları işletmek üzere gerekli işlemlerden oluşur.

TESCİL EDİLEMEYEN ÖZEL KULLANIM AMAÇLI ARAÇLARA ÖZEL İZİN VERİLMESİNE ESAS OLMAK ÜZERE ARAÇ TEKNİK ÖZELLİK TESPİT RAPORU BAŞVURUSU

WEB ARAÇLARI VE UZAKTAN EĞİTİM CEIT357-4.HAFTA

TS EN ISO KONTROL LİSTESİ ŞABLONU

Java EE web uygulamaları geliştirmek için kullanılan açık kaynak web uygulama framework üdür.

Ders Adı Kodu Yarıyılı T+U Saati Ulusal Kredisi AKTS

Akademik Rapor Hazırlama ve Yazışma Teknikleri

Başlıca Ürün-Bilgi Sistemleri

BLG 1306 Temel Bilgisayar Programlama

DÖNGÜLER BMÜ-101 ALGORİTMA VE PROGRAMLAMAYA GİRİŞ LABORATUARI BMÜ-101 ALGORİTMA VE PROGRAMLAMAYA DENEY-4 FÖYÜ GİRİŞ LABORATUARI.

T.C KARABÜK ÜNİVERSİTESİ MÜHENDİSLİK FAKÜLTESİ BİLGİSAYAR MÜHENDİSLİĞİ

TARIM REFORMU GENEL MÜDÜRLÜĞÜ


FIRAT ÜNİVERSİTESİ TEKNOLOJİ FAKÜLTESİ Yazılım Mühendisliği Bölümü

DERS TANITIM BİLGİLERİ. Dersin Adı Kodu Yarıyıl Teori (saat/hafta) Laboratuar (saat/hafta) Uygulama (saat/hafta) AKTS. Yerel Kredi

Büyük Veri İçin İstatistiksel Öğrenme (Statistical Learning for Big Data)

VERİ MADENCİLİĞİ önemsiz olmayan, gizli, önceden bilinmeyen, potansiyel olarak kullanışlı

KAHRAMANMARAŞ SÜTÇÜ İMAM ÜNİVERSİTESİ

1. VERİ TABANI KAVRAMLARI VE VERİ TABANI OLUŞTUMA

Giriş. Bu işlem için kullanılan ara yüz aşağıda gösterilmiştir:

Verimli İş Ortağınız... UNLU MAMÜLLERİ POLEN YAZILIM

AHMET YESEVİ ÜNİVERSİTESİ BİLİŞİM SİSTEMLERİ VE MÜHENDİSLİK FAKÜLTESİ BİLGİSAYAR MÜHENDİSLİĞİ LİSANS

Veritabanı Yönetim Sistemleri (Veritabanı Kavramı) Veri Modelleri

YZM 3215 İleri Web Programlama

BİL Bilişim Teknolojileri. PowerPoint

KÜTÜPHANE VE DOKÜMANTASYON DAİRE BAŞKANLIĞI

Demetleme Yönteminin Y 3-Katmanlı Mimari Yapı ile Gerçeklenmesi. eklenmesi. KalacakYer.com

ÜNİVERSİTE KÜTÜPHANE HİZMETLERİ

UZAKTAN EĞİTİM MERKEZİ

Özetçe. Abstract. 1. Giriş

cofaso ile farkı yaşayın Şubat

GİDERLERİN HİZMET MALİYETİNE YÜKLENMESİ

BİLİŞİM TEKNOLOJİLERİ WEB PROGRAMCISI MODÜLER PROGRAMI (YETERLİĞE DAYALI)

11TA Veritabanı Organizasyonu Dersi MS ACCESS Ders Notları

Veritabanı. Ders 2 VERİTABANI

Akıllı Kod Desteği. Şekil 1

1. Oracle Data Miner 11g Release 2 Kurulumu Aşamaları

VERİTABANI Veritabanı Normalizasyonu

Maltepe Üniversitesi Endüstri Mühendisliği Bölümü Veri Tabanı Yönetimi (END 210)

Transkript:

Hayat Bilgisi Veritabanı Kullanarak Otomatik Cümle Üretimi Automatic Sentence Generation Using Common Sense Databases Canberk Berkin ÖZDEMİR Danışman : Yrd.Doç.Dr. M. Fatih AMASYALI 1

Sunum İçeriği Neden Otomatik Cümle Üretimi? Hayat Bilgisi Veritabanı Neden Kullanıldı? Projeyi Kapsayan Disiplin ve Alanlar Sistemin Etkileşimli Olduğu Sistemler Çalışma Mantığı Değerlendirme Sonuç ve Öneriler 2

Neden Otomatik Cümle Üretimi? Elimizdeki cümleden yeni bilgi çıkarımı yapabilmek Bir bilgiden yola çıkarak bu bilgi ile bağlantılı bilgileri elde etmek ve makinelerin bu bilgileri işleyebilmesine olanak sağlayabilmek İnternet üzerinde yapılan aramalardaki girilen cümle ya da cümlelerin türetilip kullanıcılara aramalarla ilgili istenildiğinde daha detaylı sonuçları döndürebilmek için Otomatik Cümle Üretimi ne ihtiyaç duyabiliriz. 3

Hayat Bilgisi Veritabanı Neden Kullanıldı? Cümle üretimi gerçekleyebilmek için cümlenin barındırdığı kelime ya da kelime öbeklerinin sahip olduğu çeşitli ilişkili kelime ya da kelime öbeklerini bulmak gerekir. Elimizde bize bunu sağlayabilen bir Hayat Bilgisi Veritabanı (CSdb) bulunduğundan, bu veritabanının kullanımı projenin iş akışının gerçeklenmesinde büyük rol oynamıştır. Not: Sunumun devamında Hayat Bilgisi Veritabanı ayrıntılı olarak açıklanacaktır. 4

Projeyi Kapsayan Disiplin ve Alanlar Doğal Dil İşleme Semantik Makine Öğrenmesi 5

Sistemin Etkileşimli Olduğu Sistemler Zemberek Zemberek, açık kaynak kodlu Türkçe doğal dil işleme kütüphanesi Yazım denetimi, hatalı kelimeler için öneri, heceleme, deascifier gibi sentaktik işlevlere sahip CSdb(Common Sense Database) Hayat bilgisi veri tabanları, kelimeler arasında yaşamdaki gerçeklikleri basit ilişki yapıları ile birbirlerine bağlar Bu sayede bilgisayarların bu gerçeklikleri yorumlayabilmesini kolaylaştırır 6

Sistemin Etkileşimli Olduğu Sistemler-1 Zemberek Cümle üretimini sağlayabilmek için hayat bilgisi veritabanına, cümlenin kelime ve kelime öbekleri gönderilmektedir. Bu yüzden çalışmada Java programlama dili ile kodlanmış Türkçe doğal dil işleme kütüphanesi olan Zemberek uygulaması kullanılmıştır. 7

Sistemin Etkileşimli Olduğu Sistemler-1 Zemberek Cümlenin kelime ve kelime öbeklerine ayrılması işlemi gerçeklendikten sonra da kelimenin veritabanına gönderilirken kök haline getirilmiş şekli, ekleri ve hayat bilgisi veritabanında sorguları gönderirken isim ya da fiil türünde olduğuna göre sorgu oluşturacağımızdan dolayı morfolojik bir kelime çözümleyicisine ihtiyaç duyulmuştur. 8

Sistemin Etkileşimli Olduğu Sistemler-1 Zemberek Zemberek sisteme kelimelerin kök, ek ve türlerini sorunsuz bir şekilde döndürmektedir. Sistemde Zembereğin birden fazla çözümlemesi olan kelimeler için ürettiği sonuçlardan ilki kullanılmıştır. 9

Sistemin Etkileşimli Olduğu Sistemler-2 CSdb(Common Sense Database) Nesnelerin farklı ilişki kalıplarıyla bağlantılı olduğu nesnelerle ilişkilendiren bir Türkçe veritabanıdır. Veritabanı "bu nerede bulunur, bunun üst kavramı nedir, bu ne gerektirir, bu neyden yapılmıştır, bunun özellikleri nelerdir" gibi 40 adet ilişki ve bunların tersi ilişkilere sahiptir ve nesneler bu ilişkilerle birbirine bağlanmaktadır. 10

Sistemin Etkileşimli Olduğu Sistemler-2 CSdb(Common Sense Database) Nesneleri birbirine bağlayan bu ilişkileri ve doğruluklarını, kişiler Kemik Oyun adı verilen oyunla veritabanına gönderirler. İlk Türkçe hayat bilgisi veritabanı olan CSdb veritabanında ayrıca her ilişkinin doğruluk oranı 0-5 arasında bir değerle tutulmaktadır. 11

Sistemin Etkileşimli Olduğu Sistemler-2 CSdb(Common Sense Database) Nesnelerin ilişkilerini belirleyen kullanıcılar, ilişkilerin ilgili nesneler arasındaki tutarlılıklarını 0-5 puan arasında puanları seçerek göndermektedirler. Birçok kişinin verdiği puanların ortalaması alınarak nesneler arası ilişkilerin doğruluk oranları arttırılmaktadır. 12

Sistemin Etkileşimli Olduğu Sistemler-2 CSdb(Common Sense Database) İlk Türkçe hayat bilgisi veritabanının henüz istenilen olgunluğa erişmemiş olması buradan alacağımız sonuçların tutarlılık oranını düşürebilmektedir, bu dezavantaj çalışma sürecinde göz önünde tutulmuştur. Ancak oyun oynandıkça veritabanın içerdiği ilişkilerin doğruluğu artacağından bu tür uygulamalarda kullanımı artacak ve Türkçe semantik alanındaki çalışmalara büyük katkı sağlayacaktır. 13

Çalışma Mantığı 1. Sisteme üretilecek cümle girilmesi 2. Cümlelerimiz Zemberek e morfolojik olarak incelenmek üzere gönderilmesi 3. XML olarak kelime çözümlemeleri sisteme geri döndürülmesi 4. Zemberek'ten dönen bu verileri hayat bilgisi veritabanına, sorgulanması sistem tarafında belirli olan ve en az ortalama puanın kullanıcı tarafından belirlenmiş olduğu sorgular gönderilmesi 5. Hayat bilgisi veritabanının döndürdüğü ilişkili kelimeler, ilişki türü ve ortalama puanları kullanıcıya aktarılmak üzere sistem tarafından alınması 6. Üretilen cümlelerin tekrar üretilebilmesini sağlayacak şekilde çıktıların verilmesi 14

Çalışma Mantığı Asıl metin stillerini düzenlemek için tıklatın İkinci düzey Üçüncü düzey Dördüncü düzey Beşinci düzey 15

Çalışma Mantığı Sistem kelime öbeklerindeki her bir kelime için verilen kelimenin ilişkili olduğu kelime sayısının bir fazlasının çarpımları sonucu kadar cümle üretmektedir. Bu cümlelerin hiçbiri bir diğeriyle aynı olmayacak şekilde arayüzde kullanıcıya aktarılmıştır. Bu ifadeyi şu şekilde formüle edebiliriz: ücs = n k = 1 ( is k + 1) n : cümledeki toplam kelime (öbeği) sayısı isk : k. kelime (öbeği)nin ilişki sayısı ücs : üretilen cümle sayısı 16

Çalışma Mantığı Kullanıcıya döndürülen sonuçlarda oluşturulan her bir cümle için tutarlılık yüzdesi hesaplanmaktadır. Bu üretilen bir cümlenin, kullanıcı tarafından girilen cümleye göre ne kadar tutarlı olabildiğini hesaplayıp bilgilendirme amacıyla yapılmıştır. Bu tutarlılık hesaplanırken bir cümlenin içindeki hayat bilgisi veritabanından gelen her bir ilişkili kelimenin ortalama puanı ve o kelimenin ilişkisinin ilişki yüzdesi çarpılarak kullanılmaktadır. n ( ity = k * iop cyt k ) k = 1 5 n : cümledeki toplam kelime(öbeği) sayısı cyt : cümlenin yüzde tutarlılığı iopk : k. kelime (öbeği)nin sahip olduğu ilişkinin doğruluk puanı ityk : k. kelime (öbeği)nin sahip olduğu ilişki türünün tutarlılık yüzdesi 17

Cehalet tanrının laneti olduğuna göre, bilgi göklere uçabileceğimiz kanatlardır. William Shakespeare 18

Çalışma Mantığı - Örnek Ali odada uyur cümlesini sisteme girdiğimizde neler olacağını inceleyelim: Giriş Cümlesi Ali odada uyur. Üretilen Cümle Ali binada yatar. Üretimde Kullanılan ilişkiler 1.ilişki: Oda - Bütünün Bölümü - bina 2.ilişki: uyumak - Bu hangi olayın parçasıdır? yatmak Asıl metin stillerini düzenlemek için tıklatın İkinci düzey Üçüncü düzey Dördüncü düzey Beşinci düzey 19

Çalışma Mantığı - Örnek Ürettiğimiz cümle sayısını hesaplayacak olursak : ücs = (1+1)*(1+1) = 4 olacaktır. Bu üretilen cümlelerin ayrı ayrı tutarlılık yüzdeleri hesaplanırsa : cyt1 = (1*5/5)*(1*5/5) = 1 cyt2 = (0,8*5/5)*(1*5/5) = 0,8 cyt3 = (0,8*5/5)*(0,7*5/5) = 0,56 cyt4 = (1*5/5)*(0,7*5/5) = 0,7 20

Değerlendirme Sunulan çalışmada, ilk Türkçe hayat bilgisi veritabanı (CSdb) kullanılarak bir bilgisayar sisteminin girilen bir cümleden çıkarım yaparak girilenle benzer/aynı anlamda yeni cümleler ve doğruluk oranları üretmesi sağlanmıştır. Çalışmanın olası uygulama alanları olarak, otomatik hikâye/metin üretimi sistemleri, anlamsal metin özetleme uygulamaları, anlamsal metin sınıflandırma / kümeleme çalışmaları ve anlamsal bilgiye erişim sistemleri sayılabilir. 21

Değerlendirme Bu çalışmada, Hayat bilgisi veritabanlarının ve doğal dil işleme kütüphane ve uygulamalarının; gelecekteki akıllı bilgisayar sistemlerini ve interneti yönlendireceği, Bilgisayarların gündelik hayatımızı semantik çalışmalar sayesinde daha fazla kolaylaştıracağı, aşikârdır. 22

Sonuç ve Öneriler Sistemin performansı kullandığı CSdb'ye çok bağımlıdır. Bu nedenle CSdb nin içeriğinin zenginleştirilmesi ve kalitesinin arttırılması otomatik olarak uygulamamıza yansıyacaktır. Zemberek çözümlemelerinden sadece ilkinin kullanımından doğan hatalar, bir kelime anlamı durulaştırma işlemiyle çözümlenebilir. 23

Sonuç ve Öneriler Kök ek ayrımından sonra üretilen yeni kelime köklerini tekrar eklerle birleştirecek bir sınıfın yazılması sistemin daha kullanıcı dostu olmasını sağlayacaktır. CSdb de bir şeyin nerelerde bulunduğu, nerelerde yapıldığı gibi ilişkiler mevcut olduğundan kullanıcının girdiği cümlede yer almasa bile üretilen cümlelerde bu bilgiler yer alabilir. Örneğin Ali futbol oynadı. cümlesinden Ali stadyumda topla futbol oynadı. cümlesi üretilebilir. 24

Sonuç ve Öneriler Yeni cümle üretilirken, değişim yapılan öğe türüne göre bu işlem gerçekleştirilebilir. Örneğin yüklemi sonuç ile bağlı olduğu bir kavramla değiştirirken üretilen yeni cümlenin yükleminin kipine olasılık eklenebilir. Bu sayede Ali top oynayacak. cümlesinden Ali yorulacak. cümlesi yerine Ali yorulabilir. cümlesini üretmek mümkün olabilecektir. Üretilen cümlelerin tutarlılığını kullanıcıdan geri besleme alarak arttırabilmesi mümkündür. 25

Son olarak Projenin çatısını oluşturan CSdb Hayat Bilgisi Veritabanına katkıda bulunmak isterseniz Kemik Oyun u oynayabilirsiniz. Veritabanı oynandıkça gelişmekte ve güvenilirlik kazanmaktadır. Oyunun bağlantısı : http://www.kemikoyun.yildiz.edu.tr/commonsense Not: Türkçe Hayat Bilgisi Veritabanı CSdb; yapay zeka, makine öğrenmesi projelerinde kullanılabilmesi için 6 ay içerisinde herkese açık hale getirilecektir. Bu yüzden Kemik Doğal Dil İşleme Grubu veritabanını çok önemsemektedir. 26

Teşekkürler 27