Bilgisayar Mühendisliği Bölümü, Muğla Sıtkı Koçman Üniversitesi ve Radboud Üniversitesi, Dil Çalışmaları Merkezi, Nijmegen, Netherlands Twitter Verilerinde Olay Bilgisi Odaklı Yer İsimleri Analizi: Ön Çalışma Gizem Abalı Enis Karaarslan Ali Hürriyetoğlu gizemabali93@gmail.com, enis.karaarslan@mu.edu.tr, ali.hurriyetoglu@gmail.com 20 Ekim 2016
İçerik 1 Projenin Tanımı Projenin Amacı Neden Twitter? Akıllı Şehir Kavramı Şehirler neden Akıllı Şehirlere dönüşmeli? Tweet Verisinin Akıllı Şehircilikte Kullanımı Tweet Metinlerinde Olay Odaklı Yer İsimleri Ön Çalışması Veri seti Yöntem ve Uygulama Sonuç Gelecek Çalışmalar
Projenin Tanımı 2 Tweet metinleri üzerinde metin madenciliği Elde edilen sonuçların Akıllı Şehir oluşumuna faydası Araştırma aracı: Twitter Araştırma için Muğla yerelinden toplanan tweetler
Proje ve Amacı 3 Temel amaçlar: Acil bir durum anında şehir yönetimine destek Şehrin tüm kaynakları üzerinde kontrol sağlamak
Projenin Amacı 4 Söz edilen acil durumlar Patlak su boruları Trafik kazaları Trafik kazalarına bağlı trafik sıkışıklıkları Doğal afetler Doğal afetlere bağlı yol tıkanıklıkları vb. Şehrin doğal işleyişini bozabilecek tüm durumlar
Sosyal Medya Analizi Örnek Sosyal Medya araçları 5
Neden Twitter? 6 Twitter ın benimsediği asıl amaç nedir? Esas amaç; bilgi paylaşımı ve arayışı Japonya da doğal afetlerin, tweet verilerine etkisi Geçmişteki araştırmalarda, acil bir olay anında bilgi alışverişinde kullanılan en etkin aracın Twitter olarak gözlenmesi 2011 yılında gerçekleşen «Büyük Doğu Japonya Depremi» olarak adlandırılan depremin tweet miktarları üzerine etkisi
Akıllı Şehir nedir? 7 Anlam olarak henüz tamamlanamamış bir kavram Temel özellikler; Günümüz şehirlerine göre daha verimli, güçlü ve yaşanılabilir, Enerji, su, internet gibi kritik altyapıları için akıllı hesaplama kullanabilir, Tüm altyapıları üzerinde kontrol sağlayabilen, Sosyal altyapıyı, fiziksel altyapıyı, İnternet altyapısını ve iş altyapısını birleştirip ortaklaşa çalışabilen
Şehirler neden Akıllı Şehirlere dönüşmeli? 8 Kentsel nüfusta meydana gelen ve hala devam eden artış Araştırmalara göre 2050 de dünya nüfusunun %66 sı şehirlerde yaşayacak Şehirlerin taşıyabileceği insan kapasitesindeki aşım Çıkabilecek sorunlar Bu büyük insan kitlesini en iyi şekilde yönlendirebilmek
Tweet verisinin Akıllı Şehirler için kullanımı 9 Etkin kullanım için; Vatandaşlar ve şehir yönetimi arasında işbirliği olmalı Vatandaşlar olağandışı durum söz konusu olduğunda bilgilendirici tweetler atmalı
Tweet verisinin Akıllı Şehirler için kullanımı 10 Tweetlerin Akıllı Şehir yönetimine getireceği katkılar Trafiğin yoğun olduğu yolları ya da trafiğe kapalı yolları saptamak Zaten yoğun olan ya da kapalı olan trafikteki baskıyı arttırmamak Şehrin maddi kaynaklarının boşa harcanmasını engellemek (patlak su kanalları için acil önlem almak vb.) Vatandaşların düşünceleri üzerinde bilgi sahibi olmak Daha yaşanılabilir şehirler elde etmek Şehir üstünde kontrol sağlamak
Tweet verisinin Akıllı Şehirler için kullanımı 11 Tweet verisi vs Uydu verisi Uydu verisi: pahalı detaylı analiz için elverişsiz elde etmesi güç Tweet verisi: ucuz detaylı analiz için uygun elde etmesi zahmetsiz Sosyal medya analizi, büyük ölçekli yatırımlara gerek duymaz.
Önlem alınması gereken durumlar hakkında bazı tweet örnekleri 12
Önlem alınması gereken durumlar hakkında tweet örneği 13
Önlem alınması gereken durumlar hakkında tweet örneği 14
Tweet Metinlerinde Olay Odaklı Yer İsimleri Ön Çalışması 15 Veri Seti Yöntem ve Uygulama Sonuç
Veri Seti 16 Python yazılımı Tweepy kütüphanesi Twitter API (ücretsiz sağlanan veri miktarı tüm verinin yaklaşık %1 i) Muğla ilinin koordinatları arasında atılan tweetler Mongodb veritabanı
Yöntem ve Uygulama 17 Belirli bir analiz esnasında odaklanacak konular; Tweetlerden metin madenciliği yolu ile yer isimlerinin ayırt edilmesi Bu yer isimleri için miktarlarının belirli aralıklarla tespit edilmesi Miktarında ani artış gösteren bölgelerin belirlenmesi Bölgede bu artışa sebep olan sorunun tespit edilmesi
Yöntem ve Uygulama 18 Tweet içerisinde yer ismi analizi "Dün gece Bodrum da olay olmuş." cümlesini analiz ettiğimizde Yer ismi: Bodrum Başlama indeksi: 9 Bitiş indeksi: 15 Yer isimleri analizi için kullanılan araçlar: Geonames dosyaları arasından Türkiye deki yer isimlerini içeren Tr.txt dosyası (varyasyonları ile birlikte yaklaşık 150 bin yer ismi) Python programlama dili
Yöntem ve Uygulama 19 TR.txt dosyası içeriği: yer isimlerinin idleri, isimleri, ASCII isimleri, değişik versiyonları(örnek; Iğdır, İğdir, Igdır, İgdir), ENLEM ve BOYLAM bilgileri, ülke kodu, zaman dilimi, eğim bilgisi, değişiklik tarihi bilgisi Öncelikli olarak TR.txt dosyasındaki tüm yer isimleri kullanılmış ve sonuçları incelenmiştir.
Yöntem ve Uygulama 20 Karşılaşılan sorunlar; Bazı yer isimlerinin Türkçe deki günlük kelimelerle eş sesli olması (Örnek; Tahta, Yağmur, Alan, Sandık, Siyah, Savcı vb.) Bazı yer isimlerinin yaygın kişi isimleri olması Tweetlerin dil kurallarından farklı olarak yazılması (Örnek; «fethiyede sel başlamış» cümlesinde görüldüğü gibi tırnak işareti kullanılmayan cümleler ve küçük büyük harf sorunu )
Yöntem ve Uygulama 21 Çözüm; Türkçe deki yaygın sözcüklerle eş sesli olan yer isimlerinin tespit edilebilenlerini analiz esnasında sistemden çıkarılması Sistemi yer isimleri için küçük büyük harflere duyarsız yapmak Sistemi, ekleri tırnak işareti ile ayrılmamış yer isimlerini de algılar hale getirmek (Örnek; «dün istanbula geldim»)
Yöntem ve Uygulama 22 Sistemi ekleri tırnak işareti ile ayrılmamış yer isimlerini algılar yapmak konusunda karşılaşılan sorunlar 4 ve daha az karakterden oluşan yer isimlerinde Türkçe deki yaygın kelimelerle çakışma yaşanması (Örnek; Ula, Muğla nın ilçesidir., Karayolları ulaşımı durdu. ) Çözüm; İyi bir analiz için 5 karakter ve daha fazla karakterden oluşan yer isimlerini tırnak işareti ile ayrılmamış durumlarda da yer ismi olarak kabul etmek (Örnek; «İstanbul a gidiyorum.», «İstanbula gidiyorum.») 5 karakterden daha kısa yer isimlerini sadece yalın halde ise ya da kesme işareti ile ayrıldığı durumlarda yer ismi olarak kabul etmek (Örnek; «Ula da yaşıyorum.», «Ula, Muğla nın ilçesidir.»)
Yöntem ve Uygulama 23 Ön çalışmada ihtiyaçlar; Tweet verisinin, planlanan olay odaklı yer isimleri analizi için sonuçlarının gözlemlenmesi Belirli bir zaman aralığındaki tweetlerin günlük olarak analiz edilmesi Çalışma için tweet verisi üzerinde etkisini görebileceğimiz bir olayın esas alınması Tweet verisi üzerinde etkili olabilecek bir olay; 15 Temmuz darbe girişimi Etkinin gözlemlenebileceği bir zaman aralığı 10 19 Temmuz arası
Gizem Abalı, Figure: Enis Karaarslan, 14 Ali 17Hürriyetoğlu Temmuz tarihlerinde günlük olarak tweetlerde saptanan 10 Sonuçlar 24
Sonuçlar 14 Temmuz 25
Sonuçlar 15 Temmuz 26
Sonuçlar 16 Temmuz 27
Sonuçlar 17 Temmuz 28
Sonuçlar 29
Sonuçlar 30 15 Temmuz 2016 Muğla yerelinde geçen İstanbul ile ilgili bazı kullanıcı tweetleri aşağıdaki gibidir; #Darbe #Ankara #Istanbul #Turkey Gunshots, F-16 s, sirens. Yelling. Watching a country implode in front of my eyes. #istanbul #turkey 15 Temmuz 2016 Muğla yerelinde geçen Ankara ile ilgili bazı kullanıcı tweetleri aşağıdaki gibidir; #Ankara da ne oluyor? Darbe oldu mu yoksa bastırıldı mı? #Ankara olan Türkiye ve Türk halkına olcak
Sonuçlar 31 Bölgenin tatil bölgesi olması sebebi ile ağırlıklı olarak geçen yer isimleri tatil yerleridir. Bazı günlerde ilk on yer ismi içinde olmayan yer isimlerinde artış gözlemlenmiştir. Yer ismi miktarlarındaki artış bölgede yaşanan bir olayla ilişkilidir. Yer ismi analizinin, Akıllı Şehir uygulamalarında ani durumların tespit edilmesi ve önlemlerin alınabilmesi için olumlu sonucu olabileceği gözlemlenmiştir.
Gelecek Çalışmalar 32 Elimizdeki sistemin geliştirilmesi Daha detaylı bir analiz Sistemin gerçekten yer ismi olan isimleri eş sesli yaygın kelimelerden ya da kişi isimleri ve organizasyon isimlerinden ayırabilmesi için yeni dil yapıları oluşturmak arkası, merkezi, çıkışı, önü gibi kelimeleri kullanarak daha detaylı sonuç veren dil yapıları oluşturmak ( Yücelen Hastanesi nin önünde ) Trafik durumu, kazalar ya da su patlakları gibi durumların sistem tarafından tespit edilebilir olması Anlık veri üzerinde çalışma
Yer İsimleri Analizi İçin Açık Kaynak Kodlu Projemiz 33
Teşekkürler 34