Makine Öğrenmesi İle Duygu Analizinde Veri Seti Performansı



Benzer belgeler
Sosyal Medyada Makine Öğrenmesi ile Duygu Analizinde Dengeli ve Dengesiz Veri Setlerinin Performanslarının Karşılaştırılması

Sosyal Medyada Makine Öğrenmesi ile Duygu Analizinde Dengeli ve Dengesiz Veri Setlerinin Performanslarının Karşılaştırılması

Web Madenciliği (Web Mining)

Naive Bayes Yöntemi ile Spam Mail Teşhisi Kübra KURNAZ

Sosyal Medya Verileri Üzerinde Yapay Öğrenme ile Duygu AnaliziÇalışması

Web Madenciliği (Web Mining)

Veri ve Metin Madenciliği

VERİ MADENCİLİĞİ (Karar Ağaçları ile Sınıflandırma) Yrd.Doç.Dr. Kadriye ERGÜN

Medde İstatistikleri, Test İstatiskleri

Veri ve Metin Madenciliği. Zehra

Olasılık ve İstatistik nedir? Bilgisayar Mühendisliğindeki yeri

K En Yakın Komşu Methodu (KNearest Neighborhood)

Global Business Research Congress (GBRC), May 26-27, 2016, Istanbul, Turkey.

127 - Twoing Algoritması ile Sınıflandırma Kalp Hastalığı Uygulaması MEHMET AKİF ERSOY ÜNİVERSİTESİ İLHAN UYSAL MEHMET BİLEN SAMİ ULUKUŞ

Web Madenciliği (Web Mining)

Yapı Kredi Bankası Ar-Ge Çalışmaları Araştırma, Vizyon ve Uygulama. Eğitmen: Onur AĞIN

VERİ SETİNE GENEL BAKIŞ

K-En Yakın Komşu Algoritması Parametrelerinin Sınıflandırma Performansı Üzerine Etkisinin İncelenmesi

VERİ MADENCİLİĞİ (Sınıflandırma Yöntemleri) Yrd.Doç.Dr. Kadriye ERGÜN

Veri Madenciliği. Yrd. Doç. Dr. Mustafa Gökçe Baydoğan. blog.mustafabaydogan.

tree) nedir? Karar Ağacı (Decision Decisiontree

Çalışan Devir Oranı Araştırması İşgücü Analitikleri Haziran 2015

İÇİNDEKİLER 1. GİRİŞ...

DEÜ MÜHENDİSLİK FAKÜLTESİ MÜHENDİSLİK BİLİMLERİ DERGİSİ Cilt: 16 Sayı: 48 sh Eylül 2014

Kurumsal Şeffaflık, Firma Değeri Ve Firma Performansları İlişkisi Bist İncelemesi

Test İstatistikleri AHMET SALİH ŞİMŞEK

Yrd. Doç. Dr. Fatih TOSUNOĞLU Erzurum Teknik Üniversitesi Mühendislik Fakültesi İnşaat Mühendisliği Bölümü

Metin Sınıflandırma. Akış

Yöntem ve Test Seçimine Yaklaşım. Dr. Alpay Özbek Mikrobiyoloji ve Klinik Mikrobiyoloji AD. Dokuz Eylül Üni. Tıp Fak. İZMİR

Veri madenciliği sınıflandırma ve kümeleme teknikleri yardımıyla Wisconsin veriseti üzerinde Göğüs Kanseri Teşhisi. Hazırlayan: Nury Amanmadov

T.C. ÇANAKKALE ONSEKİZ MART ÜNİVERSİTESİ BİLGİSAYAR MÜHENDİSLİĞİ İLERİ VERİTABANI SİSTEMLERİ DERSİ RAPORUN SUNULDUĞU TARİH

Örneklemden elde edilen parametreler üzerinden kitle parametreleri tahmin edilmek istenmektedir.

TEMEL İSTATİSTİK BİLGİSİ. İstatistiksel verileri tasnif etme Verilerin grafiklerle ifade edilmesi Vasat ölçüleri Standart puanlar

KAHKAHA TANIMA İÇİN RASSAL ORMANLAR

DENİZ HARP OKULU TEMEL BİLİMLER BÖLÜM BAŞKANLIĞI DERS TANITIM BİLGİLERİ

Doküman dili tanıma için ikili örüntüler tabanlı yeni bir yaklaşım

1: DENEYLERİN TASARIMI VE ANALİZİ...

Web Madenciliği (Web Mining)

Metin Madenciliği Yöntemleri ile Twitter Duygu Analizi (Twitter Sentiment Analysis using Text Mining Methods)

Marketing plan for your startup

Akış YILDIZ TEKNİK ÜNİVERSİTESİ BİLGİSAYAR MÜHENDİSLİĞİ BÖLÜMÜ

Sözlük Kullanarak Türkçe için Kavram Madenciliği Metotları Geliştirme

Tanı Testlerinin Değerlendirilmesi. ROC Analizi. Prof.Dr. Rian DİŞÇİ

Türkçe Twitter Mesajlarında Gizli Dirichlet Tahsisine Dayalı Duygu Analizi

Klinik Mikrobiyoloji Testlerinde Doğrulama (verifikasyon) ve Geçerli Kılma (validasyon)

Karaciğer Yetmezliğinin Teşhisinde Makine Öğrenmesi Algoritmalarının Kullanımı. In the Diagnosis of Liver Failure Using Machine Learning Algorithms

Karaciğerde Oluşan Hastalıkların Tespitinde Makine Öğrenmesi Yöntemlerinin Kullanılması

STRATEJİK PLANI DIŞ PAYDAŞ ANKETİ. Mezun ( ) Veli ( ) Şirket ( ) STK ( ) Üniversite ( ) Kamu Kuruluşu ( ) Diğer ( )

Eğiticili (supervised) öğrenme: Sınıflandırma (classification) Sınıf sayısı ve bir grup örneğin hangi sınıfa ait olduğu bilinir

Büyük Veri İçin İstatistiksel Öğrenme (Statistical Learning for Big Data)

DOKUZ EYLÜL ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ MÜDÜRLÜĞÜ DERS/MODÜL/BLOK TANITIM FORMU. Dersin Kodu: CSE 6003

bitık MOBİL TİCARET UYGULAMASI ABDULLAH ÇİÇEKCİ

Matematik ve Geometri Eğitiminde Teknoloji Tabanlı Yaklaşımlar

Yıldız Teknik Üniversitesi Bilgisayar Mühendisliği Bölümü. 13 Kasım 2010

Destekçi Vektör Makineleri. Destekçi Vektör Makineleri(Support Vector Machines)

Makine Öğrenmesi Yöntemleri ile Duygu Analizi Sentiment Analysis with Machine Learning Techniques

İş Zekası. Hafta 6 Kestirimci Modelleme Teknikleri. Yrd. Doç. Dr. H. İbrahim CEBECİ

VERİ MADENCİLİĞİ (Kümeleme) Yrd.Doç.Dr. Kadriye ERGÜN

TEST VE MADDE ANALİZLERİ

3. sınıf. Bilgisayarla kataloglamanın doğuşu gelişimi ve bugünkü durum ele alınmaktadır. Bu derste

DERS BİLGİLERİ. Ders Kodu Yarıyıl T+U Saat Kredi AKTS ÇOK KRİTERLİ KARAR VERME ESYE

Demografik Özelliklerin Koroner Arter Hastalığına Etkisinin Analizi

Türkiye Ekonomisi 2014 Bütçe Büyüklükleri ve Bütçe Performansı Raporu

İlkokuma Yazma Öğretimi

DENGESİZ GÜÇ AKIŞI ANALİZLERİ İÇİN SABİT HIZLI ASENKRON GENERATÖRLÜ RÜZGAR TÜRBİNİ MODELİ BÖLÜM 1: GENERATÖR MODELİ BÖLÜM 2: YÜK AKIŞI UYGULAMALARI

Uzaktan Algılama Uygulamaları

MAN502T İŞLETME YÖNETİMİ İÇİN ARAŞTIRMA YÖNTEMLERİ

ARAŞTIRMALARIN KANIT DEĞERLERİ VE KANIT KATEGORİLERİ

Apriori Algoritması. Konu İçeriği. Giriş. Tarihçesi. Apriori Nedir? Örnekler. Algoritma. Açıklama. Weka İle Kullanımı. Kaynakça.

Genel olarak test istatistikleri. Merkezi Eğilim (Yığılma) Ölçüleri Dağılım (Yayılma) Ölçüleri. olmak üzere 2 grupta incelenebilir.

Twitter Verilerinde Olay Bilgisi Odaklı Yer İsimleri Analizi: Ön Çalışma

KİNETİK MODEL PARAMETRELERİNİN BELİRLENMESİNDE KULLANILAN OPTİMİZASYON TEKNİKLERİNİN KIYASLANMASI

Metin Madenciliğinde Yazar Tanıma (Author Recognition in Text Mining)

Büyük Veri ve Endüstri Mühendisliği

KİMYASAL ANALİZ KALİTATİF ANALİZ (NİTEL) (NİCEL) KANTİTATİF ANALİZ

Veri Analizi. Isınma Hareketleri. Test İstatistikleri. b) En çok tekrar eden: 7 (mod) c) Açıklık = En büyük En küçük = 10 1 = 9. d)

Türkçe Dokümanlar Ġçin Yazar Tanıma

Nevzat Melih TÜNEK THK Üniversitesi Bilişim Teknolojileri Bölümünde Yüksek Lisans Öğrencisi, bu sunumda sosyal medyanın e-devlet üzerindeki etkileri

K-En Yakın Komşu Algoritması Parametrelerinin Sınıflandırma Performansı Üzerine Etkisinin İncelenmesi

MEÜ. SAĞLIK BĠLĠMLERĠ ENSTĠTÜSÜ DERS TANIMI FORMU

Mesleki Terminoloji II Veri Madenciliği

EKONOMİK GÖSTERGELER BÜLTENİ

YZM 3217 YAPAY ZEKA DERS#9: ÖĞRENME VE SINIFLANDIRMA

TANI TESTLERINE GIRIŞ & ROC ANALİZİ

VERİFİKASYON (SEROLOJİ, MOLEKÜLER TESTLER)

KBM0308 Kimya Mühendisliği Laboratuvarı I ISI İLETİMİ DENEYİ. Bursa Teknik Üniversitesi DBMMF Kimya Mühendisliği Bölümü 1

Yapay Sinir Ağları ile Web İçeriklerini Sınıflandırma. Yazarlar: Esra Nergis Güven, Hakan Onur ve Şeref Sağıroğlu. Sunan : Esra Nergis Güven

Türk İnşaat Firmalarının Yurtdışı Projelerde İşçi Sağlığı, İş Güvenliği ve Çevre Uygulamalarına Bakışı - Rusya Federasyonu Örneği

Yrd. Doç. Dr.Erdinç UZUN

TANIMLAR. Dr. Neriman AYDIN. Adnan Menderes Üniversitesi Tıp Fakültesi Tıbbi Mikrobiyoloji Anabilim Dalı

Karar Ağacı Öğrenmesi(Decision Tree Learning)

Algoritmalar. Sıralama Problemi ve Analizi. Bahar 2017 Doç. Dr. Suat Özdemir 1

Karar Ağaçları Destekli Vadeli Mevduat Analizi. Bank Deposit Analysis Based on Decision Tree

Bilgisayar Mühendisliği Yüksek Lisans Programı

Eğitim seti (training set) sınıflandırma modelinin elde edileceği kayıtları içerir

Ders Adı : TÜRK DİLİ II: CÜMLE VE METİN BİLGİSİ Ders No : Teorik : 2 Pratik : 0 Kredi : 2 ECTS : 3. Ders Bilgileri.

2.1 Gri Düzey Eş Oluşum Matrisi ( GLCM) Gri düzey eş oluşum matrisi Haralick tarafından öne sürülmüştür [1]. Đstatistiksel doku analizi yöntemidir.

Yapılan alan araştırması sonucunda aşağıdaki sonuçlar elde edilmiştir. ( ) ( ) ( ) ( )

Transkript:

Makine Öğrenmesi İle Duygu Analizinde Veri Seti Performansı Hatice NİZAM İstanbul Üniversitesi Bilgisayar Mühendisliği Bölümü haticenizam@outlook.com Saliha Sıla AKIN ERS Turizm Yazılım Şirketi, Bilgisayar Mühendisi sila.akin@hoteladvisor.net

Sunum Planı Duygu analizi nedir ve neden ihtiyaç duyulur? Literatürdeki çalışmalar Yapılan çalışma Deneyler Deneysel sonuçlar Tartışma ve Sonuç

Duygu Analizi Duygu analizi, duygu ve öznellikle ilgili hesaplamalı fikir değerlendirmesinin yapıldığı bir alandır. Belirli bir konu veya hedefin özelliğine göre metinler olumlu, olumsuz ya da tarafsız içeriğe sahip olup olmadığına göre analiz edilir.

Duygu Analizine Neden İhtiyaç Duyulur? İnternet teki verilerin hızlı bir şekilde artması bir konu veya hedefi manuel olarak takip etmeyi imkansız hale getirmektedir. Günümüzde sosyal medya platformlarının popülerliği giderek artmaktadır. İnternet kullanımının hızlı bir şekilde artmasıyla sosyal medyayı takip eden kişiler herhangi bir konu hakkında görüşlerini bu platformlar aracılığıyla duyururlar. Medya takibi yapan kişi veya kurumlar metinleri pozitif, negatif veya nötr olarak sınıflandırmak için duygu analizine ihtiyaç duymaktadırlar.

Literatürdeki Bazı Çalışmalar Duygu analizinde günümüze kadar yapılan çalışmalar genellikle İngilizce metinler üzerinde pozitif ve negatif olmak üzere iki veya üç sınıfta incelemeler yapıldığı gözlenmektedir. Bunlara örnek;

Yapılan Çalışma Türkçe metinler için yapılmış olan duygu analizi çalışmalarında elde edilen başarılar, İngilizce metinlerinkine göre düşüktür. Sınıflardaki veri dağılımlarının sınıflandırma algoritmalarındaki başarı oranlarına etkisinin olup olmadığını cevaplayan bir araştırma yoktur. Yaptığımız çalışmada, Türkçe metinlerin duygu analizinde nasıl bir performans gösterdiği incelenmiş, sınıflardaki veri dağılımları nasıl olmalı ve veri dağılımlarının sınıflandırma algoritmalarının performanslarına bir etkisinin olup olmadığı sorularının cevabı aranarak literatüre katkıda bulunmak amaçlanmıştır. Çalışmamızda sosyal medya aracı olan Twitter seçilmiş ve bazı gıda firmalarının çeşitli ürünlerine ait yapılan yorumlar üç sınıfa manuel olarak ayrılarak analiz edilmiştir.

Deneyler Kullanılan Veri Seti: Gıda sektöründeki farklı firmaların çeşitli ürünlerine ait tweetlerden oluşturulan dengeli ve dengesiz olmak üzere iki veri seti kullanılmıştır. Veri setlerinde bulunan tweetler manuel olarak Tablo 1 de görüldüğü gibi pozitif, negatif ve nötr olmak üzere üç sınıfa ayrılmıştır: Tablo 1: Veri Setleri

Deneyler Veri Özellikleri: Tweetlerde yer alan tüm harfler küçük harflere ve ( -ç,-ğ,-ı,-ö,-ş,-ü ) karakterleri (-c,-g,-i,-o,-s,-u) karakterlerine dönüştürülmüştür. Özellik değerlendirme metotlarından terim frekansı (TF) kullanılmıştır. TF (i,j) i. özelliğinin j sınıfında geçme sayısıdır. Yapılan çalışmamızda her bir kelime özellik olarak alınmıştır.

Deneyler Duygu analizi çalışmaları doğal dil işleme, makine öğrenmesi, hesaplamalı dilbilim, sembolik teknikler gibi yaklaşımları kullanır. Yaptığımız çalışmada, makine öğrenmesi yönteminin denetimli öğrenme tekniği kullanılmıştır. Bütün deneyler 10-katlamalı çapraz geçerleme stratejisi ile Weka (versiyon 3.6) yazılımı kullanılarak yapılmıştır. Kullanılan Sınıflandırma Algoritmaları Naive Bayes (NB), Random Forest (RF), Sequential Minimal Optimization (SMO), Decision Tree (J48), 1-Nearest Neighbors (IB1)

Deneyler Sınıflandırma Algoritmalarının Karşılaştırılmasında Kullanılan Kriterler 1. Model Başarım Ölçütleri 1.1. Doğruluk Hata Oranı (Accuracy-Error Rate) 1.2. Kesinlik (Precision) 1.3. Duyarlılık (Recall) 1.4. F-Ölçütü (F-Measure) 2. Kappa İstatistiği (P o kabul edilen oran, P c kabul edilmesi beklenen oran)

Deneysel Sonuçlar Tablo 1: Dengesiz veri seti (A veri seti) (A (Accuracy), P (Precision), R (Recall), F (F-Measure), K (Kappa Statistic) değerlerini temsil etmektedir) Tablo 2: Dengeli veri seti (B veri seti) (A (Accuracy), P (Precision), R (Recall), F (F-Measure), K (Kappa Statistic) değerlerini temsil etmektedir)

Deneysel Sonuçlar A veri setinde (dengesiz veri seti) başarımın düşük çıkmasının nedeni sınıflardaki veri dağılımının dengesizliğinden kaynaklanıyor olmasıdır. Pozitif sınıfta bulunan örnek sayısının negatif ve nötr sınıflarda bulunan örnek sayına oranı %55 tir. Bu veri madenciliği açısından uygun bir dağılım değildir (Kılıçaslan, Güner, Yıldırım, 2009). Sonuçları istatistiksel yollarla bir öğrenme algoritması kullanarak elde etmek istersek kappa istatistiği uygun bir ölçüt olarak görülür. Burada kappa sonuçları gözleme dayalı uyumun şansa bağlı olarak gerçekleştiğini göstermektedir (Landis, J. Richard, Gary G. Koch, 1977). Kappa katsayısı 1 değerine yaklaştıkça gözlenen uyumun şans eseri gerçekleşmediğini ifade eder. Veriler arası dengesizliği ortadan kaldırdığımızda sınıflandırma algoritmalarındaki model başarım ölçütleri ve kappa istatistiği sonuçlarının arttığı gözlemlenmiştir.

Tartışma ve Sonuç Model başarım ölçütleri ve kappa istatistiği sonuçları incelendiğinde dengeli veri seti, dengesiz veri setine göre daha iyi performans göstermiştir. Her iki veri setinde de en iyi performansı gösteren sınıflandırma algoritması SMO dur ve dengeli veri setinde %72.33 ortalama doğruluk başarı oranı göstermiştir. Sınıflardaki veri dağılımlarının sınıflandırma algoritmaları üzerindeki başarımı etkilediği görülmüştür.

Tartışma ve Sonuç Tüm kelimelerin özellik olarak kullanılması boyut fazlalığını artırır. Pozitif, negatif ve nötr sınıflarda sadece bir kez geçen kelimeler veya her sınıfta eşit sayıda geçen kelimeler ayırt edici özellik olarak kullanılamaz. Bir kelimenin ayırt edici özellik olarak kullanılabilmesi için o kelimenin bulunduğu sınıftaki frekansının yüksek diğer sınıflardaki frekansının düşük olması gerekmektedir. Bir sonraki çalışma olarak eğiticili terim ağırlıklandırma yönteminin yapılması planlanmaktadır.

TEŞEKKÜRLER...