T.C. ÇANAKKALE ONSEKİZ MART ÜNİVERSİTESİ BİLGİSAYAR MÜHENDİSLİĞİ İLERİ VERİTABANI SİSTEMLERİ DERSİ RAPORUN SUNULDUĞU TARİH 24.05.2011 PROJE KONUSU Genel Seçim Çalışmaları PROJE GRUBU Semih Erdem 080401009 DERSİN DANIŞMA HOCASI İSMAİL KAHRAMAN ÇANAKKALE
TANITIM İleri veritabanı sistemleri dersi dönem projesi için veri madenciliğine yönelik seçim konusu ele alındı. Projede genel seçimler baz alındı. Bunlar 1999, 2002, 2007 Türkiye milletvekilleri genel seçimleridir. Genel seçimler için iki tane il seçildi. Bunlar ise Marmara Bölgesi nde yer alan Çanakkale ve Balıkesir illeridir. Proje kapsamında illerin ekonomik ve sosyal yapıları, göç durumları, yaş grupları, partilere göre oy dağılımları, işsizlik oranı vb gibi yapıları incelendi. İlçelerde ise kentsel ve kırsal kesimin partilere göre oy dağılımları üzerinde duruldu. Partiler ise bu üç genel seçime katılanlar arasından seçildi. İllerde sıralamada ilk 5 te yer alan, ilçelerde ise ilk 3 te yer alan partiler ele alındı.
ER DIAGRAM
R DIAGRAM
ÖRNEK ARAYÜZ
DATAMİNİNG CLASSIFY 1- Uygulama http://www.tuik.gov.tr sitesinden gerçek veriler kullanılarak gerçekleştirilmiştir. 1999,2002 ve 2007 genel seçimlerine ait veriler kullanıldı. Balıkesir ve Çanakkale illerine ait ilçelerin ait merkez oy ve kırsal oy oranları hesaplandı. İlçelerin denize göre konumları belirlendi. Bu elde edilen verilerden yola çıkılarak 1999, 2002 ve 2007 genel seçimlerinde partilerin merkezde ve bucaklarda aldıkları oy oranlarının, bu illerin ilçelerinin denize göre konumlarının gruplandırılmasıyla bir uygulama geliştirildi. Uygulamada Weka ve SAS programları kullanıldı. Örnek Veriler OYLAR_İLCE secim_yili il_adi ilce_adi parti_adi merkez_oy_oran bucak_koy_oy_oran denize_konum 1999 Balikesir Ayvalik ANAP 22.1 13.7 var 1999 Balikesir Ayvalik DSP 44.1 33.2 var 2002 Canakkale Bozcaada ANAP 20 0 var 2002 Canakkale Bozcaada CHP 35.7 0 var 2007 Balikesir Susurluk MHP 12.7 13.1 yok 2007 Canakkale Ayvacik AKP 30.4 26 var Toplam 234 Kayıt tutuldu.
UYGULAMA 1(WEKA- Classify) İlçelerin denize konumu olup olmamasına göre sınıflandırma yapıldı. Partilerin ilçe merkezlerinde aldıkları oy oranlarına göre J48 algoritmasına göre çıktısı
UYGULAMA 1(SAS- Classify) Sonuçlar -Weka ve SAS programlarında elde edilen ekran görüntüleri yukarıdaki gibidir. -2007, 2002 ve 1999 yerel seçimleri Çanakkale ve Balıkesir illerinin ilçe merkezlerinin oy oranları bize gösteriyor ki, Genelde en başarılı parti AKP dir. Ancak AKP nin başarısı ilçelerin denize göre konumlarına bakılarak değişmektedir. Denize konumu olan ilçelerdeki merkez oylarda AKP nin başarısı, denize konumu olmayan ilçelere oranla düşüktür. ANAP ve MHP kısmen eşit oy oranlarına sahiptir. CHP ve DSP ise durum AKP nin tam tersine sahiptir. Denize konumu olan ilçelerde oy oranları denize konumu olmayan ilçelere oranla aşırı düşüktür. Sonuç olarak AKP iç kesimdeki, DSP ve CHP kıyı kesimdeki ilçelerin merkezlerinde etkili olmaktadır.
UYGULAMA 2(WEKA-Classify) İlçelerin denize konumu olup olmamasına göre sınıflandırma yapıldı. Partilerin ilçe kırsallarında aldıkları oy oranlarına göre J48 algoritmasına göre çıktısı
UYGULAMA 2(SAS- Classify) Sonuçlar -Weka ve SAS programlarında elde edilen ekran görüntüleri yukarıdaki gibidir. -2007, 2002 ve 1999 yerel seçimleri Çanakkale ve Balıkesir illerinin ilçe kırsallarının oy oranları bize gösteriyor ki, MHP denize konuma göre kısmen aynı oy oranlarına sahiptir. CHP ve DSP denize konumu olmayan ilçelerin kırsallarında büyük oranda oy kaybına uğramıştır. ANAP ta ise gözle görülür bir şekilde oy kaybı mevcuttur. AKP de ise denize konum ilçe kırsallarında pek önemsiz gözükmektedir. Nerdeyse aynı oy oranlarına sahiptir. Sonuç olarak gözlemlere bakıldığında CHP ve DSP ilçe merkezlerinin kırsallarından destek görmemektedir. AKP ise yine en başarılı parti konumundadır. Her iki uygulama için konuşulursa, AKP denize konumu olmayan ilçelerin merkezlerinde ve özelliklerinde kırsallarında etkilidir.
CHP ve DSP ise denize konumu olan ilçelerde ve denize konumu olmayan ilçelerde büyük farklılıklara sahip. Denize konumu olan ilçelerde üstünler. Denize konumu olan ilçelerin ise kırsallarında merkezlere oranla üstünlüğe sahiptir. MHP ve ANAP ise nerdeyse aynı oranlara sahiptir. CLUSTERING 2- Uygulama http://www.tuik.gov.tr sitesinden gerçek veriler kullanılarak gerçekleştirilmiştir. 1999,2002 ve 2007 genel seçimlerine ait veriler kullanıldı. Balıkesir ve Çanakkale illerine ait ilçelerin ait merkez oy ve kırsal oy oranları hesaplandı. İlçelerin denize göre konumları belirlendi. Partilerin illere göre hangi seçimlerde hangi yoğunlukta daha fazla kümelendiği gösterildi. Uygulamada Weka ve SAS programları kullanıldı.
UYGULAMA 3(WEKA-Clustering) Partilerin illere göre hangi seçimlerde daha fazla kümelendiğini gösteren grafik.
UYGULAMA 3(WEKA-Clustering) Sonuçlar Her iki ilde de gözle görülür bir şekilde AKP ve CHP nin 2002 seçimleriyle birlikte bu iki ilde kümelendiğini görebiliyoruz. DSP ve ANAP 1999 seçimleri sonrasında bu iki ilde de tüm etkinliğini kaybetmiştir. MHP ise 1999 yılında Balıkesir de 2007 yılında ise Çanakkale de kümelenerek seçimlerde etkinliğini arttırdığını görüyoruz.
DESICION TREE UYGULAMA 4(WEKA) Oylar ilçe tablosunda parti adlarına göre kırsal ve merkez oy oranlarının sınıflandırılması. J48 sınıflandırma algoritmasına göre.
UYGULAMA 5(WEKA)-Parti adına göre sınıflandırma(ilçe tablosu kaldırıldı)
KULLANILAN VERİ MADECİLİĞİ UYGULAMA PROGRAMLARI WEKA WEKA bir proje olarak başlayıp bugün dünya üzerinde birçok insan tarafından kullanılmaya başlanan bir Veri Madenciliği uygulaması geliştirme programıdır. WEKA java platformu üzerinde geliştirilmiş açık kodlu bir programdır. WEKA çalıştırıldıktan sonra Şekil 3 de görüldüğü gibi, Application menüsünde çalışılabilecek modlar listelenmektedir. Bunlar komut modunda çalışmayı sağlayan Simple CLI, projeyi adım adım görsel ortamda gerçekleştirmeyi sağlayan Explorer ve projeyi sürükle bırak yöntemiyle gerçekleştirmeyi sağlayan KnowledgeFlow seçenekleridir. Explorer seçeneği seçildikten sonra üzerinde çalışılacak verilerin seçilmesi, bu veriler üzerinde temizleme ve dönüştürme işlemlerinin gerçekleştirilebilmesini sağlayan Şekil 4 deki ekran ile karşılaşılmaktadır.
Şekil 4. WEKA da Veri Seçimi Arff, Csv, C4.5 formatında bulunan dosyalar WEKA da import edilebilir. Herhangi bir text soyadaki verileri WEKA ile işlemek olanaksızdır. Ayrıca Jdbc kullanılarak veritabanına bağlanıp burada da işlemler yapılabilir. WEKA nın içerisinde Veri İşleme, Veri Sınıflandırma, Veri Kümeleme, Veri İlişkilendirme özellikleri mevcuttur. Bu adımdan sonra yapılacak olan projenin amacına göre açılan sayfadaki uygun tabdaki (Sınıflandırma, Kümeleme, İlişkilendirme) uygun algoritma veya algoritmalar seçilerek veriler üzerine uygulanmakta ve en doğru sonucu veren algoritma seçilebilmektedir. SAS SAS, İş Zekâsı ve Analitik yazılımları ve hizmetleri alanında dünya lideridir. SAS çözümlerini kullanan 45.000 i aşkın kuruluş, yüksek miktarda veriyi stratejik bilgiye dönüştürerek performansını artırıyor. Böylece bu kurumlar daha hızlı, daha doğru iş kararları alıyor, müşterileri ve tedarikçileri ile daha kârlı ilişkiler kuruyor, yönetmeliklere uyum sağlama, farklılıklar yaratma, araştırma-geliştirme ve daha iyi ürünler üretme konularında başarılı oluyorlar. SAS, Veri Kalitesi, Veri Entegrasyonu, Veri Depolama, gelişmiş analitik ve geleneksel İş Zekâsı uygulamalarını çok yönlü olarak Kurumsal Zekâ Platformu içerisinde sağlayabilen tek kurum. SAS 1976 yılından bu yana müşterilerine Bilmenin Gücü nü (The Power To Know ) sunuyor. www.sas.com/turkey. ÖRNEK UYGULAMA Uygulama, Gazi Üniversitesi Fen Bilimleri Enstitüsü verilerinden yararlanılarak
gerçekleştirilmiştir. Bu çalışmada lisansüstü (Yüksek Lisans, Doktora) öğrencilerine ait 11809 adet veri kullanılmıştır. Öğrencilerin mezun olduğu lisans bölümüyle, devam ettiği lisansüstü bölümün aynı veya farklı olması durumunun öğrencinin başarısına etkisi araştırılmıştır. Lisans programını farklı bir üniversitede bitirmiş olan öğrenciler ile lisans programını Gazi Üniversitesinde bitirmiş olan öğrencilerin derslerdeki başarı oranları incelenmiştir. Ankara dışında ikamet eden öğrencilerle, Ankara içinde ikamet eden öğrenciler akademik başarı ölçüt alınarak kıyaslanmış olup bununla birlikte; lisansüstü derslerde doktora ve yüksek lisans öğrencilerinin, kız ve erkek öğrencilerin başarı notları kıyaslanmıştır. Yapılan çalışma sonucunda, lisansüstü programlara devam eden öğrencilerin farklı kriterlere göre başarısızlıkları ve bu başarısızlıkların nedenini bulup, çözümlemek hedeflenmiştir. Bulunan sonuçlar, üniversite bünyesinde gerçekleştirilen Performans Programı, Akademik Değerlendirme ve Kalite Geliştirme dokümanlarını hazırlarken yardımcı olacaktır. Uygulama WEKA 3.5.8 programı yardımıyla gerçekleştirilmiştir. Veri kümesine Naive Bayes algoritması uygulandığında Mezun_Olduğu_Bölüm alanı için Şekil 9 elde edilmektedir. Kırmızı işaretler mezun olduğu bölüm aynı olan öğrencileri, mavi ise mezun olduğu bölümü farklı olan öğrencileri göstermektedir. X ekseninde, 1,2,3,4,5 olmak üzerebaşarı notları, Y ekseninde ise 1,0 olmak üzere ikamet edilen il gösterilmektedir. Naive Bayes algoritmasının sonuçlarını aşağıdaki şekilde değerlendirmek mümkündür. Mezun olduğu bölümde lisansüstü eğitimine devam eden öğrenciler ele alındığında, ikamet yeri ile lisansüstü eğitimini gördüğü yer aynı olan öğrencilerin başarısı, ikamet yerinin lisansüstü eğitimini gördüğü yerden farklı olan öğrencilerin başarısından daha fazladır. Görüldüğü gibi yukarıda bulunan kırmızı işaretler, aşağıda bulunanlara göre oldukça fazladır. 3,4,5 notlarına göre bu başarı beklendiği gibi olabilir. Ama 1,2 notlarında görülen olay beklenilmeyen bir durumdur. Şöyle ki; aynı yerde ikamet eden öğrencilerin yoğunluğu, farklı yerde ikamet eden öğrencilerin yoğunluğundan 1 notuna göre
daha fazladır. Bilindiği gibi 1 notu, FF, Girmedi, Devamsız notlarına karşılık gelmektedir. Bu durumun, aynı yerde ikamet eden öğrencilerin iş hayatlarındaki yoğunluklarından meydana geldiği düşünülmektedir. Bu sorunu gidermek için, bu öğrencilerin iş yerlerinden, üniversite tarafından 2 günlük izin alınarak bölümde çalışması desteklenebilir. X ve Y eksenlerine veri kümesindeki diğer özellikler teker teker yerleştirildiğinde aşağıdaki sonuçlar elde edilmektedir. Mezun olduğu bölümde lisansüstü eğitimine devam eden öğrenciler ele alındığında, doktora öğrencileri ve yüksek lisans öğrencilerinin, 3 notu hariç diğer başarı notları, ortalama olarak aynıdır. 3 notunda ise yüksek lisans öğrencilerin çoğunluğu fark edilmektedir. Bilindiği gibi 3 notu, CC ve DC notuna karşılık gelmektedir. Bunun sebebi olarak, Yüksek Lisans öğrencilerinin geçme notunun CC, doktora öğrencilerinin geçme notunun ise CB olmasıdır. Buradaki not kriteri başarıyı tetiklemiştir. Yüksek Lisans öğrencilerinin de geçme notu CB ye yükseltilerek başarının yükselmesi sağlanabilir. Mezun olduğu bölüm dışında lisansüstü eğitimine devam eden öğrenciler ele alındığında, doktora öğrencileri, yüksek lisans öğrencilerine göre başarı olarak büyük bir üstünlük sağlamaktadır. Bu üstünlüğün sebebi doktora öğrencilerinin genel olarak yüksek lisans öğrencilerinden daha fazla bilgi sahibi olması olarak açıklanabilir. Bu yüzden farklı bölümde lisansüstü eğitimine devam etse bile başarısı etkilenmemektedir. Yüksek lisans öğrencilerinin bu zayıflığı, farklı bölümlerde lisansüstü eğitimi yapmak isteyen öğrencilerin zorunlu olarak alması gereken Bilimsel Hazırlık dersinin süresini uzatarak giderilebilir. Mezun olduğu üniversitede ve mezun olduğu üniversite dışında lisansüstü eğitimine devam eden Doktora ve Yüksek lisans öğrencilerinin başarı notları ortalama olarak aynıdır. Bu durum şunu göstermektedir ki, farklı üniversiteden gelen öğrenciler yeni eğitim yerine hızlıca ayak uydurabilmektedir. Bu kısımda, mezun olduğu üniversitede lisansüstüne devam eden öğrencilerin daha başarılı olması beklense de, farklı üniversiteden gelen öğrencilerin kaliteli olmasından dolayı bir eşitlik söz konusudur.
J48 ALGORİTMASI NEDİR J48, NaiveBayes, Lojistik Regresyon ve KStar algoritmalarının karşılaştırması yapılmıştır. Karşılaştırma yapılırken veri önişlemeden başlamak üzere, hangi bilgilerin kullanıldığı, nasıl bir metot izlendiği, algoritmaların oluşturduğu modellerin istatistiksel sonuçları ve bu sonuçların nasıl değerlendirildiği detaylı bir şekilde anlatılmıştır. Yapılan karşılaştırma sonucuna göre eldeki veri üzerinde çalıştırılan dört farklı algoritmadan J48 algoritmasının ürettiği modelin en iyi karşılaştırma ölçütlerine sahip olduğu sonucuna ulaşılmış, ancak modeller arasında belirgin bir farklılık oluşmadığı sonucu da vurgulanmıştır. Birbirine yakın doğruluk derecesinde sonuçlar J48 algoritması en iyi doğruluk derecesine sahip SEER göğüs kanseri üzerinde yapılan diğer akademik çalışmalarla aynı sonucu vermiştir. (C4.5, J48) Diğer çalışmalarda doğruluk dereceleri daha iyi Farklı veri kullanılmış olması Önişleme prosedürü Uygulama aşamasındaki parametre seçimi