ÜNİVERSİTE GİRİŞ SINAVINDA ÖĞRENCİLERİN BAŞARILARININ VERİ MADENCİLİĞİ YÖNTEMLERİ İLE TAHMİN EDİLMESİ. Hanife GÖKER

Transkript

1 ÜNİVERSİTE GİRİŞ SINAVINDA ÖĞRENCİLERİN BAŞARILARININ VERİ MADENCİLİĞİ YÖNTEMLERİ İLE TAHMİN EDİLMESİ Hanife GÖKER YÜKSEK LİSANS TEZİ BİLGİSAYAR EĞİTİMİ GAZİ ÜNİVERSİTESİ BİLİŞİM ENSTİTÜSÜ HAZİRAN 2012 ANKARA

2 Tarih : 18 / 06 / 2012 Bu tez, Gazi Üniversitesi Bilişim Enstitüsü tez yazım kurallarına uygundur.

3 TEZ BİLDİRİMİ Tez içindeki bütün bilgilerin etik davranış ve akademik kurallar çerçevesinde elde edilerek sunulduğunu, ayrıca tez yazım kurallarına uygun olarak hazırlanan bu çalışmada orijinal olmayan her türlü kaynağa eksiksiz atıf yapıldığını bildiririm. Hanife GÖKER

4 iv ÜNİVERSİTE GİRİŞ SINAVINDA ÖĞRENCİLERİN BAŞARILARININ VERİ MADENCİLİĞİ YÖNTEMLERİ İLE TAHMİN EDİLMESİ (Yüksek Lisans Tezi) Hanife GÖKER GAZİ ÜNİVERSİTESİ BİLİŞİM ENSTİTÜSÜ Haziran 2012 ÖZET Günümüzde her alanda bilgisayar teknolojilerinin kullanımı ile başlayan gelişmeler katlanarak yaygınlaşmaktadır. Eğitim ve diğer alanlardaki hizmetlerin daha yüksek standartlara ulaştırılmasında; yapay zeka, veri madenciliği, bulanık mantık ve örüntü tanıma vb. tekniklerin kullanılmasının faydaları herkesçe bilinmektedir. Veri madenciliği teknikleri ile verilerin sınıflandırılması, kümelenmesi ve veriler arasındaki birliktelik kurallarının çıkarılması mümkündür. Bu kapsamda geçmişteki tecrübelerden faydalanarak, gelecekteki olayları tahmin eden sınıflandırma algoritmalarının kullanılmasıyla yeni uygulamalar geliştirilebilmektedir. Bu çalışmanın amacı üniversite giriş sınavına giren öğrencilerin başarılarının veri madenciliği ile tahmin edilmesidir. Çalışmada öğrenci veri ambarı üzerinde Naive Bayes algoritması kullanılarak bir yazılım geliştirilmiştir. Geliştirilen bu yazılım ile öğrenci ve aileleri için, öğrencilerin üniversite giriş sınavındaki başarı durumlarını tahmin eden bir erken uyarı sisteminin geliştirilmesi amaçlanmıştır.

5 v Bilim Kodu : Anahtar Kelime : veri madenciliği, naive bayes, birliktelik kuralları, sınıflandırma, kümeleme, weka Sayfa Adedi : 70 Tez Yöneticisi : Doç. Dr. Halil İbrahim BÜLBÜL

6 vi THE ESTIMATION OF STUDENTS SUCCESSES IN UNIVERSITY ENTRANCE EXAM BY DATA MINING METHODS (M.Sc. Thesis) Hanife GÖKER GAZİ UNIVERSITY INFORMATICS INSTITUTE June 2012 ABSTRACT Nowadays the improvements that have been started by using computer technologies have been growing. For reaching to higher standards of services offered by education and other fields; it is obvious that using the techniques of artificial intelligence, data mining, fuzzy logic and pattern recognition, and etc. are very useful. It is possible to classify and group the data and to get association rules between the data by data mining techniques. Within this scope it might be developed new applications using classification algorithms that estimates the future events by past experiences. The aim of this study, using data mining algorithms on the created student data warehouse, is to estimate the students successes, who are taking the university entrance exam, by data mining. In this study, it has been improved a software considering Naive Bayes algorithms for student data warehouse. By that developed software, it is aimed to improve an early warning system that may estimate the states of the students successes in university entrance exam for students and also for their families.

7 vii Science Code : Key Words : data mining, naive bayes, association rules, classification, cluster, weka Page Number : 70 Adviser : Assoc. Prof. Dr. Halil İbrahim BÜLBÜL

8 viii TEŞEKKÜR Çalışmalarım boyunca değerli yardım ve katkılarıyla beni yönlendiren danışmanım Doç. Dr. Halil İbrahim BÜLBÜL e, verilerin toplanma sürecinde yardımlarını esirgemeyen Ahmet Alper Dinçer Anadolu Lisesi okul müdürü Mustafa KALE ye, desteklerinden dolayı eşime ve kızıma teşekkür ederim.

9 ix İÇİNDEKİLER Sayfa ÖZET... iv ABSTRACT... vi TEŞEKKÜR... viii İÇİNDEKİLER... ix ÇİZELGELERİN LİSTESİ... xi ŞEKİLLERİN LİSTESİ... xii SİMGELER VE KISALTMALAR... xiii 1. GİRİŞ KONU İLE İLGİLİ MEVCUT ÇALIŞMALARIN İNCELENMESİ VERİ MADENCİLİĞİ VE UYGULAMA ALANLARI Üniversite Giriş Sınavı Veri Madenciliği Veri Madenciliği Uygulama Alanları Veri Ambarı Kavramı ve Özellikleri Veri Madenciliği Uygulama Süreci Problemin tanımlanması Veri önişleme Model değerlendirme aşaması Bilginin sunumu aşaması Veri Madenciliği Modelleri Sınıflandırma Kümeleme Birliktelik kuralları... 36

10 x Sayfa 4. MATERYAL VE METOD Yazılımın Geliştirilmesinde Kullanılan Araçlar Üniversite Giriş Sınavında Başarının Tahminde Kullanılan Kriterlerin Seçimi Üniversite Giriş Sınavında Başarının Tahminde Kullanılan Sınıflandırma Algoritmasının Seçimi ÜNİVERSİTE GİRİŞ SINAVINDA VERİ MADENCİLİĞİ İLE BAŞARI TAHMİNİ Problemin Tanımı Verilerin Elde Edilme Süreci Veri Önişleme Basamakları Veri temizleme Veri bütünleştirme Veri dönüştürme Veri azaltma Modelleme Modelleme basamağı: WEKA Modelleme basamağı: Üniversite giriş sınavında öğrencilerin başarılarının tahmin edilmesinde veri madenciliği uygulama yazılımı SONUÇ VE ÖNERİLER KAYNAKLAR EKLER EK-1. Anket formu EK-2. Naive Bayes algoritmasının C#.NET dili kodları ÖZGEÇMİŞ... 70

11 xi ÇİZELGELERİN LİSTESİ Çizelge Sayfa Çizelge Karışıklık matrisi Çizelge Eğitim veri seti Çizelge Eğitim veri seti kritelerine ait frekanslar Çizelge Nitelikler ve alabileceği değerler Çizelge Öznitelik seçimi işleminden önce sınıflayıcı başarı oranı Çizelge Öznitelik seçimi işleminden sonra sınıflayıcı başarı oranı Çizelge Sınıflandırma algoritmalarının karşılaştırılması Çizelge Test verileri için yapılan başarı tahmin sonuçları... 56

12 xii ŞEKİLLERİN LİSTESİ Şekil Sayfa Şekil Fayyad a göre veri madenciliği sürecinde yer alan basamaklar Şekil Han a göre veri madenciliği sürecinde yer alan basamaklar Şekil Veri madenciliği modelleri ve algoritmalar Şekil Yazılım ana formu Şekil Öğrenci genel bilgileri giriş formu Şekil Öğrenci aile bilgileri giriş formu Şekil Öğrenci bireysel bilgileri giriş formu Şekil Öğrenci not ve devamsızlık bilgileri giriş formu Şekil Veri görüntüleme formu Şekil Başarı tahmin formu Şekil Başarı sonuç mesajı... 56

13 xiii SİMGELER VE KISALTMALAR Bu çalışmada kullanılmış bazı simgeler ve kısaltmalar, açıklamaları ile birlikte aşağıda sunulmuştur. Kısaltmalar Açıklama ÖSYM E-OKUL KDD MAP MUC TP TN FP FN SQL AOBP Öğrenci Seçme ve Yerleştirme Merkezi E-Okul Yönetim Bilgi Sistemi Knowledge Discovery From Data (Veritabanından Bilgi Keşfi) Maximum A Posteriori Classification (En Büyük Sonrasal Sınıflandırma Yöntemi) Message Understanding Conference True Positive True Negative False Positive False Negative Structured Query Language (Yapısal Sorgulama Dili) Ağırlıklı Orta Öğretim Başarı Puanı

14 1 1. GİRİŞ Eğitim sistemimizde, yükseköğrenim görmek için üniversite giriş sınavında yeterli puanı alarak başarılı olmak gerekmektedir. Ülkemizde her yıl Öğrenci Seçme ve Yerleştirme Merkezinin (ÖSYM) yaptığı üniversite giriş sınavına bir buçuk milyondan fazla öğrenci girmekte ve bu sayı giderek artmaktadır. Üniversite giriş sınavına giren öğrencilerin sayısı, yükseköğretim kurumlarının alacağı öğrenci sayısından fazla olduğundan, sistem üniversite giriş sınavını zorunlu hale getirmiştir. Ortaöğretim ile yükseköğretim arasında bir tür kopuş ifade eden öğrenci arz-talep dengesizliğindeki bu hızlı artış, en üst düzey devlet yetkililerinden, okul yöneticilerine, öğretmenlerden velilere ve öğrencilere kadar, toplumun birçok bölümünü büyük ölçüde tedirgin etmektedir. Üniversiteye girişin zorlaşması ve rekabetin artması, Türkiye de Üniversite Giriş Sınavlarına Hazırlanma Kursları veya Özel Dershaneler olarak bilinen özgün ve özel öğretim kurumlarının ortaya çıkmasına ve hızla artıp yaygınlaşmasına yol açmıştır. Bunun yanında okullar işlevsiz ve sadece diploma veren bir kurum haline gelmiştir. Ailelerde, ekonomik ve kültürel güçlerinin elverdiği ölçüde, çocuklarının üniversiteye girme şanslarını artırmak için, çocuklarını bu kulvarda koşturmaktadırlar. Türkiye de üniversite öncesi eğitim- öğretim süreci ve bu süreç boyunca gösterilen çabaların büyük bir bölümü, üniversite giriş sınavlarına endekslenmiş durumdadır. Açıkça ifade edilsin veya edilmesin, öğrencilerin üniversite giriş sınavlarında göstermiş oldukları başarı düzeyi, sınav öncesi eğitim-öğretim sürecinde etkin olan tüm kişi ve kurumların başarı veya başarısızlıklarının en somut göstergesi olarak algılanmaktadır. Başka bir deyişle, öğrencilerin üniversite giriş sınavlarında göstermiş oldukları başarı düzeyi, mezun oldukları lisenin başarı ve verimlilik düzeyinin de en önemli ölçütü olarak değerlendirilmektedir [1]. Öğrencilerin üniversite giriş sınavında başarısını etkileyen birçok faktör bulunmaktadır. Öğrencilerin demografik özellikleri, bireysel özellikleri, okul ve dershane bilgileri bu etkenlerden bazılarıdır. Üniversite giriş sınavında yüksek puan almak, meslek hayatı ile ilişkili olduğundan çok daha fazla önem arz etmektedir.

15 2 Öğrenciler küçük yaştan itibaren bu sınava hazırlanmakta ve dolayısıyla rekabet ortamı giderek güçlenmektedir. Öğrencilerin sınavda başarılı olmaları için, bu sınavda başarıyı etkileyen faktörlerin araştırılması gerekmektedir. Hatta başarıyı etkileyen birçok faktör olduğundan, bu faktörler arasında başarıyı en çok etkileyenlerin öncelik sırasının belirlenmesi, önceliği en yüksek olan faktörlerin geliştirilmesi ve desteklenmesi sağlanmalıdır. Üniversite giriş sınavında, başarıyı etkileyen faktörlerin her biri daha önceden araştırılmış, bu faktörlerin üniversite giriş sınavındaki başarıyı nasıl etkilediği farklı araştırmacılar tarafından incelenmiştir. Bu çalışmalar incelendiğinde, öğrencilerin üniversite giriş sınavındaki başarıları ile okul kültürü, sınav yılı, okul türü, bölgeler, öğrencinin sosyoekonomik ve demografik özellikleri, öğrencinin okul mezuniyet notu, cinsiyeti, yaşı ve aile ortamı gibi her bir faktör ile üniversite giriş sınavındaki başarıyı inceleyen birçok çalışma bulunmaktadır [2-5]. Yapılan bu çalışmalarda not bilgisi, aile ortamı, dershane ve özel ders bilgisi, sınav kaygı düzeyi, çalışma düzeni, yaş, cinsiyet vb. faktörlerin tamamının üniversite giriş sınav başarısını kümülatif olarak ne kadar etkilediği ve bu faktörlerin öncelik sırası ile ilgili bir çalışma bulunmamaktadır. Bu nedenle öğrencilerin üniversite giriş sınavındaki başarısını etkileyen faktörlerin belirlenmesi ve ortaöğretim öğrencilerinin üniversite giriş sınavını kazanıp kazanamayacaklarının tahmini yapılarak, eksik faktörlerin geliştirilmesi, bu sınavdan elde edilecek başarının artmasında önemli rol oynamaktadır. Yukarıda bahsedilen işlemlerin yapılmasında birçok farklı yöntem kullanılmaktadır. Bu yöntemlerden biride veri madenciliğidir. Veri yığınlarının içerisinden, gizli örüntülerin belirlenip, yararlı bilgilerin ortaya çıkarılması işlemine veri madenciliği denilmektedir. Veri madenciliği, bankacılık, emniyet, telekomünikasyon, spor gibi çeşitli alanlarda kullanılmaktadır. Eğitim ve diğer alanlardaki hizmetlerin daha yüksek standartlara ulaştırılmasında bilgisayar uygulamaları önemli yer tutmaktadır. Eğitim sisteminde, yapay zeka

16 3 tekniklerini, veri madenciliği tekniklerini, bulanık mantık uygulamalarını ve örüntü tanıma tekniklerini içeren uygulamalarla daha iyi sonuç almak mümkündür. Eğitimde kalitenin artırılması, gelecekteki eğitim politikalarının şekillendirilmesi, öğrenci başarılarının artırılması, öğrenci davranışlarına ve gruplarına göre bireysel eğitimin verilmesi gibi amaçlar ile veri madenciliği teknikleri uygulanmalıdır. Veri madenciliği teknikleri sayesinde veri ambarından çıkarılan örüntüler, klasik yöntemlere göre doğruluk oranı daha yüksektir ve daha hızlı elde edilebilir. Bu çalışmanın amacı; bir öğrenci veri ambarı oluşturmak ve bu öğrenci veri ambarı üzerinde, öznitelik seçme algoritmaları ile seçilen öncelikli niteliklere göre öğrencilerin üniversite sınavını kazanıp kazanamayacağının, veri madenciliği algoritmalarından Naive Bayes algoritması ile tahmin etmeye çalışmaktır. Geliştirilen yazılımda, insanların hayatlarında dönüm noktalarından bir tanesi olan üniversite giriş sınavındaki başarı durumlarının tahmin edilmesi ve üniversite giriş sınavında başarıyı etkileyen faktörlerin arasından öncelikli faktörlerin tespiti için bir erken uyarı sistemi geliştirilmesi amaçlanmıştır.

17 4 2. KONU İLE İLGİLİ MEVCUT ÇALIŞMALARIN İNCELENMESİ Veri madenciliği uygulamalarına duyulan önemin her geçen gün artmasıyla birlikte, veri madenciliği teknikleri başta pazarlama olmak üzere her alanda kullanılmaya başlanılmıştır. Bu bölümde, öğrenci bilgileri ve eğitim öğretim faaliyetlerini içeren veriler üzerinde veri madenciliği tekniklerinin kullanılması ile ilgili çalışmalara yer verilmiştir. Bırtıl (2011), Kız Meslek Lisesi Öğrencilerinin Akademik Başarısızlık Nedenlerinin Veri Madenciliği Tekniği ile Analizi isimli tezinde, öğrencilerin başarısızlık anketine verdikleri cevaplar incelenmiş ve veri madenciliği yöntemi ile öğrencilerin genelde birlikte katılıyorum cevabı verdikleri sorular tespit edilmiştir. Kümeleme algoritması kullanılarak öğrencilerin başarısızlık nedenleri gruplandırılmış ve gruplandırılan başarısızlık nedenlerinin daha aza indirilmesi için gerekli önlemlerin alınarak, öğrenci başarı düzeylerinin artırılabileceği sonucuna varılmıştır [6]. Bir başka çalışmada, Üçgün (2009) Ortaöğretim Okulları İçin Öğrenci Otomasyonu Tasarımı ve Öğrenci Verileri Üzerine Veri Madenciliği Uygulamaları isimli veri madenciliği uygulamasında, ilişkilendirme kuralları algoritmalarından Apriori algoritmasını kullanarak öğrenci ders notları ile ilgili bazı kurallar çıkarmıştır. Bu kurallar ile öğrenci başarısını artırabilecek yeni stratejilerin oluşturulması gerektiği sonucuna varılmıştır [7]. Öğrenci veri tabanında veri madenciliği algoritmalarından genetik algoritmayı kullanan Gündoğdu (2007) tarafından yapılan çalışmada, Kocaeli Üniversitesindeki öğrencilerin verileri üzerinde geliştirilen yazılım ile verilerin analizinin yapılması ve eğitimcilerin öğrenci profillerini değerlendirmesine yardımcı olması amaçlanmıştır. Genetik algoritma kullanılarak, öğrencilerin üniversite giriş sınavındaki başarıları ile derslerdeki başarı ortalamaları arasındaki kuralların çıkarılması ve yeni gelecek öğrencilerin başarı durumlarının öngörülebileceği öğrenci başarı analizi için bir yazılım geliştirilmiştir [8].

18 5 Bulut (2010) tarafından gerçekleştirilen diğer bir çalışmada, öğrencileri madde bağımlılığından korumak için ailelere ve eğitimcilere yardımcı olacak bir uyarı sistemi geliştirilmiştir. Gelecekte bir öğrencinin madde bağımlısı olma risk yüzdesi, WEKA programı kullanılarak çeşitli sınıflandırma algoritmaları ile hesaplatılmaktadır [9]. Gülçe nin 2010 yılında yaptığı bir çalışmada ise, veri madenciliği teknikleri kullanılarak öğrenci karar destek sistemi oluşturulmuştur. Üniversite öğrencilerinin akademik başarı durumlarının tahmini yapılarak, elde edilen bilgilerin ilgili kişilerin onayına sunulması, bu sayede gelecekte alınacak eğitim ve öğretim plan ve programlama sürecine yönelik kararlarda yönetime destek olması hedeflenmiştir [10]. Konuyla ilgili bir başka çalışma, Bülbül ve Ünsal tarafından 2010 yılında yapılmıştır. Çalışma kapsamında, makine öğrenmesi algoritmalarından Naive Bayes algoritması kullanılarak öğrencilere uygulanan mesleki alan seçimi işlemi ile başarılı sonuçlar elde edilmiştir. Geliştirilen yazılım ile mesleki alan seçim sürecinde bulunan bireylerden alınan verilere göre birey için en uygun mesleki alanın sistem tarafından önerilmesi amaçlanmıştır [11]. Sınıflandırma algoritmasının kullanılmasına yönelik diğer bir çalışmada 2011 yılında Yardımcı tarafından yapılmıştır. Yardımcı (2011) Makine Öğrenmesi Teknikleri ile Rss Besleme Yönetimi isimli çalışmasında, makine öğrenmesi algoritmalarından sınıflandırma algoritmasını kullanarak, kullanıcının haber okuma alışkanlığının web sitesine öğretilmesini ve tekrar haber okunmak istendiğinde öğrenilen alışkanlığa göre haberlerin kullanıcıya sunulmasını sağlamıştır [12]. Bozkır ve arkadaşları tarafından 2009 yılında yapılan Öğrenci Seçme Sınavında Öğrenci Başarısını Etkileyen Faktörlerin Veri Madenciliği Yöntemleriyle Tespiti isimli çalışmada, 2008 yılında sınava girmiş olan öğrencilerin verileri üzerinde kümeleme ve karar ağaçları algoritmaları kullanılarak oluşturulan bağımlılık ağları ile niteliklerin birbirleri üzerindeki etkileri tespit edilmiştir [13].

19 6 Yukarıda verilen çalışmalarda veri madenciliği tekniklerinden birliktelik kuralları çıkarma ve sınıflandırma işlemleri geliştirilmiştir. Öğrenci veri tabanı üzerinde; öğrenci başarısını artırmak, madde bağımlısı gibi risk grubunda bulunan öğrencileri belirlemek, mesleki alan seçiminde doğru seçimi yapmak gibi veri madenciliği tekniklerinin uygulanması ile ilgili literatürde birçok çalışma bulunmaktadır [6-11,13]. Çalışmamızda öğrenci veri ambarı üzerinde sınıflandırma algoritmalarından Naive Bayes algoritması kullanılarak üniversite giriş sınavı başarı tahmini yapılmıştır.

20 7 3. VERİ MADENCİLİĞİ VE UYGULAMA ALANLARI Veri madenciliğinin birçok tanımı bulunmaktadır. Genel tanımıyla yararlı bilgilerin, büyük veri tabanlarından çıkarılması işlemidir. Son yıllarda finans, haberleşme, sağlık sektörlerinde özellikle ticari alanda veri madenciliği yöntemleri sıklıkla kullanılmaya başlamıştır. Bu tezin konusu üniversite giriş sınavında öğrenci başarılarının tahmin edilmesi ve sınavda başarıyı etkileyen faktörlerin öncelik sırasının belirlenmesidir. Üniversite giriş sınavına giren öğrenci sayısı her geçen yıl artmakta ve bu sınavda başarıyı etkileyen birçok faktör bulunmaktadır. Bu faktörlerin üniversite giriş sınavındaki başarıyı kümülatif olarak nasıl etkilediği, öğrencilerin sınavı kazanıp kazanamayacaklarının öngörülmesi önemlidir. Bu bölümde, veri madenciliği, veri madenciliği uygulama alanları ve bu tezin konusunu oluşturan üniversite giriş sınavından bahsedilmiştir Üniversite Giriş Sınavı Türkiye de yükseköğretime öğrenci seçme işlemi, 1925 yılında kurulan ilk Hukuk Mektebinden hatta kökleri çok eskilere dayanan ancak 1919 yılında bilimsel ve kısmen yönetim özerkliğine kavuşan İstanbul Darülfünun un kurulusundan günümüze kadar, anlayış olarak çok fazla da değişmeyen belirli bir yapı üzerinde gelişerek gelmiştir. O yıllarda yükseköğretime başvuran öğrenci sayısının kontenjan sayısından az olması, büyük ve merkezi sınavları gerekli kılmamıştır. Yetkililer lı yıllara kadar ortaöğretimle ilgili alanlarda, yazılı ve sözlü sınavlar yaparak öğrencileri seçmeye çalışmışlar, adaylara sınavlarda matematik, geometri, fen bilimleri, tarih, coğrafya, mantık, felsefe, Türkçe ve kompozisyon alanlarında sorular sormuşlardır. Cumhuriyetin ilanından sonra sosyoekonomik alandaki ilerlemeler, nüfusun giderek artmasına ve toplumdaki genç nüfusun çoğalmasına neden olmuştur. Genç Cumhuriyetimizin eğitime verdiği destekle birlikte, yükseköğretime başvuran aday sayısı artmış; yukarıda sözü edilen sınav sistemi kullanılamaz duruma gelmiştir li yıllarda yükseköğretime başvuran aday

21 8 sayısı, örneğin Siyasal Bilgiler Fakültesi için 700 kişi civarındadır. Ancak yükseköğrenim görmek isteyen kişi sayısı 1961 yılında 25 bine 1974 yılında 230 binlere, 1980 li yıllarda 470 binlere ve 1990 yılında 900 binlere yükselmiştir yılında ise kişi ve 2011 yılında kişi sınava başvurmuştur. [14] Üniversite giriş sınavına başvuru sayısının her geçen yıl arttığı görülmektedir. Üniversite giriş sınavında başarıyı etkileyen faktörler Literatür incelendiğinde, üniversite giriş sınavında başarıyı etkileyen birçok faktör bulunduğu görülmektedir [2-5]. Başarıyı etkileyen bu faktörleri ailesel faktörler, dershane ve özel ders bilgisi, okul faktörü ve bireysel faktörler olarak kategorize edebiliriz. Bu kategorilerin altındaki başarıyı etkileyebilecek faktörleri aşağıdaki gibi sıralayabiliriz: a) Aile Faktörü Ailenin sosyoekonomik düzeyi, Anne baba eğitim durumu, Anne baba mesleği, Kardeş sayısı, İkamet edilen yer, b) Okul Faktörü Okul türü, Ortaöğretim not bilgisi, İlköğretim not bilgisi, Devamsızlık bilgisi, Ağırlıklı ortaöğretim başarı puanı, Ortaöğretimde seçilen alan, Sınıf mevcudu, Öğretmen faktörü, Sosyal ve kültürel etkinlikler, c) Dershane ve Özel Ders Bilgisi

22 9 d) Bireysel Faktörler Cinsiyet, yaş, Bedensel özellikleri, özür durumu, Kitap okuma alışkanlığı, Sınav kaygısı, Sorumluluk bilinci, Motivasyon düzeyi ve amaçları, Hazır bulunma düzeyi, Çalışma düzeni, Zeka düzeyi, Özel yetenekleri, İlgileri ve algı düzeyleri Yukarıda belirtildiği gibi üniversite giriş sınavını etkileyen birçok faktör bulunmaktadır. Bu faktörler arasında başarıyı en çok etkileyenlerin öncelik sırasının belirlenmesi, önceliği en yüksek olan faktörlerin geliştirilmesi ve desteklenmesi sağlanmalıdır Veri Madenciliği Veri madenciliği, belirli bir hedef doğrultusunda, anlamlı kuralların çıkarılması, verilerin demetlenmesinin sağlanması, belirli bir sınıfa ait olup olmadığının bulunması için veri ambarındaki verilerin analiz edilmesi işlemidir. Veri tabanlarındaki kayıtlı milyonlarca veri tek başına anlamsızdır ve değerli değildir. Bu verilerden amaca yönelik bilgi çıkarımı yapıldığında, veri tabanındaki örüntüler çıkarıldığında değerli olur. Hastane bilgi sistemlerinde tutulan her hastanın klinik laboratuvar sonuçları sadece bir veridir. Bu verilerden herhangi bir hastalığın erken teşhisi yapılabilirse o zaman bu veriler anlamlı olur ve bilgiye dönüşür. Bu amaçla veriden bilgi keşfi yapılması işlemine veri madenciliği denilmektedir.

23 10 Veri madenciliği, anlamlı kuralların ve örüntülerin keşfedilmesi için büyük miktardaki verilerin araştırılması ve analiz edilmesidir [15]. Veri madenciliği bilgi keşfi veya veri tabanından bilgi keşfi (KDD), bilgi çıkarımı, veri/örüntü analizi, veri arkeolojisi ve veri eşeleme olarak da isimlendirilir [16]. KDD, daha iyi karar verebilmek için gizli desenlerin keşfedilmesi işlemidir. Veri madenciliği, KDD sürecinde sadece bir basamak olmasına rağmen literatürde veri madenciliği ve KDD aynı anlamda kullanılmaktadır. Günümüzde veri madenciliği analizi, risk yönetiminde, müşteri ilişkileri yönetiminde yaygın olarak kullanılmasıyla birlikte hemen hemen her alanda kullanılmaktadır. Veri madenciliğinin finansal, ekonomik ve banka risk yönetiminde, kriz tahmini, sahtekarlık tespiti uygulamaları gözlenmektedir [17]. Veri madenciliği anomali tespiti, birliktelik analizi, demetleme ve tahmin modellemesi gibi teknikleri içerir [15,16] Veri Madenciliği Uygulama Alanları Günümüzde veri madenciliği birçok alanda uygulanmaktadır. Fakat bu uygulamalar arasından teşhis amaçlı uygulamalar, müşteri ilişki yönetimi, web madenciliği, metin madenciliği, benzerlik korunumu, çapraz ateş uygulamalarının yaygın bir biçimde kullanıldığını görmekteyiz. Veri madenciliği uygulama alanlarından bazıları aşağıda listelenmiştir [18-22]: Perakende / Pazarlama Müşterilerin satın alma örüntülerinin tespiti, Müşterilerin demografik özellikleri arasında ilişkilendirme kurallarının bulunması, Kampanya maillerinin cevaplanma tahmini, Pazar sepeti analizi,

24 11 Müşteri ilişkileri yönetimi, Müşteri değerlendirme, Satış tahmini, Hedef pazar, müşteriler arası benzerliklerin saptanması, sepet analizi, çapraz pazar incelemesi, Risk analizi, Teknolojideki ve insanların tüketim alışkanlıklarındaki yeni trendlerin tespiti, Anlık kişi, profil, içerik analizinin yapılması ve kişiye özel reklam sistemlerinin oluşturulması, Müşterilerin, internette firmalar ve ürünleri hakkında paylaştığı görüşlerinin tespiti, Müşteri hizmetlerine yapılan aramaların veya yazılı şikayetlerin otomatik olarak gruplanması ve konunun tespit edilerek ilgili birimlere otomatik yönlendirilmesi yapılabilir. Bankacılık Sahte kredi kartı kullanımının tespiti, Sadık müşterilerin belirlenmesi, Kredi kartını değiştirme riski olan müşterilerin tahmini, Müşteri gruplarının kredi kartı harcama alışkanlıklarının belirlenmesi, Farklı finansal göstergeler arasındaki gizli korelasyonların bulunması, Geçmiş pazar verilerinden ticaret kuralları belirlenir. Sigortacılık Hizmetleri Talep analizi Yeni politikalarla satın alacak müşterilerin tahmini Riskli müşterilerin davranış örüntülerinin belirlenmesi Sahtekarlık tespitinde Müşteri kaybı sebeplerinin belirlenmesi, Usulsüzlüklerin önlenmesi, Ana giderler azaltılabilir.

25 12 Tıp / Sağlık Ofis ziyaretlerini tahmin etmek için hasta davranışlarının karakterize edilmesi, Farklı hastalıklar için başarılı tıbbi tedavilerin tanımlanması, Test sonuçlarının tahmini, Ürün geliştirme, Tedavi sürecinin belirlenmesi, DNA içerisindeki genlerin sıralarının belirlenmesi, Protein analizlerinin yapılması, Hastalık haritalarının hazırlanması, Hastalık tanıları, Sağlık politikalarına yön verilmesi, Hasta bilgi kaydı ve raporlarının analizi ve bu yolla belirli bir hastalığı tetikleyen bilinmeyen etmenlerin veya olası genetik eğilimlerin tespiti, Sağlık alanında tarama testlerinden elde edilen verileri kullanarak çeşitli kanserlerin ön tanısı, Kalp verilerini kullanarak kalp krizi riskinin tespiti, Acil servislerde hasta semptomlarına göre risk ve öncelikler tespit edilebilir. Eğitim Akademik bir çalışmanın çalıntı olup olmadığının tespiti, İsimsiz bir metnin yazarının tespiti, Öğrenci işlerinde veriler analiz edilerek öğrencilerin başarı ve başarısızlık nedenleri, Başarının arttırılması için hangi konulara ağırlık verilmesi gerektiği, Üniversite giriş puanları ile okul başarısı arasındaki bir ilişkinin var olup olmadığı belirlenebilir. İnternet / Yazılım Sitelerdeki illegal içeriğin otomatik tespiti, Spam maillerin zeki ara birimlerce ayıklanması,

26 13 Yapılması planlanan bir yazılım projesinin özelliklerinden hareketle gerekli teknik ihtiyaçların otomatik çıkarımı, Çok daha sağlıklı işleyen arama sonuçlarının ve arama motorlarının kurgulanması, Bir metnin hangi dilde yazıldığının otomatik tespiti, Şirketler bünyesindeki büyük veri setlerinin gruplanması ve veri madenciliğine uygun hale getirilmesi için kullanılabilir. Kamuya Özgü Genel ve İstihbarat Amaçlı Uygulamalar Geçmiş patentlerin analizi sonucu, yeni patent başvuruların olası benzerliklerinin tespiti ve önlenmesi, Polis vaka kayıtlarının analizi ve yeni vakalar ile eskilerinin benzerliklerinin tespiti, Şifreli yazışmaların dilin temel yapısına uygun olarak çözümlenmesine yönelik uygulamalar, Kara para aklama ve hesap hareketlerinin, şirketler arası yazışmaların incelenmesi ve tüm şebeke ve üyelerinin ortaya çıkarılması, Hukuki davaların sonuçları ile vaka özetlerinin ilişkilendirilmesi ve hakimlerin karar vermesini kolaylaştırıcı yönde benzer diğer dava sonuçlarının otomatik tespiti, Bilirkişi raporlarının semantik olarak indekslenebilmesi ve metin tabanlı örnek bilirkişi raporu aratılabilir. Bilim ve Mühendislik Ampirik veriler üzerinde modeller kurarak bilimsel ve teknik problemlerin çözümlenmesi, Yeni virüs türlerinin keşfi ve sınıflandırılması, Gen haritasının analizi ve genetik hastalıkların tespiti, Kanserli hücrelerin tespiti, Gezegen yüzey şekillerinin, gezegen yerleşimlerinin ve yeni galaksilerin keşfi yapılabilir.

27 14 Diğer Uygulama Alanları Verilen bir metinden veya haberden özet çıkarımı, Farklı kaynaklardan gelen ancak aynı konu ile ilgili haberlerin otomatik tespiti, Düzensiz veri kümelerinin düzenli hale getirilmesi, veri madenciliği içinde kullanılabilecek hale getirme, Bir metnin farklı bir dile otomatik çevrimi, Taşımacılık ve ulaşım alanlarında kullanılabilir Veri Ambarı Kavramı ve Özellikleri Veri ambarı, birçok veri tabanından karar vermeye yardımcı olacak şekilde toplanmış, ön işlemeden geçirilmiş, sadece ilk veri yüklemesinde ve veri erişimi için kullanılan veri deposudur. Veri madenciliği uygulamalarında, kurumlarda bulunan veri tabanları direkt olarak kullanılmaz. Bu verilerin veri madenciliği uygulamaları için uygun hale getirilmesi gerekir. Veri madenciliği uygulamaları için kurumların tüm veri tabanlarındaki veriler, veri ambarında toplanır. Veri ambarı kurumsal verileri içerir ve farklı kaynaklardaki verilerden oluşur. Veri madenciliği sürecinde yararlı bilgileri elde etmek için ilk ve en önemli yapılacak işlem, geçerli bir veri ambarının oluşturulmasıdır. Inmon (2005) veri ambarını, yönetimsel karar vermeye yardımcı olacak şekilde toplanmış olan konu odaklı, birleştirilmiş, zaman değişkenli ve sabit veriler topluluğu olarak tanımlamıştır [23]. Veri ambarındaki verinin taşıması gereken özellikler aşağıdaki gibi sıralanmıştır: Birleştirilmiş olması: Veri ambarı, doğru kararlar verebilmek için birçok veri kaynağındaki verilerden oluşmalıdır. Bu verilere birleştirme ve temizleme teknikleri uygulanarak farklı veri tabanlarından gelen veriler arasında tutarlılık sağlanır.

28 15 Konu odaklı olması: Veri ambarı belirli bir konuya yönelik belirlenir. Hastane veri ambarı düşünüldüğünde, hastalar, hastalık çeşitleri, klinik değerler, kanser verileri veri ambarı konusu olabilir. Zaman değişkenli olması: Veri ambarındaki veriler, geçmişte belirli bir zaman dilimine aittir. Canlı bir veri tabanına göre zaman periyodu daha uzundur. Canlı veri tabanında bilgiler güncel iken, veri ambarında geçmişe dair bilgiler sunulur. Bir veri ambarındaki verilerin zamansal olarak uzunluğu genellikle 5 ile 10 yıl arasındadır. Sabit (Kalıcı) olması: Veri ambarında, ilk veri yüklemesi yapıldıktan sonra veri güncellenmesi olmaz, sadece veri erişimi işlemlerinde kullanılır. Silme, değiştirme gibi veri tabanı işlemlerinde kullanılmaz Veri Madenciliği Uygulama Süreci Veri madenciliği sürecinin basamaklarına baktığımızda, Fayyad ile arkadaşlarının (1996) veri madenciliği uygulama basamakları ve Han ile arkadaşlarının (2005) veri madenciliği uygulama basamakları olmak üzere iki tanesi ön plana çıkmaktadır. Fayyad ve arkadaşları (1996), veri madenciliği sürecinin basamaklarını aşağıdaki gibi belirtmişlerdir [24]: Şekil 3.1. Fayyad a göre veri madenciliği sürecinde yer alan basamaklar [24].

29 16 Fayyad ve arkadaşlarının ( 1996), Şekil 3.1. deki veri madenciliği süreci aşağıdaki basamakları içermektedir [24]: a) İlk olarak, müşterilerin bakış açısı ile veri madenciliği işlem sürecinin amaçlarının tanımlanmasını ve ilişkili ön bilgiyi içerir. b) İkinci olarak, hedef veri seti oluşturulur. Veri setinin seçilmesini veya keşfin veri örneklerinin veya değişkenlerin bir alt kümesine odaklanmayı içerir. c) Üçüncü olarak, veri temizleme ve önişleme yapılır. Gürültülü verilerin kaldırılması, gürültülü veriyi açıklamak veya model oluşturmak için gerekli bilginin toplanması, eksik veri alanlarının ele alınması için stratejilerin belirlenmesi, ardışık zamanlı bilgilerin ve bilinen değişikliklerin açıklanması gibi temel işlemleri içerir. d) Dördüncü olarak, verilerin indirgenmesi işlemi yapılır. Problemin amacına bağlı olarak verileri temsil etmek için yararlı özelliklerin bulunmasını kapsamaktadır. Boyut indirgeme ve dönüşüm metotları ile göz önüne alınan değişkenlerin etkin sayısı azaltılabilir veya veriler için farklı olmayan temsiller bulunabilir. e) Beşinci olarak, veri madenciliği metodu için, veri madenciliği sürecinin hedefleri belirlenir. Örneğin, özetleme, sınıflandırma, regresyon, kümeleme vb. olacağı kararlaştırılır. f) Altıncı olarak, keşif analizi, model ve hipotezin seçimi yapılır. Veri madenciliği algoritmasının seçimini ve veri örüntülerinin araştırılması için seçilen metotların kullanılabilmesini kapsar. Bu işlem modelin ve uygun parametrelerin tanımlanmasını ve bir veri madenciliği metodu veri madenciliği sürecinin bütün kriterleriyle eşleştirilmesini içerir. g) Yedinci olarak, veri madenciliği basamağı uygulanır. Sınıflandırma kuralları veya ağaçları, regresyon ve kümelemeyi içeren belirli bir temsilinde ilgilenilen örüntülerin aranmasını içerir. h) Sekizinci olarak, örüntüler yorumlanır. Muhtemelen 1 ile 7 arasındaki basamaklardan herhangi birine dönülmesini içerir. Bu adım çıkarılan modelin ve örüntülerin görselleştirilmesini içermektedir. i) Dokuzuncu olarak, keşfedilen bilginin kullanılması basamağıdır. Başka bir işlem için başka bir sisteme bilgi içeren ya da basitçe belgelenmesi ve ilgili taraflara

30 17 raporlanması için bilgilerin direkt kullanılmasıdır. Bu işlem, inanılan bilgi ile potansiyel uyuşmazlıkların giderilmesini ve kontrol edilmesini içerir. Veri madenciliği uygulama süreci, 7. Adım olan veri madenciliği üzerinde odaklanmıştır. Ancak diğer adımlarda, başarılı bir veri madenciliği uygulamasında önemlidir. Han ve arkadaşları (2005) da veri madenciliği sürecinin basamaklarını aşağıdaki gibi belirtmişlerdir [16]: Şekil 3.2. Han a göre veri madenciliği sürecinde yer alan basamaklar [16]. Han ve arkadaşlarının (2005), Şekil 3.2. de gösterilen veri madenciliği sürecinin basamakları aşağıdaki adımları içerir [16]: a) Veri temizleme basamağı, gürültülü ve tutarsız verilerin çıkarılmasıdır. b) Veri bütünleştirme basamağı, birçok veri kaynağının bir araya getirilmesidir. c) Veri seçme basamağında, yapılacak analiz ile ilgili olan veriler belirlenir.

31 18 d) Veri dönüşümü basamağında, verinin veri madenciliği yöntemine uygun dönüşümü gerçekleştirilir. e) Veri madenciliği basamağında verilerdeki örüntülerin belirlenmesi için veri madenciliği yöntemleri uygulanır. f) Model değerlendirme basamağında, bazı ölçütlere göre elde edilmiş ilginç örüntüler bulunur ve değerlendirilir. g) Bilgi sunumu basamağında, madenciliği yapılmış elde edilen bilgilerin kullanıcılara sunumu gerçekleştirilir. Her iki veri madenciliği süreci basamaklarına baktığımızda benzerlik gösterdiğini ve veri madenciliğinin, veri madenciliği sürecinde bir basamak olduğu gözükmektedir. Veri madenciliği, veri madenciliği sürecinin önemli bir kısmını oluşturmaktadır. Yukarıdaki veri madenciliği sürecinde bulunan basamaklar incelendiğinde, veri madenciliği sürecinde bulunan basamaklar aşağıdaki şekilde ifade edilebilir: Problemin tanımlanması Veri önişleme aşaması Veri temizleme Veri bütünleştirme Veri dönüştürme Veri azaltma Model değerlendirme aşaması Bilginin sunumu aşaması Problemin tanımlanması Veri madenciliği uygulamalarında başarılı olabilmek için, problemin tanımlanması aşamasında projenin hangi sektörde kullanılacağının, proje amacının, projenin sonunda gerçekleştirilmek istenen hedeflerin ve elde edilecek sonuçların nasıl değerlendirileceğinin belirlenmesi gerekmektedir.

32 19 Bu aşamada veri madenciliği çalışmasındaki amaçlar, kısıtlamalar, gereksinimler, elde edilecek sonuçların nasıl değerlendirileceği ve belirlenen hedeflere ulaşmak için izlenecek stratejiler oluşturulur Veri önişleme Veri ambarı oluşturma işlemi sadece çeşitli veri tabanlarından, bilgi kaynaklarından alınan bilgilerin birleştirilmesi işlemi değildir. Bununla birlikte birleştirilen veriler içerisinde var olan eksik bilgilerin tamamlanması, sapan verilen ayıklanması, tekrarlı ve gürültülü verilerin temizlenmesi aşamasıdır. Bu aşamaya veri önişleme denir. Veri önişleme, veri madenciliği kalitesini artırır, verimliliği artırır ve işlemleri kolaylaştırır. Veri önişleme basamakları şu şekilde sıralanabilir [16]: a) Veri Temizleme b) Veri Birleştirme c) Veri Dönüştürme d) Veri İndirgeme Veri temizleme Veri temizleme işlemi, eksik verilerin doldurulması, sapan verilerin tespiti ve verilerdeki tutarsızlıkların giderilmesi işlemlerini içermektedir. Sapan veriler tamamen atılır. Eksik veriler doldurulurken, verinin kategorik veya nümerik olması durumuna dikkat edilmelidir. Eğer eksik veri kategorik bir veri ise, eksik değer, k gibi genel bir değerle doldurulabilir veya Regresyon analizi veya Kümeleme analizi yapılarak en uygun değerle doldurulabilir. Fakat niteliğe ait eksik veri sayısı fazla ise, nitelik veri tabanından çıkarılmalıdır. Eksik veri nümerik bir veri ise, eksik verilerin doldurulması için farklı yöntemlerden bazıları aşağıda açıklanmaktadır [25]: a) Eksik değer içeren kayıtlar atılabilir.

33 20 b) Niteliğin diğer örneklemlerdeki ortalaması ile eksik değer doldurulabilir. c) Niteliğin, aynı sınıfa ait tüm örneklemlerin ortalaması ile eksik değer doldurulabilir. d) Eksik değer, Regresyon analizi veya Kümeleme analizi yapılarak en uygun değerle doldurulabilir. Veri birleştirme (Veri bütünleştirme) Veri bütünleştirme işlemi, veri tabanlarından, çeşitli bilgi kaynaklarından gelen verilerin birleştirilmesi, artık verilerin kaldırılmasıdır. Farklı veri tabanlarındaki verilerin tek bir veri tabanında birleştirilmesiyle şema birleştirme hataları oluşur. Örneğin, bir veri tabanında girişler tüketici-id şeklinde yapılmışken, bir diğerinde tüketici-numarası şeklinde olabilir. Bu tip şema birleştirme hatalarından kaçınmak için meta veriler kullanılır. Veri tabanları ve veri ambarları genellikle meta veriye sahiptirler. Meta veri, veriye ilişkin veridir [26]. Veri birleştirmede önemli bir konu da indirgemedir. Bir değişken, başka bir tablodan türetilmişse fazlalık olabilir. Değişkenlerdeki tutarsızlıklar da, sonuçta elde edilen veri kümesinde fazlalıklara neden olabilir. Bu fazlalıklar Korelasyon analizi ile araştırılabilir. Örneğin, yukarıda da bahsedilen tüketici-id ile tüketici-numarası korelasyon katsayısı bulunabilir. Eğer bulunan korelasyon katsayısı yüksek bulunuyorsa, değişkenlerden biri veri tabanından çıkarılarak indirgeme yapılabilir [26]. Artık verilerin kaldırılmasında en çok kullanılan teknikler, Korelasyon analizi ve Chi-Square testidir. Veri dönüştürme (Veri değiştirme) Veriyi daha anlaşılabilir hale getirmek için, verinin normalize edilmesi ve genelleme işleminin yapılmasıdır.

34 21 Veri matrisinde değişkenlerin ortalama ve varyansları birbirinden çok farklı olduklarında, büyük ortalama ve varyansa sahip değişkenler diğer etkinliklerini göreceli olarak azaltmaktadırlar. Bazen değişkenlerin aşırı uçlarda yer alan değerleri olumsuz etkilerde bulunmaktadır. Bu gibi durumlarda verilerin standardize ya da belirli aralıklarda gözlenen değerlere dönüştürülmesi edilmesi uygun olmaktadır. Bu tür veriler ölçeklenmiş veriler olarak alınırlar [27]. Verilerin standardize edilmesi ya da belirli aralıklara dönüştürülmesi için birçok yöntem bulunmaktadır. Bu yöntemler; z skorlarına dönüştürme, -1 X +1 aralığına dönüştürme, 0 X 1 dönüştürme, maksimum değer 1 olacak şekilde dönüştürme, ortalama 1 olacak şekilde dönüştürme ve standart sapma 1 olacak şekilde dönüştürme gibi yöntemlerdir [27]. Veriler normalize edilirken en çok kullanılan tekniklerin başında z-score veya min max teknikleri gelir. Z skorlarına dönüştürme oransal ya da aralıklı ölçekle elde edilen ve normal dağılım gösterdiği varsayılan verilere uygulanan ve en çok tercih edilen bir dönüştürme yöntemidir [27]. Değerler z i = biçiminde z skorlarına dönüştürülür. Formülde değerlerin aritmetik ortalaması, S standart sapmasını temsil etmektedir. Min Max tekniğinde yani verilerin 0 X 1 aralığına dönüştürme işleminde, heterojen yapıda değerlerin ve aşırı uçlarda değerlerin yer aldığı durumlarda değerleri pozitif ve 0 1 aralığında değişecek biçime dönüştürmek için tercih edilen bir dönüştürme yöntemidir. Dizide en büyük değer Xmax, en küçük değer Xmin olmak ve değişim genişliği (range) R = Xmax Xmin olarak hesaplanmaktadır. Min Max dönüştürme işlemi X i = biçiminde yapılır.

35 22 Veri indirgeme (Veri azaltma) Veri indirgeme teknikleri, daha küçük hacimli olarak ve veri kümesinin indirgenmiş bir örneğinin elde edilmesi amacıyla uygulanır. Bu sayede elde edilen indirgenmiş veri kümesine veri madenciliği teknikleri uygulanarak daha etkin sonuçlar elde edilebilir [26]. Veri azaltma öznitelik seçme, öznitelik çıkarma, boyut küçültme ve verinin bütünleştirilmesi işlemleridir. Veri madenciliği uygulamalarında, problemin çözümünü etkileyen çok sayıda özellik bulunduğundan, sonucu en fazla etkileyenlerin bulunması (öznitelik seçimi) problemi ortaya çıkmaktadır. Bu kısımda, öğrenci veri ambarında bulunan nitelikler arasından öznitelik seçme ve öznitelik çıkarımı işlemleri yapılmaktadır. Öznitelik çıkarımı ve öznitelik seçimi işlemleri Veriye ait birçok özellikten verinin kümesini, sınıfını, değerini belirleyen özelliklerinin hangileri olduğu bilinmeyebilir. Bu durumlarda tüm özellik kümesinin bir alt kümesi seçilir (özellik seçimi) ya da bu özelliklerin birleşimlerinden yeni özellikler elde edilir [28]. Öznitelik, örüntülerden elde edilen, ölçülebilen veya gözlemlenebilen değerlerdir. Öznitelik seçilirken hangi öznitelikler ayırt ediciyse bu öznitelikler seçilir. Veri madenciliği, örüntü tanıma, makine öğrenmesi uygulamalarında, örneklem sayısı ve nitelik sayısı çok önemlidir. Genellikle sınıflayıcının doğru karar vermesinde, örneklem ve nitelik sayısı ne kadar artarsa o kadar doğru sonuç vereceği düşünülse de, hatanın artması ile makinenin aşırı öğrenme olasılığından dolayı, hem örneklem sayısı hem de nitelik sayısı optimum sayıda olması etkendir. Nitelikler içinden, optimum sayıya ulaşmak, işlem karmaşıklığını azaltmak, daha kısa sürede sonuca ulaşmak, hesaplama hata olasılığını düşürmek ve daha doğru genelleme yapabilmek için öznitelik seçme işlemi yapılmaktadır.

36 23 Öznitelik seçme işlemi, boyut indirgemek için yapılır. Öznitelik seçiminde, öznitelikler ayırt edici ise seçilir. Öznitelik sayısı, en az sınıf sayısı kadar olmalıdır. Literatürde örnek sayısı ve öznitelik sayısı arasında doğrudan bir ilişki formülü olmaması ile birlikte, genelde örneklem sayısı (N), öznitelik sayısının (l) üç katı civarındadır. N/l oranının 2 ile 10 arasında olması gerektiğine dair görüşler de bulunmaktadır. Öznitelik seçimi yapılırken; mevcut nitelikler arasından bazılarını seçebilir veya mevcut özelliklerin lineer birleşimlerinden yeni öznitelikler çıkarma işlemi yapılır. Öznitelik seçme işlemi yapılırken, WEKA yazılımı içinde yer alan öznitelik seçme metotlarından en çok kullanılanları ReliefFAttributeEval, InfoGainAttributeEval, GainRatioAttributeEval, SymmetricalUncertAttributeEval, OneRAttributeEval, ChiSquaredAttributeEval algoritmalarıdır [29]. Öznitelik çıkarımı, mevcut özniteliklerin lineer birleşimlerinden yeni bir öznitelik uzayı oluşturulması ve verilerin bu uzayda ifade edilmesidir. Öznitelik çıkarımı işlemi için, Bağımsız Bileşen Analizi, Ayrık Zaman Dalgacık Dönüşümü, Tekil Değer Ayrıştırma ve Temel Bileşen Analizi en çok kullanılan analizlerdir Model değerlendirme aşaması Veri önişleme basamağından sonraki adım modelleme basamağıdır. Modelleme kısmında veri madenciliği modeli ve bu model içinde yer alan algoritmalardan, uygun olan algoritmanın seçimi yapılır. Algoritma seçimi yapılırken, veri seti üzerinde farklı algoritmalar denenerek oluşturulan modellerin başarım ölçütleri yüksek olan algoritma seçilir. Daha sonra seçilen algoritma veri seti üzerinde çalıştırılarak, çıkarılan örüntüler yorumlanır. Modelleme aşaması, denetimli ve denetimsiz öğrenme modeline göre farklılık gösterir. Denetimsiz öğrenmede veriler arasındaki benzerlikten yararlanılarak sınıf bilgisi tanımlanmaktadır. Denetimli öğrenmede ise sınıf bilgisi daha önceden bellidir

37 24 ve verilerin hangi sınıfa ait olduğu tahmin edilir. Kümeleme algoritmaları denetimsiz öğrenmeye, sınıflandırma algoritmaları denetimli öğrenmeye örnek verilebilir. Denetimli öğrenimde kullanılacak algoritma seçildikten sonra, veri kümesi eğitim veri seti ve test veri seti olarak ikiye ayrılır. Eğitim verisi modelin öğrenmesi ve test verisi modelin geçerliliğinin test edilmesi için kullanılmaktadır. Modelin öğrenmesi, eğitim seti kullanılarak gerçekleştirildikten sonra, test kümesi ile modelin doğruluk derecesi belirlenir. Modelin doğruluk derecesi belirlenirken bazı yöntemler kullanılmaktadır. Bu yöntemlerden bazıları aşağıda özetlenmiştir: Geçerlilik yöntemi (Simple Validation): Oluşturulan modelin doğruluğunun test edilmesinde kullanılan en basit yöntem basit geçerlilik yöntemidir. Bu yöntemde tipik olarak verilerin % 5 ile % 33 arasındaki bir kısmı test verileri olarak ayrılır. Geriye kalan kısmı üzerinde algoritmalar uygulanarak, modelin öğrenimi gerçekleştirilir. Test verileri ile test işlemi yapılır. Bir sınıflama modelinde yanlış olarak sınıflanan olay sayısının, tüm olay sayısına bölünmesi ile hata oranı, doğru olarak sınıflanan olay sayısının tüm olay sayısına bölünmesi ile ise doğruluk oranı hesaplanır (Doğruluk Oranı = 1 - Hata Oranı) [21]. Çapraz geçerlilik (Cross Validation): Sınırlı miktarda veriye sahip olunması durumunda çapraz geçerlilik yöntemi kullanılabilir. Bu yöntemde veri kümesi rastgele olarak iki eşit parçaya ayrılır. İlk aşamada a parçası üzerinde model eğitimi ve b parçası üzerinde test işlemi; ikinci aşamada ise b parçası üzerinde model eğitimi ve a parçası üzerinde test işlemi yapılarak elde edilen hata oranlarının ortalaması kullanılır [21]. K- Kat çapraz geçerleme (K-Fold Cross Validation): Bir kaç bin veya daha az satırdan meydana gelen küçük veri tabanlarında, verilerin k gruba ayrıldığı k katlı çapraz geçerlilik yöntemi kullanılabilir. Veri seti rastgele k adet gruba ayrılır. Literatürü incelediğimizde, genellikle n değerinin 10 olarak seçildiği görülmektedir. Bu yöntemde, ilk aşamada birinci grup test, diğer gruplar öğrenim için kullanılır. Bu süreç her defasında bir grubun test, diğer grupların öğrenim amaçlı kullanılması ile

38 25 sürdürülür. Sonuçta elde edilen on hata oranının ortalaması, kurulan modelin tahmini hata oranı olacaktır [21]. BootStrapping: Bootstrapping küçük veri kümeleri için modelin hata düzeyinin tahmininde kullanılan bir başka tekniktir. Çapraz geçerlilikte olduğu gibi model bütün veri kümesi üzerine kurulur. Veri kümesinden yerine koyma yöntemi ile örnekler seçilerek öğrenme kümesi oluşturulur. İşlem genellikle 200 ile 1000 arası tekrarlanır ve elde edilen performans değerlerinin ortalaması model değerlendirilir [21, 30]. Holdout yöntemi: Belli sayıda örnek test veri seti için ayrılır, geriye kalan örnekler eğitim veri seti olarak kullanılır. Genelde veri kümesinin 2 / 3 ü eğitim veri seti, 1/3 i test veri seti olarak ayrılır. Eğitim veri seti kullanılarak model oluşturulur ve test veri seti kullanılarak model değerlendirilir. Eğer veri dağılımı dengeli ise, veri setindeki örnek sayısı ve her sınıfa ait örnek sayısı fazla ise holdout yöntemi kullanılabilir [30]. Model başarım ölçütleri Veri madenciliği uygulama sürecinde sınıflandırma, kümeleme veya birliktelik kuralı çıkarma uygulamalarında kullanılan algoritmaların performansını ölçmek ve en iyi performansı gösteren algoritmayı seçmek gerekir. MUC (Message Understanding Conference) tarafından kullanılması tavsiye edilen bazı ölçütler bulunmaktadır. MUC tarafından da kullanımı tavsiye edilen ölçütler, ilk olarak istatistiksel başarımın hesaplanması amacıyla kullanılmışlardır. İki sınıfa ayrılmış bir veri kümesi içerisinde yapılan veri ayrıştırma işlemi sonucunda ortaya bir karışıklık matrisi çıkmaktadır. Bu matris içerisinde dört durum oluşmaktadır. Bu durumlar Çizelge 3.1. de verilmiştir [ 31]:

39 26 Çizelge 3.1. Karışıklık matrisi Tahmin Edilen Sınıf Sınıf=1 Sınıf=0 Sınıf=1 TP FP Gerçek Sınıf Sınıf=0 FN TN Çizelge 3.1. de TP (True Positive) ve TN (True Negative) ile gösterilen sayılar sınıfları doğru tahmin edilen, FP (False Positive) ve FN (False Negative) ile gösterilen sayılar ise sınıfları yanlış tahmin edilen örneklerin sayılarını göstermektedir. FP ye 1. Tip hata (type I error), FN ye de 2. tip hata (type II error) denir [ 31]. TP, sınıflandırıcı tarafından 1.sınıfına atanan birimlerden gerçekte 1. sınıfına ait olanların oranını gösterir. FP, sınıflandırıcı tarafından 1. sınıfına atandığı halde gerçekte 1. sınıfına ait olmayan birimlerin oranını gösterir. Karışıklık matrisi (Confusion matrix), yakınsaklık matrisi olarak da adlandırılır. Doğru olarak sınıflandırılan örneklerin sayısı bu matrisin diyagonal elemanlarının toplamına eşittir [32]. Karışıklık matrisinden elde edilen bu sayılarla çeşitli ölçütler hesaplanır. Bunlardan doğruluk (accuracy) ölçütü, tüm veri içinde doğru tahmin edilenlerin oranını ölçmeye imkan tanır. Bütün hata tiplerini dikkate alarak, pozitif ve negatif örnekleri aynı derecede önemsemeyi sağlar. Sınıflandırıcının toplam performansını değerlendirmeye yardımcı olur. Fakat doğruluk ölçütü, veri kümesinde dengesiz dağılım var ise yeterli olmamaktadır. Bu durumda kullanılan kesinlik (recall) ve duyarlılık (precision) ölçütleri, sırasıyla, pozitif örneklerin negatif olarak sınıflandırılmasından oluşan hatalar ile negatif örneklerin pozitif olarak sınıflandırılmasından oluşan hataları belirtirler. F-ölçütü (f-measure) geri çağırım ve duyarlılık ölçütlerini, her ikisinin armonik ortalamasını alarak birleştirir [32].

40 27 ğ ı ı ğ ı ı ı ı ı ı ı ğ ı ı ı ı ı (3.1) ı ı ı ğ ö ı ı ı ö ı ı (3.2) (3.3) Ö çü ü ı ı ı ı (3.4) Algoritmaların performans değerlendirmesi için, MUC tarafından tavsiye edilen en temel model başarım ölçütleri; doğruluk oranı, kesinlik, duyarlılık ve f ölçütüdür. Modelin başarısı ölçülürken, yukarıda verilen doğruluk, duyarlılık, kesinlik ve F ölçütlerinin dışında, ayrıca ROC area değeri ve kappa istatistiği de ölçüt olarak kullanılabilir. Kappa istatistiği, yapılan tahminin doğruluk ölçüsüdür. Doğruluk ölçütüne alternatif olarak, kappa istatistiği de kullanılabilir. Kappa istatistik değeri 1 e yaklaştığında tesadüfün ötesinde bir uyum olduğunu, 0 a yaklaştığında ise uyumsuzluğun olduğunu gösterir. Landis ve Koch (1977), kappa istatistik değerinin 0,4 ün üzerinde olması durumunda ölçümün tesadüfi olmadığını, uyum kabul edilebileceğini, kappa istatistik değerinin 0,6 ile 0,8 arasında olması önemli bir derecede uyum olduğunu, 0,8 ile 1 arasında olması ise neredeyse mükemmel bir uyumun olduğunu gösterdiğini söylemektedir [33].

41 28 Veri madenciliği uygulamalarında kappa istatistiği, sınıflandırma algoritmasının doğruluğu ile tesadüfî tahminde bulunan rastgele bir sınıflandırma algoritmasının doğruluğunun karşılaştırılması amacıyla kullanılmaktadır. ROC eğrisi, TP ve FP değerleri kullanılarak düzenlenen bir grafiktir. ROC area değerinin de, kappa istatistik değeri gibi 1 e yakın olması istenir Bilginin sunumu aşaması Veri madenciliği algoritması veriler üzerinde uygulandıktan sonra, sonuçlar düzenlenerek ilgili yerlere sunulur. Sonuçlar çoğu kez grafiklerle desteklenir. Örneğin bir hiyerarşik kümeleme modeli uygulanmış ise sonuçlar dendrogram adı verilen özel grafiklerle sunulur [25] Veri Madenciliği Modelleri Veri madenciliği konusunda çok sayıda yöntem ve algoritma geliştirilmiştir. Bu yöntemlerin birçoğu istatistiksel tabanlıdır. Veri madenciliği modellerini temel olarak şu şekilde gruplandırabiliriz [25]: a) Sınıflandırma b) Kümeleme c) Birliktelik Kuralları Veri madenciliği modelleri ve en çok kullanılan algoritmalar Şekil 3.3. de gösterilmiştir:

42 29 Veri Madenciliği Modelleri Sınıflandırma Naive Bayes Algoriması Karar Ağaçları Algoritmaları En yakın Komşu Algoritması Yapay Sinir Ağları Genetik Algoritma Karar Destek Makineleri Kümeleme K-Means Algoritması K-Medoid Algoritması EM Algoritması OPTICS Algoritması DBSCAN Algoritması CobWeb Algoritması Birliktelik Kuralları Apriori Algoritması FP Tree Algoritması GRI(The Generalized Rule Induction) Şekil 3.3. Veri madenciliği modelleri ve algoritmalar Sınıflandırma Sınıflama veri madenciliğinde sıkça kullanılan bir yöntem olup, veri tabanlarındaki gizli örüntüleri ortaya çıkarmakta kullanılır. Verilerin sınıflandırılması için belirli bir süreç izlenir. Öncelikle var olan veri tabanının bir kısmı eğitim amacıyla kullanılarak sınıflandırma kurallarının oluşturulması sağlanır. Daha sonra bu kurallar yardımıyla yeni bir durum ortaya çıktığında nasıl karar verileceği belirlenir [25]. Geçmiş bilgilerin hangi sınıflara ait olduğu verilir ve yeni gelen verinin hangi sınıfa dahil olduğu bulunur. Örnek olarak iki tahlil sonucuna göre bir kişinin hasta olup olmadığı belirlenmeye çalışılırsa önceki hasta ve sağlam kişilerin tahlil sonuçları kullanılır [28]. Her veri kümesinde mükemmel çalışan bir algoritma olmadığından birçok sınıflandırma algoritması geliştirilmiştir. Sınıflandırma algoritmalarından en çok kullanılanlar; Karar Ağaçları Algoritması, Bayes Sınıflandırıcılar ve Bayes Ağları, En Yakın Komşu Algoritması, Destek Vektör Makineleri, Yapay Sinir Ağları ve Genetik Algoritmalarıdır. Bu tez kapsamında, Bayes Sınıflandırıcısı kullanılmıştır.

43 30 Sınıflandırma uygulamalarına; kredi kartı harcamasının sahtekarlık olup olmadığına karar verilmesi, kredi başvurularının değerlendirilmesi, yazı tanıma, ses tanıma, akademik bir çalışmanın çalıntı olup olmadığının tespiti, kanserli hücrelerin tespiti, isimsiz bir metnin yazarının tespiti gibi örnekler verilebilir. Sade Bayes sınıflandırıcısı (Naive Bayes sınıflandırıcısı) Sade Bayes sınıflandırıcısı ya da kısaca Bayes Sınıflandırıcısı kavramını şu şekilde açıklayabiliriz [25]: X sınıf üyeliği bilinmeyen veri örneği olsun. Örnek X{x 1, x 2 x n } nitelik değerlerinden oluşsun. Bu örnek sınıfta m sınıf olduğunu varsayalım. C 1, C 2 C n sınıf değerleri olsun. Sınıfı belirlenecek olan örneğe ilişkin olarak, P(X C i ) P(C i ) P(C i X) = (3.5) olasılıkları hesaplanır. Hesaplamalardaki işlem yükünü azaltmak üzere P(X C i ) olasılığı için basitleştirme yoluna gidilebilir. Bunun için, örneğe ait X i değerlerinin birbirinden bağımsız olduğu kabul edilerek şu bağıntı kurulabilir: P(X C i ) = P( X k C i ) (3.6) =1 Bilinmeyen örnek X i sınıflandırmak için (3. 5) de P(C i X) içinde yer alan paydalar birbirine eşit olduğuna göre sadece pay değerlerinin karşılaştırılması yeterlidir. Bu değerler içinden en büyük olanı seçilerek bilinmeyen örneğin bu sınıfa ait olduğu belirlenmiş olur. arg max {P(X C i ) P(C i ) } (3.7) Ci

44 31 Sonrasal olasılıkları kullanan yukarıdaki ifade, en büyük sonrasal sınıflandırma yöntemi ( Maximum A Posteriori Classification = MAP) olarak ta bilinir. O halde sonuç olarak (3.6) dan dolayı, Bayes sınıflandırıcısı olarak aşağıdaki bağıntı kullanılabilir: C MAP = argmax P( X k C i ) (3.8) C =1 Naive Bayes sınıflandırıcı, Bayes karar teorisine dayanan olasılıksal bir sınıflandırıcıdır. Naive Bayes sınıflandırıcısında; niteliklerin hepsinin aynı derecede önemli olduğu, niteliklerin birbirinden bağımsız olduğu ve bir nitelik değerinin başka bir nitelik değeri hakkında bilgi içermediği kabul edilir. Naive Bayes sınıflandırıcısının çoğu durumda iyi sonuç vermesi, gerçekleşmesinin kolay olması yüksek doğruluk, kesin ve hızlı sonuçlar üretmesi, algoritmanın basit ve anlaşılabilir olması avantajları arasında sayılabilir. Gerçek hayatta değişkenler birbiri ile bağımlıdır. Bu nedenle niteliklerin birbirinden bağımsız olduğu varsayımına dayanması Naive Bayes sınıflandırıcısının dezavantajıdır. Naive Bayes algoritmasının tez kapsamında kullanılması nedeniyle aşağıda Naive Bayes algoritması bir örnek üzerinde açıklanmıştır [25]: Çizelge 3.2. Eğitim veri seti Başvuru Eğitim Yaş Cinsiyet Kabul 1 ORTA YAŞLI ERKEK EVET 2 İLK GENÇ ERKEK HAYIR 3 YÜKSEK ORTA KADIN HAYIR 4 ORTA ORTA ERKEK EVET 5 İLK ORTA ERKEK EVET 6 YÜKSEK YAŞLI KADIN EVET 7 İLK GENÇ KADIN HAYIR 8 ORTA ORTA KADIN EVET

45 32 Yukarıdaki eğitim kümesini ele alarak, Bayes sınıflandırıcılarını kullanmak suretiyle aşağıdaki örneğin hangi sınıfa ait olduğunu belirlemek istiyoruz. X 1 : EĞİTİM = YÜKSEK, X 2 : YAŞ = ORTA, X 3 : CİNSİYET = KADIN, KABUL =? Bayes olasılıklarını hesaplamak amacıyla Çizelge 3.3. ü düzenliyoruz. Çizelge 3.3. Eğitim veri seti kriterlerine ait frekanslar KABUL Nitelikler Değeri EVET HAYIR Sayısı Olasılık Sayısı Olasılık EĞİTİM İLK 1 1/5 2 2/3 ORTA 3 3/5 0 0 YÜKSEK 1 1/5 1 1/3 YAŞ GENÇ /3 ORTA 3 3/5 1 1/3 YAŞLI 2 2/5 0 0 CİNSİYET ERKEK 3 3/5 1 1/3 KADIN 2 2/5 2 2/3 Bayes sınıflandırmasını gerçekleştirmek için her bir hipotez için Bayes olasılıkları tek tek hesaplanır. C1: KABUL = EVET C2: KABUL = HAYIR olmak üzere ve ifadelerini hesaplamamız gerekiyor. Söz konusu ifadeler içinde en büyük olası bize örneğin sınıfını verecektir.

46 33 a. olasılığının hesaplanması Burada P(X KABUL=EVET) koşullu olasılığını hesaplamak gerekiyor. Söz konusu olasılığı bulmak için X= {X1, X2,..,Xn} değerleri için ayrı ayrı koşullu olasılıkları bulmak gerekmektedir. P(X1 C1) = P(EĞİTİM = YÜKSEK KABUL = EVET) = 1 P(X2 C1) = P(YAŞ= ORTA KABUL = EVET) = P(X3 C1) = P(CİNSİYET = KADIN KABUL = EVET) = O halde; P(X C1) = P(X KABUL = EVET) =( 1 ) ( ) ( )= 1 hesaplanır. Diğer taraftan P(X KABUL = EVET) olasılığı şu şekilde elde edilir: P(C1) = P(KABUL=EVET) = Böylece, P(X C1)P(C1)= P(X KABUL=EVET)P(KABUL=EVET) = ( 1 ) ( ) elde edilmiş olur. b. olasılığının hesaplanması Burada önce P(X C2) olasılığını hesaplamak gerekiyor. Yani P(X KABUL=HAYIR) olasılığı hesaplanacaktır. X in her bir değeri için aşağıdaki hesaplamalar yapılır: P(X1 C2) = P(EĞİTİM = YÜKSEK KABUL = HAYIR) = 1 P(X2 C2) = P(YAŞ= ORTA KABUL = HAYIR) = 1 P(X3 C2) = P(CİNSİYET = KADIN KABUL = HAYIR) =

47 34 Bu değerler kullanılarak şu hesaplama yapılır: P(X C2) = P(X KABUL = HAYIR) =( 1 ) ( 1 ) ( )= Bunun dışında P(X KABUL = HAYIR) olasılığı şu şekilde elde edilir: P(C2) = P(KABUL=HAYIR) = olduğundan şu hesaplama yapılabilir: P(X C1)P(C1)= P(X KABUL=HAYIR)P(KABUL=HAYIR) = ( ) ( ) c. Sonuç MAP yöntemine göre sınıflandırmayı yapmak üzere argmax ci P(P(X C i )P(C i ) değerini bulabiliriz. argmax ci { P(P(X C i )P(C i )} = max {0.03,0.027} = 0.03 O halde örneğin 0.03 olasılığı ile ilgili olan sınıfa, yani EVET sınıfına ait olduğu anlaşılır. Naive Bayes algoritmasında olasılığın sıfır olması Naive Bayes sınıflandırma algoritmasında, her bir olasılık değerinin sıfırdan büyük olması gerekir, aksi takdirde bütün olasılık sıfır olur. Olasılığın sıfır olması durumunu, önlemek için k gibi küçük bir değer her orana eklenir. Her bir oranına k sayısının ilave edilmesiyle bağıntısı elde edilir. Burada k ilave edilecek sayı, p ise 0 sorununa neden olan kriterin farklı değer sayısıdır [25]. Eklenen sayı, veri seti büyük olduğu için çok fark etmez.

48 Kümeleme Kümeleme analizi, sınıflandırmada olduğu gibi sahip olunan verileri gruplara ayırma işlemidir. Sınıflandırma işleminde, sınıflar önceden belirli iken kümelemede sınıflar önceden belirli değildir. Verilerin hangi kümelere ve kaç değişik gruba ayrılacağı eldeki verilerin birbirlerine olan uzaklığa göre belirlenir. Kümeleme analizi biyoloji, tıp, antropoloji, pazarlama, ekonomi ve telekomünikasyon gibi birçok alanda kullanılmaktadır [34]. Kümeleme analizi; birimleri, değişkenler arası benzerlik ya da farklılıklara dayalı olarak hesaplanan bazı ölçülerden yararlanarak homojen gruplara bölmek belirli prototipler tanımlamak amacıyla kullanılır [27]. Kümeleme analizinin uygulama aşamaları aşağıdaki gibi verilebilir [27]: a) Birim ya da değişkenlerin doğal sınıflamaları hakkında kesin bilgilerin bulunmadığı popülasyonlardan alınan n sayıda birimin p sayıda değişkenine ilişkin gözlemlerin elde edilir. (Veri matrisinin belirlenmesi) b) Birimlerin / değişkenlerin birbirleri ile olan benzerliklerini ya da farklılıklarını gösteren uygun bir benzerlik ölçüsü ile birimlerin/ değişkenlerin birbirlerine uzaklıklarının hesaplanır. (Benzerlik ya da farklılık matrislerinin belirlenmesi) c) Uygun kümeleme yöntemi (algoritma) yardımı ile benzerlik ve farklılık matrislerine göre birimlerin / değişkenlerin uygun sayıda kümelere ayrılması d) Elde edilen kümelerin yorumlanması ve bu kümeleme yapısına dayalı olarak kurulan hipotezlerin doğrulanması için gerekli analitik yöntemler uygulanır. Kümeleme analizinde en çok kullanılan algoritmalar; K-Means, K-Medoids, OPTICS, DBSCAN, CobWeb algoritmalarıdır. Kümeleme analizi; diğer veri madenciliği uygulamaları için veri önişleme de verinin azaltılması için kümeleme merkezinin kullanılması ve veri setinin dağılımını anlamak için kullanılabilir. Ayrıca Kümeleme analizi; doküman demetlenmesi, kullanıcı ve kullanıcı davranışlarını demetlenmesi, sapan verilerin belirlenmesi için de kullanılabilir.

49 Birliktelik kuralları Birliktelik kuralları, veri seti içindeki yaygın örüntülerin ve nesneleri oluşturan öğeler arasındaki ilişkilerin çıkarılması işlemidir. Birliktelik kurallarının kullanıldığı en tipik örnek market sepeti uygulamasıdır. Bu işlem, müşterilerin yaptıkları alışverişlerdeki ürünler arasındaki birliktelikleri bularak müşterilerin satın alma alışkanlıklarını analiz eder. Bu tip birlikteliklerin keşfedilmesi, müşterilerin hangi ürünleri bir arada aldıkları bilgisini ortaya çıkarır ve market yöneticileri de bu bilgi ışığında daha etki satış stratejileri geliştirebilirler. Örneğin bir müşteri süt satın alıyorsa, aynı alışverişte sütün yanında ekmek alma olasılığı nedir? Bu tip bir bilgi ışığında rafları düzenleyen market yöneticileri ürünlerindeki satış oranını arttırabilirler. Örneğin bir marketin müşterilerinin süt ile birlikte ekmek satın alan oranı yüksekse, market yöneticileri süt ile ekmek raflarını yan yana koyarak ekmek satışlarını arttırabilirler [35]: Sepet analizinde amaç alanlar arasındaki ilişkileri bulmaktır. Bu ilişkilerin bilinmesi şirketin kârını arttırmak için kullanılabilir. Eğer X malını alanların Y malını da çok yüksek olasılıkla aldıklarını biliyorsanız ve eğer bir müşteri X malını alıyor ama Y malını almıyorsa o potansiyel bir Y müşterisidir. Eğer elimizdeki veride mallar için sadece satın alındı/alınmadı bilgisi varsa, sepet analizinde mallar arasındaki bağıntı, destek ve güven kıstasları aracılığıyla hesaplanır. İki mal, X ve Y, için destek ve güven tanımları şöyledir [36]: Destek: ı ı ı ış üş ı ı üş ı ı (3. 9) Güven: ı ı ı ış üş ı ı ı ı ı ış üş ı ı (3.10) Destek veride bu bağıntının ne kadar sık olduğunu, güven de Y malını almış bir kişinin hangi olasılıkla X malını alacağını söyler. Bağıntının önemli olması için her iki değerin de olabildiğince büyük olması gerekir.

50 37 Birliktelik kurallarını bulmak için yaygın olarak Apriori, FP Tree ve GRI (TheGeneralizedRuleInduction) algoritmaları kullanılmaktadır.

51 38 4. MATERYAL VE METOD Bu bölümde, çalışma kapsamında kullanılan materyal ve metotlardan bahsedilmiştir. Kullanılan materyal ve metodun neden seçildiğinden, geliştirilen sistemin genel özelliklerinden, süreçte kullanılan araçlardan ve verilerin işlenebilmesi için gereken kaynakların nereden alınacağından bahsedilmiştir. Uygulamada, Ahmet-Alper Dinçer Anadolu Lisesi öğrenci verilerinden yararlanılmıştır. Öğrenci veri ambarı oluşturmak, üniversite giriş sınavında başarıyı etkileyen faktörlerin öncelik sıralarını araştırmak ve öğrencilerin üniversite giriş sınavındaki başarı durumlarını tahmin etmek hedeflenmiştir Yazılımın Geliştirilmesinde Kullanılan Araçlar Veri ambarında yer alan veriler, ilk önce WEKA programında veri önişleme basamakları gerçekleştirilmiştir. Daha sonra WEKA programında, tüm sınıflandırma algoritmaları uygulanmış, en iyi sonuç veren Naive Bayes algoritması, C# programlama dilinde kodlanarak, bu problemin çözümüne yönelik özelleştirilmiş bir yazılım gerçekleştirilmiştir. WEKA yazılımı WEKA makine öğrenme algoritmalarının ve veri önişleme araçlarının bir araya getirildiği, akademik çevrelerde sıklıkla kullanılan, açık kaynak kodlu bir veri madenciliği programıdır. Yeni Zelanda nın Waikato Üniversitesinde geliştirilmiş ücretsiz bir yazılımdır. Yazılım, Java yazılım dili ile geliştirilmiştir. Büyük veri tabanlarında kullanılabilir.

52 39 WEKA 1 ile verinin hazırlanması, sınıflama, kümeleme, birliktelik analizi, nitelik değerlerinin seçilmesi yapılabilmektedir. WEKA programı dört kısımdan oluşmaktadır: a) Simple CLI : Basit komut satırı ara yüzü olarak adlandırılan bu kısım, WEKA komutlarının direkt olarak çalıştırılmasını sağlar. b) Explorer : WEKA ile veri keşfi yapılmasına imkan sağlayan bir platformdur. Veri madenciliği tekniklerini kullanmayı ve görselleştirme yapmayı sağlayan kısımdır. c) Experimenter : Öğrenme setlerinin denemelerinin ve aralarındaki istatistiksel testlerin yapılmasını sağlayan kısımdır. d) Knowledge Flow : Explorer kısmının grafik olarak temsil edilmesidir. Bilgi akışının modellenmesini sağlayan bir kısımdır. Explorer ilk çalıştırıldığında veri önişleme menüsü dışındaki bölümler aktif değildir. Bunun sebebi öncelikle bir veri seti seçilmesini sağlamaktır. Veri seti bir dosyadan, veri ambarından ya da URL adresi girilerek seçilebilir. WEKA, veri setleri için arff, data ve csv uzantılı dosya formatını kabul etmektedir. Üniversite giriş sınavında başarı tahmini için geliştirilen uygulama yazılımında kullanılan araçlar Yazılım, Microsoft Visual Studio 2008 C#.Net kullanılarak geliştirilmiştir. Veri tabanı tasarımı için, ilişkisel veri tabanı modeline uygun olan MSSQL 2005 veri tabanı kullanılmıştır. Veri tabanı tasarımı, veri temizleme, eksik değer problemini çözmek ve veri dönüştürme işleminde kullanılan SQL komutları için, SQL Server Managemet Studio Express arayüz programından yararlanılmıştır. 1 Weka paket programı, adresinden temin edilebilir.

53 Üniversite Giriş Sınavında Başarının Tahminde Kullanılan Kriterlerin Seçimi Yazılımda, öznitelik seçme algoritmaları kullanılarak niteliklerin önem dereceleri ve öncelikli olarak hangi niteliklerin seçilmesi gerektiğine karar verilmiştir. Öznitelik seçimi işleminde, 39 nitelikten 20 nitelik seçilerek sınıflandırma işlemi yapılmış, sınıflandırma algoritmalarının başarı oranları karşılaştırılmıştır. Öznitelik seçme algoritmalarından en yüksek başarıyı veren, GainRatioAttributeEval algoritması kullanılarak, 39 nitelik bilgisinden öğrencilerin üniversite sınavını kazanmasına öncelikli olarak etkileyen 20 öznitelik seçilmiştir Üniversite Giriş Sınavında Başarının Tahminde Kullanılan Sınıflandırma Algoritmasının Seçimi Geçmiş tecrübelere dayanarak tahmin işleminin yapılması konusunda yapay zekanın bir alanı olarak makine öğrenmesi ve veri madenciliği teknikleri araştırılmıştır. Yapılan araştırma sonucunda, problemlerin çözümü için yüksek doğruluk ve başarı elde edildiğinden, hızlı ve çabuk eğitilebilir olduğundan dolayı genellikle Naive Bayes algoritmasının kullanıldığı görülmüştür. Veri madenciliğinde model başarımı değerlendirilirken doğruluk, kesinlik, duyarlılık ve f ölçütüne bakılır. Sınıflandırma algoritmaları karşılaştırıldığında, model başarım ölçütleri ışığında en çok verim alınan algoritma, Naive Bayes algoritmasıdır. Bununla birlikte, en fazla doğru olarak sınıflandırılan örnek sayısının buna bağlı olarak başarı yüzdesi Naive Bayes algoritmasına aittir. Bu çalışmada, üniversite giriş sınavında başarının tahminde kullanılan kriterlerin ve algoritmanın seçimi konusunda hem literatürdeki çalışmalar hem de model başarım ölçütlerinin sonuçları ışığında Naive Bayes algoritması kodlanmıştır.

54 41 5. ÜNİVERSİTE GİRİŞ SINAVINDA VERİ MADENCİLİĞİ İLE BAŞARI TAHMİNİ Bu bölümde, geliştirilen yazılımda üniversite giriş sınavına giren öğrencilerin başarı tahmini yapılırken algoritmanın uygulama aşamalarından ve bu süreçte yazılımın nasıl kullanıldığından bahsedilmiştir Problemin Tanımı Ülkemizde, yükseköğrenim görmek için üniversite giriş sınavında yeterli puanı alarak başarılı olmak gerekmektedir. Üniversite giriş sınavına giren öğrencilerin sayısının her yıl artması ile birlikte, üniversite giriş sınavı zorlaşmakta ve rekabet artmaktadır. Üniversite giriş sınavında başarılı olmak, bireylerin meslek hayatlarını ve gelecekteki statülerini etkilediğinden çok daha fazla önem arz etmektedir. Bu nedenle üniversite giriş sınavında başarıyı etkileyen faktörlerin araştırılması, öğrencilerin sınavda başarıları tahmin edilerek erken uyarı sisteminin geliştirilmesi başarının artmasında önemli rol oynamaktadır. Uygulama, Gölbaşı Ahmet- Alper Dinçer Lisesi öğrenci verilerinden yararlanılarak gerçekleştirilmiştir. Bu çalışmada mezun öğrencilerden elde edilen 220 adet kayıt kullanılmıştır. Öğrencilerin üniversite sınavını kazanmasına etki eden nitelikler araştırılmış, bu niteliklere göre öğrencilerin sınavı kazanıp kazanamayacakları veri madenciliği ile tahmin edilmeye çalışılmıştır. Yapılan çalışma sonucunda, öğrencilerin başarısızlıkların nedenini bulmak, üniversite giriş sınavında hangi niteliğin daha etkin olduğunu araştırmak, mevcut veri seti ile makinenin eğitilip, yeni bir veri kümesinde sınavı kazanıp kazanamayacağını tahmin etmek hedeflenmiştir. Bulunan sonuçlar, daha kaliteli eğitim verilebilmesi, öğrencilerin zayıf olduğu niteliğin güçlendirilmesi açısından yardımcı olacaktır.

55 Verilerin Elde Edilme Süreci Uygulamada öğrenci veri ambarı oluşturulurken öğrenci tanıma fişleri, e-okul sistemine girilen veriler, lise öğrenci dosyaları, öğrenci üniversite sınav sonuç belgesi, rehberlik birimi dokümanları, ilköğretim öğrenci dosyaları ve öğrencilere düzenlenen anket sonuçları birleştirilmiştir. Veriler elde edildikten sonra eksik ve gürültülü veriler üzerinde veri madenciliği sürecinin basamaklarından veri önişleme uygulanarak gerekli düzeltmeler yapılmıştır. Öğrenci veri ambarı 220 kayıttan, 39 nitelik ve 1 sınıf bilgisinden oluşmaktadır. Bu nitelikler oluşturulurken, eğitimde kaliteyi etkileyen faktörler, araçlar, uygulanan modeller, rehberlik hizmetleri araştırılarak, literatürde daha önceden bu konuda çalışılmış, eğitimde verimliliği artırdığı ve eğitimi etkilediği düşünülen niteliklerin belirlenmesine dikkat edilmiştir. Öğrencilerin sosyoekonomik düzeyi, annenin ve babanın eğitim durumu, annenin ve babanın mesleği, bireysel özellikleri, dershane bilgisi, not bilgisi gibi eğitimde kaliteyi etkileyen özellikleri alınarak bir veri ambarı oluşturulmuştur. Bu nitelikler ve alabileceği değerler Çizelge 5.1. de verilmiştir. Çizelge 5.1. Nitelikler ve alabileceği değerler Nitelikler Nitelik Adı Alabileceği Değerler Cinsiyet CINS Kız, Erkek Hangi bölümde okuyor? DAL Eşit Ağırlık, Sayısal, Sözel Okulda velisi kim? VELI Anne, Baba Kiminle oturuyor? KALYER Aile, Akraba Kendi odası var mı? ODA Var, Yok Ev ne ile ısınıyor? ISINMA Kalorifer, Soba Bir işte çalışıyor mu? ISCALIS Evet, Hayır Aile dışında kalan var mı? AILEDISI Evet, Hayır Sürekli hastalığı var mı? HAST Evet, Hayır Sürekli kullandığı ilaç ILAC Kullandığı ilaç yok, Astım ilacı, Kalp ilacı, Sara ilacı, Şeker ilacı, Diğer Baba Meslek BMESLEK Memur, Esnaf, Emekli, İnşaat, İşçi, Serbest, Şoför, Diğer Baba Öğrenim Durumu BTAH İlkokul, Ortaokul, Lise, Ön lisans, Lisans, Yüksek Lisans, Doktora

56 43 Çizelge 5.1. (Devam) Nitelikler ve alabileceği değerler Anne Meslek AMESLEK Memur, Esnaf, Emekli, Ev hanımı, İşçi, Serbest, Şoför, Diğer Anne Öğrenim Durumu ATAH İlkokul, Ortaokul, Lise, Ön lisans, Lisans, Yüksek Lisans, Doktora Kardeş sayısı nedir? KARDES 0-15 Baba Hayatta mı? BSAG Evet, Hayır Anne Hayatta mı? ASAG Evet, Hayır Anne Baba birlikte mi? ABERABER Birlikte, Ayrı Aile gelir durumu nedir? AGELIR Çok Kötü, Düşük, Orta, İyi, Çok iyi Ailede üniversite mezunu AUNI Var, Yok /okuyan var mı? Dershaneye gidiyor mu? DERSHANE Evet, Hayır Kitap Okuma alışkanlığı var mı? KITAP Var, Yok Sosyal faaliyetlere katılma FAAL Zayıf, Orta, İyi, Çok iyi bilgisi nasıldır? Çalışma düzeni nasıldır? CALISD Günlük, Sınav Dönemi Evine düzenli olarak gazete GAZETE Evet, Hayır alınıyor mu? Evinde bilgisayar var mı? BILG Evet, Hayır Evinde internet var mı? INT Evet, Hayır Sınav Kaygısı var mı? SINAVK Var, Yok 9. sınıf not ortalaması nedir? N sınıf not ortalaması nedir? N sınıf not ortalaması nedir? N sınıf not ortalaması nedir? N sınıf devamsızlık bilgisi D nedir? 10. sınıf devamsızlık bilgisi D nedir? 11. sınıf devamsızlık bilgisi D nedir? 12. sınıf devamsızlık bilgisi D nedir? İlkokul diploma notu nedir? ILKOGR 1-5 Ağırlıklı Ortaöğretim başarı APO puanı nedir? Üniversite sınav puanı PUAN Sonuç Bilgisi CLASS Kazandı, Kazanamadı

57 44 Veri madenciliği uygulamalarında, örneklem sayısı ve nitelik sayısı çok önemlidir. Nitelikler içinden, optimum sayıya ulaşmak, işlem karmaşıklığını azaltmak, daha kısa sürede sonuca ulaşmak, hesaplama hata olasılığını düşürmek ve daha doğru genelleme yapabilmek için öznitelik seçme işlemi yapılmaktadır. Bu 39 nitelik veri azaltma bölümünde, öznitelik seçme işlemine tabi tutulacak ve 20 adet öznitelik ile çalışılacaktır Veri Önişleme Basamakları Veri madenciliğinin en önemli aşaması veri önişleme basamağıdır. Verinin kalitesi, veri madenciliğinin performansı açısından çok önemlidir. Veri önişleme basamağında, eksik değer problemini çözmek, gürültülü verileri düzeltmek ve veri dönüştürme işlemleri için Structured Query Language (SQL) komutları kullanılmıştır. Veri önişleme basamakları aşağıdaki şekilde sıralanabilir: a) Veri Temizleme b) Veri Bütünleştirme c) Veri Dönüştürme d) Veri Azaltma Veri temizleme Veri ambarında bulunan BMESLEK, AMESLEK, ATAH, AUNI, N9, N10, N11, N12 ve D9 nitelikleri içerisinde eksik değerler yer almaktadır. Baba mesleği, anne mesleği, baba tahsil, anne tahsil ve ailede üniversite mezunu sayısı nitelikleri kategorik verilerdir. Bu kategorik verilerdeki eksik verilerin sayısı çok fazla olmadığından, BOS isimli genel bir değerle doldurulmuştur. update veriambar set BMESLEK='BOS' where BMESLEK is null; update veriambar set AMESLEK='BOS' where AMESLEK is null; update veriambar set AUNI='BOS' where AUNI is null;

58 45 Nakil işlemi ile gelen 22 öğrencinin 9. Sınıf devamsızlık bilgisi bulunmamaktadır. D9 niteliği boş olan kayıtlara, D9 alanının ortalaması yazılarak veri düzeltme işlemi yapılmıştır. update veriambar set D9 = ( Select AVG ( D9 ) From veriambar where D9 is not null ) where D9 is null ; N9,N10, N11, N12 niteliği boş olan 2 kayıt için, bu alanların ortalaması alınarak düzeltme işlemi yapılmıştır. update veriambar set N9=(Select AVG(N9) From veriambar where N9 is not null) where N9 is null ; update veriambar set N10=(Select AVG(N10) From veriambar where N10 is not null) where N10 is null ; update veriambar set N11=(Select AVG(N11) From veriambar where N11 is not null) where N11 is null ; update veriambar set N12=(Select AVG(N12) From veriambar where N12 is not null) where N12 is null ; Veri bütünleştirme Veri bütünleştirme işlemi, veri tabanlarından, çeşitli bilgi kaynaklarından gelen verilerin birleştirilmesi, artık verilerin kaldırılmasıdır. Öğrenci tanıma fişlerinden, e- okul sistemine girilen verilerden, lise öğrenci dosyalarından, üniversite sınav sonuç belgesinden, rehberlik birimi dokümanlarından ve ilköğretim öğrenci dosyalarından alınan bilgiler ışığında öğrenci veri ambarı oluşturulmuştur Veri dönüştürme Veri temizlemeden ve bütünleştirmeden sonraki adım veri dönüştürmedir. Veri ambarındaki N9, N10, N11, N12, DEVAM, KARDES, ILKOGR, APO ve PUAN nitelikleri üzerinde veri dönüştürme işlemleri yapılmıştır. Buna göre aşağıdaki dönüşümler elde edilmiştir:

59 46 a) SQL komutları ile N9, N10, N11, N12 niteliklerinde bulunan, not bilgisi kayıtları aşağıdaki şekilde kategorize edilmiştir: Update veriambar set N9='N1' where N9<=100 and N9 >=95 Update veriambar set N9='N2' where N9<95 and N9 >=90 Update veriambar set N9='N3' where N9<90 and N9 >=85 Update veriambar set N9='N4' where N9<85 and N9 >=80 Update veriambar set N9='N5' where N9<80 and N9 >=75 Update veriambar set N9='N6' where N9<75 and N9 >=70 Update veriambar set N9='N7' where N9<70 and N9 >=65 Update veriambar set N9='N8' where N9<65 and N9 >=60 Update veriambar set N9='N9' where N9<60 and N9 >=55 Update veriambar set N9='N10' where N9<55 and N9 >=50 Update veriambar set N9='N11' where N9<50 and N9 >=45 Update veriambar set N9='N12' where N9<45 and N9 >=40 b) SQL komutları ile DEVAM niteliğinde bulunan, devamsızlık bilgisi kayıtları aşağıdaki şekilde kategorize edilmiştir: Update veriambar set Devam='D1' where Devam<=5 and Devam >=0 Update veriambar set Devam='D2' where Devam<=10 and Devam >5 Update veriambar set Devam='D3' where Devam<=15 and Devam >10 Update veriambar set Devam='D4' where Devam<=20 and Devam>15 c) SQL komutları ile KARDES niteliğinde bulunan, kardeş sayısı bilgisi kayıtları aşağıdaki şekilde kategorize edilmiştir: Update veriambar set kardes='k5' where kardes<=15 and kardes >=8 Update veriambar set kardes='k4' where kardes<8 and kardes >=6 Update veriambar set kardes='k3' where kardes<6 and kardes >=4 Update veriambar set kardes='k2' where kardes<4 and kardes >=2 Update veriambar set kardes='k1' where kardes<2 and kardes>=0

60 47 d) SQL komutları ile ILKOGR niteliğinde bulunan, ilköğretim diploma notu bilgisi kayıtları aşağıdaki şekilde kategorize edilmiştir: Update veriambar set ilkogr='i5' where ilkogr<=5 and ilkogr >=4.5 Update veriambar set ilkogr='i4' where ilkogr<4.5 and ilkogr >=4 Update veriambar set ilkogr='i3' where ilkogr<4 and ilkogr >=3.5 Update veriambar set ilkogr='i2' where ilkogr<3.5 and ilkogr >=3 Update veriambar set ilkogr='i1' where ilkogr<3 and ilkogr>=2.5 e) SQL komutları ile APO niteliğinde bulunan, ağırlıklı ortaöğretim başarı puanı kayıtları aşağıdaki şekilde kategorize edilmiştir: Update veriambar set apo='a1' where apo<=100 and apo >=95 Update veriambar set apo='a2' where apo<95 and apo >=90 Update veriambar set apo='a3' where apo<90 and apo >=85 Update veriambar set apo='a4' where apo<85 and apo >=80 Update veriambar set apo='a5' where apo<80 and apo >=75 Update veriambar set apo='a6' where apo<75 and apo >=70 Update veriambar set apo='a7' where apo<70 and apo >=65 Update veriambar set apo='a8' where apo<65 and apo >=60 Update veriambar set apo='a9' where apo<60 and apo >=55 Update veriambar set apo='a10' where apo<55 and apo >=40 f) SQL komutları ile PUAN niteliğinde bulunan üniversite giriş sınav puan bilgisi alanı aşağıdaki şekilde kategorize edilmiştir: Update veriambar set puan='kazanamadi' where puan>=100 and puan <=320 Update veriambar set puan='kazandi' where puan >320 and puan <= Veri azaltma Bu kısımda, öğrenci veri ambarında bulunan nitelikler arasından öznitelik seçme işlemi yapılmaktadır.

61 48 Her sınıf düzeyindeki D9, D10, D11 ve D12 nitelikleri ile alınan devamsızlık bilgisi ortalamasının genel olarak öğrencinin devamsızlığını yansıttığından, daha az nitelikle işlem yapmak için, bu sınıflardaki devamsızlıkların ortalaması alınıp Devam niteliği oluşturulmuştur. update veriambar set Devam=((D9+D10+D11+D12) / 4) where Devam is null ; Öznitelik seçme işlemi yapılırken, WEKA yazılımı içinde yer alan Nitelik Seçimi (Select attributes) kısmındaki en çok kullanılan öznitelik seçme metotları (InfoGainAttributeEval, GainRatioAttributeEval, SymmetricalUncertAttributeEval, OneRAttributeEval, ChiSquaredAttributeEval) kullanılmıştır. Öznitelik seçimi işlemi yapılmadan önce sınıflandırma işlemi yapılmış ve sınıflandırma algoritmalarının başarı oranları aşağıda verilmiştir: Çizelge 5.2. Öznitelik seçimi işleminden önce sınıflayıcı başarı oranı Naive Bayes KNN (IBk k=7) J48 Bayes Net RBF NETWORK Sınıflayıcı Başarı Oranı 85 % % % 85 % % Öznitelik seçme metotları kullanılarak, niteliklerin önem dereceleri ve öncelikli olarak hangi niteliklerin seçilmesi gerektiğine karar verilmiştir. Öznitelik seçimi işleminde, 39 nitelikten 20 nitelik seçilerek sınıflandırma işlemi yapılmış, sınıflandırma algoritmalarının başarı oranları karşılaştırılmıştır. Karşılaştırma sonuçları Çizelge 5.3. de yer almaktadır: Çizelge 5.3. Öznitelik seçimi işleminden sonra sınıflayıcı başarı oranı Öznitelik Seçme Algoritmaları Sınıflandırma Algoritmaları InfoGain GainRatio Symmetrical Uncert OneR ChiSquared Naive Bayes 86.81% % % % % KNN(IBk k=7) % % % % % J % % % % % Bayes Net % % % % % RBFNETWORK 85 % % % % 85 %

62 49 Öznitelik çıkarma algoritmalarından InfoGainAttributeEval, GainRatioAttributeEval, SymmetricalUncertAttributeEval, OneRAttributeEval, ChiSquaredAttributeEval algoritmaları kullanılarak 20 öznitelik seçilmiştir. Bu özniteliklerle oluşturulan yeni veri kümesinin kullanılarak, sınıflandırma algoritmalarının başarı oranlarına bakıldığında en yüksek başarı oranını veren algoritmanın, % başarı oranı ile Naive Bayes sınıflandırma algoritması olduğu görülmektedir. Bu nedenle öznitelik seçme algoritmalarından GainRatioAttributeEval algoritması kullanılarak, 39 nitelik bilgisinden öğrencilerin üniversite sınavını kazanmasına öncelikli olarak etkileyen 20 öznitelik seçilmiştir. Bu öznitelikler önem derecesine göre; N12, N11, N10, ISCALIS, APO, ILKOGR, N9, DERSHANE, CINS, CALISD, KITAP, DAL, DEVAM, AILEDISI, ILAC, KARDES, BMESLEK, FAAL, ODA, AGELIR nitelikleridir. Seçilen öznitelikler incelendiğinde, öğrencilerin üniversite giriş sınavında başarılarını etkileyen en önemli niteliklerin ortaöğretimdeki not ortalamaları olduğu gözükmektedir. Özellikle öğrencilerin 11. ve 12. sınıf notlarının üniversite giriş sınavındaki başarılarında diğer notlarına göre daha önemli olduğu gözlenmektedir. Özniteliklere bakıldığında dershane bilgisi, ilköğretim diploma notu, çalışma düzeni, kitap okuma alışkanlığı, sürekli bir ilaç kullanıp kullanmadığı, bir işte çalışıp çalışmadığı da önemli faktörler arasında yer almaktadır. Ailenin meslek grubu, evde aile dışında kalan kişilerin ve aile gelir durumunun da etkisi olduğu sonucuna varılmıştır Modelleme Uygulamanın hem WEKA programında yapılan, hem de C# da geliştirilen yazılım ile yapılan modelleme basamağı aşağıda verilmiştir: Modelleme basamağı: WEKA Veri önişlemeden sonraki adım modelleme basamağıdır. Farklı algoritmalar veri seti üzerinde denenerek oluşturulan modellerin başarım ölçütleri yüksek olan algoritma

63 50 seçilir. Literatürde en çok kullanılan algoritmalar kullanılmış, kullanılan algoritmaların karşılaştırılması Çizelge 5.4. de gösterilmiştir: Çizelge 5.4. Sınıflandırma algoritmalarının karşılaştırmaları Sınıflandırma Algoritmaları Naive Bayes KNN (IBk k=7) J48 Bayes Net RBF NETWORK Doğru Olarak Sınıflandırılan Örnek Sayısı Yanlış Olarak Sınıflandırılan Örnek Sayısı ROC Area değeri Kesinlik Duyarlılık F-Ölçütü Kapa İstatistiği Başarı Yüzdesi (Doğruluk) % % % % % Sınıflandırma algoritmaları karşılaştırıldıklarında, doğru olarak sınıflandırılan örnek sayısı en yüksek olan algoritmanın Naive Bayes algoritması olduğu görülmektedir. Model başarım ölçütlerinden ROC area değerinin, kesinlik, duyarlılık ve f ölçüt değerlerinin 1 e yakın olması istenir. Karşılaştırma tablosu incelendiğinde bu değer ışığında da en yüksek başarının Naive Bayes algoritmasında olduğu görülmektedir. Kappa istatistik değeri 0,6 ile 0,8 arasında ise önemli derecede bir uyum olduğunu, sınıflandırıcının tesadüfi bir tahminde bulunmadığını göstermektedir Modelleme basamağı: Üniversite giriş sınavında öğrencilerin başarılarının tahmin edilmesinde veri madenciliği uygulama yazılımı Microsoft Visual Studio 2008 C#.Net kullanılarak, problemin çözümüne yönelik özelleştirilmiş bir yazılım tasarımı yapılmıştır. Bu yazılımın, öğrenci veri ambarı üzerinde yapılacak diğer veri madenciliği uygulamalarına örnek olacağı ve önemli ölçüde yarar sağlayacağı düşünülmektedir.

64 51 Yazılımın ara yüz tanıtımı Üniversite Giriş Sınavına Giren Öğrencilerin Başarılarının Tahminde Veri Madenciliği Uygulama Yazılımı veri ambarı oluşturma, verilerin görüntülenmesi ve veri madenciliği uygulaması olmak üzere üç bölümden oluşmaktadır. Yazılımda, verilerin girildiği, grafiksel olarak gösterildiği, verilerin listelendiği, sınavda başarı durumlarının tahmininin yapıldığı formlar ile bu formların hepsine ulaşım sağlayan bir ana form bulunmaktadır. Yazılım ilk çalıştırıldığında kullanıcıların karşısına Şekil 5.1 de yer alan ana form gelmektedir. Şekil 5.1. Ana form İlk olarak Veri Ambarı Oluşturma seçeneği tıklanarak ortaöğretim öğrencilerinin bilgileri alınarak öğrenci veri ambarı oluşturulmaktadır. Bu form, Öğrenci Genel Bilgileri, Aile Bilgileri, Bireysel Bilgileri, Bireysel Bilgileri, Not ve Devasızlık Bilgileri olmak üzere birbirine bağlı dört kısımdan oluşmaktadır. Bu formda veri ambarı oluşturulurken, ortaöğretim e-okul sistemi üzerinde bulunan bilgilerin olmasına dikkat edilmiştir. Şekil 5.2. Öğrenci genel bilgileri giriş formu

65 52 Öğrenci genel bilgiler kısmına girilen öğrencinin okul numarası ve adı ile bağlantı kurularak, öğrencinin aile bilgileri girilmektedir. Şekil 5.3. Öğrenci aile bilgileri giriş formu Şekil 5.4. Öğrenci bireysel bilgileri giriş formu

66 53 Şekil 5.5. Öğrenci not ve devamsızlık bilgisi giriş formu Veri ambarı oluşturma formunda, öğrencilerin genel bilgileri, aile bilgileri, bireysel bilgileri, not bilgileri ve devamsızlık bilgileri alınarak kayıt işlemi yapılmaktadır. 220 kayıttan oluşan bir veri ambarı oluşturulmuştur. Veri ambarı oluşturulduktan sonra, verilerin görüntülenmesi kısmında veriler listelenmekte, her bir niteliğe ait kayıtlar grafiksel olarak gösterilmektedir. Şekil 5.6. Veri görüntüleme formu

67 54 Şekil 5.7. Başarı tahmin formu Bu formda öznitelikler girilerek, öğrencilerin sınav başarı tahminleri yapılmaktadır. Naive Bayes algoritmasının uygulanması Yazılımda üniversite giriş sınavına giren öğrencilerin başarı tahmini yapılırken, öznitelik seçme algoritması ile seçilen 20 öznitelik ile işlem yapılmıştır. Uygulamada, öğrenci veri ambarındaki veriler Naive Bayes algoritmasının uygulanacağı, eğitim ve test verisi olmak üzere iki gruba ayrılmıştır. Uygulamada eğitim veri seti ve test veri seti oluşturulurken verilerin yaklaşık 1/5 ü test verisi, 4/5 ü eğitim verisi olarak seçilmiştir. 220 kayıttan 175 tanesi eğitim veri seti, 45 tanesi test veri seti olarak kullanılmıştır. Test veri seti belirlenirken, veri kümesi içerisinden her 5 kayıttan bir tanesi test verisi olarak kabul edilmiştir. Veri setindeki veri dağılımının dengeli, örnek sayısı ve her sınıfa ait örnek sayısı fazla olduğundan bu yöntem kullanılmıştır.

68 55 Algoritma eğitim veri seti ile eğitilirken, test veri seti ile kontrol edilmektedir. Formda test verileri listelenmekte, test veri setinde yer alan veriler girilerek algoritmanın başarısı kontrol edilebilmektedir. Tahmin yaptırılırken ilk olarak, eğitim verileri veri tabanından çekilerek DataRow nesnesine aktarılmaktadır. İkinci aşamada, sınıf (class) bilgisinde yer alan Kazandı ve Kazanamadı sınıflarına ait toplam örnek sayıları p ve q olarak iki değişkende tutulmaktadır. Daha sonraki aşamada, her bir sınıf bilgisine ait ihtimal durumu için formda yer alan Combobox nesnesinden seçilen her bir nitelik değeri alınarak frekans sayıları hesaplatılmaktadır. Bu olasılık hesaplatılırken, her bir niteliğe ait ihtimalin çarpımı ile tüm olasılık elde edildiğinden tek bir niteliğe ait bilginin 0 olması durumunda sonuç 0 olacaktır. Kazandı ve Kazanamadı ihtimal hesaplamasında 0 sorununa yol açabilecek veriler belirlenerek, her bir kriterin pay ve paydasına küçük bir değer ilave edilmektedir. Son aşamada ise her bir sınıf bilgisine ait olma ihtimalleri niteliklerin elde edilen frekansları ile hesaplatılmaktadır. Sonuç olarak, her bir sınıf bilgisine ait ihtimaller karşılaştırılarak eğer Kazandı sınıf bilgisine ait ihtimal daha yüksek ise Kazandı, Kazanamadı sınıf bilgisine ait ihtimal daha yüksekse Kazanamadı olarak kullanıcıya yansıtılmaktadır. Yazılımın Kullanılması Uygulamada, üniversite giriş sınavına giren öğrencilerin başarı tahmini yapılırken Şekil 5.7. deki form kullanılmaktadır. Formda öğrenciye ait nitelik değerleri ComboBox nesnesinden seçilerek başarı tahmini yapılmaktadır. Öğrenciye ait tüm bilgiler girildikten sonra başarı tahmini hesaplatılarak, sonuç kullanıcıya Şekil 5.8. de gösterilen Sınav Başarı Tahmini mesaj kutusu ile gösterilmektedir.

69 56 Şekil 5.8. Başarı sonuç mesajı Uygulamada, üniversite giriş sınavında başarıyı etkileyen öncelikli nitelikler tespit edilmiş ve öğrencilerin sınavdaki başarı durumları önceden tahmin edilerek bir erken uyarı sistemi geliştirilmiştir. Üniversite giriş sınavında başarıyı etkileyen nitelikler belirlenirken öznitelik seçme algoritmalarından GainRatioAttributeEval algoritması kullanılmış ve 20 nitelik öncelikli olarak seçilmiştir. Öğrencilerin üniversite giriş sınavındaki başarı durumlarının tahmini yapılırken test verileri ile çalışma kontrol edilmiştir. Çalışma sonucunda öğrenci veri ambarında bulunan nitelikler ile üniversite giriş sınavında öğrencilerin başarıları durumlarının tahmininde, büyük bir kısmının açıklanabildiği sonucuna varılmıştır. Yazılımın uygulanması sonucunda, öğrencilerin sınavı kazanıp kazanmadıkları ve sistemin yaptığı başarı tahmin sonuçları Çizelge 5.5. de verilmiştir. Çizelge 5.5. Test verileri için yapılan başarı tahmin sonuçları No ID Mevcut Sonuç Bilgisi Sistem Tarafından Yapılan Tahmin Sonuç 1 1 Kazandı Kazandı Başarılı 2 6 Kazandı Kazandı Başarılı 3 11 Kazandı Kazandı Başarılı 4 16 Kazandı Kazandı Başarılı 5 21 Kazanamadı Kazanamadı Başarılı 6 26 Kazanamadı Kazanamadı Başarılı 7 31 Kazanamadı Kazanamadı Başarılı 8 36 Kazanamadı Kazanamadı Başarılı 9 41 Kazanamadı Kazanamadı Başarılı

Daha göster