Veri Ambarından Veri Madenciliğine Yrd. Doç. Dr. Ömer Utku Erzengin 1, Uzman Emine Çetin Teke 2, İstatistikçi Nurzen Üzümcü 3 1 Süleyman Demirel Üniversitesi Fen Edebiyat Fakültesi İstatistik Bölümü 2 Süleyman Demirel Üniversitesi Fen Bilimleri Enstitüsü 3 Süleyman Demirel Üniversitesi Sosyal Bilimler Enstitüsü İçindekiler Veri Ambarından Veri Madenciliğine... 2 1. Eğitim İçeriği:... 2 2. Eğitimi Verecek Eğitmenler... 3 3. Eğitim Süresi... 4 4. Eğitim Verileceği Zaman... 4 5. Eğitim Sırasında Kullanılacak Yazılımlar ve Materyal... 4
Veri Ambarından Veri Madenciliğine 1. Eğitim İçeriği: Isparta da yapılacak olan 15. Uluslararası Ekonometri, Yöneylem Araştırması ve İstatistik Sempozyumunda verilecek olan eğitimde SQL Server üzerindeki verilerin veri madenciliği yazılımlarına nasıl aktarılacağı ve temel birkaç veri madenciliği tekniği anlatılacaktır. Yönetimde karar destek sistemlerinin (DSS: decision support systems) bir ayağı da veri madenciliğidir. Müşteri ilişkilerinin yönetimi (CRM: customer relationship management) doğrudan DSS yi etkileyen bir olgudur. Müşterilerin davranış ve tutumlarının ölçülmesi ve gerekli olan işlemlerin yapılabilmesi için uygun kitlenin seçilmesi gerekmektedir. Bireylerin davranış ve tutumlarının ölçülmesi bilimin birçok alanına girmektedir. Bireylerin davranış ve tutumlarının Likert tipi ölçeklerle ölçülerek CRM de kullanılır. CRM de bireylerin davranış ve tutumlarını ölçmek için kullanılan Likert tipi ölçeklerle toplanan büyük miktardaki bilgi veritabanlarına aktarılır. Toplanan bilginin veritabanlarında kaydedilmesinin biçimiyle verinin veri madenciliği sürecindeki biçimi birbirinden farklı olabilir. Yapılacak eğitimde Likert tipi ölçeğin istatistiksel teorisi anlatılacak ve veri madenciliği analizi için veri tabanlarına nasıl kaydedilmesi gerektiğinden bahsedilecektir. Yapılacak eğitimde eldeki veri tabanı sunucularıyla veri madenciliği yazılımları arasındaki uyum ve uyumsuzluklar anlatılacaktır. Veri madenciliği uygulaması olarak önceden geliştirilmiş belli bir ölçek için toplanan verilerin MySQL ve/veya PostgreSQL den çekilmesi anlatılacaktır. Veri tabanı sunucuları veriyi kaydederken yöneticiye bağlı veri çeşitli şekillerde kaydedilebilir. Veritabanının en fazla bilinen yönetim şekilleri: 1) İlişkisel (RDBMS: relational database management system) 2) Hiyeraşik (Hierarchical database management system) 3) Ağ (Network database management system) sistemlerdir. Ayrıca NoSQL denilen bütün bilginin bir tek veri tabanında tutulması da günümüzde gerçekleşmeye başlamıştır. Veri tabanında veri çevrimiçi (on-line) durumdayken veri madenciliği yazılımlarında durağandır (statik). Orange, Weka, RapidMiner ve Knime GNU tabanlı veri madenciliği yazılımları analizleri
durağan veri üzerinde (veri dosyaları) gerçekleştirir. Veri madenciliği yazılımlarının analiz için kullandığı dosya türleri birbirinden farklılık gösterebilir. Örneğin WEKA *.arff (Attribute- Relation File Format) dosyasını kullanırken Orange *.tab (Tab-Delimited) veri dosyası kullanmaktadır. Aynı veri iki farklı dosya türünde ayrı biçimlerde (format) kullanılması gerekmektedir. Bir dosya türü bir platformda (Java,.Net, Phyton) veri tabanı sunucusundan kolay çekilirken diğer bir platformda aynı dosyayı elde etmek bazı sorunlara yol açmaktadır. Bu veri madenciliği yazılımlarının kullandığı veri dosyaları SQL sunucuların üzerinden de çekilebilir. Orange, Weka, RapidMiner ve Knime yazılımlarının geliştirildiği platformlar birbirlerinden farklıdır. Örneğin WEKA Java üzerinde geliştirilirken, Orange Phyton üzerinde geliştirilmektedir. Veri madenciliği yazılımlarının geliştirildiği platformlara bağlı olarak veri tabanı sunucularına ayrı arabirimlerle (IDE, ) bağlanmaktadır. Ayrıca bir yazılım veri tabanı sunucusuna ODBC üzerinden bağlanmaktayken diğer bir yazılım Java arabirimiyle diğer bir yazılım ise Phyton altındaki bir uygulamayla bağlanmaktadır. Veri madenciliği eğitiminde kullanılacak veri Erzengin ve arkadaşları tarafından geliştirilen bir ölçek aracılığıyla toplanmıştır. Eğitimde kullanılacak olan veriyi oluşturan ölçek, ulusal ve uluslararası alanda kullanılabilecek Üniversite Öğrencilerine Yönelik Çevresel Davranış ve Tutum Ölçeği çalışmalarına bağlı bir sürecin parçasıdır. Veri tabanı sunucusunda kullanılan Tüketici Çevre Bilinç Endeksi verisine bağlı çalışmalar bazı ulusal ve uluslar arası kongrelerde sunulmuştur. Yeterli zaman kalacak olursa birkaç veri madenciliği yazılımında aykırı gözlemler, ilişki, makine öğrenmesinin nasıl yapılacağı anlatılacaktır. 2. Eğitimi Verecek Eğitmenler Sempozyum yöneticileri tarafından istenirse eğitmenlerin özgeçmişleri ve yaptıkları ulusaluluslar arası makaleleri gönderilebilir. Yrd. Doç. Dr. Ömer Utku Erzengin temel eğitmendir. Emine Çetin Teke (Eğitim-Öğretim Bilim Uzmanı) verilerin özelliklerini ve Nurzen Üzümcü (İstatistikçi) veri tabanını anlatacaktır. Yrd. Doç. Dr. Ömer Utku Erzengin: Veri Tabanı Sunucularından veri çekilmesi, Veri Madenciliği Yazılımları, Yazılımlardaki teorik bilgiler ve pratik uygulamaları.
E-mail: ouerzengin@hotmail.com, omererzengin@sdu.edu.tr Cep tel: 532 452 82 94, İş tel: 246 211 4059 Uzman Emine Çetin Teke: Veri tabanlarında kullanılan verinin özellikleri nelerdir. Anket tabanlı sorgulamayla ölçek nasıl geliştirilir. Ölçek geçerlik ve güvenirlik çalışmaları nelerdir ve veri madenciliğiyle ilişkisi nedir. E-mail: eeminecetin@windowslive.com Cep tel: 505 883 05 32, İş tel: 246 211 4253 İstatistikçi Nurzen Üzümcü: Veri tabanı ve veri ambarı E-mail: nurzenuzumcu@gmail.com Cep tel: 506 265 48 04 3. Eğitim Süresi Eğitim süresi 1 günden (8 Saat) olacaktır. Uzman Eğitmen Emine Çetin Teke ve İstatistikçi Nurzen Üzümcü 15. Uluslararası Ekonometri, Yöneylem Araştırması ve İstatistik Sempozyumunda veri tabanı sunucusu üzerinde kullanılan veri hakkında detaylı bilgi vereceklerdir. 4. Eğitim Verileceği Zaman Veri Madenciliği için Veri Ambarı eğitimi Akademik Bilişim Konferansından bir gün önce verilmesi planlanmaktadır. 5. Eğitim Sırasında Kullanılacak Yazılımlar ve Materyal Eğitim sırasında GNU felsefesiyle oluşturulmuş MySQL ve PostreSQL yazılımları veri tabanı sunucusu olarak kullanılacaktır. Veri madenciliği yazılımı olarak da GNU felsefesiyle oluşturulmuş Orange, Weka, RapidMiner ve KNIME yazılımları kullanılacaktır. Eğitimde kullanılacak verinin telif hakkı olduğundan dağıtılması söz konusu değildir. Ücreti karşılanacak olursa katılımcılara sunu çıktıları A4 kâğıda dökümü alınıp dosyalanarak dağıtılacaktır.şu anda hazırlanmış 150 sayfalık sunum hazırdır.
EĞİTİM ÜCRETİ KİŞİBAŞI 150 TL'dir. Eğitim Ücretinin Yatırılacağı Banka Hesabı Banka Adı: TC Ziraat Bankası Şube: Isparta Merkez Şube Şube Kodu: 132 Hesap No: 448078965395 IBAN: TR350001000132448078965395 Alıcı Adı: SDÜ Alıcı Soyadı: Strateji Geliştirme Daire Başkanlığı