HAM VERİNİN NİTELİKLİ BİLGİYE DÖNÜŞTÜRÜLME SÜRECİ Cenk BALKAN
Kavramlar HAM VERİ İngilizcesi raw data olan, düzenlenmemiş veri olarak ifade edilebilir. VERİ Satır ve kolonlar bazında ifade edilmiş, bir formata sahip olan verileri ifade etmektedir. Veriler ölçüm, sayım, deney, gözlem ya da araştırma yolu ile elde edilmektedir. Ölçüm ya da sayım yolu ile toplanan ve sayısal bir değer bildiren veriler nicel veriler, sayısal bir değer bildirmeyen veriler de nitel veriler olarak adlandırılmaktadır. Kategorik ve sürekli olarak ayrımını yapacağımız bu yapı daha da derin bir bileşen yapısına sahiptir.
Kavramlar BİLGİ İngilizcesi information olanolgudur. Sorgu ve raporlama fonksiyonları sayesinde, veritabanındaki verinin çekilerek bilgiye dönüşümü sağlanır. Örneğin, ürün, miktar ve fiyat toplamları, satılan ürünlerle bunların miktar ve hacimleri bilgiyi sağlar. NİTELİKLİ BİLGİ İngilizcesi knowledge olanolgudur. Veri madenciliği teknolojisi içeren uygulamalar sayesinde, veri içerisindeki gizli eğilim ve örüntülerin belirlenmesi olarak düşünülebilir.
Veritabanı ve Veri Ambarı Bakış Açısı
Veritabanı ve Veri Ambarı Bakış Açısı
Kavramlar VERİ KAYNAKLARI Verinin tutulduğu alanları ifade eder. Veritabanları, text dosyaları, excel dosyaları, XML dosyaları, sav dosyaları, sas dosyaları gibi kaynaklar veri kaynakları olabilir. VERİ DÖNÜŞTÜRME (ETL) ETL harfleri İngilizce karşılığı olan veriyi çıkar, değiştir ve yükle işlemlerini ifade eder.
Kavramlar Projelerde veri her zaman aynı biçimlerde ve istediğiniz detay veya özet durumunda bulunmayabilir. Zaman zaman ihtiyaca göre aynı verinin kullanım amacına bağlı olarak, farklı düzenlerde kullanılması gerekir. ETL araçları ile verilerinin kaynaklarından ham olarak işlenecek kaynağa çevrilmesi yapılır. Bu aşamada farklı erişim protokolleri (ODBC, JDBC, doğal), dosya biçimleri kullanır. Elde edilen veriler incelenir, çeşitli filtreleme, temizlik, eşleme, sıralama, ek bilgiler ile zenginleştirme, ayrıştırma gibi işlemler uygulanır.
Kavramlar VERİ AMBARI Veri ambarı, iş hedefleri doğrultusunda sorgulamalar ve analiz yapmak için özelleşmiş bir veritabanıdır. Temel amacı, işletmeye ait güncel olmayan kayıtları saklamak ve bu kayıtlar üzerinde daha kolay analizler yapılmasını sağlayarak iş ihtiyaçlarını anlamaya ve işletme fonksiyonlarını yenilemeye yardımcı olmak, yani iş zekasına kolaylık sağlamaktır. Bildiğimiz ilişkisel veritabanları, olaylar ve işlemlerle(transaction) ilgili verileri saklar, bu yüzden devamlı bir veri giriş çıkışı içerisindedirler ve en güncel veriyi taşırlar. Veri ambarları ise, bu veritabanlarındaki verilerle diğer dış kaynaklardan alınan verilerin belirli periyodlarda derlenip arşivlenmesi ile oluşturulan, bu sayede dönemsel analizlerin yapılmasına olanak sağlayan yapılardır.
Kavramlar Veri ambarları, veri saklama işlevinin dışında ETL, veri madenciliği, raporlama, tahminleme çözümleri sunan uygulamalar tarafından da kullanılarak, ham verilerin kullanışlı bilgilere dönüştürülmesine olanaktanır.
Kavramlar DATA MART Data Mart lar veri ambarlarının alt kümeleridir. Veri ambarları bir iş probleminin tamamına yönelik bir bakış sağlarken, data mart'lar sadece belli bir kısma bakış sağlarlar. İşletme üzerindeki karar vericilerin, işe ait tüm veriler üzerinde analiz yapmasına gerek olmayabilir. Bu kişiler sadece kendi birimleriyle ilgili verilere ulaşarak bunlara bağlı analizler yapmayı isteyebilirler, bu durumda veri ambarındaki tüm karmaşıklıklık içinde boğulmalarına gerek yoktur. Veri ambarlarının sadece bir konu kapsamında alt kümesini temsil eden data mart'lar, veri ambarları kadar ayrıntılı veri de barındırmazlar. Bu yüzden kolay anlaşılabilir ve yönlendirilebilirlerdir.
Kavramlar OLAPve OLTP Kavramları OLAP(On-Line Analytical Processing), veriler üzerinde çok boyutlu analizler yapılmasına olanak sağlayan bir yaklaşımdır. Doğal olarak OLAP veri ambarlarına ait sorgulama ve oluşturma işlemlerini de kapsar. Çok boyutlu veritabanı olarak tasarlanmış bir veri ambarında, sözgelimi satışlarla ilgili bilgilerin yer aldığı bir tabloda, "zaman" boyutunun elemanlarına denk gelen günhafta-ay-yıl gibi sütunlar bulunabilir, bu da OLAP'ın boyut modellemesine olanak sağlar.
Kavramlar Fakat veri ambarı ve OLAP terimlerinin birbirleri yerine kullanılması yanlıştır, veri ambarı üstte bahsettiğim gibi özelleşmiş bir veritabanını belirtirken, OLAP eldeki veriler üzerinde çok boyutlu sorgular yapmayı kolaylaştıran bir analiz yaklaşımıdır. Yani OLAP istemci uygulamaların veri ambarını kullanmasını kolaylaştıran teknolojidir. OLAP küpü, boyut, fact gibi kavramlar da aslında veri ambarı ile doğrudan bağlantılı değildir; OLAP süreçleri veri ambarı gerektirmeyebilir, her veri ambarı da OLAP sürecine sokulmayabilir. OLAP konuları ayrı bir derya, şimdilik değinmeyeceğim. Ama OLAP denince akla veri ambarları üzerinde yapılan boyutsal analiz işlemleri akla gelse yeterli.
Kavramlar İŞ ZEKASI Literatürdeki tüm kavram karmaşasına rağmen İş Zekası, işletmelerin karar verme süreçlerini etkileyen ve optimize eden tüm araçların kullanımını, verilerin toplanmasını, saklanmasını, düzenlenmesini, analiz edilmesini ve görselleştirilmesini, verilerin en etkin ve kolay biçimde yönetilmesini sağlayan tüm süreçleri kapsayan bir anlayıştır. Verilerden bilgiye geçiş sürecinde İş Zekası bir takım yöntem ve teknolojilerle bütünleşik bir yapı sunmaktadır.
Kavramlar İSTATİSTİKSEL ANALİZLER 17. Yüzyıla kadar sadece ham veri kaydetme şeklinde gerçekleşen istatistiksel çalışmalar, 18. ve 19. Yüzyıllarda J. Bernoulli ve K. Gauss un katkılarıyla matematik temelleri üzerine oturtulmuş, olasılık teorisi geliştirilmiştir. Dar anlamda istatistik; geçmiş ve şimdiki durumla ilgili toplanmış sayısal verileri geliştirilmiş olan bazı yöntemler ile analiz ederek gelecek hakkında karar vermemizi kolaylaştıran bilim dalıdır. İstatistiksel analizler temelde iki amaç doğrultusunda gerçekleştirilmektedir. Tanımlayıcı, Tahmin Edici.
Kavramlar VERİ MADENCİLİĞİ Veri madenciliği ile ilgili farklı tanımlar yapılmıştır. Bu tanımlardan bazılarına aşağıda yer verilmiştir. Piatetsky-Shapiro ya göre, veriden anlamlı ilişkiler ve örüntüler (patterns) çıkarma sürecine, veri madenciliği, bilgi çıkarımı, bilgi keşfi, veri arkeolojisi ve veri şablon işleme gibi isimler verilmektedir. Veri madenciliği tanımını daha çok istatistikçiler, veri analizcileri ve yönetim bilişim sistemleri kullanıcıları kullanmaktadır. İlk olarak 1989 yılında bir atölye çalışmasında, veri işleme sürecinde bilginin son ürün olduğunu vurgulamak için veri tabanlarında bilgi keşfi tanımlaması kullanılmıştır.
Kavramlar Adrians ve Zantinge e göre veri tabanlarında zengin bilgiye sahip olan pek çok organizasyon, bu bilgiyi yönetmenin çok zor olması sebebiyle, bilgisayarları kullanmaktadır. Bilgisayarların kullanılarak veriler içerisinden anlamlı bilgilerin çıkarılması, veri madenciliği olarak tanımlanmıştır. Veri madenciliği, gelecekteki kararlara yardımcı olmak için veritabanlarından eğilimler (trends), örüntüler ve iliskiler bulur. VM, sadece uzmanlara veriyi anlamada ve iyi karar vermede yardımcı olur.
DİKKAT!!! Veri madenciliği, ham veriden nitelikli bilgiye ulaşmada kullanılan bir süreçtir. Buna rağmen VM sihir değildir. Bu işlemin bizi iyi sonuçlara götüreceğini hiç kimse garanti edemez. VM, araştırma ve çözümlemenin birden fazla disiplin kullanılarak yapılmasıdır. Makine öğrenimi, istatistik, veritabanı teknolojisi ve verilerin görüntülenmesi (data visualization) gibi yöntemlerin birlikte kullanıldığı bir yöntemdir. Her bir disiplin bu veri kesfine kendi özünü katmaktadır.
Kavramlar
Kavramlar - Karışıklık VM ile benzer ve tamamen farklı anlamlar taşıyan buna eş değer başka kullanımlar da literatüre geçmiştir. Veritabanlarından Bilgi Madenleme (knowledge mining from databases), Bilgi Çıkarımı (knowledge extraction), Veri ve Örüntü Çözümlemesi (data/pattern analysis), Veri Arkeolojisi ve Veri Tarama gibi terimler literatürde kullanılmaktadır. Bunların arasındaki en popüler kullanım Veritabanlarında Bilgi Kesfi (VTBK, Knowledge Discovery From Databases, KDD)'dir ve birçok insan VM yi en çok VTBK ile eş anlamda kullanmaktadır.
VM Proje Safhaları Veri madenciliğinin bir çok disiplini barındıran yapısı ve farklı uygulama alanlarındaki görevlerle prosedürlerin çeşitliliği, veri büyüklüğünden dolayı farklı ve kirli veri kaynakları ile çalışmadaki zorluklardan dolayı standart bir metodolojiye ihtiyaç duymaktadır. CRISP-DM (Cross Industry Standard Process for Data Mining) projesi, bir süreç modeli tanımlayarak bu problemlere hitap eder. CRISP-DM süreç modeli, Daimler Chrysler AG, SPSS, NCR ve OHRA gibi lider veri madenciliği kullanıcıları ve tedarikçilerinden oluşan bir konsorsiyum tarafından geliştirilmiştir.
VM Proje Safhaları
Veri Madenciliği Modelleri VM de kullanılan modeller, tahmin edici (predictive) ve tanımlayıcı (descriptive) olmak üzere iki ana baslık altında incelenmektedir. Tanımlayıcı modellerde ise karar vermeye rehberlik etmede kullanılabilecek mevcut verilerdeki örüntülerin tanımlanması sağlanmaktadır. X/Y aralığında geliri, evi ve arabası olan, ayrıca çocukları okul çağında olan aileler ile, çocuğu olmayan ve geliri X/Y aralığından düşük olan ailelerin satın alma örüntülerinin birbirlerine benzerlik gösterdiğinin belirlenmesi tanımlayıcı modellere bir örnektir.
Veri Madenciliği Modelleri Tahmin edici modellerde, sonuçları bilinen verilerden hareket edilerek bir model geliştirilmesi ve kurulan bu modelden yararlanılarak sonuçları bilinmeyen veri kümeleri için sonuç değerlerin tahmin edilmesi amaçlanmaktadır. VM modellerini gördükleri islevlere göre, Sınıflama (Classification) ve Regresyon, Kümeleme (Clustering), Birliktelik Kuralları (Association Rules) ve Ardısık Zamanlı Örüntüler (Sequential Patterns) üç ana başlıkta toplanabilir.
Veri Madenciliği Modelleri
Kullanılan Programlar
Kullanılan Programlar
Kullanılan Programlar
Kullanılan Programlar
Kullanılan Programlar
Veri Madenciliği Projesi Bileşenleri Bir veri madenciliği projesi için ihtiyaç duyulan 4 temel bileşen vardır.
Veri Tabanı Bilgisi İş Bilgisi Veri Madenciliği Bilgisi Entegrasyon Bilgisi
Veri Tabanı Bilgisi İş bilgisi Veri Madenciliği ile cevaplanacak iş probleminin çerçevesinin çizilmesi Elde edilen sonuçların iş hedefleri doğrultusunda değerlendirilmesi İş alanı ve organizasyon yapısı hakkında bilgi ve tecrübe gerektiren öneriler ve yönlendirmelerde bulunulması Organizasyonun yüzleştiği kritik konuları iyi bilen iş kullanıcısı veri madenciliğinin adres göstereceği kritik soruları cevaplamak için yardımcı olacaktır. Entegrasyon Bilgisi Veri Madenciliği Bilgisi
Veri Tabanı Bilgisi İş bilgisi Bu bileşen olmadan bir veri madenciliği projesi, aslında iş açısından önemsiz olan problemler için teknik açıdan iyi bir çözümler üretme riskine sahip olacaktır. Veri Madenciliği Bilgisi Entegrasyon Bilgisi
Veri Tabanı Bilgisi Bir veri madenciliği projesi elde iyi bir veri olmadığı sürece başarılı olamaz. Hangi veri tabloları ve dosyalar ulaşılabilir durumda? Birbirleri ile nasıl ilişkilendirilmişler? Alanlar nasıl kodlanmış? Hangi alanların düzenlenmeye ihtiyacı var? Hangi değerler açıklanabilir? Hangileri hatalı, uç ya da ekstrem değerler? Sadece analiz edilecek verilere aşina, organizasyonun veri sistemleri hakkında kapsamlı bilgiye sahip birisi bu ve diğer soruları cevaplayabilecektir. İş Bilgisi Veri Madenciliği Bilgisi Entegrasyon Bilgisi
Veri Tabanı Bilgisi Bu bileşen olmadan en iyi yöntem kullanıldığı halde doğru iş problemine yanlış çözüm bulma ya da ulaşılabilir bir çözüm bulamama riski ile karşı karşıya kalınacaktır. İş Bilgisi Veri Madenciliği Bilgisi Entegrasyon Bilgisi
Veri Tabanı Bilgisi Veri Madenciliği Bilgisi İş Bilgisi Belirlenen iş problemi için en uygun veri madenciliği aracının tespit edilmesi Bir tekniğin optimum ayarlarınıntespit edilmesi Tuhaf ve kayıp değerlerin Analiz üzerindeki etkilerinin ölçülmesi Entegrasyon Bilgisi
Veri Tabanı Bilgisi Veri Madenciliği Bilgisi İş Bilgisi Bu bileşen olmadan önemli bir iş problemi elde faydalı bir veri olduğu halde cevaplanamayabilir ya da yanlış cevaplanabilir. Entegrasyon Bilgisi
Veri Tabanı Bilgisi İş Bilgisi Veri Madenciliği Bilgisi Entegrasyon Bilgisi Bir modelin yeni veri setine entegrasyonu Clementine ın dışından, veri tabanı tarafında yapılabilir. Clementine tarafından yaratılmış bir model kullanılabilir fakat farklı bir uygulamaya gömülebilir. Bu tip implementasyonlar için spesifik uzmanlıklara ihtiyaç duyulmaktadır. Programlama bilgisi gibi bir veri madenciliği uzmanının sahip olmayabileceği uzmanlıkların diğer takım arkadaşları tarafından sağlanmasına ihtiyaç duyulabilir.