İnşaat Alanı: Veri Madenciliği Hakkındaki Mitler ve Tuzaklar



Benzer belgeler
bilgiçiftliği Genel Çevrimiçi Gizlilik ve Bilgi güvenliği Bildirimi

Mevcut Yazılım Değerlendirme Rehberi Kullandığınız yazılım ne kadar verimli?

Satış Servisi Müşterilerinizin soru ve problemlerine satıştan önce ve sonra nasıl cevap vereceksiniz?

WEB KULLANILABİLİRLİĞİ

VERİ KAYNAKLARI. Bilgi sisteminin öğelerinden biride veri

ABONELİK MERKEZİNE GİRİN

Sedona. Nisan 2013 Eğitim Kataloğu

NEDEN DOĞULİNE. Detaylı Analiz. Doğru Planlama. Hedef Kitleye Uygunluk. Doğru İçerik Stratejisi. 7/24 Destek. Deneyimli Ekip

GİRİŞİMCİLİKTE İŞ PLANI (Yapım - Uygulama) BUSINESS PLAN IN ENTREPRENEURSHIP (Planning - Application)

Power BI. Neler Öğreneceksiniz?

İş Yerinde Ruh Sağlığı

İlaçla-İlgili Sorunlar için Sınıflandırma

KURUMSAL İŞ ÇÖZÜMLERİNDE 19 YILLIK DENEYİM. Tek Elden Teknoloji

Opcode Yazılım. Opcode Yazılım; alanlarında uzman mühendislerin bir araya gelerek kurdukları bir yazılım şirketidir.

bilgiçiftliği Genel Çevrimiçi Gizlilik ve Bilgi güvenliği Bildirimi

bilgiçiftliği Genel Çevrimiçi Gizlilik ve Bilgi güvenliği Bildirimi

Veri Madenciliği Yöntemleriyle İGDAŞ Çağrı Merkezi Veri Analizi VE Kalite Fonksiyon Yayılımı Yöntemiyle Süreç İyileştirme Çalışması

Franchise İlişkilerinin Değerlendirilmesi ve Özel Kapsamlı Hizmetler

İş Zekâsı Sistemi Projesi

Nagios XI Günümüzün talep gören kurumsal gereksinimleri için en güçlü BT altyapısı gözetim ve uyarı çözümüdür.

Google Scripts. Neticaret Sistemine Google Analytics ve AdWords sistemleriyle ilgili 3 yeni parametre eklenmiştir.

İSTANBUL TEKNİK ÜNİVERSİTESİ ELEKTRİK-ELEKTRONİK FAKÜLTESİ. AKILLI FİYAT ARAMA MOTORU TiLQi.NET

MAT223 AYRIK MATEMATİK

MÜŞTERİ İLİŞKİLERİ YÖNETİMİ (PZL208U)

LOGO İş Zekası çözümü ile kurumsal raporlama ve analizler. Cem Yılmaz Genel Müdür LOGOBI Yazılım

FABREKA YAZILIM ELEKTRONİK DANIŞMANLIK TİC. LTD. ŞTİ.

Uyumluluk markalamasından katma değerli kodlamaya kadar

Data Classification is a Business Imperative. TITUS White Paper. Veri Sınıflandırma Artık Bir Zorunluluk!

DARÜŞŞAFAKA CEMİYETİ HOTSPOT İNTERNET ERİŞİMİ YAZILIM VE DONANIM ALTYAPISI KURULUMU VE BAKIM HİZMETİ TEKNİK ŞARTNAMESİ

Eğitim Hizmetleri. İnsan Kaynakları Uzmanları için Bilişim Teknolojileri Eğitimi

BİLGİ GÜVENLİĞİ. İsmail BEZİRGANOĞLU İdari ve Mali İşler Müdürü Türkeli Devlet Hastanesi

Avrupalı liderler baskıcı, Türk liderler ise dostane

SUBA. SUBA CRM. Bulut Teknoloji ile İşinizi Zirveye Taşıyın! SMART TECHNOLOGY SOLUTIONS

Epson Toplantı Çözümleri İNSANLARI, MEKANLARI VE BİLGİYİ BİR ARAYA GETİRİN

Müşteri Merkezli İş. Gürcan Banger

4.2. Kayıt formlarındaki bilginin alanlara bölündüğünü ve birkaç kayıt formunun bir dosya oluşturduğunu fark eder.

Veritabanı Yönetimi Bilgisayarların. Keşfi Hedefler. Veritabanı, Veri ve Bilgi. Veritabanı, Veri ve Bilgi. Veritabanı, Veri ve Bilgi

TEKNİK ÇÖZÜMLERİ HAZIRLAMA REHBERİ

ELEKTRONİK İNSAN KAYNAKLARI YÖNETİMİ (ELECTRONIC HUMAN RESOURCES MANAGEMENT) E- İKY / E- HRM (I)

ÜRETİMDE SONLU KAPASİTE ÇİZELGELEME VE YAZILIMIN ÖNEMİ! Üretim ve Planlama Direktörü

Kapı Donanımı Şartnameleri Geleceği Yazmak


Bilkent Bilgi Erişim Grubu Bilkent Yenilik Bulma Deney Koleksiyonu (BilNov-2005) kullanımı ile ilgili Bireysel Başvuru

Misyonumuz. Vizyonumuz

Konvansiyonel Yangın Paneli 500 Serisi Alfabe Kadar Kolay

Bilişim Teknolojileri Test ve Belgelendirme Hizmetleri. Mustafa YILMAZ

4.4. Hazır bir veritabanı kullanılarak amacına yönelik sorgulama yapar ve yorumlar.

LSI Keywords İle Sitenizin Sıralamasını Ve Trafiğini Arttırın

A/B TESTING. Mert Hakan ÖZLÜ N


Neden Sosyal Medyanın Geleceği Reklam Değil, Yayıncılık?

İŞ SÜREKLİLİĞİ YÖNETİM SİSTEMİ İÇİN KRİTİK BAŞARI FAKTÖRLERİ

SİSTEM ANALİZİ ve TASARIMI. ÖN İNCELEME ve FİZİBİLİTE

VERİ MADENCİLİĞİ önemsiz olmayan, gizli, önceden bilinmeyen, potansiyel olarak kullanışlı

WEB USABILITY. Ruşen Yürek. Web Kullanılabilirliği ; İçerik Hakkında. Kullanıcı Merkezli Tasarım(UCD) FreeDownloadPowerPoint.

Datasoft Yazılım Genel Muhasebe Programı Muhasebe Fişlerinin Günlük Birleştirilmesini Açıklayan Kılavuz

ISO 14001:20014 ve ISO 14001:2015 Şartları Arasındaki Eşleştirme Eşleştirme Kılavuzu

A Unique Imprint. Tüm ürün çeşitlerimizi ve spesifik uygulama başarılarımızı görebileceğiniz hsasystems.com web sitemizi ziyaret edebilirsiniz.

KOBİ'lerde Sözleşme ve Risk Yönetimi. Almanca-Türkçe Anket. Marmara Üniversitesi İstanbul / SRH Hochschule Berlin

GİZLİLİK SÖZLEŞMESİ. Lütfen Gizlilik Sözleşmesi ni dikkatlice okuyunuz.

Geçen ay meslektaşım, eğitmen arkadaşım Gülgün Koç ne güzel hatırlattı Peter Drucker ın meşhur tespitini : Ölçemediğiniz hiçbir şeyi yönetemezsiniz

Kullanım Durumu Diyagramları (Use-case Diyagramları)

RotamNet Ticari Programı Kısa Tanıtım Dökümanı

Street Smart Marketing

Türkiye de Kullanıcı Deneyimi 2018 Araştırma Raporu v.1 Eylül 2018

SEÇKİN ONUR. Doküman No: Rev.Tarihi Yayın Tarihi Revizyon No 01 OGP 09 SEÇKİN ONUR BİLGİ GÜVENLİĞİ POLİTİKASI

Google'da arayan potansiyel müşteriler sizi bulsun. edildiğinde veya telefonla arandığınızda ödeme yapın. MURATOLMEZ.COM

İŞLETMELERDE İŞ SÜREÇ YÖNETİMİ (BPM) UYGULAMASI. Hazırlayanlar Fatma Didem GÜRKAN Endüstri Mühendisi Ahmet Alper ÇALIŞKAN Endüstri Mühendisi

NESNEYE YÖNELİK ÇÖZÜMLEME SÜRECİ

BİLGİ GÜVENLİĞİ BİLİNÇLENDİRME EĞİTİMİ

BĠR E-ÖĞRENME UYGULAMASI: BĠLGĠ GÜVENLĠĞĠ BĠLĠNÇLENDĠRME Asım Gençer GÖKCE Uzman Araştırmacı

Katılımcı Bilgilendirme Sayfası

Enerji dağıtım sistemlerini boyutlandırmanın akıllı yolu, üstelik TÜRKÇE olarak! Kolay, hızlı ve güvenli

UYUMSOFT BAĞIMSIZ E-DEFTER PLATFORMU / PROBAR KONNEKTÖRÜ PROBLEM ÇÖZÜMLERİ

BÖLÜM 2. Bilişim Sistemleri, İş Süreçleri ve İşbirliği. Doç. Dr. Serkan ADA

Kuruluma başlamadan önce gerekli tüm bileşenlerin mevcut olup olmadığını kontrol edin. Kutuda şunlar bulunmalıdır:

Sistem Geliştirme Yaşam Döngüsü (The Systems Development Life Cycle) (SDLC)

Karar Verme ve Pazarlama Bilgisi: Yönetim Kurulu Odasına Giden Yol

Hayat Boyu Öğrenme Web Portalı Kullanıcı Kılavuzu

BİLİŞİM İLE TANIŞIYORUM BİLİŞİM TEKNOLOJİLERİNİN KULLANILDIĞI ALANLAR

Resesif (Çekinik) Kalıtım

Versiyon Kontrol Sistemleri

ÇÖZÜM BİLGİSAYAR KOLAY RANDEVU RANDEVU WEB SERVİSLERİ YAZILIM FİRMALARI ENTEGRASYON KILAVUZU Sürüm: 1.0

Güçlü olan hayatta kalır: Başarılı inşaat mühendislerinin değişen zamana ayak uydurmasının 3 yolu

Kurumsal Yönetim Sistemleri Sistemleri

BİT PROJELERİNDE KARŞILAŞILABİLEN OLASI RİSKLER


Arama motoru: kuş gribinin etkileri

Yetkili servislerimizin güncel listesine yukarıdaki internet adresinden ulaşabilirsiniz.

TeraStation 3000/4000/5000/7000 ile Replikasyon. Buffalo Technology

Varlık davranış modeli: Bu aşama her entity ye etki eden durumların tanımlandığı, modellendiği ve dokümante edildiği süreçtir.

Lojistik ve Taşımacılık Sektöründe Yeni Hizmet Modeli. Lojistik ve Taşımacılık Sektöründe Yeni Hizmet Modeli

Kamu İç Denetçileri Eğitim Programı

Yaz.Müh.Ders Notları #4 1

ISL 201 Pazarlama İlkeleri. Doç. Dr. Hayrettin ZENGİN

Site Türleri ve Yapıları. Web Teknolojileri ve Programlama ODTÜ-SEM

İşbu web sitesindeki malzemeler ve dokümanlar hiçbir surette değiştirilemez, kopyalanamaz, çoğaltılamaz ve yeniden yayınlanamaz.

VERI TABANLARıNDA BILGI KEŞFI

Plena Genel Seslendirme ve Acil Anons Sistemi Güvenliğe giden hızlı yol

Transkript:

İdari Özet İnşaat Alanı: Veri Madenciliği Hakkındaki Mitler ve Tuzaklar Tom Khabaza Veri Madenciliği Direktörü, SPSS İçindekiler Giriş 2 Veri Madenciliği Hakkındaki Mitler ve Kavram Yanılgıları 2 Veri Madenciliğinin Tuzakları ve Bunlardan Kaçınmanın Yolları 5 Sonuç 9 SPSS kayıtlı bir ticari markadır ve bahsedilen diğer SPSS ürünleri SPSS Inc. e ait ticari markalardır. Diğer tüm isimler kendi sahiplerinin ticari markalarıdır. 2007 SPSS Inc. Tüm Hakları Saklıdır. HHAEB-1207 1

Giriş Cesur bir veri madencisi, veri dağları altında kalma ya da gizemli bir şekilde kaybolan terabayt ile birlikte kaybolma gibi birçok risk altındadır. Mitler ve kavram yanılgıları kendi risklerini yaratır ve bunların çürütülmesi gerekmektedir. Bu yazı bazı riskleri ana hatlarıyla belirtmekte, bazı mitleri çürütmekte ve veri madencileri için koruyucu kask sağlamayı amaçlamaktadır. Veri madenciliğinin, bir iş süreci işinizi daha etkin bir şekilde yapmanıza yarayacak, veriniz içinde sezgilerinizi geliştiren kalıpları bulma yolu, olduğunun anlaşılması çok önemlidir. Veri madenciliği müşteri ilişkileri ve diğer işletme kararları hakkında rehberlik yapmanızı sağlayacak öngörülerde bulunur. Veri Madenciliği Hakkındaki Mitler ve Kavram Yanılgıları Mit #1: Veri Madenciliği Bir Teknoloji Uzmanı Tarafından Laboratuarda Yapılır Veri madenciliği ileri bir teknoloji ve onun araçlarını kullanır. Bunlardan özellikle modelleme teknikleri BT camiası tarafından pek anlaşılmaz. Peki, bu, veri madenciliğinin laboratuarda ve sadece ilgili teknolojinin her nüansını özümsemiş kişiler tarafından yapılabileceği anlamına mı gelmektedir? Gerçek bunun tam tersidir. Çünkü veri madenciliği bir iş sürecidir ki bu süreçte iş bilgisi çok büyük önem taşır. Veri madenciliğinin önemi ancak sonuçlar işletme faaliyetlerinde kullanıldığında anlaşılır. Veri madenciliği, iş hakkında bilgi sahibi olmadan yapıldığında; anlamsız ya da işe yaramayan bilgiler ortaya çıkabilir, (bkz. Tuzak #4) bu yüzden işin sorununun ne olduğu hakkında geniş bilgiye sahip biri tarafından yapılması çok önemlidir. Bu kişinin aynı anda veri madenciliği teknolojisi hakkında da geniş bilgiye sahip olduğu durumlar çok nadiren görülür. Dolayısıyla veri madenciliği araçlarının işletme kullanıcıları tarafından erişilebilir olmasını sağlamak bu araçların sağlayıcılarının sorumluluğundadır. Aynı miktarda önem arz eden diğer bir olay ise sonuçların kullanıma açmak için işletme içine konuşlandırılmasıdır. Veri madencileri projenin daha başlangıcında sonuçların işletme faaliyet sürecine nasıl uyacağını planlamalıdırlar. İşletmeler veri madenciliği sonuçlarını etkin bir şekilde bütün işletme boyunca yayacak altyapıyı kurmalıdırlar ve araç sağlayıcıları araçlarının bu altyapıya kolayca uyum sağladığından emin olmalıdırlar. Veri madenciliği iş hakkındaki bilginin büyük önem taşıdığı bir iş sürecidir: Veri madenciliğinin değeri ancak sonuçlar işletme faaliyetlerine uygulandığı zaman anlaşılabilir. 2

Mit #2: Veri Madenciliği Bütünüyle Algoritmalarla İlgilidir Tipik bir veri madeni konferansına katılan ya da ilgili süreci takip eden bir işadamı, veri madenciliğinin tamamen ileri veri analizi algoritmaları hakkında olduğu izlenimine kapılabilir. Bu kavram yanılgısı şöyle özetlenebilir: Veri madenciliği için ihtiyacınız olan tek şey iyi algoritmalardır. Algoritmalarınız ne kadar iyi olursa veri madenciliğiniz de o kadar iyi olur. Veri madenciliğinin etkinliğini ilerletmek, algoritma bilgisini ilerletmek demektir. Bu görüşe sahip olmak veri madenciliğini yanlış anlamak demektir. Veri madenciliği, işletme hedeflerini belirlemek, işletme hedeflerini veri madenciliği hedeflerine uyarlamak, gerekli donanımı edinmek, anlamak ve ön veri işlemesini yapmak, analizin sonuçlarını değerlendirip sunmak ve bu sonuçları işletme yararına kullanmak için konuşlandırmak gibi birçok unsurdan oluşan bir süreçtir. Yukarıda bahsedilenlere yeni ya da gelişmiş veri madenciliği algoritmalarının önemini küçümsemek için değinilmemiştir. Problem, veri madencilerinin sadece algoritmalara yoğunlaşarak %90-95 lik orandaki diğer veri madenciliği işlemlerini görmezden gelmesinin sonucunda oluşmaktadır. Bu kavram yanılgısının sonuçları herhangi bir veri madenciliği projesi için felaket olabilir. Faydalı herhangi bir bilginin ortaya çıkmamasına neden olabilir. Deneyimli veri madencileri veri madenciliği işlemleri için daha geniş bir bakış açısına sahip olmak gerektiğinin farkındadırlar. Mit #3: Veri Madenciliği Bütünüyle Öngörücü Hassasiyetle (Predictive Accuracy) İlgilidir Veri madenciliği tamamen veri analizi algoritmaları ile ilgili olmasa da veri madenciliğinin bir kısmı algoritmalarla ilgilidir. Bu noktada Bir algoritmanın kalitesini nasıl değerlendirebiliriz? sorusu ortaya çıkar. İlk başta ana kıstasın, algoritmanın oluşturduğu modellerin öngörücü hassasiyeti olduğunu düşünebilirsiniz. Fakat bu bakış açısı veri madenciliğinde algoritmaların rolünü yanlış temsil etmektedir. Bir öngörücü modelin belirli bir seviyede hassasiyet payı olması gerçeği ortadadır çünkü bu onun, veri içindeki kalıpları ortaya çıkardığını gösterir. Ancak, bir algoritma ya da modelin kullanılabilirliği de ayrıca bir takım diğer özelliklere göre belirlenir ki bunlardan biri, ortaya çıkan modeli anlamanın derin teknik bilgi gerektirmesi ya da herhangi bir işletme çözümleyicisi tarafından anlaşılabilir olmasıdır. Öngörücü hassasiyetin algoritma değerlendirmede birincil kıstas olduğuna inanan veri madencileri, sadece teknoloji uzmanları tarafından kullanılan algoritmalar kullanabilirler. Fakat bu algoritmalar ilerleyen süreçte çok küçük bir rol alacaklardır zira veri madenciliği 3

işletme uzmanları tarafından yürütülen bir süreçtir ve bu sürecin başarısı teknik olmayan işletme çalışanlarının girdi ve müdahalelerine dayanmaktadır. Mit 4: Veri Madenciliği Bir Veri Ambarı Gerektirir İşadamları sıklıkla, veri madenciliği için bir veri ambarına sahip olmanın ön koşul olduğunu düşünürler. Bu iki teknoloji arasındaki ilişki hakkında, idrak edilmesi zor bir kavram yanılgısıdır. Veri madenciliğinin iyi düzenlenmiş, görece temiz ve kolayca erişilebilen bir veri ambarından yararlanabileceği doğrudur. Özellikle veri ambarının, veri madenciliği akılda tutularak ve veri madenciliği projesinin gerekleri hakkında bilgi sahibi olarak kurulması durumunda daha da büyük önem arz eder. Lakin durum böyle değilse, ambarlanmış veri, kaynak ya da faaliyetsel veriye göre veri madenciliği için daha az faydalı olabilir. En kötü durumda ise ambarlanmış veri tamamen faydasız olabilir. (örneğin, sadece özet veri depolanmışsa) Bu ikisi arasındaki ilişki ile ilgili daha düzgün bir tasvir, veri madenciliği düzgün tasarlanmış veri ambarından faydalanabilir ve böyle bir veri ambarı oluşturmak genelde öncesinde bazı araştırmacı madencilik işlemlerinin yapılması koşuluna bağlıdır olmalıdır. Veri setleri, büyük ya da küçük olsun, işletmeler, kullanıcının zamanını optimize eden veri madenciliği araçlarını seçmelidirler. Mit 5: Veri Madenciliği Tamamen Çok Büyük Miktarda Veriyle İlgilidir Veri madenciliği ile ilgili ilk açıklamalar genelde Artık hiç olmadığı kadar veri toplayabiliyoruz, ancak bu çok büyük veri depolarından nasıl yararlanabiliriz? gibi cümlelerle başlardı. Veri depolarının boyutlarına odaklanmak veri madenciliği hakkında uygun bir girizgah gibi gözüküyordu fakat bu, veri madenciliğinin doğasına aykırıydı. İşletmelerin veri madenciliğinden yararlanabileceği bir çok büyük veri setleri varken, bunların veri madenciliğinin yegane odağı olduğunu düşünmek hata olur. Birçok kullanışlı veri madenciliği projesi, örneğin sadece birkaç yüz ya da bin kayıt içeren küçük ya da orta boylu veri setlerinde yapılır. Veri madenciliğinin sadece çok büyük veri depoları için uygun olduğu düşüncesine katılmak işletmelerin ölçeklenebilirlik kullanışlığını feda edecek araçlar seçmelerine neden olacaktır ki aslında iki özellik de çok önemlidir. Önde gelen bir veri madenciliği aracı müşterisinden alıntı yapacak olursak: Diğer madencilik araçları makine zamanını optimize eder fakat bu araç benim zamanımı optimize ediyor. Veri setleri küçük ya da büyük olsun, işletmeler kullanıcının zamanını optimize eden veri madenciliği aracını seçmelidirler. 4

Veri Madenciliğinin Tuzakları ve Bunlardan Kaçınmanın Yolları Tuzak #1: Veri Dağlarının Altında Kalmak Veri madenciliği, çözümleyicinin değerli iş bilgilerini kullandığı etkileşimli, yinelenen bir süreçtir ve veri ve işletme sorunu ile bağlantılıdır. Fakat mit 5 te bahsedildiği gibi düşünenler (veri madenciliği büyük miktarda veri ile ilgilidir) sıklıkla bu sürecin bütün kullanılabilir veriye uygulanmak zorunda olduğunu sanırlar. Bu, kullanılabilir donanım ve yazılımın, kabul edilebilir, etkileşimli bir karşılık veremeyeceği veri birimlerinde madencilik yapılmasına neden olabilir. Böyle durumlarda veri madenciliği süreci ağır işler ve bir soru cevaplandığında çözümleyici sorunun neden sorulduğunu hatırlayamaz. Bu tuzaktan kaçınmanın yolu düzgün örnekleme kullanmaktan geçer. Örneğin, bir milyon müşterimiz ve yüzde 20 yıllık yıpranma (veya müşteri kaybı ) oranımız varsa, bir milyon ve hatta 500.000 örnek üzerinden grafiklerimizi temellendiremeyiz veya modellerimizi oluşturamayız. Şu soru ve cevapları dikkate alın: S: Ne kadar müşteri kaybı profili bulmayı bekliyoruz? C: Belki on. S: Hatasız bir model oluşturabilmek için her profilden kaç örneğe ihtiyacımız var? C: Belki bin. Bu yüzden, on ya da yirmi bin müşteri kaybının olduğu bir örnek ve bu miktarlara denk kaybedilmeyen müşteri, analiz için yeterli olacaktır. Bunun, veri madencilerinin asla milyonlarca örnekten oluşan modeller oluşturma ihtiyacıyla karşılaşmayacağı anlamına gelmeyeceğini göz önünde bulundurun. Bu, sadece veri kullanılabilir diye bu şekilde davranmaları gerekmediğini göstermektedir. Belirli bir proje için kullanılabilir ve ilgili verinin miktarı ilk başta gerekenden çok daha az olabilir. 5

Tuzak #2: Gizemli Bir Şekilde Kaybolan Terabayt Bu genel bir hadisedir fakat her zaman tuzak değildir. Belirli bir veri madenciliği sorunu için kullanılabilir ve ilgili verinin ilk başta gerekenden çok daha az olabileceği gerçeğine atıfta bulunur. Şu senaryoyu gözünüzde canlandırın: Siz bir veri madenciliği danışmanısınız ve müşteriniz de kredi riskini belirlemek için müşteri verisinin madenciliğini yapmak isteyen büyük bir banka. Bankanın, müşterileri ile ilgili terabaytlarca veri depoladığını ve halihazırdaki hesaplama kaynaklarının bu boyuttaki veri için madencilik yapmada yetersiz kalabileceğinden yakındığını düşünün. Sorun şu şekilde çözülebilir. Farklı tipte krediler (kişisel borçlanmalar, işletme borçlanmaları, açık krediler) farklı biçimlerde kredi risklerini temsil ederler. Böylece her veri madenciliği projesi sadece bir tip borçlanana hitap edecektir. Bankanın domain uzmanları bir takım faktörleri ilgili olarak değerlendirerek ve banka da ileriyi planlayarak, bu faktörlerle ilgili veriyi 18 aydır toplamaktadır. O zamandan beri neredeyse bin adet ilgili tiple alakasız borçlanma durumu oluşmuştur. Bu da demektir ki, ilgili veri, binden daha az alakasız borçlanma durumu artı büyük miktarda düzgün borçlanma durumu örneğinden hepsi için örneğin 3000 diyelim oluşmaktadır. Bu muhtemelen yeterlidir fakat sadece düzgün öngörücü bir model yaratmak için yeterlidir. Gizemli bir şekilde kaybolan veriyi madenleme ihtiyacı her nasılsa, veri madencisini de birlikte götürmemektedir (bu seferlik). Tuzak #3: Dağınık Veri Madenciliği Tüm iyi niyetlere rağmen veri madenciliği bazen belirli hedeflerden yoksun ve sonuçların nasıl kullanılacağı ile ilgili herhangi bir fikrin olmadığı, plansız şekilde de olabilir. Bu zamanın boşa harcanmasına ve faydasız sonuçların ortaya çıkmasına neden olur. Faydalı sonuçlar ortaya çıkartmak için, hepsi önceden formüle edilmiş işletme amaçlarını, veri madenciliği hedeflerini ve konuşlandırma planlarını düzgün tanımlamak çok önemlidir. Bunu sağlamanın kolay bir yolu CRoss-Industry Standard Process for Data Mining (CRISP-DM) *1+ gibi standart bir işlem kullanmaktır. Böyle bir işlem, veri madenciliği için düzgün hazırlıkların yapılmasını sağlar, iletişim metodları ve sonuçları için genel bir dil oluşturur. Veri madenciliği araçlarının standart işlem modellerini desteklemesi gerekmektedir. Veri madenciliği araçlarının CRoss-Industry Standard Process for Data Mining (CRISP-DM) gibi standart işlem modellerini desteklemesi gerekmektedir. 6

Tuzak #4: Yetersiz İş Bilgisi İş bilgisinin veri madenciliğinde oynadığı önemli rolden bahsetmiştim. İş bilgisi olmadan, işletmeler ne faydalı sonuçlara ne de önlerindeki veri madenciliği süreciyle ilgili bir rehbere ulaşabilirler. Bazen son kullanıcının veri madencisine Veri burada, lütfen git, madenciliğini yap ve cevaplarla dön. dediği durumlar olabilir. Eğer böyle olursa, faydalı sonuçlar üretmek için proje en iyi ihtimalle, çok uzun sürecektir ve maliyetli tekrarlamalar yapmak durumunda kalacaktır. En kötü durumda ise abuk sabuk olacak ve başarısızlıkla sonuçlanacaktır. Bu tuzaktan yalnızca, hem son kullanıcının, hem de iş hakkında detaylı bilgi sahibi birisinin veri madenciliği sürecinin her aşamasına katılımıyla kaçınılabilir. İdeal durumda veri madencisi veya veri madenciliği danışmanı aynı zamanda iş bilgisine sahip olurlar. Bu olmadığında, veri madencisi birebir anlamda, üzerinde çalışılan konu hakkındaki sorulara cevap verebilecek gerekli iş bilgisine sahip birinin yanına oturmalıdır. Bu çalışmanın etkin olabilmesi için, yüksek derecede etkileşimli bir veri madenciliği ortamıyla iyi bir karşılık verme süresi gereklidir. Tuzak #5: Yetersiz Veri Bilgisi Veri madenciliği yapabilmek için, Bu alandaki kodlar ne işe yarıyor? Bu tabloda müşteri başına birden fazla kayıt olabilir mi? gibi sorulara cevap verebilmemiz gerekmektedir. Bazı durumlarda bilgiyi edinmek şaşırtıcı derecede zordur. Veri uzmanı işletmeyi bırakmış, farklı bir departmana geçmiş olabilir veya eski sistem olması durumunda bir veri uzmanı hiç olmayabilir. Bu problem veritabanı veya veri ambarı yönetiminin dış kaynaklı olması durumunda daha da alevlenir. Dışarıdaki sağlayıcı, bu bilgiyi sağlamak için gelecekte ihtiyaç duyulması muhtemel kullanıcıya nazaran çok daha az istekli olabilir. Bu problem için kolay bir çözüm yolu yoktur. BT departmanlarının işletme veritabanları hakkındaki bilgiyi korumaları konusunda uyarılmaları gerekmektedir. Aynı zamanda bir veri madenciliği projesi teklif edildiğinde, veri madencilerinin ne kadar veri bilgisinin kullanılabilir olduğunu düşünmeleri ve olmaması ve eksik olması durumunda oluşacak riskleri hesaplamaları gerekmektedir. Tuzak #6: Hatalı Varsayımlar, Uzmanların Nezaketleri İş ve veri uzmanları çok önemli kaynaklardır. Fakat bu, veri madencisinin onların tüm ifadelerini sorgulamadan kabul edileceği anlamına gelmez. Veri madencisinin, uzmanların ifadelerinin geçerliliğini onaylama arayışında olması gerekmektedir. 7

Hatalı veya yanlış yönlendirici tipik ifadeler: Bu iki tipte hesap hiçbir müşteride bulunamaz. Bu tip bir olayın birden fazla olduğu durum yoktur. Bu alanda sadece takip eden kodlar sunulacak. Veri madencileri bu tip ifadeleri veriyi inceleyerek onaylamak zorundadırlar. Bu özellikle, bilginin işlemesinin onun kesinliğine bağlı olduğu zaman önemlidir. İdeal olarak veri hakkında yapılan varsayımlardaki yanılgılar daha yanlışa dönüşmeden verinin ele alınışı aşamasında belirlenebilir. Veri madenciliği araçları bunun ulaşılmasına yardımcı olurlar. Tuzak #7: Veri Madenciliği Araçlarının Uyumsuzluğu Veri madenciliği süreci geniş çapta kapasite gerektirmektedir dolayısıyla tek bir proje sırasında birçok aracın kullanılması sıra dışı değildir. Fakat bu, içerik ve veri formatlarını değiştirirken gereken kaynaklar ve zaman göz önüne alındığında yüksek maliyet oluşmasına neden olabilir. En kötü durumda bu, veri madenciliği süreci esnasında gerekli adımların atlanmasına ve veri madenciliğinin araştırmacı karakteriyle ciddi şekilde çatışmaya neden olabilir. En iyi çözüm gerekli tüm özellikleri bütünleştiren veri madenciliği araç takımını kullanmaktır. Fakat hiçbir araç takımı özellikle çözümleyicilerin bireysel özellikleri hesaba alındığında bütün olası özellikleri barındıramaz. Bu yüzden araç takımı da açık, yani diğer kullanılabilir araçlarla ve üçüncü parti seçeneklerle kolayca arayüzlenebilir olmalıdır. İyi bir veri madenciliği aracı verinizle genel standartlar aracılığıyla ve diğer kullanılabilir araçlarla arayüzlenebilir olmalıdır. Tuzak #8: Veri Hapishanesinde Kilitli Kalmak Araçlarla ilişkili açıklığa ek olarak, veri madenciliği çözümleri aynı zamanda veriye göre olmalıdır. Bazı veri madenciliği araçları verinin, veritabanı sistemlerinde genelde kullanılan formatların dışında, kişiye özel bir formatta olmasını gerektirir. (Bu bazen veri hapishanesi olarak adlandırılır.) Bu, veriyi gerekli formata dönüştürme gereksinimi yüzünden, yüksek seviyede maliyet aşımına neden olur ve sonuçların işletme faaliyet sistemlerine konuşlandırılmasını zorlaştırır. İyi bir veri madenciliği aracı verinizle genel standartlar aracılığıyla arayüzlenir. 8

Tuzak #9: Verinin Çoğunu Görmezden Gelmek İnsanların çoğu, veri hakkında düşünürken, kodlar ve sayılardan oluşan satır ve sütunlar hayal eder ve veri madenciliğinin sadece böyle yapılı türde veriye uygulanacağını varsayar. Bu, doğal bir yanlıştır. İşletmelerin barındırdığı verinin büyük bir kısmı bu önyargıya uymaz. Metin formundadır, belki e-posta, doküman veya not şeklindedir ya da bir internet sitesiyle alakalıdır veyahut anket sonuçlarını kaydediyordur. Birçok veri madenciliği aracı bu tip verileri belirlemez. İşletmeler sıklıkla özel metin madenleme, Web çözümleme, anket analizi araçlarına ihtiyaç duymak durumunda kalırlar, aksi takdirde bu yapıdaki verileri tamamen görmezden gelmiş olurlar. Fakat modern veri madenciliği araçları daha bütün bir resim oluşturmak ve işletme veri birikiminin değerini maksimize etmek için, yapısal veriyi, metin, web logları ya da anket cevapları ile birleştirmeyi mümkün kılmaktadır. Bu yolu seçen işletmeler veri madenciliği projelerinin ölçülebilir bir şekilde daha başarılı olduğunu görmektedir. Sonuç Veri madenciliği geniş çapta iş bilgisi gerektiren bir işletme sürecidir. En iyi şekilde iş uzmanları ya da iş uzmanlarıyla yakinen iş birliği yapan veri madenciliği uzmanları tarafından yapılır. En iyi değeri elde etmek için, veri madenciliği sonuçları işletme süreçlerine uygun öngörücü çözümleme altyapısı kullanılarak dahil edilmelidir. Veri madenciliği çeşitli teknikler kullanır ve sadece algoritma modelleme ve öngörücü kesinliğe dayanmaz. Her bir teknik çeşitli roller oynayabilir ve modern teknoloji, geniş çaplı yapılandırılmamış veriyi dahil etmenizi sağlar. Veri madenciliği sürecinde, veri madencileri veriyle yinelemeli bir biçimde etkileşir ve uğraşırlar. CRISP-DM *1+ gibi standart veri madenciliği işlem modeli, veri madenciliği için doğru hazırlıkların yapılmasına ve kullanılmasına yardımcı olur. Veri madenciliği araçları, işletme kullanıcılarının erişebilirliği, ölçeklendirebilirliği ve kullanılabilirliği ve son olarak standart süreçler için sağladığı destek temel alınarak değerlendirilmelidir. Veri madencileri gerekli veri hakkında, bir işletmenin tüm verisinin alakalı ve tüm verinin gerekli olamayacağını varsayan akıllı kararlar vermelidirler. Etkin veri madenciliği esnek ve birlikte çalışabilir teknikler gerektirir. Bu gereksinim en iyi şekilde, veriye açık standartlar şeklinde arayüzlenen bütünleştirici, açık araç takımlarıyla karşılanır. Etkin işletme konuşlandırması, sonuçları düzgün bir şekilde işletme sürecine ulaştırmak için tasarlanmış bir altyapı ile bütünleşen araçlar gerektirir. 9

Kaynaklar 1. Chapman, P., Clinton, J., Kerber, R., Khabaza, T., Reinartz, T., Shearer, C., ve Wirth, R. CRISP-DM 1.0, Step-by-step data mining guide, CRISP-DM Consortium, 2000, http://www.crisp-dm.org adresinde bulabilirsiniz. Daha fazlasını öğrenmek için, lütfen www.spss.com adresini ziyaret edin. SPSS ofislerinin yerleri ve telefon numaraları için www.spss.com/worldwide sitesine gidin. SPSS kayıtlı bir ticari markadır ve bahsedilen diğer SPSS ürünleri SPSS Inc. e ait ticari markalardır. Diğer tüm isimler kendi sahiplerinin ticari markalarıdır. 2007 SPSS Inc. Tüm Hakları Saklıdır. HHAEB-1207 10