Veri madencilii nde yapsal olmayan verinin analizi: Metin ve web madencilii

Ebat: px
Şu sayfadan göstermeyi başlat:

Download "Veri madencilii nde yapsal olmayan verinin analizi: Metin ve web madencilii"

Transkript

1 statistikçiler Dergisi 2 (2009) statistikçiler Dergisi Veri madencilii nde yapsal olmayan verinin analizi: Metin ve web madencilii M. Özgür Dolgun SPSS, Çankaya Mah. Mahmut Yesari Sk. No:8/ Çankaya, Ankara, Türkiye Tülin Güzel Özdemir SPSS, Zümrütevler Atatürk Cd. Nazmi +lker Sk. No: Maltepe, +stanbul, Türkiye Doruk Ouz SPSS, Zümrütevler Atatürk Cd. Nazmi +lker Sk. No: Maltepe, +stanbul, Türkiye Özet Verinin büyük boyutlara ula$mas ve bilgisayar donanmlarnn bu büyük boyuttaki veriyi depolayarak yüksek kapasitede analiz yapabilecek seviyelere gelmeleri ile birlikte analistler karma$k ko$ullar ile kar$ kar$ya kalmaktadrlar. Bu karma$k ko$ullarn çou yapsal olmayan verinin etkin bir $ekilde saklanmas ve analizi ile ili$kilidir. Merrill Lynch, potansiyel olarak kullanlan bütün verilerin yakla$k %80 inin yapsal olmayan türde olduunu ifade etmi$tir. Bu büyük ve karma$k yapdaki yapsal olmayan veri analistlere yeni frsatlar açmaktadr. Bu çal$mada, yapsal olmayan verinin metin ve web madencilii yöntemleri ile yapsal hale dönü$türülmesi sonucu modele dahil edilmesinin, model ba$arsna yapaca katk analiz edilmi$tir. Karar aac yöntemlerinden C5.0 algoritmas kullanlarak elde edilen modeller birbirleri ile kar$la$trlm$ ve en iyi model tespit edilmi$tir. Anahtar sözcükler: Veri madencili1i; Metin madencili1i; Web madencili1i; Model kar45la4t5rma; Churn analizi. Abstract Unstructured data analysis in data mining: Text and web mining As data becomes large-scale, as megabytes become cheaper, as CPU speed becomes faster, we as analysts will be faced with more complex requirements. Many of these requirements will depend on the efficient storage and analysis of unstructured data. Merrill Lynch has recently estimated that over 80% of all potentially usable business information exists as unstructured data. The huge amount and complexity of unstructured data opens up many new opportunities for the analyst. In this study, we analyzed the improvement in the model success, which is a result of a extraction process of the useful information from unstructured data, using the text and the web mining methods. All models that are generated by using C5.0 algorithm are compared each other and then discovered which one is the best. Keywords: Data mining; Text mining; Web mining; Model comparison; Churn analysis. 1. Giri Son yllarda bilgi sistemleri ve teknolojinin geli$mesi sonucunda; kamu kurum ve kurulu$lar, i$letmeler ve dier kurulu$lar veritabanlarnda kurulu$un amacna ve yapsna bal olarak çe$itli türlerde veri toplamaktadr. Fakat bu veriler i$lenmedii sürece anlamsz bir yn olarak veritabanlarnda depolanmaktadr [2, 3].

2 M. Ö. Dolgun v.d. / statistikçiler Dergisi 2 (2009) Uygun yazlmlarn geli$imi ve firmalarn toplad veriyi kullanlabilir bilgiye çevirme istei toplanan bu veriyi i$leyerek, verinin içerisindeki kullanlabilir ve ilginç ili$kilerin, birlikteliklerin ve örüntülerin (patterns) ortaya çkarlmasn gerekli hale getirmi$tir. Günümüzde pek çok kurum verilerini mü$teri nitelikleri ve mü$terilerin satn alma örüntülerine ili$kin yararl, kullan$l bilgiler elde edecek yöntemler ile i$lemeye ba$lamam$tr. Ham veri zengini, nitelikli bilgi (knowledge) fakiri durumunda olan kurumlarn rekabetçi piyasada ba$arl olmalar ve ba$arlarn sürdürmeleri her geçen gün daha da zorla$maktadr. Veri toplamann önemini kavram$ olan ve geçmi$e yönelik veri taban sorgularyla sadece sorgu bazl bilginin elde edileceini, veriden en üst düzeyde fayda salayamayacan görmeye ba$layan bütün kurumlarn en büyük yardmcs veri madenciliidir [7]. Veri madencilii mevcut veriden anlaml bilgileri, ili$kileri çkarmada kullanlan tekniklere verilen genel isimdir. Veri madencilii yapsal veriyi analiz edebilmekte iken; metin ve web madencilii yapsal olmayan verinin, veri madenciliinde kullanlmak üzere, yapsal hale dönü$türülmesinde kullanlmaktadr. Farkl birçok alanda kullanlabilen veri madenciliinin alt alanlarndan Metin ve Web Madencilii bu çal$mada bir uygulama üzerinden incelenecek ve yapsal olmayan verinin metin ve web madencilii yöntemleri ile yapsal hale dönü$türülmesi sonucu modele dahil edilmesinin model ba$arsna yapaca katk ortaya konulacaktr. 2. Veri, metin ve web madencili%i Yapsal veri, bir yap içerisinde organize edilebilen ve bundan dolay tanmlanabilen veri için kullanlan bir terimdir. En yaygn kullanlan yapsal veri kaynaklar SQL (Structured Query Language) ve Access gibi veri kaynaklardr. Örnein SQL, kolon (dei$ken) ve satr (kayt) bazl bilginin seçimine imkan vermektedir. Yapsal veri, içerikteki veri tipine göre organize edilebilen ve arama yaplabilen veridir. Buna kar$n yapsal olmayan verinin tanmlanabilir bir yaps yoktur. En çok bilinen yapsal olmayan veri türleri; resim dosyalar, pdf, word ve text gibi metin dosyalar, web üzerinde tutulan log dosyalar ve e- postalardr. E-postalar veritabanlarnda Microsoft Outlook gibi araçlar ile organize edilebilmesine ramen bu tür veriler herhangi bir yapsal veri türü ile e$le$mediklerinden ham veri olarak dü$ünülür. Excel gibi hücre yapsna sahip veri türleri yapsal olmasna ramen halen yapsal olma ve olmama konusundaki yeri tart$lmaktadr. Birçok kurumun verisinin çou yapsal olmayan veri olarak veritabanlarnda tutulmaktadr. Merrill Lynch, potansiyel olarak kullanlan bütün verilerin yakla$k %80 inin yapsal olmayan türde olduunu ifade etmi$tir. [4, 10, 11]. Veri madencilii büyük veri ynlarnda gizli olan örüntüleri ve ili$kileri ortaya çkarmak için istatistik ve yapay zeka kökenli çok sayda ileri veri çözümleme yönteminin tercihen görsel bir programlama ara yüzü üzerinden kullanld bir süreçtir. Veri madencilii algoritmalar; istatistiksel algoritmalar, matematiksel algoritmalar ve yapay zeka algoritmalarn (sinir alar, karar aaçlar, kohonen alar, birliktelik kurallar vb.) bir arada içerir [7]. Veri madencilii çözümleri ve algoritmalar metin veya web verisindeki kalplar bulmadan veya model olu$turmadan önce metin veya web verisinin yapsal olmas gerekmektedir. Metin ve Web madencilii i$lemleri, veri madenciliinde kullanlacak yapsal veriye ula$mak için kullanlan araçlar olarak tanmlanabilir. Metin ve web madencilii son yllarda oldukça fazla çal$lan birbiri ile ili$kili alanlardr. Metin madencilii, çok büyük belgelerin analizi ve metin tabanl verinin içerisindeki gizli kalplarn elde edilmesidir. Web madencilii ise, web içerikleri, sayfa yaplar ve web balant istatistiklerinin de içinde olduu web ile ili$kili olan verinin analizini içermektedir [10].

3 M. Ö. Dolgun v.d. / statistikçiler Dergisi 2 (2009) Metin madencili1i Veri farkl $ekillerde bulunabilir. Bazlar otomatik veri analizi için üstesinden gelinebilir ve uygun iken bazlarn analizi çok daha zordur. Klasik veri analiz yöntemleri verinin dei$ken ve kayt bazl düzenlendii varsaym ile i$lem yapmaktadr. Buradaki soru, eer veri metin formatnda yani kaytlarn ve dei$kenlerin olmad bir yapda ise ne yapmamz gerektiidir. Metin verisindeki anlamn ortaya çkarlabilmesi için kullanlan yöntem metin madenciliidir. Metin yazmnda standart kurallar olmadndan dolay bilgisayar bunlar anlayamamaktadr. Her bir metnin dili ve içerdii anlam amaca bal olarak çe$itlilik göstermektedir. Yapsal olmayan bilgiden içerik çkarmak için kullanlan geleneksel yöntemler; anahtar kelimeler veya mantksal aramalar, istatistiksel veya olaslksal algoritmalar, sinir alar ve kalp ke$fedici sistemler gibi dilbilimsel olmayan yöntemlerdir. Bu yöntemler, hem sorgudaki hem de metindeki kelimelerin karakterlerini kar$la$tran bir temele dayanr. Bundan dolay içerii açklayc sonuçlar elde edemez. Dili anlamnn temeli dilbilimsel yollara dayanr ve bu çounlukla Natural Language Processing (NLP) olarak ifade edilir. NLP yi içeren bir sistemde, karma$k yaplarn bulunduu ifadeler (örnein; du$tan akan souk su ile içilen souk su arasndaki fark gibi) akll olarak çkarabilmekte ve terimleri snflayarak; ürünler, organizasyonlar veya ki$iler gibi snflara atamaktadr. Metin madencilii doal dil metinlerinden bilgi ve nitelikli bilgi elde edilmesi sürecidir. Kki a$amada gerçekle$ir. Anahtar içerik/ifadeler metinden elde edilir, Elde edilen içerik/ifadeler, yüksek dereceden ili$kili olduu kategorilere atanr. Bu a$amalar basit bir örnek üzerinden açklamak gerekirse; 1. A$ama: CPU ve CD-ROM ifadeleri metinden elde edilir, 2. A$ama: Bu iki ifade, otomatik olarak Bilgisayar Donanm etiketli kategoriye aktarlr. Metin madencilii uygulamalar iki ana snfta ayrlabilir: Metnin anla$lmas/özetlenmesi: Metin madenciliinin amaçlarndan bir tanesi metinden anlaml nitelikli bilginin çkarlmasdr. Böylece metnin içerdii anahtar içerik anla$labilecektir. Örnein, yava$ tamir veya sipari$ gibi sorunlar yüzünden $ikayet eden mü$terilerin orann örenmek isteyebiliriz. Metin ile modelleme: Daha yaygn olarak, metin madencilii terk etme veya ürün alma gibi mü$teri davran$larnn tahmin edildii bir modelin geli$tirilmesi a$amasnn bir bölümünü olu$turmaktadr. Metinden elde edilen içerik girdi dei$keni olarak kullanlr ve dier bilgiler ile beraber öngörüsel model geli$tirilir. Veri madencilii girdi olarak sadece yapsal veriyi kullandndan dolay veri madencilii çözümleri ve algoritmalar kullanlarak metin verisinden kalplar bulunup, modeller kurulmadan önce metinden elde edilecek bilginin yapsal hale dönü$türülmesi zorunludur. Metin madencilii sonucunda, kategorilerin olu$turulmas ile yapsal olmayan veri yapsal hale dönü$mektedir [5, 9, 12]. Metin ve veri madencilii arasndaki ili$ki Pekil 1 de tanmlanm$tr;

4 M. Ö. Dolgun v.d. / statistikçiler Dergisi 2 (2009) &ekil 1. Süreçler arasndaki ili$ki Pekil 1. de de görüldüü gibi, metin ve veri madencilii arasnda interaktif bir ili$ki vardr. Metin madencilii sonucunda elde edilene yapsal veri, veri madencilii modellerinde kullanlmakta ve elde edilen sonuçlar daha sonra metnin yapsnn incelenmesinde kullanlmaktadr. Metin madenciliinin uygulama alanlarndan bazlar; Mü$teri ili$kileri yönetimi (Customer Relationship Management, CRM): Bütün mü$terilerin e- mail, i$lem, çar merkezi ve anket gibi eri$im noktalarndan elde edilen metin bilgilerinden nitelikli bilgi çkarlr. Bu nitelikli bilgi mü$terinin terk etme ve çapraz sat$larn tahmin etmek üzere kullanlr. Sahtekarlk (Fraud) tespiti: Salk, sigorta ve hükümet tarafnda toplanan büyük çaptaki metin verilerinde kalplar ve anormallikler aranarak sahtekarlklar tespit edilir. Bilimsel ve medikal ara$trmalar: Hasta raporlar, makale ba$lklar, yaynlanm$ ara$trma sonuçlar ve dier yaynlar gibi metin materyallerinden çkarm yaplr. Güvenlik/istihbarat: Organizasyonlar ve bireyler arasndaki kalplar ve balantlar, terörist tehlikeleri ve kriminal davran$lar tahmin etmek ve engelleyebilmek için büyük çaptaki metin içerisinde aranr. Pazar ara$trmas: Yaynlanm$ belgeler, basn bültenleri ve web sayfalar pazar etkisinin ölçülmesi için aranr ve izlenir. Metin madencilii kantitatif yöntemler ile açk uçlu anket sorular ve mülakatlarn deerlendirilmesinde kullanlabilmektedir [5, 12] Web madencili1i Web madencilii i$lemleri kullanlarak yapsal olmayan web verileri yapsal veriye dönü$türülür. Web madencilii uygulamalar temel olarak üç alt ba$lk altnda toplanabilir; Web yap madencilii: Web yap madencilii ile internetin temel yapsn olu$turan web siteleri, web sayfalar aras ya da web sayfasndaki balantlar arasndaki ili$kiler incelenir. Web içerik madencilii: Web içerik madencilii ile web sayfalarnn içerikleri incelenir ve kullan$l bilgi çkarm salanr. Web içerik madencilii kullanarak web sayfalarnn ba$lklar, içerisinde geçen kelimeler, resimler veya müzik dosyalar incelenir. Bulunan içeriklere göre web siteleri belirli snflara veya kümelere ayrlabilir.

5 M. Ö. Dolgun v.d. / statistikçiler Dergisi 2 (2009) Web kullanm madencilii: Web kullanm madencilii ile web sunucularnda tutulan kullanc eri$im kaytlar incelenerek anlaml ve faydal kalplar bulunabilir. Web kullanm madencilii yöntemleri uygulanarak web sitelerini ziyaret eden ki$ilerin davran$ ve tutumlar belirlenebilir. Web madenciliinin günümüzde birçok alanda kullanlmasnn en önemli sebebi; ki$ilerin web sayfalarnda göstermi$ olduklar davran$larn, hareketlerin ve yapm$ olduklar i$lem bilgilerinin var olan i$ süreçlerine entegrasyonunu salayarak mü$terinin en iyi $ekilde anla$lmasn salayan mü$teri odakl bir sistem olu$turmasdr. Web madencilii kullanm alanlar a$adaki gibidir; Web üzerinden ürün sat$ gerçekle$tiren $irketler web verilerini analiz ederek mü$teri profili ve kümeleri olu$turmaktadrlar. Google vd. arama motorlar web içerik madencilii uygulayarak aranan anahtar kelimeyi içeren web sitelerini belirlemektedirler. Web madencilii uygulanarak web sitelerinin iyile$tirilmesi ve güncel kalmas salanmaktadr [1, 6]. Web madenciliindeki süreç Pekil 2 de tanmlanm$tr. &ekil 2. Web madencilii süreci Pekil 2 de görüldüü gibi, yapsal olmayan web verisi (log dosyalar, vd) i$ bilgisi bazl bir kategori i$leminden sonra yapsal hale dönü$mekte ve i$lenebilir duruma gelmektedir. Metin ve web madencilii hakkndaki genel süreç uygulamann yer ald Üçüncü Bölümde daha detayl anlatlacaktr. 3. Uygulama Uygulamada Clementine 12.0 kullanlarak bir telekomünikasyon kurumunun 2070 mü$terisine ait 17 dei$kenden olu$an $irketi terk etme (churn) yapsal verisi kullanlarak, terk eden mü$terilere ait bir profil modeli, karar aac algoritmalarndan C5.0 kullanlarak elde edilmi$tir. Ayrca; çar merkezlerinden elde edilen mü$terilere ait metin dosyas kullanlarak elde edilen yapsal veri var olan yapsal veriye eklenerek ikinci bir veri ve ikinci bir model, mü$terilere ait internet üzerinden elde edilen web log dosyas kullanlarak elde edilen yapsal veri ikinci veriye eklenerek üçüncü bir model elde edilmi$tir. Bu bölümde, söz edilen üç model kar$la$trlm$ ve sonucu açklanm$tr.

6 M. Ö. Dolgun v.d. / statistikçiler Dergisi 2 (2009) Veri madencili1i Kurulan ilk model, 2070 mü$teriye ait 17 dei$kenden olu$an ve yapsal veri içeren veri dosyas kullanlarak elde edilmi$tir. Model, karar aac algoritmalarndan C5.0 algoritmas kullanlarak elde edilmi$tir. Pirketi terk etme dei$keni baml, $ehir içi görü$me süresi (saniye), $ehirler aras görü$me süresi (saniye), hattn kesilme says, ödeme yöntemi (nakit, kredi kart, otomatik), tarife bilgisi, kullancnn cinsiyeti, medeni durumu, ya$ gibi 17 dei$ken ise bamsz dei$ken olarak seçilerek algoritmada kullanlm$tr. Pekil 3 de karar aacnn sonucu verilmi$tir. &ekil 3. Klk veri için karar aac sonucu Pekil 3 deki sonuçlara göre, $irketi terk etmede en önemli dei$ken yurtd$ dolanm (roaming) olarak bulunmu$tur. Karar aac modelleri bu çal$mann ana amac olmadndan detayl olarak anlatlmam$tr Metin madencili1i Metin madencilii ile ilgili yaplanlar genel hatlar ile a$adaki $ekillerde anlatlmaya çal$lm$tr. &ekil 4. Metin verisinin genel görünümü

7 M. Ö. Dolgun v.d. / statistikçiler Dergisi 2 (2009) Pekil 4 de metin verisi ile ilgili genel görünüm yer almaktadr. Her bir ID ye ili$kin bir metin bilgisi (mü$terilerin yorumlarn içeren metin alan) ve $irketi terk etme dei$keni (CHURN) yer almaktadr. &ekil 5. Metin verisinin analiz a$amas Pekil 5 de metin verisinin analiz a$amas ile ilgili ekran görüntüsü yer almaktadr. Pekil 5 in sol alt ksmnda yer alan görüntüde metinden elde edilen içerikler yer almaktadr. &ekil 6. Yapsal veri-dei$ken ve kayt bazl gösterim Pekil 6 da ise her bir ID ye kar$lk gelen metin dosyalarnn, yapsal $ekle nasl dönü$tüü görülmektedir. Görüldüü gibi her bir metnin (yapsal olamayan $ekil) yannda, O metnin hangi kategoriye atand bilgisi (yapsal $ekil) yer almaktadr. Her bir metnin hangi kategoriye atand bilgisi, ilgili kategorideki T harfi, hangi kategoride yer almad bilgisi ilgili kategorideki F harfi ile kodlanm$tr. Metin verisinin metin madencilii i$lemi sonucunda yapsal $ekle dönü$türülmesi ile elde edilen verinin, birinci veri ile birle$tirilmesi ile ikinci veri elde edilmi$tir. Kkinci model, ikinci veri kullanlarak elde edilmi$tir. Bu i$lemin ve aslnda bu makalenin asl amac, yapsal olmayan veri içerisindeki bilginin modele eklenmesi durumunda model ba$arsnn arttnn gösterilmesidir.

8 M. Ö. Dolgun v.d. / statistikçiler Dergisi 2 (2009) Bir sonraki a$amada, web madenciliinden gelen yapsal veride ikinci veriye eklenecek ve elde edilen yeni veriden yeni bir model olu$turulacaktr Web madencili1i Web madencilii ile ilgili yaplanlar genel hatlar Pekil 7-9 ile anlatlmaya çal$lm$tr. &ekil 7. Log dosyasnn genel görünümü Pekil 7 deki log dosyalarnn yapsal olmad görülmektedir. Dosyada srasyla, hangi tarihte web sayfasna eri$im saland, kullancnn IP adresi, istek tipi (GET veya POST), hangi web sayfasna eri$im saland, statü (200 veya 300), boyut (gönderilmi$ olan dosyann byte cinsinden boyutu) ve hangi web taraycsnn (Mozilla, Explorer, vd) kullanld gibi bilgiler yer almaktadr. Log dosyalarnn incelenerek web sitesinin yapsnn ortaya konduu tanmlama dosyas, olay dosyas (event definition) dr. Web sunucularndan elde edilen yapsal olmayan log dosyalar olay dosyasnda yaplan tanmlamalardan yola çklarak yapsal bir hale getirilir. Web madencilii i$lemcisinin çal$mas için mecburi bir dosyadr. Standart bir olay dosyas 4 temel alandan olu$ur: 1. Olay kategorisi (event category), 2. Olay ismi (event name), 3. Olay tanm (event definition), 4. Olay nitelikleri (event attributes). Olay kategorisi: Olaylar anlaml gruplar altnda toplamak için kullanlr. Kstenilen bir ifade tanmlanabilir. Olay ismi: Olay açklayan bölümdür. Kstenilen bir ifade tanmlanabilir. Ancak olay isimleri tekil olmaldr, olay dosyasnda her olay ismi bir kere kullanlmaldr. Olay tanm: Web madencilii i$lemcisinin log dosyalarnda bulduu sayfalar ile tanmlanan olay dosyas arasnda e$le$tirme yapmas için kullanlacak alandr. Olay nitelikleri: Klgili olayla hangi özel parametrenin kullanldn gösteren bilgidir. Tek bir olay için birden fazla nitelik tanmlanabilir [1, 6, 13].

9 M. Ö. Dolgun v.d. / statistikçiler Dergisi 2 (2009) Pekil 7 de görülen log dosyalar Web Mining for Clementine 12.0 ile analiz edilmi$ ve yapsal olmayan log dosyas Pekil 8 ve 9 da görüldüü gibi kullanlabilir olan yapsal $ekle dönü$türülmü$tür. &ekil 8. Yapsal veri-grafiksel gösterim Pekil 8 de görüldüü gibi log dosyasnda yer alan veriler, olay dosyas baz alnarak çe$itli kategorilere dönü$türülmü$tür. Örnein, analiz edilen bu log dosyas içerindeki kaytlarn %0,65 inin About Us sayfasna giri$ yapan mü$terilerden olu$tuu artk bilinmektedir. &ekil 9. Yapsal veri-dei$ken ve kayt bazl gösterim Pekil 9 da ise her bir ID ye kar$lk gelen log dosyalarnn, web madencilii i$leminden sonra yapsal $ekle nasl dönü$tüü görülmektedir. Log dosyalar tanmlanan ilgili olay isimleri kategorilerine atand ( T ve F harfleri ile) görülmektedir. Hem metin hem de web madencilii i$lemlerindeki amaç daha öncede açkland gibi, yapsal olmayan verinin yapsal $ekle dönü$türülmesidir. Pekil 6 ve Pekil 9 da anlatlmak istenen bu yap açkça görülmektedir. Web verisinin web madencilii i$lemi sonucunda yapsal $ekle dönü$türülmesi ile elde edilen verinin, ikinci veri ile birle$tirilmesi ile üçüncü veri elde edilmi$tir. Üçüncü model, üçüncü veri kullanlarak elde edilmi$tir.

10 M. Ö. Dolgun v.d. / statistikçiler Dergisi 2 (2009) Ba$langçta var olan yapsal verinin kullanld Model 1, metin madencilii ile elde edilen yapsal verinin var olan yapsal veri ile birle$tirilmesinden elde edilen verinin kullanld Model 2 ve web madenciliinden elde edilen verinin de eklenmesiyle elde edilen verinin kullanld Model 3 ün kar$la$trmas Pekil 10 da verilmi$tir. Pekil 10 daki grafik, elde edilen üç karar aac modelini kazanç yüzdesi (gain) ölçütü ile kar$la$tran kazanç grafiini (gain chart) göstermektedir. Grafikte; Y ekseni kazanç, X ekseni ise eri$ilebilecek kaytlar (bu uygulamada mü$teriler) göstermektedir. &ekil 10. Modellerin kar$la$trlmas Karar aaçlar ile beraber her bir adma ili$kin kazanç (%) deerleri elde edilir. Elde edilen bu deerlerde kazanç grafii üzerinde yer alr. Kazanç, ilgili admdaki hedef kategori saysnn geneldeki hedef kategori saysna orandr. Kö$egendeki doru (krmz grafik), hiçbir modelin kullanlmad durumda tüm örneklem için beklenen olumlu cevaplar temsil eder. Uygulamada bu tür bir grafik için beklenen, ilk %20 lik dilimde (X ekseni), model kazanç deerlerinin yakla$k %50 ve üzerinde olmasdr. Yani, mevcut verinin %20 sini kullanarak, model kazancnn yüksek olmas beklenmektedir [5, 8, 13]. Model 1 için bu grafik yorumlandnda; mevcut kaytlarn %20 sine ula$ldnda model kazancnn yakla$k %30 olmas beklenmektedir. Buna göre, Model 3 ün kazancnn yakla$k %45 ile dier modellerden fazla olduu açkça görülmektedir. 4. Sonuç ve öneriler Yapsal veri kullanlarak elde edilen model ile yapsal olmayan verinin metin ve web madencilii yöntemleri kullanlarak yapsal hale getirilen ve buradan elde edilen model kar$la$trlm$tr. Metin ve web madencilii yöntemleri kullanlarak elde edilen modelin sonuçta daha ba$arl olduu görülmü$tür (Pekil 10). Yapsal olmayan verideki nitelikli bilginin çkarlp modele entegre edilebilmesi ile en son modelin daha ba$arl olduu sonucu beklenmeyen bir olgu deildir. Öngörüsel dier model algoritmalar (CHAID, C&RTree, Lojistik Regresyon, vd.) kullanlarak yeniden modelleme yaplmas ve algoritmalar arasnda hangisinin daha ba$arl olduu sonucunun tespit edilmesi dier bir çal$maya braklm$tr.

11 M. Ö. Dolgun v.d. / statistikçiler Dergisi 2 (2009) Dünya üzerindeki potansiyel olarak kullanlan bütün verilerin yakla$k %80 inin yapsal olmayan türde olduu dü$ünüldüünde, bu verilerin kullanlmas kesinlikle ara$trmalara katma deer katacaktr. Kaynaklar [1] Chakrabarti, S. (2003), Mining the Web: Discovering Knowledge from Hypertext Data, Morgan Kaufmann Publishers, San Francisco. [2] Dolgun, M.Ö. (2006), Büyük Al$veri$ Merkezleri Kçin Veri Madencilii Uygulamalar, Yüksek Lisans Tezi, Hacettepe Üniversitesi Fen Bilimleri Enstitüsü, Ankara. [3] Han, J., Kamber, M. (2001), Data Mining: Concepts and Techniques, Morgan Kaufmann Publishers, San Francisco. [4] Hearst, M. (2009), What is text mining, [5] Introduction to Text Mining (2008), SPSS Inc. [6] Liu, B. (2007), Web Data Mining: Exploring Hyperlinks, Contents and Usage Data, Springer. [7] Özdemir Güzel, T., Dolgun, M.Ö., Patr, U., Delilolu, S., Korkmaz, H.E. (2007), 2005 Yl Örenci Seçme Snav (ÖSS) Verileri Kullanlarak Örenci Profilinin Belirlenmesi, 5. +statistik Kongresi, Antalya. [8] Shapiro-Piatetsky, G., Steingold, S. (2000), Measuring Lift Quality in Database Marketing, ACM SIGKDD Explorations Newsletter, 2(2), [9] Sholom M.W., Indurkhya N., Zhang T., Damerau F. (2004), Text Mining: Predictive Methods for Analyzing Unstructured Information, Springer. [10] Tan, A.H., Yu, P.S. (2004), Guest Editorial: Text and Web Mining, Applied Intelligence 18, , Kluwer Academic Publisher. [11] Unstructured data (2009), [12] W. Fan, L. Wallace, S. Rich, Z. Zhang. (2006), Tapping into the power of text mining, Communications of ACM, 49(9), [13] Web Mining for Clementine 12.0 User s Guide (2007), SPSS Inc.

TÜRKYE NN DÖNÜÜM SÜRECNDE ANAHTAR BR MEKANZMA OLARAK e-devlet, e-dönüüm VE ENTEGRASYON STANDARTLARI

TÜRKYE NN DÖNÜÜM SÜRECNDE ANAHTAR BR MEKANZMA OLARAK e-devlet, e-dönüüm VE ENTEGRASYON STANDARTLARI ÖZET TÜRKYE NN DÖNÜÜM SÜRECNDE ANAHTAR BR MEKANZMA OLARAK e-devlet, e-dönüüm VE ENTEGRASYON STANDARTLARI Mustafa ACAR* Erhan KUMA** Küreselleme ve internet ça insanolunun zaman-mekân algsn deitirmekte,

Detaylı

WEB TABANLI YAPAY ZEKA TEKN KLER (PROJE NO : FEN-E-050608-138)

WEB TABANLI YAPAY ZEKA TEKN KLER (PROJE NO : FEN-E-050608-138) T.C. MARMARA ÜNVERSTES MSEL ARATIRMA PROJELER KOMSYONU BAKANLII PROJE RAPORU WEB TABANLI YAPAY ZEKA TEKNKLER M SIMÜLATÖRLERN HAZIRLANMASI (PROJE NO : FEN-E-050608-138) Proje Yürütücüsü Yrd. Doç. Dr. Mehmet

Detaylı

3.2. Avustralya (Queensland Eyaleti)

3.2. Avustralya (Queensland Eyaleti) ekil. Bamsz bölümlerin 3B temsili amacyla oluturulan ara yüz (Stoter ve Oosterom, 006) 3.. Avustralya (Queensland Eyaleti) Avustralya nn Queensland eyaletindeki kadastral yap B yüzey parselinden bamsz

Detaylı

Süreci Modellerinden Kalite El Kitab Üretmek çin Bir Araç

Süreci Modellerinden Kalite El Kitab Üretmek çin Bir Araç Süreci Modellerinden Kalite El Kitab Üretmek çin Bir Araç A Tool for Generating Quality Manual from Business Process Models Elif, Aydn Biliim Sistemleri Bölümü ODTÜ, Ankara elif.aydin@ii.metu.edu.tr Ömer,

Detaylı

1. KULLANICI VE B LG SAYAR HESAPLARINA GÖRE ORGAN ZASYON B R MLER YARATMAK VE GRUPLAMAK AMAÇ ARA TIRMA

1. KULLANICI VE B LG SAYAR HESAPLARINA GÖRE ORGAN ZASYON B R MLER YARATMAK VE GRUPLAMAK AMAÇ ARA TIRMA ÖRENME FAALYET 1 ÖRENME FAALYET 1 AMAÇ Kullanc ve bilgisayar hesaplarna göre organizasyon birimleri yaratma ve gruplama ilemini gerçekletirebileceksiniz. ARATIRMA Bu faaliyet öncesinde yapmanz gereken

Detaylı

ETM BA ARISININ ARTIRILMASINDA SÜREÇ GEL TRME YÖNTEMLERNN KULLANILMASI VE BR UYGULAMA Yrd.Doç.Dr Ali ELEREN *

ETM BA ARISININ ARTIRILMASINDA SÜREÇ GEL TRME YÖNTEMLERNN KULLANILMASI VE BR UYGULAMA Yrd.Doç.Dr Ali ELEREN * ETM BA ARISININ ARTIRILMASINDA SÜREÇ GEL TRME YÖNTEMLERNN KULLANILMASI VE BR UYGULAMA Yrd.Doç.Dr Ali ELEREN * ÖZET Eitim sisteminde baar en önemli hedeflerden birisidir. Sistemin baars iç ve d faktörler

Detaylı

MAKROEKONOM K DE KENLER VE DÖV Z KURU L K S : YAPAY S N R A I VE VAR YAKLA IMLARI LE ÖNGÖRÜ MODELLEMES

MAKROEKONOM K DE KENLER VE DÖV Z KURU L K S : YAPAY S N R A I VE VAR YAKLA IMLARI LE ÖNGÖRÜ MODELLEMES T.C. SÜLEYMAN DEMREL ÜNVERSTES SOSYAL BLMLER ENSTTÜSÜ LETME ANABLM DALI MAKROEKONOMK DEKENLER VE DÖVZ KURU LKS: YAPAY SNR AI VE VAR YAKLAIMLARI LE ÖNGÖRÜ MODELLEMES DOKTORA TEZ YEM HELHEL Tez Danman: Doç.

Detaylı

TÜRKYE DE RKET BRLEMELERNDE BRLEME ETKNLKLERNN VER ZARFLAMA ANALZ YOLUYLA BELRLENMES

TÜRKYE DE RKET BRLEMELERNDE BRLEME ETKNLKLERNN VER ZARFLAMA ANALZ YOLUYLA BELRLENMES TÜRKYE DE RKET BRLEMELERNDE BRLEME ETKNLKLERNN VER ZARFLAMA ANALZ YOLUYLA BELRLENMES Yrd.Doç.Dr.smet TTZ * Yrd.Doç.Dr.Yusuf DEMR ** Osman Kürat ONAT *** ÖZET Bu çalmada, Türkiye de faaliyet gösteren ve

Detaylı

TAM SAYILI DORUSAL PROGRAMLAMA LE GÜCÜ PLANLAMASI VE BR UYGULAMA

TAM SAYILI DORUSAL PROGRAMLAMA LE GÜCÜ PLANLAMASI VE BR UYGULAMA TAM SAYILI DORUSAL PROGRAMLAMA LE GÜCÜ PLANLAMASI VE BR UYGULAMA Doç. Dr. Osman Çevik * ÖZET Bu çalmada Tokat il merkezinde faaliyet gösteren bir iletmede Tam Sayl Dorusal Programlama yardmyla iletmeye

Detaylı

8. ULUSLARARASI STAT ST K KONGRES 27-30 EK M 2013

8. ULUSLARARASI STAT ST K KONGRES 27-30 EK M 2013 8. ULUSLARARASI STAT ST K KONGRES 27-30 EK M 2013 Uluslararas 8. statistik Kongresi, 27-30 EKM 2013 Kemer-ANTALYA Uluslararas 8. statistik Kongresi, 27-30 EKM 2013 Kemer-ANTALYA ÇNDEKLER DÜZENLEME KURULU

Detaylı

DIŞ TİCARET İSTATİSTİKLERİ VE ENDEKSLERİ

DIŞ TİCARET İSTATİSTİKLERİ VE ENDEKSLERİ TÜİK DIŞ TİCARET İSTATİSTİKLERİ VE ENDEKSLERİ ISSN 0259-5036 TÜRKİYE İSTATİSTİK KURUMU TÜİK Sorularla Resmi İstatistikler Dizisi - 2 Önsöz ÖNSÖZ Türkiye statistik Kurumu karar alclarn, aratrmaclarn ve

Detaylı

ABMYO Dergisi. 23, (2011) (1-8) Baarnn Altndaki Sr M. Salih ÇELKKALE 1 stanbul Aydn Üniversitei Anadolu BL Meslek Yüksekokulu ile Yükseköretim hayatna balad. Anadolu BL Meslek Yüksekokulu, Yükseköretim

Detaylı

Uzay Tabanl Güvenlik Çal malar

Uzay Tabanl Güvenlik Çal malar Uzay Tabanl Güvenlik Çalmalar HAVACILIK VE UZAY TEKNOLOJLER DERG OCAK 2008 CLT 3 SAYI 3 (39-51) UZAY-TABANLI GÜVENLK ÇALIMALARI Fuat NCE Hava Harp Okulu HUTEN Md.lüü Yeilyurt / STANBUL fuat.ince@superonline.com

Detaylı

YÖNET VE ASTLAR ARASINDAK ANLA MAZLIKLARIN

YÖNET VE ASTLAR ARASINDAK ANLA MAZLIKLARIN Yönetici ve Astlar Arasndaki Anlamazlklarn Çözümüne Yönelik Bir Ararma HAVACILIK VE UZAY TEKNOLOJLER DERG OCAK 2008 CLT 3 SAYI 3 (21-38) YÖNET VE ASTLAR ARASINDAK ANLAMAZLIKLARIN ÇÖZÜMÜNE YÖNELK BR ARATIRMA

Detaylı

YUNANSTAN LE TÜRKYE DE UYGULANAN TURZM YATIRIM TEVKLERNN KARILATIRILMASI

YUNANSTAN LE TÜRKYE DE UYGULANAN TURZM YATIRIM TEVKLERNN KARILATIRILMASI YUNANSTAN LE TÜRKYE DE UYGULANAN TURZM YATIRIM TEVKLERNN KARILATIRILMASI Doç. Dr. smail AYDOU * Yrd. Doç. Dr. H. Hüseyin SOYBALI ** Ör. Grv. Ahmet BAYTOK ** ÖZET Turizm sürekli büyüyen yapsyla dünyann

Detaylı

MEGEP (MESLEKİEĞİTİM VE ÖĞRETİM SİSTEMİNİN GÜÇLENDİRİLMESİPROJESİ)

MEGEP (MESLEKİEĞİTİM VE ÖĞRETİM SİSTEMİNİN GÜÇLENDİRİLMESİPROJESİ) T.C. MİLLÎ EĞİTİM BAKANLIĞI MEGEP (MESLEKİEĞİTİM VE ÖĞRETİM SİSTEMİNİN GÜÇLENDİRİLMESİPROJESİ) BİLİŞİM TEKNOLOJİLERİ PROGRAMLAMA TEMELLERİ ANKARA 2007 Milli Eğitim Bakanlğtarafndan gelitirilen modüller;

Detaylı

ÖZEL EMEKLLK FONLARININ FNANSAL PYASALARIN GELMNE ETKLER

ÖZEL EMEKLLK FONLARININ FNANSAL PYASALARIN GELMNE ETKLER ÖZEL EMEKLLK FONLARININ FNANSAL PYASALARIN GELMNE ETKLER Yrd.Doç.Dr. Nagihan Oktayer Dr. Asuman Oktayer ÖZET Sosyal güvenlik reformunun bir parças olan Bireysel Emeklilik Tasarruf ve Yatrm Sistemi 2001

Detaylı

TEMMUZ 2007 SEÇ MLER

TEMMUZ 2007 SEÇ MLER YASAL LETM YÖNTEMLERN SEÇMEN DAVRANIINA ETK VE 22 TEMMUZ 2007 SEÇMLER Doç. Dr. Zeynep Karahan Uslu TOBB Ekonomi ve Teknoloji Üniversitesi T Bölümü Bakan Siyaset sklkla satranç metaforuna dayanlarak tanmlanan

Detaylı

PAZARLAMA BLG SSTEM VE BR KAMU KURULUU ÖRNE

PAZARLAMA BLG SSTEM VE BR KAMU KURULUU ÖRNE PAZARLAMA BLG SSTEM VE BR KAMU KURULUU ÖRNE Ör.Gör.Kemal KARAYORMUK * Mehmet Ali KÖSEOLU ** ÖZET Bu çalmada, pazarlama yöneticilerinin kararlarna yön veren pazarlama bilgi sistemi ele alnmtr. Bilgi, iletmeler

Detaylı

Yaz l mc lar çin SQL Server 2012 ve Veritaban Programlama

Yaz l mc lar çin SQL Server 2012 ve Veritaban Programlama Yazlmclar çin SQL Server 2012 ve Veritaban Programlama Yaar Gözüdeli YAZILIMCILAR ÇN SQL SERVER 2012 ve VERTABANI PROGRAMLAMA Video Destekli Eitim Seti Yeni Versiyona Göre Yeniden Düzenlenmi 7.BASKI Temel

Detaylı

(SQL) Structured Query Language (Yaplandrlm Sorgu Dili) çindekiler

(SQL) Structured Query Language (Yaplandrlm Sorgu Dili) çindekiler (SQL) Structured Query Language (Yaplandrlm Sorgu Dili) çindekiler Önsöz Veri Kullanma Dili Deyimler Select Deyimi... 3 Delete Deyimi... 8 Insert Into Deyimi... 9 Select...Into Deyimi...11 Uptade Deyimi...

Detaylı

İSTATİSTİK ARAŞTIRMA DERGİSİ Journal of Statistical Research

İSTATİSTİK ARAŞTIRMA DERGİSİ Journal of Statistical Research TÜİK İSTATİSTİK ARAŞTIRMA DERGİSİ Journal of Statistical Research Cilt-Volume: 08 Sayı-Number: 03 Aralık-December 011 ISSN 1303-6319 TÜRKİYE İSTATİSTİK KURUMU Turkish Statistical Institute TÜİK İSTATİSTİK

Detaylı

FİYAT ENDEKSLERİ VE ENFLASYON

FİYAT ENDEKSLERİ VE ENFLASYON TÜİK FİYAT ENDEKSLERİ VE ENFLASYON Sorularla Resmi İstatistikler Dizisi - 3 ISSN 0259-5036 TÜRKİYE İSTATİSTİK KURUMU !"!# 3129 ISBN 978-975-19-4218-0-50 AdetǨ-ΰ ˇðŞŞŞˇ3ìúł Önsöz!! "#$"%!!! "#$%&'(! )*+,+&*+&%!

Detaylı

BANKALARIN KRED VERME DAVRANIfiI ÜZER NE AS METR K B LG N N ETK S ve REEL SEKTÖR YANSIMASI (TÜRK YE ANAL Z 2002-2010)

BANKALARIN KRED VERME DAVRANIfiI ÜZER NE AS METR K B LG N N ETK S ve REEL SEKTÖR YANSIMASI (TÜRK YE ANAL Z 2002-2010) EYLÜL 2012 BANKALARIN KRED VERME DAVRANIfiI ÜZER NE AS METR K B LG N N ETK S ve REEL SEKTÖR YANSIMASI (TÜRK YE ANAL Z 2002-2010) Dr. fiehnaz Bak r Yi itbafl BANKALARIN KRED VERME DAVRANIfiI ÜZER NE AS

Detaylı

Neden Tarih Öretiyoruz?

Neden Tarih Öretiyoruz? Neden Tarih Öretiyoruz? Erdal ASLAN* ÖZET Tarih okul programlarnn ve entelektüel yaamn en önemli inceleme konular arasnda yer alr. Özellikle yirminci yüzyl boyunca insanln yaad deneyimler, bir bilimsel

Detaylı

KAYIT DI I ST HDAM VE NEDEN OLDU U MAL KAYIPLARIN BÜTÇE ÜZER NDEK ETK LER : TÜRK YE ÖRNE

KAYIT DI I ST HDAM VE NEDEN OLDU U MAL KAYIPLARIN BÜTÇE ÜZER NDEK ETK LER : TÜRK YE ÖRNE MaliHizmetlerDernei YaynNo:7 KAYITDIISTHDAMVENEDENOLDUUMAL KAYIPLARINBÜTÇEÜZERNDEKETKLER:TÜRKYE ÖRNE ErkanKARAARSLAN MaliyeBakanlMuhasebatBakontrolörüve SGKPrimsizÖdemelerGenelMüdürlüü KurumsalGeliimveOrtakVeriTabanDaireBakan

Detaylı

Sosyal Güvenlik Nereye Do ru Gidiyor?

Sosyal Güvenlik Nereye Do ru Gidiyor? IBM Global Social Segment Haziran 2007 Sosyal Güvenlik Nereye Do ru Gidiyor? 15 Bat Avrupa ülkesindeki sosyal güvenlik yönetimi CEO lar ile yaplan görümeler Hazrlayanlar: Prof. Dr. Paul SCHOUKENS Prof.

Detaylı

FAALİYET RAPORU 2011 MALİ YILI

FAALİYET RAPORU 2011 MALİ YILI TÜİK FAALİYET RAPORU 2011 MALİ YILI TÜRKİYE İSTATİSTİK KURUMU TÜİK FAALİYET RAPORU 2011 MALİ YILI Yayın içeriğine yönelik sorularınız için Strateji Geliştirme Daire Başkanlığı Strateji ve Kalite Grubu

Detaylı

TOPLU E-POSTA GÖNDERM SSTEMLERNDE PERFORMANS GELTRMELER

TOPLU E-POSTA GÖNDERM SSTEMLERNDE PERFORMANS GELTRMELER T.C. BAHÇEEHR ÜNVERSTES TOPLU E-POSTA GÖNDERM SSTEMLERNDE PERFORMANS GELTRMELER Yüksek Lisans Tezi VEL GÜRKAN KIZILGÜNE STANBUL, 2008 T.C. BAHÇEEHR ÜNVERSTES FEN BLMLER ENSTTÜSÜ BLG TEKNOLOJLER TOPLU

Detaylı

Filo araç al m nda karar aac ve deerleme a kullan m

Filo araç al m nda karar aac ve deerleme a kullan m www.istatistikciler.org statistikçiler Dergisi 3 (00) 86-05 statistikçiler Dergisi Filo araç al m nda karar aac ve deerleme a kullan m enay Lezki Anadolu Üniversitesi ktisadi ve dari Bilimler Fakültesi

Detaylı