İş Zekası Çözümleri için Çok Boyutlu Birliktelik Kuralları Analizi



Benzer belgeler
İş Zekası Çözümleri için Çok Boyutlu Birliktelik Kuralları Analizi

Birliktelik Kuralları Analizi. Yard. Doç. Dr. Derya BİRANT Prof. Dr. Alp KUT

SÜREÇ YÖNETİMİ VE SÜREÇ İYİLEŞTİRME H.Ömer Gülseren > ogulseren@gmail.com

Etkinliklere katılım, ücretli ve kontenjan ile sınırlıdır.

BÖLÜM 3 FREKANS DAĞILIMLARI VE FREKANS TABLOLARININ HAZIRLANMASI

Web Madenciliği (Web Mining)

Araştırma Notu 15/177

İSTANBUL TİCARET ÜNİVERSİTESİ BİLGİSAYAR MÜHENDİSLİĞİ BÖLÜMÜ BİLGİSAYAR SİSTEMLERİ LABORATUARI YÜZEY DOLDURMA TEKNİKLERİ

BÖLÜM 7 BİLGİSAYAR UYGULAMALARI - 1

Analiz aşaması sıralayıcı olurusa proje yapımında daha kolay ilerlemek mümkün olacaktır.

ÖZEL GÜVEN TIP MERKEZİ

YILDIZ TEKNİK ÜNİVERSİTESİ DERS GÖREVLENDİRME YÖNERGESİ

YÜKSEKÖĞRETİM KURUMLARI ENGELLİLER DANIŞMA VE KOORDİNASYON YÖNETMELİĞİ (1) BİRİNCİ BÖLÜM. Amaç, Kapsam, Dayanak ve Tanımlar

ADANA BÜYÜKŞEHİR BELEDİYESİ KENTSEL DÖNÜŞÜM PROJELERİ

İSTANBUL KEMERBURGAZ ÜNİVERSİTESİ. ÇİFT ANADAL ve YANDAL PROGRAMI YÖNERGESİ

ÖĞRENME FAALĠYETĠ GELĠġMĠġ ÖZELLĠKLER

BIM BUILDING INFORMATION MODELING YAPI BİLGİ MODELİ

Öğrenci Performansının Veri Madenciliği İle Belirlenmesi

BİLGİSAYAR DESTEKLİ BİR DİL PROGRAMI -Türkçe Konuşma - Tanıma Sistemi-

İlkadım Birey Tanıma Envanteri

ÇANAKKALE ONSEKİZ MART ÜNİVERSİTESİ MÜHENDİSLİK MİMARLIK FAKÜLTESİ JEOFİZİK MÜHENDİSLİĞİ BÖLÜMÜ STAJ İLKELERİ

17-19 EYLÜL 2010 TARİHLERİ ARASINDA MEHMET AKİF ERSOY ÜNİVERSİTESİN DE YAPILAN ADIM ÜNİVERSİTELERİ İDARİ GRUP TOPLANTI KARARLARI

FOTOGRAMETRİK DEĞERLENDİRME - ÇİFT FOT. DEĞ. Analog ve Analitik Stereodeğerlendirme. Yrd. Doç. Dr. Aycan M. MARANGOZ

Deprem Yönetmeliklerindeki Burulma Düzensizliği Koşulları

T.C. NUH NACİ YAZGAN ÜNİVERSİTESİ YAZILIM KULÜBÜ TÜZÜĞÜ. BİRİNCİ BÖLÜM Kuruluş Gerekçesi, Amaç, Kapsam, Dayanak ve Tanımlar

Veri Toplama Yöntemleri. Prof.Dr.Besti Üstün

Lisansüstü Programlar, Başvuru ve Kabul Yönetmeliği Sayfa: 1

BÜRO YÖNETİMİ VE SEKRETERLİK ALANI HIZLI KLAVYE KULLANIMI (F KLAVYE) MODÜLER PROGRAMI (YETERLİĞE DAYALI)

T.C. EGE ÜNİVERSİTESİ URLA DENİZCİLİK MESLEK YÜKSEKOKULU STAJ YÖNERGESİ


MAKÜ YAZ OKULU YARDIM DOKÜMANI 1. Yaz Okulu Ön Hazırlık İşlemleri (Yaz Dönemi Oidb tarafından aktifleştirildikten sonra) Son aktif ders kodlarının

ANALOG LABORATUARI İÇİN BAZI GEREKLİ BİLGİLER

KİŞİSEL GELİŞİM VE EĞİTİM İŞ GÜVENLİĞİ VE İŞÇİ SAĞLIĞI MODÜLER PROGRAMI (YETERLİĞE DAYALI)

AFYON KOCATEPE ÜNİVERSİTESİ LİSANSÜSTÜ UZAKTAN EĞİTİM YÖNERGESİ

YÖNETMELİK ANKARA ÜNİVERSİTESİ YABANCI DİL EĞİTİM VE ÖĞRETİM YÖNETMELİĞİ BİRİNCİ BÖLÜM. Amaç, Kapsam, Dayanak ve Tanımlar

KİTAP İNCELEMESİ. Matematiksel Kavram Yanılgıları ve Çözüm Önerileri. Tamer KUTLUCA 1. Editörler. Mehmet Fatih ÖZMANTAR Erhan BİNGÖLBALİ Hatice AKKOÇ

Giresun Üniversitesi Akademik Değerlendirme Ve Kalite Geliştirme Uygulama Yönergesi

Bilişim Sistemleri. Modelleme, Analiz ve Tasarım. Yrd. Doç. Dr. Alper GÖKSU

DEĞERLENDİRME NOTU: Mehmet Buğra AHLATCI Mevlana Kalkınma Ajansı, Araştırma Etüt ve Planlama Birimi Uzmanı, Sosyolog

DÜNYA EKONOMİK FORUMU KÜRESEL CİNSİYET AYRIMI RAPORU, Hazırlayanlar. Ricardo Hausmann, Harvard Üniversitesi

6. ODA MERKEZ BÜRO İŞLEYİŞİ

II. Bölüm HİDROLİK SİSTEMLERİN TANITIMI

KAPLAMA TEKNİKLERİ DERS NOTLARI

Veritabanı Dersi. Teoriden Pratiğe. Çağıltay N.E., Tokdemir G. Veritabanı Sistemleri Dersi -Bölüm XXVI: Veri Ambarı Çağıltay, N., Tokdemir, G.

BİLİŞİM TEKNOLOJİLERİ ÜÇ BOYUTLU GRAFİK ANİMASYON (3DS MAX) MODÜLER PROGRAMI (YETERLİĞE DAYALI)

22 Nisan 2014 SALI Resmî Gazete Sayı : 28980

BEBEK VE ÇOCUK ÖLÜMLÜLÜĞÜ 9

1. BÖLÜM: SOSYAL MEDYA

İnşaat Firmalarının Maliyet ve Süre Belirleme Yöntemleri Üzerine Bir Alan Çalışması

YILDIRIM BEYAZIT ÜNİVERSİTESİ İŞ SAĞLIĞI VE GÜVENLİĞİ KOORDİNATÖRLÜĞÜ YÖNERGESİ BİRİNCİ BÖLÜM

BİLGİSAYAR PROGRAMLARI YARDIMIYLA ŞEV DURAYLILIK ANALİZLERİ * Software Aided Slope Stability Analysis*

ÇANKAYA BELEDİYESİ EVDE BAKIM HİZMETLERİ YÖNERGESİ

BİLGİ TEKNOLOJİLERİ VE İLETİŞİM KURULU KARARI

5. ÜNİTE KUMANDA DEVRE ŞEMALARI ÇİZİMİ

TESİSAT TEKNOLOJİSİ VE İKLİMLENDİRME ÇELİK BORU TESİSATÇISI MODÜLER PROGRAMI (YETERLİĞE DAYALI)

a) Birim sorumluları: Merkez çalışmalarının programlanmasından ve uygulanmasından sorumlu öğretim elemanlarını,

MEHMET AKİF ERSOY ÜNİVERSİTESİ STRATEJİK İŞBİRLİĞİ PROJE DANIŞMANLIK EĞİTİM UYGULAMA VE ARAŞTIRMA MERKEZİ YÖNETMELİĞİ

TÜRKİYE SERMAYE PİYASALARINDA MERKEZİ KARŞI TARAF UYGULAMASI 13 MAYIS 2013 İSTANBUL DR. VAHDETTİN ERTAŞ SERMAYE PİYASASI KURULU BAŞKANI KONUŞMA METNİ

EGE ÜNİVERSİTESİ İZMİR ATATÜRK SAĞLIK YÜKSEKOKULU EBELİKTE LİSANS TAMAMLAMA UZAKTAN ÖĞRETİME İLİŞKİN USUL VE ESASLAR BİRİNCİ BÖLÜM

HÂKİMLER VE SAVCILAR YÜKSEK KURULU HUKUKİ MÜZAKERE TOPLANTILARI PROJE FİŞİ

1 OCAK 31 ARALIK 2009 ARASI ODAMIZ FUAR TEŞVİKLERİNİN ANALİZİ

Oyun Teorisi IENG 456 Karar Vermede Analitik Yaklaşımlar

Türk-Alman Üniversitesi Mühendislik Fakültesi Staj Yönergesi. Ek İsterler

MARMARA ÜNĠVERSĠTESĠ YABANCI DĠL VE TÜRKÇE HAZIRLIK SINIFLARI EĞĠTĠM-ÖĞRETĠM ve SINAV YÖNERGESĠ Senato: 13 Ekim 2009 /

13 Kasım İlgili Modül/ler : Satın Alma ve Teklif Yönetimi. İlgili Versiyon/lar : ETA:SQL, ETA:V.8-SQL

SAKARYA ÜNİVERSİTESİ PEDAGOJİK FORMASYON EĞİTİMİ YÖNERGESİ ( tarih ve 458 sayı ve 14 Numaralı Üniversite Senato Kararı)

SANAT VE TASARIM GUAJ BOYA RESĠM MODÜLER PROGRAMI (YETERLĠĞE DAYALI)

GİYİM ÜRETİM TEKNOLOJİSİ ÇOCUK DIŞ GİYSİLERİ DİKİMİ (CEKET- MONT- MANTO) MODÜLER PROGRAMI (YETERLİĞE DAYALI)

İŞ SAĞLIĞI VE GÜVENLİĞİ UYGULAMALARI

1.3. NİTEL ARAŞTIRMA YÖNTEMLERİ GİRİŞ NİTEL ARAŞTIRMALARDA GEÇERLİK VE GÜVENİRLİK SORUNLARI... 2

İZMİR KÂTİP ÇELEBİ ÜNİVERSİTESİ ENGELSİZ ÜNİVERSİTE KOORDİNATÖRLÜĞÜ VE ENGELLİ ÖĞRENCİ BİRİMİ ÇALIŞMA USUL VE ESASLARI BİRİNCİ BÖLÜM

Ara rma, Dokuz Eylül Üniversitesi Strateji Geli tirme Daire Ba kanl na ba

ANKARA EMEKLİLİK A.Ş GELİR AMAÇLI ULUSLARARASI BORÇLANMA ARAÇLARI EMEKLİLİK YATIRIM FONU ÜÇÜNCÜ 3 AYLIK RAPOR

Digifresh Kullanım Kılavuzu

KAMU İHALE KANUNUNA GÖRE İHALE EDİLEN PERSONEL ÇALIŞTIRILMASINA DAYALI HİZMET ALIMLARI KAPSAMINDA İSTİHDAM EDİLEN İŞÇİLERİN KIDEM TAZMİNATLARININ

YIĞMA TİPİ YAPILARIN DEPREM ETKİSİ ALTINDA ALETSEL VERİ ve HESAPLAMALARA GÖRE DEĞERLENDİRİLMESİ

Expert modülleri üretiminizi optimize eder. Expert Systemtechnik GmbH. Türkçe. Dö emeli mobilyalar

KÜÇÜK VE ORTA ÖLÇEKLİ İŞLETMELERİ GELİŞTİRME VE DESTEKLEME İDARESİ BAŞKANLIĞI (KOSGEB) KOBİ VE GİRİŞİMCİLİK ÖDÜLLERİ UYGULAMA ESASLARI

İSTANBUL KEMERBURGAZ ÜNİVERSİTESİ ÖNLİSANS VE LİSANS PROGRAMLARI ARASINDA YATAY GEÇİŞ YÖNERGESİ. BİRİNCİ BÖLÜM Amaç, Kapsam, Dayanak ve Tanımlar

Pazarlama ve Reklamcılık Bölümü Pazarlama Programı Öğr. Gör. Cansu AYVAZ GÜVEN

Tasarım Raporu. Grup İsmi. Yasemin ÇALIK, Fatih KAÇAK. Kısa Özet

AKSARAY ÜNİVERSİTESİ. Amaç, Kapsam, Dayanak ve Tanımlar

Ç.Ü. GÜZEL SANATLAR FAKÜLTESİ İÇ MİMARLIK BÖLÜMÜ GÜZ YARIYILI İÇM PROJE 5 & DİPLOMA PROJESİ

Afyon Kocatepe Üniversitesi Yabancı Dil Hazırlık Sınıfı Eğitim-Öğretim

MUSTAFA KEMAL ÜNĠVERSĠTESĠ MUSTAFA YAZICI DEVLET KONSERVATUVARI MÜZĠK BÖLÜMÜ ĠLKÖĞRETĠM VE LĠSE DÜZEYĠ SERTĠFĠKA PROGRAMI YÖNERGESĠ BĠRĠNCĠ BÖLÜM

DERS SOSYOLOJİ KONU SOSYOLOJİNİN ARAŞTIRMA YÖNTEM VE TEKNİKLERİ

28 Mayıs 2016 tarihli ve sayılı Resmî Gazetede yayınlanmıştır. KURUL KARARI. Karar No : Karar Tarihi : 13/05/2016

Murat Yükse1 l, Serhat İkizoğlu 2

T.C. KĠLĠS 7 ARALIK ÜNĠVERSĠTESĠ ÖRGÜN EĞĠTĠM ÖĞRENCĠLERĠNE YÖNELĠK UZAKTAN EĞĠTĠM YÖNERGESĠ BĠRĠNCĠ BÖLÜM. Amaç, Kapsam, Tanımlar

ATAÇ Bilgilendirme Politikası

KAMU BORÇ İDARESİNDE OPERASYONEL RİSK YÖNETİMİ

GRUP ŞİRKETLERİNE KULLANDIRILAN KREDİLERİN VERGİSEL DURUMU

ELLE SÜT SAĞIM FAALİYETİNİN KADINLARIN HAYATINDAKİ YERİ ARAŞTIRMA SONUÇLARI ANALİZ RAPORU

PROJE ADI DOĞAL ÇEVRECĠ SEBZE-MEYVE KURUTMA SĠSTEMĠ. PROJE EKĠBĠ Süleyman SÖNMEZ Ercan AKÇAY Serkan DOĞAN. PROJE DANIġMANLARI

PROJE. Proje faaliyetlerinin teknik olarak uygulanması, Sanayi Genel Müdürlüğü Sanayi Politikaları Daire Başkanlığınca yürütülmüştür.

AIMCO AIMCO. Kullanım Kılavuzu. Mayıs 2016

ORMAN GENEL MÜDÜRLÜĞÜ Yılı Kurumsal Mali Durum ve Beklentiler Raporu

MADDE 1 (1) Bu Yönetmeliğin amacı, iş arayanlar ile işverenlere Kurum tarafından sunulan hizmetlere ilişkin usul ve esasları belirlemektir.

1. RESİM DÜZENLEME. Bir resmin piksel yoğunluğu yani PPI (Pixel Per Inches) 1 inç karede (1 inç = 2.54 cm) bulunan piksel sayısıdır.

BEYKOZ LOJİSTİK MESLEK YÜKSEKOKULU ÖNLİSANS EĞİTİM - ÖĞRETİM VE SINAV YÖNETMELİĞİ (Resmi Gazete Tarihi: Resmi Gazete Sayısı: 28028)

Transkript:

Akademik Bilişim 10 - XII. Akademik Bilişim Konferansı Bildirileri 10-12 Şubat 2010 Muğla Üniversitesi İş Zekası Çözümleri için Çok Boyutlu Birliktelik Kuralları Analizi Derya Birant 1, Alp Kut 1, Medi Ventura 2, Hakan Altınok 2, Benal Altınok 2, Elvan Altınok 2, Murat Ihlamur 2 1 Dokuz Eylül Üniversitesi, Bilgisayar Mühendisliği Bölümü, İzmir 2 Netsis, Netle, Analyzer, İzmir derya@cs.deu.edu.tr, alp@cs.deu.edu.tr, medi.ventura@netsis.com.tr, hakan@e-analyzer.net, benal.altinok@netle.com.tr, elvan@e-analyzer.net, murat.ihlamur@netsis.com.tr Özet: Bu bildiri, iş zekası çözümlerinde kullanılabilecek, veri madenciliğindeki çok boyutlu birliktelik kuralları analizini içermektedir. Çalışmanın amacı, çok boyutlu verilerdeki gizli kalmış örüntüleri, ilişkileri ve değişimleri kurallar halinde keşfedebilmeyi sağlamaktır. Çalışmada, FP- Growth algoritmasının çok boyutlu birliktelik kuralları analizinde kullanılabileceği bir model önerilmektedir. Modelin kullanılabilirliğini arttırmak için geliştirilen OLAP küp yapısına dayalı bir yazılım çerçevesi de anlatılmaktadır. Çalışma, ayrıca çok boyutlu birliktelik kuralları analizi tekniğiyle gerçekleştirilen, pazar sepet analizi ile ilgili örnek bir uygulama da içermektedir. Anahtar Sözcükler: Veri Madenciliği, İş Zekâsı, Birliktelik Kuralları Analizi. A New Approach for Quality Function Deployment: An Application Abstract: This paper covers multi-dimensional association rule analysis in data mining which is able to use for business intelligent solutions. The purpose of the study is to discover hidden patterns, associations, and changes as rules. It proposes a model implemented with FP-Growth algorithm for multidimensional association rule analysis. A software framework based on OLAP cubes, which was developed to increase the usability of the model, is also explained. This paper also contains a case study for market basket analysis using multi-dimensional association rule mining technique. Keywords: Data Mining, Business Intelligence, Association Rule Mining. 1. Giriş Birliktelik kuralları analizi, yaygın olarak kullanılan veri madenciliği yöntemlerinden birisidir. Veriler arasındaki birlikteliklerin, ilişkilerin ve bağıntıların kurallar halinde bulunması işlemidir. Veri nesneleri arasındaki ilginç ilişkiler ve eş zamanlı gerçekleşen durumlar araştırılır. Bir birliktelik kuralına örnek olarak X ve Y ürününü satın alan müşterilerin %80 olasılıkla C ürününü de satın alması verilebilir. Bu tür birliktelik kuralları, söz konusu nesneler ile ilgili durumun sıklıkla tekrarlanması durumunda anlamlıdır. Birliktelik kuralları analizi; ticaret, finans, mühendislik, fen ve sağlık sektörlerinin birçok alanlarında kullanılmaktadır. Örneğin, pazar sepet analizlerinde sıklıkla birlikte satılan ürünleri tespit etmek, web sayfalarında ziyaretçilerin hangi sayfaları birlikte tıkladığını araştırmak, bağıntılı olarak geçirilen hastalıkları belirlemek için kullanılabilmektedir. Bu çalışmada, iş zekası çözümlerinde kullanılabilecek, çok boyutlu birliktelik kuralları analizini içeren bir model önerilmektedir. OLAP küpleri üzerinde FP-Growth algoritmasının 215

İş Zekası Çözümleri için Çok Boyutlu Birliktelik Kuralları Analizi Derya Birant, Alp Kut, Medi Ventura, Hakan Altınok, Benal Altınok, Elvan Altınok, Murat Ihlamur çalıştırılmasına dayalı olarak geliştirilmiş bir yazılım çerçevesi anlatılmaktadır. Çalışmada ayrıca gün, şube, satılan ürünler gibi çok boyutlu bir mağazacılık verisinde gerçekleştirilen pazar sepet analizi uygulaması da sunulmaktadır. Bu uygulamanın amacı, hangi şubelerde, hangi günlerde, hangi ürünlerin satıldığına yönelik gizli kalmış bilgileri keşfetmektir. Veri madenciliği ile elde edilebilecek bilgilerle, gün ve şubeler düzeyinde satış tahminleri, promosyon uygulamaları ve reyon dizilişleri yapılabilmektedir. Bildirinin ikinci bölümünde, konu ile ilgili yapılmış önceki çalışmalar hakkında bilgi verilmiştir. Üçüncü bölümde, tek boyutlu ve çok boyutlu birliktelik kurallarının temel kavramları ve farkları anlatılmaktadır. Dördüncü bölümde, algoritma detayları verilmektedir. Beşinci bölümde, örnek olarak gerçekleştirilen çok boyutlu pazar sepet analizi uygulaması sunulmaktadır. Bildiri, sonuçların aktarıldığı ve gelecek çalışmaların belirtildiği altıncı bölüm ile sona ermektedir. 2. Önceki Çalışmalar Çok boyutlu birliktelik kuralları analizi çeşitli çalışmalarda farklı algoritmalar kullanılarak gerçekleştirilmiştir. Örneğin; Xu ve Wang [12] [13] bu konu ile ilgili yaptıkları çalışmalarında, 4 seviyeli bağlaçlı liste veri yapısı kullanan ve veritabanını sadece bir kere tarayan yeni bir algoritma geliştirmişlerdir. Algoritmada kullanılan indeks yapısı ve istatistiksel frekans hesaplamaları ile geleneksel yöntemlere göre daha hızlı bir model ortaya koymuşlardır. Lin, Tseng ve Wang [8] çevrimiçi olarak OLAM (On-Line Association Mining) küplerinden çok boyutlu birliktelik kurallarının bulunması konusunda çalışmalar yapmışlardır. Ayrıca bu küpleri kullanan OMARS adını verdikleri bir yazılım çerçevesi geliştirmişlerdir. Bu yazılım çerçevesi ile kullanıcıların OLAP benzeri sorgu oluşturmasını sağlayan bir arayüz hazırlamışlardır. 216 Çok boyutlu birliktelik kuralları analizini başka metotlarla birleştirerek yapan çalışmalar bulunmaktadır. Örneğin; Khare ve arkadaşları [7] bulanık mantık ile çok boyutlu birliktelik kuralları analizi yaparken kuralları oluşturan kısıt değerlerinin bulanık değerler olarak ifade edilmesini ortaya atmışlardır. Bu yöntem ile daha geniş değerli kategorilerin işlenebilmesini sağlayarak, daha yüksek destek değerli birliktelik kuralları elde edebilmişlerdir. Sug [11] yaptığı çalışmada çok boyutlu birliktelik kuralları ile karar ağaçları yöntemini oluşturmuştur. Pandey ve Pardasani [10] yaklaşımlı küme modeli ile çok boyutlu birliktelik kurallarını iki adımda keşfedebilmektedirler. Birinci adımda, ilgili tablolar birleştirilerek yeni veri setini elde edilmiş, ikinci adımda ise seçilen boyutların ikili kodlama sistemine göre oluşturulması ve birliktelik kurallarının bulunması gerçekleştirilmiştir. Çok boyutlu birliktelik kuralları analizini değişik alanlarda uygulayan çalışmalar da bulunmaktadır. Örneğin; Song-Bai He ve arkadaşları [6] trafik kazalarına neden olan faktörleri çok boyutlu birliktelik kuralları yöntemiyle incelemişlerdir. Taşıt tipi, zaman, bölge, ehliyet süresi, hava şartları gibi faktörlerle trafik kazalarının ilişkilerini çok boyutlu araştırmışlardır. Doğan ve Çamurcu [3] eğitime yönelik veri madenciliği çalışması yaparak, çevrimiçi bir test değerlendirme aracı ile yanlış seçenekleri çok boyutlu analiz etmişler ve sıklıkla birlikte yapılan yanlışları bulabilmişlerdir. Bu bulgulara dayanarak testlerin temel ve alt kavramlarının yeniden güncellenebilmesi hedeflenmektedir. 3. Birliktelik Kuralları Temel Kavramları Bir veritabanını tablosunda, VT, yer alan tüm nesnelerin N = {n 1,n 2,n 3,...,n m } olarak ifade edildiğini düşünelim. Bu durumda veritabanı tablosunda VT={H 1, H 2, H 3,...,H t } yer alan bir hareket kaydındaki, k nesne, tüm nesneler kümesinin bir alt kümesi, H j N, H j = {n j1,n j2,n j3,...,n jk } olacaktır. Bir birliktelik kuralı, X ve Y, N tüm nesneler kümesinin bir alt kü-

Akademik Bilişim 10 - XII. Akademik Bilişim Konferansı Bildirileri 10-12 Şubat 2010 Muğla Üniversitesi mesi, X N, Y N ve X Y= Ø olmak üzere X Y biçiminde bir bağımlılık ifadesidir. Bu ifade ile X nesnesi/nesneleri, Y nesnesini/nesnelerini belirler. Başka bir deyişle Y nesnesi/ nesneleri, X nesnesine/ nesnelerine bağımlıdır denir. Veritabanı kayıtlarında, nesnelerin gruplandırılması ile elde edilen bağımlılık ilişkilerinin yüzde yüz geçerli olması beklenemez. Ancak, çıkarsaması yapılan kuralın, veritabanının önemli bir kısmı tarafından desteklenmesi, yani söz konusu durumun sıkça görülüyor olması gerekir. Bu nedenlerden dolayı, bir X Y birliktelik kuralı destek ve güven eşik değerlerini sağlayacak biçimde üretilir. Destek değeri, X ve Y nesnelerinin birlikte bulunduğu kayıt sayısının, veritabanındaki tüm kayıt sayısına oranı olarak hesaplanır. Güven değeri ise, X ve Y nesnelerinin birlikte bulunduğu kayıt sayısının, X nesnesinin (veya nesnelerinin) bulunduğu kayıt sayısına oranıdır. Destek ve güven ifadeleri 0 ile 1 arasında değişir ve ne kadar 1 e yakınlarsa nesneler arasında o kadar güçlü ilişki olduğunu gösterirler. Dolayısıyla, bağıntının önemli olması için her iki değerin de olabildiğince yüksek olması gereklidir. Destek(X Y = P(X ) Y ) (3) Güven(X Y) = P(Y X) = P(X Y)/P(X) 3.1. Tek Boyutlu Birliktelik Kuralları Analizi Tek boyutlu birliktelik kuralları, tek bir karşılaştırma elemanı yada özellik içeren birliktelik kurallarıdır. Örneğin; sadece satın alma önergesi içeren basit bir pazar sepet analizinde kullanılan kural türüdür. SatınAlma( A ürünü ) SatınAlma("B ürünü") (%60) 3.2. Çok Boyutlu Birliktelik Kuralları Analizi Çok boyutlu birliktelik kuralları, birden fazla karşılaştırma elemanı yada özellik içeren birliktelik kurallarıdır. Örneğin; müşterilerin hangi şubeden, hangi gün, neler satın aldığı gibi birden fazla özelliği içeren kurallar, Şekil 1 de gösterilen örnek OLAP küpü üzerinden keşfedilebilmektedir. Şube( Cihan ) Λ Gün( Salı ) SatınAlma("A ürünü") (%15) Destek(X Y = ) X Y / V T (1) Güven(X Y) = Destek(X Y) / Destek(X) X Y / VT = X / VT = X Y / X Destek, veri setinde bu bağıntının ne kadar sık olduğunu, P(X Y) ; güven de X nesnesinin olması durumunda hangi olasılıkla Y nesnesini de olacağını söyler, P (Y X). 217 Şekil 1. OLAP küp örneği Yöneticiler ve analistler, çalışmaları sırasında çok boyutlu olarak tanımlanan verileri yatay

İş Zekası Çözümleri için Çok Boyutlu Birliktelik Kuralları Analizi Derya Birant, Alp Kut, Medi Ventura, Hakan Altınok, Benal Altınok, Elvan Altınok, Murat Ihlamur veya düşey eksenlerde çakıştırarak görebilmektedirler. Örneğin; demografik veriler (yaş, cinsiyet, eğitim durumu vb.), sayısal veriler (adetler, işlem miktarları, bütçelenen değerler vb.), ürün özellikleri (renk, boyut vb.) ve zaman gibi farklı açılardan bakılarak daha ayrıntılı analizler yapabilmektedirler. Analizde göz önünde bulundurulacak veri boyutlarının, B={B 1,B 2,B 3,...,B t }, veritabanı tablosunun da VT={H 1, H 2, H 3,...,H t } olarak ifade edildiğini düşünelim. Bu durumda veritabanı tablosunda yer alan bir hareket kaydı H i ={b i1,b i2,b i3,...,b it } olacaktır. B i boyutunun içerdiği tanım kümeleri (domain) ile b ij ϵ B i ifadesi kullanılabilmektedir. Bu durumda VT veritabanı tablosu B 1 X B 2 X X B t çapraz çarpımının alt kümesi olmaktadır. Çok boyutlu birliktelik kuralları genel olarak iki türe ayrılır. Karşılaştırma elemanları tekrar etmeyen kurallar boyutlar arası birliktelik kuralları, tekrar eden kurallar ise hibrit birliktelik kuralları olarak adlandırılır. Boyutlar arası birliktelik kuralı örneği: Şube( Cihan ) Λ Gün( Salı ) SatınAlma("A ürünü") Hibrit birliktelik kuralı örneği: Şube( Cihan ) Λ Gün( Salı ) Λ SatınAlma( A ürünü ) SatınAlma("B ürünü") adı verilen sıkıştırılmış bir ağaç veri yapısında tutmasıdır. Ayrıca algoritma tüm veritabanı sadece iki kez taramaktadır. Birinci tarama, tüm nesnelerin destek değerlerinin hesaplanması için, ikincisi tarama ise ağaç veri yapısının oluşturulması içindir. Şekil 2 de FP-Growth algoritmasının genel yapısı gösterilmektedir. Algoritmada öncelikle veritabanındaki her bir nesnenin destek değerleri hesaplanmaktadır. Destek değerleri, algoritmaya girdi olarak verilen destek eşik değerine büyük ve eşit olan nesneler büyükten küçüğe sıralanarak bir liste içerisine konulmaktadır. Bu eleme sayesinde yaygın olmayan nesnelerin hiçbir zaman ağaca eklenmemesi sağlanmış olur. Veritabanındaki her bir hareket kaydı nesnelerin destek değerlerine göre sıralanarak ağaca sıkıştırılmış biçimde eklenir. Sıralama işlemi sayesinde destek değeri daha büyük olan nesneler köke daha yakın olmaktadır. Sıkıştırma işlemi çok tekrarlı nesnelerin ilk-ekler olarak birleştirilmesi ile gerçekleştirilir. Bu metot arama maliyetini önemli ölçüde azaltır. Hareket kaydı içerisinde yer alan bir nesne ağaçta yoksa o nesne için yeni bir düğüm oluşturulur ve destek değeri 1 olarak atanır. Eğer o nesne daha önce ağaçta oluşturulmuş ise sadece o düğümün destek değeri 1 arttırılır. Nesnelerin ağaçtaki başlangıç noktaları başlık tablosu içerisinde tutulur. Aynı zamanda ağaç içerisinde aynı nesneyi içeren düğümler birbirine bağlanır. Ağaç oluşturulduktan sonra üzerinde Growth algoritması çalıştırılır. 4. Algoritma Birliktelik kuralları analizi konusunda geliştirilmiş olan başlıca algoritmalar APRIORI [1], ECLAT [14], MAFIA [2] ve FP-Growth [5] algoritmalarıdır. Bu algoritmalar karşılaştırıldığında FP-Growth algoritmasının yüksek performans gösterdiği görülmüştür. [4] Bu algoritma büyük veri-setlerinde hızlı çalışabilen ve sistem kaynaklarını verimli kullanabilen bir algoritmadır. Bunun en büyük nedeni, tüm veritabanını FP-Tree (Frequent Pattern Tree) 218 Şekil 3 de her bir nesne için çalıştırılan Growth algoritmasının genel yapısı gösterilmektedir. Öncelikle içerisinde o nesnenin geçtiği yollar belirlenir. Eğer tek bir dal varsa yaygın nesneler kümesi, dalı oluşturan nesnelerin kombinasyonudur. Eğer birden fazla yol varsa, destek değer o yoldaki minimum destek değeri olarak belirlenir. Daha sonra bu yollar o nesne için koşullu örüntü temelini (conditional pattern base) oluşturur. Her bir koşullu örüntü temelinden koşullu örüntü ağacı (conditional pattern tree) oluşturulur. Daha sonra bu şartlı örüntü

Akademik Bilişim 10 - XII. Akademik Bilişim Konferansı Bildirileri 10-12 Şubat 2010 Muğla Üniversitesi ağacı üzerinde algoritma özyinelemeli olarak yeniden çalıştırılır. olur. Algoritma böl ve yönet yaklaşımına uygun olarak ana görevin kendi içinde daha küçük görevlere ayrılmasına olanak vermektedir. Ayrıca oluşturulan FPtree veri yapısı asıl veri kümesinden daha büyük olmamaktadır. 5. Pazar Sepet Analizi Uygulaması Birliktelik kuralları analizi, en yaygın olarak pazar sepet analizi uygulamalarında kullanılmaktadır. Bu uygulamalarda temel amaç marketlerde hangi ürünlerin birlikte satıldığını belirlemektir. Bu bildirideki uygulamada amaç, hangi şubede hangi gün hangi ürünlerin birlikte satıldığı belirlemektir. Çok boyutlu veriler üzerinden hibrit birliktelik kuralları çıkarılmaktadır. Şekil 2. FP-Growth algoritmasının genel yapısı Uygulama, önceki bölümlerde anlatılan modeli ve algoritmayı içerecek şekilde çalışma kapsamında geliştirilen Analyzer arayüzü kullanılarak gerçekleştirilmiştir. [9] 5.1 Veri Ambarı Uygulamada kullanılan veri ambarı, bir mağazanın 9 şubesine ait 6300 müşterinin 6 aylık 95000 alışveriş hareket verilerini içermektedir. Veri ambarı oluşturulurken veri indirgeme, temizleme, ön işleme ve dönüştürme işlemleri yapılmıştır. Örneğin, tarihler haftalık günlere dönüştürülmüş, geçersiz veriler çıkartılmıştır. Şekil 4 de veri ambarının kar tanesi şeması (snowflake schema) gösterilmektedir. Alışveriş hareketlerini içeren olgu tablosu (fact table) satış, şube ve zaman boyutlarını birleştirmektedir. Müşteri ve ürün tabloları alışveriş hareketlerini destekleyici konumdaki tablolardır. Şekil 3. Growth algoritmasının genel yapısı Tablo1 de uygulamada kullanılan veri setinin küçük bir örneği verilmektedir. Mağazanın sattığı ürünler A, B, C gibi harfler olarak kodlanmıştır. Fp-Growth algoritması sonlandığında birlikte sıklıkla görünen nesneler kümesi belirlenmiş 219

İş Zekası Çözümleri için Çok Boyutlu Birliktelik Kuralları Analizi Derya Birant, Alp Kut, Medi Ventura, Hakan Altınok, Benal Altınok, Elvan Altınok, Murat Ihlamur Şekil 4. Kar tanesi şeması Şube Gün Ürünler 01-Cihan Pazartesi A, B, C 02-Bilkent Pazartesi A, D 02-Bilkent Salı B, E, K 02-Bilkent Salı C, K, Y, Z 09- Pazar A, C, E Keçiören Tablo 1. Örnek veriseti 5.2 Veri Madenciliği Verilerin hazırlanmasının ardından uygulama üç aşamada gerçekleştirilmektedir: Boyutların seçimi: OLAP küpünde bulunan boyutlardan, birliktelik analizine dahil edilmek istenen sahalar belirlenmelidir. (Şekil 5 Bölüm 1) Filtreleme: Çok büyük veri setlerinde filtreleme yapılarak sadece belli bir kısım veri için birliktelik analizi çalıştırılabilmektedir. Örneğin; haftanın günlerinin hepsi yerine bir yada birkaçı seçilebilmektedir. (Şekil 5 Bölüm 2) Birliktelik analizi parametrelerinin tanımlanması: Verilen destek eşik değeri ile belli bir oranın üzerindeki birliktelikler bulunmaktadır. Ayrıca tüm birliktelik sonuçları yerine sadece istenilen sayıda nesne içeren örneğin sadece üçlü birliktelikler gösterilebilmektedir. (Şekil 5 Bölüm 3) 220 5.3 Veri Madenciliği Sonuçları Hangi şubede, hangi gün, hangi ürünlerin satıldığını belirlemeye yönelik yapılan uygulama sonuçlarının bir kısmı hem tabloda hem de grafiksel olarak Şekil 5 in 4. bölümünde gösterilmektedir. Böylece müşterilerin satın alma alışkanlıkları çözümlenmiş olmaktadır ve satışları arttırmaya yönelik stratejiler geliştirilebilmektedir. Analiz sonuçlarının sağlayacağı başlıca yararlar şunlardır: Belirlenen gün ve şubede, X ürününü alanların Y ürününü de çok yüksek olasılıkla aldıkları biliniyorsa ve eğer bir müşteri X ürününü alıyor ama Y ürününü almıyorsa, o potansiyel bir Y müşterisidir denilebilir. Her ürün için şube bazında bir sonraki ayın satış tahminleri çıkarılabilir. Birlikte satın alınan ürünler için şube ve gün bazında promosyon uygulaması yapılabilir. Yeni bir ürün için potansiyel satış bölgesi belirlenebilir. Analiz sonuçlarına göre stok eritmeye gidilebilir. Ürün kataloglarında birlikte satılan ürünler aynı sayfaya konularak çekici hale getirilebilir. Web sitelerinde bir ürünle ilgilenen kişiye, bu ürünle birlikte en çok satılan ürünün reklamı gösterilerek çapraz satış önerisi getirilebilinir. Şube ve gün bazında reyon ve raf dizilişleri değiştirilebilir. Bu konuda iki farklı strateji geliştirmek mümkündür. Birincisi strateji, sıklıkla birlikte satın alınan ürünlerin birbirine yakın iki farklı noktaya konulması ve böylece müşterilerin iki ürün arasında bulunan reyonlardaki ürünleri de alma ihtimalini yükseltmektir. İkinci strateji, birlikte çok fazla satılan ürünlerin yan yana koyulması ile müşteri beklentilerini sağlanmak, ürünlerden birisini alan müşterinin diğerini almayı unutmasını engellemek ve diğer ürünü de alma ihtimalini arttırmaktır.

Akademik Bilişim 10 - XII. Akademik Bilişim Konferansı Bildirileri 10-12 Şubat 2010 Muğla Üniversitesi Kısacası, farklı semtlerde bulunan birden fazla mağaza için farklı eğilimleri tespit edip, mağaza bazında doğru satış ve stok politikaları izlenebilmektedir. Şekil 5. Open Analyzer ekran görüntüsü 6. Sonuçlar ve Gelecek Çalışmalar Çalışmada, iş zekası çözümleri sunmaya yönelik olarak FP-Growth algoritmasını içeren bir yazılım çerçevesi geliştirilmiştir. Çalışmanın amacı, toplanan çok boyutlu büyük veri yığınlarından, veri madenciliği yöntemleri ile önceden bilinmeyen, yararlı ve kullanışlı olabilecek kuralların keşfedilmesidir. Veri madenciliği sonucunda elde edilecek bilgiler, mevcut durumu daha iyi görmeyi ve geleceğe yönelik akılcı ve stratejik kararlar almayı sağlayacaktır. Gelecek çalışmalarda, Analyzer yazılımı ile diğer veri madenciliği yöntemlerini (kümeleme, sınıflandırma, sıralı örüntü analizi, aykırı durum analizi) içeren uygulama çalışmalarının yapılması ve elde edilecek sonuçlarının sunulması hedeflenmektedir. 7. Kaynaklar [1] Agrawal, R., Imielinski, T., Swami, A., Mining Association Rules between Sets of Items in Large Databases, SIGMOD 93, ACM Press, 207-216 (1993). [2] Burdick, D., Calimlim, M., Gehrke, J., MAFIA: A Maximal Frequent Itemset Algorithm for Transactional Databases, Proceedings of the 17th International Conference on Data Engineering, Heidelberg, Germany, 443-452 (2001). [3] Dogan, B., Camurcu, Y., Association Rule Mining from an Intelligent Tutor, Journal of Educational Technology Systems, 36 (4): 433-447 (2008) 221

İş Zekası Çözümleri için Çok Boyutlu Birliktelik Kuralları Analizi Derya Birant, Alp Kut, Medi Ventura, Hakan Altınok, Benal Altınok, Elvan Altınok, Murat Ihlamur [4] Győrödi, C., Győrödi, R., Holban, S., A Comparative Study of Association Rules Mining Algorithms, SACI 2004, 1st Romanian- Hungarian Joint Symposium on Applied Computational Intelligence, Timisoara, Romania, 213-222 (2004). [5] Han, J., Pei, H., Yin, Y., Mining Frequent Patterns without Candidate Generation. SIGMOD 00, ACM Press, New York, NY, USA, (2000). [6] He, S-B., Wang Y-J., Sun, Y-K., Gao, W-W., Chen, Q., An, Y-Q., The Research of Multidimensional Association Rule in Traffic Accidents, Wireless Communications, Networking and Mobile Computing, 1-4 (2008). [7] Khare, N., Adlakha, N., Pardasani, K.R., An Algorithm for Mining Multidimensional Fuzzy Assoiation Rules, International Journal of Computer Science and Information Security (IJCSIS), 5(1): 72-76 (2009). [8] Lin, W-Y., Tseng, M-C., Wang, M-F., OLAM cube selection in on-line multidimensional association rules mining system, Lecture Notes in Computer Science, 3214: 1276-1282 (2004). [10] Pandey, A., Pardasani, K.R., Rough Set Model for Discovering Multidimensional Association Rules, International Journal of Computer Science and Network Security (IJCSNS), 9(6): 59-164 (2009). [11] Sug, H., Comparison of Multidimensional Association Rules with Decision Trees for Large Database, Proceedings of the International Conference on Artificial Intelligence, Las Vegas, Nevada, USA, 121-126 (2003). [12] Xu, W-X., Wang, R-J., A Novel Algorithm of Mining Multidimensional Association Rules, Lecture Notes in Control and Information Sciences, 344/2006: 771-777 (2006). [13] Xu, W-X., Wang, R-J., A Fast Algorithm of Mining Multidimensional Association Rules Frequently, Proceedings of the Fifth International Conference on Machine Learning and Cybernetics, Dalian, 1199-1203 (2006). [14] Zaki, M., Parthasarathy, S., Ogihara, M., Li, W., New Algorithms for Fast Discovery of Association Rules, Proceedings 3rd Int. Conf. on Knowledge Discovery and Data Mining (KDD 97), 283 296. AAAI Press, Menlo Park, CA, USA (1997). [9] NETSİS iş zekası çözümleri, http://www.eanalyzer.net/, 10 Aralık 2009. 222