T.C. YILDIZ TEKNİK ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ

Benzer belgeler
VERİ MADENCİLİĞİ (Kümeleme) Yrd.Doç.Dr. Kadriye ERGÜN

Web Madenciliği (Web Mining)

TEMEL İSTATİSTİKİ KAVRAMLAR YRD. DOÇ. DR. İBRAHİM ÇÜTCÜ

İstatistik ve Olasılık

BKİ farkı Standart Sapması (kg/m 2 ) A B BKİ farkı Ortalaması (kg/m 2 )

YZM 3217 YAPAY ZEKA DERS#10: KÜMELEME

Genel olarak test istatistikleri. Merkezi Eğilim (Yığılma) Ölçüleri Dağılım (Yayılma) Ölçüleri. olmak üzere 2 grupta incelenebilir.

BÖLÜM 6 MERKEZDEN DAĞILMA ÖLÇÜLERİ

VERİ MADENCİLİĞİ (Veri Ön İşleme-2) Yrd.Doç.Dr. Kadriye ERGÜN

TANIMLAYICI İSTATİSTİKLER

Prof.Dr.İhsan HALİFEOĞLU

Kümeler arası. Küme içi. uzaklıklar. maksimize edilir. minimize edilir

VERİ MADENCİLİĞİ (Karar Ağaçları ile Sınıflandırma) Yrd.Doç.Dr. Kadriye ERGÜN

Makine Öğrenmesi 2. hafta

İÇİNDEKİLER ÖN SÖZ...

Yrd. Doç. Dr. Fatih TOSUNOĞLU Erzurum Teknik Üniversitesi Mühendislik Fakültesi İnşaat Mühendisliği Bölümü

Tanımlayıcı İstatistikler. Yrd. Doç. Dr. Emre ATILGAN

Örnek 4.1: Tablo 2 de verilen ham verilerin aritmetik ortalamasını hesaplayınız.

2. Klasik Kümeler-Bulanık Kümeler

2. REGRESYON ANALİZİNİN TEMEL KAVRAMLARI Tanım

KORELASYON VE REGRESYON ANALİZİ. Doç. Dr. Bahar TAŞDELEN

İstatistik ve Olasılık

Matris Cebiriyle Çoklu Regresyon Modeli

Merkezi Eğilim ve Dağılım Ölçüleri

Korelasyon, Korelasyon Türleri ve Regresyon

BÖLÜM 12 STUDENT T DAĞILIMI

RASSAL DEĞİŞKENLER VE OLASILIK DAĞILIMLARI. Yrd. Doç. Dr. Emre ATILGAN

Zeki Optimizasyon Teknikleri

İÇİNDEKİLER 1. GİRİŞ...

Uzaktan Algılama Uygulamaları

Hipotez Testlerine Giriş. Hipotez Testlerine Giriş

Tanımı Amacı Özellikleri Kullanım Alanları Varsayımları Yöntemleri Uygulama aşamaları. Neleri göreceğiz?

BÖLÜM 5 MERKEZİ EĞİLİM ÖLÇÜLERİ

İÇİNDEKİLER. BÖLÜM 1 Değişkenler ve Grafikler 1. BÖLÜM 2 Frekans Dağılımları 37

BÖLÜM 13 HİPOTEZ TESTİ

Üç Boyutlu Serpilme (Saçılım) Grafikleri

Bölüm 3. Tanımlayıcı İstatistikler

İçindekiler vii Yazarların Ön Sözü xiii Çevirenin Ön Sözü xiv Teşekkürler xvi Semboller Listesi xvii. Ölçme, İstatistik ve Araştırma...

Örneklemden elde edilen parametreler üzerinden kitle parametreleri tahmin edilmek istenmektedir.

Analitik Hiyerarşi Prosesi (AHP) Yrd.Doç.Dr. Sabahattin Kerem AYTULUN

3 KESİKLİ RASSAL DEĞİŞKENLER VE OLASILIK DAĞILIMLARI

İÇİNDEKİLER ÖNSÖZ Bölüm 1 KÜMELER Bölüm 2 SAYILAR

YABANCI DİL EĞİTİMİ VEREN ÖZEL BİR EĞİTİM KURUMUNDAKİ ÖĞRENCİLERİN BEKLENTİLERİNİN ARAŞTIRILMASI. Sibel SELİM 1 Efe SARIBAY 2

MAK1010 MAKİNE MÜHENDİSLİĞİ BİLGİSAYAR UYGULAMALARI

VERİ MADENCİLİĞİ (Veri Önişleme-1) Yrd.Doç.Dr. Kadriye ERGÜN

ÇOK DEĞĐŞKENLĐ ĐSTATĐSTĐKLERĐN ARAŞTIRMALARDA KULLANIMI

1. BÖLÜM Polinomlar BÖLÜM II. Dereceden Denklemler BÖLÜM II. Dereceden Eşitsizlikler BÖLÜM Parabol

İçindekiler. Ön Söz... xiii

Bulanık Küme Kavramı BULANIK KÜME. Sonlu ve Sonsuz Bulanık Kümeler. Sonlu ve Sonsuz Bulanık Kümeler

Merkezi Yığılma ve Dağılım Ölçüleri

Gruplanmış serilerde standart sapma hesabı

MAK 210 SAYISAL ANALİZ

MEÜ. SAĞLIK BĠLĠMLERĠ ENSTĠTÜSÜ DERS TANIMI FORMU

2. BASİT DOĞRUSAL REGRESYON 12

SÜREKLĠ OLASILIK DAĞILIMLARI

VEKTÖR UZAYLARI 1.GİRİŞ

Örnek. Aşağıdaki veri setlerindeki X ve Y veri çiftlerini kullanarak herbir durumda X=1,5 için Y nin hangi değerleri alacağını hesaplayınız.

İNŞAAT MÜHENDİSLİĞİ BÖLÜMÜ ÖĞRENCİLERİNİN BAŞARI NOTLARININ DEĞERLENDİRİLMESİ. Tamer Yılmaz, Barış Yılmaz, Halim Sezici 1 ÖZET

Büyük Veri İçin İstatistiksel Öğrenme (Statistical Learning for Big Data)

BİYOİSTATİSTİK Olasılıkta Temel Kavramlar Yrd. Doç. Dr. Aslı SUNER KARAKÜLAH

İLERİ ARAŞTIRMA SORU HAVUZU

OLASILIK ve KURAMSAL DAĞILIMLAR

Bir Normal Dağılım Ortalaması İçin Testler

İstatistik. Temel Kavramlar Dr. Seher Yalçın 1

Tekrarlı Ölçümler ANOVA

BÖLÜM 3 KURAMSAL ÇATI VE HİPOTEZ GELİŞ

Kullanılacak İstatistikleri Belirleme Ölçütleri. Değişkenin Ölçek Türü ya da Yapısı

Esnek Hesaplamaya Giriş

Mühendislik Mekaniği Statik. Yrd.Doç.Dr. Akın Ataş

Doç. Dr. Dilek ALTAŞ İSTATİSTİKSEL ANALİZ

K En Yakın Komşu Methodu (KNearest Neighborhood)

(AYIRIM) DENLİ. Emre KUZUGÜDENL. Doç.Dr.Serdar CARUS

KONU 4: DOĞRUSAL PROGRAMLAMA MODELİ İÇİN ÇÖZÜM YÖNTEMLERİ I

Genel olarak test istatistikleri. Merkezi Eğilim (Yığılma) Ölçüleri Merkezi Dağılım (Yayılma) Ölçüleri. olmak üzere 2 grupta incelenebilir.

Farklı iki ilaç(a,b) kullanan iki grupta kan pıhtılaşma zamanları farklı mıdır?

Mühendislikte İstatistik Yöntemler

GENELLEŞTİRİLMİŞ FUZZY KOMŞULUK SİSTEMİ ÜZERİNE

3. TAHMİN En Küçük Kareler (EKK) Yöntemi 1

İSTATİSTİK VE OLASILIK SORULARI

VERİ MADENCİLİĞİ. Karar Ağacı Algoritmaları: SPRINT algoritması Öğr.Gör.İnan ÜNAL

Mühendislikte İstatistiksel Yöntemler

HSancak Nesne Tabanlı Programlama I Ders Notları

BİYOİSTATİSTİK İstatistiksel Tahminleme ve Hipotez Testi-III Yrd. Doç. Dr. Aslı SUNER KARAKÜLAH

Web Madenciliği (Web Mining)

İSTATİSTİK MHN3120 Malzeme Mühendisliği

Genetik Algoritmalar. Bölüm 1. Optimizasyon. Yrd. Doç. Dr. Adem Tuncer E-posta:

Üretim Süreci: Girdi İşlem Ürün (Sonuç) Araştırma Süreci: Hangi alanda olursa olsun araştırma bir BİLGİ ye ulaşma sürecidir.

Kümeleme Algoritmaları. Tahir Emre KALAYCI

TEKSTİL SEKTÖRÜNDE ÖRGÜT KÜLTÜRÜNÜN ÖĞRENEN ÖRGÜTE OLAN ETKİSİ

Temel ve Uygulamalı Araştırmalar için Araştırma Süreci

8.Hafta. Değişkenlik Ölçüleri. Öğr.Gör.Muhsin ÇELİK. Uygun değişkenlik ölçüsünü hesaplayıp yorumlayabilecek,

ZAMAN SERİLERİNDE AYRIŞTIRMA YÖNTEMLERİ

MATEMATiKSEL iktisat

MAK 210 SAYISAL ANALİZ

Temel İstatistik. Y.Doç.Dr. İbrahim Turan Mart Tanımlayıcı İstatistik. Dağılımları Tanımlayıcı Ölçüler Dağılış Ölçüleri

ENM 5210 İSTATİSTİK VE YAZILIMLA UYGULAMALARI. Ders 2 Merkezi Eğilim Ölçüleri

Lineer Cebir. Doç. Dr. Niyazi ŞAHİN TOBB. İçerik: 1.1. Lineer Denklemlerin Tanımı 1.2. Lineer Denklem Sistemleri 1.3. Matrisler

Örnek...4 : İlk iki sınavında 75 ve 82 alan bir öğrencinin bu dersin ortalamasını 5 yapabilmek için son sınavdan kaç alması gerekmektedir?

YÖNEYLEM ARAŞTIRMASI - III

Transkript:

T.C. YILDIZ TEKNİK ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ BULANIK KÜMELEME ANALİZİ VE GENÇLERDE SİGARA İÇME EĞİLİMİ ÜZERİNE BİR UYGULAMA HAZEL KAVILI YÜKSEK LİSANS TEZİ İSTATİSTİK BÖLÜMÜ ANABİLİM DALI İSTATİSTİK PROGRAMI DANIŞMAN DOÇ. DR. GÜLHAYAT GÖLBAŞI ŞİMŞEK İSTANBUL, 2016

T.C. YILDIZ TEKNİK ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ BULANIK KÜMELEME ANALİZİ VE GENÇLERDE SİGARA İÇME EĞİLİMİ ÜZERİNE BİR UYGULAMA Hazel KAVILI tarafından hazırlanan tez çalışması 12.04.2016 tarihinde aşağıdaki jüri tarafından Yıldız Teknik Üniversitesi Fen Bilimleri Enstitüsü İstatistik Bölümü Anabilim Dalı nda YÜKSEK LİSANS TEZİ olarak kabul edilmiştir. Tez Danışmanı Doç. Dr. Gülhayat GÖLBAŞI ŞİMŞEK Yıldız Teknik Üniversitesi Jüri Üyeleri Doç. Dr. Gülhayat GÖLBAŞI ŞİMŞEK Yıldız Teknik Üniversitesi - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - Doç.Dr. Fatma NOYAN TEKELİ Yıldız Teknik Üniversitesi - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - Yrd.Doç.Dr. Seher ARIKAN TEZERGİL Marmara Üniversitesi - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -

ÖNSÖZ Bu çalışmada birey ya da nesneleri sahip oldukları özelliklere göre ayırmaya yarayan, günümüzde sıklıkla kullanılan kümeleme yöntemleri kısaca anlatılmış, esas olarak Bulanık Kümeleme üzerinde durulmuş ve Bulanık Kümeleme Yöntemi ile ilgili R yardımıyla bir uygulama yapılmıştır. Çalışmamın tamamlanmasında bilgilerini esirgemeyen değerli hocam Doç. Dr. Gülhayat Gölbaşı Şimşek e, programlama konusunda çalışmalarıma ivme kazandıran Seyithan Teymur a, moralimi hep yüksek tutan Cansu Kavılı ya ve her zaman yanımda olan aileme sonsuz teşekkürlerimi sunarım. Nisan, 2016 Hazel KAVILI

İÇİNDEKİLER Sayfa SİMGE LİSTESİ... vi KISALTMA LİSTESİ... vii ŞEKİL LİSTESİ... viii ÇİZELGE LİSTESİ... ix ÖZET... x ABSTRACT... xi BÖLÜM 1 GİRİŞ... 1 1.1 Literatür Özeti... 1 1.2 Tezin Amacı... 2 1.3 Hipotez... 2 BÖLÜM 2 VERİ MADENCİLİĞİ ve KÜMELEME YÖNTEMLERİ... 3 2.1 Veri Madenciliğinde Kümelemenin Yeri... 3 2.2 Kümeleme Analizi... 5 2.3 Kümeleme Analizi Adımları... 6 BÖLÜM 3 KLASİK KÜMELEME ANALİZİ... 8 3.1 Hiyerarşik Kümeleme Analizi... 8 3.2 Hiyerarşik Olmayan Kümeleme Analizi... 8 BÖLÜM 4 KÜMELEME İŞLEMLERİNDE KULLANILAN BAZI UZAKLIK ÖLÇÜLERİ... 10 4.1 Öklid Uzaklığı... 10 4.2 Gower Uzaklığı... 10 iv

4.3 Canberra Uzaklığı... 11 4.4 Yüzde Uyuşmazlık Methodu (Percent Disagreement Method)... 11 BÖLÜM 5 BULANIK MANTIK ve BULANIK KÜMELEME... 12 5.1 Bulanık Mantık... 12 5.2 Bulanık Kümeleme... 13 5.2.1 Temel Kavramlar... 13 5.2.2 Bulanık Kümeleme Algoritması... 15 BÖLÜM 6 BULANIK KÜMLEME UYGULAMASI... 18 6.1 Kullanılan Programlar, Paketler ve Özellikleri... 18 6.1.1 Cluster Paketine Ait Fonksiyonlar ve Kullandıkları Algoritmalar... 18 6.1.1.1 Daisy... 18 6.1.1.2 Fanny... 19 6.1.1.3 Silüet... 21 6.1.1.4 Clusplot... 22 6.2 Uygulama Çıktıları ve Yorumlanması... 22 6.2.1 Tanımlayıcı İstatistikler... 22 6.2.2 Bulanık Kümeleme Çıktıları... 24 6.2.2.1 Öklid Uzaklığı ile Hesaplanan Bulanık Kümeleme Sonuçları... 24 6.2.2.2 Gower Uzaklığı ile Hesaplanan Bulanık Kümeleme Sonuçları... 27 6.2.2.3 Canberra Uzaklığı ile Hesaplanan Bulanık Kümeleme Sonuçları 30 6.2.2.4 Yüzde Uyuşmazlık Methodu ile Hesaplanan Bulanık Kümeleme Sonuçları... 33 BÖLÜM 7 SONUÇ... 37 KAYNAKLAR... 43 EK- A KULLANILAN KODLAR... 45 EK- B ÖKLİD UZAKLIĞI İLE ELDE EDİLEN ÜYELİK DERECELERİ... 48 ÖZGEÇMİŞ... 62 v

SİMGE LİSTESİ a(i) b(i) d ij CAD D(x,y) k m N d p s(i) S ~ s ~ S ijk q W k μ A(x) δ ijk Aynı küme içindeki diğer veri noktalarına ortalama uzaklık Diğer kümelere en küçük ortalama uzaklık i ile j arasındaki Canberra uzaklığı x ve y arasındaki uzaklık Küme sayısı Küme sayısı Toplam değişken sayısı Uzayda n boyutlu vektör Silüet değeri Çapraz çarpım matrisi Çapraz çarpım matrisinin köşegen vektörü k. değişken üzerinden hesaplanmış i ve j arasındaki benzerlik Uzayda n boyutlu vektör Değişkenlerin ağırlıkları X değişkeninin A kümesine üyelik derecesi Fonksiyonda 0 ve 1 değerlerini alan değişken vi

KISALTMA LİSTESİ ÇBÖ FCM NA Çok Boyutlu Ölçekleme Fuzzy C- Means (Bulanık C- ortalamalar) Uygulanamaz (Not Applicable) vii

ŞEKİL LİSTESİ Şekil 5.1 Çeşitli biçimlerdeki üyelik fonksiyonları [12]... 14 Şekil 5.2 Bulanık kümeleme konseptinin örnekle açıklanması [13]... 15 Şekil 6.3 Öklid uzaklığı ile yapılan bulanık kümeleme sonucu oluşan silüet grafiği... 25 Şekil 6.4 Öklid uzaklığı ile keskin olarak en yakın komşu kümede kümelenme... 26 Şekil 6.5 Gower uzaklığı ile yapılan bulanık kümeleme sonucu oluşan silüet grafiği... 28 Şekil 6.6 Gower uzaklığı ile keskin olarak en yakın komşu kümede kümelenme... 29 Şekil 6.7 Canberra uzaklığı ile yapılan bulanık kümeleme sonucu silüet grafiği... 31 Şekil 6.8 Canberra uzaklığı ile keskin olarak en yakın komşu kümede kümelenme... 32 Şekil 6.9 Yüzde uyuşmazlık ile en yakın komşu kümede kümelenme...35 viii

ÇİZELGE LİSTESİ Çizelge 6.1 Örneklemdeki kişilerin cinsiyete göre frekansları... 23 Çizelge 6.2 Örneklemdeki kişilerin bulundukları sınıfa göre frekansları... 23 Çizelge 6.3 Örneklemdeki kişilerin sigara deneyimlerine göre cevaplar... 24 Çizelge 6.4 Veri noktalarının 1. ve 2. küme için üyelik dereceleri... 27 Çizelge 6.5 Veri noktalarının 1. ve 2. küme için üyelik dereceleri... 30 Çizelge 6.6 Veri noktalarının 1. ve 2. küme için üyelik dereceleri... 33 Çizelge 6.7 Veri noktalarının 1. ve 2. küme için üyelik dereceleri... 36 Çizelge 7.1 Farklı uzaklık ölçüleri denendiğinde elde edilen sonuçlar... 37 Çizelge 7 2 Karşılaştırmalı üyelik dereceleri... 39 Çizelge 7.3 Daha önce sigara içtiniz mi?... 40 Çizelge 7.4 Önümüzdeki yıl sigara içmeye devam edecek misiniz?... 41 Çizelge 7.5 Tütün ürünlerini solumak ne kadar zararlıdır?... 42 Çizelge B.1 1.ve 2.kümeye ait üyelik dereceleri... 48 ix

ÖZET BULANIK KÜMELEME ANALİZİ ve GENÇLERDE SİGARA İÇME EĞİLİMİ ÜZERİNE BİR UYGULAMA Hazel KAVILI İstatistik Anabilim Dalı Yüksek Lisans Tezi Tez Danışmanı: Doç. Dr. Gülhayat GÖLBAŞI ŞİMŞEK Veri madenciliğinde kümeleme yöntemleri, aynı özellikleri gösteren nesneleri, bireyleri aynı küme içerisinde ve farklı özellik gösteren nesneleri, bireyleri farklı kümeler içerisinde kümeler. Kümeleme yöntemlerini iki şekilde sınıflandırabiliriz: Klasik Kümeleme ve Bulanık Kümeleme. Klasik Kümelemede gözlemler bir kümeye aitken, Bulanık Kümelemede üyelik derecelerine göre, bir gözlem farklı kümelere ait olabilir. Bu çalışmada Bulanık Kümeleme Yöntemi kullanılarak, 2013 yılında Amerika da gençlerin tütün ürünlerine ve kullanımına karşı tutumlarının yer aldığı anket verileri incelenmiştir. 80 sorudan, konuyla ilgili olanlar seçilmiş; R kullanılarak Bulanık Kümeleme Yöntemi uygulanmıştır. Anahtar Kelimeler: Veri Madenciliği, Kümeleme Yöntemleri, Bulanık Kümeleme YILDIZ TEKNİK ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ x

ABSTRACT FUZZY CLUSTERING ANALYSIS and AN APPLICATION ON PREVELANCE OF YOUTH TOBACCO USE Hazel KAVILI Department of Statistics MSc. Thesis Adviser: Assoc. Prof. Gülhayat GÖLBAŞI ŞİMŞEK Clustering algorithms are used to group together the objects or people showing similar characteristics within the same cluster and the objects or people demonstrating different characteristics are grouped into clusters in data mining. Clustering algorithms can be classified into two categories: Classic Clustering and Fuzzy Clustering. In Classic clustering each observation belongs to a single cluster. However, in Fuzzy Clustering, observations can belong to more than one cluster based on their membership levels. In this research, National Youth Tobacco Survey (USA, 2013), which holds 80 questions, is examined. Our experiments are done by using Fuzzy Clustering Algorithm and is calculated using R. Keywords: Data Mining, Clustering Methods, Fuzzy Clustering, Fuzzy C- Means xi YILDIZ TECHNICAL UNIVERSITY GRADUATE SCHOOL OF NATURAL AND APPLIED SCIENCES

BÖLÜM 1 GİRİŞ 1.1 Literatür Özeti Doç. Dr. Şeref Kalaycı, çok değişkenli analiz tekniklerinden biri olan kümeleme analizinin öncelikli amacının, birey ya da nesneleri temel özelliklerini dikkate alarak gruplama olduğunu SPSS Uygulamalı Çok Değişkenli İstatistik Teknikleri kitabında belirtmiştir. Diğer bir deyişle, kümeleme analizinin gruplanmamış verileri benzerliklerine göre gruplandırarak araştırmacıya özetleyeci bilgiler sunulduğunu söylemiştir. Bulanık Mantığa Giriş kitabının yazarları Prf. Yavuz Aksoy, Yrd. Dç. Dr. Mehmet Özkan ve Yrd. Doç. Dr. Salih Karanfil, ilk kez 1961 yılında Lotfali Askar Zadeh tarafından ortaya konulan Bulanık Mantık konusunun, kısa süre içerisinde konuya ilginin de hızla artmasıyla birçok bilim insanı tarafından kullanılmaya başlandığını, teknolojide yaşanan gelişmelerle birlikte yaygınlaşmaya devam ettiğini anlatmıştır. Prof. Dr. İsmail Hakkı Armutlulu nun Belirsizlik ve Fazi Aritmetiği kitabında genişçe yer alan, Bulanık Mantığın temelinin kümelemedeki küme ve alt kümelere dayanması, çalışmamıza yön vermiştir. Klasik kümelemede varlık o kümenin ya elemanıdır ya da değildir. Bulanık mantıkta ise varlığın üyelik derecesi vardır. Örneğin klasik kümelemede varlık kümenin elemanı ise 1, değilse 0 değerini alır. Ancak bulanık kümelemede varlığın üyelik derecesi (0,1) aralığında herhangi bir değer alabilir. 1

1.2 Tezin Amacı Bu çalışmanın amacı Bulanık Kümeleme Yönteminin yapısını ortaya koymak ve günümüzde yaygınlaşan istatistik programlarının kullanımıyla bir uygulama yapıp konunun anlaşılabilirliğini sağlamaktır. 1.3 Hipotez Bu çalışmada gençlerin tütün ürünlerine karşı eğilimlerinin derecesi belirlenmeye çalışılmıştır. Bulanık Kümeleme yöntemi ile kişilerin aynı anda birden çok kümeye, hesaplanan üyelik dereceleri ile ait oldukları gösterilmeye çalışılmıştır. 2

BÖLÜM 2 VERİ MADENCİLİĞİ ve KÜMELEME YÖNTEMLERİ 2.1 Veri Madenciliğinde Kümelemenin Yeri Gerçekte erişilebilir ve kullanılabilir durumdaki verilerin boyutları gün geçtikçe artmaktadır. Bunların içinden anlamlı olanlarına ulaşma işlemi ise günümüzün en çok ilgilenilen konusu haline gelmiştir. Veri madenciliği, büyük veri yığınları içerisinden gelecekle ilgili tahminde bulunabilmemizi sağlayabilecek bağıntıların bilgisayar programı kullanarak aranması işlemidir [1]. Bu işlem bilgi keşfi sürecinin bir parçası şeklinde kabul görmektedir ve bazı adımlara sahiptir. Bu adımlar: 1- Veri temizleme (tutarsız verileri çıkarmak) 2- Veri bütünleştirme (very kaynaklarını birleştirebilmek) 3- Veri seçme (belirlenen analizle ilgili verileri belirlemek) 4- Veri dönüşümü (verinin kullanılabilecek hale dönüşümünü gerçekleştirmek) 5- Veri madenciliği (verideki bazı desenleri yakalayabilmek için metotlar uygulamak) 6- Desenleri değerlendirme (bazı ölçümlere göre elde edilmiş bilgiyi temsil eden ilginç desenleri tanımlamak) 7- Bilgi sunumu (elde edilmiş bilginin sunumunu gerçekleştirmek). Kısacası, verilerin içerisindeki desenlerin, ilişkilerin, değişimlerin, düzensizliklerin, kuralların ve istatistiksel olarak önemli olan yapıların yarı otomatik olarak 3

keşfedilmesidir [1]. Veri madenciliği başta iş dünyası olmak üzere, birçok farklı alanda kullanılmaktadır. Massachusets Institue of Technology 2001 yılında yayınladığı bildirgede dünyayı değiştirecek 10 teknoloji arasında gösterilmiştir very madenciliğini göstermiştir [2]. Gelecekte daha çok önem kazanacak olan bu teknoloji üzerinde yapılan çalışmalara her geçen gün artıyor. Tıptan uzay bilimlerine kadar birçok farklı sektörde kullanılan veri madenciliğinin kullanım alanlarına her gün yenileri eklendiği düşünülürse, konunun önemi daha iyi anlaşılır [3]. Veri madenciliği sınıflandırma, kümeleme, tahmin, öngörü ve benzer gruplama olarak gibi amaçlarla kullanılmaktadır. Amaçlardan biri olan kümeleme, istatistiksel veri analizi, desen tanıma gibi vb. birçok alanda sık kullanılmaktadır. Verilerin gruplar veya kümeler altında toplanarak, benzer özelliklere sahip nesnelerin bir araya gelmesini sağlayan kümeleme algoritmaları veri madenciliği alanında büyük bir öneme sahiptir [4]. Veri madenciliğinde kullanılan teknikler eldeki veri türüne ve elde edilen sonuçların kullanım amacına göre modellere ayrılabilir. Bu modeller tahmin edici (Predictive) ve tanımlayıcı (Descriptive) modeller olarak ayrabilir. Tanımlayıcı modeller veri setinin içinden ilişkileri çıkarır. Tanımlayıcı modellerde kullanılan veri madenciliği teknikleri ise, kümeleme, özetleme, birliktelik kuralları, sıralı dizilerdir. Tahmin edici modeller ise, sonuçları önceden bilinen durumlardan bir model geliştirir ve bu model ile sonuçları bilinmeyen veri kümelerinden yeni sonuçlar elde etmektedir. Tahmin edici modellerde kullanılan veri madenciliği teknikleri sınıflandırma, eğri uydurma, zaman serileridir. Kümeleme analizi ise veri kümesindeki bilgileri belirli yakınlık ya da uzaklık kriterlerine göre gruplara ayırma işlemidir [3]. 4

2.2 Kümeleme Analizi Kümeleme analizi, gruplanmış verileri benzerliklerine göre sınıflandırmada sıklıkla kullanılan çok değişkenli istatistiksel yöntemler arasında yer almaktadır [5]. Kümeleme analizinin öncelikli amacı birey ya da nesnelerin temel özelliklerini dikkate alarak onları gruplamaktır. Diğer bir deyişle, gruplanmamış verileri benzerliklerine gore gruplandırarak araştırmacıya özetleyici bilgiler sunmaktır. Bunun yanı sıra kümeleme analizi gerçek tiplerin belirlenmesi, gruplar için ön tahmin, hipotez testi, veriler yerine kümelerin değerlendirmesi ve aykırı değerlerin bulunmadı gibi farklı amaçlarla da kullanılmaktadır [5]. Kümeleme analizi, araştırmada gözlenen bireylerin veya nesnelerin ölçülen tüm değişkenler üzerindeki değerlerini hesaplayarak ortaya çıkacak kümelere veya gruplara odaklanmaktadır [5]. Bireyler veya nesneler arasındaki benzerlikleri saptamak amacıyla uzaklık ölçüleri, korelasyon ölçüleri veya nitelik verilerinin benzerlik ölçüleri kullanılmaktadır [5]. Kümeleme analizi, önceden belirlenen seçme kriterlerine göre birbirine çok benzeyen birey ya da nesneleri (örneğin; anket cevaplayıcıları, ürünler, hastalar ve/veya diğer bağımsız girdiler) aynı küme içinde sınıflandırır. Analizin sonucunda oluşan kümelerin kendi içindeki türdeşlik (homojenite) ve kümeler arasındaki heterojenlik çok yüksektir. Yani bir kümeyi oluşturan bireyler/nesneler birbirleriyle benzeşirken, diğer kümelerin bireyleriyle/nesneleriyle benzeşmeyecektir [5]. Sonuçta sınıflandırma başarılıysa küme içindeki nesneler, geometric olarak işaretlendiğinde birbirlerine oldukça yakın, farklı kümeler ise birbirlerinden oldukça uzak olacaklardır [5]. Kümeleme analizinde, değişken kavramı çok önemli olmamakla birlikte diğer çok değişkenli tekniklerden oldukça farklıdır. Kümeleme analizinde değişkenler, gösterdikleri özellikler kullanılarak karşılaştırılır. Çünkü kümeleme analizi değişkeni, sadece nesnelerin tanımlanan özelliklerini kapsamaktadır. Kümeleme analizinin ayırma analizinden (diskriminant) farkı, ayırma analizinde gruplar önceden belirlenirken kümeleme analizinde bu belirleme, analiz sonucunda elde edilmektedir [5]. Kümeleme analizi bazı yönlerden de faktör analizine benzemektedir. Kümeleme analizi de faktör analizinde olduğu gibi değişkenleri, bağımlı ve bağımsız değişkenler biçiminde 5

ikiye ayırmamaktadır. Faktör analizine benzeyen bir diğer yönü de sınıflandırma özelliği yani araştırma konusu olan birey ya da nesneleri, aralarındaki benzerlik itibariyle bir araya getirmesidir [5]. Ayrıca yakınlık matrisleri ve onların görüntülenmesini sağlayan çok boyutlu ölçekleme ile bu özelliklere sahip olan kümeleme analizi arasındaki temel farklılık, çok boyutlu ölçekleme yakınlıkların uzaysal görüntülenmesini sağlarken, kümeleme analizinin yakınlıkları ağaç biçiminde görüntülenmesini sağlamasıdır. Özellikle hiyerarşik kümeleme yöntemleri değerlendirildiğinde, uygulamada küçük kümelerin birbirlerine uyum sağlayıp anlamlı gruplar oluşturduğu gözlenirken, ağacı aşan geniş kümelerin anlamlı bulunmadığını söylemek mümkündür. Bu nedenle kümeleme analizinde küçük benzemezliklerden bir anlam çıkarılabilmekte ancak geniş benzemezlikleri yorumlamak oldukça güçtür. Ancak kümeleme analizinin tersine, çok boyutlu ölçekleme analizi, geniş benzemezlikleri değerlendirme veya anlam çıkarma özelliğine sahiptir [5]. Kümeleme analizi ilk olarak, Driver ve Kroeber tarafından 1932 yılında antropolojide kullanılmış, 1938 yılında Zubin ve 1939 yılında Robert Tryon tarafından psikoloji alanına takdim edilmiştir. 1943 yılının başlarında ise psikoloji analında kişilik özellikleri sınıflandırma konusunda Cattell tarafından kullanılmıştır [6]. 2.3 Kümeleme Analizi Adımları Kümeleme analizi, belirli aşamalardan geçerek uygulanabilir [5]: 1- Araştırma sorunu ve araştırma planı belirlenir. Değişkenlerin seçimi ve veri standartlarnı değerlendirme bu aşamada yapılır. 2- Benzerlik ölçümünün seçimi. Değişkenlerin metrik mi kategorik mi olduğuna göre yapılır. a. Metrik veri ise örneğe göre mi yakınlığa göre mi yapılacağına karar verilir. Örneğe göre ise Korelasyon Katsayısı, yakınlığa göre ise Öklid Uzaklığı, City- block uzaklığı, Mahalanobis Uzaklığı kullanılabilir. b. Kategorik veri ise benzerliğin ortaklık ölçümü olarak katsayıları karşılaştırma kullanılabilir. 6

3- Varsayımlar belirlenir: Örnek bütünü temsil ediyor mu? Sonuçları etkileyen önemli farklılıklar var mı? 4- Bir kümeleme algoritması seçme: a. Hiyerarşik Yöntemler: Tek bağlantı, Tam bağlantı, Ortalama bağlantı, Ward yöntemi, Merkezi yöntemi b. Hiyerarşik Olmayan Yöntemler: Ardışık başlama, Paralel başlama, Optimizasyon c. Birlikte Kullanma: Hiyerarşik olmayan bir yöntemle belirlenmiş bir kümenin açıklanmasında hiyerarşik yöntem kullanma 5- Küme sayısının belirlenmesi. Yığışım katsayısı ya da Ağaç grafiği incelemesi yapılabilir. 6- Kümeleme analizini düzenleme: Modelin ana hatlarını aşan gözlemler ve çok küçük kümeler varsa bunların çıkarılması. Bu adımla birlikte eğer değişiklik yapılası düşünülürse 4.adıma geri dönülür. 7- Kümelerin yorumlanması 8- Kümelerin geçerliliği ve profili. 7

BÖLÜM 3 KLASİK KÜMELEME ANALİZİ Kümeleme yöntemleri; uzaklık veya benzerlik matrislerinden yararlanarak nesnelerin veya değişkenlerin kendi içinde bağdaşık, kendi aralarında ayrışık gruplar yapmaya yarar [7]. En çok kabul gören kümeleme yöntemleri; hiyerarşik ve hiyerarşik olmayan yöntemler biçiminde ikiye ayrılabilir [8]. 3.1 Hiyerarşik Kümeleme Analizi Hiyerarşik kümeleme, kendi içinde yığmacı hiyerarşik (agglomerative hierarchical clustering) ve bölücü hiyerarşik (divisive hierarchical clustering) olmak üzere ikiye ayrılır [5]. En etkin kullanılan yöntemi ise yığmacı hiyerarşik yöntemidir. Öncelikle bütün gözlemleri tek bir kümede toplayan bu yöntem; sonra bu kümeye en aykırı olan gözlemleri tek tek kümeden ayırarak başka kümelerin oluşmasını sağlar. Yöntem, kaç tane küme oluşması gerektiğine kendisi karar verebilir [5]. Yığmacı kümeleme yöntemlerinin okunuşunun ve yorumunun kolay oluşu en üstün tarafıdır. Bu yöntemin en büyük eksisi sabit olmayışı ve güvenilirliğinin az oluşudur [5]. 3.2 Hiyerarşik Olmayan Kümeleme Analizi Hiyerarşik olmayan yöntemlerde küme sayısı hakkında ön bilgi mevcuttur veya analizci önceki deneyimlerine dayanarak, anlamlı olacak şekilde uygun küme sayısını önceden belirleyebilir. Hiyerarşik olmayan yöntemler çok büyük veri setlerine uygulanabilir ve bu yöntemlerden k- ortalamalar yöntemi en çok tercih edilendir. İlk olarak James 8

MacQueen (1967) tarafından kullanılmıştır ve küme sayısının belli olduğu durumlarda birbirine en yakın değerlere sahip elemanların aynı kümede toplanması amaçlanmıştır [7], [9]. Hiyerarşik olmayan k- ortalamar yönteminde her iterasyonda yeni bir küme merkezi oluşturulur ve bir veri elemanı yeniden hesaplanan yeni merkeze daha yakın ise o kümeye taşınır. W N sınıflar içi kareler toplamını göstersin. Bu yöntemde veri elemanları, W N i en küçük yapacak şekilde k kümeye bölünür. x 1, x 2,..., x n değişkenlerinin her biri p değişkenli gözlem vektörleri, çok boyutlu X uzayında birer nokta ifade ederken, aynı uzayda a 1n, a 2n,..., a kn her sınıf veri elemanı için küme merkezleri olarak belirlendiğinde, veri elemanları en küçük uzaklığı veren, en yakın kümeye aşağıda formulü verilen fonksiyon ile sınıflara ayrılır [9], [10], [11]. n W N = 1 min x i a in 2 (3.1) n i=1 Hiyerarşik olmayan k- ortalamalar yöntemi, aşağıdaki verilen adımları izleyerek n birim, p değişken ve k küme için kümeleme işlemini yapar [7], [9]. a) Veri setine göre ilk k veri elemanının her birinin p değişken değerleri birer küme ortalama vektörü olarak kabul edilir. Tüm birimlerin küme ortalamalarına olan uzaklıkları hesaplanır [7], [9]. b) Kalan gözlemlerin her biri, ortalaması en yakın olan kümeye atanır ve her atamadan sonra küme ortalamaları genellikle Öklid uzaklığı ile (farklı uzaklık ölçümleri de kullanılabilir) yeniden hesaplanır [7], [9]. c) Tüm veri elemanları, kümeleme yapısı küme içi varyansı minimum ve kümeler arası varyansı maksimum olana değin k kümeye atanmaya devam eder. Tekrarlı uygulamayla uygun kümeleme sağlanıp, veri elemanının saptanan küme ortalama vektörlerine göre farklı adımlarda farklı kümelerde bulunması sağlanır [7], [9]. d) Ayırma işlemi küme içi kovaryans matrisi minimum olana ve yakınsama kriterine eşit veya daha küçük varyans durumu oluşuncaya değin devam eder [7], [9]. 9

BÖLÜM 4 KÜMELEME İŞLEMLERİNDE KULLANILAN BAZI UZAKLIK ÖLÇÜLERİ Kümeleme işlemleri, veri setlerini homojen bir şekilde sınıflara ya da kümelere bölme işlemini yaparken benzer gözlemleri ya da nesneleri aynı sınıfa (kümeye), farklı olanları ise farklı sınıfa (kümeye) yerleştirmeye çalışır. Her küme iki önemli özelliği barındırmalıdır: kümeler arası düşük benzerlik derecesi ve küme içi yüksek benzerlik derecesi. Veri setine ve uygulamaya bağlı olarak ilişkileri belirlemek için iki tip ölçü kullanılır: uzaklık ölçüleri ve benzerlik ölçüleri. 4.1 Öklid Uzaklığı Öklid uzaklığı ya da Öklid ölçüsü iki nokta arasındaki doğrusal uzaklıktır. n boyutlu Öklid uzayında P = (p 1, p 2,...,p n ) ve Q = (q 1, q 2,..., q n ) noktaları arasındaki uzaklık: n (p 1 q 1 ) 2 + (p 2 q 2 ) 2...+ (p n q n ) 2 = (p i q i ) 2 (4.1) ile ölçülür. En sık kullanılan uzaklık ölçülerinden biridir. i=1 4.2 Gower Uzaklığı 1971 yılında J.C. Gower tarafından önerilmiştir. En büyük özelliği hem kategorik hem de sürekli verilerin bulunduğu veri setlerinde uygulanabilir olmasıdır. Bu durumda benzerlik ölçüsü olarak adlandırılır. Yalnızca sürekli veriler kullanıldığı zaman farklı bir formül ile hesaplanmaktadır. 10

İki gözlem arasındaki farklılık, her değişkenin katkılarının ağırlıklı ortalamasıdır. n n D ij = 1 s ijk δ ijk w k / δ ijk w k (4.2) k=1 k=1 Burada D ij uzaklığın farklı değişkenlerce katsayısını, S ijk k.değişken üzerinden hesaplanmış i ile j arasındaki benzerliği göstermektedir. δ ijk ise 0 ve 1 değerlerini almaktadır. Eğer k.değişkenin değeri i. ve j. değişkenler için belirli değilse 0, eğer k.değişken için i. ve j.değişkenlerin değerleri belirli ise 1 değerini alır. değişkenlerin ağırlıklarını temsil etmektedir. W k ise 4.3 Canberra Uzaklığı 1966 yılında G.N. Lance ve W.T. Williams tarafından sunulmuştur. Manhattan uzaklık ölçütü ile benzerlik göstermektedir, ki Manhattan uzaklık ölçütü de aslında Minkowski uzaklık ölçütünün özel bir türüdür. Değişkenlerdeki iki gözlem arasındaki mutlak farkın, gözlemlerin mutlak değerlerinin toplamına bölünmesiyle elde edilir. d CAD (i, j ) = n 1 y ik y jk (4.3) y ik + y jk k=0 Formülde i ve j gözlemleri gösterirken, k da kaçıncı gözlem olduklarını gösteren indekstir. 4.4 Yüzde Uyuşmazlık Methodu (Percent Disagreement Method) Veri seti kategorik bir yapıya sahipse kullanıma uygundur. Formülü aşağıdaki gibidir: D(x, y) = x i y i sayısı N d (4.4) N d incelenen toplam değişken sayısını, x i ve y i ise karşılaştırılan gözlemleri temsil etmektedir. Değişkenlerden farklı olanların, tamamına bölünmesiyle hesaplanır. 11

BÖLÜM 5 BULANIK MANTIK ve BULANIK KÜMELEME 5.1 Bulanık Mantık Aslen Azerbaycanlı olup Amerika da yaşayan, California Berkeley Üniversitesi nde öğretim üyesi olan Lutfali Askar ZADEH, 1965 yılında ortaya attığı yeni mantık ile bilim ve teknoloji dünyasına yeni bir yön vermiştir. Arka arkaya yayınladığı eserlerle konuyu çok kısa sürede pekiştirmiş olarak sunması, önceki mantıklara göre fazlaca tartışmalara gerek olmaksızın kendisini çabuk kabul ettirmiş ve bilim dünyasını yönlendirmede özellikle teknolojik süreçte birçok yeniliklere temel oluşturan sistemi kurmuş olarak ortaya çıkmasını sağlamıştır [12]. Zadeh ilk olarak n değerli mantık tan, sonsuz değerli mantık a geçmeyi başarmış ve bunun için önce Bulanık Küme kavramını pekiştirmiştir. Bulanık Küme (Fuzzy Set) 0 ile 1 arasında yer alan ancak, rastgele seçilmiş sonsuz tane elemanı içeren bir küme olarak tanımlanmıştır [12]. Fuzz sözcüğü, İngilizcede, yumurtadan yeni çıkmış bir civcivin belli belirsiz tüylerine verilen addır. Bunu Türkçeleştirirken Bulanık ya da Puslu deyimleri kullanıldığından, bu sözcüğün bu mantığın adında kullanılmış yani Fuzzy Logic denilmiş olmasından ötürü, bu mantığa Bulanık Mantık ya da Puslu Mantık deniyor. Bulanıklık doğal olarak bir bakıma belirsizliği de çağrıştırmış oluyor [12]. Fuzzy Kümeler Kuramının yardımıyla belirsizlik ifade eden terimlere belirlilik derecesi atayarak, böylece bunların Çok Değerli Kümeler kapsamı içine alınmaları ve bu yolla 12

tanımlanmış olmaları sağlanmış olmaktadır. Buna karşın Bulanık Mantık temelde, Çok değerli mantık, Olasılık kuramı ve Yapay zeka üzerine oturtulmuştur. Ayrıca denilebilir ki, matematiğin gerçek dünyayı yorumlamasında daha geniş bir uyarlama alanı bu yolla bulunmuştur. Artık sadece siyah ile beyaz yoktur. Bunların arasında bütün renkler ve onların her tondaki nüansları da yer alabilmektedir. İki değerli mantığın keskin (crisp) değerleri yerine daha gevşek değerledirmeler gelmiş olmaktadır. Örneğin [sıcak/soğuk] arasına ılık girebilmektedir [12]. [Açık/Kapalı], [Hızlı/Yavaş vb. gibi ikili denetim değişkenlerinden oluşan keskin dünyayı, [az açık/az kapalı = aralık], [serin/ılık], [biraz hızlı/biraz yavaş] vb. gibi gevşek niteleyicilere belli üyelik dereceleri atayarak gerçek dünyamıza yansıtmayı ve gerçek dünyayı daha yaklaşık olarak temsil eden bir sistemi kurmayı başarmış olmaktadır [12]. Bulanık mantık yaklaşımının kullanıldığı alanlar çimento sanayisi, su arıtma sistemleri, asansör sistemleri gibi mekanik sistemlerin yanında, biyoloji ve tıpta kanser araştırmaları, teşhis sistemleri gibi alanlardır. Psikoloji alanında ise insan davranışlarının analiz edilmesinde, suç işleme ve suçu önleme araştırmalarının yapılmasında kullanılmaktadır. 5.2 Bulanık Kümeleme 1965 yılında L.A.Zadeh belirsizliğin temsili için araç olarak, bulanık kümeler (fuzzy sets) teorisini geliştirmiştir. Belirsizlik ifade eden terimler ve kavramların gelişigüzel bir ayırıma tabi tutmaksızın, belirsizliğe belirlilik derecesi atayarak, çok değerli kümeler kuramı kapsamı içinde tanımlanmalarına yol açar [12]. 5.2.1 Temel Kavramlar Bulanık kümeler kuramının amacı, belirsizlik ifade eden, tanımlanması güç kavramlara üyelik derecesi atayarak onlara belirlilik getirmek istemidir. Belirlilik getirme yaklaşımı, iki değerli kümeler kuramının çok değerli kuramına dönüşümünden oluşur. Modern mantıktaki bir kümenin elemanları, keskin elemanlardır. Bu elemanlar, kümenin elemanıdır ya da değildir. Bu tür elemanlardan oluşan kümelere keskin (crisp) kümeler denir. Bulanık kümeler belirlilik derecesi ya hep ya hiç kavramının ötesinde görüşten 13

ortaya çıkar. Çoğunlukla günlük hayatta keskin sayılar ve ifadeler yerine sınırları bulanık sayılar, ifadeler, nesne sınıfları kullanılır. Keskin kümelerde bu ifade, 1; x A µ A (x) = 0; x A (4.1) olur. Bulanık kümeler için fonksiyonlar, üyelik fonksiyonu olarak tanımlanır ve [0,1] aralığında değer alır. Üyelik aralığı, belirli bir değerin bir bulanık küme içerisinde yer almasının güvenirliliğinin işaretidir. Üyelik fonksiyonları, aşağıdaki şekilde gösterildiği gibi, bazıları üçgen, çan, yamuk, monolitik ve monotonik şekildedirler [12]. Şekil 5.1 Çeşitli biçimlerdeki üyelik fonksiyonları [12] Değerlendirme kümesini [0,1] aralığı alırsak X evreninin bir A alt kümesi için bulanık (fuzzy) küme tanımlanabilir. Burada μ A (x), A daki üyelik derecesini verir. μ A (x), 1 e yaklaştıkça x elemanının A daki üyeliği de artar. Başka bir ifadeyle, A kümesi, X evreninin, sınırları kesinlikle belli olmayan bir alt kümesidir [12]. Bulanık kümelemeyi bir örnekle daha iyi açıklayabiliriz. Bir bankanın müşterilerini zengin ve fakir olarak iki sınıfa ayırmak istediğini düşünelim. 2 milyon doların altında paraya sahipse fakir, 2 milyon ve üzeri dolara sahipse zengin denebilir, fakat zengin ve fakir arasında keskin bir ayrım görünmemektedir. Bu açıklamaya göre 2.1 milyon dolara sahip bir kişi mantıken zengin sayılabilir ama hala biraz fakir olarak da düşünülebilir. Bulanık kümelemede asıl gösterge, üyelik derecesidir μ = {0,,1}. Eğer μ =1 olursa, bir 14

nesne kesinlikle o sınıfa ait olur, μ = 0 olursa nesne ile küme arasında kesinlikle bir benzemezlik söz konusu olur. Örneğimizde, kişi 2.1 milyon dolar ile μ zengin (2.1milyondolar) = 0.65 üyelik derecesi alıp zengin kümesine, ile μ fakir (2.1milyondolar) = 0.35 üyelik derecesi alıp fakir kümesine alınabilir. Bu da müşterinin zengin ama yeteri kadar varlıklı olmadığını gösterir. Bununla birlikte, 1 milyar dolara sahip kişi kesinlikle μ zengin (1milyardolar) = 1.0 üyelik derecesine sahip olurdu ve μ fakir (1milyardolar) = 0.0 üyelik derecesine sahip olurdu [13]. Şekil 5.2 Bulanık kümeleme konseptinin örnekle açıklanması [13] 5.2.2 Bulanık Kümeleme Algoritması Bulanık c- Ortalamalar (Fuzzy c- Means, FCM) yöntemi, bulanık bölünmeli kümeleme tekniklerinden en yaygın kullanılan yöntemdir. Bu algoritma 1973 yılında Dunn tarafından ortaya atılmış ve 1981 de Bezdec tarafından geliştirilmiştir [14]. Bulanık kümelemede klasik kümelemeden farklı olarak her bir veri elemanı birden fazla kümeye farklı üyelik dereceleriyle ait olabilmektedir. Ancak aynı veri elemanının arka arkaya gelen farklı kümelerdeki üyelik derecelerinin toplamı 1 e eşit olmalıdır [14]. Yani bir i veri elemanının j kümesine ait olma üyelik derecesi u i,j, m de küme sayısı olursa aşağıdaki gibi formüle edilebilir: 15

m u ij = 1 (5.2) j=1 Aryıca aynı j kümesindeki veri elemanlarının üyelik derecelerinin toplamı veri elemanlarının sayısına eşit olan n den daha küçük olmalıdır. Ekstrem bir durum olarak eğer tüm veri elemanları tek kümede ise bu durumda üyelik derecelerinin toplamı veri elemanlarının sayısına eşit olabilir. Teoride var olan ve pratikte bir anlam taşımayan durumdur [14]. Bu durum aşağıdaki şekilde formüle edilebilir: n u ij n (5.3) i=1 Klasik kümelemede üyelik dereceleri için verilen (5.2) ve (5.3) denklemlerinin ekstrem olmayan durumlarında çözüm beklenir. Burada, Bezdec (1981) tarafından ortaya konulan Bulanık c- ortalamalar algoritması anlatılabilir. Her veri elamanının her kümeye belirli bir üyelik derecesi ile ait olduğu söylenmişti. Elemanların farklı kümelere atanması için, elemanlarla verilen küme merkezleri arasındaki uzaklığın ağırlıklı ortalamasının alınması fikrinden yola çıkılacaktır [14]. Bahsedilen ağırlık aşağıdaki fonksiyon ile gösterilebilir: n c f (u,v) = (u ik ) m x k v i 2 (5.4) k=1 i=1 Burada ağırlık olarak üyelik derecelerinin 0<m< kuvveti alınmıştır. Denklem (5.4) teki v vektörü küme merkezlerinin koordinatlarının belirtir [14]. Kümelemeler için verilen fonksiyonun değişim uzayında en küçüklenmesi gerekir. Türev alma işlemiyle çözümlenebilecek bu işlemden sonra üyelik dereceleri için aşağıdaki formüle ulaşılır: u ik = c j=1 1 x k v i x k v j 2 m 1 (1 i c;1 k n) (5.5) Bununla birlikte eş zamanlı olacak şekilde kümelerin merkezlerinin belirtilen ağırlıklı ortalama formülüne göre değişim işlemi gerçekleşir [14]. 16

v i = n k=1 n (u ik ) m x k k=1 (u ik ) (1 i c) (5.6) 17

BÖLÜM 6 BULANIK KÜMLEME UYGULAMASI Bu çalışmada 2013 yılında Amerika da gençlerin tütün ürünlerine ve kullanımına karşı tutumlarının yer aldığı anket verileri incelenmiştir. 80 sorudan oluşan anketten konuyla ilgili olduğu düşünülen 7 soru seçilmiştir. Örneklem genişliği ise 267 birimdir. 6.1 Kullanılan Programlar, Paketler ve Özellikleri Bu çalışmada örneklemin ayrışmasının uygun olacağı küme sayısını görebilmek adına kümeleme analizi yapılmış ve açık kaynak kodlu bir program olan R da Bulanık Kümeleme Analizi ve grafikleri için hazırlanmış Cluster paketinin Daisy, Fanny, Silhoutte fonksiyonları ve ayrıca Clusplot fonksiyonu kullanılmıştır. 6.1.1 Cluster Paketine Ait Fonksiyonlar ve Kullandıkları Algoritmalar Cluster paketi, veride gruplar bulmak amacıyla Martin Maechler tarafından oluşturulmuştur ve geliştirilmeye devam edilmektedir. 2015 in Temmuz ayında paketin güncellenmiş son hali yayınlanmıştır. 6.1.1.1 Daisy Çalışmada, ilk olarak Daisy fonksiyonu kullanılmıştır. Veri setindeki gözlemler arasındaki ikili farklılıkları, uzaklık matrisini (dissimilarity matrix), hesaplamada kullanılmıştır. Fonksiyonun yapısı aşağıdaki gibidir: 18

daisy(x, metric = c("euclidean", "manhattan", "gower"), stand = FALSE, type = list(), weights = rep.int(1, p)) Burada x, numerik bir veri matrisi; metric ise kullanılması istenilen uzaklık hesaplama formülüdür. Daisy fonksiyonundaki stand argümanı ise, verilerin standartlaştırılması gerektiği düşünüldüğünde TRUE yapılarak kullanılmaktadır. 6.1.1.2 Fanny Çalışmada kullanılan ikinci fonksiyon Fanny fonksiyonudur. K tane kümeye ayrılmış data için Bulanık Kümeleme işlemi yapmaya yarayan fonksiyondur. Fonksiyonun yapısı aşağıdaki gibidir: fanny(x, k, diss = inherits(x, "dist"), memb.exp = 2, metric = c("euclidean", "manhattan", "SqEuclidean"), stand = FALSE, inimem.p = NULL, cluster.only = FALSE, keep.diss =!diss &&!cluster.only && n < 100, keep.data =!diss &&!cluster.only, maxit = 500, tol = 1e- 15, trace.lev = 0) Burada x bir veri matrisi ya da Daisy fonksiyonunun çıktısı gibi uzaklık matrisi olabilir. Önemli husus, bu fonksiyondaki x argümanı uygulanamaz (NA) verilerden oluşamaz. Bu durumda fonksiyon hata verir. Fonksiyonun diğer argümanı olan k ise, küme sayısını belirtir. Bu argümanın mutlaka doldurulması gerekmektedir. Fonksiyon, kendiliğinden bir değer atamamaktadır. Küme sayısı 12 den büyük ve n/2 den küçük olamamaktadır. Fanny fonksiyonun çıktıları arasında üyelik dereceleri (membership), etkinlik (coefficient), bir sonraki en yakın komşu küme (clustering) bulunmaktadır. Burada fonksiyon çıktısı olarak elde edilen etkinlik (coefficient) değerine değinmek gerekmektedir. Fanny fonksiyonunun etkinlik değeri Dunn ın etkinlik değeridir (Dunn s Coefficient). Bu değer kümeleme işleminin ne kadar bulanık ne kadar keskin olduğunu göstermektedir [15]. Etkinlik değerinin hesaplanması şu şekildedir: 19

n uivu 2 2 jvd(i, j) k i, j=1 n (6.1) v=1 2 u 2 jv j=1 Burada d(i,j) uzaklık (dissimilarity) matrisidir. u iv ise i nesnesinin n kümesine bilinmeyen üyeliğidir. Kısıtları ise şu şekildedir: a- u iv 0, i = 1,...n ve v = 1,...k k b- u iv = 1, i = 1,...n v=1 Etkinlik değerinin hesaplandığı fonksiyon iteratif bir alogirtmayla ortalama kullanılarak minimize edilmektedir. Her nesne, tüm kümelerde eşit üyeliğe sahip olduğunda, kümeleme tamamen bulanıktır. Diğer taraftan, her nesne bazı kümelerde 1 bazı kümelerde 0 üyeliğine sahipse, kümeleme tamamen keskin kümelemedir [15]. Kümelemenin ne kadar bulanık ne kadar keskin olduğunu değerlendirmek için de Dunn s etkinlik katsayısı devreye giriyor, katsayı aşağıdaki gibi hesaplanıyor: F k = n k i=1 v=1 u 2 iv n, 1 F k k,1 (6.2) Dunn s etkinlik katsayısı aşağıdaki durumlarda uç değerlerine ulaşmaktadır [15]: 1- Tamamıyla bulanık kümeleme: tüm u iv = 1 k F k = nk 1 nk 2 = 1 k (6.3) 2- Tamamıyla keskin kümeleme: tüm u iv = 0 ya da F k = n n = 1 (6.4) 20

6.1.1.3 Silüet Silüet, veri kümeleri içinde tutarlılığın yorumlanması ve doğrulama için bir yöntemdir. Bu yöntem, her bir nesnenin kümeler içinde nasıl yer aldığını grafiksel bir gösterimle sunar [16]. Herhangi bir teknikle verilerin kümelendiğini varsayalım, örneğin k- ortalamalar yöntemi ile k tane kümeye ayrılmış olsun. Her bir veri için, a(i) aynı küme içindeki diğer veri noktalarına ortalama uzaklığı olsun. a(i) değeri, i verisi için ne kadar iyi atanıp atanmadığı konusunda yorumlanabilir, ne kadar küçükse o kadar iyi denilebilir [16]. b(i) değeri, diğer kümelere en düşük ortalama uzaklık değeri olarak alınsın. Bu defa, i burada üye (veri) değil, o nokta i için bir sonraki en uygun küme komşu küme olarak adlandırılmaktadır. Bu durumda silüet aşağıdaki gibi tanımlanır: s(i) = b(i) a(i) max a(i),b(i) { } (6.5) Aynı zamanda aşağıdaki gibi de açıklanabilir: 1 a(i) / b(i), a(i)<b(i) s(i) = 0, a(i)=b(i) b(i) / a(i) 1, a(i)>b(i) (6.6) S(i) değerinin - 1 S(i) 1 olduğu görülmektedir. S(i) nin 1 e yakın olması a(i) << b(i) durumunu gerektirir. Burada a(i) kendi kümesine olan uzaklığını belirttiği için ne kadar küçük bir değer alırsa o kadar iyidir. b(i) ne kadar büyükse, komşuluk kümesine eşleşmesi o kadar kötüdür denilebilir [16]. S(i) değeri 1 e ne kadar yakınsa data o kadar iyi kümelenmiştir, - 1 e ne kadar yakında o kadar kötü kümelenmiştir denilebilir. 0 a ne kadar yakınsa, veri, iki kümenin de sınırlarındadır denilebilir [16]. 21

6.1.1.4 Clusplot Çalışmada, elde edilen kümelerin görsel olarak oluşturulmasında kullanılan R fonksiyonudur. Clusplot fonksiyonunda nesneler (bireyler) noktalar şeklinde, iki değişkenli çizimler halinde gösterilmektedir. Kümeler ise çeşitli büyüklük ve şekillerdeki elipslerden oluşmaktadır. Elipslerin oluşumu her kümenin ortalaması ve kovaryans matrisine dayanır ve büyüklükleri de bulundurdukları nesnelere göre değişir [18]. Eğer çok boyutlu veride, verinin kendisini kullanıyorsa Temel Bileşen Analizini kullanır. Ayrıca uzaklık matrisi incelendiğinde ve bu fonksiyon kullanılmak istendiğinde başka bir method izler Clusplot. Çok Boyutlu Ölçekleme (ÇBÖ) adı verilen bu method, eksenlerle ilişkili olarak noktaların koordinatlarına göre belirlenmiş, n noktadan oluşan bir set oluşturur. Öklid uzaklığı örnek olarak verilebilir. Clusplot ÇBÖ yü uyguladıktan sonra ilk iki bileşeni gösterir. Yüzdelik olarak gösterilen noktaların uygun yerleştirildiğine dair güvenilirlik oranı, bu iki bileşenle açıklanır [18]. K- ortalamalar yöntemi ile kümeleme, bulanık kümeleme gibi yöntemlerle kullanılabilecek bir fonksiyondur. 6.2 Uygulama Çıktıları ve Yorumlanması 6.2.1 Tanımlayıcı İstatistikler Bulanık küme uygulaması için 80 soru içerisinden seçilen 7 soru aşağıdadır: 1- Bir ya da iki üflemelik sigara içmeyi denediniz mi? 2- Gelecek yıl sigara içeceğinizi düşünüyor musunuz? 3- Yakın zamanda sigara içmeyi deneyeceğinizi düşünüyor musunuz? 4- En yakın arkadaşlarınızdan biri sigara içmeyi teklif ederse, içer misiniz? 5- Size göre, evin içinde tütün ürünleri tüketilmesine izin verilmeli midir? 6- Size göre insanlar taşıtlarda tütün ürünü tüketmesine izin verilmeli midir? 7- Size göre insanların içtikleri sigara ya da başka tütün ürünlerinin dumanlarını solumak ne kadar zararlıdır? 22

Yapılan uygulamanın tanımlayıcı istatistikleri incelendiğinde, katılan 267 kişinin 11 ve 19 yaşları arasında, 6.sınıf ile 12.sınıf seviyeleri arasında oldukları görülmektedir. Katılımcıların %43 ü erkek ve % 57 si kadındır. Seçtiğimiz örnek veride, katılımcıların çoğu herhangi bir tütün ürünü kullanmamakta. %24 ü ise sigara içiyor ve içenler 15 ya da 16 yaşlarında sigara içmeyi denemişler. Çizelge 6.1 Örneklemdeki kişilerin cinsiyete göre frekansları Cinsiyete Göre Frekans Tablosu Kadın 114 %43 Erkek 153 %57 Çizelge 6.2 Örneklemdeki kişilerin bulundukları sınıfa göre frekansları Sınıfa Göre Frekans Tablosu 6.sınıf 46 %18 7.sınıf 43 %17 8.sınıf 40 %16 9.sınıf 34 %13 10.sınıf 34 %13 11.sınıf 29 %7 12.sınıf 41 %16 23

Çizelge 6.3 Örneklemdeki kişilerin sigara deneyimlerine göre cevaplar Daha önce sigara içtiniz mi? Hayır 204 %76 Evet 63 %24 Örnek verideki katılımcıların %58 i tütün şirketlerinin, 18 yaş altındaki gençleri etkilemeye çalıştıklarına inansa da, katılımcıların %60 ının yakın arkadaşları sigara içmiyor. 6.2.2 Bulanık Kümeleme Çıktıları Bu bölümde kullanılan fonksiyonlar sonucu elde edilen grafikler ve sonuçlar incelenmektedir. Clusplot fonksiyonu sonucu elde edilen grafiklerden biri silüet grafiği diğeri ise veri noktalarının en yakın komşu kümede nasıl kümelendiğini gösteren grafik. İki grafik de en yakın keskin kümeleme sonucuna göre düzenlenmektedir. Bulanık kümeleme çıktılarında incelenmesi gereken sonuçlar üyelik dereceleridir. Grafikler, en yakın komşu kümeye aitliklerini gösterse de, hangi kümeye yüzde kaç üyelikle ait oldukları asıl önemli noktadır. Kümelerin ne kadar bulanık ne kadar keskin olduğu etkinlik değerleri ile tartışılır. 6.2.2.1 Öklid Uzaklığı ile Hesaplanan Bulanık Kümeleme Sonuçları Verinin üzerinde R da Öklid uzaklığı kullanılarak yapılan bulanık kümeleme uygulamasının en temel sonuçlarından biri, 2 den fazla küme elde edilememesi oldu. Uygulamayı 3, 4 ve 5 küme için çalıştırdığımızda, silüet büyüklükleri, s(i) düşmekte bu da veri noktasının uygun olarak kümelenemediğini göstermekte. Ortalama s(i) değeri de verinin uygun olarak kümelenip kümelenmediğini göstermekte ki kullanılan örnek veri için bu değer 0.45 olmaktadır. Ayrıca ilk küme 0.79 ortalama s(i) değerine sahipken, ikinci küme - 0.08 ortalama s(i) değerine sahiptir. Bu durumda ilk kümedeki veri noktalarının iyi kümelendiğini ancak ikinci küme için bunu söylemenin zor olduğu görülmektedir. 24

Silhouette plot of fanny(x = dissmatrix, k = 2) n = 267 2 clusters C j j : n j ave i Cj s i 1 : 162 0.79 2 : 105 0.08 0.4 0.2 0.0 0.2 0.4 0.6 0.8 1.0 Silhouette width s i Average silhouette width : 0.45 Şekil 6.3 Öklid uzaklığı ile yapılan bulanık kümeleme sonucu oluşan silüet grafiği 25

clusplot(fanny(x = dissmatrix, k = 2)) Component 2 2 1 0 1 2 1 0 1 2 3 4 5 Component 1 These two components explain 80.11 % of the point variability. Şekil 6.4 Öklid uzaklığı ile keskin olarak en yakın komşu kümede kümelenme Bulanık kümeleme için kullanılan fanny fonksiyonunun çıktılarından olan Dunn s etkinlik değeri ise 0.66, normalleştirilmiş etkinlik değeri ise 0.33. Bu sayılar da yapılan kümelemenin aslında tümüyle bulanık olmadığını göstermektedir. Bu durum, fanny fonksiyonun çıktılarından olan membership (üyelik) değerleri incelendiğinde de görülebilir. Çünkü, her bir veri noktasının üyelik değeri tüm kümelerde eşit olsaydı, tamamıyla bulanık diyebilirdik. Diğer taraftan üyelik dereceleri bazı kümelerde 1 diğerinde 0 ise tamamıyla keskin kümeleme olmaktadır. 26

Çizelge 6.4 Veri noktalarının 1. ve 2. küme için üyelik dereceleri Gözlem Numarası 1.Küme 2.Küme 16375 0,951728383567911 0,0482716164320891 1808 0,553298122552452 0,446701877447548 890 0,359625513335078 0,640374486664922 6116 0,951728383567911 0,0482716164320893 10167 0,951728383567911 0,0482716164320893 8007 0,951728383567911 0,0482716164320893 13284 0,372126505171213 0,627873494828787 16490 0,951728383567911 0,0482716164320889 11952 0,553298122552453 0,446701877447547 6116 0,951728383567911 0,0482716164320893 10167 0,951728383567911 0,0482716164320893 6.2.2.2 Gower Uzaklığı ile Hesaplanan Bulanık Kümeleme Sonuçları Seçilen örneklemin üzerinde Gower uzaklık ölçüsü kullanıldığında elde edilen grafikler ve sonuçlar aşağıdaki gibidir: 27

Silhouette plot of fanny(x = dissmatrix_gower, k = 2) n = 267 2 clusters C j j : n j ave i Cj s i 1 : 206 0.80 2 : 61 0.20 0.2 0.0 0.2 0.4 0.6 0.8 1.0 Silhouette width s i Average silhouette width : 0.66 Şekil 6.5 Gower uzaklığı ile yapılan bulanık kümeleme sonucu oluşan silüet grafiği Ortalama s(i) değeri kullanılan örnek veri için 0.66 olmaktadır. İlk küme 0.80 ortalama s(i) değerine sahipken, ikinci küme 0.20 ortalama s(i) değerine sahiptir. Bu durumda ilk kümedeki veri noktalarının iyi kümelendiğini ancak ikinci küme çok iyi kümelenmediğini söylenebilir. 28

clusplot(fanny(x = dissmatrix_gower, k = 2)) Component 2 0.5 0.0 0.5 0.0 0.5 1.0 1.5 Component 1 These two components explain 16.81 % of the point variability. Şekil 6.6 Gower uzaklığı ile keskin olarak en yakın komşu kümede kümelenme Gower uzaklığı ile uzaklık matrisini oluşturduktan sonra bulanık kümeleme için kullanılan fanny fonksiyonunun çıktılarından olan Dunn s etkinlik değeri ise 0.76, normalleştirilmiş etkinlik değeri ise 0.52. Üyelik dereceleri birbirine yakın olmadıkları ve %53 ünün üyelik dereceleri 0,90 dan büyük olduğu için tam anlamıyla bulanık bir kümeleme yapılamadığı görülmektedir. 29

Çizelge 6.5 Veri noktalarının 1. ve 2. küme için üyelik dereceleri Gözlem Numarası 1.Küme 2.Küme 16375 0,97 0,03 1808 0,92 0,08 890 0,27 0,73 6116 0,97 0,03 10167 0,97 0,03 8007 0,97 0,03 13284 0,36 0,64 16490 0,97 0,03 11952 0,92 0,08 13107 0,81 0,19 9945 0,92 0,08 6.2.2.3 Canberra Uzaklığı ile Hesaplanan Bulanık Kümeleme Sonuçları Seçilen örneklemin üzerinde Canberra uzaklık ölçüsü kullanıldığında elde edilen grafikler ve sonuçlar aşağıdaki gibidir: 30

Silhouette plot of fanny(x = dissmatrix_canberra, k = 2) n = 267 2 clusters C j j : n j ave i Cj s i 1 : 201 0.82 2 : 66 0.02 0.4 0.2 0.0 0.2 0.4 0.6 0.8 1.0 Silhouette width s i Average silhouette width : 0.62 Şekil 6.7 Canberra uzaklığı ile yapılan bulanık kümeleme sonucu silüet grafiği Ortalama s(i) değeri kullanılan örnek veri için 0.62 olmaktadır. İlk küme 0.82 ortalama s(i) değerine sahipken, ikinci küme 0.02 ortalama s(i) değerine sahiptir. Bu durumda ilk kümedeki veri noktalarının iyi kümelendiğini ancak ikinci küme çok iyi kümelenmediğini söylenebilir. 31

clusplot(fanny(x = dissmatrix_canberra, k = 2)) Component 2 3 2 1 0 1 2 1 0 1 2 3 4 5 Component 1 These two components explain 16.46 % of the point variability. Şekil 6.8 Canberra uzaklığı keskin olarak en yakın komşu kümede kümelenme Gower uzaklığı ile uzaklık matrisini oluşturduktan sonra bulanık kümeleme için kullandığımız fanny fonksiyonunun çıktılarından olan Dunn s etkinlik değeri ise 0.74, normalleştirilmiş etkinlik değeri ise 0.49. Üyelik derecelerinin birbirine yakın olmadıkları, %37 sinin üyelik derecelerinin 0.90 dan büyük oldukları görülmektedir. 32

Çizelge 6.6 Veri noktalarının 1. ve 2. küme için üyelik dereceleri Gözlem Numarası 1.Küme 2.Küme 16375 0,97 0,03 1808 0,90 0,10 890 0,31 0,69 6116 0,97 0,03 10167 0,97 0,03 8007 0,97 0,03 13284 0,37 0,63 16490 0,97 0,03 11952 0,90 0,10 13107 0,75 0,25 9945 0,90 0,10 6.2.2.4 Yüzde Uyuşmazlık Methodu ile Hesaplanan Bulanık Kümeleme Sonuçları Seçilen örneklemin üzerinde Yüzde Uyuşmazlık methodu kullanıldığında elde edilen uzaklık matrisinin üzerinde çok boyutlu ölçeklemeden yararlanıldıktan sonra bulanık kümeleme yapılıp grafikler elde edildi. R programının cmdscale fonksiyonu kullanıldı. Bu fonksiyonun kullandığı çok boyutlu ölçekleme uygulaması çapraz çarpım matrislerinden yararlanır. Simetrik matrisleri incelemek için özdeğer ayrışması kullanılabilir ama uzaklık matrisleri diret olarak özdeğer ayrıştırmasına giremezler [19]. Bu yüzden daha uygun bir forma dönüştürülürler [19]. Bu dönüşüm de çapraz çarpım matrisleri ile sağlanır. Gözlem sayısı I iken, uzaklık matrisi olan D yi I XI olarak tanımlanır ve I X1 i de kütle vektörü (elemanları pozitif ya da sıfır ve elemanları toplamı 1 olan bir vektör) olarak tanımlanır [19]. m T 1 = 1 (6.7) 1X Ix1 Herbir nesneye aynı ağırlı aşağıdaki formul ile vermektedir [19]: m i = 1 I (6.8) 33

Daha sonra matrisi aşağıdaki gibi merkezileştirir [19]: Ξ = I 1 m T IXI IXI IX1 XI (6.9) Ve S ~ ile gösterilen aşağıdaki çapraz çarpım matrisi elde edilir [19]: S ~ = 1 2 ΞDΞT (6.10) s ~, S ~ nin köşegen vektörü iken çapraz çarpım matrisi orijinal uzaklık matrisiyle aynı bilgileri içerir ve aşağıdaki gibi gösterilir [19]: D = s ~ T ~ T ~ 1XI + 1 s 2 S IXI IX1 IX1 XI IXI (6.11) Yüzde uyuşmazlık methodu kullanıldıktan sonra bulanık kümeleme fonksiyonu uygulanmış ve aşağıdaki sonuçlar elde dilmiştir: 34

clusplot(fanny(x = diss_scaled, k = 2)) Component 2 0.6 0.4 0.2 0.0 0.2 0.4 0.8 0.6 0.4 0.2 0.0 0.2 Component 1 These two components explain 100 % of the point variability. Şekil 6.9 Yüzde uyuşmazlık ile en yakın komşu kümede kümeleme 35

Çizelge 6.7 Veri noktalarının 1. ve 2. küme için üyelik dereceleri Gözlem Numarası 1.Küme 2.Küme 16375 0.9530968 0.04690322 1808 0.7092063 0.29079374 890 0.2587735 0.74122653 6116 0.9530968 0.04690322 10167 0.9530968 0.04690322 8007 0.9530968 0.04690322 13284 0.3392715 0.66072852 16490 0.9530968 0.04690322 11952 0.7092063 0.29079374 13107 0.8162258 0.18377420 9945 0.7092063 0.29079374 36

BÖLÜM 7 SONUÇ Yapılan çalışmada, farklı uzaklık ölçüleri kullanılarak aynı örneklem üzerinde bulanık kümeleme işlemi tekrarlanmıştır. R da yapılan işlemler sonucu en fazla iki kümeye ayrılabilien 267 birimlik örneklem üzerinde, üyelik derecelerini belirleyebilmek ve yorumlayabilmek için veriye uygun olacağı düşünülen uzaklık ölçüleri seçilmiştir. Çalışılan verinin kategorik olduğu bilindiği için aşağıdaki 4 uzaklık ölçüsü denenmiş ve incelenmesinin gerekli görüldüğü ortalama siluet büyüklükleri, Dunn etkinlik değeri ve normalleştirilmiş etkinlik değeri karşılaştırılmıştır. Çizelge 7.1 Farklı uzaklık ölçüleri denendiğinde elde edilen sonuçlar Uzaklık Hesaplama Yöntemleri Ortalama Silüet Büyüklükleri Dunn Etkinlik Değeri Normalleştirilmiş Etkinlik Değeri Öklid 0.45 0.66 0.33 Gower 0.66 0.76 0.52 Canberra 0.62 0.74 0.49 Yüzde Uyuşmazlık 0.75 0.70 0.41 37

Dunn ın etkinlik değerinin en yüksek olduğu ölçü Gower ölçüsü olup bu değer 0.76 dır. Önceki bölümlerde bahsedildiği gibi Dunn ın etkinlik değeri, kümelemenin ne kadar bulanık ne kadar keskin olduğunu gösteren bir ölçüdür. 0 ya yakınsa kümeleme bulanık, 1 e yakınsa keskindir denilebilir. Tamamıyla bulanık küme olması için etkinlik değerinin 1/k değerine (yapılan uygulama için 0.50 değerine) yakın olması gerekmektedir. Bu durumda etkinlik değeri en düşük olan, 0.66 olan, Öklid uzaklığıyla kümeleme işlemi bulanık olmaya daha yakındır. R da yapılan bulanık kümeleme uygulaması sonucu grafik elde etmek istenildiğinde clusplot fonksiyonu kullanılmıştır. Daha çok Temel Bileşen Analizi, k- ortalamalar konuları dahilinde önemli olan küme grafikleri, bulanık küme fonksiyonun çalıştırılmasıyla en yakın komşu küme değerlerine göre çizilmektedir. Temel Bileşen Analizi, k- ortlamalar uygulaması yapılıyor olsaydı ve düşük değerler elde edilmiş olsaydı şayet, çok değişkenli bir veri seti hakkında araştırılan bilginin büyük bir kısmının ilk iki bileşenle açıklanıp açıklanmadığı tartışılabilirdi. Clusplot fonksiyonu bu tez çalışmasında Daisy ve Fanny fonksiyonları kullanıldıktan sonra kullanılmıştır. Uzaklık matrisleri için metrikler belirtilerek yapılmıştır. Tezin diğer bölümlerinde bahsedildiği gibi bulanık kümeleme işlemlerinin en önemli çıktısı üyelik dereceleridir. Üyelik dereceleri birbirine ne kadar yakınsa, küme o kadar bulanık; üyelik dereceleri 1 e ne kadar yakınsa küme o kadar keskindir. Seçilen 267 birimlik örneklemde ve kullanılan yöntemlerde görülmüştür ki, en fazla 2 küme elde edilebilen bu veri setinde, üyelik dereceleri 4 uzaklık ölçüsü için de birbirine çok uzak çıkmaktadır. Örneğin ilk kümeye üyelikleri 0.9 üzerinde olan elemanların ikinci kümeye üyelikleri, toplamları 1 olacak şekilde çok çok düşüktür. Aşağıdaki tabloda ilk 11 örneğin karşılaştırmalı üyelik dereceleri incelenebilir. 38