Web Madenciliği (Web Mining)



Benzer belgeler
VERİ MADENCİLİĞİ (Kümeleme) Yrd.Doç.Dr. Kadriye ERGÜN

Büyük Veri İçin İstatistiksel Öğrenme (Statistical Learning for Big Data)

YZM 3217 YAPAY ZEKA DERS#10: KÜMELEME

Kümeler arası. Küme içi. uzaklıklar. maksimize edilir. minimize edilir

Web Madenciliği (Web Mining)

Web Madenciliği (Web Mining)

VERİ MADENCİLİĞİ (Karar Ağaçları ile Sınıflandırma) Yrd.Doç.Dr. Kadriye ERGÜN

VERİ MADENCİLİĞİ (Veri Ön İşleme-2) Yrd.Doç.Dr. Kadriye ERGÜN

Kümeleme Algoritmaları. Tahir Emre KALAYCI

Makine Öğrenmesi 2. hafta

Büyük Veri İçin İstatistiksel Öğrenme (Statistical Learning for Big Data)

K En Yakın Komşu Methodu (KNearest Neighborhood)

Uzaktan Algılama Teknolojileri

CBS ve Coğrafi Hesaplama

Veri madenciliği yöntemleri

7. BÖLÜM İÇ ÇARPIM UZAYLARI İÇ ÇARPIM UZAYLARI İÇ ÇARPIM UZAYLARI İÇ ÇARPIM UZAYLARI .= Genel: Vektörler bölümünde vektörel iç çarpım;

Zeki Optimizasyon Teknikleri

VERİ MADENCİLİĞİ (Birliktelik Kuralları) Yrd.Doç.Dr. Kadriye ERGÜN

Tanımı Amacı Özellikleri Kullanım Alanları Varsayımları Yöntemleri Uygulama aşamaları. Neleri göreceğiz?

bitık MOBİL TİCARET UYGULAMASI ABDULLAH ÇİÇEKCİ

VERİ MADENCİLİĞİ (Karar Ağaçları ile Sınıflandırma) Yrd.Doç.Dr. Kadriye ERGÜN

VERİ MADENCİLİĞİ (Sınıflandırma Yöntemleri) Yrd.Doç.Dr. Kadriye ERGÜN

Görüntü Segmentasyonu (Bölütleme)

Bu bölümde; Çok ölçütlü karar verme yöntemlerinden biri olan TOPSİS yöntemi anlatılacaktır.

Şimdi de [ ] vektörünün ile gösterilen boyu veya büyüklüğü Pisagor. teoreminini iki kere kullanarak

PAPATYA YAYINCILIK EĞİTİM Bilgisayar Sis. San. ve Tic. A.Ş. Veri Madenciliği Yöntemleri Dr. Yalçın ÖZKAN -II-

EĞİTİM ÖĞRETİM YILI. ANADOLU LİSESİ 11.SINIF MATEMATİK DERSİ ÜNİTELENDİRİLMİŞ YILLLIK PLANI 11.SINIF KAZANIM VE SÜRE TABLOSU

127 - Twoing Algoritması ile Sınıflandırma Kalp Hastalığı Uygulaması MEHMET AKİF ERSOY ÜNİVERSİTESİ İLHAN UYSAL MEHMET BİLEN SAMİ ULUKUŞ

11. SINIF. No Konular Kazanım Sayısı GEOMETRİ TRİGONOMETRİ Yönlü Açılar Trigonometrik Fonksiyonlar

EĞİTİM ÖĞRETİM YILI. FEN LİSESİ 11.SINIF MATEMATİK DERSİ ÜNİTELENDİRİLMİŞ YILLLIK PLANI 11.SINIF KAZANIM VE SÜRE TABLOSU

Veri Tabanı, Veri Ambarı, Veri Madenciliği. Veri Madenciliği Uygulama Alanları

BKİ farkı Standart Sapması (kg/m 2 ) A B BKİ farkı Ortalaması (kg/m 2 )

Büyük Veri Analitiği (Big Data Analytics)

İSTATİSTİKSEL TAHMİNLEME. Örneklem istatistiklerinden hareketle ana kütle parametreleri hakkında genelleme yapmaya istatistiksel tahminleme denir.

Uzaktan Algılama Uygulamaları

K-En Yakın Komşu Algoritması Parametrelerinin Sınıflandırma Performansı Üzerine Etkisinin İncelenmesi

Eğitim seti (training set) sınıflandırma modelinin elde edileceği kayıtları içerir

Görüntü Sınıflandırma

Web Madenciliği (Web Mining)

Hafta 05 - Karar Ağaçları/Kümeleme

Görüntü Segmentasyonu (Bölütleme) Dijital Görüntü İşleme Fevzi Karslı, KTÜ Segmentasyon, görüntüyü aynı cinsten obje ve bölgelere ayırmaktır.

Örnek 4.1: Tablo 2 de verilen ham verilerin aritmetik ortalamasını hesaplayınız.

Tanımlayıcı İstatistikler. Yrd. Doç. Dr. Emre ATILGAN

ISSN: El-Cezerî Fen ve Mühendislik Dergisi Cilt: 3, No: 2, 2016 ( )

Gerçek uygulamalarda, standart normal olmayan sürekli bir rassal. değişken, sıfırdan farklı bir ortalama ve birden farklı standart sapma

TANIMLAYICI İSTATİSTİKLER

Hatalar Bilgisi ve İstatistik Ders Kodu: Kredi: 3 / ECTS: 5

1.4. KISMİ SIRALAMA VE DENKLİK BAĞINTILARI

Mesleki Terminoloji II Veri Madenciliği

TEMEL İSTATİSTİKİ KAVRAMLAR YRD. DOÇ. DR. İBRAHİM ÇÜTCÜ

Hafta 03/04 - Uzaklık/Benzerlik - En Yakın Komşular - Karar Ağaçları

VERİ MADENCİLİĞİ Metin Madenciliği

BÖLÜM 6 MERKEZDEN DAĞILMA ÖLÇÜLERİ

Olasılık Kavramı. Recep YURTAL. Mühendislikte İstatistik Metotlar. Çukurova Üniversitesi İnşaat Mühendisliği Bölümü

Temel İstatistik. Y.Doç.Dr. İbrahim Turan Mart Tanımlayıcı İstatistik. Dağılımları Tanımlayıcı Ölçüler Dağılış Ölçüleri

Yrd. Doç. Dr. Fatih TOSUNOĞLU Erzurum Teknik Üniversitesi Mühendislik Fakültesi İnşaat Mühendisliği Bölümü

Web Madenciliği (Web Mining)

YANLILIK. Yanlılık örneklem istatistiği değerlerinin evren parametre değerinden herhangi bir sistematik sapması olarak tanımlanır.

Bir değişkenin bir sabite mümkün olduğu kadar çok yaklaşması durumu ancak onun limitiyle ifade edilebilir.

Web Server Sunucu Loglarının K-Komşu Algoritması ile İ ncelenmesi

Zaman Serileri-1. If you have to forecast, forecast often. EDGAR R. FIEDLER, American economist. IENG 481 Tahmin Yöntemleri Dr.

Temel Kavramlar. (r) Sıfırdan farklı kompleks sayılar kümesi: C. (i) Rasyonel sayılar kümesi: Q = { a b

Mühendislik Mekaniği Statik. Yrd.Doç.Dr. Akın Ataş

Eskişehir Teknik Üniversitesi Mühendislik Fakültesi Endüstri Mühendisliği Bölümü. Doç. Dr. Nil ARAS ENM411 Tesis Planlaması Güz Dönemi

DENEY 0. Bölüm 1 - Ölçme ve Hata Hesabı

EŞİTLİK KISITLI TÜREVLİ YÖNTEMLER

JEODEZİK AĞLARIN OPTİMİZASYONU

MATEMATİK MÜHENDİSLİĞİ PROGRAMI

Metin Sınıflandırma. Akış

Verilerin Özetlenmesinde Kullanılan Sayısal Yöntemler

MAK 210 SAYISAL ANALİZ

9. SINIF Geometri TEMEL GEOMETRİK KAVRAMLAR

RASSAL DEĞİŞKENLER VE OLASILIK DAĞILIMLARI. Yrd. Doç. Dr. Emre ATILGAN

ÖRNEKLEME DAĞILIŞLARI VE TAHMİNLEYİCİLERİN ÖZELLİKLERİ

METASEZGİSEL YÖNTEMLER

Genel olarak test istatistikleri. Merkezi Eğilim (Yığılma) Ölçüleri Dağılım (Yayılma) Ölçüleri. olmak üzere 2 grupta incelenebilir.

Concept Learning. Araş. Gör. Nesibe YALÇIN BİLECİK ÜNİVERSİTESİ. Yapay Zeka - Kavram Öğrenme

Mühendislikte İstatistik Yöntemler


KONU 4: DOĞRUSAL PROGRAMLAMA MODELİ İÇİN ÇÖZÜM YÖNTEMLERİ I

Makine Öğrenmesi 3. hafta

Ders 9: Kitle Ortalaması ve Varyansı için Tahmin

10.Konu Tam sayıların inşası

PARÇACIK SÜRÜ OPTİMİZASYONU BMÜ-579 METASEZGİSEL YÖNTEMLER YRD. DOÇ. DR. İLHAN AYDIN

Algoritmalar. Çizge Algoritmaları. Bahar 2017 Doç. Dr. Suat Özdemir 1

(a,b) şeklindeki ifadelere sıralı ikili denir. Burada a'ya 1. bileşen b'ye 2. bileşen denir.

Fonksiyon Optimizasyonunda Genetik Algoritmalar

BÖLÜM III: Şebeke Modelleri. Şebeke Kavramları. Şebeke Kavramları. Şebeke Kavramları. Yönlü Şebeke (Directed Network) Dal / ok

Olasılık, bir deneme sonrasında ilgilenilen olayın tüm olaylar içinde ortaya çıkma ya da gözlenme oranı olarak tanımlanabilir.

Zaman Serileri. IENG 481 Tahmin Yöntemleri Dr. Hacer Güner Gören

Appendix C: İstatistiksel Çıkarsama

YTÜ İktisat Bölümü EKONOMETRİ I Ders Notları

Programlama Dilleri 1. Ders 3: Rastgele sayı üretimi ve uygulamaları

Örnek...3 : Aşağıdaki ifadelerden hangileri bir dizinin genel terim i olabilir? Örnek...4 : Genel terimi w n. Örnek...1 : Örnek...5 : Genel terimi r n

rasgele değişkeninin olasılık yoğunluk fonksiyonu,

7.2 Fonksiyon ve Fonksiyon Tanımları (I) Fonksiyon ve Fonksiyon Tanımları (II)

Akış YILDIZ TEKNİK ÜNİVERSİTESİ BİLGİSAYAR MÜHENDİSLİĞİ BÖLÜMÜ

Oluşturulan evren listesinden örnekleme birimlerinin seçkisiz olarak çekilmesidir

4. HAFTA BLM323 SAYISAL ANALİZ. Okt. Yasin ORTAKCI.

Transkript:

Web Madenciliği (Web Mining) Hazırlayan: M. Ali Akcayol Gazi Üniversitesi Bilgisayar Mühendisliği Bölümü Konular Denetimsiz Öğrenmenin Temelleri Kümeleme Uzaklık Fonksiyonları Öklid Uzaklığı Manhattan Uzaklığı Minkowski Uzaklığı K-means Algoritması Kümelerin Gösterimi Hiyerarşik Kümeleme Veri Standartlaştırma Kümeleme Değerlendirmesi 2 1

Denetimsiz Öğrenmenin Temelleri Denetimli öğrenme giriş verileri ile çıkış niteliği arasındaki ilişkiyi ortaya çıkartır. Elde edilen model ile yeni verilerle ileriye dönük tahmin yapılması amaçlanmaktadır. Denetimsiz öğrenmede eğitim sürecinde hedef nitelik bulunmamaktadır. Denetimsiz öğrenmede veriler arasında bazı yapısal ilişkilerin veya örüntülerin ortaya çıkartılması amaçlanmaktadır. 3 Konular Denetimsiz Öğrenmenin Temelleri Kümeleme Uzaklık Fonksiyonları Öklid Uzaklığı Manhattan Uzaklığı Minkowski Uzaklığı K-means Algoritması Kümelerin Gösterimi Hiyerarşik Kümeleme Veri Standartlaştırma Kümeleme Değerlendirmesi 4 2

Kümeleme Kümeleme (Clustering), veri içerisinde benzer grupların (küme) bulunmasını sağlayan teknikleri kullanır. Kümelemede veri içerisindeki benzer örneklerin yakınlıklarına göre kümeler oluşturulur. Birbirine belirlenmiş bir seviyeden daha uzak olanlar ayrı kümelere atanır. Kümeleme, denetimsiz öğrenme (unsupervised learning) olarak adlandırılır. Apriori algoritması ile yapılan birliktelik kural madenciliği unsupervised learning olarak nitelendirilir. 5 Kümeleme Aşağıdaki veri kümesinde uzaklıklara göre üç küme görülmektedir. Bu şekilde yapılan kümelemeye partitional clustering denilir. Farklı özellikler gözönüne alınırsa küme sayısı daha fazla veya daha az olabilir. Sağlık, psikoloji, tarım, sosyoloji, biyoloji, arkeoloji, pazarlama, sigortacılık, kütüphane gibi çok farklı alanlarda kullanılmaktadır. 6 3

Örnek Kümeleme Her gün haber ajansları tarafından Dünya genelinde çok sayıda haber metni oluşturulur. Bir Web sitesi ile bu haberlerin alınması ve ait oldukları konulara göre sınıflandırılması gereklidir. Bu kadar çok sayıdaki haber metninin manuel olarak sınıflandırılması mümkün değildir. Sınıflandırılmadan tüm kullanıcılara sunulması da kullanıcıların ilgili olduklarını seçmeleri zor olacağından uygun değildir. Dokümanların konulara göre hiyerarşik kümelenmesi için clustering algoritmaları kullanılabilir. Bu şekilde sınıflandırmaya hiyerarşik kümeleme denilmektedir. Kümeleme algoritmalarının temelinde uzaklık ölçümü yer alır. 7 Konular Denetimsiz Öğrenmenin Temelleri Kümeleme Uzaklık Fonksiyonları Öklid Uzaklığı Manhattan Uzaklığı Minkowski Uzaklığı K-means Algoritması Kümelerin Gösterimi Hiyerarşik Kümeleme Veri Standartlaştırma Kümeleme Değerlendirmesi 8 4

Uzaklık Fonksiyonları Kümeleme problemlerinde problemin yapısına ve niteliklerin değerleine bağlı olarak farklı uzaklık ölçümler kullanılabilir. Yaygın kullanılan uzaklık ölçümleri: Öklid uzaklığı Mahnattan uzaklığı Minkowski uzaklığı 9 Konular Denetimsiz Öğrenmenin Temelleri Kümeleme Uzaklık Fonksiyonları Öklid Uzaklığı Manhattan Uzaklığı Minkowski Uzaklığı K-means Algoritması Kümelerin Gösterimi Hiyerarşik Kümeleme Veri Standartlaştırma Kümeleme Değerlendirmesi 10 5

Öklid Uzaklığı Uygulamada en çok kullanılan uzaklık ölçüsü Öklid uzaklık bağıntısı adıyla bilinmektedir. Bu uzaklık, şekilde üzerinde görüldüğü gibi, iki boyutlu uzayda Pisagor teoreminin bir uygulamasıdır. A ve B noktaları arasındaki Öklid uzaklığı şu şekilde olacaktır: Bu bağıntı genelleştirilecek olursak, i ve j noktaları için şu şekilde bir bağıntıya ulaşılır: 11 Konular Denetimsiz Öğrenmenin Temelleri Kümeleme Uzaklık Fonksiyonları Öklid Uzaklığı Manhattan Uzaklığı Minkowski Uzaklığı K-means Algoritması Kümelerin Gösterimi Hiyerarşik Kümeleme Veri Standartlaştırma Kümeleme Değerlendirmesi 12 6

Manhattan Uzaklığı Manhattan uzaklık ölçütünde, gözlemler arasındaki mutlak uzaklıkların toplamı alınarak hesaplanır. Aşağıdaki şekilde ifade edilir: 13 Konular Denetimsiz Öğrenmenin Temelleri Kümeleme Uzaklık Fonksiyonları Öklid Uzaklığı Manhattan Uzaklığı Minkowski Uzaklığı K-means Algoritması Kümelerin Gösterimi Hiyerarşik Kümeleme Veri Standartlaştırma Kümeleme Değerlendirmesi 14 7

Minkowski Uzaklığı p sayıda değişken göz önüne alınarak gözlem değerleri arasındaki uzaklığın hesaplanması söz konusu ise Minkowski uzaklık bağıntısı kullanılabilir. Söz konusu uzaklık şu şekilde hesaplanır: Burada, m=2 için Öklid uzaklık bağıntısı ve m=1 için Manhattan uzaklık bağıntısı elde edilir. 15 Örnek Aşağıdaki tabloda 5 gözlem değeri için 3 niteliğin değerleri görülmektedir. Gözlem değerleri arasındaki hesaplanan uzaklıklar, farklı ölçüm yöntemlerinde farklı olmaktadır. 16 8

Örnek Öklid uzaklıkları Manhattan uzaklıkları Minkowski uzaklıkları 17 Konular Denetimsiz Öğrenmenin Temelleri Kümeleme Uzaklık Fonksiyonları Öklid Uzaklığı Manhattan Uzaklığı Minkowski Uzaklığı K-means Algoritması Kümelerin Gösterimi Hiyerarşik Kümeleme Veri Standartlaştırma Kümeleme Değerlendirmesi 18 9

K-means algoritması Kümeleme algoritmalarının kalitesinin ölçümü için iki kriter vardır: Inter-cluster uzaklık (maksimize edilir.) Inra-cluster uzaklık (minimize edilir.) Kümelerin arasında mesafe olabildiği kadar fazla olmalıdır. Kümelere ait elemanlar arasındaki uzaklık olabildiği kadar az olmalıdır. Uzaklık ölçüm yöntemi her problem için ayrı tanımlanabilir ve uygun olanın seçilmesi gereklidir. K-means algoritması partional clustering yapmaktadır. 19 K-means algoritması K-means algoritması başlangıçta k değeri kadar küme oluşturur. Her küme bir merkez noktasına (centroid) sahiptir. Kümeye ait elemanların tümü bu orta noktaya diğer kümelerin orta noktalarından daha yakındır. Algoritma ile başlangıçta rastgele k adet veri noktasını küme merkezleri olarak seçer. Her merkez noktaya yakın noktalar bu kümeye ait olarak alınırlar. Tüm kümelerin merkez noktaları tekrar hesaplanır. Yeni merkez noktalara göre yeniden küme elemanları belirlenir. Kümelerarası eleman değişimi olmayıncaya veya merkez noktalarda değişim olmayıncaaya kadar işlemler devam eder. 20 10

K-means algoritması Veri kümesi D = {x 1, x 2,, x n } olsun. Her bir x noktası ise, x i = (x i1, x i2,, x ir ) şeklinde tanımlanan bir reel sayılar vektörüdür. X R r ve r nitelik sayısıdır. Algoritma kümelerdeki hataların karelerinin toplamını (sum of squared error) minimize etmeye çalışır. Burada, k küme sayısını, C j j.kümeyi, x C j kümesine ait nitelikler kümesini, m j j.kümenin orta noktasıdır. dist(x, m j ) kümenin orta noktasına x noktalarının uzaklığıdır. 21 K-means algoritması Kümelerin orta noktası ise aşağıdaki gibi hesaplanır. Burada, bir kümeye ait olan tüm x noktalarının nitelik değerlerinin ortalamaları hesaplanır. C j kümeye ait nokta sayısıdır. Kümeye ait noktaların merkez noktaya uzaklıkları ise aşağıdaki gibi hesaplanır. Burada, m j j. kümenin orta noktasıdır. 22 11

K-means algoritması Algoritma 23 Örnek K-means algoritması Başlangıç merkez noktaları Yeni merkez noktaları 24 12

Örnek K-means algoritması Yeni merkez noktaları Yeni merkez noktaları Yeni merkez noktaları 25 K-means algoritması K-means algoritmasının zayıf yönleri K-means algoritması başlangıç merkez noktalarına bağlı kümeler oluşturur. Başlangıç merkez noktaları Kötü kümeleme 26 13

K-means algoritması K-means algoritmasının zayıf yönleri K-means algoritması başlangıç merkez noktalarına bağlı kümeler oluşturur. Başlangıç merkez noktaları İyi kümeleme 27 K-means algoritması K-means algoritmasının zayıf yönleri Outlier dataya karşı hassastır. 28 14

K-means algoritması K-means algoritmasının zayıf yönleri Bazı durumlarda doğal olarak kümeler oluşmuş durumdadır. Uzaklığa dayalı kümeleme doğal yapıya uygun olmayabilir. Bu durumlarda komşulukları gözönüne alan algoritmalar kullanılır. 29 Konular Denetimsiz Öğrenmenin Temelleri Kümeleme Uzaklık Fonksiyonları Öklid Uzaklığı Manhattan Uzaklığı Minkowski Uzaklığı K-means Algoritması Kümelerin Gösterimi Hiyerarşik Kümeleme Veri Standartlaştırma Kümeleme Değerlendirmesi 30 15

Kümelerin Gösterimi Bazen kümelerin farklı şekillerde gösterimi gerekebilir. Bazı uygulamalarda sadece kümelerin merkez noktalarının ve yarıçaplarının gösterimi yeterlidir. Dairesel küme yapısına sahip durumlarda faydalıdır ve kümenin yarıçapı kapsadığı alanı gösterir. Dairesel olmayan kümeler için uygun gösterime sahip değildir. 31 Kümelerin Gösterimi Bazı uygulamalarda sınıflandırma modelleri ile kümeler gösterilebilir. Kümelerin gösterimi karar ağaçları ile yapılabilir. 32 16

Konular Denetimsiz Öğrenmenin Temelleri Kümeleme Uzaklık Fonksiyonları Öklid Uzaklığı Manhattan Uzaklığı Minkowski Uzaklığı K-means Algoritması Kümelerin Gösterimi Hiyerarşik Kümeleme Veri Standartlaştırma Kümeleme Değerlendirmesi 33 Hiyerarşik Kümeleme Hiyerarşik kümeleme diğer bir kümeleme yaklaşımıdır ve ağaç şeklinde gösterilir (dendrogram). Elemanlar birbirine benzerlik durumuna göre hiyerarşik kümelenir. En alt seviyede tek elemanlar bulunur. 34 17

Hiyerarşik Kümeleme Hiyerarşik kümeleme için 2 farklı yöntem kullanılmaktadır. Agglomerative (bottom up) clustering Öncelikle en yakın ikili elemanlar ile kümeler oluşturulur. Daha sonra yakın olan kümeler birleştirilerek yeni kümeler oluşturulur. Divisive (top down) clustering Öncelikle tüm elemanlar tek küme alınır. Küme iki parçaya ayrılarak iki küme elde edilir. Elde edilen kümelerde recursive olarak tek elemanalra ulaşıncaya kadar parçalanır. k-means algoritması veya diğer algormalar kullanılabilir. 35 Örnek Hiyerarşik Kümeleme 36 18

Konular Denetimsiz Öğrenmenin Temelleri Kümeleme Uzaklık Fonksiyonları Öklid Uzaklığı Manhattan Uzaklığı Minkowski Uzaklığı K-means Algoritması Kümelerin Gösterimi Hiyerarşik Kümeleme Veri Standartlaştırma Kümeleme Değerlendirmesi 37 Verilerin standartlaştırılması bazı uygulamalarda gereklidir. Öklid uzaklığına dayalı bir kümelemde veri standartlaştırma zorunludur. Örnek Veri Standartlaştırma İki nitelik değerinden birisinin aralığı 0-1, diğerinin ise 0-1000 arasında olsun. x i = (0.9, 720) ve x j = (0.1, 20) ise aralarındaki uzaklık, olur. İki nitelik değerleri de 0-1 aralığında ölçeklenirse, 20 -> 0,02 ve 720 -> 0,72 olur. Uzaklık değeri ise 1,063 olur. 38 19

Veri Standartlaştırma Interval-scaled attributes Aralıklı ölçeklendirme yönteminde en yaygın olarak aşağıdaki yöntemler kullanılır: range (min-max) z-score 39 Veri Standartlaştırma range (min-max) Her nitelik için değerler minimum ve maksimum değerleri arasındaki değere göre 0-1 arasında değer alır. Burada, min(f) f niteliğinin minimum değerini, max(f) f niteliğinin maksimum değerini ve x if ise i. gözlemin f. nitelik değerini ifade eder. 40 20

z-score Veri Standartlaştırma Her nitelik için ortalamadan uzaklığına ve nitelik değerlerindeki standart sapmaya göre yeni değeri hesaplanır. Burada, f f niteliğinin standart sapması, µ f f niteliğinin ortalama değeri ve z(x if ) ise i. gözlemin f. nitelik değerinin yeni değerini ifade eder. 41 Veri Standartlaştırma Ratio-scaled attributes Bazı uygulamalarda nitelik değeri üssel değişebilir. Burada, A ve B katsayılar ve t nitelik değeridir. Bu tür durumlarda logaritmik değer ile standartlaştırma gereklidir. 42 21

Konular Denetimsiz Öğrenmenin Temelleri Kümeleme Uzaklık Fonksiyonları Öklid Uzaklığı Manhattan Uzaklığı Minkowski Uzaklığı K-means Algoritması Kümelerin Gösterimi Hiyerarşik Kümeleme Veri Standartlaştırma Kümeleme Değerlendirmesi 43 Kümeleme Değerlendirmesi Kümeleme sonuçlarının değerlendirilmesi için uygulama alanına göre farklı yöntemler kullanılmaktadır. Bunlardan yaygın kullanılanlar; User inspection Ground truth Entropy Purity Indirect evaluation 44 22

Kümeleme Değerlendirmesi User inspection Bir grup uzman tarafından yapılan skorlama ile değerlendirme yapılır. Değerlendirme kişisel olduğundan tüm skorların ortalaması alınır. Değerlendirme süreci uzun süre alabilir. Metin sınıflandırma gibi uygulamalarda faydalı olabilir. Ancak milyonlarca veriye sahip bir VTYS üzerinde kümeleme işleminin değerlendirilmesi oldukça uzun zaman alır ve doğru değerlendirme yapılamayabilir. 45 Kümeleme Değerlendirmesi Ground truth Verilerin küme sayısı belirli ise elde edilen sonuç ona göre değerlendirilir. Her küme içerisinde doğru atanmış elemanlara göre de değerlendirme yapılabilir. 46 23

Entropy Kümeleme Değerlendirmesi Her küme için entropi hesaplanır. Burada, D i i. küme, Pr i (c j ) j. küme etiketinin olasılığıdır. Tüm kümeler için entropi hesaplanır. D i i. Kümedeki eleman sayısıdır. D toplam eleman sayısıdır. 47 Purity Kümeleme Değerlendirmesi Her küme için purity hesaplanır. Burada, D i i. küme, Pr i (c j ) j. küme etiketinin olasılığıdır. Tüm kümeler için purity hesaplanır. D i i. Kümedeki eleman sayısıdır. D toplam eleman sayısıdır. 48 24

Örnek Kümeleme Değerlendirmesi D kümesi 900 dokümana sahiptir. Tüm dokümanlar Science, Sports ve Politics olarak 3 konuya ayrılmaktadır. Her sınıf toplam 300 dokümana sahiptir. False Pozitif False Negatif True Pozitif Presicion, recall ve f-skor değerleri de hesaplanabilir. 49 Kümeleme Değerlendirmesi Indirect evaluation Bazı uygulamalarda oluşuturlan kümeler yerine başka parametreler kullanılarak değerlendirme yapılabilir. Bir kitap tavsiye sisteminde müşteriler profil bilgilerine ve geçmişte ilgilendikleri ürünlere göre kümelenebilir. Ancak, değerlendirme tavsiye edilen kitapların seçilme oranına göre yapılır. 50 25