Tanımı Amacı Özellikleri Kullanım Alanları Varsayımları Yöntemleri Uygulama aşamaları. Neleri göreceğiz?

Benzer belgeler
Kümeler arası. Küme içi. uzaklıklar. maksimize edilir. minimize edilir

VERİ MADENCİLİĞİ (Kümeleme) Yrd.Doç.Dr. Kadriye ERGÜN

YZM 3217 YAPAY ZEKA DERS#10: KÜMELEME

Makine Öğrenmesi 2. hafta

Web Madenciliği (Web Mining)

Kümeleme Algoritmaları. Tahir Emre KALAYCI

MATEMATİK MÜHENDİSLİĞİ PROGRAMI

BÖLÜM 6 MERKEZDEN DAĞILMA ÖLÇÜLERİ

Oluşturulan evren listesinden örnekleme birimlerinin seçkisiz olarak çekilmesidir

ISSN: El-Cezerî Fen ve Mühendislik Dergisi Cilt: 3, No: 2, 2016 ( )

VERİ MADENCİLİĞİ (Veri Ön İşleme-2) Yrd.Doç.Dr. Kadriye ERGÜN

CBS ve Coğrafi Hesaplama

VERİ MADENCİLİĞİ (Karar Ağaçları ile Sınıflandırma) Yrd.Doç.Dr. Kadriye ERGÜN

Büyük Veri İçin İstatistiksel Öğrenme (Statistical Learning for Big Data)

İSTATİSTİK HAFTA. ÖRNEKLEME METOTLARI ve ÖRNEKLEM BÜYÜKLÜĞÜNÜN TESPİTİ

BÖLÜM 5 MERKEZİ EĞİLİM ÖLÇÜLERİ

Örnekleme Yöntemleri

2. BASİT DOĞRUSAL REGRESYON 12

İstatistik ve Olasılık

Uzaktan Algılama Teknolojileri

GİRİŞ. Bilimsel Araştırma: Bilimsel bilgi elde etme süreci olarak tanımlanabilir.

Veri Tabanı, Veri Ambarı, Veri Madenciliği. Veri Madenciliği Uygulama Alanları

Örneklem. Yöntemleri FBED511 Eğitim Bilimlerinde Temel Araştırma Yöntemleri 1. Evren & Örneklem. Evren. Örneklem ve örnekleme

K En Yakın Komşu Methodu (KNearest Neighborhood)

127 - Twoing Algoritması ile Sınıflandırma Kalp Hastalığı Uygulaması MEHMET AKİF ERSOY ÜNİVERSİTESİ İLHAN UYSAL MEHMET BİLEN SAMİ ULUKUŞ

VERİ MADENCİLİĞİ (Karar Ağaçları ile Sınıflandırma) Yrd.Doç.Dr. Kadriye ERGÜN

Genetik Algoritmalar. Bölüm 1. Optimizasyon. Yrd. Doç. Dr. Adem Tuncer E-posta:

Genel olarak test istatistikleri. Merkezi Eğilim (Yığılma) Ölçüleri Dağılım (Yayılma) Ölçüleri. olmak üzere 2 grupta incelenebilir.

Web Madenciliği (Web Mining)

VERİ MADENCİLİĞİ önemsiz olmayan, gizli, önceden bilinmeyen, potansiyel olarak kullanışlı

VERİ MADENCİLİĞİ Kavram ve Algoritmaları

Ders 9: Kitle Ortalaması ve Varyansı için Tahmin

JEODEZİK VERİLERİN İSTATİSTİK ANALİZİ. Prof. Dr. Mualla YALÇINKAYA

Genel Graf Üzerinde Mutlak 1-merkez

Hafta 05 - Karar Ağaçları/Kümeleme

ÖRNEKLEME TEORİSİ 1/30

Bölüm 3. Tanımlayıcı İstatistikler

Bu bölümde; Çok ölçütlü karar verme yöntemlerinden biri olan TOPSİS yöntemi anlatılacaktır.

Veri ve Metin Madenciliği

Veri ve Metin Madenciliği. Zehra

OLASILIK VE İSTATİSTİK

Üç Boyutlu Serpilme (Saçılım) Grafikleri

PARALEL VERİ MADENCİLİĞİ ALGORİTMALARI. BAŞARIM 09, Nisan 2009, ODTÜ, Ankara

Algoritma Geliştirme ve Veri Yapıları 10 Graf Veri Modeli. Mustafa Kemal Üniversitesi

RASSAL SAYI ÜRETİLMESİ

İçindekiler. Ön Söz... xiii

TEMEL İSTATİSTİKİ KAVRAMLAR YRD. DOÇ. DR. İBRAHİM ÇÜTCÜ

3 KESİKLİ RASSAL DEĞİŞKENLER VE OLASILIK DAĞILIMLARI

Verilerin Düzenlenmesi

Ders 8: Verilerin Düzenlenmesi ve Analizi

SÜREKLĠ OLASILIK DAĞILIMLARI

RASSAL DEĞİŞKENLER VE OLASILIK DAĞILIMLARI. Yrd. Doç. Dr. Emre ATILGAN

PAZARLAMA ARAŞTIRMA SÜRECİ

MEÜ. SAĞLIK BĠLĠMLERĠ ENSTĠTÜSÜ DERS TANIMI FORMU

İSTATİSTİK. Bölüm 1 Giriş. Ankara Üniversitesi SBF İstatistik 1 Ders Notları Prof. Dr. Onur Özsoy 4/4/2018

Kümeleme Tekniklerinin Temel Bilimlerde Kullanımı

(AYIRIM) DENLİ. Emre KUZUGÜDENL. Doç.Dr.Serdar CARUS

ÖRNEKLEME DAĞILIŞLARI VE TAHMİNLEYİCİLERİN ÖZELLİKLERİ

2- VERİLERİN TOPLANMASI

İstatistik ve Olasılık

Algoritma Geliştirme ve Veri Yapıları 2 Veri Modelleri. Mustafa Kemal Üniversitesi

Bekleme Hattı Teorisi

BKİ farkı Standart Sapması (kg/m 2 ) A B BKİ farkı Ortalaması (kg/m 2 )

İÇİNDEKİLER ÖN SÖZ...

Olasılık, bir deneme sonrasında ilgilenilen olayın tüm olaylar içinde ortaya çıkma ya da gözlenme oranı olarak tanımlanabilir.

Araştırmada Evren ve Örnekleme

BÖLÜM 13 HİPOTEZ TESTİ

Web Madenciliği (Web Mining)

ÇOK DEĞĐŞKENLĐ ĐSTATĐSTĐKLERĐN ARAŞTIRMALARDA KULLANIMI

Eğitim seti (training set) sınıflandırma modelinin elde edileceği kayıtları içerir

MONTE CARLO BENZETİMİ

Kümeleme Tekniklerinin Temel Bilimlerde Kullanımı

Uzaktan Algılama Uygulamaları

VERİ MADENCİLİĞİ. Karar Ağacı Algoritmaları: SPRINT algoritması Öğr.Gör.İnan ÜNAL

Evren (Popülasyon) Araştırma kapsamına giren tüm elemanların oluşturduğu grup. Araştırma sonuçlarının genelleneceği grup

İstatistik ve Olasılık

RASTGELE SAYI ÜRETİMİ VE UYGULANAN TESTLER HAZIRLAYAN: ÖZLEM AYDIN

Genel olarak test istatistikleri. Merkezi Eğilim (Yığılma) Ölçüleri Merkezi Dağılım (Yayılma) Ölçüleri. olmak üzere 2 grupta incelenebilir.

VERI TABANLARıNDA BILGI KEŞFI

2016 YILI AKTÜERLİK SINAVLARI: İSTATİSTİK OLASILIK

Merkezi Eğilim ve Dağılım Ölçüleri

Temel ve Uygulamalı Araştırmalar için Araştırma Süreci

Temel ve Uygulamalı Araştırmalar için Araştırma Süreci

2. Klasik Kümeler-Bulanık Kümeler

Veri Madenciliği. Yrd. Doç. Dr. Mustafa Gökçe Baydoğan. blog.mustafabaydogan.

İSTATİSTİK I KISA ÖZET KOLAYAOF

Görüntü Segmentasyonu (Bölütleme)

Popülasyon Ortalamasının Tahmin Edilmesi

İNŞAAT MÜHENDİSLİĞİ BÖLÜMÜ ÖĞRENCİLERİNİN BAŞARI NOTLARININ DEĞERLENDİRİLMESİ. Tamer Yılmaz, Barış Yılmaz, Halim Sezici 1 ÖZET

BÖLÜM 12 STUDENT T DAĞILIMI

İSTATİSTİK STATISTICS (2+0) Yrd.Doç.Dr. Nil TOPLAN SAÜ.MÜH. FAK. METALURJİ VE MALZEME MÜH. BÖLÜMÜ ÖĞRETİM ÜYESİ ÖĞRETİM YILI

Zeki Optimizasyon Teknikleri

Copyright 2004 Pearson Education, Inc. Slide 1

İki Ortalama Arasındaki Farkın Önemlilik Testi (Student s t Test) Ankara Üniversitesi Tıp Fakültesi Biyoistatistik Anabilim Dalı

İstatistik ve Olasılık

Test İstatistikleri AHMET SALİH ŞİMŞEK

altında ilerde ele alınacaktır.

SEÇKİSİZ OLMAYAN ÖRNEKLEME YÖNTEMLERİ

BİYOİSTATİSTİK. Ödev Çözümleri. Yrd. Doç. Dr. Aslı SUNER KARAKÜLAH

Transkript:

KÜMELEME

Tanımı Amacı Özellikleri Kullanım Alanları Varsayımları Yöntemleri Uygulama aşamaları Neleri göreceğiz?

Tanımı Veriyi birbirlerine benzeyen elemanlardan oluşan kümelere ayırarak, heterojen bir veri grubundan, homojen alt veri grupları elde edilmesi işlemidir.

Tanımı Örnek *Marketlerde farklı müsteri gruplarının kesfedilmesi ve bu grupların alısveris örüntülerinin ortaya konması, *Biyolojide bitki ve hayvan sınıflandırmaları ve islevlerine göre benzer genlerin sınıflandırılması, *Şehir planlanmasında evlerin tiplerine, degerlerine ve cografik konumlarına göre gruplara aynlması, gibi uygulamalar tipik kümeleme uygulamalarıdır.

Amacı Benzer değişkenleri sahip oldukları karakteristiklere göre görece homojen gruplara toplamak ve gruplar arası heterojenliği maksimize etmek. Araştımacıya özetleyici bilgiler elde etmekte yardımcı olmak. Aynı kümedeki örnekler birbirine daha çok benzer Farklı kümedeki örnekler birbirine daha az benzer

Özellikleri Ölçeklenebilir olmalıdır. Farklı veri türleri ile kullanılabilmelidir. En az sayıda giriş değişkeni gerektirmelidir. Veri kümesindeki kayıtların sıralanmasından bağımsız olmalıdır. Çok boyutlu veri tabanlarına uygulanabilmelidir. Veri kümesinin sahip olduğu sınırlıkları dikkate alabilmelidir. Kolay yorumlanabilir sonuçlar üretebilmeli ve işlevsel olmalıdır.

Kullanım Alanları Veri madenciliği İstatistik Biyoloji Makine öğrenimi Tıp Sosyal bilimler Bankacılık & Finans sektörü Sigortacılık

Kullanım Alanları Bankacılık & Finans sektörü * Kredi taleplerinin değerlendirilmesi * Sahtekarlık işlemlerinin tespiti Sigortacılık *Risk müşteri gruplarının belirlenmesi *Sigorta dolandırıcılığı tespiti *Yeni poliçe alıcak müşterilerin tespiti

Varsayımları Kümeleme analizinde kullanılan örneklemin ana kütleyi iyi temsil etmesi ve analizde kullanılan değişkenler arasındaki çoklu bağlantının analizi etkilemesinin önlenmesi gerekir.

Yöntemleri Bölümleme yöntemleri (Partitioning methods) Hiyerarsik yöntemler (Hierarchical methods) Yogunluk tabanlı yöntemler (Density-based methods) Izgara tabanlı yöntemler (Grid-based methods) Model tabanlı yöntemler (Model-based methods)

Bölümleme yöntemleri Bölümleme yöntemleri, n adet nesneden oluşan veri tabanını giriş parametresi olarak belirlenen k adet bölüme ( k<=n ) ayırma temeline dayanır. Veri tabanındaki her bir eleman farklılık fonksiyonuna göre k adet bölümden birine dâhil edilir. Bu bölümlerden her biri bir küme olarak adlandırılır.

Bölümleme yöntemleri Bölümleme yöntemleri k -means, k medoids CLARA-CLARANS olarak bilinen algoritmaları kullanır.

k medoids algoritması k -medoids algoritması k-means algoritmasının gürültü ve istisna verilere aşırı duyarlılığını gidermek amacıyla Kaufman ve Rousseeuw tarafından 1987 yılında geliştirilmiştir. k -medoids algoritması kümeyi temsil edecek noktayı bulmak için küme elemanlarının ortalamasını almak yerine kümenin en merkez noktasındaki elemanı yeni küme merkezi olarak alır.böylece istisna verilerin küme merkezini kenarlara doğru kaydırması problemi giderilmiş olur.

k-medoids algoritması k -medoids algoritmasının birçok farklı türevi bulunmaktadır. PAM (Partitioning Around Medoids) ilk ortaya atılan k-medoids algoritmasıdır. PAM, öncelikle k -means algoritmasında olduğu gibi rastgele seçtiği k adet sayıyı küme merkezi olarak alır. Kümeye her yeni eleman katıldığında kümenin elemanlarını deneyerek kümenin gelişmesine en fazla katkıda bulunabilecek noktayı tespit edince bulduğu noktayı yeni merkez, eski merkezi ise sıradan küme elemanı olacak şekilde yer değiştirme işlemi yapar.

CLARA ve CLARANS Algoritmaları PAM, k -medoids algoritmalarının başarısını kanıtlamasına rağmen büyük veri tabanlarında başarılı olamayınca Kaufman ve Rousseeuw tarafından 1990 yılında CLARA ortaya atılmıştır. CLARA, veri tabanının tümünü almak yerine küçük bir örneklem kümesini temsilci olarak alıp örneklem üzerinde PAM algoritmasını uygular.

CLARA ve CLARANS Algoritmaları CLARA nın avantajı PAM dan daha büyük veri yığınlarına uygulanabilmesi, dezavantajı ise performansının örneklemin boyuna göre değişmesi ve örneklem seçimi yeterince bağımsız değilse seçilen örneklem veri tabanını yeterince temsil edemeyeceği için yanlış sonuçlara ulaşmasıdır.

K-Means Kümeleme K-means algoritması basit ve etkin bir istatistiki kümeleme yöntemidir. K-means algoritması veri kümesini birbirinden ayrık kümelere böler. K küme sayısının başlangıçta bilinmesi gerekir.

K-Means Kümeleme Algoritmanın işleyişi şu şekildedir: Her küme için bir merkez nokta belirlenir (random olarak belirlenebilir) Kümelenecek olan elemanlar kendisine en çok benzeyen kümeye atanır. Kümelenen elemanların benzerliklerine göre yeni merkez belirlenir. Kümeler stabil hale gelene kadar 2. ve 3. adımlar tekrarlanır.

K-Means Kümeleme Aşağıdaki nesneler rastgele dizilmiştir bu noktalar için random olarak iki nokta belirlenir.

K-Means Kümeleme Seçilen noktalara göre nesneleri sınıflandırıyoruz (hangi renge daha yakınsa-hangisine daha çok benziyorsa) istenilen bir uzaklık hesaplama yöntemi kulanılabilir.

K-Means Kümeleme Nesneler merkeze olan benzerliklerine göre gruplandı.

K-Means Kümeleme Aynı kümedeki nesnelerin ortalaması (özellikleri göz önünde bulundurularak) yeni bir küme merkezi belirlenir.

K-Means Kümeleme Kümedeki elemanlar stabil hale gelene kadar bu adımlar tekrarlanır.

K-Means Kümeleme Örnek olarak veritabanımız D={4,7,14,23,27,32,36,38,42,5} olsun. Burada k=2 kabul edilsin.(yani bu veritabanı 2 kümeye ayrılacak olsun) İlk olarak m1=4 ve m2=7 alınsın (ilk 2 değer ) k1={4,5} k2= {7,14,23,27,32,36,38,42} Yeni ortalama değerleri m1=4.5 ve m2=27.3 alınsın k1= {4,5,7,14,} k2 ={23,27,32,36,38,42} Yeni ortalama değerleri m1=7.5 ve m2=27 alınsın k1= {4,5,7,14} k2= {23,27,32,36,38,42} bu ortalama değerlerine göre kümelerimizde bir değişiklik olmadığından dolayı algortima sonlanacaktır. Buradan da anlaşılacağı üzere, algoritmanın sonlanma kriteri aynı kümelerin bulunmasısır. K-Means algoritmasının kümeleme basamaklarının gösterilişine aşağıdaki şekilden ulaşılabilir.

TWO-STEP Minimum varyans yöntemiyle K-means yönteminden oluşan karma bir yaklaşımdır. Bu karma yaklaşımın avantajı K-means yönteminin gerektirdiği küme sayısını hesaplamasından ileri gelmektedir. Araştırma sonuçlarına göre bu yöntemin K-means yönteminden daha iyi sonuçlar verdiği belirtilmektedir.

Kümeleme analizinin uygulama aşamaları 1-Problemi formülize et 2-Uzaklık ölçüsünü seç 3-Kümeleme prosedürünü seç 4-Kümelerin sayısına karar ver 5-Kümeleri yorumla 6-Geçerlilik ve güvenirliği ölç

1.Problemin formülize edilmesi Anakütlelerden alınmış n sayıda birimin p sayıda değişkenine ilişkin gözlemler elde edilir.(veri matrisinin belirlenmesi) Problemin tanımlanmasındaki en önemli kısım değişkenlerin seçilmesidir.

2.Uzaklık ölçüsünün seçilmesi Değişkenilerin birbirleriyle olan benzerliklerini ya da farklılıklarını gösteren uygun bir benzerlik ölçüsü ile birbirlerine olan uzaklıklarının hesaplanmasıdır.başka bir deyişle benzerlik ya da farklılık matrisinin belirlenmesi gereklidir.

Öklidyen uzaklık En çok kullanılan uzaklık hesaplamasıdır. İşlenmemiş veriler ile hesaplama yapılır. Öklityen uzaklıkları kümeleme analizine sıra dışı olabilecek yeni nesnelerin etkilenmesinden etkilenmezler.ancak boyutlar arasındaki ölçek farklılıkları önemli ölçüde etkilemektedir.

Diğer uzaklıklar 1. Mahalanobis Uzaklığı; Öklit uzaklığı 2 noktayı kapsarken mahalanobis uzaklığı tüm noktaları kapsar ve eksenlerini eşit kabul etmez. Komşuluğa bağlı sınıflandırma yapmak (ör: en yakın komşu), noktaları öbeklemek veya aykırı noktaları bulmak için daha uygun bir uzaklıktır.

Diğer Uzaklıklar 2. City-block(Manhattan) Uzaklığı; Manhattan uzaklığı boyutlar arasındaki ortalama farka eşittir.bu ölçüt kullanıldığında farkın karesi alınmadığı için sıra dışılıkların etkisi azalır. 3. Chebychev Uzaklığı; Chebychev uzaklığı iki nesne arasındaki mutlak maksimum uzaklığa eşittir.

3.Kümeleme prosedürünü seç Uygun küme yöntemi ile bezerlik/farklılık matrisine göre değişkenlerin uygun sayıda kümelere ayrılması gereklidir. Uygulamada genellikle hiyerarşik kümeleme ve hiyerarşik olmayan kümeleme yöntemleri olarak ikiye ayrılırlar.

Hiyerarşik kümeleme Birimleri birbirleri ile değişik aşamalarda bir araya getirerek;ardışık biçimde kümeler oluşturmaya ve bu kümelere girecek elemanların hangi uzaklık ya da benzerlik düzeyinde küme elemanı olduğunu belirlemeye yönelik yöntemlerdir.

Hiyerarşik kümeleme Tipik olarak sayısı 250 den az olan küçük örneklemlerin analizinde kullanılır ve incelenen veri setinde kaç grup bulunduğunun başlangıçta bilinmediği durumlarda çok uygun bir yöntemdir.yöntem incelenen veri setinde daha önce gözlemlenmiş ilişkileri ve prensipleri keşfetme olanağı sağlar.

Hiyerarşik kümeleme yönteminde kümelerin grafiksel olarak ifade edilebilmesi için diyagram (dendrogram) örneğinden yararlanılabilir.

Hiyarerşik olmayan kümeleme Düğüm yöntemleri ya da k-means method olarak adlandırılır. Birimlerin kendi içinde homejen ve kendi aralarında hetorojen olan kümelere ayrılmasını hedefler.genelde büyük örneklem gruplarının (k>250) analizinde tercih edilir ve ağaç yapısı benzeri yapılar kurulmaz. Küme sayısı konusunda ön bilgi varsa ya da araştırmacı küme sayısına karar vermişse bu yöntem tercih edilir.

Hiyarerşik olmayan kümeleme Veriler önceden belirlenmiş sayıda kümeler ayrılır.bu kümelerin merkezleri yani düğüm noktaları hesaplanır.bu adımlar her gözlem bir kümeye atanana kadar devam eder. Hiyerarşik kümelemeyle bir diğer farkı ise hiyerarşik kümelemede bir gözlem bir kümeye atandıktan sonra tekrar yer değiştirmez.

4.Kümelerin sayısına karar verilmesi Kümeleme analizinde sağlıklı bir sonuç elde edilebilmesi için değişkenlerin seçimi kadar küme sayısınında doğru belirlenmesi önemlidir. Küme sayılarının belirlenmesinde kesin kurallar bulunmamaktadır.sayısal bir takım yöntemler geliştirilmesine karşın küme sayısını belirlemede;araştırmacının bilgi düzeyi,mesleki deneyimi ve sonuçların anlamlı olup olmaması en önemli unsurlardandır.

5.Kümelerin yorumlanması Çok sayıda değişkenin yine çok sayıda olan gözlem konusunun birimler üzerindeki etkisini görme olanağı verir.yani ulaşılıp yorumlanacak sonuçlar anlamlı bir sonuçtan çok araştırma ve tanımlamaya yöneliktir.

6.Geçerlilik ve güvenirliğin ölçülmesi Kümeleme analizinin son aşamasıdır.oluşturulan kümeler tanımlandıktan sonra güvenilirliği değerlendirilmelidir. Kümelerin istatistiksel güvenilirliğini saptamada bazı istatistiksel atılımlar yapılmış olsada herhangi bir test mevcut değildir.ayrıştırma analizi istatistiksel bir test gibi kullanılabilir.

Buse ve Duygu teşekkür eder

~hazırlayan~ Buse Yıldırım 21324177 Duygu Büyükbaş 21323645