Kümeleme Tekniklerinin Temel Bilimlerde Kullanımı



Benzer belgeler
Kümeleme Tekniklerinin Temel Bilimlerde Kullanımı

KNIME Yazilimi Ile Kimyasal Analiz Verilerinin Kümelenmesi

YZM 3217 YAPAY ZEKA DERS#10: KÜMELEME

Web Madenciliği (Web Mining)

Makine Öğrenmesi 2. hafta

Kümeler arası. Küme içi. uzaklıklar. maksimize edilir. minimize edilir

VERİ MADENCİLİĞİ (Kümeleme) Yrd.Doç.Dr. Kadriye ERGÜN

K-En Yakın Komşu Algoritması Parametrelerinin Sınıflandırma Performansı Üzerine Etkisinin İncelenmesi

Kümeleme Algoritmaları. Tahir Emre KALAYCI

KİNETİK MODEL PARAMETRELERİNİN BELİRLENMESİNDE KULLANILAN OPTİMİZASYON TEKNİKLERİNİN KIYASLANMASI

ÇOK DEĞĐŞKENLĐ ĐSTATĐSTĐKLERĐN ARAŞTIRMALARDA KULLANIMI

Uzaktan Algılama Uygulamaları

K-MEANS, K-MEDOIDS VE BULANIK C-MEANS ALGORİTMALARININ UYGULAMALI OLARAK PERFORMANSLARININ TESPİTİ

ISSN: El-Cezerî Fen ve Mühendislik Dergisi Cilt: 3, No: 2, 2016 ( )

Tanımı Amacı Özellikleri Kullanım Alanları Varsayımları Yöntemleri Uygulama aşamaları. Neleri göreceğiz?

Araştırma Yöntem ve Teknikleri

CURE, AGNES VE K-MEANS ALGORİTMALARINDAKİ KÜMELEME YETENEKLERİNİN KARŞILAŞTIRILMASI

VERİ MADENCİLİĞİNE BAKIŞ

YABANCI DİL EĞİTİMİ VEREN ÖZEL BİR EĞİTİM KURUMUNDAKİ ÖĞRENCİLERİN BEKLENTİLERİNİN ARAŞTIRILMASI. Sibel SELİM 1 Efe SARIBAY 2

Sayısal Yöntemler (COMPE 350) Ders Detayları

Büyük Veri İçin İstatistiksel Öğrenme (Statistical Learning for Big Data)

KALİTE İYİLEŞTİRMEDE VERİ KÜMELEME: DÖKÜM ENDÜSTRİSİNDE BİR UYGULAMA

Apriori Algoritması ile Teknik Seçmeli Ders Seçim Analizi

Temel ve Uygulamalı Araştırmalar için Araştırma Süreci

Veri Kümeleme Algoritmalarının Performansları Üzerine Karşılaştırmalı Bir Çalışma

VERİ MADENCİLİĞİ (Karar Ağaçları ile Sınıflandırma) Yrd.Doç.Dr. Kadriye ERGÜN

T.C. ERCİYES ÜNİVERSİTESİ MÜHENDİSLİK FAKÜLTESİ BİLGİSAYAR MÜHENDİSLİĞİ BÖLÜMÜ EĞİTİM ÖĞRETİM YILI DERS KATALOĞU

BİTİRME ÖDEVİ KONU BİLDİRİM FORMU

OSPF PROTOKOLÜNÜ KULLANAN ROUTER LARIN MALİYET BİLGİSİNİN BULANIK MANTIKLA BELİRLENMESİ

2001 ve 2008 Yılında Oluşan Krizlerin Faktör Analizi ile Açıklanması

APRİORİ ALGORİTMASI İLE TEKNİK SEÇMELİ DERS SEÇİM ANALİZİ SELECTION BEHAVIOR ANALYSIS OF TECHNICAL ELECTIVE COURSES USING APRIORI ALGORITHM

KABA KÜME TEORİSİ (Rough Set Theory) Dr. Sedat TELÇEKEN

Ç.Ü Fen ve Mühendislik Bilimleri Dergisi Yıl:2012 Cilt:28-3

MATLAB A GİRİŞ. EE-346 Hafta-1 Dr. Ayşe DEMİRHAN

Kimya Mühendisliğinde Uygulamalı Matematik

İNŞAAT MÜHENDİSLİĞİ YÜKSEK LİSANS PROGRAMI AKIŞ DİYAGRAMI

ÜNİVERSİTE ÖĞRENCİLERİNİN BAŞARILARI ÜZERİNE ETKİ EDEN BAZI FAKTÖRLERİN ARAŞTIRILMASI (MUĞLA ÜNİVERSİTESİ İ.İ.B.F ÖRNEĞİ) ÖZET ABSTRACT

K En Yakın Komşu Methodu (KNearest Neighborhood)

İSTATİSTİK HAFTA. ÖRNEKLEME METOTLARI ve ÖRNEKLEM BÜYÜKLÜĞÜNÜN TESPİTİ

The Study of Relationship Between the Variables Influencing The Success of the Students of Music Educational Department

BÖLÜM 2 VERİ SETİNİN HAZIRLANMASI VE DÜZENLENMESİ

Bu bölümde; Çok ölçütlü karar verme yöntemlerinden biri olan TOPSİS yöntemi anlatılacaktır.

daha çok göz önünde bulundurulabilir. Öğrencilerin dile karşı daha olumlu bir tutum geliştirmeleri ve daha homojen gruplar ile dersler yürütülebilir.

PROSES TASARIMINA GİRİŞ [1-4]

ALTI SİGMA VE BİR UYGULAMA. Six Sigma And An Application

MÜHENDİSLİK FAKÜLTESİ / ENSTİTÜSÜ / YÜKSEKOKULU BİLİŞİM SİSTEMLERİ MÜHENDİSLİĞİ BÖLÜMÜ /ABD LİSANS PROGRAMI - 1 ( yılı ve sonrasında birinci

ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ DÖNEM PROJESİ TAŞINMAZ DEĞERLEMEDE HEDONİK REGRESYON ÇÖZÜMLEMESİ. Duygu ÖZÇALIK

ERCİYES ÜNİVERSİTESİ KİMYA ANABİLİM DALI

Bulanık Mantık Tabanlı Uçak Modeli Tespiti

Veri Ambarları ve Veri Madenciliği (ISE 350) Ders Detayları

Ders Adı Kodu Yarıyılı T+U Saati Ulusal Kredisi AKTS

Yönetim için Sayısal Yöntemler (AVM306) Ders Detayları

Sayısal Yöntemler (MFGE 301) Ders Detayları

Olasılık ve İstatistik (IE 220) Ders Detayları

BİLANÇO ORANLARI YARDIMIYLA ORMAN ÜRÜNLERİ SANAYİSİNİN FİNANSAL YAPISININ DEĞERLENDİRİLMESİ Kadri Cemil AKYÜZ 1 Yasin BALABAN 2 İbrahim YILDIRIM 3

Kayıt, adresinden online yapılacaktır.

UYGULAMA 1 SPSS E GİRİŞ. SPSS; File, Edit, View, Data, Transform, Analyze, Graphs, Utilities, Window, Help adlı 10 adet program menüsü içermektedir.

Veri Madenciliği Yaklaşımı ile Mesleki Yönlendirme Sistemi

DOKUZ EYLÜL ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ MÜDÜRLÜĞÜ DERS/MODÜL/BLOK TANITIM FORMU. Dersin Kodu: CSE 5072

Hafta 05 - Karar Ağaçları/Kümeleme

TEORİK ve UYGULAMALI HPLC EĞİTİMİ BAHAR OKULU (Kromatografik Verilere Kemometrik Analiz ve Yaklaşımlar Eğitimi) FİNAL PROGRAM

Doç. Dr. Özlem Esen KARTAL (A Şubesi) Yrd. Doç. Dr. Adil KOÇ (B Şubesi) :16:57 1

TÜRKİYE NİN BİTKİ ÖRTÜSÜ DEĞİŞİMİNİN NOAA UYDU VERİLERİ İLE BELİRLENMESİ*

T.C. Hitit Üniversitesi. Sosyal Bilimler Enstitüsü. İşletme Anabilim Dalı

Karaciğerde Oluşan Hastalıkların Tespitinde Makine Öğrenmesi Yöntemlerinin Kullanılması

ÖĞRETMEN ADAYLARININ PROBLEM ÇÖZME BECERİLERİ

Görüntü Segmentasyonu (Bölütleme)

İZMİR DEKİ ÖZEL VE DEVLET ÜNİVERSİTELERİNDEKİ ÖĞRENCİLERİN BAŞARILARINI ETKİLEYEN FAKTÖRLERİN BELİRLENMESİ VE KARŞILAŞTIRILMASI ÖZET

Olasılık ve İstatistik (IE 220) Ders Detayları

EGE ÜNİVERSİTESİ FEN BİLİMLERİ LİSANSÜSTÜ ÖĞRENCİLERİNE YÖNELİK 6. ORYANTASYON PROGRAMI

KADASTRO HARİTALARININ SAYISALLAŞTIRILMASINDA KALİTE KONTROL ANALİZİ

Kansızlık Tanısına İlişkin Bir Veri Madenciliği Uygulaması

EĞİTİM FAKÜLTESİ ÖĞRENCİLERİNİN ENFORMATİK BİLGİ DÜZEYLERİNİN K-MEANS ALGORİTMASI İLE GRUPLANDIRILMASI

TOPSIS yönteminin adımları 5 Adım 1. Normalize karar matrisinin oluşturulması 6 Karar matrisinin normalizasyonu aşağıdaki formül kullanılarak yapılır:

Temel ve Uygulamalı Araştırmalar için Araştırma Süreci

BİYOİSTATİSTİK Örnekleme ve Örnekleme Yöntemleri Yrd. Doç. Dr. Aslı SUNER KARAKÜLAH

Dersi Alan Dersi Veren Dersin Optik Kod Dersin Adı Saat Öğr. Grubu Öğretim Üyesi Yeri

ÖZGEÇMİŞ. 1. Adı Soyadı : Kamile ŞANLI KULA İletişim Bilgileri : Ahi Evran Üniversitesi, Fen Edebiyat Fakültesi, Adres Matematik Bölümü, KIRŞEHİR

YÖNEYLEM ARAŞTIRMASI - III

CBS ve Coğrafi Hesaplama

K-MEANS VE AŞIRI KÜRESEL C-MEANS ALGORITMALARI İLE BELGE MADENCİLİĞİ

Makine Öğrenmesi İle Duygu Analizinde Veri Seti Performansı

Yrd. Doç. Dr. Hüseyin Odabaş

AKARSULARDA KİRLENME KONTROLÜ İÇİN BİR DİNAMİK BENZETİM YAZILIMI

DERS BİLGİLERİ. Ders Kodu Yarıyıl D+U+L Saat Kredi AKTS. İleri Sayısal Kontrol Sistemleri EE 586 Güz Doç. Dr. Duygun Erol Barkana

EGE ÜNİVERSİTESİ FEN BİLİMLERİ LİSANSÜSTÜ ÖĞRENCİLERİNE YÖNELİK 5. ORYANTASYON PROGRAMI

Ek-2 T.C. ANADOLU ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ÖĞRETİM YILINDAN BAŞLAYARAK GEÇERLİ YÜKSEK LİSANS PROGRAMLARI ZORUNLU DERSLERİ

Veri Madenciliği. Yrd. Doç. Dr. Mustafa Gökçe Baydoğan. blog.mustafabaydogan.

İmalat Sanayi İçerisinde Yer Alan Sektörlerin İş Kazası İstatistiklerinin Küme ve Ayırma Analizleri İle Değerlendirilmesi

K-En Yakın Komşu Algoritması Parametrelerinin Sınıflandırma Performansı Üzerine Etkisinin İncelenmesi

VERİ MADENCİLİĞİ (Veri Ön İşleme-2) Yrd.Doç.Dr. Kadriye ERGÜN

EGE ÜNİVERSİTESİ FEN BİLİMLERİ LİSANSÜSTÜ ÖĞRENCİLERİNE YÖNELİK 6. ORYANTASYON PROGRAMI LOOPEGE

İSG RİSK DEĞERLENDİRME PROSEDÜRÜ

Bilişim Sistemleri. Modelleme, Analiz ve Tasarım. Yrd. Doç. Dr. Alper GÖKSU

Kayıt, adresinden on-line yapılacaktır.

VERİ KÜMELEME ALGORİTMALARININ PERFORMANSLARI ÜZERİNE KARŞILAŞTIRMALI BİR ÇALIŞMA

Sınavlı ve Sınavsız Geçiş İçin Akademik Bir Karşılaştırma

Bilişim Sistemleri. Modelleme, Analiz ve Tasarım. Yrd. Doç. Dr. Alper GÖKSU

VERİ MADENCİLİĞİ VE SOSYAL AĞ ANALİZİ ARAŞTIRMA LABORATUVARI

VERİ MADENCİLİĞİNDE NESNE YÖNELİMLİ BİRLEŞTİRİCİ HİYERARŞİK KÜMELEME MODELİ

Transkript:

Akademik Bilişim 2013 Akdeniz Üniversitesi, Antalya, 23-25 Ocak 2013 Kümeleme Tekniklerinin Temel Bilimlerde Kullanımı Oğuz Akpolat 1 *, Sinem Çağlar Odabaş 2, Gülçin Özevci 3, Nezahat İpteş 4 1 Muğla SKÜ, Fen Fakültesi, Kimya Bölümü, Muğla, Türkiye 2 Muğla SKÜ Fen Bilimleri Enstitüsü, Kimya Ana Bilim Dalı 3 Ege Universitesi, Nükleer Bilimler Enstitüsü, İzmir, Türkiye 4 Muğla SKÜ Fen Bilimleri Enstitüsü, Çevre Bilimleri Ana Bilim Dalı *oakpolat@muedutr Özet: Verilerin kümelenmesinin amacı heterojen olan ana kütleyi homojen gruplara ayırmaktır Kimyasal analizlerde de ham veri büyük öneme sahiptir bu değişkenler için kümeleme işleminin gerçekleştirilebilmesi değişkenler arası benzerlik ya da farklılıkların bulunmasına dayanır Kümeleme yöntemleri, birim ya da değişkenleri uygun gruplara ayırırken grupları belirlemede izledikleri yaklaşımlara göre; (1) Aşamalı Kümeleme Yöntemleri ve (2) Aşamalı Olmayan Kümeleme Yöntemleri biçiminde iki temel gruba ayrılmaktadır Aşamalı Kümeleme Yöntemi olarak Öklit uzaklığının hesaplanmasını kullanan En Yakın Komşu yöntemi en basit yöntem olarak tek-bağ algoritmasında iki küme arasındaki uzaklık, her iki küme arasında yer alan kayıtlardan birbirlerine en yakın olanların uzaklığı olarak değerlendirilmektedir Bu çalışmada da, bir kazı sonucu çıkartılan 58 adet toprak kaptaki element içerikleri En Yakın Komşu Yöntemi ile kümelenmiştir ve kümeleme analizi SPSS 140 yazılımı ile gerçekleştirilmiştir Bu çerçevede oluşturulan dendrogram incelendiğinde, tüm örnekleri içeren iki farklı ana kümeden söz etmek mümkündür Bu iki kümedeki örneklerin iki ayrı bölgede üretildiği varsayımının geçerliliği kabul edilebilir Anahtar Kelimeler: Kümeleme tekniği, Kimyasal analiz, Orijin belirleme, SPSS, Dendrogram Clustering Technics Using For Applied Sciences Abstract: Main object of the clustering of the data is that the main heterogene data group are divided into different homogene data groups Raw data has also a great importance for chemical analysis and the clustering analysis of these data bases on determining of the similarity or differences among them Clustering methods are splitted up two groups; (1) Hierarchical Cluster Analysis Methods and (2) Nonhierarchical Cluster Analysis Methods As to Nearest Neighbor method as Hierarchical Cluster Analysis Method the distance between two clusters is accepted that the nearest distances among the cluster data set for calculating In this study the elements belongs to 58 ancient pots were analysed chemically and these data was subjected to clustering analysis by Nearest Neighbor method, and SPSS 140 was used as software for statistical evalution For that reason as eamined prepared dendrogram it could be said there are two main clusters of the data set and as a result it was accepted that the ancient goods in these two clusters are produced at different places Keywords: Clustering analysis, Chemical analysis, Definiation origin, SPSS, Dendrogram 1 GİRİŞ Günlük yaşamda ürünlerin pazarlanması ya da hizmetlerin sunulması gibi pratik alanlarda veya yapılan bilimsel ve teknolojik araştırmalarda toplanan verilerin değerlendirilmesinde karşılaşılan kümeleme tekniklerinin, gerek fizik, kimya ve biyoloji gibi temel bilimlerde gerekse tıp, mühendislik, nanoteknoloji, bilgi teknolojileri, genetik, çevre ya da biyoteknoloji gibi pek çok uygulamalı bilimde, madenlerin, ürünlerin, canlıların fiziksel ya da kimyasal özeliklerine göre orijinlerin belirlenmesi, yapılarının gruplanması, özelliklerinin zamana bağlı olarak değişimlerinin incelenmesi gibi alanlarda çok geniş kullanıma sahip olduğu pek çok kaynaktan açıkça anlaşılmaktadır Kimya alanında da benzer olarak, özellikle yapılan kemometrik analizlerde sağlanan ham veri artık hem çok miktarda hem de büyük öneme sahip olmaktadır, ve yapılacak olan bir deneysel çalışma sonrasında elde edilen verilerin hesaplamalarına ve değerlendirilmelerine geçmeden önce, özelliklerinin dikkatle incelenmesi, anlaşılır ve karşılaştırılabilir olması için istatistiksel olarak araştırılması, ve veri madenciliği ilkeleri çerçevesinde bütünleştirilmesi gerekmektedir [1]

Oğuz Akpolat, Sinem Çağlar Odabaş, Gülçin Özevci, Nezahat İpteş Kimyada deneysel verilerin değerlendirilmesi nedensonuç ilişkilerinin belirlenmesi açısından istatistiğin ilkelerine, veri gruplarının oluşturulması ve anlamlandırılması açısından veri madenciliği yöntemlerine, kabul edilebilir deney tasarımlarının gerçekleştirilebilmesi açısından modelleme ve optimizasyon tekniklerine ve tüm bu ilke, yöntem ve tekniklerin uygulanabilirliği açısından da bilgisayar donanımı, yazılımı, algoritma ve programlama ya da hazır olarak kullanılabilen paket programlarına ihtiyaç duyar ve bunlar da kısaca Kemometri biliminin temel alanlarını oluşturur Kümeleme işleminin, ekonomi, tıp hizmetler gibi pek çok alandakine benzer olarak, bilimsel ve teknolojik araştırmalarda da toplanan verilerin değerlendirilmesinde, örneğin kimyada ürünlerin, madenlerin, bileşiklerin, canlıların fiziksel ya da kimyasal özeliklerine göre orijinlerin belirlenmesi, yapılarının gruplanması, özelliklerinin zamana bağlı olarak değişimlerinin incelenmesi gibi konularda da çok geniş kullanıma sahip olduğu pek çok kaynaktan açıkça anlaşılmaktadır [2, 3, 4, 5, 6 ] Kümelemenin amacı ise heterojen olan ana kütleyi homojen gruplara veya kümelere ayırmaktır Kümeleme önceden tanımlanmış sınıfları baz alarak gruplamaz yani kümeleme gruplamada benzerlikleri kullanırken, sınıflandırma önceden tanımlanmış sınıflar modelini temel alır Kümeleme, veri madenciliği sürecinden önce veri hazırlama esnasında da kullanılabilmektedir k-means ve toplayıcı algoritma (agglomerative algorithm) teknikleri ile onların varyasyonları kümeleme yöntemleri olarak kullanılmaktadır Kümeleme analizi en yaygın olarak kullanılan veri madenciliği tekniklerinden biri olup, literatürde kümeleme analizini açıklayan pek çok tanım bulunmaktadır [7, 8, 9] Kemometrik analizlerde ham veri büyük öneme sahiptir Yapılan bir deneysel çalışma sonrasında elde edilen verilerin kemometrik hesaplamalarına geçmeden önce verilerin özellikleri dikkatle incelenmelidir Elde edilen veriler arasında birbirinden çok farklı değerler bulunuyorsa ya da değerler arası büyük dengesizlikler varsa, verilerin benzer birimlere çevrilmeleri veya ortalama değer etrafında toplanması gerekebilir Bunun gibi durumlarda verilere merkezileştirme, standartlaştırma ve normalizasyon gibi verilerin analize hazırlanmasına yönelik işlemler uygulanır Bunun için öncelikle hesaplamalarda gerekli olan veri ve fark matrisinin tanımlanması aşağıdaki gibi yapılmalıdır [10] Veri matrisinde n veri sayısı, p nitelik sayısı ve fark matrisinde de d(i,j) iki veri arasındaki uzaklık olmak üzere; 11 i1 n1 0 d(2,1) d(3,1) d( n,1) Veri Matrisi i=1 n, f=1 p Fark Matrisi Ham verilerin sayısal ölçek değerleri birbirinden çok farklı ise yukarıda oluşturulan matrisler aşağıdaki yaklaştırma metotlarından biriyle yeniden hesaplanarak oluşturulur Bunlar kısaca merkezileştirme, standartlaştırma ve normalizasyondur Kümeleme işleminin gerçekleştirilebilmesi değişkenler arası benzerlik ya da farklılıkların bulunmasına dayanır Yani kümeleme analizinde bir birime ait değişkenlerin birbirleriyle olan uzaklıkları hesaplanır Kısaca uzaklık matrisi ya da benzerlik matrisinden yararlanıyoruz Koordinat sisteminde iki nokta arasındaki uzaklığın gösterimi ise Şekil 1 de verilmiştir Şekil 1 Koordinat sisteminde iki nokta arasındaki uzaklık Fark matrisinin oluşturulması sırasında noktalar arasındaki uzaklık (ya da yakınlık) hesaplaması için Öklit, Manhattan ve Supremium gibi farklı tanımlar yapılmış olup, bunlardan en basiti olan Ortalama Link (Average Linkage) aşağıdaki gibi yazılmıştır d ki 1 f 0 if nf d(3,2) d( n,2) d 0 Ai d 2 1p ip np Bi 0 Kümeleme yöntemleri, birim ya da değişkenleri uygun gruplara ayırırken grupları belirlemede izledikleri yaklaşımlara göre; 3

Kümeleme Tekniklerinin Temel Bilimlerde Kullanımı 1 Aşamalı Kümeleme Yöntemleri (Hierarchical Cluster Analysis Methods) 2 Aşamalı Olmayan Kümeleme Yöntemleri (Nonhierarchical Cluster Analysis Methods) biçiminde iki temel gruba ayrılmaktadır Çizelge 1 Toprak kap örneklerinin kimyasal analizleri Aşamalı Kümeleme Yöntemi olarak Öklit uzaklığının hesaplanmasını kullanan Nearest Neighbor (En Yakın Komşu) yöntemi en basit yöntem olarak tek-bağ algoritmasında iki küme arasındaki uzaklık, her iki küme arasında yer alan kayıtlardan birbirlerine en yakın olanların uzaklığı olarak değerlendirilmektedir Bu işlem Şekil 2 de ayrıntılı olarak gösterilmiştir: Şekil 2 Tek-Bağ kümelemede iki küme arası uzaklık Bu çalışmada, bir kazı sonucu çıkartılan 58 adet toprak kaptaki element içerikleri [5] En Yakın Komşu Yöntemi ile kümelenmiştir Kümeleme analizi SPSS 140 yazılımı ile gerçekleştirilmiştir 2 YÖNTEM Sunulan çalışmada; bir kazı bölgesinden çıkartılan 58 adet toprak kap örneklerinin kimyasal analizleri yapılmıştır Element içerikleri kütlece % veya ppm düzeyinde olacak şekilde atomik absorbsiyon ile belirlenmiştir [5] Çizelge 1 örnek bileşimlerine ilişkin verilerin saklandığı SPSS14 veri dosyası olup, yapılan kümeleme analizi sonuçları ve dendrogram ve Şekil 3 de verilmiştir Toprak kap örneklerinin kümeleme analizine ilişkin istatistiksel değerlendirme Cluster [DataSet1] C:\Users\\Kazisav Case Processing Summary(a,b) Cases Valid Missing Total N Percent N Percent N Percent 55 1000 0 0 55 1000 a Squared Euclidean Distance used b Single Linkage Single Linkage (Çizelge 2 de verilmiştir) Dengdongram (Şekil 3 de verilmiştir) 3 SONUÇLAR VE TARTIŞMA Veri tabanlarında farklı özelliklerdeki belli bir anlamı olmadan kayıtlı olan verilerin yorumlanarak anlamlı ve kullanışlı bilgiler haline getirilmesi veri madenciliğinin temelini oluşturmaktadır Sınıflandırma ise veri madenciliğinin en çok kullanıldığı alandır ve sınıflandırmada yaklaşımlardan biri olan kümelemenin amacı ise heterojen olan ana kütleyi homojen gruplara ayırmaktır Kümeleme önceden tanımlanmış sınıfları esas alarak gruplamaz yani kümeleme gruplamada benzerlikleri kullanırken sınıflandırma önceden tanımlanmış sınıflar modelini temel alır

Oğuz Akpolat, Sinem Çağlar Odabaş, Gülçin Özevci, Nezahat İpteş Çizelge 2 Single Linkage Şekil 3 Toprak kap örneklerinin kümeleme analizine ilişkin çizilen dendrogram 5

Kümeleme Tekniklerinin Temel Bilimlerde Kullanımı Bu çerçevede sunulan çalışmanın amacı da; bir kazı bölgesinden çıkartılan 58 adet toprak kap örneklerinin kimyasal analizlerinin yapılması ve elde edilen element içeriklerine göre kapların belirli kümeler altında toplanarak üretildikleri ve kullanıldıkları kazı bölgeleri hakkında ki düşünülenler ile gerçek değerler arasında bir ilişki kurmaktır Bu çerçevede oluşturulan dendrogram incelendiğinde, tüm örnekleri içeren iki farklı ana bölgeden söz etmek mümkündür Bu bölgeler E1, E3, E4, C3 ve G11 kodlu örnekler kümesi ile kalan diğer örnekler kümesinin kesinlikle aynı bölgede üretildiği anlaşılmaktadır Ayrıca dendrogramın diğer alt birleşim kümeleri de incelenerek orijinlerle ilgili varsayımlara gidilebilir 4 KAYNAKLAR [1] Odabaş, S, (2012) Objelerin benzer ya da farklı özelliklerine göre sınıflandırılmasında kümeleme tekniklerinin kullanılması, Yüksek Lisans, Muğla Üniversitesi, Fen Bilimleri Enstitüsü, Kimya Ana Bilim dalı [2] Brereton RG, (2003) Chemometrics data analysis for the laboratory and chemical plant, JohnWiley & Sons, Ltd [3] Arifoğlu, U (2005) Matlab 704 Simulink ve Mühendislik Uygulamaları, Alfa Ltd [4] Özkan, Y, (2008) Veri Madenciliği Yöntemleri, Papatya Yayıncılık, Ankara [5] Demir, C, Tokatlı, F, Ertaş, H, Özdemir, D, (2009) Kemometri Yaz Okulu IIDers Notları, IYTE Fen Fak Kim Böl İzmir [6] Akpolat, O (2010) Matlab Uygulamaları ile Bilişim Teknolojileri Muğla Üniversitesi Yayınları, Muğla, 141-148s [7] Han, J ve Kamber, M, (2001) Data Mining Concepts and Techniques, Morgan Kauffmann Publishers Inc [8] Karypis, G, Han,EH; Kumar,V, (1999) CHAMELEON: A hierarchical clustering algorithm using dynamic modeling, IEEE Computer, 32(8) [9] Jain,AK, Dubes,RC, (1998) Algorithms For Clustering Data, Prentice Hall, Englewood Cliffs, New Jersey, 07632 [10] Kaya, H, Köymen, K, (2008) Veri Madenciliği Kavramı ve Uygulama Alanları, Doğu Bölgeleri Araştırması