KALİTE İYİLEŞTİRMEDE VERİ KÜMELEME: DÖKÜM ENDÜSTRİSİNDE BİR UYGULAMA



Benzer belgeler
VERİ MADENCİLİĞİ (Sınıflandırma Yöntemleri) Yrd.Doç.Dr. Kadriye ERGÜN

KİNETİK MODEL PARAMETRELERİNİN BELİRLENMESİNDE KULLANILAN OPTİMİZASYON TEKNİKLERİNİN KIYASLANMASI

AKARSULARDA KİRLENME KONTROLÜ İÇİN BİR DİNAMİK BENZETİM YAZILIMI

Büyük Veri İçin İstatistiksel Öğrenme (Statistical Learning for Big Data)

ÇİMENTO BASMA DAYANIMI TAHMİNİ İÇİN YAPAY SİNİR AĞI MODELİ

Uzaktan Algılama Uygulamaları

QUANTILE REGRESYON * Quantile Regression

Web Madenciliği (Web Mining)

Bulanık Mantık Tabanlı Uçak Modeli Tespiti

Mühendislikte İstatistik Yöntemler

ÖZGEÇMİŞ. 1. Adı Soyadı : Kamile ŞANLI KULA İletişim Bilgileri : Ahi Evran Üniversitesi, Fen Edebiyat Fakültesi, Adres Matematik Bölümü, KIRŞEHİR

SAYISAL ÇÖZÜMLEME. Yrd.Doç.Dr.Esra Tunç Görmüş. 1.Hafta

VERİ MADENCİLİĞİNİN GÖREVLERİ

ELN1001 BİLGİSAYAR PROGRAMLAMA I

İstatistik ve Olasılık

İÇİNDEKİLER ÖN SÖZ...

Olasılık ve İstatistik (IE 220) Ders Detayları

İstatistiksel Süreç Kontrol KAZIM KARABOĞA

VERİ MADENCİLİĞİ (Kümeleme) Yrd.Doç.Dr. Kadriye ERGÜN

Sayısal Yöntemler (COMPE 350) Ders Detayları

Zeki Optimizasyon Teknikleri

Zaman Serileri Madenciliği Kullanılarak Nüfus Artışı Tahmin Uygulaması

İÇİNDEKİLER. BÖLÜM 1 Değişkenler ve Grafikler 1. BÖLÜM 2 Frekans Dağılımları 37

İSTATİSTİK STATISTICS (2+0) Yrd.Doç.Dr. Nil TOPLAN SAÜ.MÜH. FAK. METALURJİ VE MALZEME MÜH. BÖLÜMÜ ÖĞRETİM ÜYESİ ÖĞRETİM YILI

Örnek. Aşağıdaki veri setlerindeki X ve Y veri çiftlerini kullanarak herbir durumda X=1,5 için Y nin hangi değerleri alacağını hesaplayınız.

Temel ve Uygulamalı Araştırmalar için Araştırma Süreci

Zaman Serileri Madenciliği Kullanılarak Nüfus Artışı Tahmin Uygulaması

VERİ MADENCİLİĞİNE BAKIŞ

BÖLÜM 8 BİLGİSAYAR UYGULAMALARI - 2

İSTATİSTİK. Hafta 7.2 Kesikli Olasılık Dağılımları Poisson Dağılımı. Yrd. Doç. Dr. H. İbrahim CEBECİ

DENİZ HARP OKULU TEMEL BİLİMLER BÖLÜM BAŞKANLIĞI DERS TANITIM BİLGİLERİ

Geriye Yayılım ve Levenberg Marquardt Algoritmalarının YSA Eğitimlerindeki Başarımlarının Dinamik Sistemler Üzerindeki Başarımı. Mehmet Ali Çavuşlu

2.1 Bir Sınıfı Örneklerinden Öğrenme Vapnik-Chervonenkis (VC) Boyutu Olası Yaklaşık Doğru Öğrenme... 21

VERİ MADENCİLİĞİ (Veri Önişleme-1) Yrd.Doç.Dr. Kadriye ERGÜN

Makine Öğrenmesi 2. hafta

Projenin Adı: Matrisler ile Diskriminant Analizi Yaparak Sayı Tanımlama. Giriş ve Projenin Amacı:

Uzaktan Algılama Teknolojileri

Sayısal Yöntemler (MFGE 301) Ders Detayları

DOKUZ EYLÜL ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ MÜDÜRLÜĞÜ DERS/MODÜL/BLOK TANITIM FORMU. Dersin Kodu: CSE 5072

İSTATİSTİK DERS NOTLARI

SUDA ph TAYİNİ YETERLİLİK TESTİ RAPORU TÜBİTAK ULUSAL METROLOJİ ENSTİTÜSÜ REFERANS MALZEMELERI LABORATUVARI. Rapor No: KAR-G3RM

ÖZGEÇMİŞ VE ESERLER LİSTESİ

Kümeleme Tekniklerinin Temel Bilimlerde Kullanımı

Apriori Algoritması ile Teknik Seçmeli Ders Seçim Analizi

H.Ü. Bilgi ve Belge Yönetimi Bölümü BBY 208 Sosyal Bilimlerde Araştırma Yöntemleri II (Bahar 2012) SPSS Ders Notları II (19 Nisan 2012)

Destekçi Vektör Makineleri. Destekçi Vektör Makineleri(Support Vector Machines)

ÜSTEL DÜZLEŞTİRME YÖNTEMİ

ZAMAN SERİLERİNDE AYRIŞTIRMA YÖNTEMLERİ

Zamansal Veri Madenciliği ve Anomali Tespiti için Bir Uygulama

CBS ve Coğrafi Hesaplama

ULAŞTIRMA MODELİ VE ÇEŞİTLİ ULAŞTIRMA MODELLERİ

ÜNİTE:1. İstatistiğin Tanımı, Temel Kavramlar ve İstatistik Eğitimi ÜNİTE:2. Veri Derleme, Düzenleme ve Grafiksel Çözümleme ÜNİTE:3

Yrd. Doç. Dr. A. Burak İNNER

OLASILIK ve KURAMSAL DAĞILIMLAR

Toplum Tabanlı Bir Çalışmada Çoklu Uygunluk Analizi ve Kümeleme Analizi ile Sağlık Kurumu Seçimi

Makine Öğrenmesi 11. hafta

SUDA PH TAYİNİ YETERLİLİK TESTİ RAPORU TÜBİTAK ULUSAL METROLOJİ ENSTİTÜSÜ REFERANS MALZEMELERI LABORATUVARI. Rapor No: KAR-G3RM

Büyük Veri ve Endüstri Mühendisliği

OPTİMİZASYON TEKNİKLERİ. Kısıtsız Optimizasyon

YZM 2108 Yazılım Mimarisi ve Tasarımı

TEMEL BİLGİSAYAR BİLİMLERİ. Programcılık, problem çözme ve algoritma oluşturma

İçindekiler. Ön Söz... xiii

Zeki Optimizasyon Teknikleri

İÇİNDEKİLER 1. GİRİŞ...

YZM 3217 YAPAY ZEKA DERS#10: KÜMELEME

Veri Madenciliği. Yrd. Doç. Dr. Mustafa Gökçe Baydoğan. blog.mustafabaydogan.

DOKUZ EYLÜL ÜNİVERSİTESİ MÜHENDİSLİK FAKÜLTESİ DEKANLIĞI DERS/MODÜL/BLOK TANITIM FORMU. Dersin Kodu: IND 3907

BALDA 13 C İZOTOP TAYİNİ YETERLİLİK TESTİ RAPORU TÜBİTAK ULUSAL METROLOJİ ENSTİTÜSÜ REFERANS MALZEMELER LABORATUVARI. Rapor No: KAR-G3RM

İş Zekası. Hafta 6 Kestirimci Modelleme Teknikleri. Yrd. Doç. Dr. H. İbrahim CEBECİ

Sinirsel Benzetim ve NSL. İlker Kalaycı 06, 2008

Dersi Alan Dersi Veren Dersin Optik Kod Dersin Adı Saat Öğr. Grubu Öğretim Üyesi Yeri

istatistik El 10 1_ ve 2_ sorular a Ş3 gldakl bilgilere göre Al 4 Bl 6 cı 7 Dl 8 Al 5 B) 12 CL 27 D) 28 E) 35 2Q 10 BS 4200-A

YÖNEYLEM ARAŞTIRMASI - III

İbrahim Küçükkoç Arş. Gör.

Oluşturulan evren listesinden örnekleme birimlerinin seçkisiz olarak çekilmesidir

CETP KOMPOZİTLERİN DELİNMELERİNDEKİ İTME KUVVETİNİN ANFIS İLE MODELLENMESİ MURAT KOYUNBAKAN ALİ ÜNÜVAR OKAN DEMİR

Einstein bilimi, her türlü düzenden yoksun duyu verileri ile düzenli düşünceler arasında uygunluk sağlama çabası olarak tanımlar.

Bilgisayarla Görme (EE 430) Ders Detayları

Kimya Mühendisliğinde Uygulamalı Matematik

Kümeleme Tekniklerinin Temel Bilimlerde Kullanımı

EĞİTİM ÖĞRETİM MÜNEVVER ÖZTÜRK ORTAOKULU II. DÖNEM BİLİŞİM TEKNOLOJİLERİ VE YAZILIM DERSİ DERS NOTLARI

BULANIK MANTIK VE SİSTEMLERİ BAHAR DÖNEMİ ÖDEV 1. Müslüm ÖZTÜRK Bilişim Teknolojileri Mühendisliği ABD Doktora Programı

Kentsel Hava Kirliliği Riski için Enverziyon Tahmini

İNSANSIZ HAVA ARACI PERVANELERİNİN TASARIM, ANALİZ VE TEST YETENEKLERİNİN GELİŞTİRİLMESİ

Makine Öğrenmesi 3. hafta

Statistical Package for the Social Sciences

Projenin Adı: İstatistik yardımıyla YGS ye hazırlık için soru çözme planlaması

BİYOİSTATİSTİK DERSLERİ AMAÇ VE HEDEFLERİ

LOJİSTİK REGRESYON ANALİZİ

Süreç Modelleme, Dinamiği ve Kontrolü (CEAC 407) Ders Detayları

ÖZGEÇMİŞ. Derece Alan Üniversite Yıl

KARAR TEORİSİ. Özlem AYDIN. Trakya Üniversitesi Bilgisayar Mühendisliği Bölümü

İstatistik ve Olasılık

Bilgisayar Mühendisliğinin Temelleri (COMPE 100) Ders Detayları

SÜREKLİ DOĞAL GERİLİM VERİLERİNİN YAPAY SİNİR AĞLARI İLE DEĞERLENDİRİLMESİ, DEPREM ve YAĞIŞLARLA İLİŞKİSİ

İş Analitiği'ne Netezza ile Yüksek Performans Katın

YANLILIK. Yanlılık örneklem istatistiği değerlerinin evren parametre değerinden herhangi bir sistematik sapması olarak tanımlanır.

Örüntü Tanıma (COMPE 467) Ders Detayları

Yrd. Doç. Dr. A. Burak İNNER

Bilgisayar Mühendisliği. Bilgisayar Mühendisliğine Giriş 1

Transkript:

1 KALİTE İYİLEŞTİRMEDE VERİ KÜMELEME: DÖKÜM ENDÜSTRİSİNDE BİR UYGULAMA Araş. Gör. Başak AKTEKE- ÖZTÜRK Bilimsel Hesaplama Anabilim Dalı, Uygulamalı Matematik Entitüsü, ODTÜ, bozturk@metu.edu.tr Prof. Dr. Gerhard-Wilhelm WEBER Uygulamalı Matematik Entitüsü, ODTÜ, gweber@metu.edu.tr Prof. Dr. Sinan KAYALIGİL Endüstri Mühendisliği, ODTÜ, skayali@metu.edu.tr Anahtar Sözcükler: Kalite İyileştirme, Veri Madenciliği, Kümeleme, k-ortalamalar, Medoidler Etrafında Bölümleme (MEB), Pürüzlü (nonsmooth) Optimizasyon 1. GİRİŞ Geleneksel olarak üretim sürecinde ürünlerde oluşan hataların ve sürecin kararlılığını bozan nedenlerin bulunması ve giderilmesi için istatistiksel proses kontrolü (İPK) yöntemleri kullanılmaktadır. Ancak günümüz üretim sistemleri klasik kontrol şemalarıyla açıklanamayacak kadar karmaşıklaşmıştır. Üretim sürecinde hatalı ürünlerin oluşma nedenleri, bir üründe hatanın oluşup oluşmayacağının tahmin edilebilmesi ve hata oluşumunu en çok etkileyen üretim süreci parametrelerinin belirlenmesi veri analiziyle kolaylaşır. Bu nedenle özellikle birçok değişken tipinin büyük hacimli olarak saklandığı karmaşık verilerin analizinde başarılı bir şekilde uygulanan veri madenciliği (VM) teknikleri kullanılarak kalite verisi etkin bir şekilde izlenebilir, hatta toplanan veride gizli olan bilgi ortaya çıkartılabilir ve süreçte meydana gelecek hatalar hızlı bir şekilde saptanabilir. VM öğrenmeye dayalı bir yöntemle mevcut veride gizli olan örüntülerin keşfedilerek bilgi elde edilmesini amaçlamaktadır. Endüstriyel süreçler genellikle büyük hacimli, sürekli veya kesikli veriyi saklayan veri toplama sistemleri ile desteklenmektedirler. Karar (sınıflandırma ve regresyon) ağaçları (KA), yapay sinir ağları (YSA), destek vektör makinaları (DVM), k-ortalamalar gibi VM araçları veriden bilgi çıkarımı sağlamakta etkin ve hızlı çözümler sunabilmektedir. Temel VM fonksiyonları aşağıdaki gibi özetlenebilir [3,4]: Sınıflandırma (classification): verinin önceden tanımlanmış gruplara atanma sürecidir. (Örneğin, KA, DVM) Kümeleme (clustering): bölümlere ayırma işidir. Kümelemenin amacı, birbirlerinden farklı gruplaşmaları ve bir topluluk içinde öznitelikleriyle birbirlerine benzer üyeleri bulmaktır. Sınıflandırmanın tersine kümelemede gruplar veri incelenerek tanımlanır. (Örneğin, k-ortalamalar, MEB, Kendi Düzenleyen Haritalar (KDH)) Regresyon: bir veri elemanının gerçel değerli bir tahmin değişkeni ile eşleştirilmesidir. Doğrusal, doğrusal-olmayan ve logistik regresyon modelleri vardır. Tahmin (prediction): var olmayan veya kayıp veri değerlerinin tahmini için kullanılır. Bir sınıflandırma türü olarak da düşünülebilir. (Örneğin, KA, YSA, DVM) Genelleştirme veya tanımlama (generalization veya characterization) olarak da isimlendirilen özetleme (summarization): veriye ilişkin bilgiyi gösterir. Örneğin, ortalama, standart sapma, ortanca gibi. Zaman serisi analizi: veride gizli bir özelliğin zaman içindeki değerini inceler. Birliktelik keşfetme (association): veri içindeki ilişkileri ortaya koymak için kullanılır. Sıra keşfetme (sequence discovery): veride var olan ardışık örüntüleri belirlemeyi amaçlar. Bu örüntüler etkinliklerin zaman sırasına dayandırılır. KA, DVM gibi sınıflandırma ve tahmin amaçlı kullanılan VM yöntemleri, ürettikleri sonuçların kolay anlaşılması ve hata tahmininde kullanılabilecek güçlü modeller oluşturabilmeleri nedeniyle kalite iyileştirmede daha fazla tercih edilmektedirler. Çalışmalar ve deneyimlerimiz bu yöntemlerin özellikle gerçek veriler için kesin sonuçlar vermediği ya da tahmin gücü yüksek modeller üretemediği durumlarda, veride kümeleme yapılarak verideki homojen grupların belirlenmesinden sonra

incelenmesinin yararlı olduğunu göstermektedir. Bu çalışmada önce döküm fabrikasından derlenen veriler yaygın olarak kullanılan k-ortalamalar ve MEB kümeleme yöntemleri ile gruplandırılmıştır. Daha sonra, bu sonuçlar yeni bir kümeleme yöntemi olan pürüzlü optimizasyon kullanılarak değiştirilmiş k-ortalamalar yöntemi ile elde edilenlerle karşılaştırılmıştır.. DÖKÜM VERİSİ Veri derlenen fabrikadaki döküm süreci Şekil 1 de gösterilmektedir. Tipik olarak ergitme ve döküm aşamalarındaki parametre ayarlarına bağlı olarak değişik hata türleri oluşmaktadır. Firmanın kalite amaçlarından bir tanesi önemli süreç parametrelerini belirleyip bunları optimize ederek hatalı ürün oranını azaltmaktır. Firma bunu deney tasarımı verilerini analiz ederek başarmaktadır [1]. Şekil 1. Üretim Hattı Bu çalışmada yılının ilk beş aylık üretim döneminde firmanın maça, kalıplama ve ergitme ardışık süreçlerinden gözlemleme yoluyla elde edilen ve hata oranı yüksek olan bir ürüne ilişkin veriler kullanılmıştır. Firma belli değişkenlerin değerlerini herhangi bir veri analizinden geçirmeden saatlik, günlük ve aylık olarak bir parti malın üretimi boyunca, örnekleme yoluyla kaydetmektedir. Bu nedenle girdi parametrelerine ilişkin bu değerler verili bir partideki her ürün için sabit ve ürünün ait olduğu partinin ortalamasına eşittir. Bazı parametre değerleri ise hiç kaydedilmediğinden veri kümesinde eksik gözlem olarak işlem görmektedir. Ürünlerde temel olarak 1 değişik hata tipi gözlenmiştir. Bu hata tiplerinden en önemli olan ikisi için geliştirilen KA ve regresyon analizleri [] de yer almaktadır..1. Veri Önişleme Verideki gözlem değerlerini (satırları) kümeleme sürecinde, süreç parametreleri (sütunlar) kullanılarak önce satırlara Temel Bileşen Analizi (TBA) yaklaşımı uygulanmıştır (Şekil ). TBA veri kümesindeki varyasyonun çoğunu içeren değişkenleri -ki verimizde bunlar, yukarıda da belirtildiği gibi süreç parametrelerine karşılık gelmektedir- aramakta ve bu değişkenleri veri kümesinin temel bileşenleri olarak kullanıp, verinin boyutunu indirgemektedir. Bu çalışmada TBA den elde edilen bileşenlerden veriyi en iyi temsil edenleri seçmek amacıyla Friedman endeksi kullanılmıştır [7]. Bu işlem sonucunda bulduğumuz bileşenler ile Sugar yöntemi [7] uygulandığındaki sonuçlar Şekil 3 te yeralmaktadır. Grafikteki köşelerin sayısı küme sayısını göstermektedir. Bu durumda incelenen veri kümesinde iki veya dört küme bulunduğu söylenebilir.

3 Şekil. Temel Bileşenler Analizi (TBA) Şekil 3. Sugar yöntemi Şekil den gözlem değerlerinin çoklu doğrusal bağlantılı olduğu görülmektedir. TBA ile verinin satır bazında oldukça ilişkili olduğunu tespit ettiğimizden, eksik değerlerin yerine sütun (süreç parametrelerinin) ortalamalarının konulabileceği düşünülmüştür. Bu tarz ilişkili veri kümelerinde kümeleme yapısını daha iyi anlamak için Öklit metriğinden daha farklı bir metriğe ihtiyaç olacağı söylenebilir. Çünkü Öklid metriği birbirinden bağımsız öznitelikler görülen durumlarda daha iyi kümeleme sonuçları vermektedir. 3. K-ORTALAMALAR ve MEDOİDLER ETRAFINDA BÖLÜMLEME (MEB) K-ortalamalar yöntemi toplam n noktayı (veri satırını), k kümeye bölmek için her noktanın, başlangıçta rastgele seçilen küme merkezlerine olan Öklit uzaklıklarını yinelemeli şekilde hesaplar. İlk adımda bu şekilde yaptığı kümelemeyi, sonraki adımlarda her kümedeki noktaların ortalamasını alarak güncellediği küme merkezleriyle tekrarlamaktadır. Her yinelemede noktaların hangi küme merkezine daha yakın olduğunu bulmak için bu uzaklıkların karesini en aza indirerek, optimum küme merkezlerini bulmaya çalışır. MEB ise veri kümesinde k medoid bularak, bu k medoide olan uzaklıklarına göre toplamdaki n noktayı kümelemektedir. Burada medoid, bir kümedeki tüm noktalara olan ortalama uzaklığı (benzemezlik ölçüsü) en küçük olan küme elemanıdır. Veriyi kümelemek için her iki yöntemi de kullanmamızın nedeni, k-ortalamalar yönteminin çok yaygın olarak kullanılmasına rağmen, MEB yönteminin düzensizlik ve uç değerler (sapan gözlemler) içeren verilerde daha sağlam (robust) olmasıdır. MEB yönteminin daha sağlam olmasının nedeni ise, Öklit uzaklıkları kareleri toplamını değil, benzemezlik değerlerinin toplamını en aza indirmesidir. Medoidler düzensizliklerin ve uç değerlerin varlığından küme merkezlerine göre daha az etkilenmektedirler. 3.1. K-ortalamalar SPSS in veri madenciliği modülü olan Clementine1.1 [] paket programında yeralan k-ortalamalar yöntemi kullanarak elde edilen kümeler Tablo 1 de ve kümeler arası benzerlik/benzemezlik durumları Tablo de yeralmaktadır. Burada 4 gruplu (k=4) kümelemede benzemezliğin, ve 3 kümeli ayrıştırmalara göre, çoğunlukla birbirine daha uzak gruplamalar verdiği görülmektedir. Tablo 1. k=, k= 3 ve k=4 için K-ortalamalar sonuçları Nesne 1 3 4 5 7 8 9 1 11 1 13 14 15 1 17 18 19 1 3 4 5 k: 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 k:3 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 3 1 1 1 1 3 1 k:4 1 1 1 1 1 1 1 4 1 1 1 4 1 1 1 1 1 1 3 1 1 1 1 3 1 Nesne 7 8 9 3 31 3 33 34 35 3 37 38 39 4 41 4 43 44 45 4 47 48 49 5 k: 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 k:3 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 K:4 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 Nesne 51 5 53 54 55 5 57 58 59 1 3 4 5 7 8 9 7 71 7 73 74 75

4 k: 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 k:3 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 k:4 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 4 4 4 4 4 Nesne 7 77 78 79 8 81 8 83 84 85 8 87 88 89 9 91 9 k: 1 1 k:3 1 1 k:4 4 4 4 4 4 4 4 4 4 1 1 Tablo. k=, k=3 ve k=4 için K-ortalamalar ile bulunan kümelerin birbirlerine uzaklıkları küme küme_1 (7 Nesne) küme_ ( Nesne) 1.11379 küme_1 (8 Nesne) küme_ ( Nesne) 1.11157 3 küme küme_1 (8 Nesne) küme_3 ( Nesne) 1.593595 küme_ ( Nesne) küme_3 ( Nesne) 1.9877 küme_1 (8 Nesne) küme_ ( Nesne) 1.44533 küme_1 (8 Nesne) küme_3 ( Nesne) 1.593595 küme_1 (8 Nesne) küme_4 (1 Nesne) 1.14353 4 küme küme_ ( Nesne) küme_3 ( Nesne).19799 küme_ ( Nesne) küme_4 (1 Nesne) 1.55844 küme_3 ( Nesne) küme_4 (1 Nesne) 1.959 3.. Medoidler Etrafında Bölümleme Çalışmamızda MEB algoritması MATLAB 7. [8] ile programlanmıştır. Geliştirilen program veri kümemize uygulandığında elde edilen sonuçlar Tablo 3 de yeralmaktadır. Tablo 3. k=, k= 3 ve k=4 için MEB sonuçları Nesne 1 3 4 5 7 8 9 1 11 1 13 14 15 1 17 18 19 1 3 4 5 k:4 1 3 3 1 3 4 3 3 3 3 3 3 3 k:3 1 3 3 1 3 1 3 3 3 3 3 3 3 k: 1 1 1 1 1 Nesne 7 8 9 3 31 3 33 34 35 3 37 38 39 4 41 4 43 44 45 4 47 48 49 5 k:4 3 3 3 3 3 3 3 1 3 3 k:3 3 3 3 3 3 3 3 1 3 3 k: 1 1 Nesne 51 5 53 54 55 5 57 58 59 1 3 4 5 7 8 9 7 71 7 73 74 75 k:4 1 1 1 3 3 1 3 3 3 1 1 1 1 1 1 1 4 4 4 k:3 1 1 1 3 3 1 3 3 3 1 1 1 1 1 1 1 1 1 1 k: 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 Nesne 7 77 78 79 8 81 8 83 84 85 8 87 88 89 9 91 9 k:4 4 4 1 1 4 1 4 4 1 3 1 4 1 4 4 4 k:3 1 1 1 1 1 1 1 1 1 3 1 1 1 1 1 1 k: 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 Burada yine 4 gruplu (k=4) kümelemede benzemezliğin, ve 3 kümeli ayrıştırmalara göre çoğunlukla birbirine daha uzak gruplamalar verdiği görülmektedir. Bu durum, örnek çalışmada, 4 gruplu kümelemenin tercih edilmesine yol açmaktadır. Tablo 4. k=, k=3 ve k=4 için MEB ile bulunan kümelerin birbirlerine olan uzaklıkları küme küme_1 (4 Nesne) küme_ (5 Nesne) 1.838 3 küme küme_1 (33 Nesne) küme_ (34 Nesne) küme_1 (33 Nesne) küme_3 (5 Nesne) küme_ (34 Nesne) küme_3 (5 Nesne) 1.838 1.79 1.14 4 küme küme_1 ( Nesne) küme_ (34 Nesne) küme_1 ( Nesne) küme_3 (5 Nesne) küme_1 ( Nesne) küme_4 (13 Nesne) küme_ (34 Nesne) küme_3 (5 Nesne) küme_ (34 Nesne) küme_4 (13 Nesne) küme_3 (5 Nesne) küme_4 (13 Nesne) 1.838 1.79 1.1374 1.14 1.533 1.553

5 3.3. Kümeleme Sonuçları k-ortalamalar ve MEB yöntemleri k= için çalıştırıldığında elde edilen sonuçlar yapay olabileceğinden ve ayrıca Bölüm.1 de sözü edilen MEB ve Sugar yöntemlerinin sonuçları kullanılarak veride dört küme olduğununa karar verilmiştir. MEB algoritmasının k=4 için oluşturduğu kümeler, içerdikleri nesne sayılarının dengeli olması ve kümelerin birbirine uzaklıklarının orantılı bulunması nedeniyle (bkz. Tablo ve Tablo 4) oldukça doğal görünmektedir. k=4 için çalıştırdığımız MEB ve k-ortalamalar ile bulduğumuz kümelerin çapraz tablosu Tablo 5 te verilmiştir. Tablo 5. K-ortalamalar ve MEB için çapraz tablo PAM 1.. 3. 4. Total k-means 1.. 3. 4. 1 1 5 13 8 1 Total 34 5 13 9 Tablo 5 te MEB yönteminin bulduğu ikinci kümenin, k-ortalamalardaki ikinci, üçüncü ve dördüncü kümeyi kapsadığını, k-ortalamaların hepsini bir gruba topladığı 8 nesneyi (birinci küme) daha homojen kümelere ayırdığını görüyoruz. Tablo ve Tablo 4 incelendiğinde MEB yönteminin bulduğu kümelerin birbirlerine uzaklıkları, k-ortalamalar ile bulunanan kümelerin birbirlerine uzaklıkları ile karşılaştırıldığında, MEB yönteminin veri kümemizi daha iyi grupladığını söyleyebiliriz. Sonuç olarak, MEB ile yapılan kümeleme işleminin k-ortalamalar ile yapılanın ince ayarı olduğu şeklinde de yorum yapılabilir. 4. PÜRÜZLÜ OPTİMİZASYON ile KÜMELEME K-ortalamalar yöntemi daha yakından incelenirse, bir veri kümesindeki anlamlı küme sayısını bilmediğimiz durumlarda kümeleme problemini çözmede bu yöntemin yeterli olamayacağı söylenebilir. Bu çalışmada, Bölüm.1 de yaptığımız önişleme sayesinde veri kümemiz için anlamlı olan küme sayısını belirlediğimizden dolayı k-ortalamalar yöntemi kullanılabilmiştir. K-ortalamalar yönteminin bu eksikliğini gidermek amacı ile sayısal bir optimizasyon yaklaşımı olan pürüzlü optimizasyon yönteminin kullanılabileceği düşünülmektedir. Bu yolla elde edilen değiştirilmiş k-ortalamalar yöntemi kümeleri adım adım hesaplama özelliği sayesinde bitirme koşulu sağlanıncaya kadar bir veri kümesinin kapsadığı kadar kümeyi belli bir toleransa göre hesaplamaya izin vermektedir [5]. Bu yöntemin yapay test verileri üzerinde k-ortalamalar yönteminden daha iyi sonuç verdiği [8] de gösterilmiştir. Çalışmamız bu yeni yöntemin elimizdeki veri kümesinde de k-ortalamalardan daha iyi sonuç verdiğini göstermektedir (bkz. Tablo ve Tablo 7). Tablo. k=, k= 3 ve k=4 için Pürüzlü optimizasyon ile değiştirilmiş k-ortalamalar sonuçları k= k=3 k=4 küme_1: 1 nesne küme_1: 1 nesne küme_1: 45 nesne küme_: 4 nesne küme_: 31 nesne küme_: 31 nesne küme_3: nesne küme_4: 1 nesne küme_3: nesne Tablo 7. k-ortalamalar ve Pürüzlü optimizasyon ile değiştirilmiş k-ortalamalar için çapraz tablo Pürüzlü Optimizasyon ile Değiştirilmiş k-ortalamalar 1.. 3. 4. Total k-ortalamalar 1.. 3. 4. 45 1 1 8 1 Total 45 4 1 9

Çapraz tablo, 4 küme ile k-ortalamalar yaklaşımının verdiği küme üyeliklerinin, pürüzlü optmizasyon eşliğinde değiştirilmiş k-ortalamalar yaklaşımıyla daha farklı bir dağılım verdiğini göstermektedir. K- ortalamaların iki grubu 1 dan az üye ile kurulmuşken, yeni yöntemde tek bir küme dışındakilerin hepsi nin üzerinde üyeye sahiptir. 5. SONUÇ ve GELECEK ÇALIŞMA ALANI Bu çalışmada, döküm süreci çıktılarını temsil eden 9 nesnenin her birine karşılık gelen, 35 süreç değişkeninden oluşan ve eksik değerleri bulunan kalite verisini kümelemek için 3 farklı yaklaşım denenmiştir. Yeni bir kümeleme yöntemi olan pürüzlü optimizasyon kullanılarak değiştirilmiş k- ortalamalar yöntemi ile k-ortalamalar ve MEB yöntemleri karşılaştırılmıştır. Pürüzlü optimizasyon ile değiştirilmiş k-ortalamalar yöntemi geleneksel k-ortalamalar yaklaşımından daha iyi kümeleme yapabilmesine rağmen, veri kümemiz için, benzemezlik ve üyelik dağılımı ölçülerine göre en iyi kümelemeyi MEB yönteminin verdiği görülmektedir. Veride saklı bulunan grupları kümeleme yaklaşımları ile incelemenin önemli sonuçlarından bir tanesi de, veri kümesindeki uç değerlerin ve azınlıkta olan verilerin saptanabilmesidir. Kalite verisi açısından baktığımızda, kümeleme çalışmalarının kural kümeleri ve tahmin modelleriyle oluşturan diğer VM yöntemleri kullanımı öncesinde veri üzerinde önişleme amacıyla kullanımı önerilir. Böylece hatalar ile süreç değişkenleri arasındaki ilişkileri daha kesin bir şekilde modellemenin mümkün olabileceği düşünülmektedir. Teşekkür: Bu çalışma TÜBİTAK 15M138 kodlu proje tarafından desteklenmiştir. Doç. Dr. İnci Batmaz, Prof. Dr. Gülser Köksal ve tüm proje üyelerine katkılarından dolayı teşekkür ederiz. KAYNAKÇA [1] Bagirov, A.M., Rubinov, A.M., Soukhoroukova, N.V., and Yearwood, J., Unsupervised and supervised data classification via nonsmooth and global optimization, TOP 11, 1 (3), 1-93. [] Bakır, B., Batmaz, İ., Güntürkün, F.A., İpekçi, İ.A., Köksal, G., and Özdemirel, N.E., Defect Cause Modeling with Decision Tree and Regression Analysis, Proceedings of XVII. International Conference on Computer and Information Science and Engineering, Cairo, Egypt, December 8-1,, Volume 17, pp. -9, ISBN 975-83-7-8. [3] Cabena P., Discovering data mining: from concept to implementation. Upper Saddle River, N.J.: Prentice Hall, 1998. [4] Dunham M.H., Data mining introductory and advanced topics. Upper Saddle River, N.J.: Prentice Hall/Pearson Education, 3. [5] Öztürk-Akteke, B., Weber, G-W., A Survey and Results on Semidefinite and Nonsmooth Optimization for Minimum Sum of Squared Distances Problem, preprint no. 1, Institute of Applied Mathematics, METU,. [] SPSS Clementine, http://www.spss.com/clementine/. [7] Sugar, C.A. and James, G. M., Finding the Number of Clusters in a Dataset: An Information- Theoretic Approach, Journal of the American Statistical Association, 98 (43), 3, 75-73. [8] The Mathworks-MATLAB-The Language of Computing, http://www.mathworks.com/products/matlab/