T.C. YILDIZ TEKNİK ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ

Ebat: px
Şu sayfadan göstermeyi başlat:

Download "T.C. YILDIZ TEKNİK ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ"

Transkript

1

2 T.C. YILDIZ TEKNİK ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ BULANIK KÜMELEME ANALİZİ VE GENÇLERDE SİGARA İÇME EĞİLİMİ ÜZERİNE BİR UYGULAMA HAZEL KAVILI YÜKSEK LİSANS TEZİ İSTATİSTİK BÖLÜMÜ ANABİLİM DALI İSTATİSTİK PROGRAMI DANIŞMAN DOÇ. DR. GÜLHAYAT GÖLBAŞI ŞİMŞEK İSTANBUL, 2016

3 T.C. YILDIZ TEKNİK ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ BULANIK KÜMELEME ANALİZİ VE GENÇLERDE SİGARA İÇME EĞİLİMİ ÜZERİNE BİR UYGULAMA Hazel KAVILI tarafından hazırlanan tez çalışması tarihinde aşağıdaki jüri tarafından Yıldız Teknik Üniversitesi Fen Bilimleri Enstitüsü İstatistik Bölümü Anabilim Dalı nda YÜKSEK LİSANS TEZİ olarak kabul edilmiştir. Tez Danışmanı Doç. Dr. Gülhayat GÖLBAŞI ŞİMŞEK Yıldız Teknik Üniversitesi Jüri Üyeleri Doç. Dr. Gülhayat GÖLBAŞI ŞİMŞEK Yıldız Teknik Üniversitesi Doç.Dr. Fatma NOYAN TEKELİ Yıldız Teknik Üniversitesi Yrd.Doç.Dr. Seher ARIKAN TEZERGİL Marmara Üniversitesi

4 ÖNSÖZ Bu çalışmada birey ya da nesneleri sahip oldukları özelliklere göre ayırmaya yarayan, günümüzde sıklıkla kullanılan kümeleme yöntemleri kısaca anlatılmış, esas olarak Bulanık Kümeleme üzerinde durulmuş ve Bulanık Kümeleme Yöntemi ile ilgili R yardımıyla bir uygulama yapılmıştır. Çalışmamın tamamlanmasında bilgilerini esirgemeyen değerli hocam Doç. Dr. Gülhayat Gölbaşı Şimşek e, programlama konusunda çalışmalarıma ivme kazandıran Seyithan Teymur a, moralimi hep yüksek tutan Cansu Kavılı ya ve her zaman yanımda olan aileme sonsuz teşekkürlerimi sunarım. Nisan, 2016 Hazel KAVILI

5 İÇİNDEKİLER Sayfa SİMGE LİSTESİ... vi KISALTMA LİSTESİ... vii ŞEKİL LİSTESİ... viii ÇİZELGE LİSTESİ... ix ÖZET... x ABSTRACT... xi BÖLÜM 1 GİRİŞ Literatür Özeti Tezin Amacı Hipotez... 2 BÖLÜM 2 VERİ MADENCİLİĞİ ve KÜMELEME YÖNTEMLERİ Veri Madenciliğinde Kümelemenin Yeri Kümeleme Analizi Kümeleme Analizi Adımları... 6 BÖLÜM 3 KLASİK KÜMELEME ANALİZİ Hiyerarşik Kümeleme Analizi Hiyerarşik Olmayan Kümeleme Analizi... 8 BÖLÜM 4 KÜMELEME İŞLEMLERİNDE KULLANILAN BAZI UZAKLIK ÖLÇÜLERİ Öklid Uzaklığı Gower Uzaklığı iv

6 4.3 Canberra Uzaklığı Yüzde Uyuşmazlık Methodu (Percent Disagreement Method) BÖLÜM 5 BULANIK MANTIK ve BULANIK KÜMELEME Bulanık Mantık Bulanık Kümeleme Temel Kavramlar Bulanık Kümeleme Algoritması BÖLÜM 6 BULANIK KÜMLEME UYGULAMASI Kullanılan Programlar, Paketler ve Özellikleri Cluster Paketine Ait Fonksiyonlar ve Kullandıkları Algoritmalar Daisy Fanny Silüet Clusplot Uygulama Çıktıları ve Yorumlanması Tanımlayıcı İstatistikler Bulanık Kümeleme Çıktıları Öklid Uzaklığı ile Hesaplanan Bulanık Kümeleme Sonuçları Gower Uzaklığı ile Hesaplanan Bulanık Kümeleme Sonuçları Canberra Uzaklığı ile Hesaplanan Bulanık Kümeleme Sonuçları Yüzde Uyuşmazlık Methodu ile Hesaplanan Bulanık Kümeleme Sonuçları BÖLÜM 7 SONUÇ KAYNAKLAR EK- A KULLANILAN KODLAR EK- B ÖKLİD UZAKLIĞI İLE ELDE EDİLEN ÜYELİK DERECELERİ ÖZGEÇMİŞ v

7 SİMGE LİSTESİ a(i) b(i) d ij CAD D(x,y) k m N d p s(i) S ~ s ~ S ijk q W k μ A(x) δ ijk Aynı küme içindeki diğer veri noktalarına ortalama uzaklık Diğer kümelere en küçük ortalama uzaklık i ile j arasındaki Canberra uzaklığı x ve y arasındaki uzaklık Küme sayısı Küme sayısı Toplam değişken sayısı Uzayda n boyutlu vektör Silüet değeri Çapraz çarpım matrisi Çapraz çarpım matrisinin köşegen vektörü k. değişken üzerinden hesaplanmış i ve j arasındaki benzerlik Uzayda n boyutlu vektör Değişkenlerin ağırlıkları X değişkeninin A kümesine üyelik derecesi Fonksiyonda 0 ve 1 değerlerini alan değişken vi

8 KISALTMA LİSTESİ ÇBÖ FCM NA Çok Boyutlu Ölçekleme Fuzzy C- Means (Bulanık C- ortalamalar) Uygulanamaz (Not Applicable) vii

9 ŞEKİL LİSTESİ Şekil 5.1 Çeşitli biçimlerdeki üyelik fonksiyonları [12] Şekil 5.2 Bulanık kümeleme konseptinin örnekle açıklanması [13] Şekil 6.3 Öklid uzaklığı ile yapılan bulanık kümeleme sonucu oluşan silüet grafiği Şekil 6.4 Öklid uzaklığı ile keskin olarak en yakın komşu kümede kümelenme Şekil 6.5 Gower uzaklığı ile yapılan bulanık kümeleme sonucu oluşan silüet grafiği Şekil 6.6 Gower uzaklığı ile keskin olarak en yakın komşu kümede kümelenme Şekil 6.7 Canberra uzaklığı ile yapılan bulanık kümeleme sonucu silüet grafiği Şekil 6.8 Canberra uzaklığı ile keskin olarak en yakın komşu kümede kümelenme Şekil 6.9 Yüzde uyuşmazlık ile en yakın komşu kümede kümelenme...35 viii

10 ÇİZELGE LİSTESİ Çizelge 6.1 Örneklemdeki kişilerin cinsiyete göre frekansları Çizelge 6.2 Örneklemdeki kişilerin bulundukları sınıfa göre frekansları Çizelge 6.3 Örneklemdeki kişilerin sigara deneyimlerine göre cevaplar Çizelge 6.4 Veri noktalarının 1. ve 2. küme için üyelik dereceleri Çizelge 6.5 Veri noktalarının 1. ve 2. küme için üyelik dereceleri Çizelge 6.6 Veri noktalarının 1. ve 2. küme için üyelik dereceleri Çizelge 6.7 Veri noktalarının 1. ve 2. küme için üyelik dereceleri Çizelge 7.1 Farklı uzaklık ölçüleri denendiğinde elde edilen sonuçlar Çizelge 7 2 Karşılaştırmalı üyelik dereceleri Çizelge 7.3 Daha önce sigara içtiniz mi? Çizelge 7.4 Önümüzdeki yıl sigara içmeye devam edecek misiniz? Çizelge 7.5 Tütün ürünlerini solumak ne kadar zararlıdır? Çizelge B.1 1.ve 2.kümeye ait üyelik dereceleri ix

11 ÖZET BULANIK KÜMELEME ANALİZİ ve GENÇLERDE SİGARA İÇME EĞİLİMİ ÜZERİNE BİR UYGULAMA Hazel KAVILI İstatistik Anabilim Dalı Yüksek Lisans Tezi Tez Danışmanı: Doç. Dr. Gülhayat GÖLBAŞI ŞİMŞEK Veri madenciliğinde kümeleme yöntemleri, aynı özellikleri gösteren nesneleri, bireyleri aynı küme içerisinde ve farklı özellik gösteren nesneleri, bireyleri farklı kümeler içerisinde kümeler. Kümeleme yöntemlerini iki şekilde sınıflandırabiliriz: Klasik Kümeleme ve Bulanık Kümeleme. Klasik Kümelemede gözlemler bir kümeye aitken, Bulanık Kümelemede üyelik derecelerine göre, bir gözlem farklı kümelere ait olabilir. Bu çalışmada Bulanık Kümeleme Yöntemi kullanılarak, 2013 yılında Amerika da gençlerin tütün ürünlerine ve kullanımına karşı tutumlarının yer aldığı anket verileri incelenmiştir. 80 sorudan, konuyla ilgili olanlar seçilmiş; R kullanılarak Bulanık Kümeleme Yöntemi uygulanmıştır. Anahtar Kelimeler: Veri Madenciliği, Kümeleme Yöntemleri, Bulanık Kümeleme YILDIZ TEKNİK ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ x

12 ABSTRACT FUZZY CLUSTERING ANALYSIS and AN APPLICATION ON PREVELANCE OF YOUTH TOBACCO USE Hazel KAVILI Department of Statistics MSc. Thesis Adviser: Assoc. Prof. Gülhayat GÖLBAŞI ŞİMŞEK Clustering algorithms are used to group together the objects or people showing similar characteristics within the same cluster and the objects or people demonstrating different characteristics are grouped into clusters in data mining. Clustering algorithms can be classified into two categories: Classic Clustering and Fuzzy Clustering. In Classic clustering each observation belongs to a single cluster. However, in Fuzzy Clustering, observations can belong to more than one cluster based on their membership levels. In this research, National Youth Tobacco Survey (USA, 2013), which holds 80 questions, is examined. Our experiments are done by using Fuzzy Clustering Algorithm and is calculated using R. Keywords: Data Mining, Clustering Methods, Fuzzy Clustering, Fuzzy C- Means xi YILDIZ TECHNICAL UNIVERSITY GRADUATE SCHOOL OF NATURAL AND APPLIED SCIENCES

13 BÖLÜM 1 GİRİŞ 1.1 Literatür Özeti Doç. Dr. Şeref Kalaycı, çok değişkenli analiz tekniklerinden biri olan kümeleme analizinin öncelikli amacının, birey ya da nesneleri temel özelliklerini dikkate alarak gruplama olduğunu SPSS Uygulamalı Çok Değişkenli İstatistik Teknikleri kitabında belirtmiştir. Diğer bir deyişle, kümeleme analizinin gruplanmamış verileri benzerliklerine göre gruplandırarak araştırmacıya özetleyeci bilgiler sunulduğunu söylemiştir. Bulanık Mantığa Giriş kitabının yazarları Prf. Yavuz Aksoy, Yrd. Dç. Dr. Mehmet Özkan ve Yrd. Doç. Dr. Salih Karanfil, ilk kez 1961 yılında Lotfali Askar Zadeh tarafından ortaya konulan Bulanık Mantık konusunun, kısa süre içerisinde konuya ilginin de hızla artmasıyla birçok bilim insanı tarafından kullanılmaya başlandığını, teknolojide yaşanan gelişmelerle birlikte yaygınlaşmaya devam ettiğini anlatmıştır. Prof. Dr. İsmail Hakkı Armutlulu nun Belirsizlik ve Fazi Aritmetiği kitabında genişçe yer alan, Bulanık Mantığın temelinin kümelemedeki küme ve alt kümelere dayanması, çalışmamıza yön vermiştir. Klasik kümelemede varlık o kümenin ya elemanıdır ya da değildir. Bulanık mantıkta ise varlığın üyelik derecesi vardır. Örneğin klasik kümelemede varlık kümenin elemanı ise 1, değilse 0 değerini alır. Ancak bulanık kümelemede varlığın üyelik derecesi (0,1) aralığında herhangi bir değer alabilir. 1

14 1.2 Tezin Amacı Bu çalışmanın amacı Bulanık Kümeleme Yönteminin yapısını ortaya koymak ve günümüzde yaygınlaşan istatistik programlarının kullanımıyla bir uygulama yapıp konunun anlaşılabilirliğini sağlamaktır. 1.3 Hipotez Bu çalışmada gençlerin tütün ürünlerine karşı eğilimlerinin derecesi belirlenmeye çalışılmıştır. Bulanık Kümeleme yöntemi ile kişilerin aynı anda birden çok kümeye, hesaplanan üyelik dereceleri ile ait oldukları gösterilmeye çalışılmıştır. 2

15 BÖLÜM 2 VERİ MADENCİLİĞİ ve KÜMELEME YÖNTEMLERİ 2.1 Veri Madenciliğinde Kümelemenin Yeri Gerçekte erişilebilir ve kullanılabilir durumdaki verilerin boyutları gün geçtikçe artmaktadır. Bunların içinden anlamlı olanlarına ulaşma işlemi ise günümüzün en çok ilgilenilen konusu haline gelmiştir. Veri madenciliği, büyük veri yığınları içerisinden gelecekle ilgili tahminde bulunabilmemizi sağlayabilecek bağıntıların bilgisayar programı kullanarak aranması işlemidir [1]. Bu işlem bilgi keşfi sürecinin bir parçası şeklinde kabul görmektedir ve bazı adımlara sahiptir. Bu adımlar: 1- Veri temizleme (tutarsız verileri çıkarmak) 2- Veri bütünleştirme (very kaynaklarını birleştirebilmek) 3- Veri seçme (belirlenen analizle ilgili verileri belirlemek) 4- Veri dönüşümü (verinin kullanılabilecek hale dönüşümünü gerçekleştirmek) 5- Veri madenciliği (verideki bazı desenleri yakalayabilmek için metotlar uygulamak) 6- Desenleri değerlendirme (bazı ölçümlere göre elde edilmiş bilgiyi temsil eden ilginç desenleri tanımlamak) 7- Bilgi sunumu (elde edilmiş bilginin sunumunu gerçekleştirmek). Kısacası, verilerin içerisindeki desenlerin, ilişkilerin, değişimlerin, düzensizliklerin, kuralların ve istatistiksel olarak önemli olan yapıların yarı otomatik olarak 3

16 keşfedilmesidir [1]. Veri madenciliği başta iş dünyası olmak üzere, birçok farklı alanda kullanılmaktadır. Massachusets Institue of Technology 2001 yılında yayınladığı bildirgede dünyayı değiştirecek 10 teknoloji arasında gösterilmiştir very madenciliğini göstermiştir [2]. Gelecekte daha çok önem kazanacak olan bu teknoloji üzerinde yapılan çalışmalara her geçen gün artıyor. Tıptan uzay bilimlerine kadar birçok farklı sektörde kullanılan veri madenciliğinin kullanım alanlarına her gün yenileri eklendiği düşünülürse, konunun önemi daha iyi anlaşılır [3]. Veri madenciliği sınıflandırma, kümeleme, tahmin, öngörü ve benzer gruplama olarak gibi amaçlarla kullanılmaktadır. Amaçlardan biri olan kümeleme, istatistiksel veri analizi, desen tanıma gibi vb. birçok alanda sık kullanılmaktadır. Verilerin gruplar veya kümeler altında toplanarak, benzer özelliklere sahip nesnelerin bir araya gelmesini sağlayan kümeleme algoritmaları veri madenciliği alanında büyük bir öneme sahiptir [4]. Veri madenciliğinde kullanılan teknikler eldeki veri türüne ve elde edilen sonuçların kullanım amacına göre modellere ayrılabilir. Bu modeller tahmin edici (Predictive) ve tanımlayıcı (Descriptive) modeller olarak ayrabilir. Tanımlayıcı modeller veri setinin içinden ilişkileri çıkarır. Tanımlayıcı modellerde kullanılan veri madenciliği teknikleri ise, kümeleme, özetleme, birliktelik kuralları, sıralı dizilerdir. Tahmin edici modeller ise, sonuçları önceden bilinen durumlardan bir model geliştirir ve bu model ile sonuçları bilinmeyen veri kümelerinden yeni sonuçlar elde etmektedir. Tahmin edici modellerde kullanılan veri madenciliği teknikleri sınıflandırma, eğri uydurma, zaman serileridir. Kümeleme analizi ise veri kümesindeki bilgileri belirli yakınlık ya da uzaklık kriterlerine göre gruplara ayırma işlemidir [3]. 4

17 2.2 Kümeleme Analizi Kümeleme analizi, gruplanmış verileri benzerliklerine göre sınıflandırmada sıklıkla kullanılan çok değişkenli istatistiksel yöntemler arasında yer almaktadır [5]. Kümeleme analizinin öncelikli amacı birey ya da nesnelerin temel özelliklerini dikkate alarak onları gruplamaktır. Diğer bir deyişle, gruplanmamış verileri benzerliklerine gore gruplandırarak araştırmacıya özetleyici bilgiler sunmaktır. Bunun yanı sıra kümeleme analizi gerçek tiplerin belirlenmesi, gruplar için ön tahmin, hipotez testi, veriler yerine kümelerin değerlendirmesi ve aykırı değerlerin bulunmadı gibi farklı amaçlarla da kullanılmaktadır [5]. Kümeleme analizi, araştırmada gözlenen bireylerin veya nesnelerin ölçülen tüm değişkenler üzerindeki değerlerini hesaplayarak ortaya çıkacak kümelere veya gruplara odaklanmaktadır [5]. Bireyler veya nesneler arasındaki benzerlikleri saptamak amacıyla uzaklık ölçüleri, korelasyon ölçüleri veya nitelik verilerinin benzerlik ölçüleri kullanılmaktadır [5]. Kümeleme analizi, önceden belirlenen seçme kriterlerine göre birbirine çok benzeyen birey ya da nesneleri (örneğin; anket cevaplayıcıları, ürünler, hastalar ve/veya diğer bağımsız girdiler) aynı küme içinde sınıflandırır. Analizin sonucunda oluşan kümelerin kendi içindeki türdeşlik (homojenite) ve kümeler arasındaki heterojenlik çok yüksektir. Yani bir kümeyi oluşturan bireyler/nesneler birbirleriyle benzeşirken, diğer kümelerin bireyleriyle/nesneleriyle benzeşmeyecektir [5]. Sonuçta sınıflandırma başarılıysa küme içindeki nesneler, geometric olarak işaretlendiğinde birbirlerine oldukça yakın, farklı kümeler ise birbirlerinden oldukça uzak olacaklardır [5]. Kümeleme analizinde, değişken kavramı çok önemli olmamakla birlikte diğer çok değişkenli tekniklerden oldukça farklıdır. Kümeleme analizinde değişkenler, gösterdikleri özellikler kullanılarak karşılaştırılır. Çünkü kümeleme analizi değişkeni, sadece nesnelerin tanımlanan özelliklerini kapsamaktadır. Kümeleme analizinin ayırma analizinden (diskriminant) farkı, ayırma analizinde gruplar önceden belirlenirken kümeleme analizinde bu belirleme, analiz sonucunda elde edilmektedir [5]. Kümeleme analizi bazı yönlerden de faktör analizine benzemektedir. Kümeleme analizi de faktör analizinde olduğu gibi değişkenleri, bağımlı ve bağımsız değişkenler biçiminde 5

18 ikiye ayırmamaktadır. Faktör analizine benzeyen bir diğer yönü de sınıflandırma özelliği yani araştırma konusu olan birey ya da nesneleri, aralarındaki benzerlik itibariyle bir araya getirmesidir [5]. Ayrıca yakınlık matrisleri ve onların görüntülenmesini sağlayan çok boyutlu ölçekleme ile bu özelliklere sahip olan kümeleme analizi arasındaki temel farklılık, çok boyutlu ölçekleme yakınlıkların uzaysal görüntülenmesini sağlarken, kümeleme analizinin yakınlıkları ağaç biçiminde görüntülenmesini sağlamasıdır. Özellikle hiyerarşik kümeleme yöntemleri değerlendirildiğinde, uygulamada küçük kümelerin birbirlerine uyum sağlayıp anlamlı gruplar oluşturduğu gözlenirken, ağacı aşan geniş kümelerin anlamlı bulunmadığını söylemek mümkündür. Bu nedenle kümeleme analizinde küçük benzemezliklerden bir anlam çıkarılabilmekte ancak geniş benzemezlikleri yorumlamak oldukça güçtür. Ancak kümeleme analizinin tersine, çok boyutlu ölçekleme analizi, geniş benzemezlikleri değerlendirme veya anlam çıkarma özelliğine sahiptir [5]. Kümeleme analizi ilk olarak, Driver ve Kroeber tarafından 1932 yılında antropolojide kullanılmış, 1938 yılında Zubin ve 1939 yılında Robert Tryon tarafından psikoloji alanına takdim edilmiştir yılının başlarında ise psikoloji analında kişilik özellikleri sınıflandırma konusunda Cattell tarafından kullanılmıştır [6]. 2.3 Kümeleme Analizi Adımları Kümeleme analizi, belirli aşamalardan geçerek uygulanabilir [5]: 1- Araştırma sorunu ve araştırma planı belirlenir. Değişkenlerin seçimi ve veri standartlarnı değerlendirme bu aşamada yapılır. 2- Benzerlik ölçümünün seçimi. Değişkenlerin metrik mi kategorik mi olduğuna göre yapılır. a. Metrik veri ise örneğe göre mi yakınlığa göre mi yapılacağına karar verilir. Örneğe göre ise Korelasyon Katsayısı, yakınlığa göre ise Öklid Uzaklığı, City- block uzaklığı, Mahalanobis Uzaklığı kullanılabilir. b. Kategorik veri ise benzerliğin ortaklık ölçümü olarak katsayıları karşılaştırma kullanılabilir. 6

19 3- Varsayımlar belirlenir: Örnek bütünü temsil ediyor mu? Sonuçları etkileyen önemli farklılıklar var mı? 4- Bir kümeleme algoritması seçme: a. Hiyerarşik Yöntemler: Tek bağlantı, Tam bağlantı, Ortalama bağlantı, Ward yöntemi, Merkezi yöntemi b. Hiyerarşik Olmayan Yöntemler: Ardışık başlama, Paralel başlama, Optimizasyon c. Birlikte Kullanma: Hiyerarşik olmayan bir yöntemle belirlenmiş bir kümenin açıklanmasında hiyerarşik yöntem kullanma 5- Küme sayısının belirlenmesi. Yığışım katsayısı ya da Ağaç grafiği incelemesi yapılabilir. 6- Kümeleme analizini düzenleme: Modelin ana hatlarını aşan gözlemler ve çok küçük kümeler varsa bunların çıkarılması. Bu adımla birlikte eğer değişiklik yapılası düşünülürse 4.adıma geri dönülür. 7- Kümelerin yorumlanması 8- Kümelerin geçerliliği ve profili. 7

20 BÖLÜM 3 KLASİK KÜMELEME ANALİZİ Kümeleme yöntemleri; uzaklık veya benzerlik matrislerinden yararlanarak nesnelerin veya değişkenlerin kendi içinde bağdaşık, kendi aralarında ayrışık gruplar yapmaya yarar [7]. En çok kabul gören kümeleme yöntemleri; hiyerarşik ve hiyerarşik olmayan yöntemler biçiminde ikiye ayrılabilir [8]. 3.1 Hiyerarşik Kümeleme Analizi Hiyerarşik kümeleme, kendi içinde yığmacı hiyerarşik (agglomerative hierarchical clustering) ve bölücü hiyerarşik (divisive hierarchical clustering) olmak üzere ikiye ayrılır [5]. En etkin kullanılan yöntemi ise yığmacı hiyerarşik yöntemidir. Öncelikle bütün gözlemleri tek bir kümede toplayan bu yöntem; sonra bu kümeye en aykırı olan gözlemleri tek tek kümeden ayırarak başka kümelerin oluşmasını sağlar. Yöntem, kaç tane küme oluşması gerektiğine kendisi karar verebilir [5]. Yığmacı kümeleme yöntemlerinin okunuşunun ve yorumunun kolay oluşu en üstün tarafıdır. Bu yöntemin en büyük eksisi sabit olmayışı ve güvenilirliğinin az oluşudur [5]. 3.2 Hiyerarşik Olmayan Kümeleme Analizi Hiyerarşik olmayan yöntemlerde küme sayısı hakkında ön bilgi mevcuttur veya analizci önceki deneyimlerine dayanarak, anlamlı olacak şekilde uygun küme sayısını önceden belirleyebilir. Hiyerarşik olmayan yöntemler çok büyük veri setlerine uygulanabilir ve bu yöntemlerden k- ortalamalar yöntemi en çok tercih edilendir. İlk olarak James 8

21 MacQueen (1967) tarafından kullanılmıştır ve küme sayısının belli olduğu durumlarda birbirine en yakın değerlere sahip elemanların aynı kümede toplanması amaçlanmıştır [7], [9]. Hiyerarşik olmayan k- ortalamar yönteminde her iterasyonda yeni bir küme merkezi oluşturulur ve bir veri elemanı yeniden hesaplanan yeni merkeze daha yakın ise o kümeye taşınır. W N sınıflar içi kareler toplamını göstersin. Bu yöntemde veri elemanları, W N i en küçük yapacak şekilde k kümeye bölünür. x 1, x 2,..., x n değişkenlerinin her biri p değişkenli gözlem vektörleri, çok boyutlu X uzayında birer nokta ifade ederken, aynı uzayda a 1n, a 2n,..., a kn her sınıf veri elemanı için küme merkezleri olarak belirlendiğinde, veri elemanları en küçük uzaklığı veren, en yakın kümeye aşağıda formulü verilen fonksiyon ile sınıflara ayrılır [9], [10], [11]. n W N = 1 min x i a in 2 (3.1) n i=1 Hiyerarşik olmayan k- ortalamalar yöntemi, aşağıdaki verilen adımları izleyerek n birim, p değişken ve k küme için kümeleme işlemini yapar [7], [9]. a) Veri setine göre ilk k veri elemanının her birinin p değişken değerleri birer küme ortalama vektörü olarak kabul edilir. Tüm birimlerin küme ortalamalarına olan uzaklıkları hesaplanır [7], [9]. b) Kalan gözlemlerin her biri, ortalaması en yakın olan kümeye atanır ve her atamadan sonra küme ortalamaları genellikle Öklid uzaklığı ile (farklı uzaklık ölçümleri de kullanılabilir) yeniden hesaplanır [7], [9]. c) Tüm veri elemanları, kümeleme yapısı küme içi varyansı minimum ve kümeler arası varyansı maksimum olana değin k kümeye atanmaya devam eder. Tekrarlı uygulamayla uygun kümeleme sağlanıp, veri elemanının saptanan küme ortalama vektörlerine göre farklı adımlarda farklı kümelerde bulunması sağlanır [7], [9]. d) Ayırma işlemi küme içi kovaryans matrisi minimum olana ve yakınsama kriterine eşit veya daha küçük varyans durumu oluşuncaya değin devam eder [7], [9]. 9

22 BÖLÜM 4 KÜMELEME İŞLEMLERİNDE KULLANILAN BAZI UZAKLIK ÖLÇÜLERİ Kümeleme işlemleri, veri setlerini homojen bir şekilde sınıflara ya da kümelere bölme işlemini yaparken benzer gözlemleri ya da nesneleri aynı sınıfa (kümeye), farklı olanları ise farklı sınıfa (kümeye) yerleştirmeye çalışır. Her küme iki önemli özelliği barındırmalıdır: kümeler arası düşük benzerlik derecesi ve küme içi yüksek benzerlik derecesi. Veri setine ve uygulamaya bağlı olarak ilişkileri belirlemek için iki tip ölçü kullanılır: uzaklık ölçüleri ve benzerlik ölçüleri. 4.1 Öklid Uzaklığı Öklid uzaklığı ya da Öklid ölçüsü iki nokta arasındaki doğrusal uzaklıktır. n boyutlu Öklid uzayında P = (p 1, p 2,...,p n ) ve Q = (q 1, q 2,..., q n ) noktaları arasındaki uzaklık: n (p 1 q 1 ) 2 + (p 2 q 2 ) (p n q n ) 2 = (p i q i ) 2 (4.1) ile ölçülür. En sık kullanılan uzaklık ölçülerinden biridir. i=1 4.2 Gower Uzaklığı 1971 yılında J.C. Gower tarafından önerilmiştir. En büyük özelliği hem kategorik hem de sürekli verilerin bulunduğu veri setlerinde uygulanabilir olmasıdır. Bu durumda benzerlik ölçüsü olarak adlandırılır. Yalnızca sürekli veriler kullanıldığı zaman farklı bir formül ile hesaplanmaktadır. 10

23 İki gözlem arasındaki farklılık, her değişkenin katkılarının ağırlıklı ortalamasıdır. n n D ij = 1 s ijk δ ijk w k / δ ijk w k (4.2) k=1 k=1 Burada D ij uzaklığın farklı değişkenlerce katsayısını, S ijk k.değişken üzerinden hesaplanmış i ile j arasındaki benzerliği göstermektedir. δ ijk ise 0 ve 1 değerlerini almaktadır. Eğer k.değişkenin değeri i. ve j. değişkenler için belirli değilse 0, eğer k.değişken için i. ve j.değişkenlerin değerleri belirli ise 1 değerini alır. değişkenlerin ağırlıklarını temsil etmektedir. W k ise 4.3 Canberra Uzaklığı 1966 yılında G.N. Lance ve W.T. Williams tarafından sunulmuştur. Manhattan uzaklık ölçütü ile benzerlik göstermektedir, ki Manhattan uzaklık ölçütü de aslında Minkowski uzaklık ölçütünün özel bir türüdür. Değişkenlerdeki iki gözlem arasındaki mutlak farkın, gözlemlerin mutlak değerlerinin toplamına bölünmesiyle elde edilir. d CAD (i, j ) = n 1 y ik y jk (4.3) y ik + y jk k=0 Formülde i ve j gözlemleri gösterirken, k da kaçıncı gözlem olduklarını gösteren indekstir. 4.4 Yüzde Uyuşmazlık Methodu (Percent Disagreement Method) Veri seti kategorik bir yapıya sahipse kullanıma uygundur. Formülü aşağıdaki gibidir: D(x, y) = x i y i sayısı N d (4.4) N d incelenen toplam değişken sayısını, x i ve y i ise karşılaştırılan gözlemleri temsil etmektedir. Değişkenlerden farklı olanların, tamamına bölünmesiyle hesaplanır. 11

24 BÖLÜM 5 BULANIK MANTIK ve BULANIK KÜMELEME 5.1 Bulanık Mantık Aslen Azerbaycanlı olup Amerika da yaşayan, California Berkeley Üniversitesi nde öğretim üyesi olan Lutfali Askar ZADEH, 1965 yılında ortaya attığı yeni mantık ile bilim ve teknoloji dünyasına yeni bir yön vermiştir. Arka arkaya yayınladığı eserlerle konuyu çok kısa sürede pekiştirmiş olarak sunması, önceki mantıklara göre fazlaca tartışmalara gerek olmaksızın kendisini çabuk kabul ettirmiş ve bilim dünyasını yönlendirmede özellikle teknolojik süreçte birçok yeniliklere temel oluşturan sistemi kurmuş olarak ortaya çıkmasını sağlamıştır [12]. Zadeh ilk olarak n değerli mantık tan, sonsuz değerli mantık a geçmeyi başarmış ve bunun için önce Bulanık Küme kavramını pekiştirmiştir. Bulanık Küme (Fuzzy Set) 0 ile 1 arasında yer alan ancak, rastgele seçilmiş sonsuz tane elemanı içeren bir küme olarak tanımlanmıştır [12]. Fuzz sözcüğü, İngilizcede, yumurtadan yeni çıkmış bir civcivin belli belirsiz tüylerine verilen addır. Bunu Türkçeleştirirken Bulanık ya da Puslu deyimleri kullanıldığından, bu sözcüğün bu mantığın adında kullanılmış yani Fuzzy Logic denilmiş olmasından ötürü, bu mantığa Bulanık Mantık ya da Puslu Mantık deniyor. Bulanıklık doğal olarak bir bakıma belirsizliği de çağrıştırmış oluyor [12]. Fuzzy Kümeler Kuramının yardımıyla belirsizlik ifade eden terimlere belirlilik derecesi atayarak, böylece bunların Çok Değerli Kümeler kapsamı içine alınmaları ve bu yolla 12

25 tanımlanmış olmaları sağlanmış olmaktadır. Buna karşın Bulanık Mantık temelde, Çok değerli mantık, Olasılık kuramı ve Yapay zeka üzerine oturtulmuştur. Ayrıca denilebilir ki, matematiğin gerçek dünyayı yorumlamasında daha geniş bir uyarlama alanı bu yolla bulunmuştur. Artık sadece siyah ile beyaz yoktur. Bunların arasında bütün renkler ve onların her tondaki nüansları da yer alabilmektedir. İki değerli mantığın keskin (crisp) değerleri yerine daha gevşek değerledirmeler gelmiş olmaktadır. Örneğin [sıcak/soğuk] arasına ılık girebilmektedir [12]. [Açık/Kapalı], [Hızlı/Yavaş vb. gibi ikili denetim değişkenlerinden oluşan keskin dünyayı, [az açık/az kapalı = aralık], [serin/ılık], [biraz hızlı/biraz yavaş] vb. gibi gevşek niteleyicilere belli üyelik dereceleri atayarak gerçek dünyamıza yansıtmayı ve gerçek dünyayı daha yaklaşık olarak temsil eden bir sistemi kurmayı başarmış olmaktadır [12]. Bulanık mantık yaklaşımının kullanıldığı alanlar çimento sanayisi, su arıtma sistemleri, asansör sistemleri gibi mekanik sistemlerin yanında, biyoloji ve tıpta kanser araştırmaları, teşhis sistemleri gibi alanlardır. Psikoloji alanında ise insan davranışlarının analiz edilmesinde, suç işleme ve suçu önleme araştırmalarının yapılmasında kullanılmaktadır. 5.2 Bulanık Kümeleme 1965 yılında L.A.Zadeh belirsizliğin temsili için araç olarak, bulanık kümeler (fuzzy sets) teorisini geliştirmiştir. Belirsizlik ifade eden terimler ve kavramların gelişigüzel bir ayırıma tabi tutmaksızın, belirsizliğe belirlilik derecesi atayarak, çok değerli kümeler kuramı kapsamı içinde tanımlanmalarına yol açar [12] Temel Kavramlar Bulanık kümeler kuramının amacı, belirsizlik ifade eden, tanımlanması güç kavramlara üyelik derecesi atayarak onlara belirlilik getirmek istemidir. Belirlilik getirme yaklaşımı, iki değerli kümeler kuramının çok değerli kuramına dönüşümünden oluşur. Modern mantıktaki bir kümenin elemanları, keskin elemanlardır. Bu elemanlar, kümenin elemanıdır ya da değildir. Bu tür elemanlardan oluşan kümelere keskin (crisp) kümeler denir. Bulanık kümeler belirlilik derecesi ya hep ya hiç kavramının ötesinde görüşten 13

26 ortaya çıkar. Çoğunlukla günlük hayatta keskin sayılar ve ifadeler yerine sınırları bulanık sayılar, ifadeler, nesne sınıfları kullanılır. Keskin kümelerde bu ifade, 1; x A µ A (x) = 0; x A (4.1) olur. Bulanık kümeler için fonksiyonlar, üyelik fonksiyonu olarak tanımlanır ve [0,1] aralığında değer alır. Üyelik aralığı, belirli bir değerin bir bulanık küme içerisinde yer almasının güvenirliliğinin işaretidir. Üyelik fonksiyonları, aşağıdaki şekilde gösterildiği gibi, bazıları üçgen, çan, yamuk, monolitik ve monotonik şekildedirler [12]. Şekil 5.1 Çeşitli biçimlerdeki üyelik fonksiyonları [12] Değerlendirme kümesini [0,1] aralığı alırsak X evreninin bir A alt kümesi için bulanık (fuzzy) küme tanımlanabilir. Burada μ A (x), A daki üyelik derecesini verir. μ A (x), 1 e yaklaştıkça x elemanının A daki üyeliği de artar. Başka bir ifadeyle, A kümesi, X evreninin, sınırları kesinlikle belli olmayan bir alt kümesidir [12]. Bulanık kümelemeyi bir örnekle daha iyi açıklayabiliriz. Bir bankanın müşterilerini zengin ve fakir olarak iki sınıfa ayırmak istediğini düşünelim. 2 milyon doların altında paraya sahipse fakir, 2 milyon ve üzeri dolara sahipse zengin denebilir, fakat zengin ve fakir arasında keskin bir ayrım görünmemektedir. Bu açıklamaya göre 2.1 milyon dolara sahip bir kişi mantıken zengin sayılabilir ama hala biraz fakir olarak da düşünülebilir. Bulanık kümelemede asıl gösterge, üyelik derecesidir μ = {0,,1}. Eğer μ =1 olursa, bir 14

27 nesne kesinlikle o sınıfa ait olur, μ = 0 olursa nesne ile küme arasında kesinlikle bir benzemezlik söz konusu olur. Örneğimizde, kişi 2.1 milyon dolar ile μ zengin (2.1milyondolar) = 0.65 üyelik derecesi alıp zengin kümesine, ile μ fakir (2.1milyondolar) = 0.35 üyelik derecesi alıp fakir kümesine alınabilir. Bu da müşterinin zengin ama yeteri kadar varlıklı olmadığını gösterir. Bununla birlikte, 1 milyar dolara sahip kişi kesinlikle μ zengin (1milyardolar) = 1.0 üyelik derecesine sahip olurdu ve μ fakir (1milyardolar) = 0.0 üyelik derecesine sahip olurdu [13]. Şekil 5.2 Bulanık kümeleme konseptinin örnekle açıklanması [13] Bulanık Kümeleme Algoritması Bulanık c- Ortalamalar (Fuzzy c- Means, FCM) yöntemi, bulanık bölünmeli kümeleme tekniklerinden en yaygın kullanılan yöntemdir. Bu algoritma 1973 yılında Dunn tarafından ortaya atılmış ve 1981 de Bezdec tarafından geliştirilmiştir [14]. Bulanık kümelemede klasik kümelemeden farklı olarak her bir veri elemanı birden fazla kümeye farklı üyelik dereceleriyle ait olabilmektedir. Ancak aynı veri elemanının arka arkaya gelen farklı kümelerdeki üyelik derecelerinin toplamı 1 e eşit olmalıdır [14]. Yani bir i veri elemanının j kümesine ait olma üyelik derecesi u i,j, m de küme sayısı olursa aşağıdaki gibi formüle edilebilir: 15

28 m u ij = 1 (5.2) j=1 Aryıca aynı j kümesindeki veri elemanlarının üyelik derecelerinin toplamı veri elemanlarının sayısına eşit olan n den daha küçük olmalıdır. Ekstrem bir durum olarak eğer tüm veri elemanları tek kümede ise bu durumda üyelik derecelerinin toplamı veri elemanlarının sayısına eşit olabilir. Teoride var olan ve pratikte bir anlam taşımayan durumdur [14]. Bu durum aşağıdaki şekilde formüle edilebilir: n u ij n (5.3) i=1 Klasik kümelemede üyelik dereceleri için verilen (5.2) ve (5.3) denklemlerinin ekstrem olmayan durumlarında çözüm beklenir. Burada, Bezdec (1981) tarafından ortaya konulan Bulanık c- ortalamalar algoritması anlatılabilir. Her veri elamanının her kümeye belirli bir üyelik derecesi ile ait olduğu söylenmişti. Elemanların farklı kümelere atanması için, elemanlarla verilen küme merkezleri arasındaki uzaklığın ağırlıklı ortalamasının alınması fikrinden yola çıkılacaktır [14]. Bahsedilen ağırlık aşağıdaki fonksiyon ile gösterilebilir: n c f (u,v) = (u ik ) m x k v i 2 (5.4) k=1 i=1 Burada ağırlık olarak üyelik derecelerinin 0<m< kuvveti alınmıştır. Denklem (5.4) teki v vektörü küme merkezlerinin koordinatlarının belirtir [14]. Kümelemeler için verilen fonksiyonun değişim uzayında en küçüklenmesi gerekir. Türev alma işlemiyle çözümlenebilecek bu işlemden sonra üyelik dereceleri için aşağıdaki formüle ulaşılır: u ik = c j=1 1 x k v i x k v j 2 m 1 (1 i c;1 k n) (5.5) Bununla birlikte eş zamanlı olacak şekilde kümelerin merkezlerinin belirtilen ağırlıklı ortalama formülüne göre değişim işlemi gerçekleşir [14]. 16

29 v i = n k=1 n (u ik ) m x k k=1 (u ik ) (1 i c) (5.6) 17

30 BÖLÜM 6 BULANIK KÜMLEME UYGULAMASI Bu çalışmada 2013 yılında Amerika da gençlerin tütün ürünlerine ve kullanımına karşı tutumlarının yer aldığı anket verileri incelenmiştir. 80 sorudan oluşan anketten konuyla ilgili olduğu düşünülen 7 soru seçilmiştir. Örneklem genişliği ise 267 birimdir. 6.1 Kullanılan Programlar, Paketler ve Özellikleri Bu çalışmada örneklemin ayrışmasının uygun olacağı küme sayısını görebilmek adına kümeleme analizi yapılmış ve açık kaynak kodlu bir program olan R da Bulanık Kümeleme Analizi ve grafikleri için hazırlanmış Cluster paketinin Daisy, Fanny, Silhoutte fonksiyonları ve ayrıca Clusplot fonksiyonu kullanılmıştır Cluster Paketine Ait Fonksiyonlar ve Kullandıkları Algoritmalar Cluster paketi, veride gruplar bulmak amacıyla Martin Maechler tarafından oluşturulmuştur ve geliştirilmeye devam edilmektedir in Temmuz ayında paketin güncellenmiş son hali yayınlanmıştır Daisy Çalışmada, ilk olarak Daisy fonksiyonu kullanılmıştır. Veri setindeki gözlemler arasındaki ikili farklılıkları, uzaklık matrisini (dissimilarity matrix), hesaplamada kullanılmıştır. Fonksiyonun yapısı aşağıdaki gibidir: 18

31 daisy(x, metric = c("euclidean", "manhattan", "gower"), stand = FALSE, type = list(), weights = rep.int(1, p)) Burada x, numerik bir veri matrisi; metric ise kullanılması istenilen uzaklık hesaplama formülüdür. Daisy fonksiyonundaki stand argümanı ise, verilerin standartlaştırılması gerektiği düşünüldüğünde TRUE yapılarak kullanılmaktadır Fanny Çalışmada kullanılan ikinci fonksiyon Fanny fonksiyonudur. K tane kümeye ayrılmış data için Bulanık Kümeleme işlemi yapmaya yarayan fonksiyondur. Fonksiyonun yapısı aşağıdaki gibidir: fanny(x, k, diss = inherits(x, "dist"), memb.exp = 2, metric = c("euclidean", "manhattan", "SqEuclidean"), stand = FALSE, inimem.p = NULL, cluster.only = FALSE, keep.diss =!diss &&!cluster.only && n < 100, keep.data =!diss &&!cluster.only, maxit = 500, tol = 1e- 15, trace.lev = 0) Burada x bir veri matrisi ya da Daisy fonksiyonunun çıktısı gibi uzaklık matrisi olabilir. Önemli husus, bu fonksiyondaki x argümanı uygulanamaz (NA) verilerden oluşamaz. Bu durumda fonksiyon hata verir. Fonksiyonun diğer argümanı olan k ise, küme sayısını belirtir. Bu argümanın mutlaka doldurulması gerekmektedir. Fonksiyon, kendiliğinden bir değer atamamaktadır. Küme sayısı 12 den büyük ve n/2 den küçük olamamaktadır. Fanny fonksiyonun çıktıları arasında üyelik dereceleri (membership), etkinlik (coefficient), bir sonraki en yakın komşu küme (clustering) bulunmaktadır. Burada fonksiyon çıktısı olarak elde edilen etkinlik (coefficient) değerine değinmek gerekmektedir. Fanny fonksiyonunun etkinlik değeri Dunn ın etkinlik değeridir (Dunn s Coefficient). Bu değer kümeleme işleminin ne kadar bulanık ne kadar keskin olduğunu göstermektedir [15]. Etkinlik değerinin hesaplanması şu şekildedir: 19

32 n uivu 2 2 jvd(i, j) k i, j=1 n (6.1) v=1 2 u 2 jv j=1 Burada d(i,j) uzaklık (dissimilarity) matrisidir. u iv ise i nesnesinin n kümesine bilinmeyen üyeliğidir. Kısıtları ise şu şekildedir: a- u iv 0, i = 1,...n ve v = 1,...k k b- u iv = 1, i = 1,...n v=1 Etkinlik değerinin hesaplandığı fonksiyon iteratif bir alogirtmayla ortalama kullanılarak minimize edilmektedir. Her nesne, tüm kümelerde eşit üyeliğe sahip olduğunda, kümeleme tamamen bulanıktır. Diğer taraftan, her nesne bazı kümelerde 1 bazı kümelerde 0 üyeliğine sahipse, kümeleme tamamen keskin kümelemedir [15]. Kümelemenin ne kadar bulanık ne kadar keskin olduğunu değerlendirmek için de Dunn s etkinlik katsayısı devreye giriyor, katsayı aşağıdaki gibi hesaplanıyor: F k = n k i=1 v=1 u 2 iv n, 1 F k k,1 (6.2) Dunn s etkinlik katsayısı aşağıdaki durumlarda uç değerlerine ulaşmaktadır [15]: 1- Tamamıyla bulanık kümeleme: tüm u iv = 1 k F k = nk 1 nk 2 = 1 k (6.3) 2- Tamamıyla keskin kümeleme: tüm u iv = 0 ya da F k = n n = 1 (6.4) 20

33 Silüet Silüet, veri kümeleri içinde tutarlılığın yorumlanması ve doğrulama için bir yöntemdir. Bu yöntem, her bir nesnenin kümeler içinde nasıl yer aldığını grafiksel bir gösterimle sunar [16]. Herhangi bir teknikle verilerin kümelendiğini varsayalım, örneğin k- ortalamalar yöntemi ile k tane kümeye ayrılmış olsun. Her bir veri için, a(i) aynı küme içindeki diğer veri noktalarına ortalama uzaklığı olsun. a(i) değeri, i verisi için ne kadar iyi atanıp atanmadığı konusunda yorumlanabilir, ne kadar küçükse o kadar iyi denilebilir [16]. b(i) değeri, diğer kümelere en düşük ortalama uzaklık değeri olarak alınsın. Bu defa, i burada üye (veri) değil, o nokta i için bir sonraki en uygun küme komşu küme olarak adlandırılmaktadır. Bu durumda silüet aşağıdaki gibi tanımlanır: s(i) = b(i) a(i) max a(i),b(i) { } (6.5) Aynı zamanda aşağıdaki gibi de açıklanabilir: 1 a(i) / b(i), a(i)<b(i) s(i) = 0, a(i)=b(i) b(i) / a(i) 1, a(i)>b(i) (6.6) S(i) değerinin - 1 S(i) 1 olduğu görülmektedir. S(i) nin 1 e yakın olması a(i) << b(i) durumunu gerektirir. Burada a(i) kendi kümesine olan uzaklığını belirttiği için ne kadar küçük bir değer alırsa o kadar iyidir. b(i) ne kadar büyükse, komşuluk kümesine eşleşmesi o kadar kötüdür denilebilir [16]. S(i) değeri 1 e ne kadar yakınsa data o kadar iyi kümelenmiştir, - 1 e ne kadar yakında o kadar kötü kümelenmiştir denilebilir. 0 a ne kadar yakınsa, veri, iki kümenin de sınırlarındadır denilebilir [16]. 21

34 Clusplot Çalışmada, elde edilen kümelerin görsel olarak oluşturulmasında kullanılan R fonksiyonudur. Clusplot fonksiyonunda nesneler (bireyler) noktalar şeklinde, iki değişkenli çizimler halinde gösterilmektedir. Kümeler ise çeşitli büyüklük ve şekillerdeki elipslerden oluşmaktadır. Elipslerin oluşumu her kümenin ortalaması ve kovaryans matrisine dayanır ve büyüklükleri de bulundurdukları nesnelere göre değişir [18]. Eğer çok boyutlu veride, verinin kendisini kullanıyorsa Temel Bileşen Analizini kullanır. Ayrıca uzaklık matrisi incelendiğinde ve bu fonksiyon kullanılmak istendiğinde başka bir method izler Clusplot. Çok Boyutlu Ölçekleme (ÇBÖ) adı verilen bu method, eksenlerle ilişkili olarak noktaların koordinatlarına göre belirlenmiş, n noktadan oluşan bir set oluşturur. Öklid uzaklığı örnek olarak verilebilir. Clusplot ÇBÖ yü uyguladıktan sonra ilk iki bileşeni gösterir. Yüzdelik olarak gösterilen noktaların uygun yerleştirildiğine dair güvenilirlik oranı, bu iki bileşenle açıklanır [18]. K- ortalamalar yöntemi ile kümeleme, bulanık kümeleme gibi yöntemlerle kullanılabilecek bir fonksiyondur. 6.2 Uygulama Çıktıları ve Yorumlanması Tanımlayıcı İstatistikler Bulanık küme uygulaması için 80 soru içerisinden seçilen 7 soru aşağıdadır: 1- Bir ya da iki üflemelik sigara içmeyi denediniz mi? 2- Gelecek yıl sigara içeceğinizi düşünüyor musunuz? 3- Yakın zamanda sigara içmeyi deneyeceğinizi düşünüyor musunuz? 4- En yakın arkadaşlarınızdan biri sigara içmeyi teklif ederse, içer misiniz? 5- Size göre, evin içinde tütün ürünleri tüketilmesine izin verilmeli midir? 6- Size göre insanlar taşıtlarda tütün ürünü tüketmesine izin verilmeli midir? 7- Size göre insanların içtikleri sigara ya da başka tütün ürünlerinin dumanlarını solumak ne kadar zararlıdır? 22

35 Yapılan uygulamanın tanımlayıcı istatistikleri incelendiğinde, katılan 267 kişinin 11 ve 19 yaşları arasında, 6.sınıf ile 12.sınıf seviyeleri arasında oldukları görülmektedir. Katılımcıların %43 ü erkek ve % 57 si kadındır. Seçtiğimiz örnek veride, katılımcıların çoğu herhangi bir tütün ürünü kullanmamakta. %24 ü ise sigara içiyor ve içenler 15 ya da 16 yaşlarında sigara içmeyi denemişler. Çizelge 6.1 Örneklemdeki kişilerin cinsiyete göre frekansları Cinsiyete Göre Frekans Tablosu Kadın 114 %43 Erkek 153 %57 Çizelge 6.2 Örneklemdeki kişilerin bulundukları sınıfa göre frekansları Sınıfa Göre Frekans Tablosu 6.sınıf 46 %18 7.sınıf 43 %17 8.sınıf 40 %16 9.sınıf 34 %13 10.sınıf 34 %13 11.sınıf 29 %7 12.sınıf 41 %16 23

36 Çizelge 6.3 Örneklemdeki kişilerin sigara deneyimlerine göre cevaplar Daha önce sigara içtiniz mi? Hayır 204 %76 Evet 63 %24 Örnek verideki katılımcıların %58 i tütün şirketlerinin, 18 yaş altındaki gençleri etkilemeye çalıştıklarına inansa da, katılımcıların %60 ının yakın arkadaşları sigara içmiyor Bulanık Kümeleme Çıktıları Bu bölümde kullanılan fonksiyonlar sonucu elde edilen grafikler ve sonuçlar incelenmektedir. Clusplot fonksiyonu sonucu elde edilen grafiklerden biri silüet grafiği diğeri ise veri noktalarının en yakın komşu kümede nasıl kümelendiğini gösteren grafik. İki grafik de en yakın keskin kümeleme sonucuna göre düzenlenmektedir. Bulanık kümeleme çıktılarında incelenmesi gereken sonuçlar üyelik dereceleridir. Grafikler, en yakın komşu kümeye aitliklerini gösterse de, hangi kümeye yüzde kaç üyelikle ait oldukları asıl önemli noktadır. Kümelerin ne kadar bulanık ne kadar keskin olduğu etkinlik değerleri ile tartışılır Öklid Uzaklığı ile Hesaplanan Bulanık Kümeleme Sonuçları Verinin üzerinde R da Öklid uzaklığı kullanılarak yapılan bulanık kümeleme uygulamasının en temel sonuçlarından biri, 2 den fazla küme elde edilememesi oldu. Uygulamayı 3, 4 ve 5 küme için çalıştırdığımızda, silüet büyüklükleri, s(i) düşmekte bu da veri noktasının uygun olarak kümelenemediğini göstermekte. Ortalama s(i) değeri de verinin uygun olarak kümelenip kümelenmediğini göstermekte ki kullanılan örnek veri için bu değer 0.45 olmaktadır. Ayrıca ilk küme 0.79 ortalama s(i) değerine sahipken, ikinci küme ortalama s(i) değerine sahiptir. Bu durumda ilk kümedeki veri noktalarının iyi kümelendiğini ancak ikinci küme için bunu söylemenin zor olduğu görülmektedir. 24

37 Silhouette plot of fanny(x = dissmatrix, k = 2) n = clusters C j j : n j ave i Cj s i 1 : : Silhouette width s i Average silhouette width : 0.45 Şekil 6.3 Öklid uzaklığı ile yapılan bulanık kümeleme sonucu oluşan silüet grafiği 25

38 clusplot(fanny(x = dissmatrix, k = 2)) Component Component 1 These two components explain % of the point variability. Şekil 6.4 Öklid uzaklığı ile keskin olarak en yakın komşu kümede kümelenme Bulanık kümeleme için kullanılan fanny fonksiyonunun çıktılarından olan Dunn s etkinlik değeri ise 0.66, normalleştirilmiş etkinlik değeri ise Bu sayılar da yapılan kümelemenin aslında tümüyle bulanık olmadığını göstermektedir. Bu durum, fanny fonksiyonun çıktılarından olan membership (üyelik) değerleri incelendiğinde de görülebilir. Çünkü, her bir veri noktasının üyelik değeri tüm kümelerde eşit olsaydı, tamamıyla bulanık diyebilirdik. Diğer taraftan üyelik dereceleri bazı kümelerde 1 diğerinde 0 ise tamamıyla keskin kümeleme olmaktadır. 26

39 Çizelge 6.4 Veri noktalarının 1. ve 2. küme için üyelik dereceleri Gözlem Numarası 1.Küme 2.Küme , , , , , , , , , , , , , , , , , , , , , , Gower Uzaklığı ile Hesaplanan Bulanık Kümeleme Sonuçları Seçilen örneklemin üzerinde Gower uzaklık ölçüsü kullanıldığında elde edilen grafikler ve sonuçlar aşağıdaki gibidir: 27

40 Silhouette plot of fanny(x = dissmatrix_gower, k = 2) n = clusters C j j : n j ave i Cj s i 1 : : Silhouette width s i Average silhouette width : 0.66 Şekil 6.5 Gower uzaklığı ile yapılan bulanık kümeleme sonucu oluşan silüet grafiği Ortalama s(i) değeri kullanılan örnek veri için 0.66 olmaktadır. İlk küme 0.80 ortalama s(i) değerine sahipken, ikinci küme 0.20 ortalama s(i) değerine sahiptir. Bu durumda ilk kümedeki veri noktalarının iyi kümelendiğini ancak ikinci küme çok iyi kümelenmediğini söylenebilir. 28

41 clusplot(fanny(x = dissmatrix_gower, k = 2)) Component Component 1 These two components explain % of the point variability. Şekil 6.6 Gower uzaklığı ile keskin olarak en yakın komşu kümede kümelenme Gower uzaklığı ile uzaklık matrisini oluşturduktan sonra bulanık kümeleme için kullanılan fanny fonksiyonunun çıktılarından olan Dunn s etkinlik değeri ise 0.76, normalleştirilmiş etkinlik değeri ise Üyelik dereceleri birbirine yakın olmadıkları ve %53 ünün üyelik dereceleri 0,90 dan büyük olduğu için tam anlamıyla bulanık bir kümeleme yapılamadığı görülmektedir. 29

42 Çizelge 6.5 Veri noktalarının 1. ve 2. küme için üyelik dereceleri Gözlem Numarası 1.Küme 2.Küme ,97 0, ,92 0, ,27 0, ,97 0, ,97 0, ,97 0, ,36 0, ,97 0, ,92 0, ,81 0, ,92 0, Canberra Uzaklığı ile Hesaplanan Bulanık Kümeleme Sonuçları Seçilen örneklemin üzerinde Canberra uzaklık ölçüsü kullanıldığında elde edilen grafikler ve sonuçlar aşağıdaki gibidir: 30

43 Silhouette plot of fanny(x = dissmatrix_canberra, k = 2) n = clusters C j j : n j ave i Cj s i 1 : : Silhouette width s i Average silhouette width : 0.62 Şekil 6.7 Canberra uzaklığı ile yapılan bulanık kümeleme sonucu silüet grafiği Ortalama s(i) değeri kullanılan örnek veri için 0.62 olmaktadır. İlk küme 0.82 ortalama s(i) değerine sahipken, ikinci küme 0.02 ortalama s(i) değerine sahiptir. Bu durumda ilk kümedeki veri noktalarının iyi kümelendiğini ancak ikinci küme çok iyi kümelenmediğini söylenebilir. 31

44 clusplot(fanny(x = dissmatrix_canberra, k = 2)) Component Component 1 These two components explain % of the point variability. Şekil 6.8 Canberra uzaklığı keskin olarak en yakın komşu kümede kümelenme Gower uzaklığı ile uzaklık matrisini oluşturduktan sonra bulanık kümeleme için kullandığımız fanny fonksiyonunun çıktılarından olan Dunn s etkinlik değeri ise 0.74, normalleştirilmiş etkinlik değeri ise Üyelik derecelerinin birbirine yakın olmadıkları, %37 sinin üyelik derecelerinin 0.90 dan büyük oldukları görülmektedir. 32

45 Çizelge 6.6 Veri noktalarının 1. ve 2. küme için üyelik dereceleri Gözlem Numarası 1.Küme 2.Küme ,97 0, ,90 0, ,31 0, ,97 0, ,97 0, ,97 0, ,37 0, ,97 0, ,90 0, ,75 0, ,90 0, Yüzde Uyuşmazlık Methodu ile Hesaplanan Bulanık Kümeleme Sonuçları Seçilen örneklemin üzerinde Yüzde Uyuşmazlık methodu kullanıldığında elde edilen uzaklık matrisinin üzerinde çok boyutlu ölçeklemeden yararlanıldıktan sonra bulanık kümeleme yapılıp grafikler elde edildi. R programının cmdscale fonksiyonu kullanıldı. Bu fonksiyonun kullandığı çok boyutlu ölçekleme uygulaması çapraz çarpım matrislerinden yararlanır. Simetrik matrisleri incelemek için özdeğer ayrışması kullanılabilir ama uzaklık matrisleri diret olarak özdeğer ayrıştırmasına giremezler [19]. Bu yüzden daha uygun bir forma dönüştürülürler [19]. Bu dönüşüm de çapraz çarpım matrisleri ile sağlanır. Gözlem sayısı I iken, uzaklık matrisi olan D yi I XI olarak tanımlanır ve I X1 i de kütle vektörü (elemanları pozitif ya da sıfır ve elemanları toplamı 1 olan bir vektör) olarak tanımlanır [19]. m T 1 = 1 (6.7) 1X Ix1 Herbir nesneye aynı ağırlı aşağıdaki formul ile vermektedir [19]: m i = 1 I (6.8) 33

46 Daha sonra matrisi aşağıdaki gibi merkezileştirir [19]: Ξ = I 1 m T IXI IXI IX1 XI (6.9) Ve S ~ ile gösterilen aşağıdaki çapraz çarpım matrisi elde edilir [19]: S ~ = 1 2 ΞDΞT (6.10) s ~, S ~ nin köşegen vektörü iken çapraz çarpım matrisi orijinal uzaklık matrisiyle aynı bilgileri içerir ve aşağıdaki gibi gösterilir [19]: D = s ~ T ~ T ~ 1XI + 1 s 2 S IXI IX1 IX1 XI IXI (6.11) Yüzde uyuşmazlık methodu kullanıldıktan sonra bulanık kümeleme fonksiyonu uygulanmış ve aşağıdaki sonuçlar elde dilmiştir: 34

47 clusplot(fanny(x = diss_scaled, k = 2)) Component Component 1 These two components explain 100 % of the point variability. Şekil 6.9 Yüzde uyuşmazlık ile en yakın komşu kümede kümeleme 35

48 Çizelge 6.7 Veri noktalarının 1. ve 2. küme için üyelik dereceleri Gözlem Numarası 1.Küme 2.Küme

49 BÖLÜM 7 SONUÇ Yapılan çalışmada, farklı uzaklık ölçüleri kullanılarak aynı örneklem üzerinde bulanık kümeleme işlemi tekrarlanmıştır. R da yapılan işlemler sonucu en fazla iki kümeye ayrılabilien 267 birimlik örneklem üzerinde, üyelik derecelerini belirleyebilmek ve yorumlayabilmek için veriye uygun olacağı düşünülen uzaklık ölçüleri seçilmiştir. Çalışılan verinin kategorik olduğu bilindiği için aşağıdaki 4 uzaklık ölçüsü denenmiş ve incelenmesinin gerekli görüldüğü ortalama siluet büyüklükleri, Dunn etkinlik değeri ve normalleştirilmiş etkinlik değeri karşılaştırılmıştır. Çizelge 7.1 Farklı uzaklık ölçüleri denendiğinde elde edilen sonuçlar Uzaklık Hesaplama Yöntemleri Ortalama Silüet Büyüklükleri Dunn Etkinlik Değeri Normalleştirilmiş Etkinlik Değeri Öklid Gower Canberra Yüzde Uyuşmazlık

50 Dunn ın etkinlik değerinin en yüksek olduğu ölçü Gower ölçüsü olup bu değer 0.76 dır. Önceki bölümlerde bahsedildiği gibi Dunn ın etkinlik değeri, kümelemenin ne kadar bulanık ne kadar keskin olduğunu gösteren bir ölçüdür. 0 ya yakınsa kümeleme bulanık, 1 e yakınsa keskindir denilebilir. Tamamıyla bulanık küme olması için etkinlik değerinin 1/k değerine (yapılan uygulama için 0.50 değerine) yakın olması gerekmektedir. Bu durumda etkinlik değeri en düşük olan, 0.66 olan, Öklid uzaklığıyla kümeleme işlemi bulanık olmaya daha yakındır. R da yapılan bulanık kümeleme uygulaması sonucu grafik elde etmek istenildiğinde clusplot fonksiyonu kullanılmıştır. Daha çok Temel Bileşen Analizi, k- ortalamalar konuları dahilinde önemli olan küme grafikleri, bulanık küme fonksiyonun çalıştırılmasıyla en yakın komşu küme değerlerine göre çizilmektedir. Temel Bileşen Analizi, k- ortlamalar uygulaması yapılıyor olsaydı ve düşük değerler elde edilmiş olsaydı şayet, çok değişkenli bir veri seti hakkında araştırılan bilginin büyük bir kısmının ilk iki bileşenle açıklanıp açıklanmadığı tartışılabilirdi. Clusplot fonksiyonu bu tez çalışmasında Daisy ve Fanny fonksiyonları kullanıldıktan sonra kullanılmıştır. Uzaklık matrisleri için metrikler belirtilerek yapılmıştır. Tezin diğer bölümlerinde bahsedildiği gibi bulanık kümeleme işlemlerinin en önemli çıktısı üyelik dereceleridir. Üyelik dereceleri birbirine ne kadar yakınsa, küme o kadar bulanık; üyelik dereceleri 1 e ne kadar yakınsa küme o kadar keskindir. Seçilen 267 birimlik örneklemde ve kullanılan yöntemlerde görülmüştür ki, en fazla 2 küme elde edilebilen bu veri setinde, üyelik dereceleri 4 uzaklık ölçüsü için de birbirine çok uzak çıkmaktadır. Örneğin ilk kümeye üyelikleri 0.9 üzerinde olan elemanların ikinci kümeye üyelikleri, toplamları 1 olacak şekilde çok çok düşüktür. Aşağıdaki tabloda ilk 11 örneğin karşılaştırmalı üyelik dereceleri incelenebilir. 38

VERİ MADENCİLİĞİ (Kümeleme) Yrd.Doç.Dr. Kadriye ERGÜN

VERİ MADENCİLİĞİ (Kümeleme) Yrd.Doç.Dr. Kadriye ERGÜN VERİ MADENCİLİĞİ (Kümeleme) Yrd.Doç.Dr. Kadriye ERGÜN kergun@balikesir.edu.tr İçerik Kümeleme İşlemleri Kümeleme Tanımı Kümeleme Uygulamaları Kümeleme Yöntemleri Kümeleme (Clustering) Kümeleme birbirine

Detaylı

Web Madenciliği (Web Mining)

Web Madenciliği (Web Mining) Web Madenciliği (Web Mining) Hazırlayan: M. Ali Akcayol Gazi Üniversitesi Bilgisayar Mühendisliği Bölümü Konular Denetimsiz Öğrenmenin Temelleri Kümeleme Uzaklık Fonksiyonları Öklid Uzaklığı Manhattan

Detaylı

TEMEL İSTATİSTİKİ KAVRAMLAR YRD. DOÇ. DR. İBRAHİM ÇÜTCÜ

TEMEL İSTATİSTİKİ KAVRAMLAR YRD. DOÇ. DR. İBRAHİM ÇÜTCÜ TEMEL İSTATİSTİKİ KAVRAMLAR YRD. DOÇ. DR. İBRAHİM ÇÜTCÜ 1 İstatistik İstatistik, belirsizliğin veya eksik bilginin söz konusu olduğu durumlarda çıkarımlar yapmak ve karar vermek için sayısal verilerin

Detaylı

İstatistik ve Olasılık

İstatistik ve Olasılık İstatistik ve Olasılık KORELASYON ve REGRESYON ANALİZİ Doç. Dr. İrfan KAYMAZ Tanım Bir değişkenin değerinin diğer değişkendeki veya değişkenlerdeki değişimlere bağlı olarak nasıl etkilendiğinin istatistiksel

Detaylı

BKİ farkı Standart Sapması (kg/m 2 ) A B BKİ farkı Ortalaması (kg/m 2 )

BKİ farkı Standart Sapması (kg/m 2 ) A B BKİ farkı Ortalaması (kg/m 2 ) 4. SUNUM 1 Gözlem ya da deneme sonucu elde edilmiş sonuçların, rastlantıya bağlı olup olmadığının incelenmesinde kullanılan istatistiksel yöntemlere HİPOTEZ TESTLERİ denir. Sonuçların rastlantıya bağlı

Detaylı

YZM 3217 YAPAY ZEKA DERS#10: KÜMELEME

YZM 3217 YAPAY ZEKA DERS#10: KÜMELEME YZM 317 YAPAY ZEKA DERS#10: KÜMELEME Sınıflandırma (Classification) Eğiticili (supervised) sınıflandırma: Sınıflandırma: Sınıf sayısı ve bir grup örneğin hangi sınıfa ait olduğunu bilinir Eğiticisiz (unsupervised)

Detaylı

Genel olarak test istatistikleri. Merkezi Eğilim (Yığılma) Ölçüleri Dağılım (Yayılma) Ölçüleri. olmak üzere 2 grupta incelenebilir.

Genel olarak test istatistikleri. Merkezi Eğilim (Yığılma) Ölçüleri Dağılım (Yayılma) Ölçüleri. olmak üzere 2 grupta incelenebilir. 4.SUNUM Genel olarak test istatistikleri Merkezi Eğilim (Yığılma) Ölçüleri Dağılım (Yayılma) Ölçüleri olmak üzere 2 grupta incelenebilir. 2 Ranj Çeyrek Kayma Çeyrekler Arası Açıklık Standart Sapma Varyans

Detaylı

BÖLÜM 6 MERKEZDEN DAĞILMA ÖLÇÜLERİ

BÖLÜM 6 MERKEZDEN DAĞILMA ÖLÇÜLERİ 1 BÖLÜM 6 MERKEZDEN DAĞILMA ÖLÇÜLERİ Gözlenen belli bir özelliği, bu özelliğe ilişkin ölçme sonuçlarını yani verileri kullanarak betimleme, istatistiksel işlemlerin bir boyutunu oluşturmaktadır. Temel

Detaylı

VERİ MADENCİLİĞİ (Veri Ön İşleme-2) Yrd.Doç.Dr. Kadriye ERGÜN

VERİ MADENCİLİĞİ (Veri Ön İşleme-2) Yrd.Doç.Dr. Kadriye ERGÜN VERİ MADENCİLİĞİ (Veri Ön İşleme-2) Yrd.Doç.Dr. Kadriye ERGÜN kergun@balikesir.edu.tr Genel İçerik Veri Madenciliğine Giriş Veri Madenciliğinin Adımları Veri Madenciliği Yöntemleri Sınıflandırma Kümeleme

Detaylı

TANIMLAYICI İSTATİSTİKLER

TANIMLAYICI İSTATİSTİKLER TANIMLAYICI İSTATİSTİKLER Tanımlayıcı İstatistikler ve Grafikle Gösterim Grafik ve bir ölçüde tablolar değişkenlerin görsel bir özetini verirler. İdeal olarak burada değişkenlerin merkezi (ortalama) değerlerinin

Detaylı

Prof.Dr.İhsan HALİFEOĞLU

Prof.Dr.İhsan HALİFEOĞLU Prof.Dr.İhsan HALİFEOĞLU FREKANS DAĞILIMLARINI TANIMLAYICI ÖLÇÜLER Düzenlenmiş verilerin yorumlanması ve daha ileri düzeydeki işlemler için verilerin bütününe ait tanımlayıcı ve özetleyici ölçülere ihtiyaç

Detaylı

Kümeler arası. Küme içi. uzaklıklar. maksimize edilir. minimize edilir

Kümeler arası. Küme içi. uzaklıklar. maksimize edilir. minimize edilir Kümeleme Analizi: Temel Kavramlar ve Algoritmalar Kümeleme Analizi Nedir? Her biri bir dizi öznitelik ile, veri noktalarının bir kümesi ve noktalar arasındaki benzerliği ölçen bir benzerlik ölçümü verilmiş

Detaylı

VERİ MADENCİLİĞİ (Karar Ağaçları ile Sınıflandırma) Yrd.Doç.Dr. Kadriye ERGÜN

VERİ MADENCİLİĞİ (Karar Ağaçları ile Sınıflandırma) Yrd.Doç.Dr. Kadriye ERGÜN VERİ MADENCİLİĞİ (Karar Ağaçları ile Sınıflandırma) Yrd.Doç.Dr. Kadriye ERGÜN kergun@balikesir.edu.tr İçerik Sınıflandırma yöntemleri Karar ağaçları ile sınıflandırma Entropi Kavramı ID3 Algoritması C4.5

Detaylı

Makine Öğrenmesi 2. hafta

Makine Öğrenmesi 2. hafta Makine Öğrenmesi 2. hafta Uzaklığa dayalı gruplandırma K-means kümeleme K-NN sınıflayıcı 1 Uzaklığa dayalı gruplandırma Makine öğrenmesinde amaç birbirine en çok benzeyen veri noktalarını aynı grup içerisinde

Detaylı

İÇİNDEKİLER ÖN SÖZ...

İÇİNDEKİLER ÖN SÖZ... İÇİNDEKİLER ÖN SÖZ... v GİRİŞ... 1 1. İSTATİSTİK İN TARİHÇESİ... 1 2. İSTATİSTİK NEDİR?... 3 3. SAYISAL BİLGİDEN ANLAM ÇIKARILMASI... 4 4. BELİRSİZLİĞİN ELE ALINMASI... 4 5. ÖRNEKLEME... 5 6. İLİŞKİLERİN

Detaylı

Yrd. Doç. Dr. Fatih TOSUNOĞLU Erzurum Teknik Üniversitesi Mühendislik Fakültesi İnşaat Mühendisliği Bölümü

Yrd. Doç. Dr. Fatih TOSUNOĞLU Erzurum Teknik Üniversitesi Mühendislik Fakültesi İnşaat Mühendisliği Bölümü Mühendislikte İstatistiksel Yöntemler Yrd. Doç. Dr. Fatih TOSUNOĞLU Erzurum Teknik Üniversitesi Mühendislik Fakültesi İnşaat Mühendisliği Bölümü 1 Araştırma sonuçlarının açıklanmasında frekans tablosu

Detaylı

Tanımlayıcı İstatistikler. Yrd. Doç. Dr. Emre ATILGAN

Tanımlayıcı İstatistikler. Yrd. Doç. Dr. Emre ATILGAN Tanımlayıcı İstatistikler Yrd. Doç. Dr. Emre ATILGAN 1 Tanımlayıcı İstatistikler Yer Gösteren Ölçüler Yaygınlık Ölçüleri Merkezi Eğilim Ölçüleri Konum Ölçüleri 2 3 Aritmetik Ortalama Aritmetik ortalama,

Detaylı

Örnek 4.1: Tablo 2 de verilen ham verilerin aritmetik ortalamasını hesaplayınız.

Örnek 4.1: Tablo 2 de verilen ham verilerin aritmetik ortalamasını hesaplayınız. .4. Merkezi Eğilim ve Dağılım Ölçüleri Merkezi eğilim ölçüleri kitleye ilişkin bir değişkenin bütün farklı değerlerinin çevresinde toplandığı merkezi bir değeri gösterirler. Dağılım ölçüleri ise değişkenin

Detaylı

2. Klasik Kümeler-Bulanık Kümeler

2. Klasik Kümeler-Bulanık Kümeler 2. Klasik Kümeler-Bulanık Kümeler Klasik Küme Teorisi Klasik kümelerde bir nesnenin bir kümeye üye olması ve üye olmaması söz konusudur. Bu yaklaşıma göre istediğimiz özelliğe sahip olan bir birey, eleman

Detaylı

2. REGRESYON ANALİZİNİN TEMEL KAVRAMLARI Tanım

2. REGRESYON ANALİZİNİN TEMEL KAVRAMLARI Tanım 2. REGRESYON ANALİZİNİN TEMEL KAVRAMLARI 2.1. Tanım Regresyon analizi, bir değişkenin başka bir veya daha fazla değişkene olan bağımlılığını inceler. Amaç, bağımlı değişkenin kitle ortalamasını, açıklayıcı

Detaylı

KORELASYON VE REGRESYON ANALİZİ. Doç. Dr. Bahar TAŞDELEN

KORELASYON VE REGRESYON ANALİZİ. Doç. Dr. Bahar TAŞDELEN KORELASYON VE REGRESYON ANALİZİ Doç. Dr. Bahar TAŞDELEN Günlük hayattan birkaç örnek Gelişim dönemindeki bir çocuğun boyu ile kilosu arasındaki ilişki Bir ailenin tükettiği günlük ekmek sayısı ile ailenin

Detaylı

İstatistik ve Olasılık

İstatistik ve Olasılık İstatistik ve Olasılık Ders 8: Prof. Dr. İrfan KAYMAZ Tanım Tahmin (kestirim veya öngörü): Mevcut bilgi ve deneylere dayanarak olayın bütünü hakkında bir yargıya varmaktır. Bu anlamda, anakütleden çekilen

Detaylı

Matris Cebiriyle Çoklu Regresyon Modeli

Matris Cebiriyle Çoklu Regresyon Modeli Matris Cebiriyle Çoklu Regresyon Modeli Hüseyin Taştan Mart 00 Klasik Regresyon Modeli k açıklayıcı değişkenden oluşan regresyon modelini her gözlem i için aşağıdaki gibi yazabiliriz: y i β + β x i + β

Detaylı

Merkezi Eğilim ve Dağılım Ölçüleri

Merkezi Eğilim ve Dağılım Ölçüleri Merkezi Eğilim ve Dağılım Ölçüleri Soru Öğrencilerin derse katılım düzeylerini ölçmek amacıyla geliştirilen 16 soruluk bir test için öğrencilerin ilk 8 ve son 8 soruluk yarılardan aldıkları puanlar arasındaki

Detaylı

Korelasyon, Korelasyon Türleri ve Regresyon

Korelasyon, Korelasyon Türleri ve Regresyon Korelasyon, Korelasyon Türleri ve Regresyon İçerik Korelasyon Korelasyon Türleri Korelasyon Katsayısı Regresyon KORELASYON Korelasyon iki ya da daha fazla değişken arasındaki doğrusal ilişkiyi gösterir.

Detaylı

BÖLÜM 12 STUDENT T DAĞILIMI

BÖLÜM 12 STUDENT T DAĞILIMI 1 BÖLÜM 12 STUDENT T DAĞILIMI 'Student t dağılımı' ya da kısaca 't dağılımı'; normal dağılım ve Z dağılımının da içerisinde bulunduğu 'sürekli olasılık dağılımları' ailesinde yer alan dağılımlardan bir

Detaylı

RASSAL DEĞİŞKENLER VE OLASILIK DAĞILIMLARI. Yrd. Doç. Dr. Emre ATILGAN

RASSAL DEĞİŞKENLER VE OLASILIK DAĞILIMLARI. Yrd. Doç. Dr. Emre ATILGAN RASSAL DEĞİŞKENLER VE OLASILIK DAĞILIMLARI Yrd. Doç. Dr. Emre ATILGAN 1 RASSAL DEĞİŞKENLER VE OLASILIK DAĞILIMLARI Olasılığa ilişkin olayların çoğunluğunda, deneme sonuçlarının bir veya birkaç yönden incelenmesi

Detaylı

Zeki Optimizasyon Teknikleri

Zeki Optimizasyon Teknikleri Zeki Optimizasyon Teknikleri Ara sınav - 25% Ödev (Haftalık) - 10% Ödev Sunumu (Haftalık) - 5% Final (Proje Sunumu) - 60% - Dönem sonuna kadar bir optimizasyon tekniğiyle uygulama geliştirilecek (Örn:

Detaylı

İÇİNDEKİLER 1. GİRİŞ...

İÇİNDEKİLER 1. GİRİŞ... İÇİNDEKİLER 1. GİRİŞ... 1 1.1. Regresyon Analizi... 1 1.2. Uygulama Alanları ve Veri Setleri... 2 1.3. Regresyon Analizinde Adımlar... 3 1.3.1. Problemin İfadesi... 3 1.3.2. Konu ile İlgili Potansiyel

Detaylı

Uzaktan Algılama Uygulamaları

Uzaktan Algılama Uygulamaları Aksaray Üniversitesi Uzaktan Algılama Uygulamaları Doç.Dr. Semih EKERCİN Harita Mühendisliği Bölümü sekercin@aksaray.edu.tr 2010-2011 Bahar Yarıyılı Uzaktan Algılama Uygulamaları GÖRÜNTÜ İŞLEME TEKNİKLERİ

Detaylı

Hipotez Testlerine Giriş. Hipotez Testlerine Giriş

Hipotez Testlerine Giriş. Hipotez Testlerine Giriş Hipotez Testlerine Giriş Hipotez Testlerine Giriş Hipotez Testlerine Giriş Gözlem ya da deneme sonucu elde edilmiş sonuçların, raslantıya bağlı olup olmadığının incelenmesinde kullanılan istatistiksel

Detaylı

Tanımı Amacı Özellikleri Kullanım Alanları Varsayımları Yöntemleri Uygulama aşamaları. Neleri göreceğiz?

Tanımı Amacı Özellikleri Kullanım Alanları Varsayımları Yöntemleri Uygulama aşamaları. Neleri göreceğiz? KÜMELEME Tanımı Amacı Özellikleri Kullanım Alanları Varsayımları Yöntemleri Uygulama aşamaları Neleri göreceğiz? Tanımı Veriyi birbirlerine benzeyen elemanlardan oluşan kümelere ayırarak, heterojen bir

Detaylı

BÖLÜM 5 MERKEZİ EĞİLİM ÖLÇÜLERİ

BÖLÜM 5 MERKEZİ EĞİLİM ÖLÇÜLERİ 1 BÖLÜM 5 MERKEZİ EĞİLİM ÖLÇÜLERİ Gözlenen belli bir özelliği, bu özelliğe ilişkin ölçme sonuçlarını yani verileri kullanarak betimleme, istatistiksel işlemlerin bir boyutunu oluşturmaktadır. Temel sayma

Detaylı

İÇİNDEKİLER. BÖLÜM 1 Değişkenler ve Grafikler 1. BÖLÜM 2 Frekans Dağılımları 37

İÇİNDEKİLER. BÖLÜM 1 Değişkenler ve Grafikler 1. BÖLÜM 2 Frekans Dağılımları 37 İÇİNDEKİLER BÖLÜM 1 Değişkenler ve Grafikler 1 İstatistik 1 Yığın ve Örnek; Tümevarımcı ve Betimleyici İstatistik 1 Değişkenler: Kesikli ve Sürekli 1 Verilerin Yuvarlanması Bilimsel Gösterim Anlamlı Rakamlar

Detaylı

BÖLÜM 13 HİPOTEZ TESTİ

BÖLÜM 13 HİPOTEZ TESTİ 1 BÖLÜM 13 HİPOTEZ TESTİ Bilimsel yöntem aşamalarıyla tanımlanmış sistematik bir bilgi üretme biçimidir. Bilimsel yöntemin aşamaları aşağıdaki gibi sıralanabilmektedir (Karasar, 2012): 1. Bir problemin

Detaylı

Üç Boyutlu Serpilme (Saçılım) Grafikleri

Üç Boyutlu Serpilme (Saçılım) Grafikleri Üç Boyutlu Serpilme (Saçılım) Grafikleri 3D Scatterplot of boy vs kol vs bacak 90 boy 0 70 0 90 70 00 0 bacak 0 0 90 kol 3D Scatterplot of kol vs omuz vs kalca 90 kol 0 70 00 kalca 0 0 0 0 00 omuz Merkez

Detaylı

Bölüm 3. Tanımlayıcı İstatistikler

Bölüm 3. Tanımlayıcı İstatistikler Bölüm 3 Tanımlayıcı İstatistikler 1 Tanımlayıcı İstatistikler Bir veri setini tanımak veya birden fazla veri setini karşılaştırmak için kullanılan ve ayrıca örnek verilerinden hareket ile frekans dağılışlarını

Detaylı

İçindekiler vii Yazarların Ön Sözü xiii Çevirenin Ön Sözü xiv Teşekkürler xvi Semboller Listesi xvii. Ölçme, İstatistik ve Araştırma...

İçindekiler vii Yazarların Ön Sözü xiii Çevirenin Ön Sözü xiv Teşekkürler xvi Semboller Listesi xvii. Ölçme, İstatistik ve Araştırma... İçindekiler İçindekiler vii Yazarların Ön Sözü xiii Çevirenin Ön Sözü xiv Teşekkürler xvi Semboller Listesi xvii BÖLÜM 1 Ölçme, İstatistik ve Araştırma...1 Ölçme Nedir?... 3 Ölçme Süreci... 3 Değişkenler

Detaylı

Örneklemden elde edilen parametreler üzerinden kitle parametreleri tahmin edilmek istenmektedir.

Örneklemden elde edilen parametreler üzerinden kitle parametreleri tahmin edilmek istenmektedir. ÇIKARSAMALI İSTATİSTİKLER Çıkarsamalı istatistikler, örneklemden elde edilen değerler üzerinde kitleyi tanımlamak için uygulanan istatistiksel yöntemlerdir. Çıkarsamalı istatistikler; Tahmin Hipotez Testleri

Detaylı

Analitik Hiyerarşi Prosesi (AHP) Yrd.Doç.Dr. Sabahattin Kerem AYTULUN

Analitik Hiyerarşi Prosesi (AHP) Yrd.Doç.Dr. Sabahattin Kerem AYTULUN Analitik Hiyerarşi Prosesi (AHP) Yrd.Doç.Dr. Sabahattin Kerem AYTULUN Giriş AHP Thomas L.Saaty tarafından 1970'lerde ortaya atılmıştır. Amaç alternatifler arasından en iyisinin seçilmesidir. Subjektif

Detaylı

3 KESİKLİ RASSAL DEĞİŞKENLER VE OLASILIK DAĞILIMLARI

3 KESİKLİ RASSAL DEĞİŞKENLER VE OLASILIK DAĞILIMLARI ÖNSÖZ İÇİNDEKİLER III Bölüm 1 İSTATİSTİK ve SAYISAL BİLGİ 11 1.1 İstatistik ve Önemi 12 1.2 İstatistikte Temel Kavramlar 14 1.3 İstatistiğin Amacı 15 1.4 Veri Türleri 15 1.5 Veri Ölçüm Düzeyleri 16 1.6

Detaylı

İÇİNDEKİLER ÖNSÖZ Bölüm 1 KÜMELER Bölüm 2 SAYILAR

İÇİNDEKİLER ÖNSÖZ Bölüm 1 KÜMELER Bölüm 2 SAYILAR İÇİNDEKİLER ÖNSÖZ III Bölüm 1 KÜMELER 11 1.1. Küme 12 1.2. Kümelerin Gösterimi 13 1.3. Boş Küme 13 1.4. Denk Küme 13 1.5. Eşit Kümeler 13 1.6. Alt Küme 13 1.7. Alt Küme Sayısı 14 1.8. Öz Alt Küme 16 1.9.

Detaylı

YABANCI DİL EĞİTİMİ VEREN ÖZEL BİR EĞİTİM KURUMUNDAKİ ÖĞRENCİLERİN BEKLENTİLERİNİN ARAŞTIRILMASI. Sibel SELİM 1 Efe SARIBAY 2

YABANCI DİL EĞİTİMİ VEREN ÖZEL BİR EĞİTİM KURUMUNDAKİ ÖĞRENCİLERİN BEKLENTİLERİNİN ARAŞTIRILMASI. Sibel SELİM 1 Efe SARIBAY 2 Dokuz Eylül Üniversitesi Sosyal Bilimler Enstitüsü Dergisi Cilt 5, Sayı:2, 2003 YABANCI DİL EĞİTİMİ VEREN ÖZEL BİR EĞİTİM KURUMUNDAKİ ÖĞRENCİLERİN BEKLENTİLERİNİN ARAŞTIRILMASI Sibel SELİM 1 Efe SARIBAY

Detaylı

MAK1010 MAKİNE MÜHENDİSLİĞİ BİLGİSAYAR UYGULAMALARI

MAK1010 MAKİNE MÜHENDİSLİĞİ BİLGİSAYAR UYGULAMALARI .. MAK MAKİNE MÜHENDİSLİĞİ BİLGİSAYAR UYGULAMALARI Polinom MATLAB p=[8 ] d=[ - ] h=[ -] c=[ - ] POLİNOMUN DEĞERİ >> polyval(p, >> fx=[ -..9 -. -.9.88]; >> polyval(fx,9) ans =. >> x=-.:.:.; >> y=polyval(fx,;

Detaylı

VERİ MADENCİLİĞİ (Veri Önişleme-1) Yrd.Doç.Dr. Kadriye ERGÜN

VERİ MADENCİLİĞİ (Veri Önişleme-1) Yrd.Doç.Dr. Kadriye ERGÜN VERİ MADENCİLİĞİ (Veri Önişleme-1) Yrd.Doç.Dr. Kadriye ERGÜN kergun@balikesir.edu.tr Genel İçerik Veri Madenciliğine Giriş Veri Madenciliğinin Adımları Veri Madenciliği Yöntemleri Sınıflandırma Kümeleme

Detaylı

ÇOK DEĞĐŞKENLĐ ĐSTATĐSTĐKLERĐN ARAŞTIRMALARDA KULLANIMI

ÇOK DEĞĐŞKENLĐ ĐSTATĐSTĐKLERĐN ARAŞTIRMALARDA KULLANIMI ÇOK DEĞĐŞKENLĐ ĐSTATĐSTĐKLERĐN ARAŞTIRMALARDA KULLANIMI Araştırmalarda incelenen olaylar göstermektedir ki tek değişkenli istatistiklerin kullanılması problemi açıklamakta yetersiz ve eksik kalmaktadır.

Detaylı

1. BÖLÜM Polinomlar BÖLÜM II. Dereceden Denklemler BÖLÜM II. Dereceden Eşitsizlikler BÖLÜM Parabol

1. BÖLÜM Polinomlar BÖLÜM II. Dereceden Denklemler BÖLÜM II. Dereceden Eşitsizlikler BÖLÜM Parabol ORGANİZASYON ŞEMASI . BÖLÜM Polinomlar... 7. BÖLÜM II. Dereceden Denklemler.... BÖLÜM II. Dereceden Eşitsizlikler... 9. BÖLÜM Parabol... 5 5. BÖLÜM Trigonometri... 69 6. BÖLÜM Karmaşık Sayılar... 09 7.

Detaylı

İçindekiler. Ön Söz... xiii

İçindekiler. Ön Söz... xiii İçindekiler Ön Söz.................................................... xiii Bölüm 1 İstatistiğe Giriş....................................... 1 1.1 Giriş......................................................1

Detaylı

Bulanık Küme Kavramı BULANIK KÜME. Sonlu ve Sonsuz Bulanık Kümeler. Sonlu ve Sonsuz Bulanık Kümeler

Bulanık Küme Kavramı BULANIK KÜME. Sonlu ve Sonsuz Bulanık Kümeler. Sonlu ve Sonsuz Bulanık Kümeler ULNIK KÜME ulanık Küme Kavramı Elemanları x olan bir X evrensel (universal küme düșünelim. u elemanların ÌX alt kümesine aitliği, yani bu altkümelerin elemanı olup olmadığı X in {0,1} de olan karakteristik

Detaylı

Merkezi Yığılma ve Dağılım Ölçüleri

Merkezi Yığılma ve Dağılım Ölçüleri 1.11.013 Merkezi Yığılma ve Dağılım Ölçüleri 4.-5. hafta Merkezi eğilim ölçüleri, belli bir özelliğe ya da değişkene ilişkin ölçme sonuçlarının, hangi değer etrafında toplandığını gösteren ve veri grubunu

Detaylı

Gruplanmış serilerde standart sapma hesabı

Gruplanmış serilerde standart sapma hesabı Gruplanmış serilerde standart sapma hesabı Örnek: Verilen gruplanmış serinin standart sapmasını bulunuz? Sınıflar f i X X X m i f i. m i m i - (m i - ) f i.(m i - ) 0 den az 3 4 den az 7 4 6 dan az 4 6

Detaylı

MAK 210 SAYISAL ANALİZ

MAK 210 SAYISAL ANALİZ MAK 210 SAYISAL ANALİZ BÖLÜM 6- İSTATİSTİK VE REGRESYON ANALİZİ Doç. Dr. Ali Rıza YILDIZ 1 İSTATİSTİK VE REGRESYON ANALİZİ Bütün noktalardan geçen bir denklem bulmak yerine noktaları temsil eden, yani

Detaylı

MEÜ. SAĞLIK BĠLĠMLERĠ ENSTĠTÜSÜ DERS TANIMI FORMU

MEÜ. SAĞLIK BĠLĠMLERĠ ENSTĠTÜSÜ DERS TANIMI FORMU MEÜ. SAĞLIK BĠLĠMLERĠ ENSTĠTÜSÜ DERS TANIMI FORMU Dersin Adı-Kodu: BİS 601 Örnek Genişliği ve Güç Programın Adı: Biyoistatistik Dersin düzeyi Doktora Ders saatleri ve Teori Uyg. Lab. Proje/Alan Çalışması

Detaylı

2. BASİT DOĞRUSAL REGRESYON 12

2. BASİT DOĞRUSAL REGRESYON 12 1. GİRİŞ 1 1.1 Regresyon ve Model Kurma / 1 1.2 Veri Toplama / 5 1.3 Regresyonun Kullanım Alanları / 9 1.4 Bilgisayarın Rolü / 10 2. BASİT DOĞRUSAL REGRESYON 12 2.1 Basit Doğrusal Regresyon Modeli / 12

Detaylı

SÜREKLĠ OLASILIK DAĞILIMLARI

SÜREKLĠ OLASILIK DAĞILIMLARI SÜREKLĠ OLASILIK DAĞILIMLARI Sayı ekseni üzerindeki tüm noktalarda değer alabilen değişkenler, sürekli değişkenler olarak tanımlanmaktadır. Bu bölümde, sürekli değişkenlere uygun olasılık dağılımları üzerinde

Detaylı

VEKTÖR UZAYLARI 1.GİRİŞ

VEKTÖR UZAYLARI 1.GİRİŞ 1.GİRİŞ Bu bölüm lineer cebirin temelindeki cebirsel yapıya, sonlu boyutlu vektör uzayına giriş yapmaktadır. Bir vektör uzayının tanımı, elemanları skalar olarak adlandırılan herhangi bir cisim içerir.

Detaylı

Örnek. Aşağıdaki veri setlerindeki X ve Y veri çiftlerini kullanarak herbir durumda X=1,5 için Y nin hangi değerleri alacağını hesaplayınız.

Örnek. Aşağıdaki veri setlerindeki X ve Y veri çiftlerini kullanarak herbir durumda X=1,5 için Y nin hangi değerleri alacağını hesaplayınız. Örnek Aşağıdaki veri setlerindeki X ve Y veri çiftlerini kullanarak herbir durumda X=1,5 için Y nin hangi değerleri alacağını hesaplayınız. i. ii. X 1 2 3 4 1 2 3 4 Y 2 3 4 5 4 3 2 1 Örnek Aşağıdaki veri

Detaylı

İNŞAAT MÜHENDİSLİĞİ BÖLÜMÜ ÖĞRENCİLERİNİN BAŞARI NOTLARININ DEĞERLENDİRİLMESİ. Tamer Yılmaz, Barış Yılmaz, Halim Sezici 1 ÖZET

İNŞAAT MÜHENDİSLİĞİ BÖLÜMÜ ÖĞRENCİLERİNİN BAŞARI NOTLARININ DEĞERLENDİRİLMESİ. Tamer Yılmaz, Barış Yılmaz, Halim Sezici 1 ÖZET İNŞAAT MÜHENDİSLİĞİ BÖLÜMÜ ÖĞRENCİLERİNİN BAŞARI NOTLARININ DEĞERLENDİRİLMESİ Tamer Yılmaz, Barış Yılmaz, Halim Sezici 1 ÖZET Bu çalışmada, Celal Bayar Üniversitesi İnşaat Mühendisliği Bölümü öğrencilerinin

Detaylı

Büyük Veri İçin İstatistiksel Öğrenme (Statistical Learning for Big Data)

Büyük Veri İçin İstatistiksel Öğrenme (Statistical Learning for Big Data) Büyük Veri İçin İstatistiksel Öğrenme (Statistical Learning for Big Data) M. Ali Akcayol Gazi Üniversitesi Bilgisayar Mühendisliği Bölümü Bu dersin sunumları, The Elements of Statistical Learning: Data

Detaylı

BİYOİSTATİSTİK Olasılıkta Temel Kavramlar Yrd. Doç. Dr. Aslı SUNER KARAKÜLAH

BİYOİSTATİSTİK Olasılıkta Temel Kavramlar Yrd. Doç. Dr. Aslı SUNER KARAKÜLAH BİYOİSTTİSTİK Olasılıkta Temel Kavramlar Yrd. Doç. Dr. slı SUNER KRKÜLH Ege Üniversitesi, Tıp Fakültesi, Biyoistatistik ve Tıbbi Bilişim D. Web: www.biyoistatistik.med.ege.edu.tr 1 OLSILIK Olasılık; Tablo

Detaylı

İLERİ ARAŞTIRMA SORU HAVUZU

İLERİ ARAŞTIRMA SORU HAVUZU 1 ) Bir ölçümde bağımlı değişkenlerdeki farklılıkların bağımsız değişkenlerdeki farklılıkları nasıl etkilediğini aşağıdakilerden hangisi ölçer? A) Bağımlı Değişken B) Bağımsız Değişken C) Boş Değişken

Detaylı

OLASILIK ve KURAMSAL DAĞILIMLAR

OLASILIK ve KURAMSAL DAĞILIMLAR OLASILIK ve KURAMSAL DAĞILIMLAR Kuramsal Dağılımlar İstatistiksel çözümlemelerde; değişkenlerimizin dağılma özellikleri, çözümleme yönteminin seçimi ve sonuçlarının yorumlanmasında önemlidir. Dağılma özelliklerine

Detaylı

Bir Normal Dağılım Ortalaması İçin Testler

Bir Normal Dağılım Ortalaması İçin Testler Bir Normal Dağılım Ortalaması İçin Testler İÇERİK o Giriş ovaryansı Bilinen Bir Normal Dağılım Ortalaması İçin Hipotez Testler P-değerleri: II. Çeşit hata ve Örnekleme Büyüklüğü Seçimi Örnekleme Büyüklüğü

Detaylı

İstatistik. Temel Kavramlar Dr. Seher Yalçın 1

İstatistik. Temel Kavramlar Dr. Seher Yalçın 1 İstatistik Temel Kavramlar 26.12.2016 Dr. Seher Yalçın 1 Evren (Kitle/Yığın/Popülasyon) Herhangi bir gözlem ya da inceleme kapsamına giren obje ya da bireylerin oluşturduğu bütüne ya da gruba Evren veya

Detaylı

Tekrarlı Ölçümler ANOVA

Tekrarlı Ölçümler ANOVA Tekrarlı Ölçümler ANOVA Repeated Measures ANOVA Aynı veya ilişkili örneklemlerin tekrarlı ölçümlerinin ortalamalarının aynı olup olmadığını test eder. Farklı zamanlardaki ölçümlerde aynı (ilişkili) kişiler

Detaylı

BÖLÜM 3 KURAMSAL ÇATI VE HİPOTEZ GELİŞ

BÖLÜM 3 KURAMSAL ÇATI VE HİPOTEZ GELİŞ BÖLÜM 3 KURAMSAL ÇATI VE HİPOTEZ GELİŞ İŞTİRME Araştırma rma SüreciS 1.Gözlem Genel araştırma alanı 3.Sorunun Belirlenmesi Sorun taslağının hazırlanması 4.Kuramsal Çatı Değişkenlerin açıkça saptanması

Detaylı

Kullanılacak İstatistikleri Belirleme Ölçütleri. Değişkenin Ölçek Türü ya da Yapısı

Kullanılacak İstatistikleri Belirleme Ölçütleri. Değişkenin Ölçek Türü ya da Yapısı ARAŞTIRMA MODELLİLERİNDE KULLANILACAK İSTATİSTİKLERİ BELİRLEME ÖLÇÜTLERİ Parametrik mi Parametrik Olmayan mı? Kullanılacak İstatistikleri Belirleme Ölçütleri Değişken Sayısı Tek değişkenli (X) İki değişkenli

Detaylı

Esnek Hesaplamaya Giriş

Esnek Hesaplamaya Giriş Esnek Hesaplamaya Giriş J E O L O J İ M Ü H E N D İ S L İ Ğ İ A. B. D. E S N E K H E S A P L A M A Y Ö N T E M L E R İ - I DOÇ. DR. ERSAN KABALCI Esnek Hesaplama Nedir? Esnek hesaplamanın temelinde yatan

Detaylı

Mühendislik Mekaniği Statik. Yrd.Doç.Dr. Akın Ataş

Mühendislik Mekaniği Statik. Yrd.Doç.Dr. Akın Ataş Mühendislik Mekaniği Statik Yrd.Doç.Dr. Akın Ataş Bölüm 10 Eylemsizlik Momentleri Kaynak: Mühendislik Mekaniği: Statik, R. C.Hibbeler, S. C. Fan, Çevirenler: A. Soyuçok, Ö. Soyuçok. 10. Eylemsizlik Momentleri

Detaylı

Doç. Dr. Dilek ALTAŞ İSTATİSTİKSEL ANALİZ

Doç. Dr. Dilek ALTAŞ İSTATİSTİKSEL ANALİZ I Doç. Dr. Dilek ALTAŞ İSTATİSTİKSEL ANALİZ II Yayın No : 2845 Teknik Dizisi : 158 1. Baskı Şubat 2013 İSTANBUL ISBN 978-605 - 377 868-4 Copyright Bu kitabın bu basısı için Türkiye deki yayın hakları BETA

Detaylı

K En Yakın Komşu Methodu (KNearest Neighborhood)

K En Yakın Komşu Methodu (KNearest Neighborhood) K En Yakın Komşu Methodu (KNearest Neighborhood) K-NN algoritması, Thomas. M. Cover ve Peter. E. Hart tarafından önerilen, örnek veri noktasının bulunduğu sınıfın ve en yakın komşunun, k değerine göre

Detaylı

(AYIRIM) DENLİ. Emre KUZUGÜDENL. Doç.Dr.Serdar CARUS

(AYIRIM) DENLİ. Emre KUZUGÜDENL. Doç.Dr.Serdar CARUS DİSKRİMİNANT ANALİZİ (AYIRIM) Emre KUZUGÜDENL DENLİ Doç.Dr.Serdar CARUS Bu analiz ile; Bir bireyin hangi gruptan geldiği (p değişkeni kullanarak, bireyi uygun bir gruba atar ) Her bir değişkenin atama

Detaylı

KONU 4: DOĞRUSAL PROGRAMLAMA MODELİ İÇİN ÇÖZÜM YÖNTEMLERİ I

KONU 4: DOĞRUSAL PROGRAMLAMA MODELİ İÇİN ÇÖZÜM YÖNTEMLERİ I KONU 4: DOĞRUSAL PROGRAMLAMA MODELİ İÇİN ÇÖZÜM YÖNTEMLERİ I 4.1. Dışbükeylik ve Uç Nokta Bir d.p.p. de model kısıtlarını aynı anda sağlayan X X X karar değişkenleri... n vektörüne çözüm denir. Eğer bu

Detaylı

Genel olarak test istatistikleri. Merkezi Eğilim (Yığılma) Ölçüleri Merkezi Dağılım (Yayılma) Ölçüleri. olmak üzere 2 grupta incelenebilir.

Genel olarak test istatistikleri. Merkezi Eğilim (Yığılma) Ölçüleri Merkezi Dağılım (Yayılma) Ölçüleri. olmak üzere 2 grupta incelenebilir. 3.SUNUM Genel olarak test istatistikleri Merkezi Eğilim (Yığılma) Ölçüleri Merkezi Dağılım (Yayılma) Ölçüleri olmak üzere 2 grupta incelenebilir. 2 Merkezi Eğilim Ölçüleri, belli bir özelliğe ya da değişkene

Detaylı

26.12.2013. Farklı iki ilaç(a,b) kullanan iki grupta kan pıhtılaşma zamanları farklı mıdır?

26.12.2013. Farklı iki ilaç(a,b) kullanan iki grupta kan pıhtılaşma zamanları farklı mıdır? 26.2.23 Gözlem ya da deneme sonucu elde edilmiş sonuçların, raslantıya bağlı olup olmadığının incelenmesinde kullanılan istatistiksel yöntemlere HĐPOTEZ TESTLERĐ denir. Sonuçların raslantıya bağlı olup

Detaylı

Mühendislikte İstatistik Yöntemler

Mühendislikte İstatistik Yöntemler .0.0 Mühendislikte İstatistik Yöntemler İstatistik Parametreler Tarih Qma.3.98 4..98 0.3.983 45 7..984 37.3.985 48 0.4.986 67.4.987 5 0.3.988 45.5.989 34.3.990 59.4.99 3 4 34 5 37 6 45 7 45 8 48 9 5 0

Detaylı

GENELLEŞTİRİLMİŞ FUZZY KOMŞULUK SİSTEMİ ÜZERİNE

GENELLEŞTİRİLMİŞ FUZZY KOMŞULUK SİSTEMİ ÜZERİNE ÖZEL EGE LİSESİ GENELLEŞTİRİLMİŞ FUZZY KOMŞULUK SİSTEMİ ÜZERİNE HAZIRLAYAN ÖĞRENCİ: Berk KORKUT DANIŞMAN ÖĞRETMEN: Gizem GÜNEL İZMİR 2013 İÇİNDEKİLER 1. PROJENİN AMACI 3.33 2. GİRİŞ... 3 3. YÖNTEM 3 4.

Detaylı

3. TAHMİN En Küçük Kareler (EKK) Yöntemi 1

3. TAHMİN En Küçük Kareler (EKK) Yöntemi 1 3. TAHMİN 3.1. En Küçük Kareler (EKK) Yöntemi 1 En Küçük Kareler (EKK) yöntemi, regresyon çözümlemesinde en yaygın olarak kullanılan, daha sonra ele alınacak bazı varsayımlar altında çok aranan istatistiki

Detaylı

İSTATİSTİK VE OLASILIK SORULARI

İSTATİSTİK VE OLASILIK SORULARI İSTATİSTİK VE OLASILIK SORULARI SORU 1 Meryem, 7 arkadaşı ile bir voleybol maçına katılmayı planlamaktadır. Davet ettiği arkadaşlarından herhangi bir tanesinin EVET deme olasılığı 0,8 ise, en az 3 arkadaşının

Detaylı

VERİ MADENCİLİĞİ. Karar Ağacı Algoritmaları: SPRINT algoritması Öğr.Gör.İnan ÜNAL

VERİ MADENCİLİĞİ. Karar Ağacı Algoritmaları: SPRINT algoritması Öğr.Gör.İnan ÜNAL VERİ MADENCİLİĞİ Karar Ağacı Algoritmaları: SPRINT algoritması Öğr.Gör.İnan ÜNAL SPRINT Algoritması ID3,CART, ve C4.5 gibi algoritmalar önce derinlik ilkesine göre çalışırlar ve en iyi dallara ayırma kriterine

Detaylı

Mühendislikte İstatistiksel Yöntemler

Mühendislikte İstatistiksel Yöntemler Mühendislikte İstatistiksel Yöntemler BÖLÜM 7 TAHMİNLER Yrd. Doç. Dr. Fatih TOSUNOĞLU 1 Tahmin (kestirim veya öngörü): Mevcut bilgi ve deneylere dayanarak olayın bütünü hakkında bir yargıya varmaktır.

Detaylı

HSancak Nesne Tabanlı Programlama I Ders Notları

HSancak Nesne Tabanlı Programlama I Ders Notları DİZİLER Bellekte ard arda yer alan aynı türden nesneler kümesine dizi (array) denilir. Bir dizi içerisindeki bütün elemanlara aynı isimle ulaşılır. Yani dizideki bütün elemanların isimleri ortaktır. Elemanlar

Detaylı

BİYOİSTATİSTİK İstatistiksel Tahminleme ve Hipotez Testi-III Yrd. Doç. Dr. Aslı SUNER KARAKÜLAH

BİYOİSTATİSTİK İstatistiksel Tahminleme ve Hipotez Testi-III Yrd. Doç. Dr. Aslı SUNER KARAKÜLAH BİYOİSTATİSTİK İstatistiksel Tahminleme ve Hipotez Testi-III Yrd. Doç. Dr. Aslı SUNER KARAKÜLAH Ege Üniversitesi, Tıp Fakültesi, Biyoistatistik ve Tıbbi Bilişim AD. Web: www.biyoistatistik.med.ege.edu.tr

Detaylı

Web Madenciliği (Web Mining)

Web Madenciliği (Web Mining) Web Madenciliği (Web Mining) Hazırlayan: M. Ali Akcayol Gazi Üniversitesi Bilgisayar Mühendisliği Bölümü Konular Denetimli Öğrenmenin Temelleri Karar Ağaçları Entropi ID3 Algoritması C4.5 Algoritması Twoing

Detaylı

İSTATİSTİK MHN3120 Malzeme Mühendisliği

İSTATİSTİK MHN3120 Malzeme Mühendisliği İSTATİSTİK MHN3120 Malzeme Mühendisliği CBÜ - Malzeme Mühendisliği Bölümü Ofis: Mühendislik Fakültesi A Blok Ofis no:311 Tel: 0 236 2012404 E-posta :emre.yalamac@cbu.edu.tr YARDIMCI KAYNAKLAR Mühendiler

Detaylı

Genetik Algoritmalar. Bölüm 1. Optimizasyon. Yrd. Doç. Dr. Adem Tuncer E-posta:

Genetik Algoritmalar. Bölüm 1. Optimizasyon. Yrd. Doç. Dr. Adem Tuncer E-posta: Genetik Algoritmalar Bölüm 1 Optimizasyon Yrd. Doç. Dr. Adem Tuncer E-posta: adem.tuncer@yalova.edu.tr Optimizasyon? Optimizasyon Nedir? Eldeki kısıtlı kaynakları en iyi biçimde kullanmak olarak tanımlanabilir.

Detaylı

Üretim Süreci: Girdi İşlem Ürün (Sonuç) Araştırma Süreci: Hangi alanda olursa olsun araştırma bir BİLGİ ye ulaşma sürecidir.

Üretim Süreci: Girdi İşlem Ürün (Sonuç) Araştırma Süreci: Hangi alanda olursa olsun araştırma bir BİLGİ ye ulaşma sürecidir. BİYOİSTATİSTİK Üretim Süreci: Girdi İşlem Ürün (Sonuç) Araştırma Süreci: Hangi alanda olursa olsun araştırma bir BİLGİ ye ulaşma sürecidir. Veri Analiz Bilgi El ile ya da birtakım bilgisayar programları

Detaylı

Kümeleme Algoritmaları. Tahir Emre KALAYCI

Kümeleme Algoritmaları. Tahir Emre KALAYCI Tahir Emre KALAYCI 2010 Gündem En önemli gözetimsiz öğrenme (unsupervised learning) problemi olarak değerlendirilmektedir Bu türdeki diğer problemler gibi etiketsiz veri kolleksiyonları için bir yapı bulmakla

Detaylı

TEKSTİL SEKTÖRÜNDE ÖRGÜT KÜLTÜRÜNÜN ÖĞRENEN ÖRGÜTE OLAN ETKİSİ

TEKSTİL SEKTÖRÜNDE ÖRGÜT KÜLTÜRÜNÜN ÖĞRENEN ÖRGÜTE OLAN ETKİSİ T.C. İSTANBUL TİCARET ÜNİVERSİTESİ SOSYAL BİLİMLER ENSTİTÜSÜ, İŞLETME ANABİLİM DALI İŞLETME DOKTORA PROGRAMI TEKSTİL SEKTÖRÜNDE ÖRGÜT KÜLTÜRÜNÜN ÖĞRENEN ÖRGÜTE OLAN ETKİSİ Doktora Tezi Araştırma Önerisi

Detaylı

Temel ve Uygulamalı Araştırmalar için Araştırma Süreci

Temel ve Uygulamalı Araştırmalar için Araştırma Süreci BÖLÜM 8 ÖRNEKLEME Temel ve Uygulamalı Araştırmalar için Araştırma Süreci 1.Gözlem Genel araştırma alanı 3.Sorunun Belirlenmesi Sorun taslağının hazırlanması 4.Kuramsal Çatı Değişkenlerin açıkça saptanması

Detaylı

8.Hafta. Değişkenlik Ölçüleri. Öğr.Gör.Muhsin ÇELİK. Uygun değişkenlik ölçüsünü hesaplayıp yorumlayabilecek,

8.Hafta. Değişkenlik Ölçüleri. Öğr.Gör.Muhsin ÇELİK. Uygun değişkenlik ölçüsünü hesaplayıp yorumlayabilecek, İSTATİSTİK 8.Hafta Değişkenlik Ölçüleri Hedefler Bu üniteyi çalıştıktan sonra; Uygun değişkenlik ölçüsünü hesaplayıp yorumlayabilecek, Serilerin birbirlerine değişkenliklerini yorumlayabileceksiniz. 2

Detaylı

ZAMAN SERİLERİNDE AYRIŞTIRMA YÖNTEMLERİ

ZAMAN SERİLERİNDE AYRIŞTIRMA YÖNTEMLERİ ZAMAN SERİLERİNDE AYRIŞTIRMA YÖNTEMLERİ 1 A. GİRİŞ Gözlemlerin belirli bir dönem için gün, hafta, ay, üç ay, altı ay, yıl gibi birbirini izleyen eşit aralıklarla yapılması ile elde edilen seriler zaman

Detaylı

MATEMATiKSEL iktisat

MATEMATiKSEL iktisat DİKKAT!... BU ÖZET 8 ÜNİTEDİR BU- RADA İLK ÜNİTE GÖSTERİLMEKTEDİR. MATEMATiKSEL iktisat KISA ÖZET KOLAY AOF Kolayaöf.com 0362 233 8723 Sayfa 2 içindekiler 1.ünite-Türev ve Kuralları..3 2.üniteTek Değişkenli

Detaylı

MAK 210 SAYISAL ANALİZ

MAK 210 SAYISAL ANALİZ MAK 210 SAYISAL ANALİZ BÖLÜM 5- SONLU FARKLAR VE İNTERPOLASYON TEKNİKLERİ Doç. Dr. Ali Rıza YILDIZ MAK 210 - Sayısal Analiz 1 İNTERPOLASYON Tablo halinde verilen hassas sayısal değerler veya ayrık noktalardan

Detaylı

Temel İstatistik. Y.Doç.Dr. İbrahim Turan Mart Tanımlayıcı İstatistik. Dağılımları Tanımlayıcı Ölçüler Dağılış Ölçüleri

Temel İstatistik. Y.Doç.Dr. İbrahim Turan Mart Tanımlayıcı İstatistik. Dağılımları Tanımlayıcı Ölçüler Dağılış Ölçüleri Temel İstatistik Tanımlayıcı İstatistik Dağılımları Tanımlayıcı Ölçüler Dağılış Ölçüleri Y.Doç.Dr. İbrahim Turan Mart 2011 DAĞILIM / YAYGINLIK ÖLÇÜLERİ Verilerin değişkenlik durumu ve dağılışın şeklini

Detaylı

ENM 5210 İSTATİSTİK VE YAZILIMLA UYGULAMALARI. Ders 2 Merkezi Eğilim Ölçüleri

ENM 5210 İSTATİSTİK VE YAZILIMLA UYGULAMALARI. Ders 2 Merkezi Eğilim Ölçüleri ENM 5210 İSTATİSTİK VE YAZILIMLA UYGULAMALARI Ders 2 Merkezi Eğilim Ölçüleri Basit Seriler Elde edilecek ham verilerin küçükten büyüğe doğru sıralanması ile elde edilen serilere basit seri denir ÖRNEK:

Detaylı

Lineer Cebir. Doç. Dr. Niyazi ŞAHİN TOBB. İçerik: 1.1. Lineer Denklemlerin Tanımı 1.2. Lineer Denklem Sistemleri 1.3. Matrisler

Lineer Cebir. Doç. Dr. Niyazi ŞAHİN TOBB. İçerik: 1.1. Lineer Denklemlerin Tanımı 1.2. Lineer Denklem Sistemleri 1.3. Matrisler Lineer Cebir Doç. Dr. Niyazi ŞAHİN TOBB İçerik: 1.1. Lineer Denklemlerin Tanımı 1.2. Lineer Denklem Sistemleri 1.3. Matrisler Bölüm 1 - Lineer Eşitlikler 1.1. Lineer Eşitliklerin Tanımı x 1, x 2,..., x

Detaylı

Örnek...4 : İlk iki sınavında 75 ve 82 alan bir öğrencinin bu dersin ortalamasını 5 yapabilmek için son sınavdan kaç alması gerekmektedir?

Örnek...4 : İlk iki sınavında 75 ve 82 alan bir öğrencinin bu dersin ortalamasını 5 yapabilmek için son sınavdan kaç alması gerekmektedir? İSTATİSTİK Bir sonuç çıkarmak ya da çözüme ulaşabilmek için gözlem, deney, araştırma gibi yöntemlerle toplanan bilgiye veri adı verilir. Örnek...4 : İlk iki sınavında 75 ve 82 alan bir öğrencinin bu dersin

Detaylı

YÖNEYLEM ARAŞTIRMASI - III

YÖNEYLEM ARAŞTIRMASI - III YÖNEYLEM ARAŞTIRMASI - III Prof. Dr. Cemalettin KUBAT Yrd. Doç. Dr. Özer UYGUN İçerik Altın Oran (Golden Section Search) Arama Metodu Tek değişkenli bir f(x) fonksiyonunu ele alalım. [Bazı x ler için f

Detaylı