Sınıflandırma ve Regresyon Ağacı Yönteminin Örnek Veri Seti î le Uygulaması

Benzer belgeler
İstatistik ve Olasılık

Web Madenciliği (Web Mining)

Örneklemden elde edilen parametreler üzerinden kitle parametreleri tahmin edilmek istenmektedir.

DETERMINATION OF FACTORS AFFECTING INDIVIDUALS INVESTMENT BEHAVIOUR USING CHAID ANALYSIS

ÖRNEK BULGULAR. Tablo 1: Tanımlayıcı özelliklerin dağılımı

Meslek lisesi ve devlet lisesine giden N tane öğrenci olduğu ve bunların yıllık okul harcamalarına ait verilerin olduğu varsayılsın.

BÖLÜM 5 MERKEZİ EĞİLİM ÖLÇÜLERİ

C.Ü. İktisadi ve İdari Bilimler Dergisi, Cilt 11, Sayı 2,

Türk Tarım - Gıda Bilim ve Teknoloji Dergisi

BÖLÜM 6 MERKEZDEN DAĞILMA ÖLÇÜLERİ

BÖLÜM 2 VERİ SETİNİN HAZIRLANMASI VE DÜZENLENMESİ

Korelasyon, Korelasyon Türleri ve Regresyon

PARAMETRİK ve PARAMETRİK OLMAYAN (NON PARAMETRİK) ANALİZ YÖNTEMLERİ.

BÖLÜM 13 HİPOTEZ TESTİ

Üniversite Öğrencilerinin Akademik Başarılarını Etkileyen Faktörler Bahman Alp RENÇBER 1

BİYOİSTATİSTİK İstatistiksel Tahminleme ve Hipotez Testi-III Yrd. Doç. Dr. Aslı SUNER KARAKÜLAH

Örnek. Aşağıdaki veri setlerindeki X ve Y veri çiftlerini kullanarak herbir durumda X=1,5 için Y nin hangi değerleri alacağını hesaplayınız.

1. İLİŞKİLERİN İNCELENMESİNE YÖNELİK ANALİZLER Sosyal Bilimlerde Nedensel Açıklamalar

VERİ MADENCİLİĞİ (Karar Ağaçları ile Sınıflandırma) Yrd.Doç.Dr. Kadriye ERGÜN

TEMEL İSTATİSTİKİ KAVRAMLAR YRD. DOÇ. DR. İBRAHİM ÇÜTCÜ

TALEP YANLI YENİLİK: FARKLI ÖZELLİKLERDEKİ FİRMALAR İÇİN ROLÜNÜN BELİRLENMESİ

BİYOİSTATİSTİK Korelasyon Analizi Yrd. Doç. Dr. Aslı SUNER KARAKÜLAH

2001 ve 2008 Yılında Oluşan Krizlerin Faktör Analizi ile Açıklanması

7.Ders Bazı Ekonometrik Modeller. Đktisat (ekonomi) biliminin bir kavramı: gayrisafi milli hasıla.

İçindekiler vii Yazarların Ön Sözü xiii Çevirenin Ön Sözü xiv Teşekkürler xvi Semboller Listesi xvii. Ölçme, İstatistik ve Araştırma...

BURDUR İLİNDE SPORA KATILIMIN SOSYO EKONOMİK BOYUTUNUN ARAŞTIRILMASI

PARAMETRİK OLMAYAN TESTLER

YABANCI DİL EĞİTİMİ VEREN ÖZEL BİR EĞİTİM KURUMUNDAKİ ÖĞRENCİLERİN BEKLENTİLERİNİN ARAŞTIRILMASI. Sibel SELİM 1 Efe SARIBAY 2

KARAR AĞAÇLARI SÜMEYYE ÖZKAN BAHAR BAKAR İZEL KOLCU

ANADOLU ÜNİVERSİTESİ. ENM 317 MÜHENDİSLİK İSTATİSTİĞİ PARAMETRİK OLMAYAN TESTLER Prof. Dr. Nihal ERGİNEL

COĞRAFİ ETİKETLİ ÜRÜNLERE İLİŞKİN TÜKETİCİLERİN TUTUM VE DAVRANIŞLARININ BELİRLENMESİ

İçindekiler. Pazarlama Araştırmalarının Önemi

ÇND BİYOİSTATİSTİK EĞİTİMİ

Eğitim seti (training set) sınıflandırma modelinin elde edileceği kayıtları içerir

3 KESİKLİ RASSAL DEĞİŞKENLER VE OLASILIK DAĞILIMLARI

ÖZGEÇMİŞ. Derece Bölüm/Program Üniversite Yıl. Lisans İSTATİSTİK ANADOLU Yüksek Lisans İŞLETME / SAYISAL YÖNTEMLER ANADOLU 1999

ÖĞRETMEN ADAYLARININ PROBLEM ÇÖZME BECERİLERİ

ÖZGEÇMİŞ. 1. Adı Soyadı : Kamile ŞANLI KULA İletişim Bilgileri : Ahi Evran Üniversitesi, Fen Edebiyat Fakültesi, Adres Matematik Bölümü, KIRŞEHİR

İnternet Destekli Temel Bilgisayar Bilimleri Dersinde Anket Uygulaması

Kullanılacak İstatistikleri Belirleme Ölçütleri. Değişkenin Ölçek Türü ya da Yapısı

İSTATİSTİK 1. Ankara Üniversitesi Eğitim Bilimleri Fakültesi Ölçme ve Değerlendirme Anabilim Dalı. Yrd. Doç. Dr. C. Deha DOĞAN

Hipotez. Hipotez Testleri. Y. Doç. Dr. İbrahim Turan Nisan 2011

2. REGRESYON ANALİZİNİN TEMEL KAVRAMLARI Tanım

Test İstatistikleri AHMET SALİH ŞİMŞEK

Yerel Ürünlerin Tüketiminin Modellenmesi; Çoklu Bir Yöntem Yaklaşımı. Arş. Gör. Ayça Nur ŞAHİN

Ders 1 Minitab da Grafiksel Analiz-I

VERİ MADENCİLİĞİ. Karar Ağacı Algoritmaları: SPRINT algoritması Öğr.Gör.İnan ÜNAL

ÜNİVERSİTE ÖĞRENCİLERİNİN BAŞARILARI ÜZERİNE ETKİ EDEN BAZI FAKTÖRLERİN ARAŞTIRILMASI (MUĞLA ÜNİVERSİTESİ İ.İ.B.F ÖRNEĞİ) ÖZET ABSTRACT

İki Ortalama Arasındaki Farkın Önemlilik Testi (Student s t Test) Ankara Üniversitesi Tıp Fakültesi Biyoistatistik Anabilim Dalı

Prof. Dr. Özkan ÜNVER Prof. Dr. Hamza GAMGAM Doç. Dr. Bülent ALTUNKAYNAK SPSS UYGULAMALI TEMEL İSTATİSTİK YÖNTEMLER

Ortalamaların karşılaştırılması

İstatistik Nedir? Ders 1 Minitab da Grafiksel Analiz-I ENM 5210 İSTATİSTİK VE YAZILIMLA UYGULAMALARI. İstatistiğin Konusu Olan Olaylar

İSTATİSTİK ÖRNEK SORULARI

DENİZ HARP OKULU TEMEL BİLİMLER BÖLÜM BAŞKANLIĞI DERS TANITIM BİLGİLERİ

Sık kullanılan istatistiksel yöntemler ve yorumlama. Doç. Dr. Seval KUL Gaziantep Üniversitesi Tıp Fakültesi

KARŞILAŞTIRMA İSTATİSTİĞİ, ANALİTİK YÖNTEMLERİN KARŞILAŞTIRILMASI, BİYOLOJİK DEĞİŞKENLİK. Doç.Dr. Mustafa ALTINIŞIK ADÜTF Biyokimya AD 2005

Demografik Kriterlerin Yoğurt Marka Tercihlerindeki Rolünün Manova Đle Belirlenmesi

Çapraz Tablo ve Diğer Tabloları Oluşturabilmek Bu Tablolara Uygun Çok Yönlü Grafikleri Çizebilmek

T.C. MUĞLA SITKI KOÇMAN ÜNİVERSİTESİ EĞİTİM BİLİMLERİ ENSTİTÜSÜ

Parametrik İstatistiksel Yöntemler (t testi ve F testi)

KUKLA DEĞİŞKENLİ MODELLER. Kukla değişkenlerin diğer kantitatif değişkenlerle alındığı modeller (Kovaryans Analizi Modeller)

TANIMLAYICI İSTATİSTİKLER

MYO-ÖS Ulusal Meslek Yüksekokulları Öğrenci Sempozyumu EKĐM 2010-DÜZCE

İstanbul İlinde Tüketicilerin Süt ve Süt Ürünleri Tüketim Alışkanlıkları *

BİR ÖRNEKLEM İÇİN T TESTİ İLİŞKİSİZ ÖRNEKLEMLER İÇİN T-TESTİ

AMAÇ. Finansal Performans Ölçümü İĞİ RLENMESİ. Kamu Hastanelerinde Finansal Perspektif

daha çok göz önünde bulundurulabilir. Öğrencilerin dile karşı daha olumlu bir tutum geliştirmeleri ve daha homojen gruplar ile dersler yürütülebilir.

BEDEN EĞİTİMİ VE SPOR YÜKSEKOKULU ÖĞRENCİLERİNİN SAĞLIKLI YAŞAM BİÇİMİ DAVRANIŞLARININ İNCELENMESİ

QUANTILE REGRESYON * Quantile Regression

İÇİNDEKİLER BİRİNCİ KISIM: TASARIM PAZARLAMA ARAŞTIRMASINA GİRİŞ

Korelasyon testleri. Pearson korelasyon testi Spearman korelasyon testi. Regresyon analizi. Basit doğrusal regresyon Çoklu doğrusal regresyon

DERS BİLGİLERİ Ders Kodu Yarıyıl T+U Saat Kredi AKTS Deneysel Tasarım EKO60 Bahar Ön Koşul Dersin Dili. Zorunlu

PARAMETRİK TESTLER. Tek Örneklem t-testi. 200 öğrencinin matematik dersinden aldıkları notların ortalamasının 70 e eşit olup olmadığını test ediniz.

Sınavlı ve Sınavsız Geçiş İçin Akademik Bir Karşılaştırma

DIŞ TİCARET ENSTİTÜSÜ WORKING PAPER SERIES. Tartışma Metinleri WPS NO/ 165/

Ekonometri I VARSAYIMLARI

T.C. SELÇUK ÜNİVERSİTESİ REKTÖRLÜĞÜ

VERİLERİN SINIFLANDIRILMASI

H.Ü. Bilgi ve Belge Yönetimi Bölümü BBY 606 Araştırma Yöntemleri (Bahar 2014) 3 Nisan 2014

ÇEŞİTLİ YÖRELERDE YAPILAN ARAŞTIRMA SONUÇLARINA GÖRE TARIM İŞLETMELERİNDE GELİR DURUMU VE TÜKETİM EĞİLİMLERİ

İçindekiler. Ön Söz... xiii

Temel ve Uygulamalı Araştırmalar için Araştırma Süreci

Bulanık Mantık Tabanlı Uçak Modeli Tespiti

Matris Cebiriyle Çoklu Regresyon Modeli

SİYAH ALACA SIĞIRLARDA 305 GÜNLÜK SÜT VERİMİ ÜZERİNE ETKİLİ FAKTÖRLERİN PATH ANALİZİ İLE İNCELENMESİ

3. TAHMİN En Küçük Kareler (EKK) Yöntemi 1

Yrd. Doç. Dr. Mehmet Güçlü

İNŞAAT MÜHENDİSLİĞİNDE LİSANS SONRASI AKADEMİK EĞİTİM: SAYILARLA TÜRKİYE DEKİ MEVCUT DURUM

Statistical Package for the Social Sciences

17 Ekim Ders Kitabı: Introductory Econometrics: A Modern Approach (2nd ed.) J. Wooldridge. 1 Yıldız Teknik Üniversitesi

1. GİRİŞ Kılavuzun amacı. Bu bölümde;

BİYOİSTATİSTİK DERSLERİ AMAÇ VE HEDEFLERİ

İÇİNDEKİLER 1. BÖLÜM STATA PAKET PROGRAMINA GİRİŞ

χ 2 Testi Mühendislikte İstatistik Yöntemler Bağımsızlık Testi Homojenlik Testi Uygunluk Testi

Destek ve sevgilerini eksik etmeyen Ailem ve sevgili yeğenlerim Emre ve Bengisu ya. iii

BEDEN EĞİTİMİ VE SPOR DERSLERİNDE ALTERNATİF ÖLÇME-DEĞERLENDİRME YÖNTEMLERİ KULLANILMASINA İLİŞKİN ÖĞRETMEN GÖRÜŞLERİNİN İNCELENMESİ

BİYOİSTATİSTİK. Uygulama 6. Yrd. Doç. Dr. Aslı SUNER KARAKÜLAH

Duygu Aktürk 1* Geliş Tarihi: Kabul Tarihi:

Transkript:

Sınıflandırma ve Regresyon Ağacı Yönteminin Örnek Veri Seti î le Uygulaması Duygu AKTÜRK1 Zeki BAYRAMOĞLU2 Ferhan SAVRAN3 dd_akturk@hotmail.com zbayramoglu@selcuk.edu.tr ferhansavran@hotmail.com Doç.Dr., Çanakkale Onsekiz Mart Üniversitesi Ziraat Fakültesi Tarım Ekonomisi Bölümü 2Doç.Dr., Selçuk Üniversitesi Ziraat Fakültesi Tarım Ekonomisi Bölümü 3Yrd. Doç.Dr., Çanakkale Onsekiz Mart Üniversitesi Ziraat Fakültesi Tarım Ekonomisi Bölümü Özet Sosyal bilimlerde yapılan araştırmalarda değişkenler arasındaki ilişkilerin ölçülmesinin kantitatif olarak yapılabilmesi çalışmanın sonuçlarını daha anlaşılabilir ve kullanılabilir hale getirmektedir. Nitekim birbiri üzerinde etkisinin olduğuna inanılan değişkenlerin etki derecelerinin belirlenmesi için birçok istatistik yöntemler ve ekonometrik modeller geliştirilmiştir. Geliştirilen modeller veri özelliğine göre değişmektedir. Geliştirilen bu yöntemlerin birçok varsayımı bulunmakta olup, uygulamayı güçleştirmektedir. Bu nedenle daha az varsayımın olması uygulamayı kolaylaştırmaktadır. Bu çalışmada kesikli ve sürekli verilerin analizinde kullanılabilen sınıflandırma ve regresyon ağacı yöntemi Çanakkale ilinde zeytinyağı tüketici anketinden elde edilen veriler ile anlatılmaya çalışılmıştır. Anahtar sözcükler: sınıflandırma ve regresyon ağacı, CART, karar ağaçları Application of Classification & Regression Tree Method With a Sample Data Abstract Studies on Social Sciences integrative agreements after measuring the quantitative relations between variables can be used as a case study of results can be carried out makes it more understandable and can be used. In fact, effect on other variables is believed to have been for the determination of ratings domain of statistical methods and models have been developed based on econometric models that we developed. According to data-models are developed. There are several assumption that these methods for the application and they complicate the appication. This is why it is a less hypothesis makes it easier.in this study intermittent and continuous data analysis that can be used in the classification and regression tree method with the data obtained from olive oil consumers in Çanakkale province. Keywords: Classification & Regression Tree, CART, Decision trees 1. Giriş Bilimsel çalışmaların yapılması kadar sonuçlarının objektif olarak değerlendirilmesi ve yorumlanması da önemlidir. Özellikle sosyal bilimler alanında yapılan çalışmalarda, var olan materyallerden gözleme dayalı olarak sonuç çıkarmak subjektif olabilmekte ve değer yargıları içerebilmektedir. Bu şekilde sonuçları yorumlanan çalışmaların kabul edilebilirliği düşük olmakla birlikte, bu sonuçlara göre çıkarım yapmak ve politika üretmek de güvenilir değildir. Nitekim bu durum veri özelliklerine göre değişmekle birlikte fen ve sağlık bilimleri alanlarında yapılan çalışmalar için de böyledir. Yapılan bilimsel çalışmaların sonuçlarının daha anlamlı bir şekilde yorumlanabilmesi ve kullanılabilir sonuçların elde edilebilmesi için sayısal yöntemlerin kullanılması gerekmektedir. Sayısal yöntemler alanı oldukça geniş olup veri özelliklerine ve çalışmanın amacına göre farklılıklar göstermetedir. Bazı sayısal yöntemler (Veri Zarflama Analizi vb.) belirli sorunların çözümü üzerine geliştirilmiş olup, bazıları da (Regresyon Analizi) belirli varsayımları sağlamak şartıyla her alanda kullanılmaktadır. Ancak bu yöntemlerin kullanılmasını güçleştiren sebepler vardır. Bunlar, kullanılabilir veri temin etme ve kullanılan yöntemlerin varsayımlarıdır. Özellikle parametrik yöntemlerle yapılan analizlerde, normal dağılım, homojenlik gibi varsayımların sağlanması şartı gerekmektedir. Ancak bu varsayımlar her zaman sağlanmamakta ve bu yöntemlerin kullanımı mümkün olmamaktadır. Daha az varsayım gerektiren ancak sonuçları parametrik yöntemlere göre daha az güvenilir olan nonparametrik parametrik olmayan yöntemler de yaygın olarak kullanılan sayısal yöntemlerdendir. Bu yöntemlerde normal dağılım varsayımı aranmazken veri sayısı bu yöntemlerin kullanılması için bir ön şarttır. Bu çalışmada kullanımı çok fazla yaygın olmayan ancak bir çok problemin çözümünde kullanılması mümkün olan ve kullanılabilir sonuçlar veren Sınıflandırma ve Regresyon Ağacı Yöntemi (Classification & Regression Tree Method, Karar Ağacı) zeytin yağı tüketimi verileri ile açıklanmıştır. 2. M ateryal ve Yöntem Bu çalışmada kullanılan veriler Nisan 2012 tarihinde Çanakkale şehir merkezinde tüketicilerle yüzyüze anket yöntemi ile toplanmıştır. Çalışma kapsamında oran ortalamalarına dayalı basit tesadüfi örnekleme yöntemine göre seçilmiş 379 tüketici ile görüşülmüş ve anket soru formları doldurulmuştur. Anket formlarında, tüketicilerin sosyo- ekonomik özellikleri ve zeytinyağı tüketim davranışlarını etkileyebilecek özellikleri ile ilgili bilgiler toplanmıştır. Çalışmada, Sınıflandırma ve Regresyon Ağacı (SRA) yöntemi kullanılmış ve söz konusu yöntemin açıklanmasında zeytinyağı tüketim verileri kullanılmıştır. Analiz için uygun değişken seti oluşturulmuştur. SRA için oluşturulan değişken seti Çizelge 1 de verilmiştir. 817

10. Ulusal Tarım Ekonomisi Kongresi 5-7 Eylül 2012 Konya Çizelge 1. SRA için oluşturulmuş değişken seti Değişken Adı Simge Tipi Sınıflandırma 0-5=1 ;5-10=2 ; 10-15 =3 ; Kategorik Hane Halkı Başına Zeytin Yağı Tüketimi CZY 15-20 = 4 Sürekli Kg Hane Halkı Sayısı (Kişi) CHHS Kategorik Ortalama Hane Halkı Yaşı CHHY Kategorik Alış veriş yapan kişinin yaşı CAVY Kategorik Alış veriş yapan kişinin eğitimi CE Kategorik Doğum yeri CDY Kategorik Doğum yeri mülki idari yapısı CDYMY Kategorik Aylık Ortalama Aile Geliri CGLR Kategorik Gıda harcamalarının toplam harcamalara oranı CGH Kategorik Eğitim harcamalarının toplam harcamalara oranı CEH Kategorik Sağlık harcamalarının toplam harcamalara oranı CSH Kategorik Kültür harcamalarının toplam harcamalara oranı CKH Kategorik Ortalama Hane Halkı Yaşı RHHY Sürekli Alış veriş yapan kişinin yaşı RAVY Sürekli Aylık Ortalama Aile Geliri (TL) RGLR Sürekli 0-35=1 36-50=2 50 ve üzeri= 3 0-35=1 36-50=2 50 ve üzeri= 3 Okur yazar değil =1; Okuryazar = 2; İlkokul = 3; Ortaokul ve dengi = 4; Lise ve dengi = 5; Üniversite = 6; Yüksek lisans/doktora; 7 Zeytin üreten iller =1 diğerleri = 0 Büyük şehir (Nüfusu bir milyondan fazla)=1; İl merkezi ( Nüfusu bir milyondan az) =2; İlçe merkezi =3; Kasaba/ Köy = 4; 0-2500=1 2501-5000 =2 5001-7500 = 3; 7501-10000 = 4 10001 ve üzeri; 5 Sınıflama ve Regresyon Ağaçı (SRA): Karar ağacı adından da anlaşıldığı gibi ağaç olarak görünen, tahminsel bir modeldir (Koyuncugil ve Özgülbaş, 2008). Değişkenleri parçalayarak bir ağaç oluşturmaya dayanmaktadır (Çinko, 2006). Ağaç yapısı ve kolay kural çıkarımına olanak tanımasıyla oldukça yararlı bir tekniktir. Bu bağlamda karar ağaçlarının daha çok tıp, endüstri ve mühendislik bilimlerinde yaygın olarak kullanıldığı bilinmektedir (Kayri ve Boysan, 2008, Sugumaran vd., 2007). Ülkemizde ise karar ağacı algoritmalarının kullanımı oldukça yenidir. Karar ağacı algoritmalarının en önemli avantajı, diğer çok değişkenli tekniklerde sağlanması gereken istatistik varsayımların bu yöntemde olmamasıdır. Ayrıca karar ağacı algoritmalarının bağımlı ve bağımsız değişkenler arasındaki ilişkilerin yönünü, önem sırasını görselleştirmesi de bir diğer avantajıdır. Bu özelliği ile elde edilen sonuçların yorumunu oldukça basitleştirmekte, daha somut ve kullanışlı hale getirebilmektedir (Yılmaz, 2008; Saraçlı ve vd. 2006). Yöntem literatürde Sınıflandırma ve Regresyon Ağacı olarak adlandırılmakta olup SRA Analizi (CART) olarak bilinmektedir. Yöntem genelde grupların homojenliği üzerinden işlemektedir. Üzerinde çalışılan bağımlı değişkeni etkileyen bağımsız değişkenler ilk önce bağımlı değişkeni etkileme durumuna göre değerlendirilmektedir. Bu değerlendirme yapılırken değişkenlerin kendi içerisindeki homojenliği dikkate alınmaktadır. SRA analizi uygulaması sırasında farklı iki yol izlenmekte olup, bunlar CRT ve CHAİD olarak adlandırılmaktadır. CRT yöntemi seçildiğinde bağımlı değişkeni etkileyen bağımsız değişkenler homojen iki gruba ayrılmaktadır. Böylece ağaç yapısı oluşturulmaktadır. Ağaç yapısı oluşturulurken ilk bağımlı değişkenden sonra modele alınan ilk değişken, bağımlı değişkeni en fazla etkileyen değişkendir. CRT yönteminde bu etki improvement olarak adlandırılan ilerleme katsayısı ile belirlenmektedir. Bu katsayı ağaç 818

yapısı itibari ile yukarıdan aşağıya doğru inildikçe küçülmektedir. Bu değerin herhangi bir alt veya üst sınırı bulunmamaktadır. Bu değere göre ağaç yapısı oluşturulmaktadır. Bu yöntemde bağımlı değişkenin yapısına göre karar ağacının ve modelin ismi değişmektedir. Bağımlı değişken kategorik olduğunda model sınıflandırma ağacı, sürekli değişken olduğunda ise regresyon ağacı olarak adlandırılmaktadır (Chang ve Wang, 2006). Bağımlı değişkeni etkileyen bağımsız değişkenler homojen bir şekilde alt kümelere ayrıldıkları zaman yavru düğüm olarak adlandırılırlar. Ancak alt kümelere ayrılmayan alt düğümler terminal düğüm olarak adlandırılmaktadır. SRA analizinde diğer bir yol ise CHAİD yöntemidir. Her ikisi de aynı amaçlar için kullanılmakta olup, karar ağacı oluşturma aşamasında farklılıklar bulunmaktadır. Ancak CHAİD yöntemi diğer yönteme tercih edilmektedir. CHAID (Chi-Squared Automatic Interaction Detector-Otomatik Ki-Kare Etkileşim Belirleme Analizi) analizi sınıflandırma ve regresyon ağacı yöntemi içerisinde alt bir analizdir (Albayrak ve Kotlan-Yılmaz, 2009). CHAID analizi ile diğer karar ağaç yöntemleri arasındaki en önemli farklılık ağaç türetiminden kaynaklanmaktadır. Diğer yöntem ikili ağaçlar türetirken, CHAID analizi çoklu ağaçlar türetmektedir (Türe vd., 2009:2020). CHAID analizi ile elde edilecek bir regresyon denklemi, bilinen klasik varsayımlardan (normallik, doğrusallık, homojenlik vb.) bağımsız tutulmaktadır. Çünkü güçlü bir öteleme algoritması (iteration algorithm) ile bütün olan evren kararlı alt düğümlere (node) bölünebilmektedir. Bu işlem ayrıca verilerin dağılımında normalliği ve homojenliği sağlayabilmektedir. Ayrıca CHAID analiziyle sürekli ve kategorik veriler, aynı anda modele dahil edilebilmektedir (Kayri ve Boysan, 2007; Koyuncugil, 2007; Doğan, 2003). Bir başka ifadeyle bağımlı ve bağımsız değişkenlerin tümünün aynı tip ölçekle ölçülmüş olmasına gerek bulunmamaktadır (Saraçlı vd., 2006; Koyuncugil ve Özgülbaş, 2008). Bu nedenle CHAID analizi parametrik ve parametrik olmayan (nonparametrik) ayrımını kaldırmakta ve yöntem algoritmasında istatistiksel olarak yarı parametrik (semi-parametric) bir özellik taşımaktadır (Kayri ve Boysan, 2007). CHAID analizinde özellikle bağımsız değişkenlerin, birbirleriyle olan ilişki ve etkileşimleri incelenmektedir (Kayri ve Boysan, 2008). Bu nedenle değişkenler arasındaki ilişkileri de test etmektedir. Eğer bağımlı değişken kategorik ise değişkenler arasındaki ilişki Ki-Kare analizi ile, bağımlı değişken sürekli ise F testi ile test edilmektedir. Bu testlerle değişkenler arasındaki bağımlılık da incelenmektedir (Kayri ve Boysan, 2007; Erbaş ve Güneş, 1998; Koyuncugil, 2007; İmamoğlu, 2005). CHAID analizi kullanılmasının gerekçeleri şöyle sıralanabilir (Üngüren ve Doğan, 2010). Sürekli ve kategorik verilerin aynı anda modele dahil edilebilmesi, Bağımlı ve bağımsız değişkenler arasındaki ilişkilerin daha ayrıntılı değerlendirilebilmesi, Bağımlı değişkenler üzerinde etkili olan bağımsız değişkenleri bir ağaç diyagramı üzerinde resmederek gösterebilme, Ağaç diyagramının diğer analiz sonuçlarına göre görsel anlamda daha kolay yorumlanabilmesi, Elde edilen sonuçların anlaşılabilirliğini kolaylaştırması. 3. A raştırm a Bulguları 3.1. Sınıflandırma Ağacı SRA analizinin yapılmasında Çanakkale ilinde zeytin yağı tüketici veri seti kullanılmıştır. Tüketici davranışlarınn incelenmesinde paremetrik ve nonparemetrik analizlerin yaygın olarak kullanıldığı bilinmektedir. Bu çalışmada kolay veri sağlama ve verilerin farklı yöntemlere uygunluğu nedeniyle tüketim verileri tercih edilmiştir. Bu amaca yönelik olarak zeytinyağı tüketici davranışlarını etkileyen, hane halkı sayısı, ortalama hanehalkı yaşı, alış veriş yapan kişinin yaşı ve eğitimi, doğum yeri, doğum yerinin idari yapısı, aylık ortalama gelir, tüketim harcamalarının oransal dağılımı, ortalama hane halkı yaşı ile ilgili veriler anket yöntemi ile elde edilmiştir. Tüketici davranışlarındaki değişiklikleri incelediğimiz değişken ise hane halkı zeytin yağı tüketim miktarı olarak belirlenmiştir. SRA analizinde bağımlı değişkenin yapısı modelde anlamlılık testleri ve modelin ismi açısından önemli olduğundan, bağımlı değişken sürekli ve katagorik olarak analiz edilmiştir. Bağımlı değişken sınıflandırma analizi yapıldığında 4 katagoriye ayrılmıştır. Katogoriler Çizelge 1 de verilmiştir. Regresyon Analizinde ise anket aşamasında elde edilen veriler sürekli veri yapısında modele dahil edilmiştir. SRA analizine göre ağaç yapısı oluştururken ilk önce maksimum ağaç yapısı oluşturulmaktadır. Maksimum ağaç yapısında bütün bağımsız değişkenler bağımlı değişken üzerindeki etkileri dikkate alınarak modele dahil edilirler. Daha sonra etki dereceleri düşük olan ve ilişkileri anlamsız çıkan değişkenler modelden çıkarılır. Bu işlem budama olarak adlandırılmaktadır. Ağaç yapısının başlangıç modülü bağımlı değişken olan hane halkı zeytin yağı tüketimi yer almaktadır. Bağımlı değişken kategorik olduğu için her kategoriye ait yüzde dağılım, modül içerisinde verilmiştir. Toplam 379 hene halkı verisi alınmış olup, bunun % 65. 2 si 0-5 kg, % 25.9 u 6-10 kg, % 6.6 sı 11-15 kg ve % 2.4 sı 16-20 kg arası zeytintağı tüketen hane halklarından oluşmaktadır. Hane halkları zeytin yağı tüketimini en fazla etkileyen faktör hane halkalarının kültürel harcamalarının toplam harcamalar içerisindeki payı olarak belirlenmiştir. Kültürel harcamaların hane halkları toplam harcamaları içerisindeki payının yüksek olması kültürel düzey ile ilişkilendirilmiş ve kültürel düzeyin zeytin yağı tüketimi üzerindeki etkisinin açıklanması amaçlanmıştır. Zeytin yağı tüketimi ile kültürel harcamalar arasındaki ilişkinin varlığı ki-kare testinde de % 1 önem seviyesinde anlamlı bulunmuştur. SRA analizi ağaç yapısında alt modülleri oluştururken homojenliği dikkate almakta olup, kültür harcamalarım iki alt homojen gruba ayırmıştır. Nitekim kültürel harcamalar 819

10. Ulusal Tarım Ekonomisi Kongresi 5-7 Eylül 2012 Konya değişkeni kategorik bir değişken olup, nominal yapıdadır. Bu nedenle kültürel harcamalar değişkeni için oluşturulan alt modüller 1 ve 0 için oluşturulmuştur. Bu değişkende kültürel harcamaları olan hane halkları için 1 ve olmayanlar için sıfır değeri verilmiştir. Kültürel harcama yapan hane halkalarının sayısı 163 olup, toplam içerisindeki oranı % 43 olarak belirlenmiştir. Bunların % 76.1 i 5 kg da daha az zeytin yağı tüketirken, % 18.4 ü 6-10 kg, % 4.3 si 11-15 kg ve % 1.2 si 16-20 kg arası yağ tüketmektedirler. Kültürel harcama yapmayan hane halklarının sayısı 216 olup, toplam içerisindeki payı % 57 dir. Kültürel harcama yapmayanların içerisinde de 0-5 kg yağ tüketenlerin oranı % 56.9 ile birinci sıradadır. Kültürel harcama yapmayan 163 kişilik grubun, modele dahil edilen diğer değişkenlerle bir ilişkisi belirlenmemiştir. Böylece bu grubun aşağıya doğru bir dal yapısı oluşturluması durmuştur. Bu durum terminal düğüm olarak adlandırılmaktadır. Kültürel harcamalar yapmayan 216 kişilik grubun zeytinyağı tüketimi açısından eğitim seviyesi ile bir ilişkisinin olduğu belirlenmiştir. Bu ilişki ki-kare testine göre % 5 önem seviyesinde anlamlı bulunmuştur. Kültür harcaması yapmayan 216 kişilik grup iki homojen sınıfa ayrılmıştır. Birinci homojen grup lise mezunu ve daha aşağı seviyede eğitim seviyesine sahip, ikinci grup ise üniversite ve lisans üstü eğitim seviyesine sahiptir. Birinci grupta var olan 151 kişinin % 51.7 si 5 kg da daha az zeytin yağı tüketirken, % 33.8 i 6-10 kg, % 9.9 u 11-15 kg ve % 4.6 sı 16-20 kg arası zeytin yağı tüketmektedirler. Lisan ve lisansüstü eğitim seviyesine sahip ikinci grup ise 65 kişi olup, % 69.2 si 5 kg dan daha az zeytin yağı tüketirken, % 26.2 si 6-10 kg, % 4.6 sı 11-15 kg arası zeytin yağı tüketmektedirler. Lisans ve lisans üstü eğitim seviyesine sahip olan grubun modele dahil edilmiş diğer değişkenlerle bir ilişkisi belirlenmemiştir. Bu grup terminal düğüm olarak kalmıştır. Eğitim seviyesi lise ve daha aşağı olan grup için ise eğitim seviyesi ile gelir düzeyi arasında zeytinyağı tüketimi açısından ilişki olduğu belirlenmiştir. Bu ilişki ki kare analizi ile % 5 önem seviyesinde istatiski olarak anlamlı bulunmuştur. Lise ve daha aşağı eğitim seviyesine sahip olan 151 kişilik bu grup gelir düzeyleri bakımından iki homojen alt gruba ayrılmıştır. Birinci grup aylık geliri 1900 TL ve daha aşağı olan, ikinci grup ise aylık geliri 1900 TL den fazla olan gruptur. Aylık geliri 1900 TL ve daha az olan grup 52 kişi olup, bunun % 63.5 i 5 kg da daha az zeytin yağı tüketirken, % 32.7 si 6-10 kg, % 1.9 u 11-15 kg ve % 1.9 u 16-20 kg arası zeytin yağı tüketmektedirler. İkinci grupta yer alan 99 kişinin ise % 45.5 i 5 kg dan daha az zeytin yağı tüketirken, % 34.3 ü 6-10 kg, % 14.1 i 11-15 kg ve % 6.1 i 16-20 kg arası zeytin yağı tüketmektedirler. SRA analizinin en belirgin kullanım amacı sınıflandırma yapmasıdır. Grupları homojen olarak ayırmaktadır. Şekil 1 de de görüldüğü gibi zeytin yağı tüketicilerini homojen bir şekilde sınıflandırmış ve görsel olarak analaşılabilir bir şekilde vermiştir. Her bir terminal düğüm sınıf olarak adlandırılırsa analiz sonucunda dört adet sınıf oluşturulduğu söylenebilir. Buna göre Birinci sınıf; 163 kişiden oluşup toplam zeytinyağı tüketicilerinin % 43.0 ünü oluşturmaktadır. Bu grubun öne çıkan en belirgin özelliği kültürel harcama yapmasıdır. Bu çalışmada değişken seti hazırlanırken külürel harcama kriteri kültür düzeyi göstergesi olarak kabul edilmiştir. Dolayısı ile Zeytin yağı tüketicilerinin % 43 ünün kültür seviyelerinin yüksek olduğu söylenebilir. Aynı zamanda bu grup eğitim seviyesi, gelir düzeyi, yaş, vs. gibi kriterlere göre homojen bir grup değildir. ikinci sınıf; 65 kişiden oluşmuş olup, toplam zeytinyağı tüketicilerinin % 17.15 ini oluşturmaktadır. Bu sınıfın temel özelliği kültürel harcama yapmayan ve eğitim seviyesi lisans ve lisans üstü düzeyde olanlardır. Dolayısı ile zeytinyağı tüketicilerinin % 17.2 si lisans ve lisans üstü eğitim seviyesine sahip kültürel etkinliklere eğilimi az olan sınıfdır. Üçüncü sınıf; 99 kişiden oluşmuş olup, toplam zeytinyağı tüketicilerinin % 26.12 sini oluşturmaktadır. Bu grupta yer alan tüketiciler kültürel harcama yapmayan, eğitim seviyeleri lise ve daha düşük düzeyde olan ve gelir seviyeleri 1900 TL nin üzerinde olanlardır. Dördüncü sınıf; 52 kişiden oluşmakta olup, toplam zeytinyağı tüketicilerinin % 13.72 sini oluşturmaktadır. Bu grupta yer alan tüketicilerin ortak özelliği ise kültürel harcama yapmayanlar, eğitim düzeyi lise ve daha aşağı düzey ve gelir seviyeleri 1900 TL ve daha aşağı olmasıdır. 820

Şekil 1: Sınıflandırma Ağacı 821

10. Ulusal Tarım Ekonomisi Kongresi 5-7 Eylül 2012 Konya 3.2 Regresyon Ağacı Bağımlı değişkenin sürekli olduğu SRA analizi sonuçları Şekil 2 de verilmiştir. Bağımlı değişken zeytin yağı tüketim miktarı değişkeni sürekli verilerden oluşmuştur. Regresyon Ağacının oluşturulması bağımlı değişkenin kategorik olduğu sınıflandırma ağacı ile aynıdır. Ancak değişkenler arasındaki ilişkilerin test edilmesi ve değişkenlere ait istatistiklerin verilmesi farklıdır. Değişkenler arasındaki ilişki F testi ile test edilmekte olup, değişkenlere ait ortalama ve standart sapma gibi istatistikler verilmektedir. Sınıflandırma ağacı ile regresyon ağacının model oluşturma açısından aralarındaki tek fark bağımlı değişkenin yapısıdır. Regresyon ağacında bağımlı değişken sürekli ve sınıflandırmada kategorik olarak belirlenmiştir. Sonuçlarda birbirine benzerdir. Nitekim zeytinyağı tüketimi üzerinde en etkili değişken sınıflandırma ağacında olduğu gibi kültürel düzey göstergesi olan kültürel harcamaların toplam harcamalar içerisindeki payıdır. Kültürel harcamalar iki homojen sınıfa, kültürel harcama yapan ve yapmayan olarak ayrılmıştır. Kültürel harcama yapanlar terminal düğüm olup, diğer değişkenlerle aralarında bir ilişki belirlenmemiştir. Bu durum bu grubun homojen olmadığı anlamına da gelmektedir. Kültürel harcama yapmayanlar eğitim düzeylerine göre iki homojen gruba ayrılmış ve her ikisi de terminal düğüm olarak kalmışlardır. Zeytin yağı tüketimi açısından kültürel harcama ile eğitim arasındaki ilişki % 5 önem seviyesinde anlamlı bulunmuştur. Şekil 2. Regresyon Ağacı 822

4. Sonuç Sayısal analizlerin temel amacı elde edilen verilerden kullanılabilir sonuçlar çıkarmaktır. SRA analizi sonuçları kullanılabilir olmakla birlikte görsel sonuçlar vermekte ve anlaşılabilirliği de kolaylaştırmaktadır. Ayrıca normal dağılım ve homojenlik gibi önkoşulu olmadığı için farklı özellikteki veri setlerine kolaylıkla uygulanabilmektedir. Sınıflandırma ve Regresyon Ağacını her ikisini birden oluşturabilme özelliği olduğundan hem parametrik hem de non-parametrik bir yöntem olarak adlandırılabilir. Kaynakça Albayrak, A.S. Ve Kotlan-Y ılmaz, Ş. (2009). Veri Madenciliği: Karar Ağacı Algoritmaları Ve İMKB Verileri Üzerine Bir Uygulama, Süleyman Demirel Üniversitesi İktisadi ve İdari Bilimler Fakültesi Dergisi, 14(1): 31-52 Cang, L.Y. and Wang, H.W., 2006. Analysis of traffic injury: An application of non-parametric classification tree techniques. Accident Analysis Prevention, 383 1019-1027 Çinko, M. (2006). Kredi Kartı Değerlendirme Tekniklerinin Karşılaştırılması, İstanbul Ticaret Üniversitesi Sosyal Bilimler Dergisi, 5 (9): 143-153 Doğan, İ. (2003). Holştayn Irkı İneklerde Süt Verimine Etki Eden Faktörlerin CHAID Analizi İle İncelenmesi, Ankara Üniversitesi Veterinerlik Fakültesi Dergisi, 50: 65-70 Erbaş, S. Ve Güneş, A. (1998). Chaid Analizi, İstatistik Konferansı Bildiri Kitabı, Ankara. C.Ü. İktisadi ve İdari Bilimler Dergisi, Cilt 11, Sayı 2, 2010 51 İmamoğlu, T. (2005), Veri madenciliğinde Karar Ağaçları ile Bir Öğrenci Ders Başarısı Tahmin Aracı, Yayınlanmamış Yüksek Lisans Tezi, Kocaeli Üniversitesi Fen Bilimleri Enstitüsü, Kocaeli. Kayri, M. ve Boysan, M. (2007). Araştırmalarda Chaid Analizinin Kullanımı ve Baş Etme Stratejileri İle İlgili Bir Uygulama, Ankara Üniversitesi Eğitim Bilimleri Fakültesi Dergisi, 40(2):133-149. Kayri, M. ve Boysan, M. (2008). Bilişsel Yatkınlık İle Depresyon Düzeyleri İlişkisinin Sınıflandırma ve Regresyon Ağacı İle İncelenmesi, Hacettepe Üniversitesi Eğitim Bilimleri Dergisi, 34: 168-177. Koyuncugil, A.S. ve Özgülbaş, N., (2008). İMKB DE İşlem Gören Kobi lerin Güçlü Ve Zayıf Yönleri: CHAID Karar Ağacı Uygulaması, Dokuz Eylül Üniversitesi İktisadi ve İdari Bilimler Fakültesi Dergisi, 23(1):1-21. Koyuncugil, A.S. (2007). Borsa Şirketlerinin Sektörel Risk Profillerinin Veri Madenciliğiyle Belirlenmesi, Sermaye Piyasası Kurulu Araştırma Raporu, Araştırma Dairesi, Ankara. Üngüren, E. ve Doğan, H. (2010). Beş yıldızlı Konaklama İşletmelerinde Çalışanların İş Tatmin Düzeylerinin CHA İD Analiz Yöntemi İle Değerlendirilmesi, C.Ü. İktisadi ve İdari Bilimler Dergisi, Cilt 11, Sayı 2, Sivas Saraçlı, S., Doğan, İ., Kaygısız, Z. ve Kaya, M. (2006). Osmangazi Üniversitesi İ.İ.B.F. Öğrencilerinin Bölüm Değiştirmeyi İsteyip İstemediklerinin İncelenmesi, Eğitim Araştırmaları Dergisi, 22: 179-187. Sugumaran, V., Muralidharan, V., Ramachandran, K.I. (2007). Feature Selection Using Decision Tree And Classification Through Proximal Support Vector Machine For Fault Diagnostics Of Roller Bearing, Mechanical Systems and Signal Processing, 21(2): 930-942. Türe, M., Tokatlı, F., Kurt, Ü. (2009). Using Kaplan-Meirer Analysis Together With Decision Tree Methods (C&RT, CHAID, QUEST, C4.5 and ID3) In Determining Recurrence-Free Survival of Breast Cancer Patients, Expert Systems With Applications, 36(2): 2017-2026 Yılmaz, Ş.K. (2008). Veri Madenciliği: İstanbul Menkul Kıymetler Borsası Örneği, Yayınlanmamış Yüksek Lisans Tezi, Zonguldak Karaelmas Üniversitesi Sosyal Bilimler Enstitüsü, Zonguldak. 823