İlişkili Bileşen Regresyonu: DNA Hasarını Belirleme Modeli Üzerinde Uygulanması

Benzer belgeler
İSTATİSTİKSEL DARALTICI (SHRINKAGE) MODEL VE UYGULAMALARI * A Statistical Shrinkage Model And Its Applications*

Matris Cebiriyle Çoklu Regresyon Modeli

Ekonometri I VARSAYIMLARI

3. TAHMİN En Küçük Kareler (EKK) Yöntemi 1

QUANTILE REGRESYON * Quantile Regression

İstatistik ve Olasılık

2. REGRESYON ANALİZİNİN TEMEL KAVRAMLARI Tanım

KORELASYON VE REGRESYON ANALİZİ. Doç. Dr. Bahar TAŞDELEN

İÇİNDEKİLER 1. GİRİŞ...

Öğr. Elemanı: Dr. Mustafa Cumhur AKBULUT

Örnek. Aşağıdaki veri setlerindeki X ve Y veri çiftlerini kullanarak herbir durumda X=1,5 için Y nin hangi değerleri alacağını hesaplayınız.

Korelasyon, Korelasyon Türleri ve Regresyon

ÖRNEK BULGULAR. Tablo 1: Tanımlayıcı özelliklerin dağılımı

BİYOİSTATİSTİK DERSLERİ AMAÇ VE HEDEFLERİ

Meslek lisesi ve devlet lisesine giden N tane öğrenci olduğu ve bunların yıllık okul harcamalarına ait verilerin olduğu varsayılsın.

SIRADAN EN KÜÇÜK KARELER (OLS)

İçindekiler. Ön Söz... xiii

Regresyon. Regresyon korelasyon ile yakından ilişkilidir

ÜSTEL DÜZLEŞTİRME YÖNTEMİ

REGRESYON ANALİZİ VE UYGULAMA. Yrd. Doç. Dr. Hidayet Takcı

Korelasyon. Korelasyon. Merkezi eğilim ve değişim ölçüleri bir defada sadece bir değişkenin özelliklerini incelememize imkan tanır.

YANLILIK. Yanlılık örneklem istatistiği değerlerinin evren parametre değerinden herhangi bir sistematik sapması olarak tanımlanır.

BİYOİSTATİSTİK Korelasyon Analizi Yrd. Doç. Dr. Aslı SUNER KARAKÜLAH

Appendix B: Olasılık ve Dağılım Teorisi

YTÜ İktisat Bölümü EKONOMETRİ I Ders Notları

YTÜ İktisat Bölümü EKONOMETRİ I Ders Notları

Sık kullanılan istatistiksel yöntemler ve yorumlama. Doç. Dr. Seval KUL Gaziantep Üniversitesi Tıp Fakültesi

YABANCI DİL EĞİTİMİ VEREN ÖZEL BİR EĞİTİM KURUMUNDAKİ ÖĞRENCİLERİN BEKLENTİLERİNİN ARAŞTIRILMASI. Sibel SELİM 1 Efe SARIBAY 2

KARŞILAŞTIRMA İSTATİSTİĞİ, ANALİTİK YÖNTEMLERİN KARŞILAŞTIRILMASI, BİYOLOJİK DEĞİŞKENLİK. Doç.Dr. Mustafa ALTINIŞIK ADÜTF Biyokimya AD 2005

Ch. 5: SEKK (OLS) nin Asimptotik Özellikleri

KORELASYON VE REGRESYON ANALİZİ. Ankara Üniversitesi Tıp Fakültesi Biyoistatistik Anabilim Dalı

YTÜ İktisat Bölümü EKONOMETRİ I Ders Notları

YTÜ İktisat Bölümü EKONOMETRİ I Ders Notları

Örneklemden elde edilen parametreler üzerinden kitle parametreleri tahmin edilmek istenmektedir.

OLS Yönteminin Asimptotik (Büyük Örneklem) Özellikleri SIRADAN EN KÜÇÜK KARELER (OLS) Asimptotik Özellikler: Tutarlılık. Asimptotik Özellikler

ortalama ve ˆ ˆ, j 0,1,..., k

BKİ farkı Standart Sapması (kg/m 2 ) A B BKİ farkı Ortalaması (kg/m 2 )

Deneysel Verilerin Değerlendirilmesi. Dersi Veren Öğretim Üyeleri: Yrd. Doç. Dr. Özge ANDİÇ ÇAKIR. Prof. Dr. Murat ELİBOL FİNAL SINAVI

Koşullu Öngörümleme. Bu nedenle koşullu öngörümleme gerçekleştirilmelidir.

Ch. 12: Zaman Serisi Regresyonlarında Ardışık Bağıntı (Serial Correlation) ve Değişen Varyans

İLERİ BİYOİSTATİSTİK KURSU

2. BASİT DOĞRUSAL REGRESYON 12

İstatistikçiler Dergisi

OPTİMUM TOLERANSLARIN BELİRLENMESİNDE CEVAP YÜZEYİ YÖNTEMLERİNİN KULLANILMASI ÜZERİNE BİR İNCELEME 1 Cenk ÖZLER 2

DİNAMİK PANEL VERİ MODELLERİ. FYT Panel Veri Ekonometrisi 1

Yatırım Analizi ve Portföy Yönetimi 5. Hafta

3 KESİKLİ RASSAL DEĞİŞKENLER VE OLASILIK DAĞILIMLARI

14 Ekim Ders Kitabı: Introductory Econometrics: A Modern Approach (2nd ed.) J. Wooldridge. 1 Yıldız Teknik Üniversitesi

Kestirim (Tahmin) Bilimsel çalışmaların amacı, örneklem değerinden evren değerlerinin kestirilmesidir.

Kompozit Malzemeler ve Mekaniği. Yrd.Doç.Dr. Akın Ataş

Gözlemlerin Referans Elipsoid Yüzüne İndirgenmesi

MAK 210 SAYISAL ANALİZ

17 Ekim Ders Kitabı: Introductory Econometrics: A Modern Approach (2nd ed.) J. Wooldridge. 1 Yıldız Teknik Üniversitesi

TEKSTİL SEKTÖRÜNDE ÖRGÜT KÜLTÜRÜNÜN ÖĞRENEN ÖRGÜTE OLAN ETKİSİ

İÇİNDEKİLER. BÖLÜM 1 Değişkenler ve Grafikler 1. BÖLÜM 2 Frekans Dağılımları 37

2016 YILI AKTÜERLİK SINAVLARI: İSTATİSTİK OLASILIK

(AYIRIM) DENLİ. Emre KUZUGÜDENL. Doç.Dr.Serdar CARUS

ANALİTİK YÖNTEMLERİN DEĞERLENDİRİLMESİ. Doç.Dr. Mustafa ALTINIŞIK ADÜTF Biyokimya AD 2004

CEVAPLAR. n = n 1 + n 2 + n 3 + n 4 + n 5 + n 6 + n 7 = = 11 dir.


CHAPTER 6 SIMPLE LINEAR REGRESSION

KISITLI OPTİMİZASYON

Yrd. Doç. Dr. Fatih TOSUNOĞLU Erzurum Teknik Üniversitesi Mühendislik Fakültesi İnşaat Mühendisliği Bölümü

UYGULAMA 4 TANIMLAYICI İSTATİSTİK DEĞERLERİNİN HESAPLANMASI

Yatırım Analizi ve Portföy Yönetimi 6. Hafta

TOPRAKTA PH TAYİNİ YETERLİLİK TESTİ RAPORU TÜBİTAK ULUSAL METROLOJİ ENSTİTÜSÜ REFERANS MALZEMELERI LABORATUVARI. Rapor No: KAR-G3RM

Değişken Türleri, Tanımlayıcı İstatistikler ve Normal Dağılım. Dr. Deniz Özel Erkan

EŞİTLİK KISITLI TÜREVLİ YÖNTEMLER

2001 ve 2008 Yılında Oluşan Krizlerin Faktör Analizi ile Açıklanması

NORMAL DAĞILIM VE ÖNEMLİLİK TESTLERİ İLE İLGİLİ PROBLEMLER

BİYOİSTATİSTİK. Uygulama 6. Yrd. Doç. Dr. Aslı SUNER KARAKÜLAH

Hipotez Testlerine Giriş. Hipotez Testlerine Giriş

BİYOİSTATİSTİK Merkezi Eğilim ve Değişim Ölçüleri Yrd. Doç. Dr. Aslı SUNER KARAKÜLAH

MIT OpenCourseWare Ekonomide İstatistiksel Yöntemlere Giriş Bahar 2009

GÜVEN ARALIKLARI ve İSTATİSTİKSEL ANLAMLILIK. Ankara Üniversitesi Tıp Fakültesi Biyoistatistik Anabilim Dalı

Postmenopozal Kadınlarda Vücut Kitle İndeksinin Kemik Mineral Yoğunluğuna Etkisi

Eşanlı Denklem Modelleri

İçindekiler vii Yazarların Ön Sözü xiii Çevirenin Ön Sözü xiv Teşekkürler xvi Semboller Listesi xvii. Ölçme, İstatistik ve Araştırma...

İkiden Çok Grup Karşılaştırmaları

Kullanılacak İstatistikleri Belirleme Ölçütleri. Değişkenin Ölçek Türü ya da Yapısı

Maskeli Hipertansiyonda Anormal Tiyol Disülfid Dengesi

Web Madenciliği (Web Mining)

Unlike analytical solutions, numerical methods have an error range. In addition to this

Örnek 4.1: Tablo 2 de verilen ham verilerin aritmetik ortalamasını hesaplayınız.

Tekrarlı Ölçümler ANOVA

LOJİSTİK REGRESYON ANALİZİ

Bir Üniversite Kliniğinde Yatan Hastalarda MetabolikSendrom Sıklığı GŞ CAN, B BAĞCI, A TOPUZOĞLU, S ÖZTEKİN, BB AKDEDE

Ders 9: Kitle Ortalaması ve Varyansı için Tahmin

VERİ MADENCİLİĞİ (Veri Ön İşleme-2) Yrd.Doç.Dr. Kadriye ERGÜN

Basit ve Çoklu Doğrusal Regresyon

BÖLÜM 12 STUDENT T DAĞILIMI

ÖNGÖRÜ TEKNĐKLERĐ ÖDEV 5 (KEY)

Zaman Serileri-1. If you have to forecast, forecast often. EDGAR R. FIEDLER, American economist. IENG 481 Tahmin Yöntemleri Dr.

Prof.Dr.İhsan HALİFEOĞLU

Appendix C: İstatistiksel Çıkarsama

AR. GÖR. SİBEL AL PROF. DR. HÜLYA ÇINGI HACETTPE ÜNİVERSİTESİ İSTATİSTİK BÖLÜMÜ

YTÜ İktisat Bölümü EKONOMETRİ I Ders Notları

BİYOİSTATİSTİK Tek Örneklem ve İki Örneklem Hipotez Testleri Dr. Öğr. Üyesi Aslı SUNER KARAKÜLAH

14 Ekim Ders Kitabı: Introductory Econometrics: A Modern Approach (2nd ed.) J. Wooldridge. 1 Yıldız Teknik Üniversitesi

ARALIK TAHMİNİ (INTERVAL ESTIMATION):

Transkript:

ORİJİNAL ARAŞTIRMA ORIGINAL RESEARCH İlişkili Bileşen Reresyonu: DNA Hasarını Belirleme Modeli Üzerinde Uyulanması Correlated Component Reression: Application on Model to Determination of DNA Damae Sadi ELASAN, a Sıddık KESKİN, a Elif ARI b a Biyoistatistik AD, Yüzüncü Yıl Üniversitesi Tıp Fakültesi Van b Nefroloji Kliniği, Kartal Dr. Lütfi Kırdar Eğitim ve Araştırma Hastanesi, İstanbul Geliş Tarihi/Received: 3.0.05 Kabul Tarihi/Accepted: 0.0.06 Yazışma Adresi/Correspondence: Sadi ELASAN Yüzüncü Yıl Üniversitesi Tıp Fakültesi, Biyoistatistik AD, Van, TÜRKİYE/TURKEY sadielasan@mail.com ÖZET Amaç: Açıklayıcı değişken sayısının, örneklem büyüklüğü yaklaştığı veya örnek enişliğini eçtiği durumlarda, diğer bir ifade ile yüksek boyutlu veri setlerinde, reresyon modelleri ile tahminde, üvenilirliğin nasıl artırılacağı önemli sorunlardan birisidir. Bu amaçla kullanılabilecek yeni yöntemlerden birisi, İlişkili Bileşen Reresyonudur. Bu çalışmada, İlişkili Bileşen Reresyonu hakkında bili verilerek, bir uyulama ile birlikte tanıtılması amaçlanmıştır. Gereç ve Yöntemler: Reresyon analizi yapılması ereken bilimsel çalışmalarda, açıklayıcı değişken sayısı; örnek enişliğine yaklaştığında veya örnek enişliğini eçtiğinde yüksek boyutlu veri setlerinde), standart reresyon analizi yöntemiyle yapılacak tahminlerde, tahmin edilen katsayılar, çoklu bağlantı kovaryans matrisinin tekil olması) nedeniyle değişkenlik östermektedir. Bunun için alternatif bir yöntem olarak, İlişkili Bileşen Reresyonu İBR) problemin çözümüne yardımcı olabilir. Cevap değişkeninin sürekli olması durumunda, İBR-Doğrusal Reresyon ve ikili binary) olması durumunda, İBR Loistik Reresyon kullanılabilirken, sağkalım verilerinde İBR-Cox Reresyonu kullanılabilir. Yöntem, K adet ilişkili bileşenleri kullanır. Bu ilişkili bileşenler, proram tarafından belirlenebileceği ibi araştırıcı tarafından da belirlenebilir. Bulular: Çalışmada örnek enişliğinin küçük, korelasyon katsayılarının orta düzeyde ve değişken sayısının fazla olması nedeniyle, doymuş reresyon modelinde aşırı uyum olduğundan m-kat çapraz eçerlilik testi yapılarak İBR modeliyle bu aşırı uyum elemine edilebilmiştir. Sonuç: Reresyon analizlerinde karşılaşılabilecek; çoklu bağlantı, uyum eksikliği veya aşırı uyum ibi sorunların çözümü için İBR nin kullanılabileceği ve daha yüksek ücü yakalayabileceği söylenebilir. Anahtar Kelimeler: İlişkili bileşen reresyonu, reresyon çözümlemesi; lojistik modeller; doğrusal modeller; DNA hasarı ABSTRACT Objective: The number of explanatory variables, where the sample size is approachin or passin the sample size, the hih-dimensional data sets in other words, the estimated reression model is one of the important questions of how to increase the reliability. One of the new methods that can be used, Correlated Component Reression Centerproduct. In this study, providin information about the associated Component Reression is intended to be introduced alon with an application. Material and Methods: Reression analysis in the scientific work to be done, the number of explanatory variables; sample width when approached or when the sample width late in hih-dimensional data sets), an estimate will be made with standard reression analysis method, the estimated coefficients, multiple connections to be sinular of covariance matrix) varies due. As an alternative to this, "Associated Component Reression" CCR) can help solvin the problem. If there are continuous response variables, Iberlinear reression and binary if there is, CCR is used in loistic reression, CCR is available on-cox reression in survival data. The method uses K number associated components. These related components, as determined by the researchers can be determined by the proram. Results: In this study sample size is small, the correlation coefficients are moderate and numbers of variables are hih. Therefore, we performed m-fold cross-validation test due to extreme overfit of the saturated reression model. Conclusion: Encountered in reression analysis; multiple connections, CCR can be used for solvin problems such as lack of or excessive interation and said can capture hiher power. doi: 0.5336/biostatic.05-483 Copyriht 06 by Türkiye Klinikleri Key Words: Correlated component reression, reression analysis; loistic models; linear models; DNA damae :45-5 45

Bilimsel çalışmalarda, ililenilen değişken ile açıklayıcı değişkenler arasındaki doğrusal veya doğrusal olmayan ilişkiyi belirlemeye yönelik eliştirilen istatistik analiz yöntemleri, enel olarak reresyon analizi çözümlemesi) yöntemleri olarak bilinir. Cevap değişkeni ile açıklayıcı değişkenlerin sürekli olması durumunda kullanılan standart çoklu reresyon analizi, varsayımların veya önşartların sağlanması durumunda, üçlü bir analiz yöntemidir. Ancak uyulamalarda, neden-sonuç ilişkisi ve ya tahmin denklemi bulmaya yönelik çalışmalarda, bu varsayımlarla ilişkili olarak; açıklayıcı değişken sayısı, örnek enişliğine yaklaşmakta veya örnek enişliğini eçmektedir. Diğer bir ifade ile yüksek boyutlu veri setleri ile karşılaşılmaktadır. Bu durumda standart reresyon analizi yöntemiyle yapılacak tahminlerde, tahmin edilen katsayılar çoklu bağlantı kovaryans matrisinin tekil olması) nedeniyle yüksek değişkenlik östermektedir. Bu problemin çözümü için; Cezalı reresyon yöntemleri enalized Reression methods) Lasso ve Elastik ağ net) içeren Sınırlı model yaklaşımları ile Temel bileşenler reresyonu ya da Kısmi En Küçük Kareler Reresyonunu içeren Boyut İndireme Yaklaşımları olmak üzere iki yaklaşım yayın olarak kullanılmaktadır. Cezalı reresyon yöntemleri, düzenlileştirme reularization) için ceza terimini penalty term) modele dahil etmektedir. Kullanılan bu terime öre de yöntemler arasında farklılıklar bulunmaktadır. Lasso reresyon, ceza terimi olarak Manhattan Uzaklığı nı kullanırken, Ride reresyon Öklid Uzaklığı nı kullanır. Elastik ağ ise her iki yöntemin ceza terimini kullanır ve hibrid yaklaşım olarak adlandırılır. Temel Bileşenler reresyonu ile Kısmi En Küçük Kareler reresyonu ise çoklu bağlantı problemini idermek üzere, öncelikle orijinal değişkenleri temel bileşenlere çevirerek, bu temel bileşenleri cevap değişkenini tahmin etmek üzere modele açıklayıcı değişken olarak alır. Boyut indireme yaklaşımlarına alternatif olarak önerilen bir diğer yöntem, İlişkili Bileşen Reresyonudur Correlated Component Reression). GEREÇ ve YÖNTEMLER Bu çalışmada uyulama materyali olarak Van Yüksek İhtisas Hastanesi Nefroloji olikliniğine başvuran 5 hemodiyaliz hastasına ait veriler kullanılmıştır. Çalışmada Cevap Değişkeni olarak; DNA Hasarı 8-OHdG/dG, oran) alınmış; Açıklayıcı Değişkenler olarak; Yaş, Vücut Kitle İndeksi BMI) Sistolik Kan Basıncı SKB), Diastolik Kan Basıncı DKB), Total Kolesterol TKOL), Düşük Yoğunluklu Kolesterol LDL), Yüksek Yoğunluklu Kolesterol HDL), Triliserit TRIG), C-Reaktif rotein CR), aratroid Hormon TH), Albümin ALB), Katalaz CAT), Malondialdehid MDA), Glutasyon eroksidas GX), Superoksidaz Mutaz SOD) olmak üzere 5 değişken alınmıştır. Bu değişkenlerin DNA hasarı ile doğrusal ilişkili olabilecekleri varsayılmıştır. Bu değişkenlere ait tanımlayıcı istatistikler Tablo de sunulmuştur. İlişkili Bileşen Reresyonu ilk olarak Maidson 00) tarafından eliştirilmiş olup, değişken sayısının özlem sayısına yaklaşması veya özlem sayısını eçmesi durumunda, diğer bir ifade ile yüksek boyutlu verilerde kullanılan bir yöntemdir. Yüksek boyutlu verilerde, bilinen klasik yöntemlerin kullanılması durumunda, karşılaşılabilen önemli sorunlardan birisi de aşırı uyum veya uyum eksikliğidir. Bunun yanı sıra, TABLO : Değişkenlere ait tanımlayıcı istatistikler. N Ort. St. Hata Min. Mak. DNA 5,396 0,85,09 3,90 YAŞ 5 43,680 7,9 0,00 73,00 BMI 5,50 4,0 4,60 34,00 SKB 5 3,600,53 90,00 65,00 DKB 5 70,00 4,6 45,00 00,00 TKOL 5 59,95 57,689 87,70 98,00 LDL 5 93,88 5,587 58,00 49,00 HDL 5 34,84 4,55 4,00 4,00 TRIG 5 45,996 88,448 48,00 477,00 CR 5 4,048,544 0,30 7,80 TH 5 37,36 8,58 008,00 763,00 ALB 5 4,060 0,443,50 4,70 CAT 5 35,680 4,488 7,00 44,00 MDA 5 5,74,050 3,45 0,45 GX 5 7,63 4,59,04 7,86 SOD 5 5,79,83,4 7,8 46

çoklu bağlantı probleminin olması durumunda, İBR diğer yöntemlere öre daha etkin bir yöntem olarak kullanılabilmektedir. İBR düzenlileştirme reularization) aloritması olarak bilinir ve cevap değişkeninin tipine öre bu aloritmalar farklı şekilde adlandırılır. Cevap değişkeninin sürekli olması durumunda; İBR-Doğrusal Reresyon, ikili binary) olması durumunda İBR-Loistik Reresyon ve cevap değişkeninin sağkalım survival) verileri olması durumunda İBR-Cox Reresyon olarak adlandırılır. 3 DÜZENLİLEŞTİRME ALGORİTMASI İlişkili Bileşen Reresyonu aloritması, K adet ilişkili bileşeni kullanır. Bu ilişkili bileşenler, proram tarafından belirlenebileceği ibi araştırıcı tarafından da belirlenebilir. Temel Bileşenler Analizinde olduğu ibi her bileşen orijinal değişkenlerin doğrusal kombinasyonudur. Ancak Temel Bileşenler Analizinden farklı olarak, İBR de ağırlıklar, cevap değişkenini Y) tahmin etmede en yüksek tahmin ücüne sahip olacak bileşenler şeklinde belirlenir. İBR, cevap değişkenini tahmin etmek için adet açıklayıcı değişken yerine, K adet ilişkili bileşeni kullanır. Bu K adet bileşen vektör olarak; S = S, S,, Sk) şeklinde yazılabilir ve enelde K, açıklayıcı değişken sayısından ) daha az olur yani K< dir. Her bileşen Sk), açıklayıcı değişkenlerin orijinal değişkenlerin) doğrusal kombinasyonudur [X= X, X,, Xp)] ve tahminleme modelinde, orijinal değişkenlerin yerine düzenlileştirme modeli olarak kullanılır. Birinci bileşen S cevap değişkeni üzerine en çok etkili olan orijinal değişkenleri bulur. İBR-Doğrusal Reresyon aloritması aşağıdaki ibi çalışır.,3,4 =,,, olmak üzere S üzerinde her bir açıklayıcı değişkenin yükü olan ) tahmin edilir. Bu katsayılar Y için reresyon denklemindeki basitçe; ) = covy, X varx ) ) şeklindeki reresyon katsayıları olarak düşünülebilir. Daha sonra S, birinci bileşendeki açıklayıcı değişkenlerin ağırlıklandırılmış ortalama etkisi; S = = ) X şeklinde tanımlanır. Birinci bileşen İBR modelindeki Y için tahmin edicilere ait katsayılar, S ile Y arasındaki basit standart doğrusal reresyon modelinden elde edilir. Benzer şekilde ikinci bileşen İBR modeli için tahmin edicilere ait katsayılar da Y ile S ve S arasındaki basit standart reresyon modeli ile tahmin edilir. Buradaki ikinci bileşen olan S, baskılayıcı suppressor) değişkenlerin etkisini bulmaya çalışır ki, bu değişkenler doğrudan etkiye sahip bir veya daha fazla açıklayıcı değişkenden ilisiz varyasyonun uzaklaştırılması ile tahmin edilir.,3,4. Adım: Birinci Bileşenin Tahmini Birinci bileşen, adet açıklayıcı değişkenin modele dahil edilmesi ile Y için bütün açıklayıcı değişkenlerin -tahmin edici model de ağırlıklandırılmış ortalamasıdır. y = α Buna öre model: ) ) ) + + ε =,,..., olarak yazılır. Buradan birinci bileşen olan S, - tahmin edici model den bulunan parametrelerinin doğrusal kombinasyonu olarak ve ) α ihmal edilerek; S = = ) olarak yazılır. Bu bileşen, -tahmin edici model de Y nin X lere olan reresyonunu, için X lere ait doğrudan etkileri belirleyen bileşendir. Buradan -Bileşen İBR modeli; ) Ŷ = α + b ) olarak yazılır. S Burada S açıklayıcı değişkenlere X lere) ait vektörden oluşur. Görüldüğü üzere burada α ve b katsayıları Y için birinci bileşen olan S ile oluşturulan reresyon eşitliğinden yeniden tahmin edilir. Buradan eşitlik, X lere ait düzenlileştirilmiş etkileri belirlemek üzere; Ŷ = α ) + b ) = ) şeklinde yazılabilir. Bu eşitlik basitleştirilerek; 47

Ŷ = α ) + = *) olarak yazılır. Burada; *) ) ) = b olup, bunlar X ler için -Bileşen İBR modelinde düzenlileştirilmiş katsayılardır.. Adım: İkinci Bileşenin Tahmini İkinci bileşen; ) =,,, ) lerin ağırlıklandırılmış ortalaması olarak tanımlanır. Burada her bir ), aşağıdaki -tahmin edici model den tahmin edilir. ). ) ) ) y = α + γ S + + ε =,,..., S, S in kontrol edilmesi ile reresyon katsayılarının ortalaması olduğu için, sabit ve her bir X için modeldeki S e ait katsayıların ihmal edilmesi ile ikinci bileşen; S = p = ) olarak yazılır. Buradan -Bileşen İBR modeli S ve S bileşenlerine dayalı olarak; ) ) Ŷ = α + b S + b ) S şeklinde yazılır. Bu yeni modelde S ve S, X değişkenlerine ait bileşenler vektörüdür. Buradan α, ve sırası ile S ve S ye ait reresyon katsayıları olan ) b ) b, yeniden tahmin edilir. Bu durumda eşitlik, X lere ait düzenlileştirilmiş etkileri belirlemek üzere; X lerin kombinasyonu; Ŷ = α ) + = *) ) * ) ) ) ) şeklinde yazılır. Burada = b + b olup, bunlar -Bileşen İBR modelinde X ler için düzenlileştirilmiş katsayılardır. 3. Adım: Üçüncü ve K. Bileşenin Tahmini Bu işlem, kalan K adet bileşen için K) =,,, ) lerin ağırlıklı ortalaması olarak tanımlanır. Burada her bir edici model den elde edilir. K), aşağıdaki -tahmin Y = α + γ S + γ S +... + γ S + + ε K ) K ) K ) K ) K ) K ).. K ). K =,,..., ve SK; S K = p = K) olarak yazılır. S den SK- e kadar olan bileşenler için katsayıların ve sabitlerin ihmal edilmesi ile çünkü SK, S den SK- ya kadar olan katsayıların kontrolü ile reresyon katsayılarının ortalamasıdır), K-Bileşen İBR modeli; S,, SK bileşenlerine dayalı olarak; K) K) K) Ŷ = α + b S + b S +... + b K) K şeklinde yazılır. Burada S,, SK, X değişkenlerine ait bileşenler vektörüdür. K) b j =,,, K), K-Bileşen İBR modelinde Sj bileşenlerine ait reresyon katsayılarıdır. j Buradan eşitlik, X lere ait düzenlileştirilmiş etkileri belirlemek üzere; Ŷ = α K) + = *K) şeklinde yazılabilir. Burada; *K) K) ) K) ) K) K K) = b + b +... + b katsayıları, X ler için K-Bileşen İBR modelinde düzenlileştirilmiş katsayılardır. M-Kat Geçerlilik Çapraz eçerlilik yöntemi, ilişkili bileşenler analizi için M-kat eçerlilik olarak bilinir. Tipik olarak birden fazla çalıştırılması için M-kat eçerlilik ereklidir. Her aşamada çapraz eçerlilik için performans istatistikleri sağlanır. Böylece bir örnek için her aşama bir özlem olarak düşünülür. Bu durum her bir çapraz eçerlilik istatistiği için standart hataların ve ortalamaların hesaplanmasını sağlar. Genel kural olarak örnekleme için 50-00 aşama önerilmektedir. 4,5 İndireme İşlemi Değişken seçme basitçe indireme prosedürünü kullanır. Bu prosedür ise M-kat çapraz eçerlilikle ilişkili olarak çalışır. İlişkili bileşen) K nın özel bir değeri için başlanıçta model mümkün olan bütün açıklayıcı değişkenlerle tahmin edilir. Daha sonra bu model M-kat eçerlilik ile değerlendirilir. Bunun için R ve doğruluk değerleri hesaplanır. Daha sonra bu modelden eğitim örneği üzerine tahmin yapılır. Model katsayıları standardize edilir. Standart doğrusal reresyon mode- S K 48

linde olduğu ibi bu süreç standardize edilmemiş katsayılar ile standardize edilmiş katsayıların çarpımı ve bunların cevap değişkenlerine ait standart sapmaya bölümünü içerir. 4 En düşük standardize edilmiş etkiye sahip olan açıklayıcı değişken eğitim örneğinden çıkarılır. Ve bu süreç yeniden tekrar edilir. Bu durumda, elde edilen R bir öncekinden çıkarılır. Bu süreç, K nın ile maksimum sayısı olan açıklayıcı değişken arasındaki tüm değerleri için R elde edene kadar devam eder. Elde edilen her model için çapraz eçerlilik performansı değişkenlerin maksimum sayısından bir tahmin edici değişken arasında süreçte belirlenir. Ve proram doğrusal reresyon ya da loistik reresyon için en düşük çapraz eçerlilik R değerini dikkate alarak optimum tahmin edici sayısını belirler. Optimum tahmin edici sayına karar verildiğinde bu indireme süreci bütün eğitim örneği için uyun tahmin edici değişkenlerin sayısının belirlenmesi için yeniden çalıştırılır. Kullanıcılar, alternatif olarak, modellerin çapraz eçerlilik değerlerini karşılaştırarak tahmin edici değişken sayını belirleyebilir. Bu süreç klasik reresyon analizi proramlarındaki değişken seçme yöntemlerinden birisi olan eriye doğru eliminasyon yöntemine benzerlik östermektedir. 4 Final İBR Modeli Bütün bililerin sağlanabilmesi için düzenlileştirilmiş son İBR modeli, optimum K ve sayısı ile bütün eğitim örneğinde tahmin edilir. Çapraz eçerlilik ve indireme süreci optimum K ve değerlerinin seçimi için ve tahmin edici değişkenlerin önemliliği için ek bir bili sağlamaktadır. 3,4 İBR nin Doğrusal Ayırma Analizi ve Loistik Reresyon için Genişletilmesi Cevap değişkeni ikili binary) olduğu durumlarda loistik reresyon ve doğrusal ayırma analizi kullanılmaktadır. İBR modeli de bu iki analiz için benzer işlem sürecini izlemektedir. 3,5 BULGULAR Değişken arası earson Korelasyon Katsayıları Tablo de verilmiştir. Tablo de örüldüğü üzere, en yüksel korelasyonlar sırasıyla DNA hasarı ile; LDL 0,643), CR 0,497) ve SKB -0,4) arasında izlenmiştir. Klinik olarak yorumlandığında; hastalarda LDL düzeyindeki artışa bağlı olarak % 64,3 oranında DNA hasarında da artış meydana elmesi beklenmektedir. Bunun yanı sıra cevap değişkeni olan DNA ile CR pozitif korelasyonlu bulunurken, SKB ile neatif korelasyonlu bulunmuştur. TABLO. Korelasyon katsayıları. YAS BMI SKB DKB TKOL LDL HDL TRIGL CR TH ALB CAT MDA GX SOD DNA YAŞ BMI,99 SKB,058,7 DKB -,80,084,577** TKOL,07,9,08 -,08 LDL -,80, -,97,45,54 HDL,00,08,0 -,84 -,45 -,9 TRIG -,6 -,046 -,068,033,460*,430* -,79 CR -,6,08 -,359,065,56,396*,055,075 TH -,53 -,9 -,88 -,076 -,37,044 -,09 -,047,47 ALB -,98 -,30 -,087 -,00 -,36,308 -,057,85 -,58,39 CAT,84,033,05 -,4,6 -,00,0,00,64 -,93 -,387 MDA -,005,076,054 -,75,370,046 -,367,087,07 -,73,09, GX -,7 -,9 -,37 -,36,0,00,337 -,03,75,9,303,44 -,05 SOD -,38 -,089 -,05 -,50 -,43 -,76,330 -,8 -,333,03 -,97,053 -,093,58 ** DNA p<0.0 ; * p< -,65 0.05. -,6 -,4*,7 -,049,643**,33,56,497*,38,379 -,6 -,36,47 -, 49

Çalışmada, ilişkili bileşen reresyonunun yanı sıra karşılaştırma amaçlı olarak Standart reresyon, Ride reresyon ve Temel Bileşenler reresyonu analizleri için Açıklayıcı değişkenlere ait Reresyon katsayıları ve Standart hataları Tablo 3 te verilmiştir. Tablo 3 te örüldüğü üzere Standart reresyon analizi sonuçlarına öre R %84 ve %5 düzeyinde anlamlı olarak bulunmuş olmasına rağmen, açıklayıcı değişkenlere ait reresyon katsayılarından hiçbiri istatistik olarak anlamlı bulunmamıştır. Reresyon katsayılarının çoğunda standart sapmalar yüksek yani reresyon katsayıları aşırı değişkenlik östermektedir. Diğer yandan reresyon analizi öreceli olarak küçük örnekte yapıldığından ve her ne kadar Tablo deki korelasyon katsayıları orta düzeyde olsa da modelin yaklaşık %84 lük R ile aşırı uyum österme olasılığı yüksektir. Bununla birlikte bu durum çoklu bağlantı sorununa da işaret etmektedir. Dolayısıyla aşırı uyum, çoklu bağlantı problemlerinin yanı sıra değişken sayısının özlem sayısına yaklaşması nedeniyle bu verilere İlişkili Bileşenler Reresyonu yapılması önörülmüştür. İlişkili bileşenler reresyonu analizinde ilk olarak açıklayıcı değişkenlerin tümü modele dahil edilmiş ve buna ilişkin Reresyon katsayıları bi) ve standart hataları Sbi) Tablo 3 te verilmiştir. Daha önce de belirtildiği üzere, bütün değişkenlerin modele dahil edilmesi doymuş model) ile elde edilen sonuçlar standart reresyon analizi sonuçlarıyla eşdeğerdir. İlişkili bileşenler reresyonu düzenlileştirme için uyun bileşen sayısını belirlemede çapraz eçerlilik R belirleme katsayısı) istatistiğini kullanmaktadır. M-kat çapraz eçerlilik testinde m nin 5 ile 0 arasında belirlenmesinin uyun olacağı düşünülmüştür. Gözlem sayısı 5 olduğundan, kolay bölünebilme amacıyla m=5 ve asari dönü round) sayısı 00 alınarak, İBR analizi yapılmış ve sonuçlar Tablo 3 te verilmiştir. Tablo 3 te örüldüğü üzere; katsayılar tahmin edilirken, örneğin LDL ye ait dönü sayısı 500 iken, CR ye ait dönü sayısı 46 olarak özlenmiştir. Açıklayıcı değişkenlere ait reresyon katsayılarının bir kısmında çapraz eçerlilik sonucunda işaret değişikliği özlenmiştir. Örneğin GX ve TRIG e ait reresyon katsayıları neatif iken, pozitif işaretli bulunmuş. Diğer yandan CAT ve MDA ya ait reresyon katsayıları pozitif iken de neatif işaretli bulunmuştur. Bu analiz sonucunda Tablo 3 te örüldüğü üzere, doymuş reresyon TABLO 3. Reresyon analizi sonuçları. Standart Reresyon Ride Reresyon Temel Bileşenler Reresyonu İlişkili Bileşen Reresyonu =5 m= 5, Çapraz Geçerlilik bi ±Sbi p bi ±Sbi bi ±Sbi bi bi Dönü Sayısı Rer. Sabiti -5,7 0,50-5,4097-4,5500-5,7 0,74 YAS -0,00 ±0,0 0,973-0,0004 ± 0,0 0,003 ± 0,0-0,00-0,006 46 BMI -0,005 ±0,033 0,883-0,0053 ± 0,034-0,0064 ± 0,038-0,005-0,0 79 SKB -0,030 ±0,03 0,05-0,078 ± 0,0-0,003 ± 0,007-0,030-0,008 35 DKB 0,034 ±0,08 0,094 0,034 ± 0,07 0,004 ± 0,03 0,034 0,003 77 TKOL 0,006 ±0,003 0, 0,005 ± 0,003 0,0037 ± 0,003 0,006 0,00 47 LDL 0,0 ±0,007 0,67 0,009 ± 0,007 0,0 ± 0,008 0,0 0,00 500 HDL 0,0 ±0,046 0,055 0,0969 ± 0,045 0,0393 ± 0,03 0,0 0,0 86 TRIG -0,003 ±0,00 0,0-0,007 ± 0,00-0,000 ± 0,00-0,003 0,00 97 CR 0,00 ±0,05 0,988 0,0097 ± 0,00 0,507 ± 0,067 0,00 0,078 46 TH 0,00 ±0,00 0,098 0,005 ± 0,00 0,0008 ± 0,00 0,00 0,00 98 ALB 0,767 ±0,50 0,6 0,7530 ± 0,495,067 ± 0,5 0,767 0,34 348 CAT 0,007 ±0,038 0,85 0,0055 ± 0,038-0,034 ± 0,04 0,007-0,00 0 MDA 0,0 ±0,089 0,89 0,0063 ± 0,088-0,0673 ± 0,087 0,0-0,046 4 GX -0,034 ±0,038 0,387-0,035 ± 0,038-0,0306 ± 0,043-0,034 0,03 8 SOD -0,094 ±0, 0,46-0,087 ± 0,8 0,04 ± 0,06-0,094-0,049 5 R ±SR =,840±,555 p=0,043 R ±SR =,83±,569 R ±SR =,84±,555 R ±SR =,840±,555 R = 0,655 50

Edilmemiş TABLO 4. Final modellere ait katsayılar. Final Model =5, K= 5 Final Model =5, K= Katsayılar Bileşen Ağırlıkları Katsayılar Bileşen Ağırlıkları Edilmiş Edilmemiş Edilmiş Edilmemiş Rer. Sabiti -,04-0,859 Edilmiş Edilmemiş Edilmiş LDL 0,0 0,368 0,68 0,847 0,03 0,38 0,0 0,477 CR 0,7 0,35 0,794 0,3 0,099 0,96 0,66 0,369 SKB -0,006-0,5 0,955 0,065-0,00-0,45-0,06-0,306 TH 0,00 0,88 0,905 0,04 0,00 0,95 0,00 0,43 ALB 0,609 0,37 0,00 0,05 0,433 0,5 0,78 0,8 R = 0,655 R = 0,643 modelinde aşırı uyumu, m-kat m=5) çapraz e çerlilik testi yapılarak İBR modeliyle bu aşırı uyum elemine edilebilmiş ve dönü sayısına bakılarak modele en fazla katkı sağlayan değişkenlerin; LDL, CR, SKB, TH ve ALB olduğu belirlenmiştir. Bu değişkenlere öre =5 ve K=5 olmak üzere yeniden İBR yapılmış ve analiz sonuçları Tablo 4 te verilmiştir. Bu sonuca öre modele ait R %65,5 olarak bulunmuştur. Bunun yanı sıra açıklayıcı değişkenlerden CR ve ALB ye ait reresyon katsayıları belirin değişim östermiştir. Ve son olarak =5 ve K= alınarak İBR yapılmış ve R %64,3 olarak bulunmuştur. K= olan model ile K=5 olan model arasında R bakımından belirin değişim özlenmediğinden K= olan modelin final model olarak benimseneceği söylenebilir. Bu modele öre de bileşenin standardize edilmiş ve edilmemiş bileşen ağırlık değerleri sırasıyla; 0.595 ve 0.80 olarak bulunmuştur Tablo 5). TABLO 5. Final modellere ait bileşen ağırlığı. Bileşen ağırlığı Model Edilmemiş Edilmiş p=5, k= 0,595 0,80 p=5, k=5 0,68 0,847 0,794 0,3 3 0,955 0,065 4 0,905 0,04 5 0,00 0,05 Örnek enişliğinin düşük olması, korelasyon katsayılarının orta düzeyde olması ve değişken sayısının fazla olması nedeniyle doymuş reresyon modelinde aşırı uyum olduğundan m-kat çapraz eçerlilik testi yapılarak İBR modeliyle bu aşırı uyum elemine edilebilmiştir. Diğer yandan 5 ve bileşenli modellerin daha iyi sonuçlar verdiği ve adı eçen bu iki bileşen modeli arasında da fark olmadığını söylemek mümkündür. TARTIŞMA ve SONUÇ Son zamanlardaki elişmeler; yüksek boyutlu verilerde, özellikle açıklayıcı değişken sayısının örnek enişliğinden fazla olması durumunda reresyon modelleri ile tahminlemedeki üvenilirliğin nasıl arttırılacağı üzerine yoğunlaşmıştır. Tibshirani 996) çalışmasında, Lasso ve Ride reresyonun performanslarını incelemiş ve n>p n: özlem sayısı, p: açıklayıcı değişken sayısı) olduğu durumlarda Lasso reresyonun performansının Ride reresyonun performansından daha yüksek olduğunu belirtmiştir. 6 Benzer şekilde, Zou ve Hastie 005), p>n olduğu durumlarda Elastik ağ ın kullanılabileceğini önerirken, bu koşullarda Lasso un tatminkar bir değişken seçme yöntemi olmadığı vurulamıştır ve Elastik ağ ın Lasso dan daha çok modele açıklayıcı değişken dahil etme eğiliminde olduğunu ve bunun özellikle açıklayıcı değişkenler arasında yüksek korelasyon olduğu durumda erçekleştiğini vurulamıştır. 7 Diğer yandan Fu 998) değişik küçültme veya daraltma parametrelerini shrinkae parameter) γ) kullanarak Bride reresyon, Standart re- 5

resyon γ=0), Lasso reresyon γ=) ve Ride reresyon γ =) yöntemlerini bir simülasyon çalışması ile karşılaştırmış ve çalışma sonucunda Bride reresyonun diğerlerinden daha iyi performans österdiğini belirtmiştir. 8 Bu çalışmada; yüksek boyutlu verilerde, özellikle değişken sayısının özlem sayına eşit olduğu veya eçtiği durumlarda kullanılabilecek yöntemlere alternatif olarak önerilebilecek yöntem olan İlişkili Bileşen reresyonu tanıtılmıştır. Ayrıca standart doğrusal reresyon, Ride reresyon ve Temel Bileşenler reresyonu ile karşılaştırmalı olarak değerlendirilmiştir. Bu sonuçlara öre; İlişkili Bileşen reresyonunun belirtilen koşullarda, değişken sayısının özlem sayısına yaklaşması ve eçmesi durumunda) standart reresyona öre daha iyi performans österdiği söylenebilir. Ayrıca reresyon katsayılarındaki değişkenlik ve aşırı uyum ibi problemleri de elemine etmede başarılı olduğu söylenebilir. Ancak, yöntemin performansını değerlendirmek ve diğer yöntemlerle karşılaştırmalı olarak incelemek üzere simülasyon çalışmalarının erekliliği unutulmamalıdır.. Maidson J. Correlated component reression: A prediciton/classification methodoloy for possibly many features. JSM roceedins of the American Statistical Assocation. Section on Statistical Learnin and Data Minin 00;437-86.. Ari E, Kaya Y, Demir H, Cebi A, Alp HH, Bakan E, et al. Oxidative DNA damae correlates with carotid artery atherosclerosis in hemodialysis patients. Hemodial Int 0; 54):453-9. 3. Maidson J, Wassmann K. The role of roxy enes in predictive models: an application to early detection of prostate cancer. JSM KAYNAKLAR roceedins of the American Statistical Association, Biometrics Section 00;739-53. 4. Maidson J, Bennet G. Correlated Component Reression CCR)-A brief methodoical description Contains a brief technical overview of the CCR Methodoloy). Technical apers 0;-7. 5. Maidson J. Summary of Correlated Component Reression CCR). CORExpress User s Guide: Manual for CORExpress by Statistical Innovations Inc. Belmont, MA: Statistical Innovations Inc; 0. p.64-87. 6. Tibshirani R. Reression Shrinkae and selection via the Lasso. J R Statist Soc B 996;58):67-88. 7. Zou H, Hastie T. Reularization and variable selection via the elastic net. J R Statist Soc B 005;67):30-0. 8. Fu WJ. enalized reression: the bride versus the lasso. AmericanJournal of Computational and Graphical Statistics 998;73): 397-46. 5