Kromatogramlarda Veri Sayısının Etkinliği O. Akpolat* ve H. Ertaş** *Muğla Sıtkı Koçman Üniversitesi, Fen Fakültesi, Kimya Bölümü, 48000 Muğla **Ege Üniversitesi, Fen Fakültesi, Kimya Bölümü, 35100 Bornova/İzmir Özet: Gaz kromatografisi ile yapılan pestisit analizlerinin örnek olarak incelendiği bu çalışmada, bir sınıf oluşturduğu düşünülen bir kromatografik analiz veri kümesinin eleman sayısı azaltılarak, oluşturulan yeni veri kümeleriyle çizilen kromatogramların, analiz cihazından alınan ilk verilerle çizilen kromatogramı ne kadar temsil ettiği araştırılmıştır. Veri kümelerinin taşıdıkları özelliklerin karşılaştırılması açısından bakıldığında ilk başvurulacak ölçüt, varyanslar arasındaki farkın olabildiğince az olmasıdır. Diğer yandan sınıfların ayırtedilmesi açısından ise; bu özelliklerin, aldıkları değerlerin birbirinden olabildiğince uzak olmasıdır. İki farklı sınıfının ayırt edici özelliği, bu iki önkoşulu birleştiren bir ayırt etme katsayısı ile tanımlanmıştır. Bu katsayı, araştırılan özelliğe ilişkin sınıfların ortalama değerlerin mutlak farkları ile, yine bu özelliğe ilişkin standart sapmaların toplamının oranına eşittir. İki sınıfın özelliklerinin karşılaştırılmasında bu katsayının alacağı büyük değerler kümesi yüksek ayırma kapasitelerini gösterir. Bir pestisit örneğinin gaz kromatografik analizinde alıkonma süresine karşı ayırt edilen maddelerin pik ölçümlerini oluşturan veri kümesi için veri sayısının etkinliğinin araştırıldığı bu çalışmanın amacı da, veri sayısındaki azaltma oranına bağlı olarak toplam indirgenmiş sınıf veri sayılarını, kromatogramların izlenebilirliği kaybolmayacak şekilde optimize etmektir. Bu çerçevede indirgenmiş veri kümeleri için toplam ayırma sayıları yerine, indirgenmiş veri sayıları, doğrudan kromatografiden alınan verileri esas aldığından birbirleriyle karşılaştırılarak azalma oranı ile normalize edilmiştir. Azaltma oranına bağlı olarak hesaplanmış ayırma ve normalize edilmiş ayırma katsayıları incelendiğinde, bu çalışmadaki örnek için veri sayısındaki 100 kattan fazla bir azaltmanın veri etkinliğini azalttığı, 1000 kattandan sonraki oranlar için ise veri etkinliğinin hemen hemen hiç kalmadığı söylenebilir. Anahtar Sözcükler: Veri indirgeme, Ayırdetme katsayısı, Veri etkinliği, Gaz kromatografisi, Pestisit Effectiviniess of Data Number for Chromatograms Abstract: In this work, a pesticide analysis by gas chromatography was chosen as an example and investigated how the chromatograms plotted with the reduced data sets were represented with that of the chromatogram with unreduced data directly received from the chromatography. For comparing of the data set being considered to form two classes, the distinguishing feature of the two different classes are defined by a differential coefficient combining these two prerequisites. This coefficient is equal to the ratio of the absolute value of the differences of their searched future and the sum of the standard deviations of this feature. In the comparison of the characteristics of two classes for this future the larger values of the coefficient shows higher separation capacity. The variance of the features corresponding to members of one class should be as small as possible. On the other hand, to distinguish between different classes, the positions of means of feature values for the data belonging to different classes should be separated from each other as much as possible. Both requirements are combined together to form the discrimination coefficient defined for the feature at recognition of two objects belonging to different classes. The large value of this coefficient indicates good potential separation ability of the feature for these two classes. On the other hand, its small value means that this particular feature is not good for the recognition between the classes. The set of descriptors of highest values of discrimination coefficients form the optimal set of features. Examining of the data number efficiency in the reduced chromatographic data cluster consist of retention time and peak areas or peak heights for the analysis of a pesticide sample, the aim of this study is to optimize the number of data in the sets depending on the reduction rate traceability so as not to lose the chromatograms. In the work discrimination coefficients were normalized with the reduction rates for all coefficients base on directly the data set of the chromatographic analysis. As examining the calculated discrimination coefficients and normalized discrimination coefficients for the sample of this work it could be said that a reduction of more than a 100 times decreases the effectiveness but those of more than a 1000 times is meaningless. Keywords: Data Reduction, Discrimination Coefficient, Data Efficiency, Gas Chromatography, Pesticides 278
1. GİRİŞ Gerek spektroskopik gerekse kromatografik olsun, ya da başka bir ölçüm cihazıyla bir karışım içinde yer alan kimyasalların belirlenmesinde, sözkonusu ölçüm cihazları detektörleri aracılığıyla aldıkları sinyalleri çok sayıda sayısal veriye dönüştürürler ve bu verileri de ya doğrudan Tabloler halinde, ya da karışımdaki maddelerin dağılım oranlarını göstermek üzere araştırmacılara pik yükseklikleri, pik alanları ya da madde dağılımları şeklinde sunarlar. Bundan sonraki aşamada araştırmacılar, zaman zaman bu verilere dayanarak sınıflandırma, kümeleme ya da modelleme ve optimizasyon gibi daha farklı istatistiksel değerlendirmelere ihtiyaç duyabilirler [1]. Ancak ölçüm cihazlarından doğrudan alınan verilerle yapılacak çalışmalardaki sayısal hesaplamalarda veri sayısının çok fazla oluşu, pratik uygulamalarda işlem kapasitesi açısından bazı çözümsüzlükler getirebilmektedir. Örneğin gaz kromatografisi ile yapılan pestisit analizleri incelendiğinde bu tür sorunlarla karşılaşılabilmektedir. Kısa bir tanımlamayla tarımsal ürünleri, hastalık, zararlı ve yabancı otlardan korumak için kullanılan her türlü kimyasal bileşiğe pestisit denilmektedir. Pestisit, herhangi bir istenmeyen canlının (pest) yayılmasını engelleyen, uzaklaştıran ya da ondan koruyan her türlü bileşik ya da bileşikler karışımı olarak da bilinmektedir. Kullanımları çok eskilere dayanmakta olan pestisitlerin çoğu zehirli kimyasal maddeler olduğu için insan ve hayvan sağlığı ile doğal dengeye zarar verebilmekte ve çevre kirliliği problemleri yaratabilmektedir. Teknik tavsiye ve talimatlara uyulmadan kullanılan pestisitler tüketime sunulan ürünler üzerinde kalıntı bırakmakta ve hem halk sağlığı açısından hem de ihraç ürünleri kalitesi bakımından sorunlar oluşturabilmektedir. Farklı ekstraksiyon ve ölçme metotları birçok gıda, sebze ve meyvede çoklu sınıftaki pestisitlerin tespiti için çok geniş olarak kullanılmaktadır ve bunların arasından herhangi bir metodolojiyi seçmek için ana kriter; o analitik metodun hızlı, kolay, ucuz ve farklı matrikslere uygulanabilir olmasıdır [2]. Son yıllarda gaz kromatografisi (GC ), gaz kromatografi kütle spektrometrisi (GC-MS ), gaz kromatografi tandem kütle spektrometrisi (GC-MS/MS) ve sıvı kromatografi tandem kütle spektrometrisinin (LC-MS/MS) yüksek ayırma gücü, seçiciliği ve tanımlama yeteneği nedeniyle pestisitlerin tayininde önemli gelişmeler sağlamıştır [3]. Örneğin poliklorlu dioksinler ve dibenzofuranların (PCDD/F), poliklorlu bifeniller (PCB), polisiklik aromatik hidrokarbonlar (PAH), polibromine difenil eterler (PBDEs), toxaphenler, klorlu organik bileşikler, pestisitler ve onların ana metabolitler olarak büyük çevresel kirleticiler ile ilgili araştırmaları analitik ve toksikolojik olarak devamlı gelişmektedir. Bu kompleks karışımlar çevresel olarak oldukça çok bulunmaktadırlar ve iz konsantrasyonlarda mevcut oldukları için çevresel düzeylerini belirlemek çoğu zaman zordur. Bu çerçevede kantitatif belirleme öncesi gerekli olan analitik sürecin adımları ve kalitatif belirlemeye ilişkin yapılacak olan gaz kromatografi analizleri Şekil 1.a ve b de ayrıntılı olarak verilmiştir. Şekil 2 de ise PCBlere ilişkin çok sayıdaki karmaşık bileşiğin geleneksel gaz kromatografisi kullanılarak yapılan analiz sonucu karışımda bulunan maddelerin pikleri çizilmiştir. Kimlik belirleme süreci ise kütle spektroskopisi ile desteklenmiştir [4]. Şekil 2 de ki verilen bir tek kromatogramı oluşturan veri kümesinin en az (50000-100000)*2 elemanlı olduğu unutulmamalıdır. Sınıf oluşturduğu düşünülen veri kümelerinin taşıdıkları özelliklerinin karşılaştırılmasında bu kümelerin yakınlığı açısından bakıldığında ilk başvurulacak ölçüt varyanslar arasındaki farkın olabildiğince az olmasıdır. Şekil 1. a. Analitik sürecin genel adımları b. Gaz kromatografik teknikler Diğer yandan sınıfların ayırtedilmesi açısından ise bu özelliklerin aldıkları değerlerin birbirinden olabildiğince uzak olmasıdır. Şekil 2. Geleneksel gaz kromatografisi ile 10 ppm Arochlor 1242 örneğinin kromatogramı. 279
İki farklı A ve B sınıfının ayırt edici özelliği bu iki önkoşulu birleştiren bir ayırt etme katsayısı S AB (f) ile tanımlanabilir. Bu katsayı, araştırılan özelliğe ilişkin ortalama değerler olan C A( f) ve C B (f) nin mutlak farkları ile yine bu özelliğe ilişkin standart sapmalar olan σ A (f) ve σ B (f) in toplamının oranına eşittir. İki sınıfın özelliklerinin karşılaştırılmasında bu katsayının alacağı büyük değerler kümesi yüksek ayırma kapasitelerini göstermektedir [5]. Bu çalışmanın amacı da bir pestisit örneğinin gaz kromatografik analizinde alıkonma süresine karşı ayırt edilen maddelerin pik ölçümlerini oluşturan veri kümesindeki eleman sayılarının belli oranlarda azaltılarak kromatogramların yeniden çizilmesi ve azaltılmış verilerle çizilen gafiklerde analizin etkinliğinin ne yönde değiştiğinin incelenmesidir. Bunun için hazırlanan programın algoritması verilmiş olup karşılaştırmalı sonuçlar ayrıntılı olarak verimiştir [6]. 2. YÖNTEM Sunulan araştırmada, 20140713000003.D kodlu pestisit örneği Agilent marka gaz kromatografisinde Tablo 1 de verilen çalışma koşullarında DB-5 kolonunda analiz edilmiştir. sayıları doğrudan kromatografiden alınan verileri esas aldığından birbirleriyle karşılaştırılarak azalma oranı ile normalize edilmiştir. Etkinlik sayısı, S AB (f), ve toplam etkinlik sayısı, NS AB (f), aşağıdaki gibi belirlenmiştir. Burada c ortalamaları σ ise standart sapmaları göstermekte olup kromatografiden alınan 65536*2 adet veri Tablo 2 de özetlenmiştir Tablo 2. Kromatografiden alınan veri kümesi (sns_kromat_exc_10_07_14xx.xls) Tablo 1. Pestisit örneğinin analizinde gaz kromatografisi çalışma koşulları Dedektörde belirlenen madddelerin başlıcaları chloropyrifos, pencanazol, procymidon, bromopropylate ve lamda cyhalothirin dir. Analizi yapılan pestisit örneğinin piklerini oluşturan veri kümesinin N sayıdaki elemanı 1/10 n (n=0:6) oranında sıralı olarak azaltılarak yeni veri kümeleri oluşturulmuştur. Oluşturulan veri kümeleriyle analiz edilen örneğin kromatogramları çizilmiş ve görsel olarak da izlenebilen veri etkinliğine ilişkin toplam etkinlik sayıları azaltma oranına bağlı olarak hesaplanmış ve veri azaltma oranı veri etkinliği kaybolmayacak şekilde optimize edilmeye çalışılmıştır. Toplam etkinlik sayısı ise tüm etkinlik Hazırlanan program aşağıda ayrıntılı olarak sunulmuştur: % Ak00ChrDat_Dis_Kat_Nor.m clear all, clc, close all, n=1; for1bas=1; for1maxtemp=65536; % Experimental Data for1maxtempnew=(floor(for1maxtemp/1000))*1000; XY(:,2:3)=xlsread( sns_kromat_exc_10_07_14xx.xls ); for1max=length(xy); Temp=0; % for1maxtemp=for1maxreal=for- 1max=65536; CodTimeN=[0 10 100 1000 10000 for1max- Temp];CT=length(CodTimeN); CodDel=1;CodTime=CodTimeN(1); Reduction- Rate=CodDel*CodTime; for for1bas=1:for1maxtemp; Temp=Temp+1; XYTemp(for1bas,1:1)= Temp; end XYTemp(1:for1maxTemp,2:3)=XY(1:for1max- Temp,2:3); figure(1),plot(xytemp(:,2),xytemp(:,3)) xlabel( time ), ylabel( peak height ), title( Chromato- 280
graphic Data ) EvalDataTemp=for1maxTemp, StdXYTemp=std(XY- Temp(:,3)) % Discriminant Coefficient SABf= caf-cbf /(sigaf+sigbf) cbf=mean(xytemp(:,3)); sigbf=std(xy- Temp(:,3)) EvalDatStdDev(n,1)=ReductionRate; EvalDatStdDev(n,2)=for1max; EvalDatStdDev(n,3)=mean(XYTemp(:,3)); EvalDatStd- Dev(n,4)=std(XYTemp(:,3)); EvalDatStdDev(n,5)=abs(mean(XYTemp(:,3))- cbf)/(std(xytemp(:,3))+sigbf); for n=2:ct; % Reducing Data CddTime times CodDel=1; CodTime=CodTimeN(n); Reduction- Rate=CodDel*CodTime; code=0; for counter=1:reductionrate:for1maxtempnew code=code+1; XYNew(code,1)=code;XYNew(code,2)=XY(co unter,2); XYNew(code,3)=XY(counter,3); end for1max=length(xynew); XYTemp; XYNew; figure(n),plot(xynew(:,2),xynew(:,3)) xlabel( time ),ylabel( peak height ),title( Reduction rate: CodTime times ) EvalDatStdDev(n,1)=ReductionRate; EvalDatStd- Dev(n,2)=for1max; EvalDatStdDev(n,3)=mean(XYNew(:,3)); EvalDatStd- Dev(n,4)=std(XYNew(:,3)); EvalDatStdDev(n,5)=abs(mean(XYNew(:,3))- cbf)/(std(xynew(:,3))+sigbf);n=n+1; end % Normalized Discriminent Coefficient % NSABfn=(SABfn-SABfn_maksimum)/SABfn_maksimum Dev(:,5)*1e6, * ) xlabel( Reduction rate of data : times ) ylabel( Discriminant coefficient ) title( S_AB(f)= c_a(f)-c_b(f) /(sigma_a(f)+sigma_b(f) ) figure(ct+2),plot(evaldatstddev(1:ct-1,1),nsabf- n(1,1:ct- 1), * ) xlabel( Reduction rate of data : times ), ylabel( Normalized discriminant coefficient ) title( N_SAB(f)n= (SAB(f)n-SAB(f)n_1) / 10^n ) % ----------------------------------------------------- Yapılan bu çalışmada öncelikle her bir veri kümesi için hesaplanan ayırma değerleri ile normalize edilmiş olan ayırma değerleri azaltma oranlarına bağlı olarak Tablo 3 de verilmiştir. Tablo 3. Azaltma oranına bağlı olarak hesaplanan veri ayırma ve normalize edilmiş veri ayırma değerleri Ardından cihaz verileriyle karşılaştırılmak üzere cihazdan doğrudan alınan ve bu kümeden 10000 kat azaltılarak elde edilen veri kümeleriyle çizilen kromatogramlar Şekil 3. a ve b de örnek olarak verilmiştir. Ayrıca Tablo 3 de verilmiş olan her veri kümesi için azaltma oranlarına karşı hesaplanan ayırma değerleri ile normalize edilmiş ayırma değerlerine ilişkin çizilen grafikler Şekil 4. a ve b de sunulmuştur. for i=2:ct SABfn=EvalDatStdDev(i,5);SABfn_1=EvalDatStd- Dev(i-1,5); NSABfn(i)=abs(SABfn-SABfn_1)/abs(10^i); EvalDatStdDev(i,6)=NSABfn(i); end; % Reducing Data Standart Deviation Discriminant coefficient Reduc. Numb.of data Mean Stand.dev Discr.coef. Nor.Di.coef. ------ ------ ------ ------ ------ ------- format long xlswrite( sns_kromat_exc_10_07_14xx_results04. xlsx,evalda Şekil 3. (a) Cihaz verileriyle çizilen kromatogram tstddev); EvalDatStdDev, figure(ct+1),plot(evaldatstddev(:,1),evaldatstd- 281
Şekil 3. (b) 10000 kat azaltılmış veri kümesiyle çizilen kromatogram 3 SONUÇLAR Ölçüm cihazlarından doğrudan alınan verilerle yapılacak çalışmalardaki sayısal hesaplamalarda veri sayısının çok fazla oluşu, pratik uygulamalarda işlem kapasitesi açısından bazı güçlükler oluşturabilmektedir. Bu çalışmada da karşılaşılabilecek bu tür sorunlara örnek olarak gaz kromatografisi ile yapılan pestisit analizleri incelenmiştir. Bu örnekde olduğu gibi sınıf oluşturduğu düşünülen bir kromatografik analizdeki veri kümesinin eleman sayısı azaltılarak oluşturulan yeni veri kümeleriyle aynı kromatograf tekrar tekrar çizilmiş ve bu kromatogramların analiz cihazından alınan ilk verilerle çizilen kromatogramı ne kadar temsil ettiği araştırılmıştır. Veri kümelerinin taşıdıkları özelliklerinin karşılaştırılması açısından bakıldığında ilk başvurulacak ölçüt varyanslar arasındaki farkın olabildiğince az olmasıdır. Diğer yandan sınıfların ayırtedilmesi açısından ise bu özelliklerin aldıkları değerlerin birbirinden olabildiğince uzak olmasıdır. Şekil 4. (a) Veri kümelerinin ayırma değerleri Şekil 4. (b) Veri kümelerinin normalleştirilmiş ayırma değerleri İki farklı A ve B sınıfının ayırt edici özelliği bu iki önkoşulu birleştiren bir ayırt etme katsayısı ile tanımlanmıştır. Bu katsayı, araştırılan özelliğe ilişkin ortalama değerlerin mutlak farkları ile, yine bu özelliğe ilişkin standart sapmaların toplamının oranına eşittir. İki sınıfın özelliklerinin karşılaştırılmasında bu katsayının alacağı büyük değerler kümesi yüksek ayırma kapasitelerini göstermektedir. Veri etkinliğinin araştırılmasında azaltma oranına bağlı olarak toplam ayırma sayıları hesaplanmış ve veri azaltma oranı veri etkinliği kaybolmayacak şekilde optimize edilmiştir. Toplam ayırma sayıları ise tüm ayırma sayıları doğrudan kromatografiden alınan verileri esas aldığından birbirleriyle karşılaştırılarak azaltma oranı ile normalize edilmiştir. Azaltma oranına bağlı olarak hesaplanan veri ayırma ve normalize edilmiş veri ayırma değerleri incelendiğinde, bu çalışmadaki örnek için veri sayısındaki 100 kattan fazla bir küçültmenin veri etkinliğini azalttığı 1000 kattandan sonraki küçültmeler ile veri etkinliğinin hemen hemen hiç kalmadığı söylenebilir. 4. KAYNAKLAR [1] Brereton, R.G., (2003), Chemometrics: Data Analysis for the Laboratory and Chemical Plant, John Wiley & Sons, Ltd. [2] Lehotay S. J., (2007), Determination of Pesticide Residues in Foods by Acetonitrile Extraction and Partitioning with Magnesium Sulfate: Collaborative Study, J. AOAC Int. 90, NO. 2 [3] Lehotay S. J., Son K. A., Kwon H., Koesukwiwat U., Fu W., Mastovska K., Hoh E., Leepipatpiboon N., (2010), Comparison of QuEChERS sample preparation methods for the analysis of pesticide residues in fruits and vegetables, Journal of Chromatography A, 1217, 2548 2560 [4] Marriotta, P.J., Haglundb, P., Onga, R.C.Y., (2003), A review of environmental toxicant anal- 282
ysis by using multidimensional gas chromatography and comprehensive GC, Review, Clinica Chimica Acta, 328 1 19 [5] Tomasz, L.. Kruk, M., Osowski, S., (2013), Automatic recognition of industrial tools using artificial intelligence approach, Expert Systems with Applications, 40 4777 4784 [6] Arifoğlu, U., (2005), MATLAB 7.04 SIMULINK ve MÜHENDİSLİK UYGULAMALARI, Alfa Ltd.. 283