Comparing the Test Information Obtained through Multiple- Choice, Open-Ended and Mixed Item Tests Based on Item Response Theory

Elementary Educaton Onlne, 11(1), 251-263, 2012. İlköğretm Onlne, 11(1), 251-263, 2012. [Onlne]: http://lkogretm-onlne.org.tr Comparng the Test Informaton Obtaned through Multple- Choce, Open-Ended and Mxed Item Tests Based on Item Response Theory Selda Gültekn * and Nükhet Çıkrıkçı Demrtaşlı ** ABSTRACT: The purpose of ths study s to fnd out whether there s a dfference between tem-test functons and the level of ther relatve effcency whch are estmated accordng to the Item Response Theory among the tests whch measure smlar cogntve sklls related to success n mathematcs, and n whch multple-choce and constructed response tems are employed together wth varyng percentages. For that purpose, tem and test nformaton functons were estmated and relatve effcency ndces were calculated through responses gven to four mxed tem tests, among the tems wthn TIMSS 2007 Maths test booklet #2, the test length (number of tems: 15 and 25) and open-ended tem percentages (20% and 40%) of whch were dfferent. Parameter estmatons were carred out va BILOG-MG software. Research data were obtaned from 320 eght-grade students who partcpated n TIMMS 2007 maths applcaton from Turkey and who were gven the booklet #2, va the offcal webpage of OECD (http://tmss.bc.edu/). At the end of the research, t s determned that the test composed of constructed response tems yelds more nformaton n terms of students level of competence n mathematcs than the one composed of multple-choce tems. Relatve effcency values ndcate that the test composed of open-ended tems s the most effcent of all tests. Key Words: Mxed Item Tests, Item Response Theory, Test Informaton Functon, Relatve Effcency SUMMARY Purpose and Sgnfcance: Problems arsng from the popular usage of multple-choce tems n large-scale tests (success by chance, nablty to check hgher order cogntve sklls, etc) have resulted n a tendency to use dfferent tem types along wth multple-choce tems. Recently, t s observed that open-ended and other tem types (true/false and restrcted open-ended tems and both) are beng used along wth multple-choce tems n large-scale testng. Despte the varety n the tem types that are globally used n large-scale tests, they are not preferred n natonal exams n Turkey. Ths research s attemptng to answer whether combned usage of multple-choce and constructed response tem types results n dfferences n the level of nformaton obtaned from the test. Fndngs of ths research are expected to shed lght on developments related to the applcaton of naton-wde exams. Popularzaton of mxed tem test applcatons s consdered to be of mportance n terms of adaptng modern educaton and measurement/evaluaton systems. Methods: Data of the research were obtaned from 320 eght-grade students who partcpated n Trends n Internatonal Scence and Mathematcs Study (TIMSS) mplemented n 2007 and who were gven booklet #2 of the maths test. In order to be compared wthn the scope of the research, sx tests four mxed tem tests, an open-ended and a multple-choce tem test were composed of the tems from TIMSS 2007 Maths Test booklet #2. In mxed tem tests, the test length was lmted to 15 and 25 tems, and the open-ended tem percentage to 20% and 40%. The tem and test nformaton functon pertanng to the queston at what level are the tem and test nformaton functon and relatve effcency ndces of the research were obtaned through expected a posteror method va BILOG MG software. Results: At the end of the research, tem nformaton functons whch ndcated the level of nformaton obtaned from test tems proved that the amount of nformaton obtaned from open-ended test tems was the hghest. It was found out that the average nformaton obtaned from the open-ended tems n dfferent tests was more than the amount obtaned from multple-choce tems. The relatve effcency values obtaned through the rato of test nformaton functons showed that although test wth open-ended tems ncluded fewer number of tems, t had more effcency of measurement than longer tests. The short mxed tem test wth a hgh percentage of openended tems was found to yeld more nformaton at low order sklls whereas the open-ended tem test dd so at hgher order sklls levels. Dscusson and Conclusons: Based on research fndngs, and takng the possble dffcultes n scorng due to the composton of the test merely of open-ended tems nto account for the tests to be used n large-scale test applcatons, the usage of long mxed tem tests wth an open-ended tem percentage closer to 50% s consdered to be benefcal n terms of the amount of nformaton obtaned from the test. Accordng to ths, the usage of two formats wth approxmately equal percentages would prevent the ncluson of possble guessng errors due to the mplementng of multple-choce tems and would ncrease the level of measured cogntve sklls provded that they are qualfed questons. In ths case, decsons on selecton or competence to be taken based on the results of these tests would prove more vald and relable for montorng of learnng, selecton and placement of students/persons to educatonal programs/jobs. * Exp. Selda Gültekn, TED Ankara College Foundaton Prvate Hghschool, e-mal: kbarselda@gmal.com ** Assoc. Prof. Dr. Nükhet Çıkrıkçı Demrtaşlı, Ankara Unversty Faculty of Educatonal Scences Department of Measurement and Evaluaton, e-posta: rnukhet@yahoo.com 251

Çoktan Seçmel, Açık Uçlu ve Karma Testlerden Sağlanan Blgnn Madde Tepk Kuramına Dayalı Olarak Karşılaştırılması Selda Gültekn ** ve Nükhet Çıkrıkçı Demrtaşlı *** ÖZ. Bu çalışmanın amacı, Matematk başarısına lşkn olarak benzer blşsel becerler ölçen çoktan seçmel ve yanıtı sınırlı açık uçlu maddelern tek başına ve brlkte kullanıldığı, ve bu k madde tpnn test çnde yer alma yüzdelernn farklı olduğu testlerden Madde Tepk Kuramına göre kestrlen madde ve test blg fonksyonlarının (tem and test nformaton functon), görel etkllk (relatve effcency) düzeylernn farklı olup olmadığını araştırmaktır. Bu amaç doğrultusunda, TIMSS 2007 matematk test k numaralı ktapçıkta yer alan maddelerden test uzunluğu (madde sayısı: 15 ve 25) ve açık uçlu madde yüzdes (%20 ve %40) farklı dört karma testte verlen yanıtlardan madde ve test blg fonksyonları kestrlmş, görel etknlk ndeksler hesaplanmıştır. Parametre kestrmler, BILOG-MG programı kullanılarak yapılmıştır. Araştırma verler, TIMSS 2007 matematk uygulamasına Türkye den katılan ve matematk testnn 2. ktapçığını alan 320 8.sınıf öğrencsne at olan ve OECD nn resm web sayfasından (http://tmss.bc.edu/) elde edlmştr. Araştırma sonucunda, yanıtı sınırlı açık uçlu maddelerden oluşan testn öğrenclern matematk başarısı hakkında çoktan seçmel maddelerden oluşan teste göre daha fazla blg verdğ sonucuna ulaşılmıştır. Görel etkllk değerler, açık uçlu maddelerden oluşan testn dğer testlerden etkl olduğunu ortaya koymuştur. Bu doğrultuda, genş ölçekl test uygulamalarında, çoktan seçmel maddelern yanı sıra, yanıtı sınırlı açık uçlu maddelere de yer verlmes, hem çoktan seçmel maddelerden gelen şans başarısı kaynaklı hataların puanlara karışmasını önleyeblecek, ntelkl sorular olmak koşuluyla ölçülen zhnsel becerlern düzey yükseleblecek ve bu testlern sonuçlarına göre verlen seçme veya yeterlk kararlarının daha geçerl ve güvenlr olması sağlanablecektr. Anahtar sözcükler: Karma Testler, Madde Tepk Kuramı, Test Blg Fonksyonu, Görel Etkllk GİRİŞ Öğrenc merkezl öğrenme yaklaşımlarının benmsendğ değşen öğretm programlarında, sınıf ç değerlendrme etknlklernn doğası değşmş; öğretmenn hem öğretm hem de değerlendrme etknlklern çeştlendrmes ve brleştrmesn gerektrmştr. Tek br soru formatı ya da değerlendrme şekln kullanmak öğrenclerde tek yönlü br çalışma alışkanlığı gelştrerek; öğrenme çıktıları açısından yne tek yönlü özellkler ağırlık kazanmaktadır (Berberoğlu, 2006). Eğtmde öğrenmeler zleme, teşhs, seçme, yerleştrme gb çeştl amaçlarla kullanılan ölçme araçlarında yer alan farklı madde tplernn güçlü ve zayıf yönler bulunmaktadır. Çoktan seçmel maddelerden oluşan testler, daha kısa sürede daha fazla sayıda becer ölçüleblmes, puanlanma kolaylığı ve objektflğ gb üstünlüklere sahptr (Haladyna, 1997). Çoktan seçmel madde türüyle, blşsel alanın bazı düzeyndek davranışları (blg, kavrama, uygulama, analz) ölçmek mümkündür (Tekn, 1991). Bununla brlkte, son yıllarda eğtm-öğretmde, okuduğunu anlama, krtk etme, yorumlama, blgy toplayıp analz edeblme, br sonuca ulaşma, grafk ya da tablo halnde verlen blgden sonuç çıkarma, uzaysal muhakeme, gözlem yapma, gözlemlerden sonuca ulaşma, günlük hayatta sıkça karşılaşılan problemler çözeblme, araştırma yapma gb breyler sosyal yaşama daha çok hazırlayan becerlern ağırlık kazandığı görülmektedr (Berberoğlu, 2006). Bu türden üst düzey düşünme becerlernn sadece çoktan seçmel maddelerden oluşan testlerle yoklanması zordur. Çoktan seçmel maddelern öneml dğer br sınırlılığı da breylern tahmnle puan kazanma olanağının bulunmasıdır. Çoktan seçmel madde formatının yapısı gereğ seçenekler çermes, o maddeyle ölçülen özellğe sahp olmayan veya kısmen sahp olan yanıtlayıcıyı, şansını kullanarak doğru yanıtı bulmaya yönelteblr. Şans başarısı olarak tanımlanan bu durum testn geçerlk ve güvenrlğn olumsuz etklemektedr (Tekn, 1991). ** Ölçme Değerlendrme Uzmanı, TED Ankara Kolej Vakfı Özel Lses, e-posta: kbarselda@gmal.com *** Doç. Dr., Ankara Ünverstes Eğtm Blmler Fakültes, Ölçme ve Değerlendrme Anablm Dalı, e-posta: rnukhet@yahoo.com 252

Çoktan seçmel maddelern genş ölçekl testlerde yaygın olarak kullanılması sonucunda ortaya çıkan bu tartışmalar çoktan seçmel maddelern yanı sıra farklı madde türlern de kullanma eğlmn ortaya çıkarmıştır. Farklı madde tplernn brbrlerne olan üstünlüğünü avantaja dönüştürmek çn ölçme araçlarında farklı madde tplernn br arada kullanılması yaygınlık kazanmaktadır. Dünyada Natonal Assessment of Educatonal Progress (NAEP), Massachusetts Comprehensve Assessment System (MCAS), Test of Englsh as a Foregn Language (TOEFL), Programme for Internatonal Student Assessment (PISA), Trends In Internatonal Mathematcs and Scence Study (TIMSS), Advanced Placement Test (AP), CITO Türkye Öğrenc zleme Sstem-ÖİS gb farklı madde türlernn br arada kullanıldığı, akademk başarı ve yeterlk belrlemeye yönelk ölçme uygulamaları bulunmaktadır. Uygulandıkları ülkelerde yüzbnlerce breyn katılımıyla gerçekleşen bu tür uygulamalar, karma test maddelernn puanlanmasına yönelk gelştrlmş özel yazılımlarla (IntellMetrc, E-rater, Intellgent Essay Assessor, Project Essay Grade vb.) puanlanmaktadır. (Waner&Thssen, 1993; Bastar, 2000; Sherms&Bursten, 2003; MEB, 2007; Demrtaşlı, 2010). Dünyada genş ölçekl testlerde kullanılan madde türlerndek çeştllk ulusal sınavlarda terch edlmemektedr. Bu araştırmayla çoktan seçmel ve yanıtı sınırlı açık uçlu madde tplernn brlkte kullanılmasının testten elde edlen blg düzeynde farklılıklara yol açıp açmadığı ortaya konmaya çalışılmıştır. Araştırmanın bulgularının ulusal düzeydek merkez sstem sınavlarının uygulanmasıyla lgl gelşmelere ışık tutacağı düşünülmektedr. Ntekm, ölçme araçlarında sadece çoktan seçmel soru formatının kullanılmasının eğtm sstem üzernde yarattığı olumsuz etkler sadece eğtmcler arasında değl karar vercler düzeynde de tartışılmaya başlanmıştır. Berberoğlu (2009), Öğrenc İzleme Sstem (ÖİS) kapsamında öğrenclern akademk başarısını etkleyeblecek dğer duyuşsal ve öğretmsel özellklern yoklandığı Öğrenc Sosyal Gelşm Programı çerçevesnde uygulanan anketlerle, öğrenclern sınıf düzey arttıkça daha çok ezberleme stratejlern kullandıklarını ortaya konmuştur. Bu durum, öğretmenlern sınıfta test çözme y br öğretm etknlğ gb kullanma ve bu türden testlern ev ödev gb verlmes davranışının br sonucudur. Öğrencler, konuları kavramak yerne, soruların çözüm algortmalarını ezberlemektedrler. Soru üzernden eğtmn yanlış br süreç olduğu tartışmaları son dönemde oldukça artmıştır. Karma test uygulamalarının yaygınlaşmasının, modern çağa uygun eğtm-öğretm ve ölçme-değerlendrme sstemlerne geçş açısından öneml olacağı düşünülmektedr. Bu uygulamalarda kullanılmaya başlanan açık uçlu maddeler, kend çersnde yanıtı sınırlandırılmış ve yanıtı serbest bırakılmış sorular olmak üzere k grupta ele alınmaktadır. Yanıtı sınırlandırılmış açık uçlu maddede öğrencden yanıtın ntelğne, uzunluğuna ya da organzasyonuna yönelk sınırlamalar yapması stenr. Yanıtı sınırlandırılmış açık uçlu maddeler, hem daha çok soru sormaya olanak sağlaması hem de puanlamanın kolay olması nedenyle daha çok terch edlmes gereken br formattır (Kubzh ve Borch, 2003). Matematkte problem çözme becers yoklanırken kısa ama çok sayıda problem sorulması şans faktörünü büyük ölçüde azaltarak güvenrlğn artmasını sağlar. açık uçlu olarak tanımlanan bu tp sorularda yazma ve fade becerler puanlamada etkl olmayacak ve yne çoktan seçmel maddeler gb 0 ve 1 şeklnde puanlanablecektr (Umay, 1997). Yukarıda sayılan bu ölçme uygulamalarından br de Uluslararası Eğtm Başarısı Değerlendrme Kuruluşu (Internatonal Assocaton for the Evaluaton of Educatonal Achevement IEA) tarafından, katılımcı OECD ülkelernn dört yılda br 4. ve 8. sınıf düzeylernde uygulanan, öğrenclern matematk ve fen başarılarını ölçmey amaçlayan TIMSS (Trends n Internatonal Mathematcs and Scence Study) tr. TIMSS uygulamalarının dördüncü ve sonuncusu olan TIMSS 2007, katılımcı ülkelern öğrenclern matematk ve fen blmler alanındak başarı durumları değerlendrlp; öğretm programları, öğretmen ve okulların özellkler, öğrenc özellkler ve eğtm sstem hakkında da blg sahb olunmaktadır. 49 ülkenn katıldığı uygulamaya Türkye sadece 8. sınıf düzeynde 146 okulda toplam 4498 öğrencyle katılmıştır. 4. sınıf düzeynde katılım olmamıştır (IEA, 2008-1; MEB, 2011). Test gelştrme ve dğer ölçekleme uygulamaları bell kuramsal temellere dayalı olarak yürütülür. Pskometrde ölçme araçlarının gelştrlmes, puanlanması ve pskometrk ntelkleryle lgl sorunların ele alınmasında yaygın olarak k test kuramından yararlanılır. Br, klask test kuramı (KTK) dğer de kullanımı gderek yaygınlaşan Madde Tepk Kuramı (MTK) dır. MTK, olasılıklı ölçme modeller le ölçme uygulamalarına bazı avantajlar sağlamıştır. Bunlar arasında; farklı amaçlar çn test gelştrme, puanların eştlenmes, madde yanlılığının belrlenmes ve blgsayarlı breye 253

uyarlanmış testlerde yetenek puanlarının kestrm gb çeştl ölçme problemlernn çözümü çn kullanışlı br çerçeve sağlar (Hambleton, Swamnathan ve Rogers, 1991, Baker&Km, 2004, Zhao, 2008). Madde Tepk Kuramı, kşnn ölçülen özellktek (yeterlk) düzey le verdğ yanıtlar arasında br lşk olduğunu kabul eder, bu lşky matematksel br fonksyon le açıklayan olasılıklı br model önerr. (Embretson ve Rese, 2000). Madde Tepk Kuramı k temel kabule dayanır: (a) doğrudan gözlenemeyen örtük özellk ya da yetenek/yeterlk olarak adlandırılan pskolojk yapı, breylern test maddelerndek gözlenen performansından kestrleblr, (b) breylern maddelerdek performansı le madde performansından sorumlu olan özellk arasındak lşk, madde karakterstk fornksyonu/eğrs olarak adlandırılan doğrusal olmayan br fonksyonla açıklanablr (Hambleton, Swamnathan ve Rogers, 1991). Kuram, bell varsayımlar (tekboyutluluk, yerel bağımsızlık, model-ver uyumu) altında maddelern özellklernden bağımsız yetenek parametreler ve yanıtlayıcı örneklemnden bağımsız madde parametreler kestrebleceğn dda eder. MTK bu özellğ farklı amaçlar test gelştrmey, paralel ve breye uyarlamalı test gelştrmey, test eştleme çalışmalarını daha mümkün kılmaktadır. Breylern geleceğn etkleyen SBS, ÖSS gb genş ölçekl testler sadece çoktan seçmel maddelerden oluşmaktadır. Bu testler de yukarıda özetlendğ üzere çoktan seçmel testlern sınırlılıklarını taşımaktadır. Bu noktadan hareketle benzer yapıları ölçen çoktan seçmel ve yanıtı sınırlı açık uçlu madde formatlarının br arada kullanıldığı durumlarda testlern pskometrk ntelklernn nasıl farklılaştığının ortaya konması önem kazanmıştır. Bu kapsamda ölçme uygulamalarında KTK nın sınırlılıklarını gderen MTK ye dayalı ölçme model ve yöntemlernn kullanımı yaygınlaşmıştır Madde Tepk Kuramında, test maddelern seçmede ve testler karşılaştırmada kullanılan en öneml parametre, madde ve test blgs dr. Madde blgs, maddenn ölçtüğü özellk hakkında ne denl güvenlr blg verdğ gösterr. Temelde madde blgs parametres, maddenn güçlük ve ayırıcılık parametreler le lşkldr. Eştlk 1 ve 2 madde blgsn veren fonksyonu ve dğer madde parametreler le lşksn vermektedr. ' P ( ) I( ) (1) P ( ) Q ( ) 2 Eştlk (1) de; I ( ):. maddenn madde blg fonksyonunu, P ( ): ya bağlı madde tepk fonksyonunu, Q ( ): 1 P ( ) yı ve P ' ( ) : P ( ) nın brnc türevn göstermektedr. İk kategorl puanlanan maddelerde üç parametrel lojstk model çn P ( ) nın açılımı bu eştlkte yerne konduğunda aşağıdak eştlk elde edlmektedr: I( 2 2,89 a (1 c ) ) (2) c exp(1,7 a ( b ) 1 exp( 1,7 a ( b ) 2 Bu eştlkte, madde blg fonksyonunun madde parametreleryle lşks açıkça görülmektedr. Br madde, madde güçlük parametres (b) htap ettğ yetenek düzey ya yaklaştıkça, madde ayırıcılığı (a) arttıkça ve şans parametres (c) sıfıra yaklaştıkça daha fazla blg vermektedr. yetenek düzeynde br testn sağladığı blg, o yetenek düzeynde madde blg fonksyonlarının toplamından elde edlr. n I ( ) 1 I ( ) (3) Bu durum, her br test maddesnn katkısının, testtek dğer maddeler blnmedğnde de tanımlanabldğn ortaya koymaktadır. Test blg fonksyonu, Klask Test Kuramındak güvenrlk katsayısından farklı olarak, testn uygulandığı örneklemden tamamen bağımsız olduğunu dda etmektedr. 254

Br test blg fonksyonu, yetenek düzey ölçeğnde bazı noktalarda en yüksek değern alırken; tüm yetenek düzeylernde eşt olmayan değerler alablr. Böyle br testn, yetenek düzeyler test blg fonksyonunun en yüksek değere ulaştığı noktanın yakınlarındak breylern yetenek kestrmnde y olduğu söylenmektedr. Bazı testlerde se test blg fonksyonu yetenek düzeynn bazı noktalarında daha basık br dağılım göstereblr. Test blg fonksyonu bu testlern, o yetenek aralığındak breylere htap ettğn gösterr. Test blg fonksyonu yorumlanırken; yetenek düzey ve test blg fonksyonu arasındak lşk göz önünde tutulmalıdır. (Hambleton, Swamnathan ve Rogers, 1991, Embretson ve Rese, 2000, Baker, 2001). Test blg fonksyonu, test gelştrme ve madde seçme açısından önem taşımaktadır. Ancak; test ve madde blg fonksyonu, kesn olarak yorumlanamadığında, testlern görel olarak karşılaştırılması mümkündür. Genel olarak, I A ( ) ve I B ( ) k teste lşkn aynı düzeynde test blg fonksyonlarını gösterdğnde; görel etkllk (relatve effcency): RE( ) = I A ( ) / I B ( ) formülüyle hesaplanmaktadır. Örneğn; A ve B gb aynı özellğ ölçmek üzere gelştrlmş k testn test blgs sırasıyla, I A ( )=25 ve I B ( )=20 olduğunda, RE( )=1.25 olarak bulunmaktadır. Bu durumda, Belrl düzeynde, Test A, Test B den %25 daha uzunmuş gb blg sağlamaktadır. yorumu yapılablmektedr. Bu kavram, test model ve puanlama formülünün seçmnde öneml rol oynamaktadır. (Lord ve Novck, 1968, Hambleton & Swamnathan, 1985, Hambleton, Swamnathan ve Rogers, 1991). Farklı madde tplernn br arada kullanıldığı ve madde tepk kuramı kapsamında ele alan çeştl araştırmalar vardır. Bu çalışmalarda, kullanılan farklı madde formatlarına lşkn puanlama süreçler ve bunların ölçme sonuçlarının geçerlk ve güvenrlğn artırmaya etks olduğu üzernde durulmuştur (Waner&Thssen, 1993; Bastar, 2000; Schaeffer ve dğerler, 2002; Baker&Km, 2004; Shn, 2007). Madde Tepk Kuramına dayalı olarak yapılan bu çalışmalarda, açık uçlu maddelerden sağlanan blgnn çoktan seçmel maddelere göre daha yüksek olduğu; açık uçlu maddeler şans başarısı çermedğnden düşük yetenek düzeyndek breylerde de ölçülen özellğe lşkn yüksek blg sağlanabldğ belrlenmştr. Madde sayısı ve açık uçlu madde oranının artmasının testten sağlanan blg, güvenrlk kestrm ve ölçme duyarlığını artırdığı bulgusuna ulaşılmıştır. (Lukhele ve dğerler, 1994; Erckan ve dğerler, 1998; Knsey 2003; Uyeno, 2004) Yukarıda değnlen lgl alan yazında farklı madde formatlarının brbrne üstünlüğünün araştırıldığı ve son yıllarda farklı madde formatlarının br arada kullanıldığı karma test uygulamalarında testlern pskometrk ntelklernn farklılaşıp farklılaşmadığı araştırmalara konu olmaktadır. Farklı madde formatlarının brbrlerne olan üstünlüğüne dar pek çok araştırma olmasına karşın; özellkle son yıllarda dünyada sıklıkla genş ölçekl test uygulamalarında yer bulmaya başlayan karma testlern sadece tek madde formatından oluşan testlere karşı üstün olup olmadığına lşkn yeterl araştırma olmaması bu araştırmada karma testlern madde ve test blg fonksyonlarının, çoktan seçmel veya açık uçlu maddelerden oluşan testlere göre farklılık gösterp göstermedğnn araştırılmasına htyaç duyulmuştur. Bu çalışmada, Matematk başarısına lşkn olarak benzer yapıları ölçen k madde tpnn (çoktan seçmel ve yanıtı sınırlı açık uçlu) ayrı (tek başına) ve brlkte kullanıldıkları koşullar le k madde tpnn test çnde yer alma yüzdelernn test formlarında farklı olduğu durumlarda MTK ye göre kestrlen madde ve test blg fonksyonlarının (test nformaton functon) ve görel etknlk (relatve effcency) düzeylernn farklı olup olmadığını araştırmak amaçlanmıştır. Bu amaç çerçevesnde; Madde sayısının 25 ve 15; açık uçlu madde yüzdesnn %40 ve %20 olduğu dört karma testten (KT1:25,%40; KT2:25,%20; KT3:15,%40; KT4:15,%20), açık uçlu (AUT) ve çoktan seçmel (ÇST) testlerden kestrlen madde ve test blg fonksyonları le görel etknlk (relatve effcency) ndeksler hang düzeydedr? sorusuna yanıt aranmıştır. 255

YÖNTEM Araştırma Model Bu araştırmada, çoktan seçmel ve açık uçlu madde formatlarının Madde Tepk Kuramına dayalı olarak brlkte ölçeklenmesnn madde ve test blg fonksyonlarında fark yaratıp yaratmadığı araştırılmıştır. Bu yönüyle çalışma, kuramsal ve temel araştırma ntelğndedr. Araştırma Grubu Araştırmanın verler, 2007 yılında uygulanan Uluslararası Fen ve Matematk Eğlmler Araştırması (Trends n Internatonal Mathematcs and Scence Study TIMSS 2007) Türkye den katılan ve matematk testnn 2. ktapçığını alan 320, 8.sınıf öğrencsnden elde edlmştr. TIMSS 2007 uygulamasında yer alan ülkelerdek katılımcılar, tek bçml (unform) örnekleme yaklaşımıyla örnekleme mnmum sapmayla dahl olmuştur. Bu yöntem br kalte standardı sağlayarak, araştırma sonuçlarındak ülkeler arası farklılıkların örnekleme yöntemnden kaynaklanması htmaln ortadan kaldırmaktadır. Katılımcı her ülkenn TIMSS 2007 Ulusal Araştırma Koordnatörü (Natonal Research Coordnator), TIMSS & PIRLS Uluslararası Çalışma Merkez (Internatonal Study Center) tarafından onaylanan örnekleme prosedürünün her adımını uygulama ve rapor etme sorumluluğunu üstlenmştr. Ulusal Araştırma Koordnatörler Wndows Wthn-school Samplng Software yazılımını kullanarak örnekleme dahl olacak öğrencler belrlemektedr. TIMSS 2007 uygulaması, dünya çapında 49 ülke ve 7 kıyaslama (benchmarkng) katılımcısı le gerçekleşmştr. Coğraf bölge ve okul türü örnekleme tabakası olarak alınmıştır. Türkye uygulamasında örneklem yed coğraf bölgede ve k okul türüne (devlet ve özel) göre tabakalı olarak her bölgeden oranı ölçüsünde okul; her okuldan da seçksz (random) br sınıf seçlecek şeklde belrlenmştr. Bu doğrultuda Türkye de uygulamaya 146 okuldan bu yolla seçlmş 4498, 8. sınıf öğrencs katılmıştır (IEA 2008-1). Araştırma kapsamında yayımlanan maddelern bulunduğu 2. ktapçık ele alındığından dolayı, araştırmanın amacına yönelk yapılan analzlerde 2. ktapçığı yanıtlayan 320 öğrencnn yanıtlarından elde edlen verler kullanılmıştır. Verler ve ölçme aracı Araştırma kapsamında ele alınan verler, TIMSS & PIRLS Uluslararası Çalışma Merkezne at nternet stesndek uluslararası ver tabanından SPSS dosyaları şeklnde alınmıştır (http://tmss.bc.edu/timss2007/db_ug.html). 8. sınıf verlernn bulunduğu dosyadan Türkye katılımcılarının matematk testne verdkler yanıtlar alınarak araştırmada kullanılan verler elde edlmştr. TIMSS matematk değerlendrmeler k boyutta tasarlanmıştır: () öğrenclern öğrenmes beklenen konu ya da kapsam ve () öğrenclern göstermes beklenen blşsel becerler. Bu doğrultuda matematk test, 8. sınıf düzeynde Sayılar, Cebr, Geometr, Ver ve Olasılık konuları kapsamında (content doman); blg, uygulama ve akıl yürütme blşsel alanlarını (cogntve doman) çermektedr. Blg, öğrenclern matematk olguları, kavramları, araçları ve yöntemlerne dayalı blgsn tanımlamaktadır. Uygulama, öğrencnn problem durumundak kavramsal algılama ve blgy uygulamadak yeteneğne odaklanır. Akıl yürütme se, benzer olmayan durumları çeren ve çok aşamalı problemler gb rutn problem çözmenn ötesne geçmek olarak tanımlanmaktadır. (IEA, 2005 ve 2008-2, Gonzales, 2008). MTK ye dayalı olarak gelştrlen ve puanlanan TIMSS 2007 8. sınıflar matematk testnde toplamda 214 maddeden oluşan br soru havuzu bulunmakla brlkte, uygulamada her öğrenc her brnn güçlük düzey denk 28-33 sayıda madde bulunan 14 farklı ktapçıktan brn yanıtlamıştır. Her k ktapçıkta sayısı 12-19 arasında değşen ortak madde (anchor tem) bulunmaktadır. Ortak maddeler 14 farklı formun Madde Tepk Kuramına dayalı olarak dğer ktapçıkları almamış öğrencler o maddeler de yanıtlamaları durumunda yeterlk kestrm yapmak amacıyla kullanılmıştır. Madde Tepk Kuramına dayalı olarak eştleme (equatng) yoluyla test ktapçıklarının güçlük açısından denklğ sağlanmış ve bu yolla öğrencnn almadığı testtek yeterlk düzeynn kestrleblmes mümkün olmuştur. Ver dosyasındak (bsaturm4.sav) tanımlamalardan yararlanılarak TIMSS 2007 8. 256

sınıf matematk uygulamasındak 2. ktapçıkta yer alan maddelern madde tp ve blşsel alanlara göre dağılımları belrlenerek Tablo 1 de verlmştr. Tablo 1. TIMSS 2007 8. Sınıflar Matematk Test 2. Ktapçıkta Yer Alan Maddelern Madde Tp ve Blşsel Alanlara Göre Dağılımları Madde Tp Açık Uçlu Çoktan Seçmel Toplam Blşsel Alan Madde Sayısı Yüzde Madde Sayısı Yüzde Madde Sayısı Yüzde Blg 3 27,27 9 45,00 12 38,71 Uygulama 5 45,45 10 50,00 15 48,39 Akıl yürütme 3 27,27 1 5,00 4 12,90 Toplam 11 100,00 20 100,00 31 100,00 TIMSS 2007 8. Sınıflar Matematk Test 2. ktapçığında yer alan çoktan seçmel maddeler k kategorl (0-1) olarak puanlanmıştır. Öte yandan, açık uçlu maddelerden sadece br (M042220) kısm puanlamış (0-1-2), dğer 10 madde k kategorl (0-1) olarak puanlanmıştır. İk uçlu puanlanan maddeler araştırma kapsamında ele alma sınırlılığından dolayı kısm puanlanan madde (M042220) k kategorl puanlanarak teste dahl edlmştr. Araştırma kapsamında, TIMSS 2007 Matematk Test 2. ktapçığındak maddelerden oluşturulan karma testlerde test uzunluğu 15 ve 25 madde, açık uçlu madde yüzdes %20 ve %40 le sınırlı tutulmuştur. İlgl alanyazında, çok farklı sayıda test uzunluğu (10-20-30, 15-25-50, vb.) ve açık uçlu madde yüzdes (%15-%25, %25-%50, vb.) le araştırmalar yapılmıştır. Bu araştırmada karma testler oluşturmada yararlanılan test uzunlukları ve açık uçlu madde yüzdeler TIMSS 2007 Matematk Test 2. ktapçığından, blşsel düzeylere göre dağılımı denk olacak şeklde dört karma test elde etmeye uygun olacak şeklde belrlenmştr. Bu ktapçıkta yer alan 31 madde arasından, farklı madde sayısı ve açık uçlu madde yüzdelernde oluşturulan dört karma teste, açık uçlu ve çoktan seçmel testlere lşkn blgler Tablo 2 de verlmştr. Tablo 2. Karma Testlerdek Madde Sayılarının Blşsel Alan ve Madde Tpne Göre Dağılımları Karma Test 1 (KT1) (k=25 ; AU Yüzdes: %40) Blşsel Alan Açık Uçlu Çoktan Seçmel Toplam Blşsel Alandak Yüzdes Blg 3 8 11 44 Uygulama 5 6 11 44 Akıl yürütme 2 1 3 12 Toplam madde sayısı 10 15 25 100 Karma Test 2 (KT2) (k=25 ; AU Yüzdes: %20) Blşsel Alan Açık Uçlu Çoktan Seçmel Toplam Blşsel Alandak Yüzdes Blg 2 9 11 44 Uygulama 1 10 11 44 Akıl yürütme 2 1 3 12 Toplam madde sayısı 5 20 25 100 Karma Test 3 (KT3) (k=15 ; AU Yüzdes: %40) Blşsel Alan Açık Uçlu Çoktan Seçmel Toplam Blşsel Alandak Yüzdes Blg 2 4 6 40 Uygulama 3 4 7 47 Akıl yürütme 1 1 2 13 Toplam madde sayısı 6 9 15 100 Karma Test 4 (KT4) (k=15 ; AU Yüzdes: %20) Blşsel Alan Açık Uçlu Çoktan Seçmel Toplam Blşsel Alandak Yüzdes Blg 1 5 6 40 Uygulama 1 6 7 47 Akıl yürütme 1 1 2 13 Toplam madde sayısı 3 12 15 100 k: madde sayısı, AU: açık uçlu madde 257

Verlern Analz Bu bölümde, MTK varsayımlarına lşkn olarak yapılan analzler ve araştırma sorularına lşkn analzler olmak üzere k aşamada açıklanmıştır. Öncelkle MTK varsayımlarından tek boyutluluk ve ver-model uyumu test edlmştr. Tek boyutluluğu sınamada faktör analz kullanılmıştır. Yapılan analzle araştırma kapsamında oluşturulan altı testn de tek boyutlu olduğu ortaya konmuştur. Araştırmada tek boyutluluğun sağlanması lgl kanıt, alanyazında sıkça rastlandığı gb yerel bağımsızlığın da br kanıtı olarak değerlendrlmştr MTK varsayımlarından model-ver uyumunun üzernde çalışılacak olan altı test çn sağlanıp sağlanmadığı -2loglkelhood statstğ ölçüt alınarak sınanmıştır. AUT ve KT3 ün 2 PL; ÇST, KT1, KT2 ve KT4 ün 3 PL modele daha y uyum sağladığı belrlenmştr. Model ver uyumu testnn sonuçlarına bağlı olarak KT1, KT2, KT4 ve ÇST çn kestrmler 3PL modele göre; KT3 ve AUT çn kestrmler 2PL modele göre yapılmıştır. Araştırmanın madde ve test blg fonksyonları le görel etknlk ndeksler hang düzeydedr sorusuna lşkn madde ve test blg fonksyonu BILOG MG programında beklenen a posteror (expected a posteror) yöntemyle elde edlmştr. Beklenen a posteror (expected a posteror) yöntem, dğer kestrm yöntemlernden (ençok olablrlk, en yüksek posteror) ayrı olarak tüm tepk örüntüler çn (tümü doğru - tümü yanlış) sonlu br yetenek kestrm (-3 < <+3.0 ) sağlamaktadır. Ayrıca teratf br prosedür değldr (Embretson ve Rese, 2000.) BULGULAR VE YORUMLAR Test ve madde blg fonksyonları le test blg fonksyonlarının oranlanmasıyla elde edlen görel etknlk değerler, test gelştrclere madde ve test seçme açısından kaynaklık etmektedr. Bu doğrultuda, dört karma test, çoktan seçmel test ve açık uçlu testlerden hanglernn breylern yeterlklern kestrmede daha fazla blg sağladığını ve daha etkn olarak kullanılableceğn ortaya koymak amacıyla kestrlen madde ve test blg fonksyonları le görel etknlk ndekslerne lşkn bulgular bu bölümde tartışılmıştır. Dört karma test, çoktan seçmel ve açık uçlu testlerden kestrlen ortalama madde blg fonksyonları Tablo 3 te gösterlmştr. Tablo 3 te testlern ortalama blg düzeyler ncelendğnde, genel olarak brbrlerne yakın oldukları görülmektedr. Testlere lşkn ortalama blg düzeyler genel olarak yakın olmakla beraber; en fazla blgnn AUT tan sağlandığı görülmektedr. Sağladığı blg bakımından AUT u KT1 ve KT2 zlemştr. Bu noktada, maddelerden sağlanan blgnn madde tplerne göre farklılaşıp farklılaşmadığını ortaya koyma htyacı doğmuştur. Bu nedenle, ortalama blg değerler madde tpne göre ayrı ayrı değerlendrlmş ve Tablo 4 te verlmştr. 258

Elementary Educaton Onlne, 11(1), 251-263, 2012. İlköğretm Onlne, 11(1), 251-263, 2012. [Onlne]: http://lkogretm-onlne.org.tr Tablo 3. Karma Testler, Çoktan Seçmel Test ve Açık Uçlu Teste İlşkn Madde Blg Fonksyonları Test Adı KT1 KT2 KT3* KT4 ÇST AUT* Madde Sayısı 25 25 15 15 20 10 AU Madde Oranı %40 %20 %40 %20 Madde Kodu Format Düz. Madde No Ort. Blg Madde No Ort. Blg Madde No Ort. Blg Madde No Ort. Blg Madde No Ort. Blg Madde No Ort. Blg M042003 ÇS B 1 0.24 1 0.23 1 0.23 1 0.25 1 0.23 -- -- M042079 ÇS B 2 0.24 2 0.27 -- -- -- -- 2 0.26 -- -- M042018 AU U 3 0.57 -- -- -- -- -- -- -- -- 1 0.49 M042055 ÇS U 4 0.23 3 0.35 2 0.09 2 0.22 3 0.21 -- -- M042039 ÇS U -- -- 4 0.26 -- -- -- -- 4 0.25 -- -- M042199 ÇS B 5 0.50 5 0.47 3 0.38 3 0.35 5 0.46 -- -- M042301A AU B 6 0.25 6 0.25 4 0.31 -- -- -- -- 2 0.29 M042301B AU AY 7 0.48 7 0.42 5 0.47 4 0.39 -- -- 3 0.62 M042301C AU AY 8 0.80 8 0.64 -- -- -- -- -- -- 4 1.08 M042265 ÇS AY 9 0.13 9 0.13 6 0.15 5 0.12 6 0.13 -- -- M042137 ÇS U 10 0.27 10 0.27 7 0.22 6 0.28 7 0.24 -- -- M042148 ÇS B 11 0.20 11 0.22 8 0.24 7 0.26 8 0.23 -- -- M042254 ÇS U 12 0.25 12 0.23 9 0.31 8 0.21 9 0.22 -- -- M042250 AU B 13 0.51 13 0.53 10 0.52 -- -- -- -- 5 0.55 M042220 AU U 14 0.46 -- -- 11 0.42 -- -- -- -- 6 0.44 M022097 ÇS B 15 0.28 14 0.28 -- -- -- -- 10 0.27 -- -- M022101 ÇS B 16 0.17 15 0.19 12 0.19 9 0.19 11 0.20 -- -- M022104 ÇS B 17 0.33 16 0.32 -- -- -- -- 12 0.33 -- -- M022105 ÇS B -- -- 17 0.03 -- -- -- -- 13 0.03 -- -- M022106 AU U 18 0.27 -- -- 13 0.28 -- -- -- -- 7 0.25 M022108 ÇS U -- -- 18 0.64 -- -- -- -- 14 0.68 -- -- M022110 AU B 19 0.22 -- -- -- -- 10 0.16 -- -- 8 0.20 M022181 ÇS U 20 0.38 19 0.38 -- -- 11 0.41 15 0.41 -- -- M032307 AU U 21 0.42 -- -- -- -- -- -- -- -- 9 0.45 M032523 ÇS U -- -- 20 0.27 -- -- -- -- 16 0.26 -- -- M032701 ÇS U 22 0.31 21 0.33 14 0.26 12 0.39 17 0.37 -- -- M032704 ÇS U -- -- 22 0.57 -- -- -- -- 18 0.67 -- -- M032525 ÇS B 23 0.49 23 0.52 -- -- 13 0.34 19 0.54 -- -- M032579 ÇS U 24 0.59 24 0.63 -- -- 14 0.56 20 0.58 -- -- M032691 AU U 25 0.40 25 0.40 15 0.46 15 0.53 -- -- 10 0.37 Ortalama 0.36 0.35 0.30 0.31 0.33 0.47 Std. Sapma 0.16 0.16 0.12 0.13 0.18 0.25 En Düşük 0.13 0.03 0.09 0.12 0.03 0.20 En Yüksek 0.80 0.64 0.52 0.56 0.68 1.08 Genşlk 0.67 0.62 0.43 0.43 0.65 0.89 * KT3 ve AUT çn parametreler 2 Parametrel Lojstk modele göre kestrlmştr. ÇS: Çoktan Seçmel, AU: Açık Uçlu, Düz.: Maddenn ölçtüğü blşsel düzey, B: Blg, U: Uygulama, AY: Akıl Yürütme. 259

Tablo 4. Dört Karma Test le ÇST ve AUT ten oluşan testlerden elde edlen Test Blgs Ortalamaları Madde Tp Açık Uçlu Çoktan Seçmel KT1 0.44 0.31 KT2 0.45 0.33 KT3 0.41 0.23 KT4 0.36 0.30 ÇST -- 0.33 AUT 0.47 -- Ortalama Blg Tablo 4 ncelendğnde, farklı testlerdek açık uçlu maddelerden sağlanan ortalama blgnn çoktan seçmel maddelerden sağlanan blgden daha fazla olduğu görülmektedr. Farklı testlern brbrne terch edlmes söz konusu olduğunda kıyaslanması amacıyla kullanılan görel etknlk (relatve effcency) değerler, testlere at ortalama test blg fonksyonlarının brbrlerne oranlanmasıyla hesaplanmış ve Tablo 5 te verlmştr. Tablo 5. Testlere İlşkn Görel Etknlk (Relatve Effcency) İndeks Değerler Test Adı KT1 KT2 KT3 KT4 ÇST AUT KT1 1 1.02 1.19 1.16 1.09 0.76 KT2 0.98 1 1.17 1.13 1.07 0.74 KT3 0.84 0.85 1 0.97 0.92 0.63 KT4 0.86 0.88 1.03 1 0.94 0.65 ÇST 0.91 0.93 1.09 1.06 1 0.69 AUT 1.32 1.34 1.57 1.53 1.44 1 Görel etknlk ndeks değerlerne göre, KT1; KT2'den %2, KT3'ten %19, KT4'ten %16, ÇST'den %9 daha uzun br test gb ölçülen özellğe lşkn breylerarası farklılıkları daha fazla ortaya koyduğu görülmüştür. Öte yandan, AUT; KT1'den %32, KT2 den %34, KT3'ten %57, KT4'ten %53, ÇST'den %44 daha uzun br test gb etkl olmuştur. Bu durum, AUT un madde sayısı az olmasına rağmen, daha uzun testlere göre testle ölçülen özellk bakımından breylerarası farkları göstermede daha etkl olduğunu göstermştr. Ayrıca, AU maddelern karma testler arasında madde sayısı 25 ve açık uçlu madde yüzdes %40 olan KT1 n, AUT harcndek dğer testlerden daha etkl olduğu söyleneblr. Test blg fonksyonu yorumlanırken; yetenek düzey ve test blg fonksyonu arasındak lşk göz önünde tutulmalıdır (Baker, 2001). Dolayısıyla testten elde edlen blg, hang yetenek düzeylernde en yüksek değerlern alıyorsa, o test o yetenek düzeyndek breylere htap edyor demektr. Bu çıkarımdan hareketle, dört farklı karma testn, çoktan seçmel ve açık uçlu testten elde edlen blg mktarının yetenek düzey aralıklarına göre dağılımı Tablo 6 ve Şekl 1 de verlmştr. Testler Tablo 6. Yetenek Düzeylerne Göre Test Blg Fonksyonları Dağılımı Yetenek Düzey -3.0-2.5-2.0-1.5-1.0-0.5 0.0 0.5 1.0 1.5 2.0 2.5 3.0 KT1 0.0 0.1 0.3 1.1 2.8 6.0 9.2 13.3 18.7 13.8 5.9 2.3 0.8 KT2 0.0 0.1 0.3 0.7 2.3 5.9 10.1 13.5 15.8 13.4 5.3 1.8 0.8 KT3 0.7 1.2 2.0 3.1 4.1 4.7 4.9 5.3 5.5 4.3 2.6 1.4 0.7 KT4 0.0 0.1 0.2 0.6 1.7 3.8 5.7 6.4 7.8 7.0 3.4 1.2 0.5 ÇST 0.0 0.1 0.2 0.8 2.2 5.4 9.1 10.6 9.2 6.1 3.3 1.4 0.7 AUT 0.1 0.2 0.4 1.0 1.8 2.6 3.8 7.2 11.8 7.2 3.2 1.4 0.6 260

20,0 18,0 16,0 14,0 Ortalama Blg 12,0 10,0 8,0 6,0 4,0 2,0 0,0-3,0-2,5-2,0-1,5-1,0-0,5 0,0 0,5 1,0 1,5 2,0 2,5 3,0 Yetenek Düzey KT1 KT2 KT3 KT4 ÇST AUT Şekl 1. Yetenek Düzeylerne Göre Test Blg Fonksyonları Dağılımı Genel olarak, araştırma kapsamında düzenlenen testlern tümünün farklı yetenek düzeylernde blg verdğ görülmektedr. Bununla brlkte, Tablo 6 ve Şekl 1 ncelendğnde, KT3 ün (k=15, AU yüzdes: %40), hemen her yetenek düzeynde blg verdğ, özellkle alt yetenek düzeynde (-3,-1) dğer testlere göre daha fazla blg verdğ görülmektedr. KT3 ün, b değerler bakımından ortalama olarak en düşük olan test, dğer br deyşle dğerlerne göre kolay test olduğu öncek kısımlarda ortaya konmuştu. Test blg fonksyonu, madde güçlüğü ve ayırıcılıkla lşkl olduğundan, alt yetenek düzeylerne htap eden KT3, alt yetenek düzeylernde daha fazla blg vermştr. Dğer testlern benzer yetenek aralığında blg verdğ, sadece KT4 ün (k=15, AU yüzdes: %20) dğerlerne göre braz daha dar br yetenek aralığında blg verdğ belrlenmştr. Test blg fonksyonu, madde blg fonksyonlarının toplanmasıyla elde edlmektedr (Embretson ve Rese, 2000). Bu durumda madde sayısı fazla olan testten daha fazla blg elde edlmes beklenr. Buna rağmen; en az madde sayısına sahp olan AUT, =1 düzeynde madde sayısı daha fazla olan ÇST, KT3 ve KT4 ten daha fazla blg sağlamıştır. Öte yandan, AUT en yüksek blgy (0.5 1.5) yetenek aralığında vermştr. AUT, en zor test olduğundan orta ve üst yetenek düzeylernde daha fazla blg vermştr. Test blg fonksyonu, madde ayırıcılığı ve şans parametresyle de lşkldr. Ancak, araştırma kapsamında ele alınan testlern ayırıcılık düzeyler ve şans parametreler (3PL çn) brbrne yakın bulunduğundan, bu noktada test blg fonksyonları üzerndek farklı br etks görülememştr. TARTIŞMA, SONUÇ VE ÖNERİLER Araştırma, benzer yapıları ölçen k madde tpnn (çoktan seçmel ve yanıtı sınırlı açık uçlu) ayrı ayrı (tek başına) ve brlkte kullanıldıkları koşullarda oluşturulan testlerde, madde ve yetenek parametreler; madde ve test blg fonksyonları le görel etknlk ndeksler bakımından farklılıklar olup olmadığı ortaya konmaya çalışılmıştır. Bu amaç doğrultusunda, TIMSS 2007 matematk test knc ktapçığındak maddelerden test uzunluğu (k= 15 ve 25) ve açık uçlu madde yüzdes farklı (%20 ve %40) olan testlere lşkn, madde ve yetenek parametreler, madde ve test blg fonksyonları, görel etknlk ndeksler kestrlmştr. Araştırma sonunda test maddelernden elde edlen blg düzeyn gösteren madde blg fonksyonları, en fazla blgnn açık uçlu test maddelernden sağlandığını ortaya koymuştur. Bu bulgu, Lukhele ve dğerler (1994) ve Sykes ve dğerler (2001) yanıtı sınırlı açık uçlu maddelern çoktan seçmel maddelerden daha fazla blg verdğ bulgusuyla örtüşmektedr. Farklı testlerdek açık uçlu 261

maddelerden sağlanan ortalama blgnn, çoktan seçmel maddelerden sağlanan blgden daha fazla olduğu sonucuna ulaşılmıştır. Test blg fonksyonlarının brbrlerne oranlanmasıyla elde edlen görel etkllk (relatve effcency) değerler, AUT un madde sayısı az olmasına rağmen, daha uzun testlere göre daha etkl olduğunu göstermştr. Ayrıca, açık uçlu madde yüzdesnn testn %40 ını oluşturduğu ve uzun karma testn açık uçlu test harcndek dğer testlerden ölçülen özellk bakımından breylerarası farklılıkları daha etkl ortaya koyduğu sonucuna ulaşılmıştır. Genel olarak araştırma kapsamında düzenlenen tüm testlern yetenek düzey ölçeğnn (-3, +3) çoğunu kapsayacak şeklde blg verdğ belrlenmştr. Öte yandan, açık uçlu madde yüzdes yüksek kısa karma testn, alt yetenek düzeylernde daha yüksek blg verdğ; açık uçlu testn se üst yetenek düzeylernde daha fazla blg verdğ sonucuna ulaşılmıştır. Araştırmanın bulgularından hareketle, genş ölçekl test uygulamalarında kullanılacak testlerde, testn tamamının açık uçlu maddelerden oluşmasının puanlamada yaratacağı güçlükler de göz önünde bulundurularak açık uçlu madde yüzdesnn yarıya yakın olduğu ve ölçülen kapsamı (konu ve ölçülen blşsel becerler) yeternce y temsl eden uzunluktak karma testlern kullanılması, testten elde edlen blgy artırma (Lukhele ve dğerler, 1994, Erckan ve dğerler, 1998) bakımından yarar sağlayacağı düşünülmektedr. Bu araştırmada kullanılan testlerde, yanıtı sınırlı açık uçlu madde formatı kullanılmıştır. Bu maddelern yanıtları yer aldığı TIMSS 2007 Matematk testnde de k kategorl (0-1) olarak puanlanmıştır. puanlamada kullanılan anahtarlar denemelerden geçerek gelştrlmş, puanlayıcı güvenrlğ sağlanmış anahtarlardır (IEA, 2008-1, s.32). Teknğne uygun hazırlanmış, üzernde deneme çalışmalarının yapıldığı derecel puanlama anahtarları kullanmanın yanıtı sınırlı açık uçlu maddelern puanlanmasındak nesnellk sorununu öneml ölçüde azalttığı, bu şeklde güvenlr puanlama sonuçları elde edldğn gösteren çalışmalar bulunmaktadır (Bennet, 1991; Johnson ve dğerler, 2000) Ölçme alanyazının da özellkle seçme, yerleştrme, öğrenmeler zleme amacıyla gerçekleştrlen genş ölçekl test uygulamalarında tek madde formatı kullanmaktan uzaklaşma farklı madde formatlarını brarada kullanmak daha çok terch edlmektedr. bu durum her madde formatının tek başına tüm avantajları sağlayamadığı br formatın dezavantajının dğer formatın avantajı le gderlebleceğ gerçeğnn br sonucudur. YGS, LYS veya yne çoktan seçmel maddelerden oluşan ÜDS, ALES gb testlerde k formatın brlkte kullanma yönünde deneme çalşmalarının yapılableceğ yönünde puçları vermştr. Değnlen tüm noktalar brlkte ele alındığında; bu tür genş ölçekl testlerde k madde formatının brbrlerne yakın yüzdelerde kullanılması, çoktan seçmel maddelerden gelen şans başarısı hatalarının puanlara karışmasını önleyeblecek, ntelkl sorular olmak koşuluyla ölçülen zhnsel becerlern düzey de yükseleblecektr. Bu durumda verlen seçme veya yeterlk kararları daha geçerl ve güvenlr öçme sonuçlarına dayanması sağlanablecektr. KAYNAKÇA Baker, F. B. (2001). The Bass of Item Response Theory. USA: ERIC Clearnghouse on Assessment and Evaluaton. Baker, F. B., Km, S., (2004), Item Response Theory Parameter Estmaton Technques. New York:Marcel Dekker, Inc. Bastar, B., (2000), Lnkng Multple-Choce and Constructed-Response Items to a Common Profcency Scale. Doctoral Dssertaton. Unversty of Massachusetts Amherst. Bennett, R.E., and others, (1991), The Convergent Valdty of Expert System Scores for Complex Constructed- Response Quanttatve Items. GRE Research. GRE Board Professonal Report No. 88-07bP. Berberoğlu, G., (2006), Sınıf İç Ölçme ve Değerlendrme Teknkler. İstanbul: Morpa Kültür Yayınları. Berberoğlu, G., (2009), CİTO Türkye Öğrenc İzleme Sstem (ÖİS) Öğrenc Sosyal Gelşm Programı na (ÖSGP) İlşkn Ön Bulgular, CITO Eğtm: Kuram ve Uygulama Dergs, Kasım-Aralık Sayısı, 32-42. Crocker, L. ve Algna, J. (1986). Introducton to Classcal and Modern Test Theory. N.Y.: CBS College Publshng Company. Demrtaşlı, N. (2010). Açık uçlu soru formatı ve öğrenc zleme sstem (ÖİS) akademk gelşm zleme ve değerlendrme (AGİD) modülündek kullanımı. Cto Eğtm: Kuram ve Uygulama. Nsan-Hazran, 21-30. Embretson, S. E., Rese, S. P., (2000), Item Response Theory For Psychologsts. New Jersey: Lawrence Erlbaum Assocates, Publshers. 262

Erckan, K., Schwarz, R.D., Julan, M.W., Burket, G.R., Weber, M.M., Lnk, V., (1998), Calbraton and Scorng of Tests Wth Multple-Choce and Constructed-Response Item Types. Journal of Educatonal Measurement, Vol. 35, No. 2, 137-154. Gonzales, P. (2008), Hghlghts From TIMSS 2007, Mathematcs and Scence Achevement of U.S. Fourth and Eghth Grade Students n an Internatonal Context, Natonal Center for Educaton Statstcs, USA. (http://nces.ed.gov/pubs2009/2009001.pdf adresnden 20.05.2009 tarhnde alınmıştır.) Haladyna, T. M. (1997). Wrtng Test Item to Evaluate Hgher Order Thnkng. USA: Allyn & Bacon. Hambleton, R. K., Swamnathan, H., Rogers, H. (1991), Fundamentals of Item Response Theory. Newbury Park CA: Sage Publcatons. Hambleton, R. K., Swamnathan, H. (1985), Item Response Theory. Prncples and Applcatons. Boston: Kluwer Academc Publshers. IEA, (2005), TIMSS 2007 Assessment Frameworks, Internatonal Study Center, Lynch School of Educaton, Boston College: USA. (http://tmss.bc.edu/ adresnden 03.04.2009 tarhnde alınmıştır.) IEA, (2008-1), TIMSS 2007 Techncal Report, Internatonal Study Center, Lynch School of Educaton, Boston College: USA. (http://tmss.bc.edu/ adresnden 03.04.2009 tarhnde alınmıştır.) IEA, (2008-2), TIMSS 2007 Internatonal Mathematcs Report, Internatonal Study Center, Lynch School of Educaton, Boston College: USA. (http://tmss.bc.edu/ adresnden 03.04.2009 tarhnde alınmıştır.) Johnson, R.L., Penny, J., Gordon, B. (2000), The Relaton Between Score Resoluton Methods and Interrater Relablty: An Emprcal Study of an Analytc Scorng Rubrc. Appled Measurement n Educaton, Vol. 13, Issue 2 Knsey, T. L. (2003), A Comparson of IRT and Rasch Procedures n a Mxed-Item Format Test. Unversty of North Texas. Doctoral Dssertaton. Lord, F. M., Novck, M. R. (1968), Statstcal Theores of Mental Test Scores. Readng, MA: Addson-Wesley. Lukhele, R., Thssen, D., Waner, H. (1994), On The Relatve Value Of Multple Choce, Contructed Response, And Examnee Selected İtems On Two Achevement Tests. Journal Of Educatonal Measurement, 31, 231-250. Mll Eğtm Bakanlığı Talm Terbye Kurulu Başkanlığı, (2005), İlköğretm Matematk Ders Öğretm Programı ve Kılavuzu 1-5. Sınıflar. Ankara: Devlet Ktapları Müdürlüğü. Mll Eğtm Bakanlığı Eğtm Araştırma ve Gelştrme Dares Başkanlığı, (2007), PISA 2006 Uluslararası Öğrenc Başarılarını Değerlendrme Programı Ulusal Ön Rapor. (28.01.2009 tarhnde http://earged.meb.gov.tr/psa/dokuman/2006/rapor/psa_2006_ Ulusal_On_Rapor.pdf adresnden alınmıştır.) Schaeffer, G. A., Montero, D. H., Julan, M., Bené, N. H., (2002), A Comparson of Three Scorng Methods for Tests Wth Selected-Response and Constructed-Response Items. Educatonal Assessment, 8(4), 317 340 Shn, D., (2007), A Comparson of Method of Estmatng Subscale Scores for Mxed-Format Tests. Pearson Educatonal Measurement Research Reports. (24.12.2008 tarhnde www.pearsonedmeasurement.com/ research/research.htm adresnden alınmıştır.) Sherms, M. D., Bursten, J. C., (2003), Automated Essay Scorng: A Cross-Dscplnary Perspectve. Mahwah, NJ: Lawrence Erlbaum Assocates. Sykes, R. C., Truskosky, D., Whte, H. (11-12 Aprl 2001), Determnng The Representaton of Constructed Response Items n Mxed-Item-Format Exams. Paper presented at Annual Meetng of the Natonal Councl on Measurement n Educaton, Seattle Tekn, H., (1991), Eğtmde Ölçme ve Değerlendrme. Ankara: Yargı Yayınları. Umay, A. (1997), Yanıtlayıcı Davranışların Analz Yolu İle Matematkte Problem Çözümler İçn Br Güvenrlk ve Geçerlk Araştırması, Hacettepe Ünverstes Eğtm Fakültes Dergs. 13, 47-56. Uyeno, R. K. (2004), Assessng The Content Standarts of a Large-Scale, Standards-Based Test: A Psychometrc Valdty Study of The 2002 Hawa State Assessment Grade 8 and Grade 10 Readng Tests. Unversty of Hawa. Doctoral Thess. Waner, H., Thssen, D. (1993), Combnng Multple-Choce and Constructed-Response Test Scores: Toward a Marxst Theory of Test Constructon. Appled Measurement n Educaton, 6(2), 103-118. Zhao, Y. (2008). Approaches For Addressng The Ft Of Item Response Theory Models To Educatonal Test Data. Unversty of Massachusetts: Doctoral Thess. 263