Farklı Madde Puanlama Yöntemlerinin ve Farklı Test Puanlama Yöntemlerinin Karşılaştırılması

Eğitimde ve Psiolojide Ölçme ve Değerlendirme Dergisi, Yaz 200, (), -8 Farlı Madde Puanlama Yöntemlerinin ve Farlı Test Puanlama Yöntemlerinin Karşılaştırılması Halil YURDUGÜL * Hacettepe Üniversitesi Özet Bu araştırmada lasi test uramına dayalı ağırlısız, ağırlılandırılmış madde puanlama yöntemi, madde yanıt uramına dayalı bir ve ii parametreli modelden estirilen olasılısal madde puanlama yöntemi ve onjeneri test uramına dayalı madde puanlama yöntemleri arşılaştırılmıştır. Karşılaştırmalar, veri ümesinin güvenirliği, teboyutlulu ve veri-model uyumu açısından ele alınmıştır. Elde edilen sonuçlara göre madde-yanıt uramına dayalı puanlama yöntemi ile onjeneri test modeline dayalı puanlama yöntemlerinin lasi test uramına dayalı madde puanlama yöntemlerine göre daha iyi sonuçlar verdiği gözlenmiştir. Diğer taraftan madde puanlarının toplamı şelindei test puanlarına göre sıralama arşılaştırması yapılmış ve en uyumsuz yöntemin şans başarısından arındırılmış test puanlama yöntemi olduğu görülmüştür. Anahtar Sözcüler: Test puanlama yöntemleri, madde puanlama yöntemleri, lasi test uramı, madde yanıt uramı, onjeneri test uramı Abstract In this study, it was compared different item scoring methods which consist of unweighted item scoring method and weighted item scoring method, based on classical testing theory and probability item scoring methods, based on item response theory, and congeneric item scoring method based on congeneric test theory. It was investigated the effects of item scoring methods on reliability, unidimensionality, and model-data fitting of data set. As a result, the item scoring methods based on item response model and based on congeneric test theory were more satisfactory than the others. In addition to this, in this study, it was compared different test scoring. As nown, the students who too an administered achievement tests is raned according to their test scores. The obtained findings was reported and discussed in this context. Keywords: Test scoring methods, item scoring methods, classical testing theory, item response theory, congeneric test theory Ülemizin gündemini ço sı bir şeilde büyü ölçeli sınavlar oluşturmatadır. Bu sınavlarda öğrencilerin genellile ilöğretim ya da orta öğretimdei öğrenme alanlarına ilişin bilişsel yeterlileri ya da bilgi düzeyleri estirilmeye çalışılmatadır ve bu sınavlardan elde edilen bilgiler öğrencilerin bir üst eğitim urumlarına yerleştirilmesinde ullanılmatadır. Bu nedenle öğrencilerin test puanları, öğrencilerin ailelerinden öğretmenlere, eğitim alanındai arar vericilerden eğitim araştırmacılarına adar ço geniş bir esimi ilgilendirmetedir. Çünü öğrencilerin bir üst eğitim urumlarına yerleştirilmesini amaçlayan sınavlarda öğrenciler test puanlarına göre sıralanmatadır ve seçme ve/veya yerleştirmeler bu başarı sırasına göre yapılmatadır. Bu durum başarı sıralamasının doğru yapılıp yapılmadığı tartışmasını da beraberinde getirmetedir. Bu tartışma ise çotan seçmeli testlerin puanlamasını ve test puanlarını oluşturan madde puanlama yöntemlerinin özellilerini ön plana çıarmatadır. Eğitimde ölçme ve değerlendirme açısından batığımızda; öğrencilerin maddelere verdileri yanıtlar birer gözlenen puandır ve bu puan ölçmeye onu olan alandai gerçe * Doç. Dr., Hacettepe Üniversitesi Eğitim Faültesi, Bilgisayar ve Öğretim Tenolojileri Eğitimi Bölümü, yurdugul@hacettepe.edu.tr Ülemizdei öğrencilerin başarı sıralaması test puanlarına göre değil, sınav puanlarına göre yapılmatadır. Anca sınav puanları içerisinde en önemli payı test puanları almatadır.

Eğitimde ve Psiolojide Ölçme ve Değerlendirme Dergisi 2 puan ile hata puanının bir birleşimidir. Oysai ölçme modellerinin temel amacı, gözlenen puanlardan gerçe puanların estirilmesidir (Lee, Brennan & Kolen,; 2006). Bu çalışmanın amacı lasi test uramına, madde yanıt uramına ve onjeneri test uramına dayalı test puanlama yöntemlerinin ve benzer şeilde madde puanlama yöntemlerinin arşılaştırılmasını olara belirlenmiştir. Özellile madde puanlama yöntemleri teboyutlulu, modelveri uyumu ve testin güvenirliği üzerindei etileri; bununla birlite test puanlarının ise öğrencilerin sıralanmasındai etileri (sıra değerleri orelasyonu) araştırılacatır. Araştırmada ele alınan veri ümesi olara, 200 yılında yapılan Ortaöğretim Kurumları Öğrenci Seçme ve Yerleştirme Sınavı apsamında yer verilen fen bilgisi alt testindei 25 maddeye basit rasgele örneleme yöntemi ile seçilen 0000 öğrencinin madde yanıtları ullanılmıştır. Klasi Test Kuramına Dayalı Madde ve Test Puanlama Yöntemleri Çotan seçmeli testlerden elde edilece test puanları madde puanlarının toplamından oluşur. Örneğin, adet maddeden oluşan bir testten j. öğrencinin test puanı; TP= X +X 2 + +X () şelindedir. Bu durumda maddelerin puanlanması bir diğer ifade ile ağırlılandırılması önem azanmatadır. Madde puanlarının ağırlılandırılmasının ön plana çıan ii amacı; a) ölçülmeye çalışılan gerçe puanın daha iyi estirilmesi ya da b) çotan seçmeli testlerde seçenelerin ağırlılandırılması ile ısmi bilgilerin ölçülmesidir (Croer & Algina, 986; Downing, & Haladyna, 2006). Bu çalışmada, çotan seçmeli testlerde gerçe puanı estirme amaçlı madde puanlama yöntemleri ele alınmıştır. Klasi test uramına dayalı gelenesel madde puanlama yöntemi, Bernoulli ağırlılandırması ya da ağırlısız madde puanlaması (unweighted item scoring) olara bilinir (Rotou, Headric, & Elmore, 2002; Stocing, 996) ve bu yöntemde öğrencinin doğru seçeneği işaretlemesi, çeldiriciyi işaretlemesi ise 0 olara nicelendirilir (Downing, & Haladyna, 2006; Rotou, Headric, & Elmore, 2002; Stocing, 996). Buna göre bir öğrencinin adet maddeden oluşan çotan seçmeli bir testten aldığı test puanı, TP KTK =X +X 2 +...+X =å X i (2) olmatadır. Maddelerin ağırlısız puanlanmasına, bir diğer ifade ile madde parametrelerinden bağımsız olara elde edilen bu madde puanlarına alternatif olara Birnbaum (968), her bir maddenin madde ayırıcılı değerlerine göre ağırlılandırılmasını önermiştir. Bu ağırlılandırma için ise genellile nota çift serili orelasyon ullanılmatadır (Birnbaum, 968). TP KTKa =w X +w 2 X 2 +...+w X =å w ix i (3)

Madde ve Test Puanlama Yöntemleri 3 Burada w i, i. maddenin nota çift serili orelasyonunu göstermetedir. Klasi test uramına dayalı ağırlılandırılmış madde puanlama yöntemi, maddenin arateristi özellilerini (madde ayırıcılı düzeyi) hesaba atmatadır. Klasi test uramında ele alınabilece bir başa test puanı yalaşımı ise şans başarısından arındırılma üzere test puanlarıdır. Özellile çotan seçmeli testlerde, testi alan bir öğrenci, öğrenmeye onu olan özelliten yosun olsa bile maddeyi doğru yanıtlama düzeyi (şans başarısı) seçene sayısı ile doğru orantılıdır (Bayul, 2000). Buna göre, öğrencinin şans başarısından arındırılmış test puanı; TP ŞBA = TP KTK - C Y. (4) Burada madde sayısını, Y öğrencinin yanlış yanıtladığı madde sayısını ve C ise çeldirici sayısını göstermetedir 2. Croer ve Algina (986), TP ŞBA puanların gözlenen puan olmadığını, asine gerçe puanların bir estiricisi olduğunu ifade etmişlerdir. Klasi Test Kuramında Gözlenen Puan ve Gerçe Puan İlişisi Klasi test uramında öğrencinin bir maddeye yöneli performansı, bir diğer ifade ile gözlenen puanı (X), öğrencinin ölçmeye onu olan öğrenme alanındai gerçe puanı (T) ve hata puanı (E) toplamından oluşmatadır. X=T+E (5) Klasi test uramı, madde yanıt uramı ve onjeneri test uramı gibi ölçme uramlarının temel amacı, gözlenen puanlardan gerçe puanları estirme amacı taşımatadır. Klasi test uramında, gözlenen puanlardan gerçe puanların estirilmesi için Kelley (947) bir regresyon modeli ileri sürmüştür: T Kelley = r X + ( - r ) X (6) X X Burada r X, ölçmelerin güvenirli atsayısını göstermetedir (Downing, & Haladyna, 2006; Kelley, 947). Madde Yanıt Kuramına Dayalı Madde ve Test Puanlama Yöntemleri Klasi test uramından farlı olara, madde yanıt uramının (MYK) önermesi: öğrencilerin maddeye yöneli performansı maddenin özellileri (item characteristics) ve öğrencinin özellilerine (person characteristics) bağlıdır. şelindedir. Bu nedenle, öğrencinin bir maddeyi doğru yanıtlama olasılığı [P(q)], madde istatistileri [madde güçlü düzeyi (b), madde ayırıcılı düzeyi (a)] ve 2 Şans başarısının madde istatistileri üzerine etisi için baınız: Bayul, 2000.

Eğitimde ve Psiolojide Ölçme ve Değerlendirme Dergisi 4 öğrencinin ölçmeye onu olan öğrenme alanındai yeterli düzeyi (q) ile bağıntılıdır. Madde arateristilerinden yalnızca b parametresini ele alan bir parametreli MYK ölçme modeli; P i (q j ;b)= ( + e q-b) (7) ve madde arateristilerinden a ve b parametrelerini ele alan ii parametreli MYK ölçme modeli; P i (q j ;a,b)= - + e a( q-b) (8) şelindedir. Burada P i (q j ), j. yeterli düzeyindei öğrencinin i. maddeyi doğru yanıtlama olasılığını göstermetedir. Bu olasılıların madde üzerinde toplamı ise, j. öğrencinin test puanını vermetedir: TP MYK_P = P (q j ;b)+ P 2 (q j ;b)+...+ P (q j ;b) TP MYK_P = å P ( q j ; b) (9) TP MYK_2P = P (q j ;b,a)+ P 2 (q j ;b,a)+...+ P (q j ;b,a) TP MYK_2P =å P ( q j ; b, a) (0) Madde Yanıt Kuramında Gözlenen Puan ve Gerçe Puan İlişisi KTK nda gözlenen puan ile test puanı arasındai bağıntı Kelley in regresyon denlemi ile ortaya onmatadır. Anca MYK nda Eşitli 9 ve Eşitli 0 ile ulaşılan değerler aynı zamanda öğrencilerin lojisti model ya da normal ogive modelden estirilen gerçe puanlardır. MYK nın modeli estiriliren öğrencilerin adet maddeye verdiği 0 ya da şelinde puanlanmış (number correct scoring) yanıt vetörü 3 (u) ullanılmatadır. u j = [X X 2 X ] Burada u j, j. öğrencinin adet maddeye verdiği ağırlısız yanıtlardan elde edilen yanıt vetörünü (gözlenen puanları) göstermetedir. Bu vetör Eşitli 7 ya da Eşitli 8 ile verilen modellerin estiriminde bir girdi olara ullanılara öğrencinin yeterli düzeyleri (person characteristic) ve madde arateristileri elde edilmete ve daha sonra ise Eşitli 9-0 gerçe puanlara ulaşılmatadır. Kısacası, MYK nda (KTK ndan farlı olara) gözlenen puanlar birer girdi olara ullanılmatadır ve model çıtısı ise gerçe puanlardır. 3 Ağırlısız madde puanlarına alternatif olara, MYK modellerinin estiriminde madde yanıt örüntülerinin (item pattern) ullanımları da söz onusudur.

Madde ve Test Puanlama Yöntemleri 5 Konjeneri Test Kuramına Dayalı Madde ve Test Puanlama Yöntemleri Konjeneri test uramı KTK nın bir alt boyutudur (Luce, 2005) ve Eşitli ile verilen doğrusal modelin madde arateristilerini apsayan geliştirilmiş bir biçimidir. Konjeneri ölçme modeli; X i =m i +l i F+E i şelindedir (Luce, 2005; McDonald, 999; Yurdugül, 2005). Burada m i ifadesi; i. ölçmenin/maddenin güçlü indesini, l i ise i. maddenin ayırıcılı değerini ve F ise tüm ölçmelerin orta fatör değerini göstermetedir. McDonald (999) bu modele dayalı madde puanını; T m i +l i F () olara tanımlamıştır. Yine McDonald (999) testi alan bir öğrencinin test puanını elde etme üzere Kelley in yalaşımından yola çıara yeni bir eşitli önermiştir. é TP KonTK = ê êë å l y 2 i 2 i - ù ú úû å é li ê êë y j 2 ù ú( x ij - mi ) + åmi (2) úû Bu araştırmada, farlı ölçme modellerini temel alan madde puanlama yöntemleri ve test puanlama yöntemleri arşılaştırılmıştır. Yöntem Bu araştırmada veri ümesi olara, 200 yılında yapılan Ortaöğretim Kurumları Seçme ve Yerleştirme Sınavı nda (OÖK-ÖSYS) yer alan 25 maddeli fen bilgisi alt testine 0000 öğrencinin verdiği yanıtlar ullanılmıştır. Bu çalışmada KTK, MYK ve KonTK üzerine urulu madde puanlama ve test puanlama yöntemleri incelenmiştir. KTK apsamındai madde puanlama yöntemleri olara ) ağırlısız puanlama yöntemi ve 2) ağırlılandırılmış puanlama yöntemi, MYK apsamında 3) bir parametreli MYK ve 4) ii parametreli MYK modelinden üretilen madde puanlama yöntemleri ile KonTK apsamında ise 5) Eşitli ile verilen yöntem ele alınmıştır. Karşılaştırmalar, veri ümesinin güvenirliği, teboyutlulu değerleri ve model-veri uyumu değerlerine göre yapılmıştır. Özellile ağırlısız madde puanlama yönteminde veri ümesi 0 ve olduğu için 25x0000=250000 adet ölçmenin yer aldığı veri ümesinin güvenirliğini elde etme amacıyla KR 20 ve Cronbach alfa güvenirli atsayıları hesaplanmış ve her ii atsayı değeri 0,782 olara bulunmuştur. Diğer madde puanlama yöntemlerinden elde edilen veri ümeleri için ise alfa güvenirli atsayı ullanılmıştır. Her bir madde puanlama yönteminden elde edilen veri ümelerinin teboyutlulu değerleri haında bilgi edinme amacıyla birinci ve iinci özdeğerler hesaplanmıştır. Son arşılaştırma değeri ise model-veri uyumunu gösterme üzere uyum iyiliği indesi üzerine yapılandırılmıştır. Burada uyum iyiliği indisi Jöresog tarafından geliştirilen doğrulayıcı fatör analizinden elde edilen GFI indisi ullanılmıştır. (Yurdugül, 2005) MYK modellerinin çözümlenebilmesi için gereli olan varsayımlar teboyutlulu ve yerel bağımsızlılar test edilmiş ve bunların sağlandığı gözlenmiştir (Şeil ). Bununla birlite bir ve ii

Eğitimde ve Psiolojide Ölçme ve Değerlendirme Dergisi 6 parametreli MYK modellerinin veri-uyum değerleri istenilen düzeydei ien üç parametreli MYK modelinin estiriminde veri-model uyumu sağlanamadığı için çalışma apsamına alınmamıştır. 7 Özdeğer Saçılım Grafiği 6 5 4 3 2 0 Özdeğer Sayısı Şeil : Veri ümesinin tetraori orelasyon üzerine urulu fatör çözümü Test puanları olara ise; KTK apsamındai TP KTK (Eşitli 2), TP KTKa (Eşitli 3), TP ŞBA (Eşitli 4) ve T Kelley (Eşitli 6) test puanlama yöntemleri, MYK apsamındai test puanlama yöntemi olara TP MYK_P (Eşitli 9) ve TP MYK_2P (Eşitli 0) ve KonTK apsamındai test puanlama yöntemi olan TP KonTK (Eşitli 2) ele alınmıştır. Basit rastgele örneleme yöntemi ile seçilen 0000 öğrenci için inceleme apsamındai her bir test puanlama yöntemine göre test puanları hesaplanmıştır. Bu puanlamalara göre öğrencilerin başarı düzeylerine göre sıralama farlılılarını belirleme amacıyla Sperman ın sıralama orelasyon atsayısı hesaplanmış ve yöntemler arası puan sıralaması uyumu bu orelasyon değerlerine göre yapılandırılmıştır. Bulgular Madde puanlama yöntemlerinin arşılaştırılması için 0000 öğrencinin 25 maddeye ilişin yanıtlarını içeren 5 farlı veri ümesi ile çalışılmıştır. Bu veri ümeleri sırasıyla; ağırlısız madde puanları, ağırlılandırılmış madde puanları, bir parametreli MYK, ii parametreli MYK ve son olara Konjeneri madde puanlarından üretilmiştir. Bu veri ümelerine ilişin elde edilen değerler Tablo de verilmiştir. Tablo : Madde puanlama yöntemlerinin arşılaştırılması Veri Kümesi Model Puan Türü Güvenirli Özdeğer (Madde Puanları) Oranları GFI Ağırlısız KTK Gözlenen 0,782 4,37 0,980 Ağırlılı KTK Gerçe 0,790 4,37 0,960 Parametreli MYK MYK Gerçe 0,996 22,888,000 2 Parametreli MYK MYK Gerçe 0,995 22,845 0,992 Konjeneri KonTK Gerçe 0,992 24,975,000 Elde edilen bulgular doğrultusunda, MYK ve KonTK na dayalı madde puanlama yöntemlerinden oluşturulan veri ümesinin güvenirli değerleri KTK apsamındai madde puanlama yöntemlerinden daha yüse elde edilmiştir. Yine, birinci özdeğerin iinci özdeğere oranı olara en yüse oran onjeneri madde puanlama yönteminde gözlenmiştir. Daha sonra bu değerleri MYK

Madde ve Test Puanlama Yöntemleri 7 modelinden elde edilen madde puanları taip etmiştir. En düşü özdeğer oranı ise KTK apsamındai madde puanlarında gözlenmiştir 4. Farlı madde puanlamalarının teboyutlu model-veri uyumu sınamasında ise en büyü uyum değerleri bir parametreli MYK madde puanları ve onjeneri madde puanlarında gözlenmiştir. Test puanlarının arşılaştırılması için ise 7 farlı test puanlama yönteminden elde edilen örnelemdei 0000 adet öğrencinin başarı düzeyleri elde edilmiş bunlar Spearman sıralama orelasyonu ile öğrencilerin başarı sıralamasındai tutarlıları incelenmiştir. Tablo 2 den görüleceği gibi, ağırlısız madde puanlarının toplamından elde edilen test puanları (TP KTK ), öğrencilerin başarı sıralaması açısından T Kelley ve TP MYK_P ile tam bir uyum söz onusudur. TP KTK, açısından müemmel uyum olmasa bile en yüse orelasyonu TP KonTK arasında gözlenmiştir. Tablo 2: Test Puanlarının Spearman Sıralama Korelasyon Değerler TP KTK TP ŞBA T Kelley TP KTKa TP MYK_P TP MYK_2P TP KonTK Açılama Eşitli 2 Eşitli 4 Eşitli 6 Eşitli 3 Eşitli 9 Eşitli 0 Eşitli 2 Puan Türü Gözlenen Gerçe Gerçe Gerçe Gerçe Gerçe Gerçe TP KTK,000 TP ŞBA 0,963,000 T Kelley,000 0,963,000 TP KTKa 0,992 0,96 0,992,000 TP MYK_P,000 0,963,000 0,992,000 TP MYK_2P 0,95 0,893 0,95 0,925 0,95,000 TP KonTK 0,987 0,958 0,987 0,999 0,987 0,926,000 Bununla birlite TP KTK, en düşü orelasyonu şans başarısından arındırılmış test puanları (TP ŞBA ) ve TP MYK_2P ile göstermiştir. Tüm arşılaştırmalar içerisinde en düşü orelasyon ise TP ŞBA ve TP MYK_2P arasında gözlenmiştir. Sonuç ve Öneriler Bu çalışmada farlı madde puanlama türleri ve test puanlama türleri ele alınara arşılaştırılmıştır. Madde puanları üzerine olan arşılaştırmalar, eğitimde ölçme ve değerlendirme alanında çalışan araştırmacılara ullanacaları veri ümesi haında bilgiye ulaşma amacı taşımatadır. Bununla birlite, test puanları apsamındai arşılaştırmalar ise eğitim alanındai arar vericilere yöneli olması amaçlanmıştır. Madde puanlama türleri arasında madde puanlarının oluşturduğu veri ümesinin güvenirliği, teboyutluluğu ve veri-model uyumu açısından MYK ve KonTK apsamındai puanlama türleri en iyi sonuçları vermiştir. Diğer taraftan test puanları olara ise ülemizde sıça ele alınan şans başarısından arındırılmış test puanları ullanılmata ve öğrencilerin başarı sıralaması bu puanlara göre yapılmatadır. Anca bu araştırmada göstermiştir i, şans başarısından arındırılmış test puanlarına göre başarı sıralamaları diğer test puanı türleri ile en düşü uyumu göstermetedir. Bu onuda ortaya çıabilece uşular seçme ve yerleştirme sistemlerinin adaletli olup olmadığı onusundai tartışmaya yol açabilecetir. Bu onuda en iyi test puanı avramını tartışabilme için her bir test puanına ilişin yordama ve/veya uygunlu geçerliği gücünün araştırılması gereir. 4 Anca Şeil de gösterildiği gibi, 0 ve puanları (birinci özdeğer=4,37) yerine tetraori orelasyon üzerine urulu fatör çözümlemesinde bu değer 6,360 a yüselmiştir.

Eğitimde ve Psiolojide Ölçme ve Değerlendirme Dergisi 8 Son olara vurgulanması gereen bir diğer onu ise; TP KTK doğrudan gözlenen puan (X) ve TP KTK dışındai tüm test puanlama yöntemleri ise gerçe puanı (T) temsil etmetedir. Aynı şeilde ağırlısız madde puanları dışındai tüm madde puanları da gerçe puanlardır (T i ). Bilindiği gibi, eğitim alanında yapılan ölçmeler bir ölçme modeli üzerinde gerçeleştirilir ve ölçme modelleri ise gözlenen puanlardan gerçe puanların estirilmesine olana veren istatistisel bağıntılardır. Gözlenen puanları gerçe puan gibi ele alındığı durumlar (X=T) hatanın olmadığı, müemmel güvenirli (perfect reliability) düzeyine sahip (paralel ya da eşdeğer) ölçme ümeleri için olanalıdır. Bu tür ölçme ümelerinin orta özelliği ise varyansları ve maddeler arası ovaryans değerlerinin eşit olduğu ölçmelerden oluşmasıdır. Örneğin; bir ölçme ümesindei tüm maddelerin güçlü düzeylerinin p i =0,5 düzeyinde olması durumunda tüm madde puanlarının varyansları ve ovaryansları eşit olacatır, bunun doğal sonucu olara da güvenirli düzeyi olara elde edilecetir. Anca bu durumda X=T bağıntısı ullanılabilir. Test puanlarına göre öğrenci başarılarının sıralanması söz onusu olduğunda ölçmelerin paralel ya da eşdeğer ölçmeler olmadığı durumlarda gerçe puan estirimlerini ullanılması önerilir. Kaynalar Bayul, Y. (2000). Eğitimde ve Psiolojide Ölçme: Klasi Test Teorisi ve Uygulaması. Anara: ÖSYM Yayınları. Birnbaum, A. (968). Some latent models and their use in inferring an examinee s ability. In F.M. Lord & M. R.Novic (Eds.), Statistical Theories of Mental Test Scores. Reading, MA: Addison-Wesley. Croer, L., & Algina, J. (986). Introduction to classical and modern test theory. New Yor: Holt, Rinehart and Winston. Downing, S.M., & Haladyna, T.M. (2006). Handboo of test development. Mahwah, NJ: Lawrence Erlbaum. Hambleton, R., Swaminathan, H.,&Rogers, J. (99). Fundamentals of item response theory. London: Sage. Lee, W., Brennan, R. L., & Kolen, M. J. (2006). Interval estimation for true raw and scale scores under the binomial error model. Journal of Educational and Behavioral Statistics, 3 ( 3), 26 28. Luce, J. F. (2005). The α and the ω of congeneric test theory: an extension of reliability and internal consistency to heterogeneous tests. Applied Psychological Measurement, 29(), 65 8. McDonald, R. P. (999). Test theory: a unified treatment. Mahwah NJ: Erlbaum. Rotou, O., Headric, T. C., & Elmore P. B. (2002). A Proposed Number Correct Scoring Procedure Based on Classical True-Score Theory and Multidimensional Item Response Theory, International Journal of Testing, 2(2), 3 4. Stocing, L. M. (996). An alternative method for scoring adaptive tests. Journal of Educational and Behavioral Statistics, 2(4), 365 389. Yurdugül, H. (2005). Konjeneri test uramı ve onjeneri madde analizi: Te boyutlu çotan seçmeli testler üzerine bir uygulama. A.Ü. Eğitim Bilimleri Faültesi Dergisi, 38(2), 2-47