T.C. EGE ÜNİVERSİTESİ SOSYAL BİLİMLER ENSTİTÜSÜ Psikoloji Anabilim Dalı MADDE CEVAP KURAMINA DAYALI OLARAK ÇOK KATEGORİLİ MADDELERDE

Transkript

1 T.C. EGE ÜNİVERSİTESİ SOSYAL BİLİMLER ENSTİTÜSÜ Psikoloji Anabilim Dalı MADDE CEVAP KURAMINA DAYALI OLARAK ÇOK KATEGORİLİ MADDELERDE MADDE VE TEST YANLILIĞININ (İŞLEVSEL FARKLILIĞIN) İNCELENMESİ DOKTORA TEZİ Mediha KORKMAZ DANIŞMANI : Doç. Dr. Oya SOMER İZMİR-2005

2 İÇİNDEKİLER Sayfa TEŞEKKÜR İÇİNDEKİLER TABLOLAR LİSTESİ ŞEKİLLER LİSTESİ BÖLÜM I Giriş Madde Ve Test İşlev Farklılık Tanımları Araştırmanın Amacı BÖLÜM II Madde Cevap Kuramı Hakkında Genel Bilgiler a. Madde Cevap Kuramının Varsayımları b. Madde Cevap Kuramı Modelleri Madde Cevap Kuramı Kapsamında Madde Ve Test Yanlılığı Yöntemleri Olabilirlik Oranı Testi Ve Model Karşılaştırma Yöntemi (Likelihood Ratio Test & Comparison Model) Madde Ve Test İşlev Farklılık Yöntemi (Differential Item and Test Functioning-DFIT) a. Test İşlev Farklılık İndeksi ( DTF ) b. Telafi Edici Madde İşlev Farklılık İndeksi (CDIF) c. Telafi Edici Olmayan Madde İşlev Farklılık İndeksi (NCDIF) d. Madde-Test İşlev Farklılığı İndekslerinin (DFIT) Anlamlılık Testleri Ve Pratik Uygulamalardaki Önemi Madde Parametrelerini Karşılaştırma Yöntemi. 39

3 2.3. Olabilirlik Oranı Testi(LR), Madde Test İşlev Farklılığı (DFIT) Ve Parametre Karşılaştırma Yöntemleri İle Literatürde Yapılan Çalışmalar BÖLÜM III YÖNTEM Çalışma Grubu Ölçme Aracı Verilerin Analiz Edilmesi Ve Kullanılan İstatistiksel Yöntemler Ağırlıklandırılmış Cevap Modeli (Graded Response Model ) Madde Ayıklama Ve Tekrarlayıcı İşlemler (Item Purification And Iterative Procedure) Parametre Eşitleme (Parameter Equating) Araştırmada Kullanılan İstatistik Programları 65 BÖLÜM IV BULGULAR Uzlaşma Ölçeği Tanımlayıcı İstatistik Analiz Sonuçları Uzlaşma Ölçeği Tek Boyutluluk Varsayımının İncelenmesi: Faktör Analizi Sonuçları Uzlaşma Ölçeği İç Tutarlık Güvenirlik Analiz Sonuçları Kadın İle Erkek Karşılaştırma Gruplarında Madde Cevap Kuramı Parametre Tahmini Sonuçları Madde İşlev Farklılık Bulguları Olabilirlik Oranı Testi Model Karşılaştırma Yöntemi Madde İşlev Farklılık Bulguları a. Olabilirlik Oranı Testi Model Karşılaştırma Yöntemi 500 Kişilik Örneklem Genişliği Madde İşlev Farklılık Sonuçları b. Olabilirlik Oranı Testi Model Karşılaştırma Yöntemi 1000 Kişilik 100

4 Örneklem Genişliği Madde İşlev Farklılık Sonuçları c. Olabilirlik Oranı Testi Model Karşılaştırma Yöntemi 1500 Kişilik Örneklem Genişliği Madde İşlev Farklılık Sonuçları Madde Ve Test İşlev Farklılık (DFIT) Bulguları a b c. Madde-Test İşlev Farklılık İndeksleri (DFIT) 500 Kişilik Örneklem Genişliği Analiz Sonuçları Madde-Test İşlev Farklılık İndeksleri (DFIT) 1000 Kişilik Örneklem Genişliği Analiz Sonuçları. 128 Madde-Test İşlev Farklılık İndeksleri (DFIT) 1500 Kişilik Örneklem Genişliği Analiz Sonuçları Parametre Karşılaştırma Yöntemine Göre Madde İşlev Farklılık Bulguları a b c. Parametre Karşılaştırma Yöntemine Göre 500 Kişilik Örneklemde Madde İşlev Farklılık Sonuçları 135 Parametre Karşılaştırma Yöntemine Göre 1000 Kişilik Örneklemde Madde İşlev Farklılık Sonuçları. 138 Parametre Karşılaştırma Yöntemine Göre 1500 Kişilik Örneklemde Madde İşlev Farklılık Sonuçları Nominal Alfa Düzeylerine Göre Madde İşlev Farklılık Bulgularının Birlikte Değerlendirilmesi. 147 BÖLÜM V 5.1. Sonuç ve öneriler KAYNAKLAR EKLER ÖZGEÇMİŞ ÖZET TARTIŞMA

5

6 TABLOLAR LİSTESİ Sayfa Tablo 1. Örneklemlerin Yaş Değişkenine Göre Dağılım Özellikleri 54 Tablo 2. Örneklem Genişliklerine Göre Uzlaşma Ölçeği Maddelerinin Kadın ve Erkek Gruplarında Madde Ortalama ve Standart Sapma Değerleri.. 69 Tablo 3. Farklı Örneklem Genişliklerinde Kadın ve Erkek Grupların Uzlaşma Ölçeği Toplam Puan Tanımlayıcı İstatistikleri. 70 Tablo 4. Uzlaşma Ölçeğinin Kadın ve Erkek Gruplarında Temel Bileşenler Faktör Analizi Sonuçları Tablo 5. Uzlaşma Ölçeği nin Kadın Erkek Gruplarında Madde- Toplam Puan Korelasyonları, Cronbach-Alfa İç Tutarlık Güvenirlik Katsayıları. 76 Tablo 6. Uzlaşma Ölçeği 500 Kişilik Örneklem Genişliği Kadın Ve Erkek Karşılaştırma Gruplarının Madde Parametre Tahmin Değerleri.. 80 Tablo 7. Uzlaşma Ölçeği 1000 Kişilik Örneklem Genişliği Kadın ve Erkek Karşılaştırma Grupları Madde Parametre Tahmin Değerleri.. 83 Tablo 8. Uzlaşma Ölçeği 1500 Kişilik Örneklem Kadın ve Erkek Karşılaştırma Grupları Madde Parametre Tahmin Değerleri.. 86 Tablo Kişilik Örneklem Genişliğinde Dar ve Geniş Modellerin I. İterasyon Madde Parametre Tahminleri ve Olabilirlik Oranı Testi Sonuçları Kişilik Örneklem Genişliğinde Dar ve Geniş Modellerin 6

7 II. İterasyon Madde Parametre Tahminleri ve Olabilirlik Oranı Testi Sonuçları.. 95 Tablo Kişilik Örneklem Genişliği Tekrarlayıcı Madde Ayıklama İşlemi -2logL Değerleri Karşılaştırma Sonuçları Tablo 11. Bağ Maddelerine Göre 500 Kişilik Örneklem Genişliği Dar ve Geniş Model 2logl Değerleri ve Karşılaştırma Sonuçları. 98 Tablo Kişilik Örneklem Genişliğinde Dar ve Geniş Modellerin I. İterasyon Madde Parametre Tahminleri ve Olabilirlik Oranı Testi Sonuçları. 103 Tablo Kişilik Örneklem Genişliği Tekrarlayıcı Madde Ayıklama Analizleri Dar ve Geniş Model Karşılaştırma Sonuçları Tablo 14. Bağ Maddelerine Göre 1000 Kişilik Örneklem Genişliği Dar Ve Geniş Model 2logl Değerleri ile Karşılaştırma Sonuçları Tablo Kişilik Örneklem Genişliğinde Dar ve Geniş Modellerin I. İterasyon Madde Parametre Tahminleri ve Olabilirlik Oranı Testi Sonuçları. 113 Tablo Kişilik Örneklem Genişliği Tekrarlayıcı Madde Ayıklama İşlemleri Dar ve Geniş Modeller Karşılaştırma Sonuçları Tablo 17. Bağ Maddelerine Göre 1500 Kişilik Örneklem Genişliği Dar ve Geniş Model 2logl Değerleri ile Karşılaştırma Sonuçları. 115 Tablo Kişilik Örneklem Genişliği Madde-Test İşlev Farklılığı (DFIT) Sonuçları

8 Tablo Kişilik Örneklem Genişliği Madde-Test İşlev Farklılığı (DFIT) Sonuçları. 129 Tablo Kişilik Örneklem Genişliği Madde-Test İşlev Farklılığı (DFIT) Sonuçları. 131 Tablo 21. Maddelerin Ayırt Etme Parametrelerinin 500 Kişilik Örneklem Genişliği Referans ve Fokal Grupların Karşılaştırma Sonuçları 136 Tablo 22. Maddelerin Yerleşim Parametrelerinin 500 Kişilik Örneklem Genişliği Referans ve Fokal Grupların Karşılaştırma Sonuçları Tablo 23. Maddelerin Ayırt Etme Parametrelerinin 1000 Kişilik Örneklem Genişliği Referans ve Fokal Grupların Karşılaştırma Sonuçları. 139 Tablo 24. Maddelerin Yerleşim Parametrelerinin 1000 Kişilik Örneklem Genişliği Referans ve Fokal Grupların Karşılaştırma Sonuçları. 140 Tablo 25. Maddelerin Ayırt Etme Parametrelerinin 1500 Kişilik Örneklem Genişliği Referans ve Fokal Grupların Karşılaştırma Sonuçları

9 Tablo 26. Maddelerin Yerleşim Parametrelerinin 1500 Kişilik Örneklem Genişliği Referans ve Fokal Grupların Karşılaştırma Sonuçları. 145 Tablo 27. Yöntemlere Göre 0.01 Nominal Alfa Düzeyinde Madde İşlev Farklılığı Saptanan Maddeler Tablo 28. Yöntemlere Göre 0.05 Nominal Alfa Düzeyinde Madde İşlev Farklılığı Saptanan Maddeler

10 ŞEKİLLER LİSTESİ Sayfa Şekil 1. Düzgün Formlu Madde İşlev Farklılık Fonksiyonu Şekil 2. Düzgün Olmayan Formlu Madde İşlev Farklılık Fonksiyonu 26 Şekil 3. Şekil 4. Şekil 5. Şekil 6. Şekil 7. Şekil 8. Şekil 9. Beş Cevap Kategorili Likert Tipi Bir Maddenin Sınır Cevap Fonksiyon Eğrileri.. 58 Beş Cevap Kategorili Likert Tipi Bir Maddenin Kategori Cevap Fonksiyon Eğrileri.. 60 Uzlaşma Ölçeği 500 Kişilik Örneklem Genişliği Kadın ve Erkek Karşılaştırma Gruplarının Madde Kategori Cevap Fonksiyon Eğrileri.. 81 Uzlaşma Ölçeği 1000 Kişilik Örneklem Genişliği Kadın ve Erkek Karşılaştırma Gruplarının Madde Kategori Cevap Fonksiyon Eğrileri.. 84 Uzlaşma Ölçeği 1500 Kişilik Örneklem Genişliği Kadın ve Erkek Karşılaştırma Gruplarının Madde Kategori Cevap Fonksiyon Eğrileri Kişilik Örneklem Genişliğinde Göze Göz Dişe Diş Taraftarıyımdır(7.) Maddesinin Referans ve Fokal Gruplar İçin Kategori Cevap Fonksiyonları Kişilik Örneklem Genişliği Göze Göz Dişe Diş Taraftarıyımdır(7.) Maddesinin Referans ve Fokal Gruplar İçin Kategori Cevap Fonksiyonları Şekil Kişilik Örneklem Genişliği Dik Kafalı ve İnatçıyımdır(6.) Maddesinin Referans ve Fokal Gruplar İçin Kategori Cevap Fonksiyonları. 107 Şekil 11. Şekil Kişilik Örneklem Genişliği Ailem ve Arkadaşlarımla Sık Sık Tartışırım (3.) Maddesinin Referans ve Fokal Gruplar Kategori Cevap Fonksiyonları Kişilik Örneklem Genişliği Öküz Altında Buzağı Arayan Biriyim (4.) Maddesinin Referans ve Fokal Gruplar Kategori Cevap Fonksiyonları

11 Şekil Kişilik Örneklem Genişliği Ailem ve Arkadaşlarımla Sık Sık Tartışırım (3.) Maddesinin Referans ve Fokal Gruplar Kategori Cevap Fonksiyonları Şekil Kişilik Örneklem Genişliği İnsanların Beni Anlamakta Güçlük Çektiğine İnanıyorum (5.) Maddesinin Referans ve Fokal Gruplar Kategori Cevap Fonksiyonları Şekil Kişilik Örneklem Genişliği Dik Kafalı ve İnatçıyımdır (6.) Maddesinin Referans ve Fokal Gruplar Kategori Cevap Fonksiyonları. 118 Şekil 16. Şekil Kişilik Örneklem Genişliği Göze Göz Dişe Diş Taraftarıyımdır( 7.) Maddesinin Referans ve Fokal Gruplar Kategori Cevap Fonksiyonları Kişilik Örneklem Genişliği İstenenin Tersini Yaparım(8.) Maddesinin Referans ve Fokal Gruplar Kategori Cevap Fonksiyonları

12 BÖLÜM I GİRİŞ Psikoloji tarihine bakıldığında, felsefe içerisindeki psikolojinin oldukça uzun bir geçmişe; ancak, felsefeden ayrılması ile birlikte yalnızca bir yüz yıllık tarihsel gelişime sahip olduğu görülmektedir. Felsefenin dışında psikolojinin ayrı bir bilim haline gelmesi ile insan özelliklerini somut biçimde belirleme gereksinimi doğmuştur. Psikolojinin, bir yandan kişilerin özelliklerini açıklama gayretleri sürerken diğer yandan da hem pozitif bilim olma çabaları hem de bireylerin niteliklerinin ispatlanması gerekliliği ölçme girişimlerini ortaya çıkarmıştır. Antik Çin de M.Ö lü yıllarda insan özelliklerini ölçme girişimlerinin olduğu bilinmekle birlikte, ölçmenin sistematik olarak psikoloji içerisinde yer alması felsefeden ayrılan psikoloji tarihi ile başlar (Erkuş, 2003). Psikolojide ölçme süreci ve buna bağlı olarak da uygun istatistiksel yöntemlerin geliştirilmesi bireyler arası fark kavramından doğmuştur. Darwin in 1859 lu yıllarda ortaya attığı evrim kuramının ardından bireysel farklılıkların önemi üzerinde durulmuştur te Leipzing de Wundt un asistanı olarak çalışan James McKeen Cattell, laboratuarda yapılan genel psikoloji deneylerinde ortaya çıkan bireysel farklar ile ilgilenmiştir. İzleyen yıllarda Cattel dan başka; Galton, Binet ve Terman da bireysel farklılıkların karmaşık özellikleri üzerinde çalışmalar yapmışlar ve ilk psikolojik ölçüm araçlarının, testlerin oluşmasında katkıda bulunmuşlardır. Örtük özellikleri temsil etmek üzere geliştirilen yöntemlerin formal matematiksel çalışmalarının çoğu 1920 li yıllarda L.L.Thurstone tarafından yapılmıştır. Thurstone, uyaranların algılanması ve aralarındaki farklılıkların dağılımını saptamada kümülatif normal dağılımından uyaran ölçeğine nasıl bir olasılık mantığının kullanılabileceğini göstererek hem aralıklı ölçeklerin hem de madde cevap modellerinin ilk yapı taşlarını 12

13 oluşturmuştur (Embretson ve Hershberger, 1999). E.L. Thorndike da meslektaşı Thurstone gibi niceliksel psikolojinin temellerini atan diğer bir önemli kişidir. Thorndike ın ölçmenin temel ifadesi olan şu cümleyi hemen hemen çoğu psikolog ve eğitim araştırmacısı duymuştur. Doğada bir şey varsa, bir miktar vardır. Ve onu betimlemek için niteliklerinin olduğu kadar niceliklerini de bilmek gerekir. (Crocker ve Algina, 1986, syf. 3). Thorndike bu ifadesi ile insanın psikolojik bir takım özelliklerini daha açık bir şekilde tanımlayabilmek için mutlaka sayısal bazı ölçümlerinde yapılması gerektiğini vurgulamaktadır. Thorndike ın insan yaşantılarına eşlik eden özelliklerin ölçülebilirliğine ilişkin inançları, Thustone nun matematiksel modelleri psikoloji içinde ele alması, Cattell, Terman ve Binet in bireysel farklılıkları saptamak üzere geliştirdikleri ilk yetenek ölçümü testleri psikometrinin temel iki kuramına eşlik etmiştir. Bu kuramlar, Klasik Test Kuramı ve Modern Test Kuramıdır. Günümüzde psikoloji insan davranışlarını ve bu davranışların temelinde bulunan özellikleri anlamaya çalıştığı kadar bir taraftan da bu özellikleri aydınlatabilmek için metodolojik olarak da gittikçe güçlenmektedir. İnsanoğlunun karmaşık psikolojik yapılarının ölçümünde ileri düzeyde niceliksel yöntemlere duyulan ihtiyaç, son yıllarda madde cevap modellerinin gelişmesine de katkı sağlamıştır. Madde cevap modelleri, eğitim alanındaki ölçmelerde önemli bir etkiye sahip olduğu kadar psikoloji alanında da yetenek ve zeka değerlendirmelerinin yanı sıra artık özellikle kişilik ve tutum ölçümlerinde sıklıkla kullanılan yöntemler haline gelmişlerdir. Modern test kuramı olarak bildiğimiz madde cevap kuramı (item response theory) ya da örtük özellikler kuramı (latent trait theory), Rasch ın 1960 lı yıllarda ilk çalışmalarını yayınlanması ile ortaya çıkmış gibi görünmekle birlikte daha öncede belirttiğimiz gibi aslında Thustone nun 70 yıl önce tanımladığı psikolojik ölçmenin mantığına 13

14 dayanmaktadır lerde Madde Cevap Kuramı (MCK) 1 ölçme uzmanları arasında Klasik Test Kuramının (KTK) 2 yanı sıra en baskın çalışma konusu olmuş, günümüzde ise artık yeni bir ölçüm aracının geliştirilmesi, soru bankalarının hazırlanması, gruplar arası karşılaştırmalarda olduğu kadar kültürler arası karşılaştırmalarda ölçüm eşdeğerliğinin incelenmesi ve dolayısıyla testlerin geçerliğinin sınanması gibi pek çok alanda sıklıkla kullanılır hale gelmiştir. Psikologların çoğu araştırma ve uygulamalarında test ve ölçekleri değerlendirmek üzere klasik test kuramı tekniklerini sıklıkla kullanmaktadırlar. Güvenirlik, madde-toplam puan korelasyonları, Spearman Brown düzeltme formülasyonu gibi aşina olduğumuz pek çok kavram klasik test kuramı kapsamında ele alınmaktadır. Klasik test kuramının varsayımlarını karşılamak daha kolaydır ve bu durum kuramın uygulanmasında avantaj sağlayarak, kullanılma sıklığını arttırmıştır. Bu durumu Hambleton, Robin ve Xing (2000) kuramın yeterince güçlü olmadığı ve bazı yetersizliklerinin bulunduğu şeklinde yorumlarken, Budgell, Raju ve Quartetti (1995) kuramın özellikle örnekleme bağlı varsayımlarından dolayı grup içi karşılaştırmalar için uygun olduğunu buna karşın gruplar arası karşılaştırmalarda yetersiz kaldığını belirtmektedirler. Madde cevap kuramı klasik test kuramının güçsüzlüklerini karşılayan ancak daha güçlü varsayımlar gerektiren modellerden oluşmaktadır. Her iki kuramının avantaj ve dezavantajlarına kısaca değinecek olursak; i. Klasik test kuramında (KTK) bireylerin gözlenen test puanları, gerçek puan ve hata bileşenlerinin bir fonksiyonu olarak ele alınmaktadır. Dolayısıyla KTK doğrudan test düzeyinde bilgileri sağlamak üzere kuramsallaştırılmıştır ve doğrudan ölçüm yapılan araca bağlıdır. MCK ise, yetenek/ölçülen özellik ve madde puanları aynı ölçek üzerinde yani Theta (θ) ölçeği üzerinde tanımlanmaktadır. Klasik ve madde cevap kuramındaki gerçek puan ve θ değerleri farklı metriklerde aynı yeteneği ya da özelliği temsil ederler. Ancak ikisinin arasında çok önemli bir ayrım vardır. θ metriğinin ortalama ve varyans 1 Madde Cevap Kuramı ifadesi metin içerisinde MCK kısaltması ile kullanılacaktır. 14

15 değerleri bir kez saptandıktan sonra, bir bireyin θ değeri ölçüm yapılan araca bağlı olmaktan çıkar (Hulin, Drasgow ve Parsons, 1983). Böylece θ metriği ile ölçülen bir bireyin yeteneğinin farklı madde setlerini kapsayan ölçüm araçları ile karşılaştırılmasına da olanak tanımış olur. Bu özellik madde ve test parametrelerinin farklı gruplar ve farklı test formlarında değişmezlik/sabitlik (invariance) olarak bilinir ve MCK uyumsal ölçme (adaptive testing) uygulamalarında kullanılır (Cooke ve Michie, 1999). Buna karşın KTK nda ölçüm araçları paralel olmadığı sürece bu tür bir yetenek karşılaştırması yapılamaz. Kısaca; KTK test düzeyinde ve test puanlarına tanımlamaya odaklanırken, MCK ise madde düzeyinde ve madde performansının modelleşmesine ilişkin bilgi sağlamaktadır (Cohen, Bottge ve Wells, 2001; Kolen ve Brennan, 1995). ii. KTK nda maddelerin özelliklerine ilişkin istatistikler (madde güçlüğü, ayırt ediciliği v.b) madde analizi teknikleri olarak adlandırılırken, MCK nda ise bu süreç madde kalibrasyonu olarak adlandırılmaktadır. Hem KTK nda hem de MCK nda bu analizlerin en önemli amacı ölçekte yer alan her bir maddenin ölçülmek istenen yapı/özelliği ait olduğu yapı içerisinde tanımlamaya çalışmaktır. KTK nda madde güçlüğü ve madde ayırt edicilik değerleri büyük ölçüde üzerinde çalışılan örnekleme bağlıdır ve örneklemin yetenek seviyesi bu test istatistiklerinin seviyesini genellikle etkilemektedir (MacDonald ve Paunonen, 2002). Çünkü KTK nda denek puanları madde güçlük düzeylerinin bir fonksiyonu olarak ele alınmaktadır ve bu nedenle bir testin güçlüğü farklı alt popülasyonlarda değişiklik göstermektedir. Dolayısıyla değişen güçlük düzeylerinde bir testin değişik formları (paralel olmayan formları) kullanıldığında denekler arasında karşılaştırmalar yapılamaz (Hambleton, Robin ve Xing, 2000). MCK nda ise, madde parametreleri deneklerin ait olduğu alt popülasyonlara bağlı değildir; dolayısıyla bir örneklemden diğerine değişiklik içermezler. 2 Klasik Test Kuramı ifadesi metin içerisinde KTK kısaltması ile kullanılacaktır. 15

16 iii. KTK nın çok yaygın olarak kullanılan ve bilinen diğer bir eksikliği ölçmenin standart hatasının örneklemdeki tüm denekler için eşit olduğu varsayımıdır. MCK nda ise tahminlenen yeteneğin doğruluğunun bir ölçütü olarak madde ve test bilgi fonksiyonları (item-test information) kullanılmaktadır ve tahminlenen farklı yetenek (theta) değerlerinin doğruluğuna ilişkin KTK na kıyasla daha hassas puan aralıklarına ulaşılmasına imkan verirler. Madde ve test bilgi fonksiyonları bir testi geliştirirken ölçümün doğruluğunu arttırmak için ne tür maddelerin eklenmesi ya da ne tip maddelerin testten uzaklaştırılmasını saptamada oldukça faydalı bilgiler sağlarlar. Ayrıca KTK nda testin güvenirliği örnekleme göre tanımlanır. Samejima (1977) bu konuda klasik test kuramında güvenirliğin cansız bir kavram olduğunu çünkü bir gruptan diğerine farklılık gösterdiğini ve genellenebilirliğinin oldukça sınırlı olduğunu ifade etmektedir (akt. Hulin, Drasgow ve Parsons, 1983). Dolayısıyla KTK nda bir kişinin belirli bir aralıkta ölçmenin standart hatasına uygun olarak gerçek puan aralıklarını saptamanın doğru olmayabileceği belirtilmektedir. Ayrıca KTK nda çok sayıda maddeleri olan testlerin az sayıda maddeleri olan testlere göre daha güvenilir olduğu buna karşın MCK nda ise az sayıda madde içeren testlerinde oldukça güvenilir olacağı belirtilmektedir (Embretson, 1999). KTK nda Spearman- Brown düzeltme formülü ile ölçüm aracının madde sayısı arttırıldığında hata varyansı azalıp gerçek varyans miktarı arttığı için testin güvenirlik derecesi de artmaktadır. MCK nda ise, ölçmenin standart hatası her bir örtük özellik aralığında tanımlandığı için hataların miktarı azalmaktadır dolayısıyla az sayıda maddeleri olan kısa testlerde çok daha güvenilir olabilir. Özetlenecek olursa, KTK ında test ve madde özellikleri üzerinde çalışılan örnekleme bağlı olduğu kadar aynı zamanda testin kendisine de bağlıdır. Ayrıca ölçmenin standart hatasının tüm örneklemdeki kişiler için sabit bir değer olması ve kişilerin gözlenen puanları ile gerçek puanları arasındaki fonksiyonel ilişkinin doğrusal olduğunun varsayılması yine kuramın önemli eksikliklerini göstermektedir. 16

17 Son yıllarda madde cevap modellerine uygun bilgisayar programlarının geliştirilmesi ile eğitim, psikoloji, sağlık vb. pek çok alanda kuram, araştırmacılara hizmet vermeye başlamıştır. MCK nın özellikle test yapılandırma sürecinde maddelerin psikometrik özellikleri ve testlerin yapı geçerliğine ilişkin ayrıntılı bilgiler sağlaması, ayrıca bu oluşturulacak testlerin farklı alt popülasyonlarda hem test hem de madde düzeyinde karşılaştırılabilir olanaklar sunması, kuramı çok daha çekici ve işlevsel hale getirmektedir MADDE VE TEST İŞLEV FARKLILIK TANIMLARI Madde ve test yanlılığı (item, test bias) araştırmaları Alfred Binet'le 1910'lu yıllarda, Binet'in düşük sosyo-ekonomik tabakadan gelen çocukları test etmesiyle başlamış görünmektedir (Camili ve Shepard, 1994). Binet bazı zeka testi maddelerinin zihinsel kapasiteden ziyade çocukların evde veya okuldaki kültürel eğitim-öğretimlerinin etkileriyle ilişkili olduğunu saptamıştır. Binet bu saptamasından sonra belirli bazı kategorilerdeki maddeleri testten çıkarmıştır. Benzer olarak aynı yıllarda William Stern de Almanya'da sınıf farklılıklarını incelemiş ve Binet gibi anlamlı farklılıklar gözlemlemiştir. İnsan haklarının gündeme geldiği günlerde, Amerika Birleşik Devletleri nde bir işe, okula bireyleri yerleştirmede zenci ve beyaz ırkların arasındaki eşitsizlikler, kültürel veya etnik grup yanlılıkları olarak gündeme gelmiştir. Test yanlılığı eğitim kurumlarına öğrencileri seçmede ve kabul etmede, özel eğitim kurumlarına öğrencileri yerleştirmede, eğitimde programlarının değerlendirilmesinde ve başarı standartlarını oluşturmada, işin gereklerine uygun personel seçimi ile kariyer planlamasında ve benzer durumlarda sıklıkla incelenmiştir. Yanlılık gösteren bir test, bu tür durumlarda kullanıldığı zaman bazı insanların lehinde işlev göstererek büyük oranda seçilmelerini sağlarken, bazı insanların da aleyhinde işlev göstererek seçilme oranlarını azaltacaktır. Bireylere eşit seçilme fırsatını sağlayamayan bir test, insan haklarına uygunsuzluğu nedeniyle kaygı yaratıcı olmasının yanı sıra ayrıca toplumun bu tür ölçüm araçlarının kullanımına ilişkin güvenirlik ve geçerlik algılarını da zedelenmiş olur. Psikolojik ölçüm araçlarına yapılacak bu gibi olumsuz atıfları engellemenin yolu, 17

18 test yapımcıları, yayıncıları ve uygulayıcılarının testin bir gruba karşı üstünlük sağlamadığına ilişkin kanıtları sunmalarından geçer (Hambleton, Swaminathan ve Rogers, 1991; McAllister, 1993). Madde cevap kuramı, yukarıda sözü edilen test-madde yanlılığı sorunlarına alternatif çözüm yöntemleri önermektedir. Test/ölçek puanlarının test ile ölçülen psikolojik özellikten başka varyans kaynaklarından etkilenmemesi olanaksızdır. Test yanlılığı bir testin belirli bir grubun üyelerini ölçtüğünde gözlenen puanlara etki eden, geçerli olmayan, sistematik hatalar olarak tanımlanmaktadır (Camilli ve Shepard, 1994). Bu tanıma göre, yanlılık tesadüfi ölçme hatalarından kaynaklanmaz, belirli bir grubun test sonuçlarında çarpıklık yarattığında sistematiktir. Azınlık-çoğunluk, zenci-beyaz grupları gibi etnik özellikler, kırsal-kentsel köken gibi farklı yaşam bölgelerinde bulunma, konuşulan dildeki farklılıklar, kadın-erkek olma gibi cinsiyet koşulları gerçekte ölçümlerin alındığı grupların sistematik özellikleridir. Eğer ölçüm aracının karşılaştırma gruplarından herhangi birine karşı taraf olup olmadığı ispatlanmamışsa ve bazı alt grup özelliklerinde bulunma nedeniyle test sonuçlarında gruplar arasında farklılıklar oluşuyorsa, ölçme sürecine karışan sistematik hataların olduğu daha açık bir ifade ile testin yanlı olduğu belirtilmektedir. Algina ve Crocker a (1986) göre, madde yanlılığı incelemelerin iki temel amacı bulunmaktadır. İlk amaç, test puanlarının çeşitli alt popülasyonlarda farklı varyans kaynaklarından etkilenip etkilenmediğini incelemek ve ikinci amaç olarak da test puanlarının tüm alt popülasyonlarda aynı varyans kaynaklarından etkilendiğine karar verildiğinde bazı alt popülasyonlara haksız avantaj sağlayan ilişkisiz kaynakların olup olmadığını saptamaktır. Burada popülasyon tarafından yaygın olarak paylaşılmayan alt kültür bilgileri ve özelliklerin varlığı madde yanlılığının nedeni şeklinde görülmektedir. Literatürde test yanlılığının araştırılmasında iki temel istatistiksel yaklaşım bulunmaktadır. Bunlardan ilki kullanılan testten bağımsız olarak alınan bir dış ölçüt yöntemi (external methods) diğeri ise testin bir iç ölçüt (internal methods) ile yanlılığının incelenmesidir. 18

19 Dış ölçüte göre yanlılık incelemeleri daha çok geleneksel yöntemler olarak bilinmekte ve test yanlılığı (test bias) olarak da adlandırılmakta olup, o testin tek tek maddelerinden ziyade toplam test puanı düzeyinde testin yordama geçerliğine odaklanmaktadır. Dış ölçüt yanlılık incelemeleri azınlık ve çoğunluk gruplarının diğer bir ifade ile karşılaştırma gruplarının testten alınan toplam puan ortalamaları arasındaki farklılığa ilişkin olarak ölçüt puan üzerindeki karşılaştırmaları içerir (Camilli ve Shepard, 1994). Genellikle azınlık ve çoğunluk gruplarının psikolojik özellik puanlarından gerçek puanlarının yordandığı regresyon eğrilerine uygun olarak testin yanlılığı değerlendirilmeye çalışılır. İç ölçüt yanlılık incelemeleri de literatürde madde yanlılığı (item bias) olarak bilinmektedir. Testin içsel yanlılık incelemeleri, bir dış ölçüt bulunamadığı durumda tüm test ile testin her bir maddesinin arasındaki yapı geçerliği ilişkilerini ve psikometrik incelemelerini kapsar. Bir iç ölçüte göre madde yanlılığı incelemelerin en temel amacı, herhangi bir dış ölçüt alınmaksızın aynı popülasyondan seçilen farklı alt popülasyonlarda maddelerin aynı tarzda işlev görmesini içerir (Hulin, Drasgow ve Parsons, 1983). Bu bağlamda bir test maddesi, bağlı bulunduğu alt grup ile etkileşim gösteriyorsa bu maddenin yanlı olduğu söylenir. İç ölçüte göre madde yanlılığını incelemenin diğer bir amacı da, dış ölçüte göre yapılan gerçek grup farklılıkları ile ölçmedeki yanlılık arasındaki ayrımı yapmaktır. Klasik test kuramına uygun olarak yapılan madde toplam puan korelasyonları ya da varyans analizi gibi yine test maddesi ile toplam test puanlarının karşılaştırıldığı madde analizi yöntemleri veya grupların ortalamaları arasındaki farklılıklar, kesin olarak ölçmedeki yanlılık açıklamalarını sağlayamaz. Bu tür yöntemlere göre gerçekleştirilen madde yanlılık incelemeleri kusurludur; çünkü madde güçlük indeksleri ve testin toplam puanları örneklemin yetenek dağılımından etkilenmektedir ve grup farklılıklarını oluşturan puan farklılıklarının bilgi ya da deneyim gibi bazı tesadüfi hatalardan kaynaklanması olasıdır (Maller, 2001). Dolayısıyla test performansındaki ya da test maddelerindeki ortalamaların farklı olması, doğrudan karşılaştırma grupları arasında bir yanlılık delili olarak yorumlanmamalıdır. 19

20 Madde cevap kuramı test maddelerini bir iç ölçüt olarak değerlendirir ve karşılaştırma grupları arasında madde parametrelerinin özellikleri hakkında detaylı bilgiler sağlar. Yanlılık incelemelerinde kullanılan istatistiksel işlemlere değinmeden önce yanlılık terminolojisini açıklığa kavuşturmak önemlidir. Aşağıda literatürdeki yanlılık terminolojisi üzerinde durulmuştur. Hambleton, Swaminathan ve Rogers (1991) yanlılık incelemelerinin azınlık grubu üyelerinin ve çoğunluk grubu üyelerinin test maddelerindeki göreceli performansına ilişkin deneysel (empirical) kanıtları toplamayı içerdiğini belirtmektedirler. Gruplar arasında farklılaşan performansın deneysel kanıtları mevcut olan yanlılık kararını belirtmek için gereklidir; ancak yeterli değildir. Çünkü yanlılık olduğu kararı verilerin ötesine giden bir çıkarsamayı kapsar. Yanlılık kararından deneysel kanıtları ayırt etmek için, yanlılık (bias) kelimesinden daha ziyade madde işlev farklılığı (Differential Item Functioning-DIF) terimi, yanlılık incelemelerinden sağlanacak deneysel kanıtları tanımlamak için madde cevap kuramı literatüründe yaygın olarak kullanılmaktadır. Geçmişte işlevsel farklılık, madde yanlılığı (item bias) olarak tanımlanmıştır. Ancak madde yanlılığının toplam test ile olan ilişkileri daha karmaşıktır; madde yanlılığı ifadesi tanımlayıcı olmaktan daha çok değerlendiricidir. Bu nedenle madde yanlılığı (item bias) terimi madde işlev farklılığı (Differential Item Functioning-DIF) terimi ile yer değiştirmiştir (Glas, 1998). Literatürde zaman zaman madde işlev farklılığı için madde performans farklılığı (differential item performance) ya da beklenilmeyen madde işlev farklılığı (unexpected diffrential item functioning) gibi kullanımlarına da rastlanmaktadır (Thissen, Steinberg ve Wainer, 1988). Madde işlev farklılığı, farklı popülasyon veya grup üyelerinin yetenek, yeterlik, tutum, kişilik gibi özelliklerini ölçmek üzere kullanılan bir testin geçerliğini ciddi anlamda tehdit eder. Bazı test maddeleri bir örneklem grubundaki denekler için diğer örneklem grubundaki deneklere nazaran farklı bir biçimde işlev görebilir ya da bir grubun üyeleri 20

21 için diğer grubun aksine farklı bir şeyi ölçebilir. Bu tür maddeleri içeren testler grup karşılaştırmaları arasında geçerliği azaltacaktır; çünkü bu testlerden elde edilen puan farklılıkları testin ölçmeyi amaçladığı özellikten daha ziyade başka özelliklerdeki değişkenliği de ortaya çıkarabilir. Madde işlev farklılığının tanımı konusunda bazı tartışmalar bulunmaktadır. Ölçmedeki yanlılığa ilişkin bir yasanın oluşturulmasına ait yapılan bir toplantıda bir madde eğer azınlık ve çoğunluk gruplarının o madde üzerinde performans ortalamaları farklılaşıyorsa, maddenin işlev farklılığı gösterir biçiminde tanımlanmıştır (akt. Hambleton, Swaminathan ve Rogers, 1991, syf.109). Yazarlar bu tanımda görülen problemin, yetenek üzerinde gruplar arası gerçek farklılıkların, maddenin güçlük değerindeki farklılıklar gibi başka faktörlerden kaynaklanabileceğinin göz önünde bulundurulmadığını belirtmektedirler. Psikometristler tarafından kabul gören madde işlev farklılığı tanımı, aynı yetenek düzeyine sahip ancak farklı gruplardan gelen deneklerin maddeyi doğru yanıtlama olasılığı aynı olmadığında maddenin işlev farklılığı gösterdiği biçiminde yapılmıştır (Hambleton, Swaminathan ve Rogers, 1991). Geleneksel tek boyutlu madde cevap kuramında, testin gözlenemeyen tek bir örtük değişkeni, θ yı ölçtüğü varsayılır. Madde cevap kuramında bir maddeye verilen doğru yanıtın olasılığı, θ nın bir fonksiyonu olarak madde karakteristik eğrisi (bkz.bölüm II) ile tanımlandığına göre, madde cevap kuramında madde işlev farklılığının tanımı da şu şekilde yapılabilir. Eğer bir madde her iki grupta aynı madde karakteristik eğrisine sahipse bu durumda maddenin iki grupta benzer bir işlevi vardır; ancak eğer madde her iki grupta aynı madde karakteristik eğrisine sahip değilse bu durum maddenin işlev farklılığı kanıtı olarak ortaya çıkacaktır (Thissen, Steinberg ve Wainer, 1988). Benzer olarak Kim, Cohen ve Kim (1994), farklı gruplardaki deneklerden sağlanan madde cevap fonksiyonları farklılaştığında maddenin işlev farklılığı olduğunu belirtmişlerdir. Lord (1980) madde işlev farklılığını, bir maddenin bir gruba göre başka bir grupta farklı bir madde cevap fonksiyonu varsa, bu maddenin yanlı olduğunun bir kanıtıdır biçiminde tanımlamıştır (akt. Thissen, Steinberg ve Wainer, 1993). Dikotomik olarak puanlanan madde cevap modelleri bağlamında Pine (1977), doğru cevabın olasılığının, aynı 21

22 yetenek düzeyinde ancak farklı grup üyelikleri olan deneklerde değişiklik gösterdiğinde maddenin farklı bir biçimde fonksiyon gösterdiğini belirtmiştir (akt. Kim, Cohen ve Kim, 1994, Teresi, 2000). Çoklu kategorili maddeler söz konusu olduğunda da, bir maddenin kategori cevap eğrileri veya madde cevap eğrileri iki grup için aynı olmadığında madde işlev farklılığı tanımlanır (Reise, Smith ve Furr, 2001). Buraya kadar sözü edilen madde işlev farklılığı tanımlarından da anlaşılacağı üzere madde işlev farklılığı incelemelerinde madde parametrelerinin iki grupta tahmin edilmesi gerekmektedir. Madde cevap kuramında bu gruplar, referans ve fokal grup isimlerini almaktadırlar. Madde cevap kuramı dışındaki yanlılık incelemelerinde bu gruplardan, çoğunluk (avantaj sahibi olan) ve azınlık (dezavantaj sahibi olan) grupları olarak bahsedilmektedir. Madde cevap kuramında referans grubu genellikle çoğunluk grubunu ve fokal grupta azınlık grubunu temsil etmekte olup referans grup, fokal grupta tahmin edilen madde parametrelerinin karşılaştırılacağı ana gruptur (Cohen, Kim ve Baker, 1993; Kim ve Cohen, 1991, 1998). Bu açıklamaların ışığında, madde işlev farklılığı tanımında dikkat edilmesi gereken en önemli nokta, madde işlev farklılığının iki grubun maddeyi doğru biçimde yanıtlama olasılığı anlamında olmadığı, θ nın herhangi bir noktasında fokal grubun bir üyesinin, aynı θ düzeyinde referans gruptaki bir denekten daha doğru biçimde yanıtlama olasılığının farklı olması anlamındadır (Thissen, Steinberg ve Wainer, 1988). Madde cevap modellerinin önemli özelliklerinden biri de, başlangıcından günümüze kadar sosyal bilimlerde davranış özelliklerinin, farklı alt popülasyonlarda olduğu kadar farklı kültürler arasında da ölçüm eşdeğerliğinin incelemesine olanak tanımasıdır. Yapısal eşitlik modelleri kapsamında da incelenen ölçüm eşdeğerliği (measurement equivalence/invariance) son yıllarda doğrulayıcı faktör analizleri ile yürütülmektedir; ancak madde cevap modelleri uzun yıllardan bu yana ölçüm eşdeğerli ve madde yanlılık incelemelerinde kullanılmaktadır (Collins, Raju ve Edwards, 2000; Glöckner-Rist, ve Hoijtink, 2003). Dolayısıyla kültürler arası karşılaştırmalar söz konusu olduğunda, iki kültürün aynı madde üzerindeki madde karakteristik eğrileri örnekleme (kültür) 22

23 hatalarından farklılaşıyorsa ölçüm ya da metrik eşdeğerliğinin azlığından söz edilir ya da söz konusu maddenin kültürler arasında işlev farklılığı gösterdiği ifade edilir (Huang, Church ve Katigbak, 1997). Raju, Laffitte ve Byrne (2002) bir maddenin parametre değerlerinin farklı iki popülasyonda değişmez olarak kaldığında maddenin ölçüm eşdeğerliği olduğunu, yani madde işlev farklılığı göstermediğini belirtmişlerdir. Özet olarak; örtük özellik-madde puan ilişkileri farklı popülasyonlarda farklı olarak bulunuyorsa (Bolt ve ark., 2004), iki grup deneğin tahmin edilen madde karakteristik eğrileri mükemmel biçimde çakışmıyorsa yani madde güçlük, ayırt edicilik parametreleri ya da her ikisi aynı değilse (Smith ve Reise, 1998; Robie, Zickar ve Schmit, 2001), test ile ölçülen özellikte aynı düzeyde olan kişilerin maddeye doğru cevap verme, kişilik ve tutum maddeleri söz konusu olduğunda maddeyi anahtarlanan yönde işaretleme olasılıkları farklılaşıyorsa (Lim ve Drasgow, 1990; Reise, 1999; Somer, 2004) madde işlev farklılığının varlığından söz edilir. Yansız bir ölçme işlemi gerçekleştirmek tüm test, ölçek geliştirme süreçlerinde en önemli hedeflerden biridir. Her ölçüm aracı spesifik bir amaç ile ölçmeyi hedeflediği özellik/ özellikler üzerine temellenir. Yanlı maddelerden oluşan bir ölçüm aracı testin gerçek hedefini yerine getirememesine; diğer bir ifade ile testin geçerlik ölçütlerini karşılayamamasına neden olur. Dolayısıyla bir test, kişilerin bağlı bulunduğu herhangi bir demografik grup üyeliğinin etkisi olmaksızın ölçülmesi amaçlanan yeteneği, özelliği doğru olarak ölçmelidir. 23

24 1.2. ARAŞTIRMANIN AMACI Bu çalışmanın en temel amacı, madde cevap kuramı kapsamında Samejima nın Ağırlıklandırılmış Cevap Modeline (Bkz. Bölüm III) uygun çoklu kategorili madde formatında, parametrik madde ve test işlev farklılığı yöntemlerini incelemek ve karşılaştırmaktır. Ülkemizdeki psikologlar arasında madde cevap kuramı ile ilgili çalışmaların var olduğu görülmekle birlikte henüz madde ve test işlev farklılığı üzerinde incelemelerin yok denecek kadar az miktarları içerdiği görülmektedir. Ayrıca ülkemizde psikolojik ölçüm araçları olarak kullanıma sunulan ölçek/test/envanter gibi pek çok materyalin büyük çoğunluğunun çeviri ve adaptasyon çalışmalarını kapsıyor olması, aslında psikologların farkında olmadıkları bir problemi göz ardı ettiklerini kısmen göstermektedir. Başka bir deyişle, bir kültürden diğer bir kültüre uyarlanan ölçüm araçlarının kültürler arası ölçüm eşdeğerlik incelemeleri yapılmadığında, o ölçüm aracının tam olarak neyi ölçtüğünden emin olunamaz. Ülkemizde bu tür incelemelerin hali hazırda yeterince yerine getirilmediği görülmektedir. Dünya literatüründe ise, madde-test işlev farklılığı incelemeleri eğitim ve psikoloji alanında çok hızlı ilerlemeler gerçekleştirmiş olup diğer disiplinlerdeki araştırmacıların da dikkatini çekerek tıp, ekonomi, eczacılık, biyoloji, sosyoloji v.b. alanların da pratik uygulamaları içerisinde kendisine yer açmıştır. Dolayısıyla ülkemizde psikolojik testlerin geliştirilmesinde yaygın olarak kullanılan klasik test kuramının uygulama kolaylıklarının yanı sıra psikoloji araştırmalarına madde cevap kuramına dayalı madde yanlılığı incelemelerinin yer almasını sağlayabilmek ve psikologların bu konuya dikkatlerini çekmenin yararlı olacağı düşünülmektedir. Psikolojinin kişilik, ilgi, tutum gibi konularında sıklıkla ölçme yapılmakta olup, bireyler arası farklılıklar açıklığa kavuşturulmak istenmektedir. Başlangıçta simülasyon çalışmalarına odaklanan madde cevap modelleri artık günümüzde özellikle psikolojinin bu konularında görgül veriler üzerinde hatırı sayılır derecede ilerleme kaydetmiştir. Bu bağlamda araştırmanın amacı, madde ve test işlev farklılığı incelemelerinin pratik yararlarını ön plana çıkarmaktır. 24

25 Araştırmada, farklı örneklem genişlikleri (n=500, n=1000 ve n=1500) oluşturulmuş ve madde-test işlev farklılığının araştırılmasında üç işlev farklılık yöntemi (Olabilirlik Oranı Testi Model Karşılaştırma Yöntemi (LR), Madde-Test İşlev Farklılık (DFIT) Yöntemi ve Parametre Karşılaştırma Yöntemi (PARSCALE) ile çalışılmıştır. Bu örneklem genişlikleri ve işlev farklılık yöntemleri ile, bir kişilik ölçeği boyutu üzerinde geniş bir örneklem grubu verileri kullanılarak, cinsiyet özelliklerine bağlı kadın-erkek alt grup karşılaştırmaları yapılmıştır. Bu doğrultuda araştırmanın amaçları şunlardır: i- Madde cevap kuramı kapsamında parametrik yöntemler olarak tercih edilen olabilirlik oranı testi-model karşılaştırma (LR), madde-test işlev farklılığı (DFIT) ve parametre karşılaştırma yöntemleri arasında benzerlik ve farklılıklar nelerdir? ii- Farklı örneklem genişlikleri söz konusu olduğunda (500, 1000, 1500) olabilirlik oranı testi-model karşılaştırma (LR), madde-test işlev farklılığı (DFIT) ve parametre karşılaştırma yöntemlerinin kadınerkek karşılaştırma gruplarında madde işlev farklılığını saptamadaki gücü nasıldır? iii- Madde işlev farklılığı gösteren ölçek maddelerinin yapısı nasıldır? Karşılaştırma grupları arasında madde işlev farklılığı saptanan maddelerin, hangi madde parametrelerinde farklılıklar görülmektedir? iv- Madde-test işlev farklılık (DFIT) yöntemine göre, örneklem genişliği koşulunda karşılaştırma grupları arasında test düzeyinde işlevsel farklılık var mıdır? v- Madde işlev farklılık yöntemlerinin, farklı örneklem genişlikleri koşullarında ve 0.01 ile 0.05 nominal alfa düzeylerinde karşılaştırma grupları arasında işlevsel farklılık gösteren maddeleri belirlemedeki gücü nasıldır? 25

26 BÖLÜM II Bu bölümde madde cevap kuramının temel kavramları ile özellikleri, madde cevap kuramına dayalı olarak geliştirilen madde işlev farklılığı yöntemleri, Olabilirlik Oranı Testine dayalı Model Karşılaştırma Yöntemi (Likelihood Ratio Test-LR, Comparison Model), Madde-Test İşlev Farklılığı Yöntemi (Differential Item and Test Functioning- DFIT) ve Parametre Karşılaştırma Yöntemi ile bu yöntemlere ilişkin literatür çalışmaları ele alınmıştır MADDE CEVAP KURAMI HAKKINDA GENEL BİLGİLER Madde cevap kuramı bireylerin davranışları ile bu davranışların altında örtük olarak bulunduğu varsayılan özellikler arasındaki ilişkileri olasılığa temellenen fonksiyonlarla ifade etmektedir. Kuramın odak noktasını farklı yetenek düzeyindeki deneklerin örtük özellik üzerindeki bir maddeyi nasıl yanıtlamaları gerektiğini gösteren matematiksel modeller oluşturur. Bu modeller gözlenen değişkenler ile bunların altında yatan örtük özellik arasındaki işlevsel ilişkiyi doğrusal olmayan bir regresyon ile tanımlarlar (Chernysenko ve ark.2001; Zickar, 1998). Madde cevap kuramında madde (item) terimi bireylerin gözlem birimini, test/ölçek (test/scale) terimi maddeler topluluğunu ve özellik/yetenek (trait/ability) terimi bireyin örtük özelliğini tanımlamak üzere kullanılmaktadır. Madde cevap kuramı iki temel varsayıma dayanmaktadır (Hambleton, Swaminathan ve Rogers; 1991). Bunlar: 1- Deneklerin test maddelerindeki performansı özellikler, örtük özellikler ya da yetenekler olarak adlandırılan faktörler seti ile açıklanabilir ya da yordanabilir. 2- Deneklerin madde performansı ile madde performansını oluşturan özellikler seti arasındaki ilişki, madde cevap fonksiyonu (Item Response Function-IRF) veya madde karakteristik eğrisi (Item Characteristic Curve-ICC) olarak adlandırılan bir fonksiyon ile tanımlanabilir. 26

27 Madde cevap kuramının en temel kavramsal birimi, merkezi elementi madde karakteristik eğrisidir (MKE). MKE, bireyin ölçülen yetenek boyutundaki düzeyi ile maddeye doğru cevap verme olasılığı arasındaki ilişkinin grafik gösterimidir ve s şekline sahiptir. Madde cevap kuramının uygulamalarında bir maddenin görgül MKE si her θ aralığındaki medyan değerine karşılık gelen oranların çizimini içerir ve görgül MKE nin kuramsal MKE ne yakın tahmini o madde cevap kuramı modelinin de uygulanabilirliğini gösterir (Hambleton, Swaminathan ve Rogers, 1991; Hulin, Drasgow ve Parsons, 1983). Madde cevap kuramında madde güçlüğü ve yetenek ölçüm tahminleri aynı boyut üzerinde yani o test ile ölçülen yetenek boyutu (θ) üzerinde yer almaktadır. Dolayısıyla MKE, doğru cevabın koşula bağlı olasılığı (conditional) yani herhangi bir belirli θ yetenek düzeyi için P(θ) belirlenmiş olan doğru cevabın eğrisidir. Madde cevap kuramının en önemli diğer bir özelliği madde ve test bilgi fonksiyonlarıdır (item and test information function). Madde cevap kuramında bu fonksiyonlar, klasik test kuramındaki güvenirlik ve ölçmenin standart hatası kavramlarının yerine geçmektedir. Madde ve test bilgi fonksiyonları, gözlem yoluyla elde edilen verilerin parametre tahminlerinin yapılmasının ardından θ yetenek tahminlerinin yerleşiminin ve aynı zamanda ölçümün doğruluğu, hassasiyeti ve mükemmelliği hakkında bir değerlendirme yapılmasını sağlar. Madde cevap kuramında ölçmenin hassasiyeti, ölçekteki her maddenin belirli bir kişinin yeteneğine göre olan durumuna bağlı olarak diğer bir ifade ile madde ve kişinin birbirlerine yakınlık derecesi ile açıklanır ve madde ile kişi arasındaki fark arttıkça maddenin etkinliği azalır (Somer, 1999). Bir test belirli bir özelliği ölçen θ yeteneğinin farklı noktalarında bulunan kişiler için farklı düzeylerde bilgi vermektedir. θ nın her bir değeri için elde edilen informasyonların θ ya karşı grafiğinin çizilmesi ile madde bilgi fonksiyonu elde edilir ve belirli bir θ düzeyi için tüm madde bilgi fonksiyonlarının toplanması ile de test bilgi fonksiyonu elde edilmektedir. 27

28 Madde cevap kuramı modellerinde bireylere yetenek, tutum ya da kişilik testi maddeleri gibi bir seri uyarıcı verilir, uyarıcılara verilen yanıtlar gözlenerek kaydedilir ve ölçümü yapan araştırmacıların kişilerin bu özelliklere ne derece sahip olduklarını gözlenen yanıtlara bakarak belirlemesi için kişinin gözlenen yanıtı ile sahip olduğu varsayılan özellik arasındaki ilişki bir eşitlik ile tanımlanır (Erktin,1994). Bu ilişkiyi gösteren eşitliğin yardımı ile test maddelerinin özellikleri bilindiğinde kişilerin gözlenen yanıtlarından ölçülmek istenen özelliğe ne derece sahip olduklarına ilişkin bir tahmin yapma olanağı doğar. Matematiksel modellere temellenen madde cevap modelleri test verileri hakkında klasik test kuramına göre daha güçlü ve özel bir takım varsayımlar içermektedir. 2.1.a. Madde Cevap Kuramının Varsayımları Madde cevap modellerinin çoğu tek boyutluluk (unidimensionality) ve yerel bağımsızlık (local independence) olmak üzere iki temel varsayım üzerine kurulmuştur. Bu varsayımlar doğrudan belirlenemez olmasına rağmen bazı dolaylı kanıtlar ile elde edilen verilere hangi modelin uygulanacağı konusunda aydınlatıcı bilgiler sağlarlar. Son yıllarda çok boyutlu madde cevap modellerinin olduğu bilinmekle birlikte, modellerin çoğu madde cevaplarının temelinde tek bir özelliğin bulunduğunu varsaydıklarından tek boyutluluk incelemelerinin yapılması madde cevap kuramları için vazgeçilmez bir varsayımdır. Genel olarak örtük özellik kuramında, bir grup test maddesinde k adet örtük özellik/yetenek ölçüldüğü varsayılır, k tane örtük özellik k boyutlu bir uzayı tanımlar (Hambleton ve Swaminathan, 1989). Genellikle kişilerin testteki performansını açıklayan bir tek yetenek ya da özellik boyutu olduğu varsayılır. Ancak Hambleton ve Swaminathan (1989) tek boyutluluk varsayımının pratikte tam olarak karşılanmasının mümkün olmadığını çünkü kişilik, test alma becerileri ve ölçülen temel boyuttan başka bilişsel faktörler gibi pek çok diğer koşulun da genellikle test performansını etkilediğini belirtmektedirler. Ancak diğer taraftan pratikte bu varsayımın karşılanması için test performansını etkileyen baskın bir faktörün bulunmasının yeterli görüleceği ve bu baskın faktörün de test ile ölçülen yetenek olarak tanımlanacağı vurgulanmaktadır (Hambleton, Swaminathan ve Rogers; 1991). 28

29 Testin tek boyutluluğunu değerlendirmek üzere en yaygın olarak kullanılan yöntemlerden biri faktör analizi teknikleridir. Temel bileşenler faktör analizi ya da benzer faktör analizleri sonucunda Reckase (1979), ilk faktörün toplam varyansın en az % 20 sini açıklama koşulunda ve ilk faktörün özdeğerinin, ikinci faktörün özdeğerinden birkaç kat daha büyük olması durumunda tek boyutluluk ölçütünün karşılandığını belirtmektedir (akt. Collins ve ark., 2000; Hambleton ve ark., 2000; Smith, 2002). Madde cevap kuramının yerel bağımsızlık varsayımı, bir kişinin değişik test maddelerine verdiği cevapların istatistiksel olarak bağımsız olmasını diğer bir ifade ile maddelerden birine verilen doğru veya yanlış cevabın diğer bir başka maddeye verilecek cevabı hiçbir şekilde etkilememesini ifade eder. İki maddenin birlikte doğru (ya da birlikte yanlış, doğru-yanlış ve yanlış-doğru) cevaplandırılma olasılığı, maddenin ayrı ayrı doğru (ya da yanlış, doğru-yanlış ve yanlış-doğru) cevaplandırılma olasılıklarının çarpımına eşitse maddelerin yerel bağımsızlığa sahip olduğu savunulmaktadır (Hambleton, Swaminathan ve Rogers; 1991). Yerel bağımsızlık varsayımı iki maddeye verilen yanıtlar arasında ilişkisizlik anlamını taşımaz, belirli bir tutum ya da θ yetenek düzeyinde homojen alt popülasyonlarda ilişkisiz yanıtları içerirken, θ nın değiştiği heterojen alt popülasyonlarda madde puanlarının ilişkili olmasını gerektirir. Dolayısıyla maddeler tüm popülasyonda birbirine bağlı ancak alt popülasyonlarda birbirinden bağımsız olmalıdır. θ yetenek göstergesi, tek boyutlu olduğunda yerel bağımsızlık varsayımı, tek boyutluluk varsayımına eş değer olmaktadır. Bir test eğer ortak bir özelliği ölçüyorsa, sabit bir θ düzeyi için maddelere verilen cevaplar istatistiksel olarak birbirinden bağımsızdırlar. Aksi takdirde aynı yetenek düzeyindeki bazı kişilerin beklenen puanları diğerlerine oranla daha yüksek olacaktır. Sonuçta bu farkı açıklamak için farklı yetenek boyutlarının tanımlanmasına gerek duyulacaktır ve bu da tek boyutluluk kavramına ters düşecektir. Yerel bağımsızlık varsayımı ile aynı yetenek düzeyindeki (θ) kişiler için maddelere verilen cevaplar bağımsız olmalıdır (Hambleton, Swaminathan ve Rogers; 1991). Bu durumda da bir dizi test maddesinin arasındaki ilişkiyi açıklamak için 29

30 yalnızca tek bir özellik gerekmektedir. Hambleton ve Swaminathan (1989) yerel bağımsızlığın tek boyutluluk ile ilişkili olması nedeniyle faktör analizi teknikleri ile aynı zamanda maddelerin yerel bağımsızlığının da test edilebileceğini ileri sürmüşlerdir. Ayrıca McDonald (1980), yerel bağımsızlık ve tek boyutluluk üzerine faktör analizi ile yaptığı çalışma sonunda testin tek boyutluluğa sahip olduğu durumda, aynı θ düzeyindeki bireylerin maddelere verdikleri cevaplar arasında kovaryansın sıfır olduğunu gözlemlemiş ve tek boyutluluğun yerel bağımsızlık varsayımına temellendiği sonucuna ulaşmıştır (akt.erden,1997). 2.1.b. Madde Cevap Kuramı Modelleri Yakın zamana kadar madde cevap modelleri hakkında iki temel eleştiri yapılmıştır. Bu eleştirilerden ilki modellerin yalnızca zeka, yetenek, başarı testleri üzerine odaklandığı ve dolayısıyla ikinci eleştiri olarak da ancak dikotomik puanlanan madde formatları için uygun olduğu şeklindedir (Zickar,1998). Fakat son yıllarda özellikle kişilik ölçümünde doğru-yanlış ya da evet-hayır şeklinde dikotomik puanlamalar için madde cevap modelleri kullanılmıştır (Childs, Dahlstrom, Kemp ve Panter, 2000; Ellis ve Mead, 2000; Ferrando, 2001; Stark ve ark.2001; Waller, Thompson ve Wenk; 2000). Günümüzde madde cevap modelleri daha karmaşık madde formatlarına yönelmiştir. İki cevap seçeneğinden daha fazla sayıda seçeneği olan çoklu kategorili maddeler (polytomous) için pek çok model geliştirilmiştir. Bu geliştirilen modeller arasında; Rasch modelin bir uzantısı olan ve Masters (1982) tarafından geliştirilen Kısmi Puanlama Modeli (Partial Credit Model), iki parametreli lojistik modelin bir uzantısı olan ve Samejima (1969) tarafından geliştirilen Ağırlıklandırılmış Cevap Modeli (Graded Response Model), Andrich (1978) tarafından geliştirilen Dereceli Ölçek Modeli (Rating Scale Model) ve Bock (1972) tarafından geliştirilen Sınıflamalı Cevaplar Modeli (Nominal Response Model) sayılabilir. Madde cevap modelleri iki temel matematiksel fonksiyon ile temsil edilen normal ogive model ve lojistik modelleri kapsamaktadır. Modeller arasındaki farklılık madde karakteristik eğrisinin matematiksel tanımlamalarından kaynaklanmaktadır. 30

31 Normal ogiv modelde madde karakteristik eğrisi kümülatif bir dağılımın fonksiyonudur. θ yetenek boyutu üzerinde soldan sağa doğru ilerledikçe eğri sürekli olarak yükseli; diğer bir ifade ile monotonik yani derece derece artışlar gösterir. Normal ogiv modelin en düşük asimptotu hiçbir zaman 0 a ulaşmaz, en yüksek asimptotu ise 1 e ulaşır. Her z-puanının solunda kalan alan 1 den küçüktür ve bu alan oran olarak yorumlanır. Standart normal ogiv grafikleri z-puanlarının bir fonksiyonu olarak bu oranlardır (Hambleton, Swaminathan ve Rogers; 1991). Normal ogiv eğrisi, madde karakteristik eğrisi olarak kullanıldığı zaman yatay eksendeki değerler θ değerlerini ve dikey eksen üzerindeki değerler eğrinin yüksekliği ile maddeyi doğru olarak cevaplayan deneklerin yetenek düzeyinin oranını göstermektedir. Örtük özellikler kuramındaki ilk araştırmalarda madde karakteristik eğri şeklinin baskın olarak normal ogiv olmasına rağmen günümüzde kullanılan modeller daha çok basit hesaplamaları gerektirmesi nedeniyle yerini lojistik modellere bırakmıştır. Normal ogiv modellerinden lojistik modellere D sabiti ile geçiş yapılır ve değerinin 1.7 ye eşit olduğu kabul edilmektedir. Madde güçlüğünü içeren tek parametreli lojistik model, madde güçlük ve ayırt edicilik parametrelerini kapsayan iki parametreli lojistik model ve son olarak madde güçlük, ayırt edicilik ve doğru cevabı tahmin parametrelerini içeren üç parametreli lojistik modeller dikotomik puanlanan madde cevap modelleridir. Tek Parametreli Lojistik Model (1PLM): Rasch ın 1950 li yıllarda zeka ve başarı testleri için Poisson modelini geliştirmesinin ardından kendi ismi ile anılan model ölçmecilerin hizmetine sunulmuştur. 1PLM testteki tüm maddelerin eşit ayırt edicilik parametre değerine yani a i =1 ve doğru yanıtını tahminleme-şans parametresinin c i =0 a eşit olduğunu varsayar. Ayrıca model üç parametreli lojistik modelin özel bir halini içerir. Bu iki parametrenin etkilerinin minimize edildiği 1PLM, madde formatlarının istenen özelliği temsil edip etmediği konusunda özellikle araştırmacılara geniş bir madde havuzundan madde seçim sürecinde büyük kolaylık ve bilgi sağlanmaktadır. İki Parametreli Lojistik Model (2PLM): 2PLM tahmin parametresi c i = 0 olduğu durumda üç parametreli lojistik modelin özel bir durumudur. Modelin lojistik madde karakteristik 31

Daha göster