Sosyal Bilgisi Testinde Çok Boyutluluk Analizi



Benzer belgeler
Başa Çıkma Stilleri Ölçeği Kısa Formunun (BÇSÖ-KF) Psikometrik Özelliklerinin İncelenmesi: Geçerlik ve Güvenirlik Çalışması *

Örnek Olay Yönteminin Öğretmen Adaylarının Kimya Laboratuvarı Dersine Karşı Endişelerine Etkisi

Psikolojik İyi Olma Ölçekleri (PİOÖ): Geçerlik ve Güvenirlik Çalışması

The Effects of Different Correlation Types on Goodness-of-Fit Indices in First Order and Second Order Factor Analysis for Multiple Choice Test Data

Mesleki Sonuç Beklentisinin Yordayıcıları Olarak Algılanan Sosyal Destek ve Denetim Odağı *

Farklı Engel Grubundan Engelli Kardeşe Sahip Çocukların Kardeş İlişkileri ile Kardeşlerini Kabullenmeleri Arasındaki İlişkinin İncelenmesi

Gözden Geçirilmiş Schutte Duygusal Zekâ Ölçeğinin. Türkçe ye uyarlanması ve psikometrik özelliklerinin incelenmesi

Coğrafi Bilgi Sistemlerinin (CBS) Coğrafya Öğretimine Katkısı ve Ortaöğretim Öğrencilerinin CBS ye İlişkin Tutumları

Çoklu Zekâ Kuramı ile İlgili Türkçe Çalışmaların İçerik Analizi

ÖĞRETMEN ADAYLARININ DERS ÇALIŞMA STRATEJİLERİNİ ETKİLEYEN BAZI DEĞİŞKENLER SOME VARIABLES IN AFFECTING THE STUDY STRATEGIES OF STUDENT TEACHERS

iser 2015 World Conference on Education Book of Abstracts

Sanatsal Benlik Kavramının Benliğin Diğer Boyutları İle İlişkisi *

İlköğretim Sosyal Bilgiler Programında Yer Alan Değerler ve Değer Eğitimi Uygulamaları Konusunda Öğretmen Görüşleri

Test Eşitleme : Aynı Davranışları Ölçen, Farklı Madde Formlarına Sahip Testlerin İstatistiksel Eşitliğinin Sınanması

AKTİF ÖĞRENME UYGULAMALARININ ÖĞRENCİLERİN KENDİ KENDİNE ÖĞRENME BECERİLERİNE ETKİSİ

The Attitude of Students in Geography Teacher Departments towards. Teaching Profession

Öğretmen Adaylarının Çevrimiçi Bilgi Arama Stratejilerinin Belirlenmesi

Türkiye de Eğitim Yönetimi Bilgi Sistemleri ve Uygulamada Karşılaşılan Sorunlar

Üst Düzey Yöneticilerin Sahip Olması Gereken Yönetsel Yetkinliklerin Belirlenmesine Đlişkin Ampirik Bir Çalışma

Lise Son Sınıf Öğrencilerinin Sınav Kaygısını Yordayan Değişkenlerin İncelenmesi

Journal of Computer and Education Research Bilgisayar ve Eğitim Araştırmaları Dergisi

Effects of Learning Objects on the Academic Achievement of Students in Web-Based Foreign Language Learning

Fen Bilgisi Öğretmen Adaylarının Başarı Amaç Yönelimlerinin Çeşitli Değişkenler Açısından İncelenmesi 2

Sürekli Umut Ölçeği nin Türkçe ye uyarlanması: Geçerlik ve güvenirlik çalışması 1

İlk ve Ortaokul Öğretmenlerinin Öz-Yeterlik Algıları ile İş Doyumları Arasındaki İlişki

Öğretmenlerin Sınıf Yönetimi Becerileri ile İş Doyumları Arasındaki İlişki 1

Education Supervisors Views on the New Curriculum and Its Implementation in Primary Schools

Turkish Journal of Computer and Mathematics Education Vol.5 No.2 (2014),

Öğretmen Adaylarında Bireysel Farklılıklar Perspektifinden Amaç Yönelimleri, Denetim Odağı ve Akademik Başarı

Üniversite Öğrencilerinin Sosyal Paylaşım Sitelerini Kullanma Amaçları ve Bu Sitelerin Eğitimlerinde Kullanılması ile İlgili Görüşleri *

Transkript:

Kuram ve Uygulamada Eğitim Bilimleri Educational Sciences: Theory & Practice - 12(1) Kış/Winter 375-385 2012 Eğitim Danışmanlığı ve Araştırmaları İletişim Hizmetleri Tic. Ltd. Şti. www.edam.com.tr/kuyeb Sosyal Bilgisi Testinde Çok Boyutluluk Analizi Özlem Yeşim ÖZBEK BAŞTUĞ a Çankırı Karatekin Üniversitesi Öz Bir testtin altında yatan gizil yapıyı bulmak için geliştirilen metotların sayısı oldukça fazla ve bunların dayandığı teknikler çeşitlidir. Çok boyutluluk üzerindeki çalışmalar ya parametrik metotlarla parametrik olmayan metotların karşılaştırılmasına ya da bir yöntemin diğer yöntemlere göre etkiliğine yoğunlaşmıştır. Parametrik ve nonparametrik metotları birlikte kullanarak gerçek veriler üzerinde çok boyutluluk analizinin nasıl yapılacağını gösteren bir çalışmaya ise rastlanmamıştır. Bu çalışmanın amacı eski adıyla Orta Okullar Arası Seçme Sınavının Sosyal Bilgiler alt testinin boyutlarını parametrik ve nonparametrik çok boyutluluk metotlarını birlikte kullanarak tanımlamaktır. 1999, 2000 ve 2001 Orta Okullar Arası Seçme Sınavının Sosyal Bilgiler Testine verilen cevaplar bu çalışmanın verilerini oluşturmuştur. Çalışma sosyal bilgiler alt testinin çok boyutlu olduğunu göstermiştir. Sonuçlar sosyal bilgiler alt testtinin çok boyutlu olduğu gösterdiği için testin gizil çok boyutlu yapısını tanımlamak ve sonunda bu yapıya göre tek boyutlu olarak puanlamak önemlidir. Anahtar Kelimler Çok Boyutluluk, Tek Boyutluluk, Geçerlik, Parametrik Metotlar, Nonparametrik Metotlar, Sosyal Bilgiler Testi. Tek boyutluluk (unidimensionality) ölçümlerin altında yatan tek bir kavramsal yapının ya da gizil özelliğin varlığı olarak tanımlanmıştır (Hattie, 1985; McDonald, 1981). Stout, Froelich ve Gao (2001) günümüzdeki boyutluluk (dimensionality) tanımı θ nın bir yerel bağımsız ve monoton örtük değişken modeli üretebilmesi için gerekli minumum sayıdaki boyut olarak açıklamıştır. Testin boyutu tek olduğunda, gizil değişken modeli tek boyutlu ve testin altında yatan kavramsal boyut birden çoksa örtük değişken modeli çok boyutlu olarak adlandırılır (Stout ve ark., 2001). Ayrıca, Stout (1987) bir yetenek testinin tek boyutlu olup olmadığını incelemek için birçok neden sıralamıştır. Bir yeteneği ölçmek için geliştirilen bir test nadiren a Dr. Özlem Yeşim ÖZBEK BAŞTUĞ Eğitimde Ölçme ve Değerlendirme alanında Yardımcı Doçenttir. Çalışma alanları arasında geçerlik, çok boyutluluk ve diferansiyel madde fonksiyonu yer almaktadır. İletişim: Çankırı Karatekin Üniversitesi Edebiyat Fakültesi Eğitim Bilimleri Bölümü, 18100 Çankırı. Elektronik Posta: ozbek@karatekin.edu.tr & ozacik@yahoo.com. Tel: +90 376 2541215/4584 Fax: +90 376 2541123. sadece o yeteneği ölçüyordur ve sıklıkla başka yeteneklerin değişik düzeyleri ölçmelere karışıyordur. Örneğin, bir matematik başarı testini düşünelim soruları cevaplamak için öğrencilerin matematik dışında Türkçe bilgisinin (dil yeteneğinin) gerekliliği ölçüsünde öğrencilerin matematik başarısı aynı zamanda onların Türkçe dilindeki yeteneklerini yansıtacaktır. Eğer öğrencilerin dil yetenekleri birbirinden farklı ise öğrencilerin matematik dersindeki başarısı onların matematik alanındaki yeteneklerinin yanında Türkçe dilindeki yeterliklerine bağlı olacaktır. Böyle bir durumda testin tek boyutlu olduğunu ispatlamaya yönelik bir araştırma yapmadan öğrencilerin aldıkları puanları sadece matematik başarısının bir sonucu olarak görmek bizi yanlış kararlara yöneltecektir. Bu nedenledir ki bir testin tek boyutlu olduğunu iddia etmek hiç bir zaman o testin tek boyutlu olduğunu kanıtlamaz ve tek boyutlulukla ilgili her hangi bir varsayım mutlaka kontrol edilmelidir. Ayrıca, modern test teorisine dayalı yöntemlerin hemen hepsi tek boyutluluk varsayımını gerektirdiği için bu yöntemleri kullanmadan önce tek boyutluluk varsayımının sağlanıp

KURAM VE UYGULAMADA EĞİTİM BİLİMLERİ sağlanmadığının araştırılması gereklidir. Bireyler arasındaki farkları bulmak ve bunları rapor etmek amacıyla geliştirilen çok boyutlu testlerde, her boyut ayrıca ölçülmeli ve benzer şekilde ayrı olarak puanlanmalıdır ki sınava giren bireylerin puanları birbiri ile karşılaştırılabilsin. Son olarak büyük kitlelere ulaşan standart testlerin bilgisayar tabanlı testlere dönüştürülmesi kaçınılmaz olduğu için de tek boyutluluğun incelenmesi bir gereklilik haline gelmiştir. Testlerin altında yatan boyut sayısını bulmak için (ya da tek boyutluluğu kontrol etmek için) geliştirilen metotların sayısı oldukça fazla ve bunların dayandığı teknikler çeşitlidir. Ancak, bu konudaki literatür araştırmaları ya parametrik metotlarla nonparametrik metotların karşılaştırılmasına (örneğin Finch ve Habing, 2003; Mroch ve Bolt, 2006) ya da bir yöntemin diğer yönteme göre etkiliğine (örneğin Roussos, Stout ve Marden, 1998; Stout ve ark., 2001) yoğunlaşmıştır. Gerçek veriler üzerinde parametrik ya da parametrik olmayan metotlardan birini kullanarak çok boyutluluk analizi yapan sadece birkaç çalışmaya rastlanmıştır (örneğin Douglas, Kim, Roussos, Stout ve Zhang, 1999; Jang ve Roussos, 2007). Ayrıca, çok boyutluluk analizinin parametrik ve nonparametrik metotları birlikte kullanarak gerçek veriler üzerinde nasıl yapılacağını gösteren hiç bir çalışmaya rastlanmamıştır. Araştırmanın Amacı Bu çalışma parametrik ve nonparametrik metotların çok boyutluluk analizi için birlikte kullanımını göstererek literatürdeki bu eksikliği gidermeyi amaçlamaktadır. Bu makalenin diğer bir amacı da eski adı ile Orta Okullar Arası Seçme Sınavının sosyal bilgiler alt testinin boyutlarını tanımlamaktır. Testtin altında yatan boyutların tanımlanması (tek boyutluluğun ya da çok boyutluluğun doğrulanması) sosyal bilimler testinin yapı geçerliliğinin cinsiyet ve farklı formlar açısından kanıtlanması için önemlidir. Ayrıca, modern test teorisinde kullanılan pek çok yöntem (örneğin BILOG) verinin tek boyutluluğu gerektirdiği için testin tek boyutluluğun kanıtlanması önemlidir. Modern test teorisine dayalı tekniklerin kullanımı ancak testin yaklaşık olarak tek boyutlu olduğunu kanıtlamaya yönelik istatistik analizlerle ya da tek boyutluluktan uzaklaşmanın bahsedilen spesifik metotların kullanımını tehlikeye sokmadığına dair istatistiksel tartışması ile mümkündür. Veri Yöntem Çalışma için veriler 1999, 2000 ve 2001 yılı Orta Okullar Arası Seçme Sınavının sosyal bilimler alt testine verilen cevaplardan üç random örneklem alınarak elde edilmiştir. Her örneklem büyüklüğü 8000 olup, kız ve erkek sayısı örneklemlerde eşittir. Sosyal bilgiler testi öğrencilerin genel sosyal bilgilerini (örneğin, tarihteki ya da coğrafyadaki spesifik bir bilgiyi hatırlama), sosyal bilgilerdeki kavramları (örneğin, harita ve grafik okuma, örnekler verme, spesifik bir bilgiyi transfer etme), uygulama yeteneğini (gerekli prensip ve kuralları bulma, genelleme yapma, grafik ya da haritayı okuyarak problem çözebilme) ve sosyal analiz yeteneğini (genel bilgiyi parçalara ayırabilmek, verilen bir bilgideki ilişkileri, prensipleri, kuralları, problemleri, uyumu bulabilmek) ölçmektedir. Sosyal bilgiler testindeki toplam 25 maddenin yaklaşık % 41 i tarih ve inkılap tarihi, % 27 si coğrafya, % 16 sı vatandaşlık ve % 16 sı din ve etik sorularından oluşmaktadır. İstatistiksel Yöntemler Veriler üzerinde betimsel istatistik analizi (ortalama, standart sapma, varyans, güvenirlik indeksi, çarpıklık ve basıklık katsayıları) ve çok boyutluluk analizi yapılmıştır. Genellikle tek boyutluluk analizi iki düzeyde yürütülmektedir. Önce tek boyutluluk kontrol edilir. Eğer tek boyutluluk reddedilirse altta yatan çok boyutlu yapıyı tanımlamak için detaylı analizler yapılır. Basit yapı (simple structure) ve yaklaşık basit yapı (approximate simple structure) çok boyutlu yapının iki çeşidi olarak bilinmektedir. Aynı zamanda çok boyutluluğun en basit yapısı olarak bilinen basit yapı her küme homojen boyutlara sahip olmak üzere maddelerin belirgin olarak ayrı madde kümelerine gruplanabilmesi durumunda görülmektedir. Basit yapıdan uzaklaşma olarak da bilinen yaklaşık basit yapı ise testin her maddesinin testin ana boyutlarından birini ve bunun yanında başka ek bir boyutu da ölçmesi ve aynı ana boyutu ölçen maddelerin tek bir boyutu ölçen bir küme oluşturabilmesi durumunda görülür. Test çok boyutlu olduğunda tek boyutlu mükemmel maddeler hazırlamak çok zor olduğu için, yaklaşık basit yapı tek boyutluluğun daha gerçekçi bir türü olarak görülmektedir (Roussos ve ark., 1998). Araştırmada hem istatistiksel hem de istatistiksel olmayan çok boyutluluk metotları birlikte kullanılmıştır. Birçok metodun birlikte kullanıldığı bu çalışmada özellikle parametrik ve nonparametrik 376

ÖZBEK BAŞTUĞ / Sosyal Bilgisi Testinde Çok Boyutluluk Analizi çok boyutluluk metotları (DIMTEST, ATFIND, DETECT, HCA/CCPROX), sübjektif çok boyutluluk analizi, nonlineer faktör analizine dayanan çok boyutluluk metodu (NOHARM) ve BILOG kullanılmıştır. Çalışmanın her adımı çok boyutluluk analizi açısından vazgeçilmez ve önemlidir. Sosyal bilgiler testi için yapılan tek boyutluluk analizlerinde ve tek boyutluluğun sağlanamaması durumunda var olan boyutları tanımlamak için çok boyutluluk analizlerinde izlenen yol genel olarak şöyle sıralanabilir: (a) her alt testin madde istatistiklerini ve parametrelerini elde etmek için BILOG programı kullanılmıştır; (b) analizlerden önce her sosyal bilgiler testi için uzman görüşü alınarak testin kapsamı ve maddeleri incelenmiş ve derinlemesine kapsam analizleri yapılmıştır; (c) alt testlerin tek boyutlu olup olmadığını test etmek amacıyla her alt test üzerinde açımlayıcı DIMTEST ve DE- TECT analizleri gerçekleştirilmiştir; (d) DIMTEST ve DETECT analizlerinin tek boyutluluğu işaret etmesi durumunda analizler durdurulmuş ve başka hiç bir analiz yapılmamıştır; (e) DIMTEST ve DETECT analizleri bir alt test için çok boyutluluğu işaret etmesi durumunda ise çok boyutlu yapıyı tanımlamak için pek çok takipçi analiz yapılmıştır. Uzman görüşü sosyal bilgiler testindeki çok boyutluluğun kapsam alanlarındaki farklılıklardan olabileceğini işaret ettiği için takipçi analizler doğrulayıcı DIMTEST ve DETECT analizleri ile başlamış ve kapsama dayalı kümelemenin çok boyutluluğun nedeni olup olmadığı test edilmiştir. Ayrıca, çok boyutluluğun kaynaklarını derinlemesine incelemek için DIMTEST-HCA/CCPROX programları kombinasyon halinde peş peşe kullanılmıştır. Daha önce testin tek boyutlu olup olmadığını kanıtlamak için kullanılan açımlayıcı DETECT analizlerinden elde edilen işaret matrisleri ve madde kümeleri çok boyutluluğun kaynaklarını bulmak için detaylı olarak incelenmiştir. Araştırmanın başında basit yapı göstermeyen maddeleri açıklamak amacıyla analizlerin bir parçası olarak kullanılması planlanan NOHARM programı, alt testteki maddelerin azlığı nedeni ile hesaplama sorunu yaşamış ve bu nedenle sonuçları rapor edilmemiştir. Bulgular Tablo 1 betimsel istatistikleri ve güvenirlik indekslerini göstermektedir. Erkeklerin puanları kızlara göre 1999, 2000 ve 2001 testlerinde az farkla daha yüksektir. Sosyal bilgiler testi için Cronbach α güvenirlik indeksi.74 ile.83 arasında değişmektedir. Çarpıklık ve basıklık katsayıları sınırlar içerisindedir ve normal dağılımı işaret etmektedir. Tablo 1. Betimsel İstatistikler, Korelasyon ve Güvenirlik Sosyal Bilgiler N x σ α Çarpıklık Basıklık Testi 1999 8000 12.9 4.6.76 0.11-0.46 1999 Erkekler 4000 13.1 4.7.78 0.08-0.57 1999 Kızlar 4000 12.6 4.4.74 0.13-0.34 2000 8000 12.7 5.0.82 0.11-0.64 2000 Erkekler 4000 12.8 5.3.83 0.13-0.77 2000 Kızlar 4000 12.7 4.8.80 0.07-0.50 2001 8000 12.7 5.2.82 0.22-0.63 2001 Erkekler 4000 12.8 5.4.83 0.19-0.74 2001 Kızlar 4000 12.6 5.0.80 0.26-0.51 Kapsam Analizi Kapsam analizi Eğitimde Ölçme ve Değerlendirme alanında doktora yapan iki uzman tarafından maddelerin ait oldukları alanlara göre gruplanması yoluyla yapılmıştır. Uzmanların gruplamaları arasında uyumsuzluk olduğunda ilgili madde ya da maddeler tartışılarak ortak kanı doğrultusunda tek bir alana kodlanmıştır. Kapsam analizi sosyal bilgiler testinin her formu için dört ayrı alanı (coğrafya, tarih, vatandaşlık ve seçmeli konu alanını) işaret etmiştir. Sosyal bilgiler testi seçmeli bir bölüme sahiptir. Bu bölüm öğrencilerin tercihine göre ya dört din sorusundan ya da sosyal bilgisi sorularından (tarih ve coğrafya) oluşmaktadır. Tablo 2 sosyal bilgiler testi üzerindeki kapsam analizinin sonucunu ve her maddenin ait olduğu alanı göstermektedir. Tablo 2. Kapsam Analizi Sonuçları Kümeler 1999 2000 2001 Tarih 1,2,3,4,5,6,7,8,9,10 10,11,12,13,14,15,16,17,18 1,2,3,4,5,6,7,8,9,10 Coğrafya 11,12,13,14,15,16,17,18 1,2,3,4,5,6,7,8,9 11,12,13,14,15,16,17,18 Vatandaşlık 19,20,21 19,20,21 19,20,21 Seçmeli sorular 22,23,24,25 22,23,24,25 22,23,24,25 377

KURAM VE UYGULAMADA EĞİTİM BİLİMLERİ Açımlayıcı DIMTEST ve DETECT DETECT değerinin 1 ya da daha büyük olması çok boyutluluğun yüksek olduğunun, 0.4 ile 1 arası olması çok boyutluluğun orta derecede olduğunun ve 0.2 ile 0.4 arasında olması ise tek boyutluluğun göstergesidir. DETECT analizi 1999, 2000 ve 2001 yılları için sosyal bilgiler testinin çok boyutlu olduğunu göstermiştir. DIMTEST testin tek boyutlu olup olmadığını test eden bir istatistiktir ve anlamlı çıkması testin çok boyutlu olduğunu gösterir. DIMTEST sonuçları DE- TECT analizinin sonuçlarını destekleyerek, sosyal bilgiler testinde tek boyutluluk hipotezini 1999, 2000 ve 2001 yılları için reddetmiştir. DETECT ve DIMTEST sonuçları Tablo 3 de verilmiştir. Tablo 3. Açımlayıcı DETECT ve DIMTEST Analizi Sonuçları Yıllar DETECT DIMTEST DETECT IDN indeks T p 1999 0.23 0.68 5.18 0.00 2000 0.29 0.76 5.78 0.00 2001 0.33 0.75 6.89 0.00 Doğrulayıcı DIMTEST ve DETECT Sosyal bilgiler testindeki farklı kapsam alanlarının testin çok boyutlu gizil yapısındaki rolünün açıklanması önemlidir. Bu nedenle sosyal bilgiler testindeki her kapsam alanının testin geri kalanından farklı olup olmadığı doğrulayıcı DIMTEST ile kontrol edilmiştir. DIMTEST iki madde grubunun birbirine yakınlığını tek boyutluluk testi ile ölçmektedir, eğer iki madde grubu tek boyutlu homojen bir madde grubu oluşturuyorsa p değeri yüksek olacak ve tek boyutluluk hipotezi reddedilmeyecektir. Tablo 4 sosyal bilgiler testi üzerinde doğrulayıcı DIMTEST analizinin sonuçlarını vermektedir. DIMTEST analizlerin hepsi için de verilen kapsam alanı ile testteki geri kalan maddelerin tek boyutlu olduğu hipotezini reddetmiştir. Sonuç olarak dört kapsam alanının kendisine ait ayrı bir boyutu sosyal bilgiler testine taşıdığı görülmektedir. Tablo 4. Doğrulayıcı DIMTEST Analizi Sonuçları Madde 1999 2000 2001 kümeleri T p T p T p Tarih diğer maddelere karşı 5.37 6.33 4.59 Coğrafya diğer maddelere karşı 5.50 5.27 7.08 Vatandaşlık diğer maddelere 4.60 3.12 3.01 0.001 karşı Seçmeli diğer maddelere karşı 2.80 0.002 8.87 6.86 Daha sonra doğrulayıcı DETECT analizi ile çok boyutluluğun miktarı araştırılmıştır. Açımlayıcı DETECT analizinin sonuçlarına benzer olarak, doğrulayıcı analizde DETECT indeksleri 0.24 ile 0.30 arasında değişmektedir. Sosyal bilgiler testindeki çok boyutluluğun madde kapsam alanından kaynaklandığını destekleyerek doğrulayıcı DE- TECT analizinden elde edilen işaret matrisleri üç belirgin küme göstermiştir. Doğrulayıcı DETECT analizinin sonuçları Tablo 5 de verilmiştir. Tablo 5. Kapsama Dayalı Kümeler Üzerinde Doğrulayıcı DETECT Analizi Sonuçları DETECT 1999 2000 2001 IDN indeks DETECT IDN indeks DETECT IDN indeks 0.24 0.68 0.25 0.72 0.30 0.74 HCA/CCPROX Analizi HCA analizin ilk aşamalarında başlamak üzere 2000 ve 2001 yılları için üç ana kümenin (vatandaşlık ve din maddelerinin birleşiminden oluşan bir küme, coğrafya maddelerinden oluşan bir küme, tarih maddelerinden oluşan bir küme) varlığını işaret etmiştir. Ayrıca, analiz 2000 ve 2001 yılları için madde istatistikleri bakımından sorunlu iki kümenin varlığını göstermiştir. BILOG sonuçları bu madde kümelerinin anlamlandırılmasında önemli rol oyanmıştır. Sorunlu maddelerden oluşan kümeler ancak analizin son adımında testin geri kalanına katılmıştır. HCA sonuçları 1999 yılı için daha karışıktır. Örneğin, analizin 18. adımında iki büyük küme ve kendi başına kümelenen birçok madde görülmektedir. Kümeler incelendiğinde büyük kümelerden birinin çoğunlukla tarih maddelerinden diğerin ise vatandaşlık ve coğrafya maddelerinden oluştuğu görülmüştür. Analizin sonraki adımlarında büyük kümelerin ve küçük madde kümelerinin çoğunluğunun birleşerek büyük kümeler oluşturduğu görülmektedir. Sadece son adımda üç madde kümesi sosyal bilgiler testinin geri kalanına katılmıştır. Subjektif analizler ve BILOG sonuçları bu kümenin düşük ayırt edicilik gücüne sahip (madde istatistikleri sorunlu) maddelerden oluştuğunu göstermiştir. 1999, 2000 ve 2001 sosyal bilgiler testi için 18. adımdan başlamak üzere kısmi hiyerarşik kümeleme Şekil 1 de görülebilir. 378

ÖZBEK BAŞTUĞ / Sosyal Bilgisi Testinde Çok Boyutluluk Analizi 1999 Hiyerarşik küme düzeyi: 2000 Hiyerarşik küme düzeyi: 2001 Hiyerarşik küme düzeyi: 18 19 20 21 22 23 24 --- --- --- --- --- --- --- 1 1 1 1 1 1 1 9 9 9 9 9 9 9 7 7 7 7 7 7 7 24 24 24 24 24 24 24 25 25 25 25 25 25 25 2 2 2 2 2 2 2 3 3 3 3 3 3 3 10 10 10 10 10 10 10 11 11 11 11 11 11 11 12 12 12 12 12 12 12 *** 20 20 20 20 20 20 20 21 21 21 21 21 21 21 22 22 22 22 22 22 22 17 17 17 17 17 17 17 18 18 18 18 18 18 18 15 15 15 15 15 15 15 *** *** 8 8 8 8 *** 8 8 19 19 19 19 8 19 19 23 23 23 23 19 *** 23 *** 4 4 4 *** 23 *** 4 5 5 5 23 *** 4 5 6 6 6 *** 4 5 6 *** *** 13 4 5 6 *** 13 13 16 5 6 *** 13 16 16 14 6 *** 13 16 *** 14 *** 13 16 *** 14 13 16 *** 14 16 *** 14 *** 14 14 Şekil 1. Hiyerarşik Kümelemeden Kısmı Sonuç 18 19 20 21 22 23 24 --- --- --- --- --- --- --- 24 24 24 24 24 24 24 25 25 25 25 25 25 25 22 22 22 22 22 22 22 23 23 23 23 23 23 23 19 19 19 19 19 19 19 20 20 20 20 20 20 20 *** *** *** *** *** 15 15 15 15 15 15 15 17 17 17 17 17 17 17 18 18 18 18 18 18 18 14 14 14 14 14 14 14 13 13 13 13 13 13 13 16 16 16 16 16 16 16 9 9 *** 9 9 9 9 10 10 9 10 10 10 10 6 6 10 6 6 6 6 8 8 6 *** *** *** 8 11 11 *** 8 8 8 11 4 4 8 11 11 11 4 7 7 11 4 4 4 7 12 12 4 7 7 7 12 1 1 7 12 12 12 1 2 2 12 *** *** 1 2 3 3 *** 1 1 2 3 *** 5 1 2 2 3 *** 5 21 2 3 3 *** 5 21 3 *** *** 5 21 *** 5 5 21 5 *** 21 *** 21 21 18 19 20 21 22 23 24 --- --- --- --- --- --- --- 23 23 23 23 23 23 23 25 25 25 25 25 25 25 22 22 22 22 22 22 22 24 24 24 24 24 24 24 19 19 19 19 19 19 19 21 21 21 21 21 21 21 *** *** *** *** 9 9 9 9 9 9 9 10 10 10 10 10 10 10 7 7 7 7 7 7 7 3 3 3 3 3 3 3 5 5 5 5 5 5 5 4 4 4 4 4 4 4 6 6 6 6 6 6 6 1 1 1 *** *** 1 1 2 2 2 1 1 2 2 *** 11 11 2 2 *** *** 11 12 12 *** *** 11 11 12 13 13 11 11 12 12 13 15 15 12 12 13 13 15 14 14 13 13 15 15 14 16 16 15 15 14 14 16 18 18 *** 14 16 16 18 8 8 14 16 18 18 8 *** 17 16 18 *** 8 *** 17 20 18 *** 8 *** 17 20 *** 8 *** 17 20 8 *** 17 20 *** 17 20 17 20 20 DIMTEST-HCA/CCPROX Açımlayıcı Analizleri HCA/CCPROX un belirlenen madde kümelerinin boyutlarının birbirinden farklı olup olmadığını test edememesi ve DIMTEST in potansiyel olarak farklı kümeleri bulamaması nedeniyle, iki yöntemi birleştirmenin testin altında yatan çok boyutlu yapıyı daha iyi tanımlayacağı düşünülmüştür. 1999, 2000 ve 2001 yılları sosyal bilgiler testi için birleştirilmiş DIMTEST-HCA/CCPROX analiz sonuçları Tablo 6 da verilmiştir. Bu Tabloda verilen AT (Assesment Subtest) maddeleri, açımlayıcı DIMTEST sırasında ATFIND tarafından bulunan orijinal AT maddeleridir. Üç veri grubunda da AT maddeleri ile HCA/ CCPROX tarafından oluşturulan kümeler arasında yakın benzerlik vardır. İkinci ve üçüncü AT madde kümesi HCA/CCPROX tarafından oluşturulan madde kümelerinden alınmıştır. Tablo 6 incelendiğinde 1999, 2000 ve 2001 yılları için farklı boyut sayısının üç olduğu görülmüştür. Kümeler incelendiğinde 1999 yılı hariç her küme sosyal bilgiler testinin kapsam alanı ile uyuşmaktadır. 379

KURAM VE UYGULAMADA EĞİTİM BİLİMLERİ Tablo 6. DIMTEST-HCA Analizlerinin Sonucu AT madde seti 1, 2, 3, 7, 9, 10, 11, 12, 24, 25 15, 17, 18, 20, 21, 22 4, 5, 6, 8, 13, 14, 16, 19, 23 1999 2000 2001 p 0.001 AT madde seti 1, 2, 3, 4, 7, 8, 11, 12 19, 20, 22, 23, 24 6, 9, 10, 13, 14, 15, 16, 17, 18 p Açımlayıcı DETECT Analizi AT madde seti 19, 21, 22, 23, 24, 25 1, 2, 3, 4, 5, 6, 7, 9, 10 8, 11, 12, 13, 14, 15, 16, 18 p Açımlayıcı DETECT analizi sosyal bilgiler testinde sadece üç boyut olduğunu göstermiştir (Tablo 7). Kümeler yakından incelendiğinde, bu üç kümenin üç kapsam alanı (tarih, coğrafya, vatandaşlık ve seçmeli soruların kombinasyonu) ile tam olarak eşleştiği görülmüştür. Din bilgisi sorularına cevap veren öğrenci sayısı bilinmemesine rağmen, DETECT tarafından oluşturulan kümelere bakarak çoğu öğrencinin sosyal bilgiler sorusu yerine din bilgisi sorusuna cevap vermeyi tercih ettiği söylenebilir. Zira seçmeli maddeler tarih ve coğrafya maddeleri ile üç test yılı üzerinde hiçbir şekilde kümelenmemiştir. Her test formunda birkaç maddenin diğer büyük madde kümelerine katılmadığı görülmüştür. Örneğin, 1999 yılındaki sosyal bilgiler testinde madde 4, 5, ve 14 büyük küme grubuna katılmamıştır. Bu maddeler yakından incelendiğinde, ilgili maddelerin sosyal bilgiler alanında hiç bir belirli yetenek gerektirmediği ve sadece okuma becerisi ile cevaplanabileceği iddia edilebilir. Yine 2000 yılındaki test formunda iki tarih maddesi (11, 12) coğrafya maddeleri ile kümelenmiştir ve madde 9 ile 21 kendi kapsam alanları ile kümelenmemiştir. Bu maddeler yakından incelendiğinde madde 11 ve 12 nin aslında coğrafya bilgisi gerektirdiği ve madde 9 ve 21 in okuduğunu anlama gücünü ölçen sorulara çok benzediği görülmüştür. 2001 yılında ise madde 1, 8 ve 20 beklenenin aksine kapsam alanları ile kümelenmemiştir. Bu maddeler yakından incelendiğinde madde 1, 8 ve 20 nin düşük ayırt edicilik indeksine sahip olduğu ve sosyal bilgilerden çok okuduğunu anlama becerisini ölçen maddeler olarak kategorize edilebileceği görülmüştür. Tablo 7. Açımlayıcı DETECT Analizinden Kümeler Kümeler 1999 2000 2001 1 1, 2, 3, 6, 7, 8, 9, 10, 24 2 4, 5 3 4 11, 12, 13, 16, 17, 18 15, 19, 20, 21, 22, 23, 25 5 14 1, 2, 3, 4, 5, 6, 7, 8, 11, 12 9, 19, 20, 22, 23, 24, 25 10, 13, 14, 15, 16, 17, 18 21 1, 11, 12, 13, 14, 15, 16, 17, 18 2, 3, 4, 5, 6, 7, 9, 10 8, 20 19, 21, 22, 23, 24, 25 Şekil 2 sosyal bilgiler testi için açımlayıcı DETECT tarafından üretilen işaret matrisini göstermektedir. İşaret matrisi DETECT programı tarafından üretilen çıktılardan birisi olup, bu matris DETECT tarafından hesaplanan maddeler arası koşullu kovaryansların positif ya da negatif olduğunu gösterir. Tartışma Araştırma sosyal bilgiler alt testinin çok boyutlu olduğunu göstermiştir. Sosyal bilgiler alt testti çok boyutlu olduğu için testteki çok boyutlu gizil yapıyı tanımlamak, her testin altında yatan çok boyutlu yapıya göre ayırmak ve sonunda bu tek boyutlu yapıya göre ayrı olarak puanlamak önemlidir. Bu yaklaşım çok boyutluluğa dayalı pek çok problemi ortadan kaldırabilir ve tek boyutluluğa dayanan metotların kullanımına izin verir. Bu araştırmanın sosyal bilgiler testi için birçok önemli sonucu vardır. Kapsam analizi sosyal bilgiler testinin coğrafya, tarih, vatandaşlık ve seçmeli maddeler olmak üzere dört kapsam alanına sahip olduğunu göstermiştir. Sosyal bilgiler testindeki çok boyutluluğun gerçekten maddelerin ait olduğu farklı alanlardan kaynaklanıp kaynaklanmadığı maddeler kapsam alanlarına göre gruplanıp DIMTEST ve DETECT analizleri kullanılarak test edildiğinde, araştırma kapsam farklılıklarının çok boyutluluğun önemli bir kısmını açıkladığını göstermiştir. Bu bulgu ayrıca HCA/CCPROX analizi ile 2000 ve 2001 yılları için e desteklenmiştir. 1999 sosyal bilgiler testi için sonuç diğer yıllar kadar açık değildir, bununda birkaç zayıf madde (madde ayırt edicilik gücü düşük) yüzünden olduğu düşünülmektedir. Bunun bir diğer nedeni de 1999 sosyal bilgiler testinin yapısının 2000 ve 2001 testlerinin yapısından gerçekten farklı olmasından kaynaklanabilir. Ancak kapsam analizi böyle bir bulgu- 380

ÖZBEK BAŞTUĞ / Sosyal Bilgisi Testinde Çok Boyutluluk Analizi yu işaret etmemiştir. HCA/CCPROX un bulgusu, DIMTEST ve HCA/CCPROX un birlikte kullanılması durumunda da desteklenmiştir. Diğer bulgularla uyumlu olarak, açımlayıcı DETECT analizi madde alanlarındaki farklılıklarının sosyal bilgiler testinde gözlenen çok boyutluluğun nedeni olabileceğini işaret etmiştir. Diğer önemli bir sonuçta NOHARM a yöneliktir. Ne yazık ki altta yatan gizil çok boyutlu yapıyı bulmak için faydalı bir metot olduğu kanıtlanan NOHARM, bu araştırmada güvenilir sonuçlar vermekte başarısız olmuştur. Sosyal bilgiler testinin sadece 25 maddeden oluşması, NOHARM ın yakınsama problemi yaşamasına (converge) neden olmuş olabilir. Gelecekte bu problemin üstesinden gelmek için farklı formlardaki maddeler birleştirilebilir ve analizler bu büyük madde grupları üzerinde tekrarlanabilir. nın farklı formlarda eşit tutulması ve her alt boyutun tanımlanarak ayrı puanlanması bu araştırmanın test merkezi için getirdiği öneriler arasındadır. Eski adı ile OKS yeni adı ile SBS hazırlanırken test merkezi tarafından bir belirtke tablosu kullanılmamakta ve test maddeleri her hangi bir ön denemeye tabi tutulmamaktadır ve bu da test formlarında birçok uyumsuzluğa neden olmaktadır. Bu durum testin geçerliğini tehlikeye düşürmek yanında testti alan bireyler açısından da çeşitli adaletsizlik sorunlarına neden olabilir. Bu nedenle test merkezinin sınavları hazırlarken uzman kanısının dışında belirtke tablosu kullanması ve soruları ancak ön denemeden sonra asıl gruba uygulaması önerilmektedir. Araştırmacılar açısından her testteki madde sayısının sınırlılığı bazı metotların güvenilir sonuçlar vermesini önleyebilir. Bu nedenle farklı formları birleştirip sosyal bilgiler testinin çok boyutlu yapısı yeniden incelenebilir. Bu araştırmanın eski adı ile OKS yeni adı ile SBS nin sosyal bilgiler testinin çok boyutlu yapısını ortaya çıkarmak için sadece öncül bir çalışma olduğunun altının çizilmesi önemlidir. Sosyal bilgiler alt testinin altında yatan gizil yapıyı anlamak için bu konuda derinlemesine çalışmalara ihtiyaç vardır. Sosyal bilgiler alt testinde soru sayısının sadece 25 olması ve coğrafya, tarih, vatandaşlık bilgisi, inkılap tarihi gibi bir birinden farklı alanları kapsaması analizler açısından ve puanlama bakımından sorunlar oluşturmaktadır. Sosyal bilgiler alt testindeki soru sayısının arttırılması, sosyal bilgiler testinin içindeki birincil ve ikincil kapsam alanları için soru sayıları- 1999 Kovaryans İşaret Örüntüleri Matrisi: d+-++-+++-++---+--+-----+ +d+++++++--+------++---++ -+d--++++++++++---+--+--- ++-d+-++-+-+---+-+---+--- ++-+d+++++--------+------ -++-+d+++-+------+-++---- ++++++d+++--+----------++ +++++++d+--++--+----++-++ +++-++++d-------+--+--+-+ --+++-+--d+-+------+----- +-+--+---+d+-------+---+- ++++---+--+d+++++------+- --+---++-+-+d++---+--++++ --+--------++d++++------- --+--------+++d---++-++-- +--+---+---+-+-d+-+---+++ --------+--+-+-+d-+------ ---+-+-------+---d--+---- +++-+-------+-+++-d+---++ -+---+--+++---+---+d++-++ -----+-+---------+-+d+++- --++---+----+-+----++d+-+ --------+---+-++----++d++ -+----++--+++--+--+++-+d+ ++----+++---+--+--++-+++d 2000 Kovaryans İşaret Örüntüleri Matrisi: d+++-+++-----------+----- +d+++-++++-------+------- ++d+++----+-+---+-------- +++d++-+++------------+-- -+++d++--+-------------++ +-+++d++--++-----+----+-- ++--++d+++-------------++ ++-+-++d+++------+++--+-- -+-+--++d+-------+-+++--- -+-++-+++d+------+-++-++- --+--+-+-+d+++-++++-++--- -----+----+d+++++-+++++-+ --+-------++d++++-------+ ----------+++d+++---++-+- -----------+++d++-+-++--- ----------+++++d+-+-+-++- --+-------++++++d+--+--+- -+---+-++++-----+d--++++- -------+--++--++--d-+++++ +------+++-+-------d++++- --------++++-+++++++d++++ --------+-++-++--++++d+-+ ---+-+-+-+-+---+-+++++d+- ----+-+--+---+-++++++-+d+ ----+-+----++-----+-++-+d 2001 Kovaryans İşaret Örüntüleri Matrisi: d++--+--++--------------- +d+++++-+--++--+-+------- ++d++++++---------+------ -++d++++----+++-+----+--- -+++d++++-------+-------- +++++d+-++-+-------+----- -+++++d++-++-+--+-------- --+++-+d-+--------+-+++-- +++-+++-d------+---+----- +----+-+-d+++--++---+-+-+ ------+--+d++-++++--+++-- -+---++--++d+++++--++---- -+-+-----+++d++++---+---- ---+--+----++d+---------- ---+------++++d+++-++---+ -+------+++++-+d+++++++-- ---++-+--++++-++d--+---+- -+--------+---++-d+------ --+----+-------+-+d++---- -----+--+--+--+++-+d+++-+ -------+-++++-++--++d++++ ---+---+--+----+---++d+++ -------+-++----+---+++d++ ----------------+---+++d+ ---------+----+----+++++d Şekil 2. Açımlayıcı DETECT analizinden elde edilen işaret matrisleri 381

Educational Sciences: Theory & Practice - 12(1) Winter 382-385 2012 Educational Consultancy and Research Center www.edam.com.tr/estp Assessment of Dimensionality in Social Science Subtest Özlem Yeşim ÖZBEK BAŞTUĞ a Çankırı Karatekin University Abstract Most of the literature on dimensionsionality focused on either comparison of parametric and nonparametric dimensionality detection procedures or showing the effectiveness of one type of procedure. There is no known study to shown how to do combined parametric and nonparametric dimensionality analysis on real data. The current study is aimed to fill this missing part in the literature by illustrating how to do combined parametric and nonparametric dimensionality analysis. The purpose of this study is to describe dimensionality structure of social science subtest of the Secondary School Institutions Student Selection and Placement Test using combined parametric and nonparametric dimensionality analysis. The data from the social science subtests of the Secondary School Institutions Student Selection and Placement Test of 1999, 2000, and 2001 were used for this study. The study indicated multidimensionality for the social science subtest. Because the results indicated multidimensionality does exist in social science subtest, it would be helpful to describe multidimensionality structure and, finally, score separately by these unidimensional grouping. Key Words Dimensionality, Unidimensionality, Validity, Parametric Methods, Nonparametric Methods, Social Science Subtest. Claiming unidimensionality does not itself ensure the validity of the test, and any assumption of unidimensionality should be checked. Unidimensionality defined as the existence of one latent trait or construct underlying a set of measures (Hattie, 1985; McDonald, 1981). Procedures used to assess the dimensionality are profound and based on various techniques. However, most of the literature focused on either comparison of parametric and nonparametric dimensionality detection procedures (e.g., Finch & Habing, 2003; Mroch & Bolt, 2006) or showing the effectiveness of one type of procedure a Özlem Yeşim ÖZBEK BAŞTUĞ, Ph.D., is currently an Assistant Professor at the Department of Education. Her research interests include validity, dimensionality, differential item functioning. Correspondence: Assistant. Prof. Dr. Özlem Yeşim Özbek Baştuğ, Çankırı Karatekin University Faculty of Literature, Department of Education, 18100 Çankırı / Turkey. E-mail: ozbek@karatekin. edu.tr. Phone: +90 376 2541215/4584. (e.g., Roussos, Stout, & Marden, 1998; Stout, Froelich, & Gao, 2001). Only a few studies have illustrated how to do dimensionality analysis either using parametric or nonparametric methods on real data (e.g., Douglas, Kim, Roussos, Stout, & Zhang, 1999; Jang & Roussos, 2007). Also, no known study has shown to how to do combined parametric and nonparametric dimensionality analysis on real data. Therefore, current study is aimed to fill this missing part in the literature by illustrating how to do combined parametric and nonparametric dimensionality analysis. The second purpose of this study is to describe dimensionality structure of social science subtest of the Secondary School Institutions Student Selection and Placement Test (SSISSPT). Describing the dimensional structure (e.g., verification of unidimensionality or multidimensionality) is important to confirm the construct equivalence of social science subtest across gender and forms. Furthermore, verification of

ÖZBEK BAŞTUĞ / Assessment of Dimensionality in Social Science Subtest unidimensionality is important because many IRT techniques (e.g., BILOG) presume unidimensionality of the data. Use of these IRT procedures can be justified by a statistical analysis to confirm approximate unidimensionality or by statistical argument to claim that the departure from unidimensionality is not serious enough to jeopardize use of specific tools (Stout, 1987). Data Method The data from the social science subtests of the Secondary School Institutions Student Selection and Placement Test of 1999, 2000, and 2001 in Turkey were used for this study. Each year s data contains responses from approximately 350,000 examinees. Two random samples of 4000 examinees were drawn from each data set with equal number of female and male examinees to perform dimensionality analyses. The social science subtest was constructed to measure students general social science knowledge (e.g., remembering the particular knowledge on history, geography), social science conception and notion knowledge (e.g., being able to interpret graphs and maps, providing examples, transforming particular knowledge), application skills (e.g., finding required principles and rules, applying a generalization, reading a map or graph to solve a problem), and social analysis skill (e.g., being able to separate general knowledge to its parts, finding the relationship, principles, rules, deficiencies or harmonies in given general knowledge). An approximate percentage of items in the social science subtest could be given as: 41 %, 27 %, 16 %, and 16 %, respectively, for history and Turkish history items, geography items, citizenship items, and religion and ethic items. Statistical Procedures Descriptive statistic analysis (means, standard deviations, variances, reliability indices, kurtosis, and skewness) and dimensionality analysis were performed on the data. Assessment of test unidimensionality is generally performed at two levels: firstly, the assumption of unidimensionality is checked; if the hypothesis of unidimensionality is rejected, then detailed investigation is performed to describe underlying multidimensional structure. Statistical and nonstatistical dimensionality assessment methods were used. Specifically, combination of several techniques applied in this study included the use of several non-parametric dimensionality assessment tools (DIMTEST, ATFIND, DETECT, HCA/ CCPROX), subjective dimensionality analyses, a nonlinear factor analytic dimensionality analysis tool (NOHARM) and a unidimensional IRT item estimation tool (BILOG). Each step of the study revealed unique and important information relevant to dimensionality investigation. The general approach applied to explore dimensionality structure in social science subtests was as follows: (a) BILOG program was run on each subtest to obtain item statistics and parameter estimates; (b) blind to statistical analysis an extensive content analysis was performed on each social science subtest; (c) exploratory DIMTEST and DETECT analyses were performed on each social science subtest; (d) if the results of exploratory DIMTEST and DETECT indicated unidimensionality for a given subtest, analyses were stopped and no further action was taken on the subtest; (e) however, when the results of exploratory DIMTEST and DETECT indicated multidimensionality for a specific subtest, several follow up analyses were conducted to explore underlying dimensionality structure. Because content analysis indicated multidimensionality could be due to differences in the item content area, follow up analysis began with a confirmatory DIMTEST and DETECT analysis to test whether the content based clustering was the underlying reason for presented multidimensionality. To further investigate the sources of multidimensionality a sequential DIMTEST-HCA/CCPROX analysis was conducted. The results of exploratory DETECT analysis were also useful to understand sources of dimensionality, so the sign matrices and clusters from the exploratory DETECT analysis examined extensively. Semi-exploratory NOHARM analysis was originally planned to be a part of dimensionality analysis for each subtest to clarify the structure if the test indicated an approximate simple structure; however, NOHARM indicated serious estimation problems, presumably due to small item number used in subtests (NI=25). Therefore, NOHARM results were not reported at the subtest level. Finally, hypotheses on the dimensional structure of the SSISSPT were developed based on what had been learned from dimensionality analysis. Results The summary descriptive statistics and reliability estimates present males slightly outperformed females across all three administrations. The reliabil- 383

EDUCATIONAL SCIENCES: THEORY & PRACTICE ity indices for the social science subtest ranged between.74 and.83. All values for variable skewness and kurtosis were within the limits. The item content analysis of the social science subtest yielded four categories of distinct skills in each form: geometry, history, citizenship and selective questions. The social science subtest includes a selective section, which consists of either four religion or social science items (history and geography) based on a student s preferred area. Exploratory DETECT analysis indicated social science subtests for 1999, 2000 and 2001 were multidimensional. Supporting DETECT, exploratory DIMTEST analysis also rejected unidimensionality for the social science section of SSISSPT for all three years with very small p-values. In confirmatory DIMTEST analysis, DIMTEST rejected the hypotheses of unidimensional similarity between each content area and the remainder of the subtest for all 12 runs. Thus, it appears that each content area introduced its own distinct dimension into the social science subtest. Next, the amount of multidimensionality was addressed by confirmatory DETECT. Being very close to results produced by exploratory DETECT, DETECT indexes were between 0.24 and 0.30 for the confirmatory analysis. Supporting the hypothesis that the multidimensionality of social science subtest was associated with the item content area, sign matrices provided by confirmatory DETECT analysis showed three clear clusters. Beginning at the early stages of the analysis, HCA indicated three major clusters: a combined cluster of citizenship and religion items, a cluster of geography items and a cluster of history items for both 2000 and 2001. Analysis also indicated a cluster of two bad items, which finally joined the rest of the test at the last stage of the analysis in 2000 and 2001. The HCA results were more complicated for the 1999 administration. At stage eighteen, there were two big clusters and several individually clustered items. One of the clusters included mostly history items and the other one was formed by citizenship and three geography items. In the later stages of the analysis, the big clusters and most of the individually clustered items joined together to form one big cluster. Only at final stage a three-item cluster, which again could be described as bad items due to their low item test correlation, joined the rest of the social science items. The results of sequential DIMTEST-HCA analysis for social science subtest for the three data sets presents the number of dimensionally distinct clusters was three for all three forms. AT sets were chosen as in the previous subtests. Close investigation of these clusters showed that except 1999 each cluster closely matched to a social science content area. Exploratory DETECT analysis immediately shows there were only three dimensions in social science subtest. A close investigation of these clusters showed three clusters were matched exactly to three content areas: history, geography and combination of citizenship and selective questions. Although the percentage of students who answered the religion questions was not known, by looking at the clusters produced by DETECT one could argue most of the students preferred to answer religion questions rather than social science questions because none of the selective questions clustered with history or geography items across three administrations. There were a few puzzling items in each form. In 1999, items 4, 5 and 14 did not joined to big clusters, however, after close inspection of these items one could argue that these items did not require any specific social science knowledge and could be answered by only reading comprehension. In 2000, two history items (11, 12) clustered with the geography items and items 9 and 21 were not clustered with their own content area. Close inspection of these items showed items 11 and 12 actually required geography knowledge and items 9 and 21 very much resembled reading comprehension questions. In 2001, items 1, 8 and 20 were not clustered with their expected groups. A close investigation of these items revealed items 1, 8 and 20 had very low item-test correlations and again could be categorized as reading comprehension questions rather than social science questions. Discussion The study indicated multidimensionality for the social science subtest. Because the results indicated multidimensionality does exist in social science subtest, it would be helpful to describe multidimensionality structure in subtest, divide each scale according to its underlying dimensionality structure and, finally, score separately by these unidimensional grouping. This approach might prevent several multidimensionality based scoring problems and allow application of unidimensionality-based procedures. There were several important findings for the social science subtest. First, content analysis indicated items in social science subtest came from four major content areas: geometry, history, citizenship and a selective area which either included religion items 384

ÖZBEK BAŞTUĞ / Assessment of Dimensionality in Social Science Subtest or a combination of history, geometry and citizenship items. When item content based clusters were tested using DIMTEST and DETECT to see if in fact difference in item content area was the cause of detected multidimensionality in the social science subtest, findings confirmed that the content difference was an important part of the multidimensional structure. This finding was also supported by the HCA/CCPROX analysis for 2000 and 2001 administrations. The results for 1999 were not as clear as these for subsequent administrations, possibly because of a few bad items with low item test correlations in the 1999 test. However, it is also possible that the test structure of the 1999 administration might be considerably different from that of the 2000 and 2001 administrations; in fact, substantive analysis did indicate some evidence for this. Findings from HCA/CCPROX were also supported by sequential use of DIMTEST and HCA/CCPROX. In line with the previous findings, exploratory DE- TECT analysis indicated item content differences in social science subtest were responsible for observed multidimensionality. Another important finding was related to NOHARM analysis. Unfortunately, the NOHARM procedure which was proven to be a very useful method for finding test structure during dimensionality investigation of the entire test, failed to provide dependable solutions for the subtests. However, subtests had only one-fourth of entire SSISSPT items, and this could be the reason for NOHARM convergence problems. To overcome this problem, maybe items from the different forms could be combined and the analysis repeated on these bigger item sets in the future. Increasing number of items in each subtest is recommended to reliably estimate student ability or achievement in that particular area. The current SSISSPT has only 25 items for each subtest. Also, keeping the same number of items for primary content areas as well as for secondary content areas across different administrations is recommended for SSISSPT. Currently, forms do show several inconsistencies and this could cause several inequity issues across test-takers. Limited numbers of items in each subtest may have prevented some of the procedures from producing reliable results. Therefore, combining the subtests across different administrations, the dimensionality structure of the data can be further explored. It should be underlined that this current study is only a preliminary step in revealing the dimensionality structure of SSIS- SPT and certainly an incomplete one. Thus, more in depth analysis for each subtest is required to fully understand the specific structure of subtests. References/Kaynakça Douglas, J., Kim, H. R., Roussos, L., Stout, W., & Zhang, J. (1999). LSAT Dimensionality analysis for the December 1991, June 1992, and October 1992 Administrations [Law School Admission Council Statistical Report 95-05]. Finch, H., & Habing, B. (2003, April). Comparison of NOHARM and DETECT in item cluster recovery: Counting dimensions and allocating items. Paper presented at the annual meeting of the National Council on Measurement, Chicago. Hattie, J. (1985). Methodology review: Assessing unidimensionality of testes and items. Applied Psychological Measurement, 9, 139-164. Jang, E. E., & Roussos, L. A. (2007). An investigation into the dimensionality of TOEFL using conditional covariance-based non-parametric approach. Journal of Educational Measurement, 44 (1), 1-21. McDonald, R. P. (1981). The dimensionality of test and items. British Journal of Mathematical and Statistical Psychology, 34, 100-117. Mroch, A. A., & Bolt, D. M. (2006). A simulation comparison of parametric and nonparametric dimensionality detection procedures. Applied Measurement in Education, 19 (1), 67-91. Roussos, L. A., Stout, W. F., & Marden, J. L. (1998). Using new proximity measures with hierarchical cluster analysis to detect multidimensionality. Journal of Educational Measurement, 35, 1-30. Stout, W. (1987). A nonparametric approach for assessing latent trait unidimensionality. Psychometrika, 52, 589-617. Stout, W., Froelich, A. G., & Gao, F. (2001). Using resampling methods to produce an improved DIMTEST procedure. In A. Boomsma, M. A. J. van Duijn, & T. A. B. Snijders (Eds.), Essay on item response theory (pp. 357-375). New York: Springer. 385