1. GEÇERLİLİK VE GÜVENİLİRLİLİK

1. GEÇERLİLİK VE GÜVENİLİRLİLİK Bilimsel araştırma sürecinde araştırmacı temelde bir açıklama bir soruya cevap aramaktadır. Bu cevabın doğruluğu, yanlışlığı ya da hatalı ölçümü ile ilgili olarak ise bilimsel araştırma yöntemlerinin geliştirdiği iki kavram ön plana çıkmaktadır; geçerlilik ve güvenilirlilik. 1.1.Geçerlilik Geçerlilik araştırma konusu olan cevabın uygulanan araştırma yöntemi ile cevaplanıp cevaplanamayacağını belirler. Sosyal bilimler araştırma konuları gereği olarak daha çok soyut kavramlar üzerinden araştırma yapmak durumundadırlar. Dolayısıyla bu soyut kavramlara yönelik olarak birtakım göstergeler kullanarak bir ölçüm meydana getirirler işte bu ölçüm ile konu soyut kavramın uyumluluk derecesi bize ilgili çalışmanın geçerliliğini belirtir. Sonuç olarak bir araştırmanın geçerliliği; bir ölçme aracının, ölçmeyi amaçladığı özelliği başka herhangi bir özellik ile karıştırmaksızın ve araştırmanın hizmet etmek istediği amaçtan sapmaksızın doğru olarak ölçme derecesidir. Geçerlilik ile ilgili olarak çeşitli yaklaşımlar bulunmaktadır. Aşağıda kısaca bu yaklaşımlardan bahsedilecektir. 1.1.1. Yüzeysel Geçerlilik Kullanılan ölçme aracının ölçülmek istenen kavramı görünüşte ölçüyor gibi görünmesine yüzeysel geçerlilik denir. (Bachman & Schutt ve Singleton &Straits, akt. Böke,2011,s:87). Dikkat edilirse yüzeysel geçerlilik; bir ölçme aracının hiçbir test ve istatistiki analize tabi tutulmadan araştırılan konu ile ilgili kavram ya da durumu ölçmeye muktedir olduğu peşin hükmünü vermektedir. Sonuç olarak bazı gözlemlenebilir olaylarda yüzeysel geçerlilik, nispi olarak yeterli bir geçerlilik ölçütü olabilir. Örneğin; başka birine tokat atmanın saldırganlık kavramını temsil etmesi gibi. Ancak yüzeysel geçerlilik araştırmacının sübjektif değerlendirmeleriyle doğrudan ilişkilidir. Bu sebeple birçok araştırmacı tarafından bir geçerlilik ölçütü olarak kabul edilmemekle beraber diğer ölçütlere göre de bilimsel yanı en zayıf geçerlilik ölçütü olma özelliği taşır. 1

1.1.2. İçerik (Kapsam) geçerliliği Yöntem olarak yüzeysel geçerlilikten daha titiz bir geçerlilik saptama yöntemi olan içerik geçerliliği; ölçme aracının ölçülmek istenen ifade, kavram, tutum ya da durum ile ilgili olarak ölçmede ne derece başarılı olduğunu tespit etmeyi amaçlar. Ölçme konusu evreni yeterli ve dengeli olarak örnekleyen ve kapsadığı maddelerin her biri ölçmek istediği kazanımı gerçekten ölçen bir test içerik (kapsam) geçerliğine sahiptir. Örneğin ilkokul öğrencilerinin dört işlem becerilerini ölçeceksek sorulardan bir bölümü çıkarma ve bölme işlemlerinden oluşmalıdır. Aksi takdirde bu testin içerik (kapsam) geçerliliği yoktur. Diğer taraftan birçok sosyal bilimler araştırmasında ne yazık ki bu kadar rahat bir şekilde içerik (kapsam) geçerliliğine uygunluğunu tespit etmemiz mümkün olmayacaktır. Birçok sosyal bilim konusu içeriği itibarıyla açıklanması çok boyutlu kavramlarla ve çok çeşitli tanımlarla ifade edilmekte hatta her bir alanın kendine göre ilgili kavram ile ilgili olarak ayrı bir tanımı bulunmaktadır. Örneğin son dönemlerin popüler konusu itibar ile ilgili olarak işletmecilerin, iletişimcilerin, pazarlamacıların, finansmancıların hatta ilahiyatçıların farklı tanımları olduğu gibi bu bilim dallarındaki araştırmacılar itibar kavramının kendisini de çok boyutlu olarak incelemektedir. Dolayısıyla her bir boyutun ve tanımın farklı bir içeriğe sahip olması gerekmesi nedeniyle içerik geçerliliği ölçütünün yetersiz kalacağı araştırmalar olacaktır. Bir diğer geçerlilik ölçütü kriter (ölçüte dayalı) geçerliliktir. 1.1.3. Kriter (Ölçüte Dayalı) Geçerliliği Bir kavramı (genellikle kişisel bir özelliği, davranışı veya performansı temsil eden kavramlar), kendisi ile doğrudan bir ilgisi bulunmayan bir ölçme aracı kullanarak yaklaşık olarak ölçme işlemi kriter geçerliliği olarak tarif edilir, söz konusu kavram da kriter olarak kabul edilir. Nunnaly 1978 den akt.carmines& Zeller,1979 den akt.böke,2011,s:87) Bu geçerlilik için örnek olarak üniversitelerde çalışmak üzere istihdam edilen araştırma görevlisi ve öğretim görevlileri için uygulanan ALES sınavı verilebilir. Bu sınav Türkçe ve matematik sınavlarından oluşmakta ve esas olarak ilgili kişilerin çalışacakları alanlardaki bilgi düzeyi ve akademik başarısını ölçmemektedir. Sınav 2

sistemi kriter olarak belli bir süre içerisinde belli bir sayıda Türkçe ve matematik sorusunu yüksek doğru cevap ortalamasıyla çözebilen zihni çevikliğe sahip adaylar ile akademik başarı arasında yüksek korelasyon öngörmektedir. Sonuç olarak daha önceki iki geçerlilik türünün aksine burada istatistik yöntemler yardımıyla geçerliliğin derecesi tespit edilebilmektedir. Eğer ölçme aracına ait puanlar ile ilgili kriter arasında yüksek korelasyon var ise ölçmede o kadar geçerli demektir. Literatürde iki tür kriter geçerliliğinden bahsedilmektedir. Aşağıda bu iki kriter geçerliliği türüne kısaca değinilecektir. 1.1.3.1. Eş zamanlı Geçerlilik Kriter sonuçları ile ölçme aracı sonuçlarının aynı zaman dilimi içerisinde meydana gelmesidir. 1.1.3.2. Tahmin (Yordama) Geçerliliği Kriter sonuçları ile ölçme aracı sonuçları aynı zaman dilimi içerisinde gerçekleşmediği takdirde araştırmacı mevcut zaman diliminde bir tahminde bulunmaktadır sonuçlar ise gelecekte bir zaman diliminde ortaya çıkacaktır. Yukarıda verilen ALES sınavı örneğinden yola çıkacak olursak ALES sınavından yüksek puan alan adayların ileride başarılı bir akademisyen olup olmayacakları şu an itibariyle bilinmemekte bu sorunun cevabı önümüzdeki bir gelecekte bu adayların mesleki başarısına göre ortaya çıkacaktır. 1.1.4. Yapısal Geçerlilik Genel olarak literatüre bakıldığında yapısal geçerliliği tanımlamak adına kurulan cümleleri de ayrıca örneklendirerek veya modellendirerek açıklama ihtiyacı doğmaktadır. Bu yapısal geçerliliğin karmaşık yapısından kaynaklanmaktadır. Şunu ifade etmekte fayda vardır ki belli bir ölçme aracının var olduğunu söylemek için tek bir çalışma yeterli değildir. Farklı araştırmacıların farklı yöntemler (Yapısal geçerlilik kapsamında sık kullanılan iki yöntem söz konusudur; faktör analizi ve hipotez testidir.) yardımıyla aynı ölçme aracını kullanması neticesinde yıllar süren tecrübe, değişik ortam ve evrenlerde uygulamalar yapılması ile ancak ve ancak yapısal geçerlilik vardır denilebilir. 3

Sonuçta yukarıda bahsedilen konu ile ilgili olarak yapısal geçerliliğin saptanması sonucunda elde edilen bulguların yorumlanmasına dikkat edilmelidir. Çünkü ortaya atılan teori doğru olabileceği gibi çeşitli (çerçevenin hatalı oluşu, kullanılan yöntemin hatalı olması, uygun olmayan istatistiki yöntem kullanımı vb.) nedenlerle yanlış da olabilir zira ortaya atılan teorinin doğruluğuna net olarak karar verebileceğimiz herhangi bir kanıtlanmış yöntem ya da prosedür bulunmamaktadır. Bu durum yapısal geçerliliğin daha çok teori eksenli bir geçerliliği değerlendirme yöntemi olmasını açıklamaktadır. 1.2.Güvenilirlik Güvenilirliği en kısa ifade ile aynı süreçlerin aynı yöntem uygulanarak ve aynı ölçütler kullanılarak aynı ya da benzer sonuçların elde edilmesidir. Unutmamak gerekir ki her ölçmede bir hata payının bulunma riski söz konusudur. Genel olarak iki tür hatadan söz edilir. Biri rastgele hata diğeri ise sistematik hatadır. Sistematik hata araştırmanın geçerliliğini zedelerken rastgele hata ise araştırmanın güvenilirliğini zedelemektedir. Rasgele hata ile güvenilirlik ters orantılıdır yani hata arttıkça güvenilirlik azalmaktadır. Sonuç olarak bir araştırmada ölçümler arasındaki aralık ne kadar dar ise ölçme işlemi o kadar güvenilir kabul edilebilir. Güvenilirliğin tespiti geçerliliğe göre daha somut işlemlere dayanır ve net sayısal verilerle ifade edilebilir. Aşağıda en sık kullanılan güvenilirlik test yöntemlerine kısaca değinilmiştir. 1.2.1. Test - tekrar test metodu Bu yöntemde aynı test aynı örnekleme iki kez uygulanır elde edilen sonuçlar aynı veya birbirine yakınsa test güvenilir kabul edilir. Burada yaygın olarak kullanılan iki katsayı söz konusudur; korelasyon ve alfa skoru. İşte bu iki katsayının kabul edilen ölçütü kimi kaynaklara göre 0,80 kimi kaynaklara göre de 0,70 ise testin güvenilir olduğu kabul edilir. Yöntemin uygulanmasında çeşitli sorunlar olabilir şöyle ki; kısa aralıklarla yapılan testlerde cevaplayıcılar sorulara aşinalık kazanıp ezbere cevap verebilirler, veya kişilerin iki test arasında özel hayatlarında meydana gelen değişimler görüş ve tutumlarını değiştirebilir. 4

Sonuç olarak bu metotta aynı cevaplayıcılar üzerinde aynı testi yapmak testin güvenilirliği açısından bize bilgi vermekle birlikte cevaplayıcı yönlü çeşitli riskleri de ortaya çıkarmaktadır. 1.2.2. Alternatif Form Metodu Cevaplayıcının ezbere dayalı cevap vermesini önlemek adına araştırmacı birbiriyle aynı ölçüm yapacak ilişkili iki form hazırlar. Formların şıklarının değiştirilmesi veya benzer veya eş anlamlı kelimelerin soru formlarını farklılaştırması yolu ile sağlanan formlar arasındaki farklılık cevaplayıcının daha sağlıklı cevaplar vermesini amaçlar. 1.2.3. İkiye ayırma metodu Yukarıdaki iki yöntemden farklı olarak burada tek bir form ve iki grup cevaplayıcı vardır. Dolaysıyla ikiye ayrılan cevaplayıcıların doldurdukları formlar iki ayrı testin sonucuymuş gibi değerlendirilir ve iki grup cevaplayıcının, cevapları arasındaki korelasyon kat sayısının yüksekliğine göre testin güvenilirliği tespit edilir. (korelasyon katsayısının 0,80 ve üzeri olması testin güvenilirliği açısından kabul edilebilir değerdir) 1.2.4. İç tutarlılık metodu Araştırma belli bir kavramı ölçmek için aynı ölçüm düzeyinde birbirinden farklı sorulardan aynı form içerisinde yaralanıyorsa iç tutarlılık metodu uygulanmaktadır. Bu yöntemde araştırmacı testin güvenilirliği açısından cevaplayıcının birbirine benzer sorularda benzer cevaplar vermesini yani cevaplayıcının, cevapları arasında tutarlı olmasını bekler dolayısıyla benzer sorulardan benzer cevapların alınması testin güvenilirliği açısından delil olarak kabul edilir. 1.2.5. Gözlemciler arası güvenilirlik Araştırmanın uygulanmasında denekler değil de gözlemciler ön planda ise araştırmacı aynı kişi, olay veya yeri değerlendirmek üzere farklı gözlemciler ile çalışır ve elde edilen sonuçların birbiri ile uyumu araştırmanın güvenilirlik derecesini verir. Özellikle araştırmanın değişkenlerinin nitel olması veya daha az nicel olması bu yöntemin tercihinde etkili olmaktadır. 5

Özellikle deneklerle birebir görüşme söz konusuysa veya gözlem yapılması gerekiyorsa, birebir görüşmede gözlemcinin hal ve hareketlerinin cevaplayıcının, cevaplarını etkileme riski; gözlem de ise gözlemcinin sübjektif değerlendirmelerinin olması aynı zamanda gözlemci performansının da araştırmanın güvenilirliğini etkilemesi durumunu ortaya çıkartmasından ötürü birden fazla gözlemci kullanılmasını ve araştırmanın güvenilirlik ölçüm yönteminde de gözlemciler arası güvenilirlik yönteminin tercih edilmesini gerektirmektedir. Sonuç olarak burada araştırmanın sonuçlarını elde etmek maksatlı yapılan ölçüm çalışmalarının ne derecede ilgili konuyu temsil ettiğine yönelik olarak uygulanan geçerlilik ve güvenilirlik testlerinin izahına yer verilmiştir. Bu kapsamda ölçmenin geçerlilik derecesinin tespitine yönelik yüzeysel, içerik, kriter ve yapısal geçerlilik testleri ile güvenilirlilik derecesinin tespitine yönelik; test-tekrar testi, alternatif form, ikiye ayırma, iç tutarlılık ve gözlemciler arası güvenilirlik testleri incelenmiştir. Kaynakça Altunışık, R., Çoşkun, R., Yıldırım, E. ve Bayraktaroğlu, S. (2010). Sosyal Bilimlerde Araştırma Yöntemleri. 6.Baskı, Sakarya: Sakarya Kitabevi. Böke, K.(Ed.).(2011). Sosyal Bilimlerde Araştırma Yöntemleri (3.baskı). İstanbul : Alfa Basım Yayım Dağıtım Ltd.Şti. Büyüköztürk Ş., Kılıç Çakmak, E,. Akgün, Ö.E., Karadeniz, Ş., Demirel, F., (2012). Bilimsel Araştırma Yöntemleri. 11.Baskı, Ankara: Pegem Akademi. 6