İnsan Bilgisayar Etkileşiminde İstatistiksel Analizler Research Methods in Human-Computer Interaction, 2nd Edition Harry Hochheiser, Jinjuan Heidi Feng, Jonathan Lazar
İstatistiksel Analizler -I HCI da İstatistiksel Analiz Tanımı: Değişkenler arasındaki ilişkilerin tanımlanması ile kullanılan verilerdeki farklılıkları ve bunların sonuçlarını bulmaya yardımcı olan güçlü bir araçtır. Anlamlılık Testi: Toplanan verilerin niteliği ve çalışmanın tasarımı, kullanılması gereken uygun anlamlılık testini belirler. Parametrik Testler: Eğer veriler normal olarak dağıtılmış ise ve uygun aralıklarda ölçeklenmiş ise, parametrik testler uygundur. Aksi taktirde, parametrik olmayan (nonparametrik) testler seçilir. Farklı istatistiksel yöntemler çoklu gruplardan çıkarılan anlamları karşılaştırır.
İstatistiksel Analizler -II t Testi ve ANOVA testleri Sık kullanılan parametrik testlerin anlamlarını karşılaştırmak üzere farklı tipteki t testleri ve ANOVA testleri ile incelenebilir. Parametrik Olmayan Testler Parametrik olmayan testler ki-kare testleri (Chi-square test), Mann-Whitney U test ve Wilcoxon signed-rank testleri verilebilir. Korelasyon Analizi Korelasyon analizi (Correlation analysis) iki değişken arasındaki anlamlı ilişkilerin tanımlanmasıdır. Regresyon Analizi İki ya da daha fazla değişkenin olması ve niceliksel (quantitative modele gereksinim vardır. Böylece bağlı değişken ile bağımsız değişkenler arasındaki ilişkiyi bulmak üzere regresyon analizi (regression analysis) gerçekleştirilebilir.
Deneysel Araştırmalardaki (Experimental Reasaerch) Testlerden Farklılıklar Deneysel araştırmalar yapılırken gerçekleştirilen istatistiksel testler farklı yöntemlerle toplanmış verilerle ile ilgili çalışmalar idi. Kullanıcı çalışmaları (user studies) için uygun istatistiksel yöntemlerin seçimi ve test sonuçlarının doğru yorumlanması temeldir. Çalışmaya göre haftalar, aylar ya da yıl boyutundaki hazırlıklar ve verilerin toplanmasından sonra, ortaya oldukça yüklü bir veri kümesi çıkar. Bu veri kümesi artık rahatlıkla kullanılabilir. Çalışmaların türüne göre, veri analizi aşaması, veri toplama aşamasına eşit veya daha fazla emek yoğun bir çalışma aşamasıdır. Kullanılacak istatistiksel yöntem türüne göre, örneğin güven eşiği (confidence threshold) ve önemlilik testi (significance test) yapılabilir. Bu testlerin sonuçlarının yorumlanması ile verileri analiz edilirken birçok kritik karar alınabilir. İstatistiksel yöntemin yanlış seçimi veya sonuçların yanlış yorumlanması ile emekle elde edilen verilerin israf edilmesine neden olan hatalı sonuçlara yol açabilir.
İstatistiksel Testler (Bu bölümde incelenecek olan) Çalışmaya bağlı olarak uygun yöntem seçilerek istatistiksel yazılımında uygulanır ve elde edilen sonuçlar yorumlanır. Genel veri analizi işlemleri ve çok kullanılan istatistiksel yöntemler : Bağımsız örneklerin t testi (independent-samples t test), Eşleştirilmiş örneklerin t-testi (paired-samples t test), Tek yönlü varyans analizi (one-way analysis of variance (ANOVA)), Factorial ANOVA, Tekrarlanan ölçümler (repeated measures) ANOVA, Korelasyon (correlation), Regresyon (regression), Ki-kare testi (chi-squared test)
Tek Yönlü ve İki Yönlü VaryansAnalizi IndependentVariable(IV) Tek yönlü veya iki yönlü, Varyans Analizi testin bağımsız değişkenlerinin sayısını ifade eder. Tek yönlü bir bağımsız değişken (2 seviyeli) ve iki yönlü iki bağımsız değişken (birden fazla seviyeye sahip olabilir) vardır. Örneğin, tek yönlü Varyans Analizi bir bağımsız değişken (tahıl gevreği) ve iki yönlü Varyans Analizi ise iki bağımsız değişken (tahıl gevreği, kalori) olabilir.
ANOVA Testi ANOVA testi, anket veya deney sonuçlarının anlamlı olup olmadığını öğrenmenin bir yoludur. Bu da, boş hipotezin reddedilmesi veya alternatif hipotezin kabul edilmesinin gerekip gerekmediğinin çözümüdür. Temel olarak, boş ve alternatif hipotez arasında fark olup olmadığını görmek için farklı test grupları olmalıdır. Örneğin; bir arayüz geliştiricisinin ürününe son halini vermek için karar vermesi gereken iki farklı süreç olsun. Bir sürecin diğerinden daha iyi olup olmadığı bilinmek istenir ve sorunun bir olası cevabı bu test ile elde edilebilir.
ANOVA testinin Excel üzerinden çalışması
SPSS deki ANOVA Tekrarlanan Ölçümler
Verilerin İstatistiksel Analize Hazırlanması Orijinal verilerin toplanması laboratuvar ortamındaki deneylerle, kullanılabilirlik testleri ile (usability tests), alan çalışmaları ile (field studies) veya daha farklı şekillerde sağlanır. Daha sonra bu verilerin istatistiksel analizi yapılır. Bunun için bir önişleme (preprocessing) gerekir. Orijinal veriler toplandığında, elle girilen verilerde hatalar olabilir ya da uygun formatta olmayabilir. Bu hatalar veya tutarsızlıklar filtrelenmez veya düzeltilmezse, tüm veri setinde problem oluşabilir. Veriler içerisinde silinmesi gerekenler varsa,örneğin yaşın 223 olarak girilmiş olması gibi, temizlenir. Otomatik olarak toplanmış verilerin hatalarının ayıklanması için de araştırma gerekir
Verilerin İstatistiksel Analize Hazırlanması Çoklu veri giriş tekniklerini araştıran bir çalışma üzerinde çalışılıyor olsun. Bu çalışmada performansı değerlendiren veriler (örneğin, tıklamaların sayısı ve zaman gibi ) verileri işleyen yazılım (data logging software) tarafından otomatik olarak kaydedilecektir. Katılımcıların kişisel tercihleri ve memnuniyet verileri, çeşitli anketler aracılığıyla elle toplanabilir. Böylece aynı katılımcıyla ilgili tüm verilerin doğru bir şekilde gruplandırıldığından emin olunmalıdır. Bir katılımcının performans verileri başka bir katılımcının kişisel verileriyle gruplandırılmışsa sonuç geçersiz olacaktır.
Verilerin Kodlanması Demografik bir Verinin Orijinal Formu Örneği (Sample Demographic Data in Its Original Form) Kodlanmış Formdaki Örnek Demografik Veri ( Sample Demographic Data in Coded Form)
t-testleri İki yöntemi karşılaştırmak için kabul edilen istatistiksel prosedür testidir. Gerçekleştirilecek çalışmanın özel tasarımına göre farklı türlerde t testi uygulanmalıdır. Karşılaştırılan iki grubun birbiri ile ilişkisi yoksa, bağımsız örnek (independent sample) t testi kullanılabilir. İki ortalamaya (mean) aynı grup tarafından katkıda bulunma söz konusu ise, eşleştirilmiş örneklem t testi (paired samples t) düşünülebilir. t
t-testi Örneği Bazı kelimelerin (bir kelime grubunun) anlamlarının tahmini için geliştirilmiş bir yazılımının kullanımının yazma hızını etkileyip etkilemediği araştırılsın. Testin ho hipotezi şöyle ifade edilecektir: Kelime tahmini yazılımını kullananlar ile yazılımı kullanmayanlar arasında görev tamamlanma süresinde önemli bir fark yoktur.
Bağımsız Örneklem t-testi İki katılımcı grubunun alındığı hipotez test edilsin. Gruplardan biri sadece standart bir kelime işlem yazılımı kullanırken, diğer grup, kelime öngörme fonksiyonlarını kullanan kelime işlem yazılımını kullansın. Eğer rastgele örnekleme metodu kullanılıyorsa, iki grup birbirinden bağımsızdır. Bu durumda, bağımsız örneklem t- testi veri analizi için uygundur.
Tanımlayıcı İstatistikler (Descriptive Statistics) Örneğin, veri noktalarının ait olduğu aralık inmek istenebilir ya da veri noktalarının nasıl dağıldığını bilinmmek istenebilir En yaygın kullanılan tanımlayıcı ölçümler: ortalama, medyan, mod, varyans, standart sapma aralık.. içerir.
MerkeziEğilim Ölçümleri Measures of Central Tendency Ortalama (mean) veri setinin aritmetik ortalamasıdır. Bir çalışmadaki çoklu gruplar ortalamalarını karşılaştırıyor olsun. Bir grubun ortalaması diğer grubun ortalamasından büyük ise, t testi gibi önem testleri yapılabilir. Böylece farkın istatistiksel olarak anlamlı olup olmadığı araştırılır. Medyan (median) is bir veri setindeki orta değerdir (middle score) Aşağıdaki veri setleri verilmiş olsun. ortalaması 30.4, medyan 29.
MerkeziEğilim Ölçümleri Measures of Central Tendency Mod, bir veri setinde en yüksek frekansla oluşan değerdir. Yedi katılımcıdan her hafta İnternette geçirdikleri saat sayısı hakkında aşağıdaki veriler toplanmış olsun. Veri setinin modu 22
Yayılma Ölçüleri Measuresof Spread Diğer bir önemli tanımlayıcı ölçümler grubu, veri noktalarının veri kümesinin merkezinden ne kadar sapma gösterdiğidir. Kısaca, veri setinin ne kadar yayıldığını bilinmek istenir. Bu gruptaki ölçümler aralık, varyans ve standart sapmaları içerir.
Normal Dağılım Bir veri setinin dağılımını tanımlamak için normal dağılım yaygın olarak kullanılan bir yöntemdir. Normal dağılım ortalama ve standart sapma ile tanımlanabilen özel bir çan şeklindeki dağılımdır Bir popülasyonun (örneklemin) yoğunluğu, öğrenci notları ve çeşitli performans ölçütleri gib farklı çalışma alanlarındaki birçok özellik normal olarak dağıtılabildiği için, normal dağılım şekli veri analizi için çok önemlidir ve faydalıdır.
Dağılım Ölçütleri Measuresof Spread Aralık (range), veri kümesindeki en yüksek ve en düşük puanlar arasındaki mesafeyi ölçer. Yazma hızı veri setinde, aralık (range) 50-15 = 35'tir. Aralık ne kadar büyükse, veri seti o kadar fazla dağıtılır. Bir veri setinin varyansı, örneklem için veri setinin, mümkün bütün değerlerin ortalamadan (beklenen değer) uzaklıklarının karelerinin ortalaması şeklinde bulunan bir ölçüdür. Varyansın kareköküne standart sapma denir. Aralık için değerlendirildiği gibi, daha yüksek varyanslar veya standart sapmalar veri setinin daha iyi dağıldığını gösterir.
Ortalamaların Karşılaştırılması Birden fazla koşulu olan veya fazla sayıda grup içeren kullanıcı çalışmalarında, araştırmacının amacı, koşullar veya gruplar arasında bir fark olup olmadığını bulmaktır. İki arama motorunun etkinliğinin değerlendirildiği ve bu etkinlikte gruplar arası (between group design) bir tasarım gerçekleştirildiğinde, iki katılımcı grubu üzerinde çalışıldığı kabul edilsin. Her grubun bir dizi arama gerçekleştirmek üzere, iki arama motorundan birini kullanması istenir. Grup içi bir tasarım (with-in group design) seçilirse, bir katılımcı grubu için her katılımcının her iki arama motorunu kullanarak bir dizi arama işlevi gerçekleştirilir. Her iki durumda da, iki arama motoru arasında bir fark olup olmadığını bulmak için iki grubun performans koşulları karşılaştırılır.
Between-group design Katılımcıların üç gurubu da deneylerde yer alır ve her grup Within-group design Her katılımcı çoklu deneysel koşula maruz kalır. Katılımcıların sadece bir grubu tüm deneyler mevcuttur.
Ortalamaları ve bunların farklı uygulamalarını karşılaştırmak için çok kullanılan Önem testleri (Significance Tests