BİLGİSAYAR DESTEKLİ İSTATİSTİK İstatistik, hayatın karışık olaylarını ve sorunlarını çözümlemeye çalışan bir bilim dalıdır. Son yıllara kadar oldukça karmaşık matematik işlemler bütünüymüş gibi görünen istatistik, bilgisayarların gelişmesi ve gündelik yaşama girmesiyle birlikte daha sempatik ve kullanışlı hale gelmiştir. Ancak bilgisayarlar tüm istatistik analizleri kolayca yapabilmelerine rağmen hangi analizlerin hangi durumlar için daha uygun olduğu konusunda bir şey bilmezler. Şunu söylemek hiç hatalı olmayacaktır: Bilgisayar ve istatistik paket programları bize ancak yardımcı olabilirler, bizim yerimize karar veremezler. SPSS istatistik yöntemler açısından oldukça zengin bir paket programdır. Temel istatistik yöntemlerden başlayarak oldukça karmaşık ve zor işlemleri kısa sürede yapmaya izin verir. SPSS bilgisayar programı (İngilizce açılmıyla: Statistical Package for the Social Sciences), ilk sürümü 1968 yılında piyasaya verilmiş istatistiksel analize yönelik bir bilgisayar programıdır. Günümüzde en son versiyon 20 olan sürümü kullanımdadır ve adı PASW olarak değiştirilmiştir. Özellikle Sosyal Bilimlerde, pazar araştırmalarında, sağlık araştırmalarında başta anket şirketleri, hükümetler ve eğitim kurumları olmak üzere pek çok kurum tarafından kullanılan bir istatistik yazılımıdır. Kullanımı grafiksel bir kullanıcı arayüzüne bağlı olup, açılır menüler yardımıyla kolaylaştırılmıştır. Ayrıca makro dilleri yardımıyla kullanıcı kendi amaçları doğrultusunda programı yönlendirebilmektedir. Bu uygulamalı dersin amacı, örnek bir araştırmanın verilerini kullanarak SPSS in temel istatistik modülünü kullanıp yorumlamayı öğretmektir. Şimdi yavaş yavaş programı tanımaya başlayacak ve alıştırmalarla uygulamalar yapacaksınız. SPSS'te PENCERELER 1. Veri İşlem Penceresi (SPSS Data Editor): Arşivlenmiş verileri içerir ve değiştirmeye olanak sağlar. Bu pencere bir Excel görünümü biçimindedir. Veriler hücrelere işlenir ve saklanır, gerektiğinde üzerinde değişiklik yapılabilir. Buradaki dosyalar.sav ekiyle saklanır. Oluşturulan verilerin tümü bu alanda hücrelere işlenerek saklanmaktadır. Her bir sütun bir değişkeni (bir soruyu ya da sorunun bir bileşenini) içerir. Her bir satır ise araştırma verisi toplanan kişiyi ya da kişinin verdiği yanıtları içerir. Diğer bir deyiş ile satırlar her bir anketi, sütunlar ise ankette yer alan soruları anlatıyor da denilebilir. Aşağıda data editör penceresi görülmektedir. 1
Şekil 1. Data view penceresi görünümü [SATIR] Değişkenlere verilen yanıtlar (her bir anketin girildiği satırlar) [SÜTUN] Değişken (anketteki sorular) adları Data görünüm ve işleme penceresi Değişken görünüm ve oluşturma penceresi 2. Değişken Penceresi (Variable View): Değişkenleri (anket sorularını) oluşturmak ve tanımlamak için variable view penceresine geçiş için sol attaki sekme tıklanır. Görünüm aşağıdaki gibidir. Şekil 2. Variable view penceresi görünümü [SÜTUN] Değişken özellikleri (adı, türü, etiketi, aldığı ölçüm biçimi vb.) sütunlardaki sordulara göre oluşturulur. [SATIR] Değişkenler her bir satırda, sütunda görülen özelliklerine göre tanımlanır Satırlarda değişkenler listelenmiştir. Değişkenin özelliklerini tanımlanır. Name (Değişkenin Adı): Değişkene içeriği ile uyumlu olarak kısa bir ad verilir. Type (Değişkenin türü): Numeric (sayısal), string(harf), tarih vb. olabilir. 2
Width (değişkenin genişliği): Değişkenin kaç haneli olduğunu gösterir. (ekranda görünecek karakter sayısını ifade eder) Decimals: Değişkenin virgülden sonra kaç basamak olarak görüneceğidir. Label (Değişkenin Etiketi): Değişkenin adı uzun ve açık olarak bu bölüme yazılabilir. Name bölümünde kısa ve öz olarak tanımlanan ilgili değişken (anket sorusu) bu bölümde ayrıntılı olarak tanımlanabilecektir. Values (Değerlerin etiketi): Değişkenin kodlarının ne anlama geldiği yazılır. (örneğin 1 kodu=erkek, 2 kodu=kadın için atanmış ise analiz çıktılarında ve data işlerken bu rakamların karşılığı görülecektir.) Missing (Kayıp Değerler): O değişken özelinde işlemler sırasında değerlendirmelere girmesini istemediğimiz değerler kayıp veri olarak tanımlanır. Genellikle bu alan boş bırakıldığında girilmeyen her bir değer kayıp veri olarak değerlendirilir. Bazen bu alana özel kodlarda yazılabilir (örneğin: 999 kodu ya da -999 kodu girildiğinde bu datanın kayıp olduğu, bilinmediği anlamına geldiğini ifade etmek için kullanılabilir.) Measure (Ölçümler): Değişkenin tipini belirtir. Scale: Ölçüm/sürekli, Ordinal:Sıralı Nominal: Sınflı/kategorik Verilerin Kodlanması değişkenin sınıflarına harf veya rakamlardan oluşan kodlar vermektir. Amacı değişkenlerin sunumunu kolaylaştırmaktır. Böylece örneğin cinsiyet değişkeni erkek-kadın yerine harflerle; E/K veya rakamlarla 0/1 olarak kodlanabilir. Bilgisayarda veri girişi sırasında daha çok rakamların kullanımı önerilmektedir. 3. Sonuçlar Penceresi (Spss Viewer): Yapılan işlemlerin, istatistik analizlerin sonuçlarını içerir. Buradaki dosyalar SPO ekiyle saklanır. Bu bölüm Word kelime işlemcisi ekranına benzer. Yapılan istatistiksel analizlerin raporlandığı alan olarak da tanımlanabilir. Tüm analizlerin çıktısı bu alanda görülebilir. Tablolar, grafikler, işlem komutları vb. raporlamaların oluşturulduğu alandır. Örnek bir raporlama sayfası aşağıda görülmektedir. 3
Şekil 3. SPSS viewer (raporlama) penceresi 4.Yazılı Komut Penceresi (SPSS Syntax Editor): SPSSin fonksiyonlarını syntax dili ile yazarak yapmayı sağlar. Buradaki dosyalar SPS eki ile saklanır. Buradaki amaç birden fazla yapılması gereken işlem, hesaplama, raporlama, tekrar raporlama gibi işlerin önceden belirlenmiş ve yazılmış kodlar (emirler) aracılığıyla SPSS programına yaptırmaktır. Böylece tekrarlayan işler, karmaşık işlem ve çözümlemeler tek seferde programa yaptırılabilir. Örnek bir syntax dosyası aşağıda görülmekdir. Şekil 4. Örnek bir syntax (komut dosyası) görünümü 4
SPSS IN TEMEL KOMUTLARI SPSS programına girildiğinde Şekil1 deki gibi bir pencere açılır. Bu penceredeki menu çubuğu üzerinde aşağıdaki komutlar yerleştirilmiştir. FILE: Dosyanın açılması, kapatılması, saklanması, çıktı alınması ve SPSS ten çıkış işlemleri yapılabilir EDIT: Dosyanın üzerinde bazı değişikliklerin yapılmasını, kopyalama, özel aranan bir bilginin dosya içinde bulunmasını sağlar Go to Case: Verisi bilinmeyen ancak bilgisayardaki sıra numarası bilinen olgular bu yolla bulunabilir. Go to case (Olgunun numarası yazılır ) DATA: Dosyaya yeni değişkenler eklenmesi, iki dosyanın birleştirilmesi, dosyanın bölünmesi, belli özelliklere sahip olguların seçilmesi, olguların belli değişkenlere göre sıralanması gibi çok gerekli ve zor işleri kolayca yapar. Sort Cases: Olgular belli özelliklerine (değişkene) göre sıraya dizilebilir. Sort cases By yaş (Tüm olguları yaşa göre dizer) Select Cases: Belli özellikleri olan olguları seçerek yapılan işlemi sadece bu gruba sınırlayabilir. Split File: Olguların seçilen bir değişkene göre gruplandırılarak analiz edilmesini sağlar. TRANSFORM: Bir ya da birkaç değişkene belli işlemler uygulayarak yeni bir değişken yaratır. Compute (Hesapla): Var olan değişkenler üzerinden bir aritmetik işlemle yeni bir değişken yaratma olanağı verir. Compute komutunun içinde bazı aritmetik fonksiyonlar, istatistik işlemler ve mantık işlemleri vardır. Recode (Yeniden Kodla) : Varolan değişkeni başka bir şekilde gruplayarak kodlamaya yarar. (Çok sık kullanılan bir işlemdir!!!.). Bu yolla sürekli değişken kategorize edilerek kesikli değişkene dönüştürülebilir. Burada dikkat edilmesi gereken şey yeniden kodlama işleminin hep yeni bir değişken yaratılarak, onun üzerine yapılmasıdır. Çünkü orijinal değişken ilerde başka şekillerde de kodlanmak istenebilir. 5
UYGULAMA I. SPSS'e giriniz. Açılan pencerede çalışmaya başlamadan önce dosyanıza bir isim vererek kaydediniz. Daha sonra yaptığınız her işlemde ara ara kaydetmeniz olası bir sorunda dosyanızı kaybetmenizi önleyecektir. FILE SAVE (Aktif dosyanın içeriğini saklamaya yarar) SAVE AS (Aktif dosyayı değişik adla başka bir kütüğe veya diskete saklamaya yarar) Dikkat! Saklamak istediğiniz dosyaya dosya eki vermeyiniz, çünkü program dosyanın tipine göre uygun eki seçecektir. File Save as Dosya adı.. Oluşturulan bu dosyaya elde edilen veriler girilir. Ancak önce değişkenler tanımlanmalıdır. Değişken tanımlamak için aşağıdaki basamaklar izlenir. VARIABLE VIEW Define Variables Name: Type: Labels: Variable Label Value Labels Missing Value: UTILITIES: Yaratılan değişkenin özelliklerini görmeye yarar. Variables: Hakkında bilgi alınmak istenen değişkenleri seçmeye yarar. Seçilen değişkenin yukarıda tanımlanan özellikleri böylelikle kısa yoldan görülebilir. EDIT Edit menüsü altından seçilen Find komutu ile bir değişkenin belli bir değerinin olduğu göze gitmek olasıdır. Önce cursor ı değişkenin olduğu kolon üzerine getiriniz. Daha sonra VERİ GİRİŞİ SPSS programı açıldığında görülen pencerede satırlarda kişiler sütunlarda ise kişilere ait bilgilere karşılık gelen değişkenler vardır. Kişi ile değişkenin kesiştiği küçük kareciğin üzerine tıklanıp uygun kod yazılır ve arkasından cursor la bir yandaki göze geçilirse veri girilmiş olur. ALIŞTIRMALAR I Üniversite öğrencilerinin sağlık durumlarını ve alışkanlıklarını incelemek amacıyla 1992 yılında 67 öğrenci üzerinde bir araştırma yapılmıştır. Araştırmada öğrencilerin fizik muayenelerinin yanı sıra bir anket uygulayarak bazı alışkanlıkları ve yaşam koşulları hakkında da bilgi toplanmıştır. : İkinci ve daha kısa bir yol ise sütunlarda soluk olarak yazılmış var ların üzerine iki kere tıklamaktır. Bu durumda da veri tanımlama penceresi açılır. Edit Find Find what (bulmayı istediğiniz değeri yazınız). 6
Anket Formu Okul No:.. Cinsiyet: ( )Erkek ( )Kadın Sigara İçme Durumu: 0) Hiç içmemiş 1) Geçmişte içmiş 2) Şu anda içiyor Günde içilen sigara sayısı: Ağırlık:..kg Boy:..m Kan Hemoglobin.. düzeyi Yukarıdaki anket formlarından elde edilen ilk 20 kişiye ait veriler aşağıdaki tabloda sunulmuştur. Veri girişini yapınız. NO CINS YAS SIGARA SIGARSAY KILO BOY HB 412 K 18 2 5 64,7 1,65 13,4 124 E 19 0, 56,0 1,66 14,1 231 E 18 2 15 85,7 1,85 14,4 451 E 22 2 20 69,5 1,75 15,2 894 K 24 2 20 49,2 1,64 12,3 145 K 39 2 25 55,5 1,66 10,9 741 E 22 0, 58,6 1,72 11,2 254 E 17 1, 78,2 1,77 14,2 268 K 19 2 10 65,4 1,60 13,2 532 K 21 2 10 65,0 1,59 10,3 548 K 20 0, 66,0 1,62 11,5 712 K 23 1, 54,3 1,72 14,2 357 E 18 0, 75,0 1,82 13,6 321 E 19 2 3 77,5 1,83 15,5 389 E 20 2 15 82,4 1,84 14,1 659 K 23 0, 61,3 1,76 10,3 695 E 24 0, 69,8 1,78 11,2 641 K 18 2 5 48,6 1,58 13,6 258 E 23 0, 76,9 1,80 9,8 247 K 18 1, 50,3 1,52 10,6 Şimdi yukarıdaki verilere göre dosyada gerekli değişkenleri yaratınız. Değişken ve değerlerin etiketlerini anket formundan yararlanarak verebilirsiniz. Daha sonra listedeki verileri uygun şekilde giriniz. 1) Hemoglobin değeri 13.6 olan kişinin cinsiyeti nedir? 2) Okul numarası 894 olan kişinin sigara alışkanlığı nasıldır? UYGULAMA II VERİLERİN KONTROLÜ VE TEMİZLENMESİ Veri girişi sırasında ne kadar dikkatli olunursa olunsun bir takım hatalar olabilir. Bu nedenle analize başlamadan önce verilerin hatalar (artefaktlar) açısından gözden geçirilmesi, hataların düzeltilmesi gerekmektedir. Küçük veri setleriyle çalışıldığında 7
belki sadece bakmak yeterli olabilir ancak büyük veri setleriyle çalışıldığında bütün verilerin yeniden birer birer kontrolü mümkün olmayabilir. Bu nedenle verilerin kalitesini değerlendirmek için sistematik olarak yapılması gereken bir dizi işlem vardır. Değişkenin frekansını almak veya tanımlayıcı istatistiklerini hesaplatmak bunlardan bazılarıdır. Sınıflanmış, kesikli bir değişkenin frekansını almakla veri girişi sırasında veri listesinde olmayan bir verinin girilip girilmediği denetlenebilir. Örneğin; Cinsiyet için yalnızca K veya E kodları girilebilecekken yanlışlıkla B kodunun girilmiş olması bu yolla saptanabilir. Analyze Descriptive statistics Frequencies OK (Değişkeni seçiniz) Sürekli değişkenler için ise verinin en küçük (min) ve en büyük (max) değerleri, ortalaması (mean) ve standart sapması (standard deviation) incelenebilir. Analyze Descriptive statistics Descriptives (Değişkeni seçiniz) Option (Mean, standard deviation, min, max) OK 8
Bir başka yol ise birbiriyle ilişkili olabilecek iki değişkeni kullanarak verilerin doğruluğunu denetlemektir. Örneğin bir kişi sigara içmiyorsa günde içilen sigara sayısı değişkeninin boş olması gerekir. Burada önce sigara içmeyenler seçilip günde içilen sigara sayısı değişkeni listelenebilir. Data Select cases If condition is satisfied If(Bir değişken seçilir: Örneğin sigara=1 ) Continue OK 9
Bu durumda sigara içmeyenler seçilmiş olacaktır. Şimdi bu kişileri okulno ve sigara sayısı değişkeni açısından listelersek sigara içmediği halde yanlışlıkla sigara sayısı girilenleri yakalayabiliriz. Analyze Reports Case Summaries (değişkenlerin seçilmesi: Okulno, Sigara sayısı) OK 10
TRANSFORM Verilerinizi bilgisayar ortamına girdikten sonra onları amacınıza göre değişik şekillerde yeniden kodlayabilirsiniz. Bu iş için sıklıkla kullanılan iki komut Compute ve Recode komutlarıdır. Compute (Hesapla) komutuyla bir kaç değişkeni bir arada kullanarak matematik işlem yapılabilir. Örneğin kişilerin metre cinsinden olan boyu 100 ile çarpılıp cm cinsine dönüştürülebilir veya iki değişken birlikte kullanılarak yeni bir değişken yaratılabilir. Transform Compute Target variable: (Yeni bir değişken adı veriniz) Numeric expression (Değişkeni veya değişkenleri seçiniz ve matematik işlemi sağdaki kutucuğa yazınız) OK Compute işleminin yapılıp yapılmadığını anlamak için yeni hesaplanan değişkenin tanımlayıcı istatistiklerini (ortalama, min-max değerler veya frekansını) alınız. 11
Recode komutuyla bir değişkeni farklı şekillerde gruplayarak yeni değişkenler yaratmak olasıdır. Örneğin günde içilen sigara sayısı değişkeni sigara sayısına göre (0-5 arası) az, (6-15 arası) orta, (16 ve üzeri) yüksek sigara kullanımı olarak kodlanabilir. Transform Recode In to different variables Input variable (yeniden kodlanacak olan değişken) Output variable name (yeni değişkenin adı) Old and new values Old value Range 0 through 5 New value =1 Add Old value Range 6 through 15 New value=2 Add Old value Range 16 through highest New value: 3 Add Change OK Varolan bir değişkenin yeniden kodlanması ile elde edilen değişkenin frekansını alınız. ALIŞTIRMALAR II (spssuyg1.sav dosyasını açınız). Elimizdeki anketlerdeki verileri girerek oluşturduğumuz veri tabanında gözümüzden kaçan bazı hatalar da yapmış olabiliriz. Şimdi verilerinizi denetleyerek hataları bulmaya çalışınız. 1. Kaç tane hatalı girilmiş veri buldunuz? Nerelerde? 2. Hatalı girilen verileri düzeltiniz. 3. Dosyanızdaki cinsiyet değişkenini erkekler 1 kadınlar 2 olacak şekilde yeniden kodlayınız. 4. Ağırlık ve boyu kullanarak beden kütle indeksi olan BMI yi hesaplayınız. BMI nin formülü Ağırlık (kg) / Boy (m) 2 dir. Okul numarası 695 olan kişinin BMI i kaçtır? 5. Araştırma grubundaki kişileri sigara değişkeni açısından hiç içmemişler ve içmiş bırakmış veya şu anda içenler birlikte olmak üzere yeniden gruplayınız. 6. Hemoglobin değeri açısından 11 mg/dl altında olanlar anemik kabul edilmektedir. Buna göre hemoglobin-1 (birinci ölçüm) değişkenini anemik ve normal kişilere 12
karşılık gelecek şekilde yeniden sınıflayınız. Okul numarası 146 olan öğrencinin hemoglobin düzeyi nedir ve bu haliyle hangi gruba girmektedir? UYGULAMA III Çapraz tablo yapmak verilerin sınıflanmış değişkenlerin değerlendirilmesi sırasında çok kullanılan bir yöntemdir. Çapraz tablo yapmak için ise, Analyze Descriptive statistics Crosstabs (Satıra (Row) bağımsız değişkeni, kolona (column) bağımlı değişkeni seçiniz) Cells Observed Percentages (row u işaretleyiniz böylece tabloda satır yüzdelerini göreceksiniz) OK Ki-kare Testi (Chi-Square Test) Statistics- Summarize- Crosstabs komutu, sınıflanmış (kategorik) iki değişkenin birlikte dağılımını gösteren çapraz tablolar yapmaya olanak tanır. Bu tablolardaki dağılımları da Ki-kare testiyle analiz edebiliriz. Dört gözlü tablolarda Ki-kare testi basit ve kullanışlı bir testtir. Bu testi yapabilmek için yukarıdaki çapraz tablo işlemlerine ek olarak sadece statistics penceresine girip chi square işaretlenmelidir. Analyze Descriptive statistics Crosstabs (Satıra (Row) bağımsız değişkeni (cins), kolona (column) bağımlı değişkeni (sigagr) seçiniz) Cells Observed Percentages (row u işaretleyiniz böylece tabloda satır yüzdelerini göreceksiniz) Statistics (Bu pencereden chi square işaretlenir) OK Bu işlemler yapıldığında önce tablo, sonra testin sonucu çıktı (output) penceresinde görülür. 13
CINS * SIGAGR Crosstabulation SIGAGR Total,00 1,00 CINS E Count 14 17 31 % within CINS 45,2% 54,8% 100,0% K Count 17 19 36 % within CINS 47,2% 52,8% 100,0% Total Count 31 36 67 % within CINS 46,3% 53,7% 100,0% Yukarıdaki tablo çapraz tablo örneğidir. Erkeklerin %54.8 inin kadınlarınsa %52.8 inin sigara içmiş veya içmekte olduğunu göstermektedir. Bu tabloya ait Ki-kare testinin sonuçları aşağıdaki tabloda görülmektedir. Tabloda Ki-kare testinin değişik koşullar için uygun olan şekilleri hesaplanmıştır. Şu anda sizin için dikkate alınması yeterli olan Ki kare testi Pearson Chi-Square dir. Burada value Ki-kare değerini, df serbestlik derecesini, Asymp. Sig. (2-sided) ise p değerini göstermektedir. P değeri 0,86 ya eşit olduğundan, bu sonuç, erkeklerle kadınlar arasında sigara içmiş veya içmekte olma durumu açısından istatistiksel olarak anlamlı fark yoktur şeklinde yorumlanır. Tabloda Continuity Correction satırındaki değer Yates düzeltmesi uygulanmış kikare değeridir. Eğer dört gözlü bir tabloda gözlerden birinde 5 ten küçük beklenen değer varsa Fisher in kesin testi uygulanmalıdır. Tabloda 5 ten küçük değer olup olmadığı tablonun altında b açıklamasıyla belirtilmiştir. Chi-Square Tests Pearson Chi- Square Continuity Correction Value df Asymp. Sig. (2-sided),028 1,866,000 1 1,000 Exact Sig. (2-sided) Exact Sig. (1-sided) Likelihood Ratio,028 1,866 Fisher's Exact 1,000,531 Test N of Valid Cases 67 a Computed only for a 2x2 table b 0 cells (,0%) have expected count less than 5. The minimum expected count is 14,34. 14
ALIŞTIRMALAR III Spssuyg1.sav dosyasını açınız. 1. Şimdi cinsiyete göre anemi dağılımını (hemoglobin 1 ölçümüne göre anemik olanlar) gösteren bir çapraz tablo hazırlayınız. Erkeklerin ve kadınların yüzde ne kadarı anemiktir?.. Toplam... Toplam 2. Erkeklerle kadınlar arasında anemi varlığı açısından istatistiksel olarak anlamlı fark var mıdır? Tek cümle şeklinde belirtiniz (P değeri ile birlikte) 15