TURGUT ÖZAL ÜNİVERSİTESİ İSTATİSTİK II DERSİ STATA UYGULAMALARI Dr. Ufuk DOĞUÇ 2014 1
1. STATA NEDİR? Stata 1985 yılında StataCorp tarafından üretilen genel amaçlı bir istatistik programıdır. Dünyada bir çok ticari ve akademik kuruluş tarafından kullanılmaktadır. Özellikle ekonomi, sosyoloji, siyasi bilimlerde çalışan araştırmacılar kullanmaktadır. Stata aşağıdaki alanları kapsamaktadır: Veri yönetimi İstatistik analiz Grafik Benzetim 2. STATA HANGİ İŞLETİM SİSTEMLERİNDE ÇALIŞIR? Stata Windows (32 bit veya 64 bit), Mac OS X veya UNIX işletim sistemlerinde çalışır. 3. STATA PROGRAMININ BİLGİSAYARA KURULMASI Stata12_Windows dizindeki Setup programını çalıştırınız. Bilgisayarınızın özelliğine göre 32 veya 64 bit seçip hangi versionu kuracağınızı işaretlemenizi isteyecektir. Smal versionu (SM) seçiniz. Program yüklendikten sonra aynı dizindeki Serial dosyasındaki Serial number, code ve Authorization kodlarını yazınız. 4. STATA PROGRAMINI BAŞLATMA Başlat dan programlara, oradan da SmallStata12 programını tıklayın, Stata açılacaktır. Karşınıza Stata pencereleri gelecektir. Sol üstte stata menüleri, solda yazılan komutların listesi, sağda açtığınız dosyanın değişkenleri, altta komut yazma penceresi görülecektir. 2
5. ANA MENÜ VE DİYALOG KUTULARI İşlemler için ya ana menü kullanılır ya da aşağıdaki gibi Command (komut) satırı kullanılır: Komut penceresinde komut satırına ilgili komut yazılır ve Enter a basılır. Dialog penceresinde stata komutu uygulanır. Dialog penceresine geçmek için ya ana menüden yada komut satırına db edit gibi komut yazarak geçilir. Komut satırlarından oluşan.do komut dosyası çalıştırılır. 6. VERİ GİRİŞİ Veri girişleri STATA üzerinde ya da özellikle Excel ile yapılabilir. Bunun sebepleri: Girilecek veri sayısı fazla olduğu için aynı anda birkaç kişinin giriş yapması gerekmekte Her bilgisayara STATA yüklemek mümkün değildir. Fakat her bilgisayarda Excel vardır. Excel programını herkes kullanabilir. Fakat STATA kullanmak için eğitim almak gerekir. 7. ANKET VERİLERİNİN EXCEL PROGRAMINA GİRİLMESİ : Excel programını çalıştırın. Birinci satıra değişken isimlerini yazarsanız hem gireceğiniz verileri karıştırmaz hem de STATA ya geçince bir daha tanım yapmanıza gerek kalmaz. Ama yazmak zorunda değilsiniz. Verileri excele sütunlara girin. Her soru cevabı bir sütuna girilecektir. ANKET (cep telefonu) 1. Hangi yaş gurubundasınız? 1.( ) 18 den küçük 2.( ) 18-20 3.( ) 21-25 4.( ) 25 üstü 2. Cinsiyetinizi işaretleyiniz: 1.( ) Erkek 2.( ) Bayan 3. Bölümünüzü işaretleyiniz: 1.( ) İşletme 2.( ) İktisat 4. Doğduğunuz bölge : 1.( ) Marmara 2.( ) Ege 3.( ) Akdeniz 4.( ) Karadeniz 5.( ) G.doğu 6.( ) Doğu 7.( ) iç ana 5. Hangi aylık gider gurubundasınız? 1.( ) 1000 den az 2.( ) 1000-1500 3.( ) 1500-2000 4.( ) 2000 üstü 6. Hangi marka cep telefonu kullanıyorsunuz?. 7. Cep telefonu için kulaklık kullanıyor musunuz? 1.( ) Evet 2.( ) Hayır 8. Cep telefonunuzun SAR değerini biliyor musunuz? 1.( ) Evet 2.( ) Hayır Ankete verilen cevapları karakter olanları ve sayısal olsa da sınıflara ayrılmış ise yine kodlayıp gireceksiniz. Örneğin yaşı sınıflara ayrılmış hangi yaş gurubu seçildiyse onu gireceksiniz. Birinci kişi için yaş 1 olacak. Aylık gider de aynı olacak. Ankete verilen cevaplar: 3
C: diskinin ana dizininde ders isminde bir dizin açın. data ismiyle buraya kaydet ve excelden çık. Kaydettiğiniz yeri aşağıdaki gibi not alın; çünki çalışrken dosyanın olduğu klösürü STATA ya göstereceksiniz. C:\ders 8. ÇALIŞILAN DİZİN ADINI GÖRME : command penceresine cd yaz Enter e bas 9. ÇALIŞILAN DİZİNDEKİ DOSYA İSİMLERİNİ GÖRME : dir yaz Enter e bas 10. ÇALIŞILAN DİZİNİ DEĞİŞTİRME cd C:\ders yaz ve Entere bas. Artık bu dizinde çalışıyorsunuz. 11. EXCEL DOSYASINDAKİ VERİLERİN STATA ya ÇAĞRILMASI STATA programını açın. Komut satırına çalışacağınız (excel dosyasının olduğu) dizini tanımlayınız: cd C:\ders yaz ve Entere bas. Artık bu dizinde çalışıyorsunuz. Dosyaları excelden STATA ya çağırmak için aşağıdaki komutu command satırına yazınız: import excel data, firstrow (çalıştığınız dizinden çağırmak için) import excel \seminer\data, firstrow (başka dizinden çağırmak için) excel dosyasının ilk satırında açıklama varsa komuta firstrow kelimesi eklenir. Yoksa sadece import excel data komutu yazılır. Bu çağırma işlemleri menüden de yapılabilir. 4
12. DEĞİŞKEN DEĞERLERİNİ LİSTELEME (list komutu; kısa kullanılışı l): command penceresine list yaz Enter list in 3/5 13. VERİLERİ GÖRME VE DÜZELTME : command penceresine browse veya edit yaz Enter Dosyadaki değişken değerleri ekrana gelir. Görmek istemediğiniz bir değişken varsa Variables penceresinde değişken adının başındaki işaret kaldırılır ya da komut yazarken sadece görmek istenen değişken isimleri yazılır. 14. YENİ DEĞİŞKEN EKLEME (generate komutu; kısa kullanılışı gen) gen değişken adı komutunu kullanıp yeni değişken ekleriz. Örneğin bu dosyaya boy değişkeni ekleyelim. gen boy=0 gen sarp=sar*yas 15. DEĞİŞKEN AÇIKLAMA DEĞİŞTİRME VEYA YAZMA : label variable boy boyu 16. DEĞİŞKENLERİ VE GÖZLEMLERİ SİLME İstenmeyen bir değişken veya gözlem varsa drop komutu kullanılarak silinir. Yeni bir değişken açın : command penceresine gen deneme=0 yaz Enter e bas deneme değişkeni açıldı. Şimdi bunu silelim: drop deneme Enter (deneme değişkeni silindi) drop in 3 (3.gözlemi siler) drop if sar==2 keep yas cinsiyet (yas ve cinsiyet değişkenlerini tut; diğerlerini sil) 5
17. GÖZLEM SİLME Çalıştığımız data dosyasının 9.satırını silelim: drop in 9 (9.gözlem silindi list komutu ile görün) 18. DEĞİŞKEN TİPLERİ STATA değişkenleri sayısal veya alfasayısal olabilir. Sayısal değişkenlerin farklı şekilleri vardır. Alfasayısal değişkenler string olarak isimlendirilir. Değişken Tipleri 19. DEĞİŞKEN VERİ GENİŞLİĞİNİ AYARLAMA Değişkene girilen veri alanı çok geniş ise bunu daraltabiliriz: format değişken % tamsayı. ondalıklı komutu ile; örneğin format yas cinsiyet % 4.0g (4 basamaklı bir sayı girebiliriz, ondalık basamak yok:0) format boy % 5.3g Birden fazla değişkeni yaz yana yazabiliriz. Bunun için fare ile değişken penceresinden seçiniz. format gnp2 gdp2 %10.2fc format last_name first_name % 15s format last_name first_name %15s 20. DOSYAYI KAYDETME : command penceresine save data yaz aynı dosya üzerine kaydedilecekse; save data,replace 21. HAFIZA SİLME : command penceresine clear yaz 22. DOSYA AÇMA : use data,clear 23. HELP KOMUTU İLE YARDIM İSTEME : command penceresine help clear yaz (clear komutu hakkında İngilizce açıklamalar penceresi açılır) 24. KOMUT HAKKINDA İNTERNNETTEN AÇIKLAMA ARAMA command penceresine findit clear yaz 6
25. İŞLEMLER 26. LOG DOSYASI a. DOSYA OLUŞTURMA File menüsünden Log u seçilir, oradan Begin seçilir, yeni dosya adı örneğin deneme yazılır Kaydet butonuna tıklanır. Çıktı ekranına dosyanın açıldığını belirten mesaj gelir: Komut satırına log using C:\ders\deneme yazılarak da açılır. Artık ekrana gelen bütün çıktılar log dosyasına kaydedilir. b. DOSYA KAPATMA İşimiz bitince; komut satırına log close yazılarak log dosyası kapatılır. c. DOSYA AÇMA komut satırına log using deneme yazılıp mevcut olan dosya açılır. 27. YENİ DOSYA OLUŞTURMA Ana Menüden Data menüsü Data Editor, oradan da Data Editor (Edit) seçilir. Yada command satırına Edit yazılır. Ekrana boş bir pencere açılır. Veriler sütunlara girilir. Girdikten sonra sütun başlığına tıklayıp değişken adı, label etiket adı yazılır. 7
verileri giriniz. anket1 olarak kaydedin. save anket1 clear ile hafızayı silin, aşağıdaki verileri yazın 28. İKİ DOSYAYI BİRLEŞTİRME (append) : anket2 olarak kaydedin. save anket2 use anket1, clear append using anket2 Anket1 dosyasındaki verilerin altına anket2 verileri eklenecektir. İki dosyanın da veri yapıları aynıdır. 29. DEĞİŞKEN TİPİNİ DEĞİŞİRME recast float cinsiyet : cinsiyet değişkeni tipi (type) float olarak değiştirildi. 8
30. VERİLERİ ETİKETLEME a. Menü kullanma: edit yazın veriler gelince etiketlemek istenen değişkenin başlığına tıklanır. Properties penceresinde value label ın sağındaki tıklanır. Ekrana Manage Value Labels penceresi gelir. Burada Create Label düğmesine tıklanır. Create Label penceresi açılır. Label Name: kısmına dbölge yazılır. Value:1 Label:Marmara yazıldıktan sonra Add düğmesi tıklanır. Sırasıyla kodlama tanımlanır. En sonunda Ok düğmesi tıklanır. b. Comman satırından yazıp: label define bolum 1 "İşletme" 2 "İktisat" 31. FREKANS TABLOSU HAZIRLAMA (tabulate komutu; kısa kullanılışı tab) Tab değişken adı komutu kullanılır. Komut satırına tab dbolge yazılır. 32. ÇAPRAZ TABLO HAZIRLAMA (tabulate komutu; kısa kullanılışı tab) Tabulate komutu 2 değişken için kullanılır. Komut satırına tab cinsiyet bolum yazılır. 9
33. ÖZET İSTATİSTİKLER (summarize komutu; kısa kullanılışı su) Ana Menüden seçilebilir ya da command satırına db su yazıp doğrudan dialog penceresinin gelmesi sağlanır. Ana menü Statistics Summaries Summary statistics Summary statistics Komut satırına aşağıdaki komut yazılarak sonuç alınabilir: Su fazla kilo bel Su fazla kilo bel,detail (detaylı sonuç almak için) 34. SAYMA İŞLEMİ (Count) Command satırına yazılır: count count if bel==80 cou if bel<=80 35. GÖZLEMLERİ SIRALAMA (Sort) Komut satırına Sort cep (cep değişkenine göre gözlemleri sıralar) 36. MATEMATİK FONKSİYONLAR Fonksiyon Açıklama abs(x) x değişkeninin mutlak değerini verir. İnt(x) tam sayıya çevirir; int(5,2) = 5 ve int(-5,2) = -5 max(x1,x2,..) En büyük değeri bulur. min((x1,x2,..) En küçük değeri bulur. Sqrt(x) Karekökünü alır. display sqrt(10)=3,16 round(x) Yuvarlama yapar. display round(5.2,1)=5 10
37. KORELASYON ANALİZİ (Correlate komutu; kısa kullanılışı cor) cor <bağımlı değişken> <bağımsız değişken> cor yas cep r=0,9254 Pozitif çok yüksek ilişki var cor yas cep,means (ortalama, st.sapma, min ve max değerlerini de gösterir) 38. REGRESYON ANALİZİ (regress komutu; kısa kullanılış reg ) Aşağıdaki verileri STATA ya giriniz ve regresyon denklemini yazınız ve 300 m 2 bir evin kirası ne olmalı? Bağımlı değişken (Dependent variable): Daire kirası ve Bağımsız değişken (Independent variable) : Daire büyüklüğüdür. Komut satırına reg <bağımlı değ.> <bağımsız değ.> şeklinde yazılır. reg dkira dbuyuk ((α=0,05 kabul edilir) 11
Regresyon denklemi y = ax+b (bir bağımlı ve bir bağımsız değişken) için: x in (bağımsız değişkenin) katsayısı a=4,63, sabit (constant) b=62,62 olduğu görülüyor. Regresyon denklemi : y = 4,63x+62,62 olur. x yerine 300 yazılırsa; y = 4,63.(300)+62,62 y= 1389+62,62=1513 TL olmalıdır. Korelasyon katsayısı için cor dkira dbuyuk yazılırsa r=0,988 Pozitif çok yüksek bir ilişki vardır. α=0,01 ise önce aşağıdaki komut, sonra regresyon komutu yazılır: set level 99 reg dkira dbuyuk Birden fazla bağımsız değişken olması durumu: y=ax 1 +bx 2 +c reg dkira dbuyuk semt y=4,62x1+26,14x2+24,67 12
39. SAYISAL VERİYİ YENİDEN KODLAMAK recode semt (1=3) (3=2) (2=1), gen(semty) 13
40. HİPOTEZ TESTLERİ a. Tek Örneklem için T Testi (One-Sample t Test) Tek örneklem t-testi, bir değişkenin ortalamasının, belirlenmiş bir sabit sayıya göre farklılık gösterip göstermediğini bulmak için kullanılır. 65, 59, 60, 54, 65, 57, 69, 62, 49, 45, 65, 62, 64, 68, 70, 66, 65, 63, 61, 63, 69, 56, 58, 46, 56, 64, 61, 66, 63, 56, 54, 69, 75, 62, 61, 59, 73, 57, 48, 64, 61, 66, 57, 65, 63, 51, 68, 65, 65, 64 Burada "Age"(Yaş) değişkeninin ortalamasının kendi belirlediğimiz bir sabit sayıya göre farklılık gösterip göstermediğini bulalım. Test değerimiz 63 olsun. Öncelikle hipotezleri kurmalıyız: H0: µ = 63 (%5 hatayla ortalama 63' e benzerdir.) Ha: µ <>63 (%5 hatayla ortalama 63' den farklıdır.) Command satırına test komutu yazılır: ttest yaş==63 Burada elde edilen tablonun ilk satırı tanımlayıcı istatistik değerlerini verir. Altta alternatif hipotez 63 den farklı olduğu için ortadaki değeri alırız. 0,105>0,05 olduğu için H 0 hipotezi kabul edilir. Yani %95 güvenle yaş değişkeninin ortalaması 63 dür. b. Bağımsız Örneklem için t Testi (Independent Samples t Test) Okuma becerileri dersini farklı gruplarda veren bir yabancı dil öğretmeni, ders dönemi süresince, A grubunda programın öngördüğü materyalleri kullanırken, B grubunda ek olarak, gazete dergi gibi özgün okuma marteryalleri de kullanmıştır. Dönem sonu her iki grubun başarısını aynı testle ölçen öğretmen, grupların test puanları ortalamalarına bakarak, özgün materyal kullanmanın öğrencilerin okuma becerileri üzerinde bir etkisinin olup olmadığını ortaya koymaya çalışmaktadır. Yabancı dil öğretiminde özgün materyal kullanmanın, öğrencilerin okuma becerileri üzerinde anlamlı bir etkisi var mıdır? Önce verileri STATA ya giriniz: Hipotezler : H 0 : Fark yoktur H a : Fark vardır 14
Command satırına komut yazılır: ttest puan, by(grup) yazınız: 0,789>0,05 için H 0 kabul, yani Fark yoktur. c. Bağımlı Örneklem t Testi (Paired Samples t Test) Eğer elimizde her hangi bir değişken ile ilgili olarak bir durum öncesi ve bir de durum sonrası ölçüm değerleri varsa; kullanılacak olan istatistik test bağımlı gruplar için t-testidir. Burada dikkat edilmesi gereken; veri seti oluşturulurken ölçümlerin aynı denekler için belirli aralıklarla tekrar edildiğidir. Bu nedenle gruplar birbirine bağımlıdır. Matematik öğretmeni öğrencilere normal yöntemle ders anlatıp bir sınav yapmış; bunu ÖNTEST olarak kaydetmiştir. Daha sonra yeni bir yöntemle ders anlatıp sınav yapmış bunu da SONTEST olarak kaydetmiştir. Matematik öğretmeni, aynı gruba uyguladığı, programdan önceki ve sonraki sınav sonuçlarının ortalamaları arasında farka bakarak, etkili ve verimli çalışma programının, öğrencilerin matematik başarısı üzerinde bir etkisinin olup olmadığını ortaya koymak istemektedir. Etkili ve verimli çalışma programının, öğrencilerin matematik başarısı üzerinden anlamlı bir etkisi var mıdır? (istatistik olarak anlamlı bir fark var mıdır?) Aşağıdaki verileri STATA ya giriniz. veri ekranında her bir satır bir öğrenciyi gösterecektir. ontest : 55, 73, 65, 70, 59, 86, 83, 77, 78, 65, 68, 70 sontest : 60, 71, 66, 63, 70, 88, 83, 87, 78, 85, 77, 69 Command satırına komut yaz: ttest ontest==sontest 15
Sonuç Sig. (2-tailed) 0,086> 0,05 olduğu için fark yoktur. d. TEK FAKTÖRLÜ (Tek Yönlü) VARYANS ANALİZİ (One-Way ANOVA) Tek yönlü varyans analizi, bir faktör çatısı altında, iki yada ikiden daha fazla bağımsız grubun ortalamalarını karşılaştırmak için kullanılır. Tek yönlü varyans analizinde iki temel varsayım vardır. Her grup normal dağılımlıdır ve göreceli olarak grupların varyansları homojendir. Aşağıdaki verileri STATA ya giriniz: Bu veri seti, bir yemek şirketine ait ürün çeşitlerinin satış miktarlarını göstermektedir. Burada SATIS değişkeni satış miktarını (Bağımlı Değişken), URUN değişkeni (Faktör) ise ürün çeşitlerini ifade etmektedir. Burada ürün çeşitlerinin satış miktarları birbirinden bağımsızdır ve normal dağılıma sahiptir. Dolayısıyla bu grupların satış miktarlarının ortalamalarını karşılaştırmak için en uygun test tek yönlü varyans analizi olur. Öncelikle hipotezler kurulmalıdır. Varyansların homojen olduğunu kabul edelim. Tek yönlü varyans analizi için hipotezler; H0: %5 hata ile, grupların ortalamaları arasında istatistiksel olarak anlamlı bir farklılık yoktur. Ha: %5 hata ile, grupların ortalamaları arasında istatistiksel olarak anlamlı bir farklılık vardır. Command satırına komut yaz : oneway SATIS URUN Bu tabloda 0,000<0,05 olduğu için tek yönlü varyans analizi için olan H 0 reddedilir. Yani % 5 hata ile grupların ortalamaları arasında istatistik olarak anlamlı bir farklılık vardır denilebilir. 16
Bu anket 2 veya 3 kişi tarafından ortak yapılacaktır. Önce konu belirlenecek; konu onaylatıldıktan sonra 10 15 soru hazırlanacaktır. Sorular onaylatıldıktan sonra çoğaltılacak ve 2 kişi için 60, 3 kişi için 90 kişiye sorulacaktır. Ankete verilen cevaplar STATA ya girilecektir. Sonra aşağıdaki sıraya göre proje hazırlanacaktır. Bittikten sonra Word dosyası olarak ve stata veri dosyası da u.doguc@hotmail.com adresine gönderilecektir. Son teslim tarihi: 13 Haziran 2014. ÖRNEK ANKET 1. Yaşınız : 1. 18 den aşağı 2. 18 20 3. 21 25 4. 26 ve üzeri 2. Cinsiyetiniz: 1. Kız 2. Erkek 3. Dış politika haberlerini nereden takip edersiniz? 1. Gazete 2. İnternet 3. Televizyon 4. Yabancı ülke basını 5. Diğer 4. Aylık gideriniz ne kadardır?. 5. Günde kaç saat tv seyredersiniz? Anketlere verilen cevapları STATA ya girin. 17
1. FREKANS TABLOLARI Bu bölümde tüm değişkenlerin (soruların) frekans tabloları hazırlanıp buraya yapıştırılır. Gider frekans tablosu Yorum: Gideri yüksek olanların az olduğu görülmektedir. 2. ÇAPRAZ TABLOLARI Bu bölümde tüm değişkenlerin (soruların) çapraz tabloları hazırlanıp buraya yapıştırılır. Yorum: Çoğunluğun genç olduğu görülmektedir. 3. TANIMLAYICI İSTATİSTİKLER 18
4. HİSTOGRAMLAR (tüm değişkenlerin histogramları alınır) 5. KORELASYON ANALİZİ Aralarında ilişki olabilecek 2 değişken için korelasyon analizi yapınız. r=0,029 Pozitif çok zayıf bir ilişki vardır. 6. REGRESYON ANALİZİ Aralarında ilişki olan 2 değişken için regresyon analizi yapınız. y=0,00027x + 2,88 19
7. HİPOTEZ TESTİ Cinsiyete göre tv seyretmede bir farklılık var mıdır? Hipotezler : H 0 : Fark yoktur H a : Fark vardır 0,3447>0,95 için H 0 kabul, yani cinsiyete göre tv seyretmede fark yoktur. 20