VERİLERİN TOPLANMASI VE GRAFİKLENMESİ

Ebat: px
Şu sayfadan göstermeyi başlat:

Download "VERİLERİN TOPLANMASI VE GRAFİKLENMESİ"

Transkript

1 2 VERİLERİN TOPLANMASI VE GRAFİKLENMESİ 2.1. Örnekleme 2.2. Verilerin toplanması 2.3. Verilerin kodlanması, temizlenmesi ve ayıklanması 2.4. Deneysel veri toplama planları 2.5. Verilerin grafik gösterimi 2.6 Verilerin Dönüştürülmesi Prof.Dr. Levent ŞENYAY I I - 1

2 2.1. Örnekleme İstatistiksel veriler toplanırken ya tüm populasyon sayılır ya da populasyonu temsil edebilecek örnek ya da örnekler seçilir. Örnek almak ile populasyonun belli bir kısmı kullanılmaktadır. Bu durumda alınan örneğin populasyonu temsil etme niteliğini kaybetmemesi gerekir. Örnekleme metotları olasılıklı ve olasılıksız örnekleme metotları olarak ikiye ayrılır. Örneklemede esas amaç populasyonu temsil edebilen en küçük örneğin belirlenmesidir. Bu sorun populasyon homojenleştikçe kolaylaşır, populasyon heterojenleştikçe zorlaşır. Örneğin laboratuarlarda analiz amaçlı kan alımı bir çeşit populasyondan örnek alma işlemidir ve kan çok homojen olduğu için küçük bir damla bile pek çok analizi yapmaya ve sonuçlarını tüm vücuttaki kan (populasyon) için genellemeye müsaittir. Ya da çorba hazırlarken belli bir aşamada tadını kontrol etmek için tencereden bir kaşık alıp tatmak da bir çeşit populasyondan örnek almaktır. Burada tuz karabiber gibi malzemeleri koyduktan hemen sonra tadım işlemi yapılmaz, öncelikle tencere karıştırılarak populasyonun homojenize olması sağlanır ki bu durumda alınan örneğin bütünü temsil yeteneği artmış demektir. 1. Olasılıklı Örnekleme, populasyondaki her bireyin örneğe girme olasılığı sıfır olmayan bir değerdir. Bu metotlar içerisinde populasyonun homojen olması arzulanır. Bir populasyon ne kadar homojen ise o kadar daha kolay ve az örnekle tahminde bulunulabilir. a. Basit Şans Örneklemesi, bu örnekleme metodunda sonlu bir populasyon içindeki tüm bireylerin bir listesi olan bir örnekleme çerçevesine ihtiyaç duyulur. N hacimli bir populasyondan n hacimli örnek(ler) seçilir. Populasyondaki her birey aynı olasılıkla (n/n) seçilir. Bu örnekleme aşamasında iki yöntem kullanılmalıdır, (N>n) - iadeli örnekleme -iadesiz örnekleme bu örnekleme tipinde her örneğin (Combinasyon (N,n)) seçilme şansı aynıdır. Bu işlemler sırasında genellikle şans sayıları türetilerek örnekleme çerçevesi içinden örnek seçimi gerçekleştirilir. b. Tabakalı Şans Örneklemesi, Bu örnekleme metodunda populasyon homojen alt populasyonlara bölünür ve her bir alt populasyondan basit şans örneklemesi metodu ile örnek seçimi gerçekleştirilir. Bu örnekleme metodunda alt populasyon içi homojenlik, alt populasyonlar arası heterojenlik amaçlanır ve en büyüklenmeye çalışılır. Bu metodun avantajları tüm populasyona ait genel tahminlere ilave olarak alt grup olarak adlandırılan tabakalar için de ayrı tahminler elde etme imkanı sağlar.. Tahminlerin hassasiyeti basit şans örneklemesinden daha iyidir. Ancak örnekleme çerçevesine gereksinim duyması bu metodun dezavantajıdır. c. Küme Örneklemesi (tek veya çok aşamalı), Bu örneklemede populasyon heterojen alt gruplara ayrılmış durumdadır ve her alt populasyonun içindeki benzemezli (heterojenlik) farklı alt popülasyonlarda birbirine benzer. Diğer bir ifadeyle bu örnekleme metodunda küme adı verilen alt populasyonlar içi heterojenlik, kümeler arası homojenlik istenen bir durumdur. Bu metot örnekleme çerçevesinin bulunmadığı geniş populasyonların araştırılmasında kullanılır. Kümelerden bazıları örneklemeye şansa bağlı olarak dahil edilir ve her kümeden basit şans örneklemesi metodu ile örnek alınır. Örnekleme çerçevesi ancak seçilen kümeler içinde hazırlanır. Kümeleme işlemi iç içe birden çok kez alt populasyonlara ayırma yoluyla yapılırsa bu durumda çok aşamalı küme örneklemesinden söz edilebilir. Örneğin ailelerin gelir grubuna dayalı bir araştırmada genellikle semt ya da mahalleler düşük, orta ve yüksek gelir grubundaki insanların yoğunlaşması ile oluştuğu birçok yerde geçerlidir. Burada semtler bir populasyon alt grubu oluşturacak ise bu tabakalı örneklemesinin bir uygulaması gibi görülebilir. Burada Prof.Dr. Levent ŞENYAY I I - 2

3 semtler birer tabaka olarak görülebilir. Diğer taraftan her şehirde bu çeşit semtler vardır, eğer şehirler bir alt populasyon olarak ele alınır ise bu ise bir küme örneklemesine örnek teşkil eder. Çünkü küme içinde her değişik gelir grubu bulunmakta yani küme içi heterojenlik olması yanında şehirler de bu farklılaşma açısından hepsi birbirine benzerler. Burada şehirler birer kümeyi oluşturur. Şehirlerarası yani kümeler arası benzerlik de oluşmuş olur. Böylece aynı örnekte ele alınış şekline göre bir uygulamanın bir bakış açısı ile tabakalı örnekleme, diğer bakış açısı ile de küme örneklemesi şeklinde ele alınabilmesi mümkündür. Ancak bu örnek her uygulamada geçerli değildir. d. Sistematik Örnekleme, Bu örneklemede ardışık birimler içinde bir veri listesi şeklinde bir çerçeve bulunur. İlk birimden şansa bağlı bir örnek birimi seçilir ve bu aynı sistematikle tüm birimlerde tekrarlanır. Sonlu populasyonlarda her örnek eşit şansa sahip olmasa da her birim aynı seçilme olasılığına (n/n) sahiptir. Bu örnekleme tipinde verilerdeki varsa düzenli devirsel varyasyon şansını bertaraf etmek gerekmektedir. Örneğin Bir okulun sınıfları birer ünite olacak şekilde tüm okul listesi bir populasyon olarak ele alınır ve her sınıf kendi içinde başarı notu ortalaması en yüksekten küçüğe doğru sıralanmış bir liste elde edilir ise bu durumda ilk ünite içinden seçilen öğrenci için geçerli başarı kriteri tüm ünitelerde de tekrarlanmış olacak dolayısı ile ünite içi değişkenlik örneğe yansımayacaktır. Bu durumlarda listelerin bazılarını ters çevirerek ele alınması gibi bu tür ilişkilerden korunacak tedbirler alınabilir. 2. Olasılıksız Örnekleme, Bu örnekleme metotlarında populasyondan örneğe giren birey olasılıksız ya da kesin olasılıkla (p=1) seçilir. Bu metotlardan elde edilen tahminler genellikle sapma içerebilirler. Ancak tek uygun metot bu olduğunda kullanılır. İki ana tipi vardır a. Uygun Örnekleme, örneğin süper market araştırmalar vb. b. Karar Örneklemesi, araştırıcı tarafından örneklemin ne veya kimler olacağına karar verilir ve seçim gerçekleştirilir Verilerin toplanması İstatistik kararlar sayısal verilere dayanması nedeni ile verilerin toplanması önemli bir olaydır. İstatistik veriler, spesifik bir karar problemi ile ilgili olarak birinci elden sağlanan bilgiler olabilir, bunlara primer-asal veriler denir yada verilen bir karar problemine yararlı olmakla beraber başka amaçlar için toplanmış ve kitap, gazete, yayın ve raporlarda basılmış olandır ki bunlara da ikincil-yedek-sekonder veriler denir. Veri kaynaklarında kullanılan verilerin toplanmasında iki yol vardır a-) Doğrudan gözlem yapılabilir. Soru sorma metodundan daha güvenilir bilgi bu yolla toplanır. Örneğin, herhangi bir yerde durup direk sayımı yapmak. b-) Soru sorma metodu: Kısa cevaplı, kolay anlaşılır bu tip sorularda birey cevap vermekten kaçınmaması gerektiği şekilde hazırlanmalıdır. Bireyi zorlayıcı cevaplar yöntemi yanlış yola iter. Direk olarak sorulamayacak sorular bir takım tekniklerle anlamsız gibi görünen gizli sorularla sorulmalıdır. Örneğin trafik ile ilgili bir soru grubunda eğer bireyin vasıta kullanma esnasında uyulması gereken bir takım şeyler soruluyorsa, başka bir soruda da oto ehliyetin var mı? şeklinde olmalıdır. Bu şekilde desteklenen sorularla diğer yanıtların güvenirliliği artar. Soru Sorma Metodları i-) Yalın alternatif sorular: (..) evet (..) hayır ( ) kesinlikle aynı fikirde değil ( ) aynı fikirde değil ( ) kararsız ( ) aynı fikirde ( ) kesinlikle aynı fikirde Prof.Dr. Levent ŞENYAY I I - 3

4 Bu tür likerd ölçekli veri toplama ölçeğinde genellikle 5 ile 9 arası kategori kullanılır. Bu kategoriler önceden araştırmacı tarafından tarif edilmelidir. Alçaktan yükseğe veya yüksekten alçağa doğru bir sıralama içerir. ii-) Katlı seçimli(çoktan seçmeli) sorular:...nereden aldınız. ( )...dan ( )...dan Günde kaç bardak su içersiniz? 0 2 ( ) 3-5 ( ) Bu tür sorularda önceden cevaplar yapılandırılmalıdır. Açık cevap hakkı bırakılmamalıdır. iii-) Spesifik(özel) bilgi sorular: -Kaç yaşındasınız? (-) -Liseyi ne zaman bitirdiniz? (-) iv-) Açık sorular:... cevaplı uzun özel bilgi gerektiren sorular. Anketlerde soruları hazırlarken aşağıda belirtilen noktalara dikkat edilmelidir. a. Tek yönlü soru sorulmalıdır, çift yönlü soru sorulmamalıdır b. Yönlendirici soru sorulmamalıdır, c. Çift olumsuz fiil kullanılmamalıdır d. Başka mana da içeren veya şüphe uyandıran soru sorulmamalıdır e. Çok özel soruları bazen gerçeği ortaya çıkartmakta sorun yaratabilir, bu tür soruların cevapları dolaylı yollardan almak daha doğrudur. f. Cevaplayanların ciddiyetsizlik veya kasıtlı yanlış cevapladığını ortaya çıkartmak için farklı yerlerde aynı soruları farlı cümle yapıları ile sorup, cevapların düzenlenmesi aşamasında bu tür verileri dikkate almama yoluna gidilebilir. g. Soruları hazırladıktan sonra, gerçek veri toplama uygulamasına geçmeden önce bol miktarda ön test yapılmalıdır. Anketler üzerinde soruların sıralanması ise aşağıdaki gibi olmalıdır. a. İlk önce demografik sorular sorulmalıdır b. Hassas sorular anketin sonuna yakın yerlere yerleştirilmelidir c. Aynı grup başlıklı sorular bir arada görülmelidir d. Sorular grup içinde genelden özele gitmelidir e. Konu içinden taşan sorulardan kaçınılmalıdır 2.3. Verilerin Kodlanması, Temizlenmesi ve Ayıklanması Günümüzde araştırma verileri bilgisayara girilerek analiz edilmektedir. Veri toplama aşamasından başlayarak bilgisayara girinceye kadar bir sistematiğe gereksinim vardır ve bu işlemler önceden belirlenmiş belli kurallarla uygulanmalıdır. Aksi halde analiz sırasında güçlükler ve hatalar söz konusu oluşabilir. Diğer taraftan veri girişi yapıldıktan sonra farklı bilgisayar programları arasında veri alışverişinin yapılması gerekebilir. Bilgisayar programları ve bunların veri tabanları genellikle İngiliz alfabesine dayanan ve 128 karakterden oluşan ASCII (American Standard Code for Information Interchange) formatı veya metin dosyası olarak veri girişi yapılmasına olanak tanımaktadır. Günümüzdeki istatistik programlarının çoğu metin (text) veya Excel dosyası şeklinde veri çıkarmaya izin verdiklerinden veri dönüştürme ve ihraç etme konusunda genelde sorun yaşanmamaktadır. Evet/hayır şeklindeki kodlamalı 1/0 şeklinde kodlanmalı ve cevap yok seçeneği için de bir alternatif kod (9 gibi başka bir yerde kullanılmamış olan) oluşturulmalıdır. Prof.Dr. Levent ŞENYAY I I - 4

5 Likert ölçeği olarak bilinen kodlamada ise kategorik farklılıklar arası sayısal dereceleme yapılabilir Örnek : Bu uygulamaya katılıyor musunuz? 1 ( ) Kesinlikle katılıyorum, evet, 2 ( ) Katılıyorum, Evet, 3 ( ) Emin değilim, 4 ( ) Katılmıyorum, Hayır, 5 ( ) Kesinlikle katılmıyorum, hayır 0 ( ) Cevap yok, Uygun değil Veri girişi öncesi hazırlık yapmak araştırmada hata ve güçlükleri en az inirgemek bakımından önemlidir. Bu amaçla ASCII, 1/0, Likert ölçekleme ve eksik very için uygun kodlamalar kullanılımalıdır. Kodlama öncesi elde edilen ham veriler anket, mülakat ve gözlem yoluyla toplanan ilk verilerdir. Bu ham veri üzerinde yapılan kontroller, düzenlemeler ve değişiklikler:. veri saflaştırma,.veri hazırlama,.veri temizleme,. veriye masaj/etiket yazma işlemleridir. Kodlama çeşitleri Ankette yer alan her bir cevap seçeneğine bir kod (sayı) atanması Nominal Kodlama 1-0 Kodlama Ordinal Kodlama Interval Kodlama Yeniden Kodlama(recoding) Veriler bir takım ölçme hataları içerirler, bunlar X(Ölçülen Değer)=G(Gerçek Değer)+E(Hatalar) Tesadüfi hatalar vs Sistematik hatalar Örnekleme vs Örnekleme dışı hatalar Şeklindedir. Birden fazla seçeneğin seçilebileceği sorularda her bir seçenek evet/hayır yanıtı ile ayrı değişken olarak tanımlanır Veri temizleme a) Aşırı uç değer tespiti b) Bilgisayara giriş hatalarının tespiti c) Eksik cevapların durumu a) Uç değerler Beklenenden çok büyük ya da çok küçük değerler Kutu grafikleri Frekans dağılımı b) Hata ayıklama Hatalı girişler Büyükten küçüğe sıralama Min/maks. değerler Frekans dağılımını inceleme Sınıf değerleri Dağılım özelliklerine bakma Prof.Dr. Levent ŞENYAY I I - 5

6 aralık, yüzdelik. c) Eksik veriler için Anket/Formun deneğe tekrar geri gönderilmesi Eksik cevaplı anketlerin iptal edilmesi Eksik cevapların yerine uygun cevapların doldurulması Belli bir değer ile veri girişi (9,99,999). Kategorik veriler için Söz konusu değişkene ortalama ya da Mod değeri atama Zaman serisi türünde önceki ve sonraki dönem ortalamasını kullanma Sübjektif bir değer ekleme İstatistiksel düzenlemeler Değişkenlere Ağırlık Atama Bazı deneklerin cevaplarına diğerlerine göre daha fazla ağırlık verme Zaman Serisinde son gözlemlere daha fazla ağırlık verme Değişkenlerin Yeniden Tanımlanması Örneğin aralıklı yaş değişkenini kategorik yapıya dönüştürmek Veri Transformasyonu (Dönüştürme) Karekök dönüşümü negatif, logaritma dönüşümü pozitif çarpıklıkta etkendir Basıklıkta ise 1/X şeklinde ters alınır 2.4. Deneysel Veri Toplama Planları Bu tür çalışmalarda amaç, belirleyici bir değişkenler setinin bir cevap değişkeni üzerine etkisini ölçme ve değerlendirmek içindir. Etkili temel faktör öncelikle incelenir ve burada faktörün farklı değer seviyeleri kontrol edilir. Bu çalışmalarda deneysel ünite denemelerde faktörün uygulandığı birimlerdir ve bu birimler aynı faktör etkisine tabidir. Gözlemler belirlenen uygulama şartlarında aynen tekrarlanabilirler. Bu çalışmalardaki hata kaynakları ise aşağıdaki gibi sıralanabilir. a. Sistematik hata, dış faktör kaynaklı gruplar arası fark veya ölçüm ekipmanının doğruluğundaki bozukluk b. Şansa bağlı hata c. Ölçüm hatası, ölçüm ekipmanının hassasiyetinden kaynaklanır. Deneysel çalışmalarda hatayı kontrol etmek için bazı model stratejileri geliştirilmiştir. Bunlar a. Bloklama, örneği benzer faktör gruplarına bölerek deneyi yapmak. Örneğin ziraat denemelerde topraktaki su, nem etkisi ve ilaç etkisi b. Eşleştirme, her birim bir problem faktörü üzerinde eşleştirilir ve sonra eşleşen bireyler farlı etkilere şansa bağlı olarak atanır. Her eşleşme bir blok etkisi oluşturur. c. İlişki arama, Regresyon Analizi d. Şansa bağlılaştırma, her birimin faktörlere etkisini şansa bağlı belirleme İstatistiksel (stokastik) davranış gösteren değişkenlere etki eden diğer etmen değişkenlerinin değişkenlik nedenlerini analiz edebilmek için ise varyans analiz modelleri veya deneysel dizaynlar geliştirilmiştir, bunlar, a. Tek yönlü sınıflama modeli (completely randomized design) her deneysel birim muamele etkilerine şansa bağlı olarak atanır. b. Çift yönlü sınıflama modeli (randomized block design) muameleler blok içine şansa bağlı atanılar c. Blokların tüm muameleleri içerdiği (randomized complete block design) d. Blokların tüm muameleleri içermediği (rondomized incomplete block design) Prof.Dr. Levent ŞENYAY I I - 6

7 2.5. Verilerin grafik gösterimi: i-)özel tablolar(istatistik cetveller) ii-) Verilerin grafik temsili a Doğru veya eğri diyagramı Sıra Ülke Kişi başına düşen milli gelir (Dolar) 1 Lüksemburg Norveç Katar İsviçre Danimarka İrlanda Türkiye Kaynak: IMF 2009 Dünya Ekonomik Görünümü -Silüet diyagram Şekil 2.1. Tekstil Ürünleri İmalatı (2005=100) Kaynak: İZTO AR&GE Bülteni, Haziran Band diyagram Şekil Dönemi Türkiye Nüfusu Kaynak: TÜIK Prof.Dr. Levent ŞENYAY I I - 7

8 -Yüksek-alçak diyagram Şekil 2.3. Mayıs 2009-Aralık 2009 Döneminde Borsanın En Düşük ve En Yüksek Değerleri b- Kolon (çubuk) diyagramı Şekil 2.4. Yıllara Göre Ege Bölgesi Nüfusu c Alan diyagramı Kaynak: TÜIK Şekil 2.5. İzmir İktisadi Faaliyet Kollarına Göre GSYH Kaynak: İZTO AR&GE Bülteni, Haziran 2010 Prof.Dr. Levent ŞENYAY I I - 8

9 d Cisimsel diyagram Şekil 2.6. İllere Göre İş Yeri Sayısı ( 500) İstanbul İzmir Denizli Kaynak : TUIK e Zaman serisi Şekil 2.7. Günlük Altın Fiyatları f - İstatistik haritalar Sanayi yapıları illerin nüfusları ile oranlandığında, kişi başına düşen sanayi yapısı sıralamasında Uşak, Nevşehir, Kayseri ve Bursa öne çıkmaktadır (Harita 2). Şekil 2.8: İl bazında her 1000 kişiye düşen sanayi yapısı sayısı Prof.Dr. Levent ŞENYAY I I - 9

10 2.6. Verilerin Dönüştürülmesi (Transformasyonlar) Neden nesneleri kesin metrik sistemde ölçeriz? Bu sorunun cevabı çoğunlukla geleneksel veya alışkanlıktır. Neden nesneleri kesin metrik sistemde ölçeriz? Çoğunlukla geleneksel veya alışkanlıktır. Simetriye Ulaşmak İçin Dönüşümler: İstatistikte çoğunlukla dönüşümleri yeni ölçümün daha simetrik dağılması için yapılır. x:1,4,9,16 değerleri orta değer etrafında simetrik değil gerçekte sağa çarpıktır. Fakat 2,5 etrafında simetrik dağılır. x : 1,2,3,4 değerleri Bazı dönüşümler için aşağıdaki örnekleri ele alalım. 1. x 1,10,100,1000 ;log x 0,1,2,3 2. x 1,8,27,64 ; 3 x 1,2,3,4, 3. x 3,4,6,12 ;12 1,2,3,4 x Bu gibi durumlarda orijinal sayı setleri çarpık, dönüşüm setleri simetriktir. Yukarıdakiler tabi ki çok basit ve suni örneklerdir ancak bunlar güç dönüşümlerde verilen x p, p 0 dönüşümleri açıklar. Burada ln x log e x, p=0 dönüşümünün rolünü oynar çünkü x p 1 / p nin limiti p nin 0 a yaklaşımı gibi ln x e eşittir. Eğer verileri dönüştürmek istiyorsak bu nasıl yapılamalıdır? Bu genellikle biraz deneyim ister ve ileri istatistik alanında dönüşümleri kullanmak için teorik sebepler ile çalışılır. Bu basit örneklerden x , x, ln x veya genel olarak p<1 iken dönüşümlerinin pozitif veya sağa çarpık verilerin dağılımını simetrik yaptığını gördük. Karekök dönüşümleri 3 1 x ve ln x kullanılması kadar gerekli olmayan bu kadar Prof.Dr. Levent ŞENYAY I I - 10

11 çok çarpık olmayan veriler için kullanılır. Bir başka deyişle, eğer veriler sola çarpık ve pozitif ise 3 p x veya x p>1 dönüşümleri kullanılabilir. 2 x veya Değişim Kontrolü İçin Dönüşümler:Şu ana kadar simetrik yapmak için nasıl dönüşüm yapmamız gerektiğini gördük. Eğer birkaç dağılımı veya veri setini karşılaştırmak istiyorsak, dağılımların değişkenliğini hemen aynı yapan dönüşümlere bakarız. Eğer standart sapma ve ortalamalar bu gruplarda oransal ise, bu dönüşümler için logaritma uygundur. Eğer, başka bir değişle varyanslar ve ortalamalar oransal ise, karekök dönüşümleri mükemmeldir. Genelde, p eğer standart sapma 1-p gücü olan ortalamaya orantılı ise, p.inci güç dönüşümü x arzu edilir. Prof.Dr. Levent ŞENYAY I I - 11