Unite 5. İstatistik Öğr. Gör Ali Onur Cerrah İstatistik nedir? Herhangi bir konuyu incelemek amacıyla; - çalışmanın planlanması, - verilerin toplanması, - değerlendirilmesi, - ve bir karara varılmasını sağlayan bilimdir. Bir konunun incelenmesi çoğunlukla örneklemler üzerinde gerçekleşir ve elde edilen bulgular evrene genellenir. İstatistik İki Gruba ayrılır 1) Tanımlayıcıİstatistik: elde edilen verilerin sınıflandırılması, farklı ortalama ve yaygınlık ölçülerinin hesaplanması, tablo ve grafiklerle sunulması, 2) Çıkarımsal istatistik: örneklemden elde edilen bulgular yardımıyla evren hakkında kestirimlerde bulunma,hipotezleri test etme ve karara varma gibi konuları içerir. Örn: Spor yapanlarda kalp hastalığı yakalanma yüzdesi spor yapmayanlardan daha mı düşüktür? Sorusunun yanıtı için hipotez testlerinden yararlanılır. Verinin Ölçüm Biçimi (Veri Tipi) A) NİTELİK VERİLER Bazı veriler sadece nitelendirilir. Örn; Cinsiyet (Bayan, Erkek) Teknik kapasite (yeterli, yetersiz) Medeni durum (Evli, Bekar) Sigara içme durumu (içen, içmeyen) 2 durumlu (sınıflı) nitelik veri Bazı durumlarda 2 durumlu (sınıflı) nitelik veriler 3 ve daha fazla sınıflar şeklinde nitelendirilebilir. Sigara içme durumu (hiç içmemiş, bırakmış, az içen tiryaki) Medeni durum (hiç evlenmemiş, evli, boşanmış, ayrı yaşayan) 1
Verinin Ölçüm Biçimi Bazen konuyu basitleştirmek ve analizi kolaylaştırmak amacıyla nitelik veriler sadece iki kategoride incelenir, ancak bu durum ciddi veri kayıplarına sebebiyet verir. Nitelik verilerde aritmetik ortalama, ortanca, tepe değeri gibi ortalama ölçüleri hesaplanamaz. Nitelik veriler çoğunlukla yüzde ile özetlenir. Birden çok nitelik değişken arasında ilişki olup olmadığını anlamak için ise çapraz tablo ve çubuk grafiklerden yararlanılır Sıralı Nitelik Veriler Yukarıdaki örneklerde; - Sigara içme durumu değişkenindeki kategorilerde (hiç içmemiş, bırakmış, az içen tiryaki) bir sıralama söz konusuydu; - Teknik kapasite kategorisi (kötü, orta, iyi, mükemmel) şeklinde bir sıralama söz konusudur. B) NİCELİK VERİLER 1) Kesikli Sayısal Veriler: Belirli bir aralıktaki tam sayıları alan veri türüdür. örn; akciğerlerdeki leke sayısı (3,5,7,10) gibi tam sayılardan oluşur. 13,5 yada 123,4 gibi kesikli sayı olamaz Örnek: - Sarı kart görme sayısı - Sakatlanma sayısı - Gol sayısı Bu tür verilerde ortalama ölçüleri kullanılabilir. Son 30 antrenmana gelen sporcu sayısı ortalamasının 11.7 çıkması anlamsız gibi gözükse bile bir büyüklüğü yansıttığından oldukça anlamlıdır. 2) Sürekli Sayısal Veriler: Ölçümle belirtilirler ve bir aralıktaki bütün değerleri alırlar. Örn; boy uzunluğu değişkeni, sürekli sayısal veri tipinde bir değişkendir. Bir sporcunun boy uzunluğu 180-200cm arasında değişiyor ise 187.365 cm olabileceği gibi 190.34 de olabilir. Örnek: - Tüm antrepometrik ölçümler - Kandaki hemoglabin düzeyi - Max Vo2 düzeyi vb., Bu tür verilerde ortalama ölçüleri sıklıkla kullanılır. 2
Dağılımları Tanımlayıcıİstatistikler Temel amacı karmaşayı düzene sokmaktır. Bir öğretmen tüm sınıflardaki çocukların üst gövde kuvveti ve 1500 metre koşu testi yapmak istesin, elinde 500 den fazla öğrenciye ait veri olacaktır. Dağılımları Tanımlayıcıİstatistikler Bu noktada öğretmen, öğrencilerin test skorlarını değerlendirmek, test skorlarını değişik sınıflara ya da yaşlara göre değişip değişmediğini görmek için neler yapmalı? Bu verileri nasıl düzenlemeli? Bu soruların cevabı her şeyden önce dağılımlara ilişkin tanımlayıcı ölçülerin elde edilmesi ile verilebilir. Diğer bir deyişle, bir anket, deney vb., yardımıyla elde edilen veriler ile çıkarsama yapmada ilk aşama, değişkenlerin tek tek incelenmesi ve özetlenmesidir. İstatistiğin tanımında söz edilen verilerin değerlendirmesi aşamasında öncelikle yapılması gereken şey her bir değişkenin nasıl dağıldığını dağılımları tanımlayıcı istatistiklerden yararlanarak belirlemektir. Tanımlayıcı istatistikler genel olarak; - verileri sınıflandırarak özet tabloların oluşturulması, -değişkenlere ilişkin grafiklerin çizilmesi ve/veya dağılımları tanımlayıcı ölçülerin elde edilmesi (yüzde ve yüzdeliklerin bulunması, ortalama ve yaygınlık ölçülerinin elde edilmesi) konularını içerir 3
Dağılımları tanımlayıcı Ölçüler Dağılımları tanımlayıcı Ölçüler: Yer gösteren ölçüler ve yaygınlık ölçüleri olarak iki ana grupta toplanır. Yer Gösteren Ölçüler Ortalama Ölçüleri Konum Ölçüleri - Aritmetik ortalama -Çeyreklikler - Ortanca - Yüzdelikler - tepe değer Yaygınlık Ölçüleri - Dağılım aralığı - Çeyrekler arası dağılım aralığı - yarı çeyrekler arası dağılım aralığı (çeyrek sapma) - standart sapma - varyans - değişim katsayısıdır. - oran - geometrik ve harmonik ortalama Verilerin Sınıflandırılması (Frekans ve Sıklık Dağılımları) Sayısal (Niceliksel) verilerin sınıflandırılması, tablo oluşturulmasında önemli bir yere sahiptir. Niteliksel veriler sınıflanmaz zaten önceden sınıflandırılmıştır (düşük, orta, yüksek gibi). Bu bağlamda, sayısal verilerin tablolaştırılması süreci bir takım kurallar bağlıdır. Nitelik Verilerin Tablolaştırılması Veriler tablolaştırılırken çeteleme işlemlerinden yararlanılır. 1) Bunun için sınıflar alt alta yazılır (Mesafe değişkeninin üç sınıf kategorisi; kısa-orta-uzun) 2) Çeteleme işlemi ilk yüzücüden başlanarak geçekleştirilir. (ilk yüzücü kısa mesafeci ise kısa mesafe sınıfı çetelenir) 3) Daha sonra çeteler sayılarak her sınıfın karşısına sayı olarak yazılır 4) Her sınıfa düşen sayı, toplam gözlem sayısına bölünerek her sınıfa düşen yüzdeler bulunur. 4
Yüzde Kullanımının Önemi Yüzdeler herkes tarafından kolayca anlaşılır Ayrıca, iki yada daha fazla oyuncu ya da takım arasında yapılacak karşılaştırmaların çok çabuk şekilde yapılmasını sağlar. Gruplar arası karşılaştırma yaparken yüzdeleri bilmek anlaşılırlığı arttırır. Örn: takım veya bireysel değerlendirme yaparken kimin başarılı olduğunu anlamak çok zordur. A oyuncusu 65 atıştan 47 sini sayıya çevirirken, B oyuncusu 80 atıştan 56 sını sayıya çevirmiş ise, B atıcısı daha başarılıdır demek yanlış olur. B toplam atışta başarılı olsada, yüzdeye çevrildiğinde A oyuncusu %72 (47/65), B oyuncusu %70 (56/80) ile başarılı olduğu anlaşılır. Ancak, dağılım aralığı (en büyük değer ile en küçük değer arsındaki fark büyüdükçe değişik değer alan gözlem sayısı çoğunlukla artacağından, basit frekans dağılımı tabloları kullanışsızlaşır. Sayısal Verilerin Sınıflandırılması (Tablolaştırılması) Sayısal verilerde elde edilecek en kolay sınıflama basit frekans dağılımlarının elde edilmesidir. Burada dağılımdaki gözlemler küçükten büyüğe yada büyükten küçüğe doğru sıralanarak her bir gözlemden kaçar tane olduğu gözlemlerin karşısına yazılır Sınıflama Kavramları 1) Sınıf Sayısı: Oluşturulacak sınıf sayısıdır. Örneğin aşağıdaki bir sınıflamada sınıf sayısı 5 tir. Bu nedenler veriler sınıflandırılır. 5
2. Sınıf Sınırı: Oluşturulacak her sınıfın bir alt bir de üst sınırı vardır. Bu sınırlara sınıf sınırı denir. Örneğin 50-54 sınıfının alt sınırı 50 ve üst sınır 54 tür. 3. Sınıf Aralığı: Bir sınıfın alt sınırı ile üst sınırı arasındaki aralıktır. Örneğin 50-54 sınıfına ilişkin sınıf aralığı 5 tir (50, 51, 52, 53, 54). Eğer bir birini takip eden sınıflar var ise ard arda gelen sınıflara ait alt veya üst sınıfların birbirinden çıkarılmasıyla bulunur. 69-64= 5, 60-55=5 4.Sınıf Değeri: Bazen bir sınıftaki tüm değerleri temsil eden tek bir değer bulunmak istenebilir. Burda alt ve üst sınırın toplamının yarısı olarak hesaplanır. 5.Dağılım Aralığı: Dağılımdaki en büyük değerden en küçük değerin çıkartılması ile bulunur. (70+74)/2=72 74-50= 24 6
Sınıflandırma Esnasında Dikkat Edilecekler 1. Sınıflama anında tüm değerler sınıfların dışında kalmamalı Örn; 10.0, 11.2, 10.6, 12.3, 10.8, 11.0, 12.4, 13.2, 14.5, 14.9, 14.0 17.7, 11.6 gibi veri setinde 10-11 şeklinde yaparsak 13.2 nerde bulunur. 10.0-10.9 12-13 11.0-11.9 14-15 12.0-12.9 Yanlış 2. Sınıflar birbirinin içine girmemeli Örn; 54, 52, 50, 56, 59, 63, 57, 61 50-54 54-59 59-64 Yanlış 50-54 55-59 60-64 Doğru Doğru 3. Sınıf aralıklarının birbirine eşit olması yorumlama açısından faydalıdır 4. En uygun sınıf sayısı 8-15 (spor bilimlerinde 10-20) olarak belirtilmektedir. Aşağıdaki tablolarda fark görülmektedir. 7
1. MaxVo2 dağılımının en küçük ve en büyük değeri bulunur. EKD:40 EBD: 73 2. Dağılım aralığı bulunur. EBD-EKD= 73-40=33 3. Dağılım aralığı değeri sayısı bizim tarafımızdan belirlenen sınıf sayısına bölünerek sınıf aralığı (SA) bulunur. Örneğin veriyi 7 sınıf yaparsak sınıf aralığı 33/7=4.7= 5 tamamlanır. 40-44 45-49 50-54 55-59 60-64 65-69 70-74 4. Daha sonra sınıfa düşen frekanslar 1 nolu yüzücüden başlamak üzere önce çetelenir sonra da sayı olarak her kolonun karşısına yazılır Yığılımlı Frekanslar 5. Yukarıdaki tablo sonuç olarak tablo 2 deki gibi sunulur ve maxvo2 değerleri 55-59 ml/kg/dk etrafında toplanmış olup tek tepeli ve simetriktir. Tabloda Maxvo2 değerlerinin frekans dağılımları incelenmiş ve her sınıfa düşen frekansın toplam denek sayısına bölümü ile ilgili sınıfa ilişkin % değerleri de verilmiştir. Buna göre örneğin yüzücülerin %7,5 inin Maxvo2 değeri 45-49 ml/kg/dk arasındadır. Bazen herhangi bir sınıfa düşen yüzde yerine ilgili sınıf ve altında kalan sınıfın toplamı ile ilgileniriz. Örneğin MaxVo2 değeri 54ml/kg/dk ve altında olanların toplam içindeki pay nedir? Bu nedenle her sınıfın değeri önceki sınıf değeri ile toplanarak yığılımlı frekans değerleri hesaplanır. 8
Örneğin 50-54 sınıfı için yığılımlı frekans 2+3+8=13 tür. Yığılımlı frekans sayısının denek sayısına bölünmesi ile de yığılımlı % değeri elde edilir. Yüzdelikler Bir dağılımdaki herhangi bir x değerini dikkate alalım. Bu değer ile bu değerin altında kalan gözlem sayısınnın toplam gözlem sayısı içindeki payı bir yığılımlı yüzde değeridir. Bu yığılımlı yüzde değerini hesaplamak için dikkate aldığımız x değerine yüzdelik denir. Yüzde;:belirli bir miktarı belirtirken yüzdelik, dağılım üzerinde; altında ve üstünde belirli oranda ölçümler bulunan bir noktanın değerini belirtir. Buna göre, % 40 dediğimizde ölçümlerin yüzde kırkı (40/100'ü), 40. yüzdelik dediğimizde ise ölçümlerin % 40'ını altında, % 60'ım da üstünde bırakan noktamn değeri anlaşılır. Örneğin, eltopu (hentbol) oyuncularına 10'ar tane 7 m atışı yaptırıldığını ve atılan gol sayılarının kaydedildiğini düşünelim. Böyle bir çalışmada, x=7 ve daha az gol atanların toplam eltopu oyuncusu sayısı içindeki payı 0.90 ise, 90. 'yüzdeliğin 7 gol olduğu söylenir. Buna göre, sporcuların % 90'ı 7 ve daha az gol atmıştır. Yüzdelikler standart skorlar olup yüzdeliklerin merkezi 50. yüzdeliktir. Yüzdelikler % O.O'den % 100'e kadar değişim gösterirler. Bazı yüzdelikler özel adlar alırlar. Örneğin, 25. yüzdeliğe 1. Çeyrek, 50. yüzdeliğe 2. Çeyrek ya da ORTANCA, 75. yüzdeliğe 3. Çeyrek denir. Spor yapmayan 4216 kişi üzerinde yapılan bir çalışmada deneklerin MaxVO2 değerlerinin ölçüldüğünü ve çalışmaya katılan bir kişinin MaxVO2 değerinin de 46 ml/kg/dk olduğunu düşünelim. Bu skor bir ham skor olup, konu ile ilgili daha fazla bilgi yoksa bu kişinin MaxV02 değerinin iyi iyi mi kötü mü olduğu konusunda bir yorum yapabilirmiyiz? HAYIR 9
Ancak, bu değerin 53.7'inci yüzdeliğe karşılık geldiği bilinirse bu kişinin 4216 kişi arasındaki konumu da belirlenmiş olur. Buna göre, incelenen bireyin 46ml/kg/dk'lık MaxVo2 değerinin, çalışmaya katılanların % 53.7'sine eşit ya da % 53.7'sinden daha iyi bir değer olduğu anlaşılır. 10