İSTATİSTİK İstatistik, belirli amaçlar için veri toplama, toplanan verileri tasnif etme, çözümleme ve yorumlama bilimidir Yrd. Doç. Dr. Hamit AYDIN İstatistik Nedir? Latince de durum anlamına gelen status kökünden türetildiğine inanılmaktadır. iki anlamda kullanılmaktadır: a) veri, sayı ile ifade edilen kolektif ve yaklaşık bilgiler. Eğitim istatistikleri, tarım istatistikleri, dış ticaret istatistikleri gibi. b) bilim dalı. Birkaçtanımı: Çağdaş anlamda istatistik kısaca daha etkinkarar verebilmek için sayısal verilerin toplanması, düzenlenmesi, sunumu, incelenmesi ve yorumlanmasıdır. Yığın olaylarını inceleyen ve bunlara ilişkin genel bağıntıları belirtmeye çalışan bir bilimdir. Çok sayıda dış etkene bağlı nesne, varlık ya da olayların sayısal dökümüyapılabilen özelliklerini, incelemeye yarayan bir teknik ya da yöntem kümesidir. Yığın olayların belli amaçlarla gözlemlenmesi sonucu elde edilen verilerin sayısal biçimde işlenmesini sağlayarak, söz konusu olayların oluşturduğu yığınların bilimsel bir şekilde incelenmesinde kullanılan teknik ve yöntemler bilimidir. İstatistiksel Araştırmanın Amacı Rastlantıyı göz önünde tutarak olayları belirleyen genel yasaları, genel eğilimi ortaya çıkarmak, ana nedenleri aramak, olaylar arasındaki ilişkileri ve bağlantıları bulmak, böylece türlüyönetim, bilim ve teknik dallarında yapılacak kestirimlere, öngörülere, alınacak kararlara ve girişilecek eylemlere yardımcı olmaktır.
İstatistik, çevremizde olup bitenleri sayılarla ifade etmede yardımcı olur. TEMEL KAVRAMLAR İstatistiğin Önemi Günümüzde Hükümetler politikalarını formüle etmek ve aldıkları kararları desteklemek, Politikacılar halkı ikna etmek için istatistikleri temel almaktadır. Tıbbı araştırmalarda hastaların teşhisinde ve yeni ilaçların yan etkilerinin ortaya konulmasında istatistiksel teknikler kullanılmaktadır. Ekonomi, işletme ve kamu yönetiminde Sosyal bilimlerin bütün dallarında istatistiksel yöntemler hemen hemen tek pratik çalışma aracı durumundadır. Popülasyon (Kitle):Belirli bir özelliği gösteren birimlerin tamamının oluşturduğu topluluk. ör. Ülke nüfusu Tamsayım:kitleyi oluşturan birimlerin tamamının gözlem altına alınması. ör. Nüfus sayımı Örnek:Belirli bir özelliği gösteren ve kitleyi temsil edebilen bir miktar birimin oluşturduğu topluluk
Parametre Kitle ve örnekten hesaplanan değerler ve simgesi Kitleden (popülasyondan) elde edilen bilgileri kullanarak hesaplanan değerler Ör. Ortalama ( µ ), Standart sapma (s ) Aritmetik ortalama İstatistik X Parametre µ Standart sapma S σ Popülasyon Varyans S σ Parametre Birey (Gözlem)sayısı Korelasyon n r N ρ İstatistik Örnekleme Örnekten elde edilen bilgileri kullanarak hesaplanan değerler Ör. Ortalama ( X ), Standart sapma (S) Örnek İstatistik Örnek seçmek için uygulanan yöntemler Örnekleme yöntemleri Tesadüfi örnekleme Sistematik örnekleme Kolay örnekleme Tabakalı (gruplandırılmış) örnekleme Kümeli örnekleme
ÖLÇME VE ÖLÇEKLER Ölçme: Objelere ve ya bireylere, belirli bir özelliğe sahip oluş derecelerini belirtmek için, belirli kurallara uyarak sembolik değerler verme işlemidir. Nominal (Sınıflama): Rakamlar sadece verileri farklı gruplara ayırmada kullanılır. Veriye verilen sayı o grubun adıdır. Ör. futbol takımındaki rakamlar, plaka işaretleri, cinsiyet gibi. Ordinal (Sıralama):Ölçme sonucunda verilen sayısal değerler büyükten küçüğe sıralanabilir. Bir özelliğe sahip oluş derecesidir. ör. not A, B, C; yarışma 1.,., 3.; birinci tercih, ikinci tercih vb. Eşit Aralıklı:Sıfır ile ifade edilen bir başlangıçnoktası olan, sıfırın yokluğu göstermediği kabul edilen ölçektir. ör. termometre ölçeği gibi. Oranlı: Gerçek sıfır değerine sahip ve sıfır yokluğu ifade ettiği; birbirinin katı olarak ifade edilebilen ölçek türüdür. ör. Metre, kg. gibi. Değişken Gözlemden gözleme değişik değerler alabilen objelere, özelliklere ya da durumlara "Değişken" denir. Nitel (Kalitatif) Değişken: gözlemden gözleme kalite ve çeşit yönünden farklılık gösteren değişkenler. Ör. Cinsiyet, medeni durum, göz rengi, din, milliyet vb. Nicel (Kantitatif) Değişken: Birimlerin ölçüm ve tartım sonucu değerleri saptanan sayısal özelliklerini belirten değişkenlerdir. Bu değişkenler değerleri, mekanik ve elektronik araçlara sayısal olarak aralıklı ölçekli yada orantılı ölçekli verileridir Ör. Yaş, ağırlık, zekâ seviyesi, hava sıcaklığı, hız, nüfus vb. Süreksiz Değişken: Bu değişkenler tür yönünden değişiklik gösterir. Dolayısıyla bir obje ya da birey bir özelliğe sahiptir ya da değildir. (Belirgin data noktaları arasında mesafe oluşu).cinsiyet, medeni durum gibi. Nitel değişkenlerin hemen hepsi süreksiz değişkendir. Sürekli Değişken: İki ayrı ölçüm arası kuramsal olarak sonsuz parçaya bölünebilir. Yaş, uzunluk ve ağırlık gibi. İstatistiğin Kötü Kullanımı 1. Kötü örnek (Örneklemenin gereği gibi yapılmaması). Az veri 3. Yanlış yönlendiren grafik 4. Çarpıtılmış yüzdeler 5. Yönlendirilmiş soru 6. Ismarlama soru 7. Olumsuz cevap (Ret-Ayrıcalık) 8. Korelasyon ve nedensellik arası ilişki 9. Kişisel çıkar 10. Kesin rakamlar (beyanlar) 11. Kısmi (taraflı) bilgi 1. Bilinçli Saptırma
Yanlış yönlendiren grafik Sigarayı Bırakmak Ölümcül Kalp ve Akciğer Hastalıkları Riskini Azaltır Üçtür yalan vardır: Yalan, Kuyruklu Yalan, İstatistik Benjamin Disraeli "Then there was the man who drowned crossing a stream with an average depth of six inches (15 cm)." W. I. E. Gates Statistics are like bikinis. What they reveal is suggestive, but what they conceal is vital. Aaron Levenstein
Eğer veriler uygun şekilde toplanmamışlarsa, o verilerin tamamı faydasızdır veriler istatistikle de kurtarılamazlar. Verilerin Düzenlenmesi İstatistiki seriler: istatistiksel analiz için derlenen bilgilerin belirli bir özelliğe ve belirli bir kurala göre düzenlenmesi ve sunulması. Grafikler: toplanan verilerin daha anlaşılır olması için verilerin geometrik şekillerle gösterimi ve sunumu. İstatistiki seriler Verilerin Düzenlenmesi ve Sunulması Kesit (mekan) serileri: Gözlem sonuçlarının coğrafi temele göre incelenmesi. Ör. Ülkelere göre üretim Zaman serileri: gözlem sonuçlarının zamana bağlı olarak incelenmesi. Ör. yıllara göre satış miktarı, yağış, ölüm Dağılım serileri: gözlem sonuçlarının aldığı değerlerin dağılımına göre sunulması. Basit seri: gözlem sonuçlarının belirli bir esasa göre sıralanması Frekans serisi: gözlem sonuçlarının tasnif edilmiş halde sunulması. Bileşik seriler: gözlem sonuçlarının iki değişkene göre tasnif edilerek sunulması
Dağılım serileri Sınıflanmış Frekans Serileri Veri Sınav notu 40 75 10 5 35 15 40 5 10 35 60 5 40 55 Basit Seri Sınav notu 10 10 15 5 5 5 35 35 40 40 40 55 60 75 Frekans Serisi Sınav notu Frekans 10 15 1 5 3 35 40 4 55 1 60 1 75 1 115 101 111 104 107 94 99 105 110 106 110 103 99 114 119 103 93 10 113 105 9 107 98 109 96 104 96 97 108 94 114 113 93 106 96 106 110 91 115 101 108 99 103 101 10 10 114 111 106 114 108 109 107 Dağılım genişliği: R= Xmax-Xmin= 115-90=5 Sınıf sayısı (5-0 arası bir değer): k=1+3.3log(n) = 1+3.3log(75) =7.19 7 Sınıf aralığı: c=r/k = 5/7= 3,57 3veya 4 95 90 103 11 105 97 104 113 113 103 98 104 11 98 114 101 10 99 Sınıflanmış Frekans Serileri Dağılım genişliği ( R ) bulunur R= X max -X min Sınıf sayısı (k) belirlenir (5-0 arası bir değer) k=1+3.3log(n) Sınıf aralığı ( c ) belirlenir c=r/k Her sınıfın frekansı bulunarak seri düzenlenir. Sınıflanmış Frekans Serileri Sınıf aralığı 3 için Sınıflar 90-9 93-95 96-98 99-101 10-104 105-107 108-110 111-113 114-116 q Her sınıfın frekansı bulunarak sınıflandırılmış frekans serisi oluşturulur Sınıflar 90-9 93-95 96-98 99-101 10-104 105-107 108-110 111-113 114-116 Çetele /// ///// ///// /// ///// ///// // ///// ///// //// ///// ///// / ///// //// ///// /// ///// Frekans 3 5 8 1 14 11 9 8 5 Toplam Frekans 75
Sınıflanmış Frekans Serileri Sınıflanmış Frekans Serileri (Sürekli değişken) Dağılım genişliği: R= Xmax-Xmin= 491-0=491 Sınıf sayısı (5-0 arası bir değer): k=1+3.3log(n) = 1+3.3log(40) =6.8 6 Sınıf aralığı: c=r/k = 491/6= 81.83 81 Kullanılan Sınıf aralığı Sınıf aralığı =-0= =00-= Sınıflanmış Frekans Serileri (Kesikli değişken) Sınıflanmış Frekans Serileri Sınıf alt sınırı Sınıf üst sınırı Sınıf aralığı =-0= =00-=
Sınıflanmış Frekans Serileri Sınıflanmış Frekans Serileri Oransal frekans Sınıf Sınırları (kesim noktaları) Oransal Frekans = -0.5 99.5 199.5 99.5 Sınıf Frekansı Toplam Frekans = 1/40=0.3 %30 399.5 499.5 Sınıflanmış Frekans Serileri Birikimli Frekans Serileri Sınıf ara Değeri = Alt sınır + Üst sınır 49.5 149.5 49.5 349.5 449.5 = (+199)/=149.5 Toplam Frekans= 40
Verilerin Sunulması Grafikler: Histogram Kümülatif (birikimli) Histogram Histogram: Dağılış Poligonu Çubuk ve Çizgi Grafik Frekans 8 7 6 5 4 3 Frekans 1 10 8 6 4 30 40 50 60 70 80 90 Puan 30 40 50 60 70 80 90 Puan
Diğer grafikler Diğer grafikler Çubuk grafikler Pasta grafikler Gül diyagramları Diğer grafikler Sorular Ne gibi çıkarımlar yapabiliyoruz? Tahmin yapılabiliyor mu? İlişkinin boyutu ve yönü ölçülebiliyor mu? XY-Kartezyen Kor. (Scatter ) Zaman serileri
Merkezi Eğilim (Yığışım) Ölçüleri: TANIMLAYICI İSTATİSTİK Ortanca:Bir ölçek üzerinde orta noktanın yerini gösteren bu ölçü tüm değerleri ortadan ikiye bölen değerdir. Basit serilerde: Gözlem sayısı tekise Ortanca=(n+1)/. gözlemdir Gözlem sayısı çiftise Ortanca=[(n/)+(n/+1)]/. gözlemdir Merkezi Eğilim (Yığışım) Ölçüleri: Aritmetik ortalama: Deneklerin aldıkları değerlerin toplanıp denek sayısına bölünmesiyle elde edilen değerdir. Ortanca 5.40 1.10 0.4 0.73 0.48 1.10 0.4 0.48 0.73 1.10 1.10 5.40 (gözlem sayısı çift olan serilerde tek bir orta nokta yoktur) Örnek için S x x = n Kitle için µ = S x N 0.73 + 1.10 Ortanca = 0.915 5.40 1.10 0.4 0.73 0.48 1.10 0.66 0.4 0.48 0.66 0.73 1.10 1.10 5.40 (gözlem sayısı tek olan serilerde serinin tam ortasındaki değer) Ortanca =0.73
Merkezi Eğilim (Yığışım) Ölçüleri: Mod:Ölçümlerde en fazla tekrar edilen değere mod denir. a. 5.40 1.10 0.4 0.73 0.48 1.10 b. 7 7 7 55 55 55 88 88 99 c. 1 3 6 7 8 9 10 Mod 1.10 Mod - 7 & 55 Mod yok Sınıflanmış serilerde Aritmetik ortalama Xyerine sınıf ara değerleri kullanılır x = S (f x) S f x = sınıf ara değeri f = frekans S f = n Mod Ağırlıklı ortalama Bazı serilerde birimler arasında önem derecesi bakımından farklar olabilir. Eğer ortalamanın hesaplanmasında bu farklar hesaba katılmak isteniyorsa ağırlıklı ortalama kullanılır x = S (w x) S w
Değişim (dağılım) Ölçüleri Ranj: En büyük ölçümle en küçük ölçüm arasındaki farktır. Varyans: Standart sapmanın karesi Ranj= X max -X min Notasyon } s s Örnek varyansı Kitle varyansı Standart sapma: Ölçümlerin ortalamadan olan farklarının karelerinin ortalamasının kareköküdür. Örnek için S = Değişim (dağılım) Ölçüleri S (x x ) n - 1 Kitle için s = S (x - µ) N Değişim Katsayısı (CV) Dağılım ölçülerini kullanarak farklı serilerin kıyaslanmasında serilerin farklı birimlerle (cm, kg, vs.) ölçülmüş olması veya aynı Birimde ölçülmüş olmasına rağmen ortalamaları çok değişik serilerin kıyaslanmasında durumunda dağılım ölçülerinin Kullanımı uygun değildir. Bu durumda oransal bir ölçüm olan Değişim katsayısı kullanılır. CV = S x X
Eğiklik ve Basıklık Ölçüleri Frekans dağılımlarının özellikleri belirlenirken ortalamalar ve değişkenlik değerlerinin yanında dağılımın simetriklik (eğiklik) ve yükseklik (basıklık) durumuna ilişkin bilgilere de ihtiyaç vardır. Eğiklik (skewness):bir frekans dağılımının simetriden sapması olarak tanımlanır. Basıklık (kurtosis):bir dağılımının yükseklik derecesinin bir ölçüsüdür. Basıklık Kurtosis = Xi σ X n 4 4 Eğiklik Kantiller Skewness = Ł Xi - X n 3 s ł 3 Gözlem değerleri küçükten büyüğe doğru sıralanmış bir seriyi nispi frekansları h/r ve(r-h)/r olan iki kısmi seriye ayıran ortalamaya kantil denir. h: kantilin sırası, r: serideki eşit parça sayısı Q 1 (%5 dilim), Q (%50 dilim), ve Q 3 (%75 dilim), simgeleri ile gösterilir. Q i h = n + r 1 inci birimin gösterdiği değer
Kantiller Kutu grafik (Boxplot) Kutu grafik (Boxplot) Dağılım Şekline Göre Boxplot
Örnek Bir işletmedeki yıllık izinler gün olarak aşağıdaki gibidir. 8, 8, 7, 7, 7, 6, 6, 5, 5, 4, 4, 3 Buna göre; a) Ortalama izin kaç gündür? b) Bu grubun ortancası kaçtır? c) Mod'u kaçtır? d) Ranj'ı kaçtır? e) Standart sapması kaçtır? Çözüm: a) X 8+8+7+7+7+6+6+5+5+4+4+3 70 X = i = = = 5.8 n 1 1 b) Grubun ortancası 6'dır. c) Mod7'dir. d) Ranj=8-3= 5 Yuvarlama kuralı: Kaba hesaplamalar Hesaplamalarda verideki mevcut ondalık basamaktan bir fazlası alınır Hesaplama ortasında değer yuvarlanmaz. Her zaman son değer yuvarlanır. Ranj Kaba standart sapma hesabı s» 4 Kaba Ranj hesabı Minimum değer» (ortalama) x (standard sapma) Maksimum» (ortalama) + x (Standard sapma) Örnek e) Standart sapma: Ölçülerin ortalamadan olan farkları bulunur. Farkların karesi alınır ve toplanır. Bulunan değerler formülde yerine konur. X i ( Xi X) ( X X ) i 8. 8. 4.84 4.84 7 1. 1.44 7 1. 1.44 7 1. 1.44 6 0. 0.04 6 0. 0.04 5-0.8 0.64 5-0.8 0.64 4-1.8 3.4 4-1.8 3.4 3 -.8 7.84 Toplam 9.68 S ( Xi X ) 9.68 = = = 1.64 n 1 11