BİLİŞİM TEKNOLOJİLERİ İÇİN İŞLETME İSTATİSTİĞİ

Benzer belgeler
BÖLÜM 6 MERKEZDEN DAĞILMA ÖLÇÜLERİ

BİLİŞİM TEKNOLOJİLERİ İÇİN İŞLETME İSTATİSTİĞİ

Örnek 4.1: Tablo 2 de verilen ham verilerin aritmetik ortalamasını hesaplayınız.

Tanımlayıcı İstatistikler. Yrd. Doç. Dr. Emre ATILGAN

TANIMLAYICI İSTATİSTİKLER

BİLİŞİM TEKNOLOJİLERİ İÇİN İŞLETME İSTATİSTİĞİ

Konum ve Dağılım Ölçüleri. BBY606 Araştırma Yöntemleri Güleda Doğan

Yrd. Doç. Dr. Fatih TOSUNOĞLU Erzurum Teknik Üniversitesi Mühendislik Fakültesi İnşaat Mühendisliği Bölümü

Temel İstatistik. Y.Doç.Dr. İbrahim Turan Mart Tanımlayıcı İstatistik. Dağılımları Tanımlayıcı Ölçüler Dağılış Ölçüleri

TEMEL İSTATİSTİKİ KAVRAMLAR YRD. DOÇ. DR. İBRAHİM ÇÜTCÜ

Mühendislikte İstatistik Yöntemler

BİLİŞİM TEKNOLOJİLERİ İÇİN İŞLETME İSTATİSTİĞİ

8.Hafta. Değişkenlik Ölçüleri. Öğr.Gör.Muhsin ÇELİK. Uygun değişkenlik ölçüsünü hesaplayıp yorumlayabilecek,

BİYOİSTATİSTİK Merkezi Eğilim ve Değişim Ölçüleri Yrd. Doç. Dr. Aslı SUNER KARAKÜLAH

BÖLÜM 5 MERKEZİ EĞİLİM ÖLÇÜLERİ

Nicel / Nitel Verilerde Konum ve Değişim Ölçüleri. BBY606 Araştırma Yöntemleri Bahar Dönemi 13 Mart 2014

Merkezi eğilim ölçüleri ile bir frekans dağılımının merkezi belirlenirken; yayılma ölçüleri ile değişkenliği veya yayılma düzeyini tespit eder.

VERİ KÜMELERİNİ BETİMLEME

JEODEZİK VERİLERİN İSTATİSTİK ANALİZİ. Prof. Dr. Mualla YALÇINKAYA

İSTATİSTİK EXCEL UYGULAMA

UYGULAMA 4 TANIMLAYICI İSTATİSTİK DEĞERLERİNİN HESAPLANMASI

BİLİŞİM TEKNOLOJİLERİ İÇİN İŞLETME İSTATİSTİĞİ

BİLİŞİM TEKNOLOJİLERİ İÇİN İŞLETME İSTATİSTİĞİ

VERİ SETİNE GENEL BAKIŞ

Verilerin Özetlenmesinde Kullanılan Sayısal Yöntemler

Genel olarak test istatistikleri. Merkezi Eğilim (Yığılma) Ölçüleri Dağılım (Yayılma) Ölçüleri. olmak üzere 2 grupta incelenebilir.

Merkezi Eğilim ve Dağılım Ölçüleri

Copyright 2004 Pearson Education, Inc. Slide 1

Merkezi Yığılma ve Dağılım Ölçüleri

İÇİNDEKİLER ÖN SÖZ...

Test İstatistikleri AHMET SALİH ŞİMŞEK


13. Olasılık Dağılımlar

İSTATİSTİK MHN3120 Malzeme Mühendisliği

BİLİŞİM TEKNOLOJİLERİ İÇİN İŞLETME İSTATİSTİĞİ

Prof.Dr.İhsan HALİFEOĞLU

KARŞILAŞTIRMA İSTATİSTİĞİ, ANALİTİK YÖNTEMLERİN KARŞILAŞTIRILMASI, BİYOLOJİK DEĞİŞKENLİK. Doç.Dr. Mustafa ALTINIŞIK ADÜTF Biyokimya AD 2005

Prof.Dr.İhsan HALİFEOĞLU

Bölüm 3. Tanımlayıcı İstatistikler

ENM 5210 İSTATİSTİK VE YAZILIMLA UYGULAMALARI. Ders 2 Merkezi Eğilim Ölçüleri

Genel olarak test istatistikleri. Merkezi Eğilim (Yığılma) Ölçüleri Merkezi Dağılım (Yayılma) Ölçüleri. olmak üzere 2 grupta incelenebilir.

IİSTATIİSTIİK. Mustafa Sezer PEHLI VAN

ÖLÇME VE DEĞERLENDİRME. Antrenörlük Eğitimi 4. Sınıf. Ölçme ve Değerlendirme - Yrd. Doç. Dr. Yetkin Utku KAMUK

Sıklık Tabloları, BASİT ve TEK değişkenli Grafikler Ders 3 ve 4 ve 5

BKİ farkı Standart Sapması (kg/m 2 ) A B BKİ farkı Ortalaması (kg/m 2 )

SPSS UYGULAMALARI-II Dr. Seher Yalçın 1

ÖRNEKLEME DAĞILIŞLARI VE TAHMİNLEYİCİLERİN ÖZELLİKLERİ

Ders 8: Verilerin Düzenlenmesi ve Analizi

Ders 1 Minitab da Grafiksel Analiz-I

İstatistik ve Olasılık

rasgele değişkeninin olasılık yoğunluk fonksiyonu,

BÖLÜM 9 NORMAL DAĞILIM

DAĞILMA YADA DEĞİ KENLİK ÖLÇÜLERİ (MEASURE OF DISPERSION) Prof.Dr.A.KARACABEY Doç.Dr.F.GÖKGÖZ

TEMEL İSTATİSTİK BİLGİSİ. İstatistiksel verileri tasnif etme Verilerin grafiklerle ifade edilmesi Vasat ölçüleri Standart puanlar

İstatistik Nedir? Ders 1 Minitab da Grafiksel Analiz-I ENM 5210 İSTATİSTİK VE YAZILIMLA UYGULAMALARI. İstatistiğin Konusu Olan Olaylar

KANTİTATİF TEKNİKLER - Temel İstatistik -

İÇİNDEKİLER. BÖLÜM 1 Değişkenler ve Grafikler 1. BÖLÜM 2 Frekans Dağılımları 37

BİYOİSTATİSTİK. Genel Uygulama 1. Yrd. Doç. Dr. Aslı SUNER KARAKÜLAH

İstatistik ve Olasılık

İstatistik ve Olasılık

ORTALAMA ÖLÇÜLERİ. Ünite 6. Öğr. Gör. Ali Onur CERRAH

Kitle: Belirli bir özelliğe sahip bireylerin veya birimlerin tümünün oluşturduğu topluluğa kitle denir.

Ölçme Sonuçları Üzerinde İstatistiksel İşlemler

BÖLÜM 1 GİRİŞ: İSTATİSTİĞİN MÜHENDİSLİKTEKİ ÖNEMİ

BİYOİSTATİSTİK. Ödev Çözümleri. Yrd. Doç. Dr. Aslı SUNER KARAKÜLAH

İSTATİSTİK ÖRNEK SORULARI

MAK 210 SAYISAL ANALİZ

YANLILIK. Yanlılık örneklem istatistiği değerlerinin evren parametre değerinden herhangi bir sistematik sapması olarak tanımlanır.

Yapılan alan araştırması sonucunda aşağıdaki sonuçlar elde edilmiştir. ( ) ( ) ( ) ( )

EĞĠTĠMDE ÖLÇME VE DEĞERLENDĠRME BÖLÜM IV Ölçme Sonuçları Üzerinde Ġstatistiksel ĠĢlemler VERİLERİN DÜZENLENMESİ VERİLERİN DÜZENLENMESİ

İstatistik ve Olasılık

Statistical Package for the Social Sciences

Oluşturulan evren listesinden örnekleme birimlerinin seçkisiz olarak çekilmesidir

LAÜ FEN EDEBĐYAT FAKÜLTESĐ PSĐKOLOJĐ BÖLÜMÜ PSK 106 ĐSTATĐSTĐK YÖNTEMLER I BAHAR DÖNEMĐ DÖNEM SONU SINAV SORULARI

Temel Bilgi Teknolojisi Kullanımı

Örnek...4 : İlk iki sınavında 75 ve 82 alan bir öğrencinin bu dersin ortalamasını 5 yapabilmek için son sınavdan kaç alması gerekmektedir?

BÖLÜM 8 BİLGİSAYAR UYGULAMALARI - 2

LAÜ FEN EDEBĐYAT FAKÜLTESĐ PSĐKOLOJĐ BÖLÜMÜ PSK 106 ĐSTATĐSTĐK YÖNTEMLER I BAHAR DÖNEMĐ BÜTÜNLEME SINAVI SORULARI

Ölçme ve Değerlendirme

Hipotezlerin test edilip onaylanması için çeşitli istatistiksel testler kullanılmaktadır. Fakat...

LAÜ FEN EDEBĐYAT FAKÜLTESĐ PSĐKOLOJĐ BÖLÜMÜ PSK 106 ĐSTATĐSTĐK YÖNTEMLER I BAHAR DÖNEMĐ TELAFĐ SINAVI SORULARI

İçindekiler vii Yazarların Ön Sözü xiii Çevirenin Ön Sözü xiv Teşekkürler xvi Semboller Listesi xvii. Ölçme, İstatistik ve Araştırma...

BİLİŞİM TEKNOLOJİLERİ İÇİN İŞLETME İSTATİSTİĞİ

KONU2 MERKEZİ EĞİLİM ÖLÇÜLERİ EĞİLİM ÖLÇÜLERİ ANALİTİK ORTALAMALAR ANALİTİK OLMAYAN MERKEZİ. Aritmetik ortalama **Medyan(median)

Ders 9: Kitle Ortalaması ve Varyansı için Tahmin

Gruplanmış serilerde standart sapma hesabı

ALKÜ EKONOMİ ve FİNANS BÖLÜMÜ ISL 207 İSTATİSTİK I ALIŞTIRMALAR

Üretim Süreci: Girdi İşlem Ürün (Sonuç) Araştırma Süreci: Hangi alanda olursa olsun araştırma bir BİLGİ ye ulaşma sürecidir.

Mühendislikte İstatistiksel Yöntemler

Projenin Adı: İstatistik yardımıyla YGS ye hazırlık için soru çözme planlaması

7.Sunum. Yrd. Doç. Dr. Sedat ŞEN 1

SÜREKLĠ OLASILIK DAĞILIMLARI

İSTATİSTİK DERS NOTLARI

İstatistik ve Olasılık

TEST VE MADDE ANALİZLERİ

OLASILIK ve KURAMSAL DAĞILIMLAR

RASSAL DEĞİŞKENLER VE OLASILIK DAĞILIMLARI. Yrd. Doç. Dr. Emre ATILGAN

3. TAHMİN En Küçük Kareler (EKK) Yöntemi 1

Beklenti Anketi ne İlişkin Yöntemsel Açıklama

BÖLÜM-1.BİLİM NEDİR? Tanımı...1 Bilimselliğin Ölçütleri...2 Bilimin İşlevleri...3

Transkript:

SAKARYA ÜNİVERSİTESİ BİLİŞİM TEKNOLOJİLERİ İÇİN İŞLETME İSTATİSTİĞİ Hafta 4 Yrd. Doç. Dr. Halil İbrahim CEBECİ Bu ders içeriğinin basım, yayım ve satış hakları Sakarya Üniversitesi ne aittir. "Uzaktan Öğretim" tekniğine uygun olarak hazırlanan bu ders içeriğinin bütün hakları saklıdır. İlgili kuruluştan izin almadan ders içeriğinin tümü ya da bölümleri mekanik, elektronik, fotokopi, manyetik kayıt veya başka şekillerde çoğaltılamaz, basılamaz ve dağıtılamaz. Her hakkı saklıdır 2013 Sakarya Üniversitesi 0

BÖLÜM 3 TANIMLAYICI İSTATİSTİK SAYISAL TEKNİKLER BÖLÜMÜN AMACI Bu bölümün amacı veri setinin büyüklüğü, aykırı değerlerin varlığı gibi özel durumlarıda dikkate alarak hangi sayısal tanımlayıcı istatistik yöntemin hangi durumlarda ve veri türlerinde kullanılabileceği ile ilgili temel bilgilerin öğrenciye sunulmasıdır. 3.2. Sayısal Teknikler Önceki bölümde verilerin özetlenmesi ve tanımlanması konusunda bazı grafik ve tablo tekniklerinden bahsetmiştik. Bu bölümde ise yine tanımlama adına kullanılan sayısal tekniklere değineceğiz. Tek bir değişken için tanımlayıcı teknikler; Merkezi eğilim ölçütleri (ortalama, mod, medyan), Değişkenli ölçütleri (Değişim aralığı, varyans ve standart sapma) ve göreceli durum ölçütleri (yüzdebirlik ve çeyreklik) şeklindedir. İki veya daha fazla değişken durumlarında ise bu teknikler her bir değişken için ayrı ayrı hesaplanarak kullanılmakla beraber birden fazla değişkenin ilişkilerinin özetlenmesi Doğrusal İlişki Ölçütleri (Korelasyon, Kovaryans) ile gerçekleştirilebilir Sayısal Teknikler Merkezi Eğilim Ölçütleri Değişkenlik Ölçütleri Göreceli Durum Ölçütleri Doğrusal İlişki Ölçütleri Ortalama Değişim Aralığı Yüzdebirlik Korelasyon Medyan (Ortanca) Varyans Çeyreklik Kovaryans Mod Standart Sapma 5 Sayı Yöntemi En Küçük Kareler Yöntemi Geometrik Ortalama Değişkenlik Katsayısı z Skoru 1

DİKKAT Doğrusal İlişki Ölçütleri konusu Veri Analizi bölümü altında İlişkilerin Analizi kısmında ayrıca verilecektir. 3.2.1. Merkezi Eğilim Ölçütleri Aritmetik Ortalama En önemli merkezi eğilim ölçütü Aritmetik ortalamadır. Basit şekli ile bütün gözlem değerlerinin toplam gözlem adedine bölünmesi ile hesaplanır. Bu değer bize veri setinin merkezi konumunu gösteren önemli bir istatistiktir. Aritmetik ortlama anakütle ve örneklem için aşağıdaki formüllerle hesaplanır. Ortalama her ne kadar önemli bir merkezi eğilim ölçütü olsa da, aykırı (uç) değerlerden önemli ölçüde etkilenmektedir. Bu bağlamda küçük veri setlerinde ortalamanın çok uzağında bir veri, veri setine dâhil olduğunda ortalama birden bire yükselebilir. Bu yükselme verinin yorumlanmasında sıkıntılara yol açabilir. Örneğin bir milyoner gelir seviyesi ortalama olan bir mahalleye taşındığında hane halkı gelirlenin ortalamasının bir anda çok fazla yükselmesi sonucunu doğurur ki, bu durumda hane halkları ile ilgili bir genelleme yapma imkânı da ortadan kalkmış olur. ÖRNEK Bir sınıftaki öğrencilerin ağırlıkları aşağıda verilmiştir. Aritmetik ortalamayı hesaplayınız. Eğer 140 kg ağırlığında yeni bir öğrenci sınıfa kayıt yaptırırsa, yeni ortalama ne olur. Yeni sonucun geçerliliğini tartışınız. 2

ÇÖZÜM Birinci durumda ortalam aşağıdaki formülle hesaplanır. 140 kg ağırlığında yeni bir öğrencinin sınıfa katılması durumunda ise yeni ortalama aşağıdaki gibidir. Ortalama değerinin 3 birimden daha fazla arttığına dikkat ediniz. Ayrıca ilk durumda ortalama değeri verileri %50 %50 şeklinde bölmektedir. (10 kişi 74,65 kg den daha hafif, 10 kişi ise daha ağırdır) İkinci durumda ise verilerin 2/3 ü ortalamanın altında kalmaktadır. (21 kişinin 14 tanesi 77,77 kg den daha hafiftir) Aritmetik ortalama bir merkezi konum (central location) ölçütüdür. Fakat uç değerler az olduğunda ve örnek sayısı az olduğunda bu özelliğini tam olarak yansıtmadığı yukarıdaki örnektende açıkça görülmektedir. Her ne kadar uç değerler aritmetik ortalamanın tanımlayıcı özelliğini azaltsa da, veri seti büyüdükçe uç değerlerin etkisinin keskin düşüşlere veya yükselmelere neden olmayacağı da aşikardır. DİKKAT Aritmetik ortalama aykırı değerlerden en çok etkilenen ölçüttür. Bu yüzden ortalama hesaplanmadan verinin büyüklüğünü inceleyip, aykırı değer olup olmadığı sorgulanmalı gerekirse aritmetik ortalama yerine diğer merkezi eğilim ölçütleri tercih edilmelidir. Medyan (Ortanca): Önceden sıralanmış olan veri seti içerisindeki tam orta değere Medyan veya Ortanca denir. Gözlem sayısı tek olduğu durumlarda orta değer direkt alınır. (19 gözlem varsa 10. değer) Eğer gözlem sayısı çift ise ortadaki iki değerin aritmetik ortalaması medyan olarak değerlendirilir. (20 gözlem varsa 10. ve 11. değerlerin aritmetik ortalaması) ÖRNEK Önceki örnekteki aşağıdaki veri setinde 20 ve 21 kişilik durumlar için medyan değerini bulunuz. 3

ÇÖZÜM Her iki durumdaki medyan değerleri aşağıda verilmiştir. 20 veri olduğunda 10 ve 11. değerlerin aritmetik ortalamasının alındığı ve 21 veri olduğunda ise direkt olarak 11. değerin medyan olarak seçildiğine dikkat ediniz. Ayrıca sonuçlar karşılaştırıldığında medyanın, aritmetik ortalamaya göre daha az yükseldiği görülebilir. (Medyan +1,5 Ortalama +3,12) Mod: Bir veri seti içerisinde en yüksek frekansa sahip değere, bir başka deyişle veri seti içerisinde en çok rastlanan değere Mod adı verilir. Mod değeri örneklem sayısının az olmasından en çok etkilenen ölçüttür. Örnek sayısı az olduğunda frekansların çok değişken olmaması durumu ile karşılaşılabileceğinden birden fazla Mod değeri ile karşı karşıya kalınabilir. ÖRNEK Önceki örnekteki aşağıdaki veri setinde 20 ve 21 kişilik durumlar için mod değerini bulunuz. ÇÖZÜM Mod değeri en sık rastlanan gözlem olduğundan aşağıdaki gibi bulunabilir. Veri setinde sadece 20 adet örnek olduğu için mode değeri çok da açıklayıcı olmayan 66 değeri çıkmıştır. Bu bağlamda mod değerinin örnek sayısının az olduğu durumlarda güvenirliği sorgulanmalıdır. Diğer bir taraftan bakıldığında 21. örneğin mod değerini değiştirmeyeceği de açıkça görülmektedir. Bu bağlamda mod, uç değerlerden en az etkilenen merkezi eğilim ölçütüdür. 4

KENDİNİ SINA Simetrik dağılıma sahip histogramlarda Aritmetik ortalama, medyan ve ortalama değeri birbirine eşittir. Simetrik olmayan histogramlarda (sağa çarpık veya sola çarpık) aritmetik ortalama, medyan ve mod değerleri nasıl sıralanır. Yorumlayınız. Geometrik Ortalama: Örnek sayısının az olduğu durumlarda uç değerlerin minimize edilmesi adına aritmetik ortalama ölçütü yerine, Geometrik ortalama tercih edilir. Geometrik ortalama kısaca n tane değerin birbiri ile çarpımının n. Dereceden kökü olarak tanımlanır ve aşağıdaki şekilde formülize edilir. ÖRNEK Bir sınav için final sonuçları aşağıda verilmiştir. Geometrik ve Aritmetik ortalamayı hesaplayınız ÇÖZÜM Aritmetik ortalama ve Geometrik ortalama değerleri sırasıyla aşağıdaki gibi hesaplanır. Görüldüğü üzere 8. Değer olan 95 uç değerdir. Bu değer aritmetik ortalamayı daha fazla etkilemekte veri setindeki 8 değerin 6 sı ortalamanın altında kalmaktadır. Geometrik ortalama ise daha az etkilenmekte ve veri setinin bir yarısı Geometrik ortalaman büyük iken, diğer yarısı daha düşüktür. KENDİNİ SINA Aritmetik ortalama, Medyan, Mod ve Geometrik ortalama yöntemlerinin birbirlerine üstünlüklerini tartışınız. Hangi yöntemi hangi durumda tercih etmek daha uygun olur? 5

EXCEL Excel içerisinde merkezi eğilim ölçütlerinin her biri için farklı formüller mevcuttur. Bu formülleri aşağıdaki veri seti üzerinde test edelim. Excel de merkezi eğilim ölçütleri, kullanılan işlev adı ve yukarıdaki örnek için kullanılan formüller aşağıdaki tabloda sunulmuştur. Merkezi Eğilim Ölçütü İşlev Adı Formül Örneği Aritmetik Ortalama ORTALAMA = ORTALAMA(B2:B13) Medyan ORTANCA = ORTANCA(B2:B13) Mod ENÇOK_OLAN.TEK = ENÇOK_OLAN.TEK (B2:B13) Geometrik Ortalama GEORT = GEORT(B2:B13) Yukarıdaki formüller örneklem üzerinde uygulandığında aşağıdaki sonuçlara ulaşılır. 6

36 değerinin uç değer olduğu düşünülürse, mod değerinin hiç etkilenmediği, en yüksek etkilenme değerinin aritmetik ortalamada olduğuna dikkat ediniz. 3.2.2. Değişkenlik Ölçütleri Merkezi eğilim ölçüleri dağılım hakkında bilgi vermez. Bir veri setinin ortalamasının ne olduğu kadar, verilerin bu ortalama etrafında nasıl değişkenlik gösterdiğinin de bilinmesi önemlidir. Aşağıdaki örnekten de anlaşılacağı üzere, mavi ve kırmızı sınıfların bir dersten aldığı ortalamalar aynı olmakla beraber, farkı değişkenlikleri oldukları görsel olarak söylenebilir. Örnekte simetrik olan iki dağılımın ortalaması, medyanı ve modu aynı ver birbirine eşittir. Sadece merkezi eğilim ölçütleri ile bu örneklemler ile ilgili yorum yaptığımızda, aynı veri setinden bahsedildiği sonucuna dahi ulaşmak olasıdır. Bu şekildeki durumlarda veri dağılımlarını tanımlayan değişkenlik ölçütlerine (Dağılım aralığı, varyans, standart sapma, değişkenlik katsayısı) ihtiyaç duyulmaktadır. 7

Değişim Aralığı: En basit değişkenlik ölçütü olan değişkenlik aralığı örneklemin en küçük değeri ile en büyük değerinin farkından hesaplanır. En önemli avantajı kolayca hesaplanabilmesi ve yorumlanabilmesi olmakla birlikte, bu basitlik yeterli bilgiyi içermeme şeklinde karşımıza çıktığından diğer bir taraftan önemli bir dezavantajdır. Veri Seti 1: 4, 4, 4, 4, 4, 50 Değişim Aralığı: 50 4 = 46 Veri Seti 2: 4, 8, 15, 24, 39, 50 Değişim Aralığı: 50 4 = 46 Yukarıdaki örneklerden de anlaşılacağı üzere değişim aralığı bazı durumlarda yetersiz kalmaktadır. Birbirinden tamamen farklı dağılıma sahip iki veri setinin en küçük ve en büyük değerleri birbirine eşit olabilir. Bu iki örneklemi karşılaştırmak sadece değişim aralığı ölçütü ile mümkün değildir. EXCEL Değişim aralığı excel içerisinde MAK ve MİN işlevleri yardımıyla rahatça hesaplanabilir. Önceki Excel örneğindeki veriler için değişim aralığı aşağıdaki formülle bulunabilir. = MAK(B2:B13) MİN(B2:B13) Varyans: Bir veri setindeki her bir değerin ortalamadan uzaklıklarının karelerinin, ortalaması şeklinde hesaplanır. Varyans beklenen değer ile (Bütçe) gözlenen değer (Harcama) arasındaki farktır. Yapılması gereken ile yapılan arasındaki farktır. Ana kütle ve örneklemler için varyans değerleri aşağıdaki formüller yardımıyla hesaplanabilir. ÖRNEK 6 mezun tarafından ortalama yapılan iş başvurusu sayısı aşağıda verilmiştir. Varyansı hesaplayınız. 8

ÇÖZÜM Varyansı hesaplayabilmek için öncelikle örneklem ortalaması hesaplanmalıdır. Ortalama değeri belirlendikten sonra her bir değerin ortalamadan uzaklıklarının karesi alınarak, toplam örnek sayısının bir eksiğin bölünmesi ile varyans hesaplanır Bu 6 kişilik örneklem için toplam değişkenlik 33,2 birim olarak bulunur. Varyansın yorumlanması tek bir örneklem için çoğu zaman kolay değildir. Verilerin değişkenliklerinin (negatif veya pozitif yönde) mutlak olarak belirlenebilmesi adına, ortalamadan uzaklaşmaların karelerinin alınması çoğu zaman bu değeri yorumlayanlar için soruna yol açmaktadır. Varyans birden fazla değişken için karşılaştırılmalı olarak daha kolay yorumlanabilen bir ölçüttür. Standart Sapma: Ortalama veya beklene değerden ne ölçüde sapma olduğunu gösterir. Düşük standart sapma değerleri verilerin ortalamaya daha yakın seyrettiğini gösterir. Yüksek değerlerde ise veriler o kadar ortalamadan uzaklaşır. Standart sapma, varyans değerinin karekökü alınarak hesaplanan, bir nevi veri ile aynı birime normalleştirilen bir değerdir. En sık kullanılan değişkenlik ölçütüdür. Ana kütle ve örneklemler için standart sapma değerleri aşağıdaki formüller yardımıyla hesaplanabilir. 9

ÖRNEK 6 mezun tarafından ortalama yapılan iş başvurusu sayısı aşağıda verilmiştir. Standart sapmayı hesaplayınız. ÇÖZÜM Standart sapma, varyans değerinin karekökü olduğundan önceki çözümde hesaplanan varyans değerinin karekökü alınır. Hesaplanan standart sapma değeri 5,8 olarak karşımıza çıkmaktadır. Standar sapma örneklemdeki değerler ile aynı aralıkta olduğundan ( ortalamadan farklarının karesinin karekökünden hesaplandığı için) yorumlanması oldukça kolaydır. Örneğin yukarıdaki örnekte verilerilerin önemli bir kısmının ortalama olan 14 değerinin 5,8 üstünde ve altında olması beklenir. Yani verilerin büyük çoğunluğu 8,2 ile 19,8 arasındadır. (Bizim örneğimizde 6 örneğin 4 tanesi yani %66,7 sı) Yukarıdaki örnek için yaptığımız yorum pratikte çok değerlidir. Çünkü pratikte veri setlerinin çoğunun dağılımı simetrik sürekli bir dağılım olan normal dağılıma uyar ve bu dağılım için en önemli açıklayıcı parametre standart sapmadır. Örneğin normal dağılıma sahip veri setlerinde, bütün verilerin %68 i ortalamadan tek standart sapma uzaklıkla yer alır. Yani verilerin 2/3 ünden fazlası aralığındadır. Yukarıda verilen şekillerden (Keller, 2007) de anlaşılacağı üzere simetrik normal dağılımda verilerin Büyük çoğunluğu (%95) 2 aralığında iken, neredeyse bütün veriler (%99,7) 3 aralığında yer alırlar. Örneğin 100 kişilik bir sınıftaki öğrencilerin matematik dersinde aldıkları notların ortalaması 47 ve standart sapması 11 olan normal dağılıma uyuyor ise, bu sınıftaki öğrencileri 68 tanesinin 36 ile 58 arasında, 95 tanesinin ise 25 ile 69 arasında not alması beklenir. Öğrencilerin hemen hemen hepsi (99 tanesi) ise 14 ila 80 arası not alması öngörülebilir. 10

Standart sapma sağladığı pratik yorumlama avantajlarından dolayı hemen hemen her sektörde yoğun bir kullanım alanına sahiptir. Varyansa göre daha rahat anlaşılabilir. Tek değişken için yorumlanabileceği gibi, birden fazla değişlen için karşılaştırma durumlarında da rahatlıkla yorumlanabilir. Değişkenlik Katsayısı: Değişkenlik katsayısı standart sapmanın aritmetik ortalamaya bölünmesi ile elde edilen yüzdesel bir orandır. Aşağıdaki formülle hesaplanır. Bir ana kütleden 3 farklı örneklem çektiğimizi düşünelim. Bu örneklemler için ortalamalar ve standart sapmalar aşağıdaki gibi olsun. Örneklem 1 Ortalama = 141 Standart Sapma = 12 Örneklem 2 Ortalama = 136 Standart Sapma = 12 Örneklem 3 Ortalama = 136 Standart Sapma = 10 Örneklem 1 ve Örneklem 2 için standart sapmalar aynı olduğu görülmektedir. Bu durumda sadece standart sapma ile yorum yaparsak o zaman iki örneklem için değişkenliklerin aynı olduğu sonucuna varırız. Fakat ikinci örneklemin ortalaması daha düşüktür. Bu durumda ikinci örneklem için bu standart sapma değeri daha fazla değişkenlik göstermektedir. Üçüncü örneklemde standart sapma değeri daha düşük olmakla birlikte, ortalama da düşüktür. Bu durumda birinci örneklem mi yoksa üçüncü örneklem mi daha değişkendir. İşte bu şekilde karşılaştırma durumlarındaki zorluklardan kurtulmak adına değişkenlik katsayısı oranları hesaplanır. Örneklem 1 Değişkenlik Katsayısı = 12/141 = 0,0851 Örneklem 2 Değişkenlik Katsayısı = 12/136 = 0,0882 Örneklem 3 Değişkenlik Katsayısı = 10/136 = 0,0735 Değişkenlik katsayıları üzerinden yorum yaparsak; en fazla değişkenlik ortalamanın düşük, standart sapmanın yüksek olduğu Örneklem 2 dedir. Örneklem 3 ise en az değişkenliğe sahip veri setidir. ÖRNEK 6 mezun tarafından ortalama yapılan iş başvurusu sayısı aşağıda verilmiştir. Değişkenlik Katsayısını hesaplayınız. 11

ÇÖZÜM Değişkenlik katsayısı standart sapmanın ortalamaya oranıdır. Bu soruda ortalama değerini 14 olarak ve standart sapma değerini 5,8 olarak daha önceden bulmuştuk. Bu şartlar altında değişkenlik katsayısı aşağıdaki gibi bulunur. 5,8 0,4142 14 EXCEL Excel de merkezi eğilim ölçütleri, kullanılan işlev adı ve önceki sayfalarda verilen örnek için kullanılan formüller aşağıdaki tabloda sunulmuştur. Değişkenlik Ölçütü İşlev Adı Formül Örneği Varyans VAR.S = VAR.S (B2:B13) Standart Sapma STDSAPMA.S = STDSAPMA.S(B2:B13) Yukarıdaki tabloda verilen VAR.S ve STDSAPMA.S işlevleri örneklem için kullanılmaktadır. Eğer elimizde tam örneklem çerçevesi mevcut ise VAR.P ve STDSAPMA.P işlevlerinin kullanılması gerekmektedir. Değişkenlik aralığının MAK ve MİN işlevleri yardımıyla hesaplandığını daha önce belirtmiştik. Değişkenlik katsayısı ise standart sapmanın ortalamaya oranı olduğundan veri setindeki ilgili hücrelerin bölünmesi ile (E9/E2) hesaplanır. Bu şartlar altında hesaplamalar aşağıdadır. Excel içerisinde merkezi eğilim ve değişkenlik ölçütleri için ayrı ayrı formül yazma zorunluluğu yoktur. Veri sekmesi altında daha önce aktif ettiğimiz Veri Çözümleme komutu seçilip açılan listeden Tanımlayıcı İstatistik seçilirse aşağıdaki ekran karşımıza gelir. 12

Bu ekranda 1 numaralı kısımdan tanımlayıcı istatistiklerini almak istediğimiz veri seti seçilip, 2 numaralı kısımdaki kutucuk işaretlenirse Excel bize farklı bir sayfada merkezi eğilim ve değişkenlik ölçütlerini toplu halde sunar. Veri çözümleme aracı ile elde edilen yukarıdaki tanımlayıcı istatistik tablosunda değişkenlik katsayısı ve geometrik ortalama değerleri bulunmaz. Tablo içerisinde Kip olarak adlandırılan değer moda karşılık gelmekte, Aralık ifadesi ise değişim aralığını göstermektedir. Bu sayfada verinin çarpıklık, basıklık değeleri, toplam örnek sayısı (Say), örneklem içerisindeki verilerin toplamı, en küçük ve en büyük değer gibi diğer tanımlayıcı istatistik değerlerine de ulaşılabilir. 13

3.2.3. Göreceli Durum Ölçütleri: Örneklemdeki verilerin tamamı göz önüne alındığında her hangi bir değerin veya değer kümesinin örneklem içerisindeki konumunun ortalama gibi bazı parametrelere karşısındaki konumunu göreceli durum ölçütleri yardımıyla belirleriz. Persentil: Örneklem içerisindeki gözelm değerlerinin belli bir kısmını içine alt üst sınırlara (%10, %20) persentil (yüzdebirlik veya yüzdelik diye adlandırılır) denir. Bir başka ifade ile bir değişkenin gözlem değerleri arasındaki belirli yüzdelik dilimi belirleyen değerdir. Örneğin bütün verinin %10 bir değerin altında ise, bu değer %10 yüzdelik veya persentil olarak ifade edilir. Büyük veri setlerini tanımlamakta kullanılan göreceli bir durum ölçütüdür. Persentili hesaplamak için öncelikle veri seti küçükten büyüğe sıralanmalıdır. Aşağıdaki formül yardımıyla persentil değerinin konumu ( ) belirlenebilir. Çeyreklik (Kartil): 1 100 Çeyreklik ise örneklem için sırasıyla %25 ine denk gelen değer (%25 lik persentil), Medyan (%50 lik persentil) ve %75 e denk gelen değerlere (%75 lik persentil) karşılık gelir. Sırasıyla,, olarak gösterilir. İlk veya alt çeyreklik, ikinci çeyreklik veya medyan ve ise üçüncü çeyreklik veya üst çeyreklik olarak adlandırılır. ÖRNEK Bir grup çalışanın boy değerleri santimetre cinsinden aşağıda verilmiştir.,, değerlerini sırasıyla belirleyiniz. 14

ÇÖZÜM Çeyreklik değerlerini hesaplayabilmek için öncelikle verileri sıraya dizmeliyiz. Daha sonra persentillerin konumlarının hesaplandığı değerleri aşağıdaki gibi sırayla hesaplanır. 25 1 25 100 6,5 13 25 1 75 100 19,5 Bu değerler bize persentilin konumu verir. Yani verilerin % 25 ini içine alan değer 6,5. değerdir. Böyle bir değer olmadığından doğrusal bir interpolasyona ihtiyaç vardır. 6,5. değer 6. değer ile 7. değer eşit uzaklıkta olduğunda 6. değer ile 7. Değerin aritmetik ortalamasından hesaplanır. Örneklemin % 75 ini kapsayan değer 19,5. değer de aynı şekilde belirlenir. Böylece,, değerleri aşağıdaki gibi bulunur. 6. ğ 7. ğ 2 160 162 2 13. ğ 169 19. ğ 20. ğ 2 177 179 2 161 178 Örnektende anlaşılacağı üzere çeyreklik değerleri belirlenirken persentil konumundan gelen değer ondalıklı ise doğrusal interpolasyonla sonuç çıkarılır. Örneğin 24 değerli bir veri setinde %25 lik 15

persentil 6,25. değer olacaktır. Bu durumda persentil değerinin 6. değere 7. değerden daha yakın olacağı görülmektedir. 6. değer 8 ve 7. değer 12 ise 6,25. değer aşağıdaki gibi hesaplanır. 0,75 6. ğ 0,25 7. ğ 0,75 8 0,25 12 6 3 9 5 Nokta Yöntemi: 5 sayı yöntemi,, çeyreklik değerleri ile birlikte veri setindeki en küçük (S) ve en büyük değerin (L) birlikte sunulduğu bir tanımlayıcı istatistik yöntemidir. Değişim aralığı değerinin daha gelişmiş hali olarak da ifade edebileceğimiz bu yöntem veri setinin değişkenliği ve konumu hakkında önemli bilgiler sunmaktadır. Aşağıdaki gibi bir tabloda sunulur. ÖRNEK En Küçük Değer (S) Birinci Çeyreklik ( ) Medyan ( ) Üçüncü Çeyreklik ( ) En büyük Değer (L) Önceki soruda verilen bir grup çalışanın boy değerleri için 5 nokta değerlerini belirleyiniz. ÇÖZÜM Önceki sorun çözümünde yapılan sıralamada en küçük değerin 145 ve en büyük değerin 188 olduğu görülmektedir. Soruda ayrıca çeyreklikler ise sırasıyla, 161, 169 ve 178 olarak bulunmuştur. Bu şartlar altında 5 nokta tablosu aşağıdaki gibidir. En Küçük Değer (S) 145 Birinci Çeyreklik ( ) 161 Medyan ( ) 169 Üçüncü Çeyreklik ( ) 178 En büyük Değer (L) 188 Yukarıdaki tablodan verilerin yaklaşık olarak 40 birim içerisinde dağıldığı ve çeyrekliklerin medyana yakın olması durumu da dikkate alınarak çok fazla değişkenlik göstermedikleri sonucuna varılabilir. 5 Nokta yöntemi tamamen sayılardan oluşan yapısıyla bazı durumlarda kolayca yorumlanamayabilir. Bu yüzden önceki haftaki içerikte de bahsettiğimiz Kutu Grafiği geliştirilmiştir. Temelde 5 Nokta yöntemine dayanan kutu grafiği veri setinin değişkenliği ve hangi aralıkta değiştiği ile ilgili önemli yorumlar sunar. Kutu grafiği uç değerleri, medyanı (dağılım simetrikse ortalamayı) ve dağılımı birlikte sunduğunda kuvvetli bir görsel tanımlama aracıdır. 16

Şekildende (Keller 2007) görüleceği üzere kutu genişliği verilerin %50 sini kapsayacak şekilde belirlenmektedir. Ayrıca veri setinin değişkenliğini gösteren kutudan sağa ve sola doğru uzanan çubuklarda (Whiskers) çizilmelidir. Kutu 5 nokta değerleri ile çizilebilirken, sağ ve sol çubukları çizmeden önce olarak ifade edilen çeyreklikler arası uzaklığın belirlenmesi gerekmektedir. değeri üçüncü çeyreklikten birinci çeyrekliğin çıkarılması ile bulunur. Bu değer 5 nokta tablosundaki değerine eşittir. Çubukların ne kadar uzayacağını belirlemek için öncelikle sol taraftaki çubuk için 1,5 ve sağ taraftaki çubuk için 1,5 değerleri hesaplanmalıdır. Hesaplanan değerler sırasıyla S den küçük ve L den büyük ise dikkate alınmazlar. Aksi halde hesaplanan bu değerler dikkate alınarak çizimler yapılır. DİKKAT Eğer çizimlerde ve değerleri yerine dan hesaplanan yeni değerler kullanılırsa birden fazla gözlem değerinin aykırı değer olarak görüleceğine dikkat ediniz. ÖRNEK Önceki soruda verilen bir grup çalışanın boy değerleri için kutu grafiğini çiziniz ve aykırı değer olup olmadığını sorgulayınız. 17

ÇÖZÜM 5 nokta tablosuna ek olarak, 1,5 ve 1,5 değerleri hesaplanmalıdır. En Küçük Değer (S) 145 Birinci Çeyreklik ( ) 161 Medyan ( ) 169 Üçüncü Çeyreklik ( ) 178 En büyük Değer (L) 188 178 161=17, 161 1,5*17= 135,5, 178+1,5*17= 203,5 1,5 değeri 135,5 olduğundan S değerinden küçüktür. Bu yüzden çubuklar çizilirken dikkate alınmaz. Benzer şekilde 1,5 203,5 sonucu L değeri 188 den büyük olduğundan dikkate alınmayacaktır. Bu durumlar dikkate alındığında kutu grafiği aşağıdaki gibi çizilebilir. Çubuk çizimlerinde S ve L dikkate alındığından herhangi bir aykırı değer olmayacaktır. 18

ÖRNEK OLAY Perakendecilik Fast Food Şirketlerinin Karşılaştırılması (Keller, 2007) Amerikadaki 3 büyük fast food şirketinin ortalama servis sürelerinin karşılaştırılması için kutu grafiğinden yararlanılmıştır. Yukarıdaki grafiğe göre öncelikle Wendy s firmasının ek kısa bekleme sürelerine sahip olduğu görülmektedir. (100 ila 180 saniye arasında) Wendy s aynı zamanda servis süresi söz konusu olduğunda en düşük değişkenliğe sahiptir. Çünkü hem kutu dar hem de çubuklar kısadır. Bununla birlikte Wendy s firmasında en az 5 müşteri servisinin beklenen çok uzun veya çok kısa olduğu çubuklar sonrasında görünen aykırı değerlerden anlaşılmaktadır. Simetrik bir dağılıma sahip Jack in the Box 200 ila 350 saniye servis süreleri ile müşterilerini en çok bekleten firmadır. Hardee s yüksek değişkenlikle müşterilerine 120 ila 300 saniye aralığında hizmet vermekte, fakat bu müşterilerin büyük kısmına 200 saniyenin altında hizmet sunmaktadır. Sağa çarpık bir dağılıma sahip Hardees servis süreleri simetrik bir veri dağılımına sahip değildir. 19

Z Skoru: Örneklem içerisindeki verilerin örneklem ortalamasından ne kadar uzakta olduğunun oransal olarak gösterebilmek adına hesaplanan, gözlemlenen değişkenin standardize edilmiş halidir. Aşağıdaki formülle hesaplanabilir. Burada hesaplanan z değeri ile herhangi bir değerin ortalamadan kaç standart sapma ile uzaklaştığını belirleyebiliriz. Örneğin İstatistik dersine ait final sınavının ortalamasının 60 ve standart sapmanın 5 olduğu belirlenmiş ise, 45 alan bir öğrenci için z skorunu hesaplayıp yorumlayalım. 45 60 5 3 Z değerinin 3 olarak ortaya çıkması, 45 notu almış olan öğrencinin ortalamadan 3 standart sapma daha aşağıda not aldığı şeklinde yorumlanabilir. İstatistik dağılımlarının en önemlisi olan normal dağılım olasılık değerlerinin kolaca hesaplanabilmesi için z skorlarından faydalanılır. 20

SPSS İLE UYGULAMALAR SPSS içerisinde sayısal tanımlayıcı istatistikler Analyze içerisinde yer alana Descriptives alanında bulunur. Bütün istatistikleri Bu alanda yer alana geçtiğimiz hafta işlediğimiz Frequencies analizinden elde edebiliriz. EXCEL içerisinde kullandığımız 25 öğrenciye ait boyları SPSS içerisine girerek BOY adı altında Scale measure yapısında bir değişken oluşturuyoruz. Daha sonra yukarıda belirtilen Freequencies analizine basıyoruz. Şekilde görüldüğü gibi BOY değişkeni variables tarafına alınarak Statistics düğmesine basılır. Yukarıdaki gibi seçimler yapılarak Coninue düğmesine, daha sonra ise çıkan ekranda Ok düğmesine basılır. Bu ekranda merkezi eğilim ölçütlerinden Aritmetik Ortalama, Mod ve Medyan yer alırken, Değişkenlik ölçütlerinden Değişim aralığı (rank), varyans ve standart sapma (standart deviation) istatistikleri bulunmaktadır. Göreceli durum ölçütlerinden persentillerde de yine bu ekrandan seçilebilir. Çeyreklikler Quartiles alanından seçilebilirken, istenirse Cuts point for. Equal groups kısmından eşit aralıklı persentil değerleri alınabilir. Percentiles kısmında ise istenilen değer elle girilebilir. 21

Şekilden de görüleceği üzere çok kolay bir şekilde SPSS tarafından genelde kullanılan açıklayıcı ölçütler sıralanmıştır. Aşağıda verilen uyarı ise birden fazla mod olduğunu göstermektedir. Kutu Grafiği Oluşturma Kutu grafiği karşılaştırma amaçlı kullanılan bir diyagram olduğundan yukarıda verilen veri seti olan Boy veri setinin karşılaştırma ölçütü olarak Cinsiyeti değişken olarak ekleyelim. Burada dikkat edilmesi gereken değişkenin measure alanının Nonimal olmasıdır. Kutu grafiği yukarıda gösterildiği gibi Boxplot düğmesi yardımıyla seçilir. Daha sonra çıkan mini ekranda simple seçildikten sonra aşağıdaki gibi Category axis alanına kategorik veriniz olan CINSIYET değişkeni girilirken Variable alanına ise BOY scale değişkeni girilir. Daha sonra OK tuşuna basılır. Çizim SPSS tarafından aşağıdaki gibi oluşturulur. 22

Bu diyagram üzerinden erkeklerin daha boyları daha fazla değişken ve ortalamaları daha yüksektir şeklinde yorumlar yapılabilir. ÖZET Verilerin özetlenmesi ve tanımlanması adına grafik ve tablo teknikler önemli avantajlar sağlamasına karşın bazı durumlarda yetersiz kalmaktadır. Bu durumda sayısal bazı istatistiklerin hesaplanması önem arz etmektedir. Merkezi eğilim ölçütleri diğer bir deyişle konum ölçütleri örneklemin ana kütle içerisindeki konumunu aritmetik ortalama, medyan ve mod gibi istatistiklerle sunmaktadır. Sıklıkla tercih edilen bu yöntemler veri setinin büyüklüğü, aykırı değerlerin varlığı gibi özel durumlardan etkilenirler. Merkezi eğilim ölçüleri dağılım hakkında bilgi vermez. Bir veri setinin ortalamasının ne olduğu kadar, verilerin bu ortalama etrafında nasıl değişkenlik gösterdiğinin de bilinmesi önemlidir. Bu amaçla dağılımı ve değişkenliği betimleyen değişim aralığı, varyans, standart sapma ve değişkenlik katsayısı değerleri hesaplanmalıdır. Değişim aralığı sadece en küçük ve büyük değerle ilgili olduğundan, bu değerler arasındaki dağılım hakkında tam olarak bilgi sunmaz. Değişkenliği betimleyen varyans genellikle ikiden fazla değişkenin karşılaştırılmasında, Standart sapma ise varyansın normalize edilmiş hali olduğundan her türlü durumda kullanılabilir. İki veri setinin standart sapmasının aynı veya yakın olması, değişkenliği tek başına gösteremez. Bu gibi durumlarda standart sapmanın ortalamaya oranı olan değişkenlik katsayısı hesaplanmalıdır. Örneklem içerisindeki değerlerin göreceli konumlarıda bize farklı bir bakış açısı kazandırır. Herhangi bir grafik çizmeksizin 5 nokta yöntemi ile hem veri dağılımı, hem de ortalama ve değişim aralığı gibi değerler birlikte incelenebilir. Eğer göreceli konumu görselleştirmek istiyorsa o zaman kutu grafiğini tercih etmemiz gerekmektedir. Z skorları ise standart sapma yardımıyla değişken değerlerinin standartlaştırılmasıdır ve ortalamadan kaç standart sapma kadar sapıldığını gösterir. 23

SON NOT Kategorik veriler için sayısal tanımlayıcı teknikleri kullanmayın. Bazı kategorik değişkenler sayısal formda sunulsa da bu durum o değişkenlerin kantitatif yani nominal oldukları manasına gelmez. Bazı durumlarda birden fazla mod değerine rastlanabilir. Bu şekildeki durumlarda diğer tanımlayıcı istatistiklere yönelin. Verilerin içerisinde aykırı değer olup olmadığını sorgulayın. Bu durum sonucunda kullanılacak tanımlayıcı yöntemi seçin. ÇALIŞMA SORULARI S1 Aşağıdaki veri setini dikkate alarak aritmetik ortalama, medyan, mod ve geometrik ortalama değerlerini hesaplayınız ve farklılıklarını yorumlayınız. S2 Aşağıdaki veri setini dikkate alarak aritmetik ortalama, dağılım aralığı, varyans, standart sapma ve değişkenlik katsayısı değerlerini hesaplayınız ve yorumlayınz. S2 Aşağıdaki veri seti için kutu grafiğini çiziniz. Çizilen grafiği yorumlayınız. Aykırı değerlerin varlığını sorgulayınız. KAYNAKLAR 1. Keller, Gerald; Statistics for Management and Economics, 9e, 2012 2. Groebner, D.F.; Shannon, P.W., Fry, P.C, Smith, K.D; Business Statistics: A decision Making Approach, 7e, 2007 3. McClave, J.T, Benson, P.G, Sincich, T.; Statistics for Business and Economics, 11e, 2011 4. Sharpe N.R., De Veaux R.D., Velleman P.F.; Business Statistics 2e, 2012 24