3 VERİLERİ ÖZETLEME 3.. Frekans Tablolarının Düzenlenmesi 3.2. Frekans poligonu 3.3. Frekans tablosu hazırlama 3.4. Frekans Histogramı 3.5. Frekans eğrisi tipleri 3.6. Diğer İstatistiksel Grafik Gösterimler 3.7. Dönüşümler (Verilerin Transformasyonları) Prof.Dr. Levent ŞENYAY III -
Verilerin özetlenmesi aşamasında, her özetleme işleminde olduğu gibi doğal olarak bir bilgi kaybı da olacaktır. Burada amaç elde edilen özet bilginin kulam kolaylığına değecek bir kaybın oluşmasını sağlayacak dengeyi sağlamaktır. Diğer bir deyişle elde edilmek istenilen özetin kaybedilen detaydan daha önemli olacak şekilde özetin planlanmasıdır. Notasyon n hacimli gözlem seti x,x 2,x n n. x i = xi lerin toplamı (i=,2,,n) n i= = x +x 2 + +x n 2. x i yi = x y + x2 y2 +... + xn yn 3. i= n n n x y x y i i i i i= i= i= n 4. ax = ax + ax2 +... + axn i= i ( x + x + ) = a... + = a n x i i= 5. ( ax by) 2 x n ± = a x ± b y 6. Oran : p=x/n q=(n-x)/n (q:başarısızlık oranı) x : örnekte belli özelliğe sahip eleman sayısı, n : örnek hacmi Oran, örnekte belli özelliğe sahip eleman sayısının örnek hacmine bölümüdür. 3.. Frekans Tablolarının Düzenlenmesi İstatistik veriler toplandıktan sonra, birbirine yakın gözlem değerleri, benzer özellikli sınıflar oluşturulabilecek hale getirilir. Ancak bu sınıflama yapılırken sınıfların alt ve üst limitleri, analiz amacına uygun olarak seçilmelidir. Örneğin; gelir gruplarına göre bir sınıflama yapmak gerektiğinde grubun alt limiti ile üst limiti arasındaki fark aynı gelir gurubunu ifade etmeyecek kadar geniş olmamalıdır veya bir önceki sınıf ile bir sonraki sınıf arasındaki fark ayrı gelir gruplarını ifade edecek şekilde belirlenmelidir. İstatistiksel veri analizinde hesaplama şekilleri genellikle iki ana grupta toplanmaktadır.. Basit veriler : Eğer veriler orijinal halleri ile kullanıldığı verilerin sıralanış şeklidir. 2. Frekans verileri : Frekans verileri ise basit serilerin belli şekilde benzer olanlarının bir araya getirilerek gösterimidir. Bu tür seriler de iki şekilde olur, a. Gruplanmış veriler : Basit verilerin aynı olanlarının bir araya getirildiği verilerdir. Sıraya dizilmiş durumda veri olmayan grupların frekansı sıfır kabul edilerek bir düzen içerisinde gösterilir. b. Sınıflandırılmış veriler : Birden çok basit verinin birlikte gösterildiği veriler. Bu tür veriler genellikle araştırma amacı açısından benzer öellikte alt ve üst sınırları belirlenen Prof.Dr. Levent ŞENYAY III - 2
basit verilerin bir araya getirilmesi ile oluşturulur. Bu sınıflar eşit ya da benzer Arallıklarda olabileceği gibi, eşit aralıklı olmayabilirler. Örnek :. Basit seri (veri) 38 36 43 38 43 33 43 39 43 38 39 44 38 47 36 4 44 45 36 47 44 4 36 42 39 n=25 min=33 max=47 değişim aralığı=47-33=4 2. Frekans verileri a. Gruplandırılmış veri Gruplar 33 34 35 36 37 38 39 40 4 42 43 44 45 46 47 Frekans 0 0 4 0 4 3 0 2 4 3 0 2 b. Sınıflandırılmış veri Sınıflar Frekanslar veya Sınıflar Frekanslar 32,5 34,5 dan az 32.5 dan çok - 35.5 2 34,5-36,5 dan az 5 35.5 dan çok - 38.5 8 36,5 38,5 dan az 4 38.5 dan çok - 4.5 5 38,5 40,5 dan az 3 4.5 dan çok - 44.5 8 40,5 42,5 dan az 3 44.5 dan çok - 47.5 2 42,5-44,5 dan az 7 44,5 46,5 dan az 46,5 48,5 dan az sınıf orta noktası=(lü+la)/2=x ( bazen x yeri m ile de gösterilebilir) Sınıflar La Lü f nispi fr=fi/σf f ekl.nispi fr f x = La + Lü 2 33.0 34.9 0.04 0.04 25 33.95 35.0 36.9 4 0.6 5 0.20 24 35.95 37.0 38.9 4 0.6 9 0.36 20 37.95 39.0 40.9 3 0.2 2 0.48 6 39.95 4.0 42.9 3 0.2 5 0.60 3 4.95 43.0 44.9 7 0.28 22 0.88 0 43.95 45.0 46.9 0.04 23 0.92 3 45.95 47.0 48.9 2 0.08 25.00 2 47.95 Toplam 25 00 Prof.Dr. Levent ŞENYAY III - 3
3.2. Frekans poligonu Histogram dikdörtgenlerinin tepelerinin orta noktalarını birleştiren çizgi den daha az eğrisi 3.3. Frekans tablosu hazırlama. Ham sayısal veriler artan veya azalan düzende sıralanır. 2. En büyük ve en küçük veriler arasındaki ölçüm farkı alınır ve değişim aralığı (range) bulunur 3. ölçüm aralığı istenilen uygun sınıf sayısına bölünür. Genellikle 5-20 arasında 4. her sınıf aralığına düşen veri sayısını belirle ve sınıf frekansını bul Frekans tablosu düzenlenirken dikkat edilmesi gereken noktalar:. Sınıflarda ortak noktalar bulunmamalıdır. 2. İlk sınıf en küçük veriyi, son sınıf en büyük veriyi içermelidir. Hiçbir ölçüm iki sınıf arasını ayıran nokta üzerine düşmemelidir 3. Alt-üst sınırlarda olmayan değerlere gidilmemelidir. Prof.Dr. Levent ŞENYAY III - 4
4. Bir frekans tablosunda enaz 5 ençok 20 sınıf olmalıdır. 3.4. Frekans Histogramı Koordinat sisteminde yer alan dikdörtgenler setidir. İzmir ili sınırları içerisinde yapılan bir anket sonucunda sahip olunan çocuk sayısına göre aile sayısının dağılımı aşağıda verilmiştir. Frekans Tablosu Çocuk Sayısı 0 2 3 4 5 6 Aile Sayısı 94 65 87 7 34 2 5 frekans poligonu Relatif Frekans Tablosu 0.30 0.25 0.26 Bar Chart 0.24 0.20 0.8 0.9 0.5 0.0 0.09 0.05 0.00 0.03 0 2 3 4 5 6 0.0 Prof.Dr. Levent ŞENYAY III - 5
3.5. Frekans eğrisi tipleri Çan Eğrisi veya Simetrik Sağa Çarpık ( + asimetri) J Eğrisi Sola Çarpık (- asimetri) U Eğrisi Birden Çok Modlu Dağılımlar Prof.Dr. Levent ŞENYAY III - 6
kesikli(kategorik) aralıklandırılabilir(yaş) aralıklandırılamaz(tel no.) sürekli(sayısal) derleme şekli -basit gözlem serisi -gruplandırılmış gözlem serisi -basit gözlem serisi -sınıflandırılmış gözlem serisi Veri tipi Tablolama Şekli Grafik Gösterimi Kalitatif Gruplandırılmış frekans dağılımı çubuk diyagramı Alan(daire) diyagramı Kantitatif Sınıflandırılmış/basit frekans dağılımı histogram frekans poligonu gövde yaprak diyagram Veriler Tablolama Şekli Grafik Gösterimi Kesikli ise Frekans çubuk diyagramı Kısmi frekans Alan(daire) diyagramı Sürekli ise Frekans Kısmi frekans Külülatif kısmi fr histogram frekans poligonu gövde yaprak diyagram 3.6. Diğer İstatistiksel Grafik Gösterimler. Gövde Ve Yaprak Gösterimi İstek No Proses Zamanı İstek No Proses Zamanı 2,3 26 3,3 2 5,7 27 6,0 3 6,6 28 5,9 4 0 29 7,2 5 5, 30,2 6,8 3 4,0 7 2,5 32 7,8 8 2,0 33 3,4 9 4,6 34 3,2 0,9 35 2,3 6,7 36 4,0 2 3,9 37 5, 3 3,4 38 6,4 4 2,6 39 7,7 5 3,6 40 4,4 6 3,4 4 5,4 7 9,4 42 7,5 8 4,9 43 6, 9 7,4 44 8,2 20 20,2 45 4,3 2 3,9 46 2,9 22,7 47 9,9 23 6,2 48 4,4 24 5,8 49 4,3 25,4 50 9,0 Prof.Dr. Levent ŞENYAY III - 7
Gövde ve Yaprak Grafiği Depth Stem Leaves 5 24789 2 033569 8 3 2344699 24 4 034469 (5) 5 789 2 6 0467 6 7 24578 8 24 9 9 049 6 0 0 5 5 2 5 3 4 4 4 03 High 6.2, 20.2 2. Pareto Diyagramı Pareto diyagramı çeşitli kusurlu frekanslarını gösterir. Bu diyagram kusurların ana kaynaklarını tanımladığından dolayı, endüstride değerli bir araç olarak kullanılmaktadır. Örnek İzmir ili sınırları içerisinde yapılan bir anket sonucunda sahip olunan çocuk sayısına göre aile sayısının dağılımı aşağıda verilmiştir. Çocuk Sayısı 0 2 3 4 5 6 Aile Sayısı 94 65 87 7 34 2 5 00 80 94 87 25 Percent 60 7 65 40 34 AILESAYI 20 0 0 2 3 4 2 5 5 6 0 COCUKSA Pareto diyagramı değişken kusurların frekanslarını gösteren bir çubuk diyagramdır. Frekansların azalan düzende çubuklarını gösterilir; en yüksek frekans solda en alçak frekans sağda gösterilmektedir. Prof.Dr. Levent ŞENYAY III - 8
Pareto diyagramları genellikle %75 üzerinde kayıpları içeren iki veya üç kusurluyu gösterir. Pareto diyagramları bazı kalite geliştirme programlarının önemli bir aracıdır, çünkü bir veya daha fazla kusurlara yol gösteren bir veya daha fazla kategori üzerine herkesin dikkatini odaklar. Böylelikle yüksek frekanslı olan kusurluları daha rahatlıkla görebilir ve düzeltebiliriz. 3. Ishikawa neden ve etki diyagramları (sebep sonuç diyagramı veya balık kılçığı diyag. Ana sebep ve Alt sebepler Men Machine Problem (sonuç) Method Material Kusurların Nedenlerinin Teşhisi Kalite kontrolünün ana amacı kaliteyi arttırmaktır, bu daha iyi ürün sağlayan faaliyetleri uygulamakla gerçekleştirilir. Ölçümler düşük kalitenin nedenlerini düzeltmek için yapılmalıdır. Kauru Ishikawa isimli bir Japon kontrol mühendisi, yanıtlara etki eden değişkenleri gösteren bir kesin neden ve etki diyagramlarını geliştirmiştir. Bu diyagramlar balık kılçığı diyagramları olarak isimlendirilir çünkü bir balığın iskeletine benzerler. Bilginin organizasyonu ve hazırlanmasına bağlı olarak bir çok farklı neden ve etki diyagramları kurma metodları vardır. Burada ana faktörleri ve bunlara bağlı alt faktörler göstermektedir. Histogramlar gözlemlerin değişkenliğinin gösteriminde çok değerli araçlardır ve analizciye veri setinin anlaşılmasının geliştirilmesinde yardımcı olur. Ancak histogramların bir dezavantajı vardır bu da bağımsız veri noktalarının ayırt edilemez bir aralığı düştüğünden dolayı tanımlanamamasıdır. histogram yerine kök ve yaprak gösterimiyle daha fazlasını yapabilir ve ayrıca orijinal verileri de kaybetmeyiz Burada orijinal sayılar kaybolmaz ve çeteleye işaretlenmiştir. 3.7. Dönüşümler (Verilerin Transformasyonları) Neden nesneleri kesin metrik sistemde ölçeriz? Çoğunlukla geleneksel veya alışkanlıktır. Simetriye Ulaşmak İçin Dönüşümler: İstatistikte çoğunlukla dönüşümleri yeni ölçümün daha simetrik dağılması için yapılır. x:,4,9,6 değerleri orta değer etrafında simetrik değil gerçekte sağa çarpıktır. Fakat 2,5 etrafında simetrik dağılır. x :,2,3,4 değerleri Bazı dönüşümler için aşağıdaki örnekleri ele alalım.. x ε(,0,00,000) ;log xε ( 0,,2,3 ) 3 2. x ε(,8,27,64) ; xε (,2,3,4, ) 3. x ε{ 3,4,6,2} ;2 ε{,2,3,4 } x Bu gibi durumlarda orijinal sayı setleri çarpık, dönüşüm setleri simetriktir. Yukarıdakiler tabi ki çok basit ve suni örneklerdir ancak bunlar güç dönüşümlerde verilen x p, p 0 dönüşümleri açıklar. Burada ln x = log e x, p=0 dönüşümünün rolünü oynar çünkü ( x p ) / p nin limiti p nin 0 a yaklaşımı gibi ln x e eşittir. Prof.Dr. Levent ŞENYAY III - 9
Eğer verileri dönüştürmek istiyorsak bu nasıl yapılamalıdır? Bu genellikle biraz deneyim ister ve ileri istatistik alanında dönüşümleri kullanmak için teorik sebepler ile çalışılır. Bu basit örneklerden x 2 3, x, ln x veya genel olarak p< iken dönüşümlerinin pozitif veya sağa çarpık verilerin dağılımını 3 simetrik yaptığını gördük. Karekök dönüşümleri x ve ln x kullanılması kadar gerekli olmayan bu kadar 2 çok çarpık olmayan veriler için kullanılır. Bir başka deyişle, eğer veriler sola çarpık ve pozitif ise x veya 3 p x veya x p> dönüşümleri kullanılabilir. Değişim Kontrolü İçin Dönüşümler:Şu ana kadar simetrik yapmak için nasıl dönüşüm yapmamız gerektiğini gördük. Eğer birkaç dağılımı veya veri setini karşılaştırmak istiyorsak, dağılımların değişkenliğini hemen aynı yapan dönüşümlere bakarız. Eğer standart sapma ve ortalamalar bu gruplarda oransal ise, bu dönüşümler için logaritma uygundur. Eğer, başka bir değişle varyanslar ve ortalamalar oransal ise, karekök dönüşümleri mükemmeldir. Genelde, p eğer standart sapma -p gücü olan ortalamaya orantılı ise, p.inci güç dönüşümü x arzu edilir. Prof.Dr. Levent ŞENYAY III - 0