İstatistik ve Olasılık
Olasılık Bilim, sonsuz sayıda ve çok karmaşık nesne ve olaylardan oluşan evrenin kavranmasını sağlamak üzere; nesne ve olayları soyutlamak sınıflandırmak, bu sınıfların içindeki ve arasındaki ilişkileri genel hatlarıyla bulmak yoluna gitmektedir. Bu itibarla, bilimin konusu tek nesne ve tek olay değil, nesne ve olay topluluklarıdır. Evrendeki olayların hemen hiçbiri diğerine eşit değildir. Aralarında daima az ya da çok farklar bulunmaktadır. Nesne ve olaylar zaman içerisinde sürekli bir değişim ve başkalaşım gösterirler. Örneğin: Aynı fabrikada peş peşe yapılan iki otomobilin iki elektrik ampulünün dayanma süreleri eşit olmayacaktır.
Olasılık Evrende görülen farklılık ve çeşitliliğin nedenleri bilimsel açıdan 3 grupta toplanmaktadır: 1.Bilinen ve denetlenebilen az sayıda belirli ve önemli etkenler 2.Bugün için bilinmeyen ve denetlenemeyen bazı önemli etkenler 3.Bilinemeyen veya denetlenemeyen sonsuz küçük ve sonsuz sayıdaki rastgele etkenler. Bilim, birinci tür nedenleri soyutlanmış örnek olaylar ve modeller üzerinde saptamış ve tanımlamış bulunmaktadır. İkinci tür nedenlerin varlığı ve etkileri bugünkü bilim düzeyinde henüz bilinememektedir. Bilimin ilerlemesi ve bilim düzeyinin yükselmesiyle bu etkenlerinde bulunacağı umulmaktadır. Üçüncü tür etkenler bugün için bilinemeyen ya da denetlenemeyen, etki yönü ve şiddeti saptanamayan, sonsuz küçük ve önemsiz, fakat sonsuz sayıda olan rastgele etkenlerdir.
Örneğin, aynı parselde yan yana bulunan, aynı anaçtan alınmış iki ayrı fidenin boy farkları gibi. Fakat, önemsiz sayılan bu nedenler, olumlu yada olumsuz yönde birleşerek, sonucu geniş bir aralık içerisinde farklılaştırmakta, hatta değiştirebilmektedir. Örneğin, bir damla su bardağı taşırabilmektedir.
Olasılık Çok karmaşık olan evrendeki nesne ve olayları açıklamak ve özellikle gelecekteki durumlarını önceden saptamak için bilimin öğretebildiği birinci tür etkenler yeterli olmamaktadır. Bunun yanında ikinci ve üçüncü tür etkenleri de dikkate almak zorunluluğu vardır. Bilinmeyen veya denetlenemeyen etkenler rastgele etkenlerle birlikte, topluca olasılık olarak görülmekte, olasılık kuram ve yöntemleri ile incelenmekte, istatistiksel yöntemlerle değerlendirilmektedir.
Olasılık-İstatistik Kurallar Evrende meydana gelen her şeyin bir nedeni vardır, nedensiz bir şey olmaz. Örneğin, havaya atılan bir madeni para yere düşer, sıkıştırılan gaz çeperlerine basınç yapar, vs. Bu olayların nedenleri; yerçekimi, gaz moleküllerinin hareketi,olarak bilinmektedir. Fakat bu olaylar üzerine daha ayrıntılı ve özel bilgi edinmek, değerlerini ve sonuçlarını önceden kesin bir şekilde öğrenmek istersek, bugünkü bilgilerimizle başaramayız. Örneğin yağmurun ne zaman yağacağını, barajın ne ölçüde dolacağını, bir makinenin veya elektrik ampulünün dayanma süresini, meyve bahçesinin verimini, bir hastanın kaç günde iyileşeceğini, öğrencinin bir sınavda alacağı notu, bir maçın sonucunu önceden kesinlikle bilemeyiz.
Sözü edilen değerleri nasıl bilebiliriz? Tam ve kesin olarak bilmemiz mümkün müdür? Bu bilgileri, olaydan önce saptamak ve kesin değerler halinde vermek bugün ki bilim düzeyinde mümkün değildir! Bugünkü bilgilerle sadece bir tahminde bulunmak mümkündür.
Tahmin, geçmişteki bilgi ve deneylere dayanarak gelecek üzerine bir yargıya varmaktır. Yapılan tahminin özellikleri: Bu yargı kesin ve tam doğru olmayıp, ancak olası bir değer taşımaktadır. Başka bir ifadeyle, belirli bir güven düzeyinde (örneğin %95 veya %99 olasılıkla) doğrudur. Bu güven düzeyinin dışındaki hata payı ile (örneğin %5 veya %1 olasılıkla) yanlıştır. Bu yargı tam ve kesin bir tek değer halinde verilemez. Ancak, beklenen bir durumun olasılığı (örneğin %50 olasılıkla yazı) ya da olası ölçülerin ortalama ve sınır değerleri (örneğin, 50 kişilik bir sınıfta öğrenci boylarının ortalaması %95 güven düzeyinde 170-174 cm arasında bulunacak, en kısa öğrenci 157 cm, en uzun öğrenci de 187 cm boyunda olacaktır) şeklinde belirtilebilir.
Bu yoldan elde edilen bilgilere dayanarak genelleme yapmak ve olaylar arasındaki ilişkilerin olasılıklarını belirlemek ve genel kurallar halinde ortaya koymak, böylece bilime katkıda bulunmak mümkündür. Fakat, bu kurallar doğal kurallar gibi kesin ve değişmez ilişkileri gösteremezler. Rastlantıya bağlı olayların incelenmesinde: uygulanan yöntemlere istatistiksel yöntemler, kullanılan sayılara istatistik bu sayılar arasındaki bağıntılara istatistiksel bağıntılar ulaşılan bilim kurallarına da istatistiksel kurallar adı verilmektedir.
İstatistiksel bilgiler ancak çok sayıdaki olay veya nesnenin gözlenmesi ve incelenmesi ile elde edilebilir. Bu yoldan elde edilen bilgiler ve ulaşılan kurallar da ancak çok sayıdaki olay ve nesne için geçerlidir. Tek bir olaya uygulanamazlar. Olasılık-İstatistik Kurallar Örnek: Yazı gelme olasılığı %50 demekle, iki kez para atışından birinin kesinlikle yazı geleceği söylenemez. Ancak,para atışını çok kez yinelediğimiz zaman, bunlardan yaklaşık yarısının yazı geleceği önceden kestirilebilir.
İstatistik Bilimsel anlamı ile istatistik: Pozitif bilimlerin temeli olan gözlemlerin yapılması, verilerin toplanması, analizi ve yorumu için gerekli yöntemlerin geliştirilip uygulanması ile uğraşan, sonuçta verilerden gidilerek bulunan olasılık deneyimleri ile objektif karar vermede önemli rolü olan bilim dalıdır.
İstatistiksel yöntemlerin görevi; Bir araştırmanın en az giderle ve en etkin yorumlamayı sağlayabilecek biçimde planlanması, Derlenen sayısal bilgilerin düzenlenmesi ve değerlendirilmesi, Elde edilen bilgilerin yorumlanması ve sonuç çıkarılması yollarını belirlemek ve öğretmektir
İstatistiğin Sınıflandırılması Verilerin değerlendirilmesinde kullanılma durumuna göre; 1.Açıklayıcı (deskriptif) istatistik 2.Analitik istatistik olmak üzere iki grupta incelenebilir. Açıklayıcı İstatistik: Büyük rakam (ham veri) yığınlarının özetlenerek, düzenli ve kolay anlaşılır bir şekilde ifade edilmesini sağlayan yöntemler topluluğudur. Analitik İstatistik: Araştırma sonucu elde edilen verilerden hareketle ana kütle parametrelerinin tahminini yapmak ve tahmin edilen bu değerlerle ilgili hipotez testleri sonucunda da ana kütle hakkında karar verme amacıyla kullanılan yöntemler topluluğudur.
Mühendislikte istatistik; tasarım ve üretim süreci, ürün güvenilirliği ve kalite kontrolü gibi alanlarda kullanılmaktadır. Mühendisliğin çeşitli dallarında karşılaşılan bir çok problem ancak olasılık teorisi ve istatistik yöntemleri ile incelenebilecek yapıdadır. Örneğin inşaat mühendisliğinde yapı malzemelerinin özellikleri, hidrolojik değişkenler, trafik değişkenleri, zeminlerin özellikleri gibi çeşitli büyüklükler rastgele değişken niteliğinde olup deterministik bir yaklaşımla ele alınmaları bir çok hallerde yeterli olmamaktadır. Olasılık teorisi kavramlarının ve istatistik yöntemlerinin bilinmesi mühendislerin verecekleri kararlarda belirsizlik ve risk etkilerini göz önüne almalarına olanak verir. Böylelikle daha gerçekçi projelerin hazırlanması sağlanabilir.
Mühendislik planlaması ve tasarımı evrelerinde karşılaşılan sorunlar, bir belirsizlik ortamında çözülür. Belirsizlik, bu süreçlerin gerçekleşmesi için gerekli olan çoğu bilginin hiç yada eksiksiz elde edilememesinden ve sorunların içerdiği fiziksel değişkenlerin yada parametrelerin istatistiksel değişim göstermelerinden, rastgele değişken karakterde yapıya sahip olmalarından kaynaklanır. İstatistiksel değişimlerin yer aldığı olaylarda ise risk kaçınılmazdır.
Bu bağlamda risk, mühendislik sistemlerinin yapısında var olan, azaltılabilen ama yok edilemeyen tehlike olasılığıdır. Dolayısıyla olasılık ve istatistik teorileri, mühendislik problemlerinin sağlıklı ve gerçekçi çözümü için mesnet alınması zorunlu disiplinlerdir.
Verilerin Hassasiyeti İstatistiksel değerlendirmeye alınacak verilerin hassasiyeti ve doğruluk derecesi yüksek olmalıdır. Bu nedenle, araştırmaların yürütülmesinde kullanılan alet ve ekipmanların hassasiyeti ile çalışanların bilgi ve dikkati önemlidir. Aynı karakteristik kaba bir ölçü aleti ile ölçülebileceği gibi, daha hassas bir ölçü aleti ile de ölçülebilir. Ölçümlerde kullanılacak aletlerin hassasiyet derecesi ölçülen nesnelerin büyüklüğüne ve konunun önemine göre değişir. Rakamların hassasiyeti ondalık sayısı ile belirlenir. Hassasiyetin çok küçük tutulması güvenilirlik ve değişkenliğin kaybolmasına, gereğinden büyük tutulması da rakam çokluğu nedeniyle işlem hatalarına yol açacağından tavsiye edilmez.
Bundan dolayı, bazı değerlendirmelerde verilerin yuvarlatılması faydalı olabilir. Yuvarlatma işleminde esas olarak; atılacak hanede bulunan rakam 5 veya daha büyük ise bir önceki hane değeri 1 artırılır, atılacak hanede bulunan rakam 5 den küçük ise bir önceki hane değeri aynı kalır. Örneğin, 2.6487 sayısı üç ondalık hane taşıması halinde 2.649, iki ondalık hane taşıması halinde 2.65, bir ondalık hane taşıması halinde ise 2.6 olarak alınabilir.
Anakütle ve Örnek Araştırılan bir konuya ait verilerden kesin sonuçlara ulaşılmak isteniyorsa, konuya ait bütün elemanların incelenmesi gerekir. Araştırmaya ayrılan para ve zamanın sınırlı olması nedeniyle bu durum imkansızdır. İstatistiksel metotlar yardımıyla konu ile ilgili elemanlardan rastgele seçilmiş sınırlı sayıda örneğin değerlendirilmesi ile elde edilen sonuçlar belirli bir güven düzeyinde tüm kütleye genelleştirilebilir. Üzerinde durulan karakteristiklerle ilgili bütün elemanları içine alan topluluğa ana kütle (populasyon) denir. Ana kütleden rastgele çekilen ve üzerinde inceleme yapılan sınırlı elemanlar topluluğuna ise örnek denir.
Sözgelimi, Türk insanının vücut ölçüleri belirlenmek isteniyorsa, ülkenin bütün insanları üzerinde ölçüm almak yerine ülkeyi temsil edeceği düşünülen bazı bölgelerden rastgele örnekler seçilerek bunlar üzerinde ölçüm yapılır ve elde edilen sonuçlar genelleştirilir.
Varılan sonuçların tutarlılığı seçilen örneğin ana kütleyi temsil etmesine bağlıdır. Temsili etkileyen en önemli iki husus: örneğin büyüklüğü rastgele seçilmiş olmasıdır. Araştırmalarda zaman, para, ekipman ve hassasiyet bakımından ana kütle yerine örnek üzerinde çalışılır. Örneğin büyüklüğü ise sözü edilen bu faktörler esas alınarak belirlenir.
Açıklayıcı İstatistik İnceleme sonucu elde edilen ham verilerin ya da sınıflandırılmamış (gruplandırılmamış) verilerin istatistiksel yöntemler kullanılarak özetlenmesi açıklayıcı istatistiğin konusudur. Açıklayıcı istatistikte kullanılan yöntemler: Frekans Tabloları Şekiller ve Grafikler Histogram ve Frekans Poliganları Sütun ve Pasta Grafikleri
Frekans Tabloları
Verileri frekans tabloları yardımıyla sınıflandırmanın yararları şöyle özetlenebilir: İlgili değişkenin dağılımı hakkında bilgi alınabilir. Verilerin hangi değerler etrafında gruplandığı görülebilir. Ortalama, standart sapma ve varyans gibi değerler daha kolay hesaplanabilir. Bu yararlarına karşın verilerin sınıflandırılması sırasında (özellikle sınıf aralıklarının geniş tutulması halinde) bilgi ve hassasiyet kaybı olmaktadır. Çünkü, herhangi bir sınıfın aralığı içine düşen farklı değerler sadece o aralığın orta değeri ile temsil edilirler.
Frekans tablosunun hazırlanmasında aşağıdaki adımlar izlenir: 1. Gözlem sayısı belirlenir. Gözlem sayısı n olmak üzere 50 <= n tercih edilir. 2. Verilerin değişim genişliği bulunur (DG=en büyük değer en küçük değer) 3. Sınıf sayısı bulunur. n k için sınıf sayısı k ile gösterilir. Sınıf sayısı için k=1+3.2*log(n) formülü de kullanılır. Genel olarak n, 5 ile 20 arasında olur. 2. Sınıf genişliği: SG=DG/sınıf sayısı. 3. Birinci sınıfın alt limiti veri grubundaki en küçük değeri içine alacak şekilde belirlendikten sonra, hesaplanan sınıf aralığı bu değere eklenmek suretiyle diğer sınıfların alt limitleri oluşturulur. Bir sınıfın üst limitini bulmak için bir sonraki sınıfın alt limitinden belirli bir değer (veri grubunun özelliğine göre yeteri kadar küçük bir değer) çıkarılır. Böylece sınıf aralarına değer düşmesi önlendiği gibi, bir değerin iki ayrı sınıfa dahil edilmesi de engellenmiş olur. 4. Sonuncu sınıfın üst limiti veri grubundaki en büyük değeri içine alacak şekilde belirlenir.
Frekans tablolarının düzenlenmesinde aşağıdaki sıra izlenir: 7. Sınıf frekansı: Her sınıf için o sınıfa düşen gözlem sayısı (sınıf frekansı) belirlenir. 8. Sınıf orta noktası: Sınıf limitlerinin ortalamaları alınarak her sınıf için sınıf değerleri (sınıf ortalamaları) belirlenir. İlk sınıfın ortası bulunduktan sonra ardışık olarak sınıf genişliğinin eklenmesiyle diğer sınıfların sınıf ortaları bulunur. 9. Veriler taranarak her sınıfa düşecek veri sayısı (frekans) belirlenir. Frekans tablosundaki her bir sınıf için nispi (oransal) frekans, eklemeli frekans ve eklemeli nispi(oransal) frekans değerleri hesaplanır. Nispi Frekans: bir sınıfın frekansının (n) toplam veri sayısına (N) bölünüp, 100 ile çarpılması ile elde edilir. Eklemeli Frekans: Herhangi bir sınıfın frekansı ile o sınıftan önceki sınıfların frekanslarının toplanması ile elde edilir. Eklemeli Nispi Frekans: bir sınıfın eklemeli frekansının toplam veri sayısına (N) bölünüp 100 ile çarpılmasıyla elde edilir.
Örnek 1 : Aşağıda 100 gözlem sonucunu kullanarak frekans tablosunu yapınız. 23 16 14 20 27 19 17 17 16 17 26 14 9 11 14 11 17 13 19 17 20 17 20 16 16 11 24 21 27 5 17 20 8 16 17 16 16 14 22 13 14 27 19 16 20 16 15 9 17 8 19 14 8 19 27 22 21 0 9 3 20 14 6 11 12 7 20 9 13 20 10 16 10 19 13 15 15 14 13 25 14 9 16 8 16 7 8 13 5 13 9 16 19 14 29 18 14 18 13 10
1. Adım: n=100 2. Adım: DG=29-0=29 3. Adım: k 10 4. Adım: 29/10=3 alınabilir. 5, 6, 7, 8, 9 ve 10. adımlar uygulandığında aşağıdaki tablo elde edilir. tarama sütununa bakıldığında verilerin hangi değerler etrafında yoğunlaştığı ve veri grubuna ait dağılımın şekli kabaca görülmektedir.
Sınıf No Sınıf Limitleri Sınıf Sınırları Tarama Frekans Sınıf Orta Noktası Eklemeli Frekanslar 1 0-2 -0,5-2,5 * 1 1 1 2 3-5 2,5-5,5 *** 3 4 4 3 6-8 5,5-8,5 ******** 8 7 12 4 9-11 8,5-11,5 ************* 13 10 25 5 12-14 11,5-14,5 ************** ****** 6 15-17 14,5-17,5 ************** *********** 7 18-20 17,5-20,5 ************** *** 20 13 45 25 16 70 17 19 87 8 21-23 20,5-23,5 ***** 5 22 92 9 24-26 23,5-26,5 *** 3 25 95 10 27-29 26,5-29,5 ***** 5 28 100
GRAFİKSEL GÖSTERİMLER 5 4,5 4 3,5 3 2,5 2 1,5 1 0,5 0 Kategori 1 Kategori 2 Kategori 3 Kategori 4 Seri 1 Seri 2 Seri 3
Anlamlı bilgileri çıkarabilmek için şekillerin ve grafiklerin çiziminde eksenlerin orantılı olmasına ve gerekli açıklayıcı bilgileri bulundurmasına dikkat edilmelidir. Verileri şekil ve grafiklerle göstermenin yararları aşağıdaki gibi özetlenebilir: Anlaşılabilirlik artırılır. Dikkat çekilecek hususlar belirtilir. Dağılımın biçimi hakkında bilgi sağlanır. Tahmin kolaylaşır
Histogram ve Frekans Poligonları
Histogram Bir dik koordinat sisteminde yatay eksende sınıf sınırları, dikey eksende sınıf frekansları işaretlenir. Taban uzunluğu sınıf genişliğine, yüksekliği sınıf frekansına karşılık gelen dikdörtgenler çizilir. Birbirine bitişik dikdörtgenlerden oluşan grafiğe histogram denir.
Poligon(Frekans çokgeni) Bir dik koordinat sisteminde yatay eksende sınıf orta noktaları, dikey eksende sınıf frekansları işaretlenir. Bu sayı çiftlerine karşılık gelen noktaların doğru parçalarıyla birleştirilmesiyle oluşan grafiksel gösterime poligon denir.
Örneğimizde frekans çokgenini (poligon) histogram üzerinde göstereceğiz.
SÜTUN GRAFİĞİ Sınıflandırılmamış gözlemlerin dağılımının dik koordinat sistemindeki gösterimine denir.
SÜTUN GRAFİĞİ Üniversite mezunu erkek ve bayanların yaş gruplarına göre gelir dağılımını gösteren bar grafiklerine bir örnek
PASTA GRAFİĞİ Bir bütünü meydana getiren parçaların ifade edilmesinde kullanılan grafiklerden biri de bölünmüş daire (pasta) grafikleridir. Bu grafikleri çizerken dairenin bütün alanı %100 kabul edilir. Merkezdeki 3.6 derecelik açı %1 e karşı geldiğinden (360/100=3.6) parçaların kaçar derece açıyla gösterileceği hesaplanır.