JEF2309 Jeofizikte Olasılık ve İstatistik Yrd.Doç.Dr. Elçin GÖK 26.09.2017 2.Hafta
İstatistik Nedir? Sayıtım
İstatistik Nedir? 3 Belirli bir amaç için veri toplama, tablo ve grafiklerle özetleme, sonuçları yorumlama, sonuçların güven derecelerini açıklama, örneklerden elde edilen sonuçları kitle için genelleme, özellikler arasındaki ilişkiyi araştırma, çeşitli konularda geleceğe ilişkin tahmin yapma, deney düzenleme ve gözlem ilkelerini kapsayan bir bilimdir. Belirli bir amaç için verilerin toplanması, sınıflandırılması, çözümlenmesi ve sonuçlarının yorumlanması esasına dayanır. Fizik ve doğa bilimlerinden sosyal bilimlere kadar geniş bir alanda uygulanabilmektedir. Aynı zamanda iş dünyası ve hükümetle ilişkili tüm alanlarda karar almak amacıyla kullanılır. İstatistik yukarıdaki anlamıyla tekildir. Sözcüğün çoğul anlamı, "sistemli bir şekilde toplanan sayısal bilgiler"dir. Örnek olarak nüfus istatistikleri, çevre istatistikleri, spor istatistikleri, milli eğitim istatistikleri verilebilir. İstatistiği öğrenmedeki amaç, bir araştırmada elde edilen verilerin uygun istatiksel yöntemler kullanılarak yorumlanacağını bilmektir.
4 İstatistiğin Mühendislikteki Önemi Doğada karşılaşılan problemlerin birçoğunda olaya ait değişkenlerin değerleri bilindiğinde kesin ve tek bir çözüm elde edilebilir. Örneğin bir cismin kütlesi ve cisme etkiyen kuvvet bilindiğinde cismin ivmesi hesaplanabilir. Bu gibi olaylarda yasalar deterministik (gerekirci: rastgele olaylara bağlı olmayan ve girdiye göre çıktısı tahmin edilebilen) anlamda bilinmektedir. Ancak bazı olayların sonuçlarını önceden bilmek mümkün değildir. Ör: Zar atışı.
5 Mühendislikte doğal olaylardaki veya malzemelerdeki belirsizliklerden dolayı sonuç önceden kestirilemeyebilir. Aşağıda yerbilimlerinde sıkça karşılaşılan bu tür problemlere örnekler verilmektedir: Bir petrol bölgesinde daha önce açılmış olan kuyulardan %35 inin boş çıktığı bilinmektedir. Bu bölgede açılması düşünülen yeni 30 kuyudan en çok 8 tanesinin boş çıkma olasılığı nedir? Volkanik bir kayacın kimyasal analizinden elde edilen SiO 2 değerlerinden yola çıkarak başka bir kayaç için SiO 2 değerlerinin alt ve üst limitleri nelerdir? Bir kumtaşı örneğinden elde edilen porozite değerlerini kullanarak bu kumtaşı için ortalama porozitenin belirlenmesi. Belirsizliklerin etkisiyle problemler alışılagelen yöntemlerle incelenemeyebilir. Bu durumda olasılık teorisi ve istatistik bilimine başvurulur. Jeofizikte araziden toplanan veriler zamanın ya da uzayın bir fonksiyonudur. Bu veriler, istatistiksel yöntemlerle incelenerek, ait oldukları topluluğa ait parametreleri daha sağlıklı bir biçimde saptanabilir.
6 Veri ve Veri Türleri Verilerin Sınıflandırılması Tanımsal (Deterministic) Rastgele (Non-deterministic or Random) Periyodik (Periodical) Periyodik Olmayan (Non-periodical) Kesikli Sürekli Veri, kısaca araştırmacının ilgi alanına giren birimler topluluğu olarak tanımlanabilir.
7 Tanımsal (Deterministic) Veriler: Matematiksel bağıntılarla belirlenebilen veya deneysel olarak, yinelenerek üretilebilen verilerdir. Örnek: Isıtılınca suyun sıcaklığının artması, bir sarkacın periyodu, serbest düşen bir cismin ivmesi. Tanımsal veriler, periyodik (dönemsel) ve periyodik olmayan olarak sınıflandırılabilir. Periyodik verilerin sinüsoidal ve karışık periyodik alt sınıfları vardır.
Rastgele (Gelişigüzel) (Random, Stochastic, Non-deterministic) Veriler: 8 Kesin bir matematiksel bağıntı ile verilemeyen ve deneysel olarak oluşturulamayan verilerdir. Her gözlenen değer birçok olasılığı olan gözlemlerden sadece biridir. Jeofizikte gözlemsel verilere katılarak yorumlarını güçleştiren bozucu ve istenmeyen gürültülerin birçoğu rastgele gürültü olarak modellenir. Rastgele veriler kesikli ve sürekli olmak üzere iki çeşittir: 1. Kesikli Rastgele Veriler: Örnek uzayındaki eleman sayısı sonludur ( Örn: Bir yıldaki yağışlı gün sayısı ). 2. Sürekli Rastgele Veriler: Örnek uzayındaki eleman sayısı sonsuzdur ( Örn: Bir noktadaki rüzgar hızı ). Mühendislikte karşılaşılan rastgele değişkenlerin çoğu süreklidir.
9 İstatistiksel Yöntemlere Giriş: Uygulamalı bilimlerde gözlemler, bir büyüklüğün gerçek değerini bulmak için yapılır. Birçok etkenlerin katkısı nedeniyle, gözlemsel değerler gerçek değerlerden farklıdır. Gözlem sayısı arttıkça gerçek değere o kadar yaklaşılır. Gözlemlerden elde edilen verileri kullanarak bir araştırmacı kullandığı değerlerin gerçek değerlere ne kadar yakın olduğunu bilmek zorundadır. Bir gözlemde saptanmaya çalışılan gerçek bir büyüklük vardır ve gözlem sonucunda bu büyüklüğe en yakın değer aranır. Uygulamalı bilimlerde gözlem yolu ile elde edilen veriler genellikle çeşitli nedenlerle birbirinden çok az farklı değerler taşırlar. Bunlardan bir bölümü kişisel ve aletsel yanılgılardan ileri gelir. Gözlem değerleri bu durumda saçılma gösterebilir. Yerbilimlerinde veri saçılmasının en önemli etkilerinden biri ortamın tekdüze (homojen) ve yön bağımsız (izotrop) olmamasıdır. Nedeni ne olursa olsun, jeofizikte gözlemsel veriler tanımsal olmayan verilerdir. Tanımsal olmamaları nedeni ile ancak istatistikî özellikleri ile belirlenebilirler. Belirli güvenilirlik sınırları içinde olasılık dağılımları incelenebilir. İstatistik yöntemler sadece veri saçılmaları karşısında gerçeğe yakın sonuçlar aramak için kullanılmaz. İstatistik en çok büyüklükler arasındaki karşılıklı ilişkilerin türünü, bunlara ait yöntemleri aramakta kullanılır. Örneğin; olay zaman içinde inceleniyorsa onun zamana bağlı olarak nasıl değiştiği istatistik olarak incelenir. Bu amaca ulaşmak için gözlem sayılarından ve gözlemlerin sayısal değerlerinden yararlanarak histogramlar çizilir.
10 MTA Genel Müdürlüğü Sondaj Çalışmaları (2004-2008) ile ilgili histogram (MTA Sondaj Dairesi Bşk, 2008)
11 Bilim ve Olasılık Bilim, sonsuz sayıda ve çok karmaşık nesne ve olaylardan oluşan evrenin kavranmasını sağlamak üzere; nesne ve olayları soyutlamak sınıflandırmak, bu sınıfların içindeki ve arasındaki ilişkileri genel hatlarıyla bulmak yoluna gitmektedir. Bu nedenle, bilimin konusu tek nesne ve tek olay değil, nesne ve olay topluluklarıdır. Evrendeki olayların hemen hiçbiri diğerine eşit değildir. Aralarında daima az ya da çok farklar bulunmaktadır. Nesne ve olaylar zaman içerisinde sürekli bir değişim ve başkalaşım gösterirler. Örneğin: Aynı fabrikada peş peşe yapılan iki otomobilin iki elektrik ampulünün dayanma süreleri eşit olmayacaktır.
12 Evrende görülen farklılık ve çeşitliliğin nedenleri bilimsel açıdan 3 grupta toplanmaktadır: 1.Bilinen ve denetlenebilen az sayıda belirli ve önemli etkenler 2.Bugün için bilinmeyen ve denetlenemeyen bazı önemli etkenler 3.Bilinemeyen veya denetlenemeyen sonsuz küçük ve sonsuz sayıdaki rastgele etkenler. Bilim, birinci tür nedenleri soyutlanmış örnek olaylar ve modeller üzerinde saptamış ve tanımlamış bulunmaktadır. İkinci tür nedenlerin varlığı ve etkileri bugünkü bilim düzeyinde henüz bilinememektedir. Bilimin ilerlemesi ve bilim düzeyinin yükselmesiyle bu etkenlerinde bulunacağı umulmaktadır. Üçüncü tür etkenler bugün için bilinemeyen ya da denetlenemeyen, etki yönü ve şiddeti saptanamayan, sonsuz küçük ve önemsiz, fakat sonsuz sayıda olan rastgele etkenlerdir. Örneğin, aynı parselde yan yana bulunan, aynı anaçtan alınmış iki ayrı fidenin boy farkları gibi. Fakat, önemsiz sayılan bu nedenler, olumlu ya da olumsuz yönde birleşerek, sonucu geniş bir aralık içerisinde farklılaştırmakta, hatta değiştirebilmektedir. Örneğin, bir damla su bardağı taşırabilmektedir.
13 Çok karmaşık olan evrendeki nesne ve olayları açıklamak ve özellikle gelecekteki durumlarını önceden saptamak için bilimin öğretebildiği birinci tür etkenler yeterli olmamaktadır. Bunun yanında ikinci ve üçüncü tür etkenleri de dikkate almak zorunluluğu vardır. Bilinmeyen veya denetlenemeyen etkenler rastgele etkenlerle birlikte, topluca olasılık olarak görülmekte, olasılık kuram ve yöntemleri ile incelenmekte, istatistiksel yöntemlerle değerlendirilmektedir.
14 Olasılık-İstatistik Kurallar Evrende meydana gelen her şeyin bir nedeni vardır, nedensiz bir şey olmaz. Örneğin, havaya atılan bir madeni para yere düşer, sıkıştırılan gaz çeperlerine basınç yapar, vs. Bu olayların nedenleri; yer çekimi, gaz moleküllerinin hareketi, olarak bilinmektedir. Fakat bu olaylar üzerine daha ayrıntılı ve özel bilgi edinmek, değerlerini ve sonuçlarını önceden kesin bir şekilde öğrenmek istersek, bugünkü bilgilerimizle başaramayız. Örneğin yağmurun ne zaman yağacağını, barajın ne ölçüde dolacağını, bir makinanın veya elektrik ampulünün dayanma süresini, meyve bahçesinin verimini, bir hastanın kaç günde iyileşeceğini, öğrencinin bir sınavda alacağı notu, bir maçın sonucunu önceden kesinlikle bilemeyiz. Sözü edilen değerleri nasıl bilebiliriz? Tam ve kesin olarak bilmemiz mümkün müdür? Bu bilgileri, olaydan önce saptamak ve kesin değerler halinde vermek bugünkü bilim düzeyinde mümkün değildir! Bugünkü bilgilerle sadece bir tahminde bulunmak mümkündür.
15 Olasılık-İstatistik Kurallar Tahmin, geçmişteki bilgi ve deneylere dayanarak gelecek üzerine bir yargıya varmaktır. Yapılan tahminin özellikleri: Bu yargı kesin ve tam doğru olmayıp, ancak olası bir değer taşımaktadır. Başka bir ifadeyle, belirli bir güven düzeyinde (örneğin %95 veya %99 olasılıkla) doğrudur. Bu güven düzeyinin dışındaki hata payı ile (örneğin %5 veya %1 olasılıkla) yanlıştır. Bu yargı tam ve kesin bir tek değer halinde verilemez. Ancak, beklenen bir durumun olasılığı (örneğin %50 olasılıkla yazı) ya da olası ölçülerin ortalama ve sınır değerleri (örneğin, 50 kişilik bir sınıfta öğrenci boylarının ortalaması %95 güven düzeyinde 170-174 cm arasında bulunacak, en kısa öğrenci 157 cm, en uzun öğrenci de 187 cm boyunda olacaktır) şeklinde belirtilebilir.
16 Olasılık-İstatistik Kurallar Bu yoldan elde edilen bilgilere dayanarak genelleme yapmak ve olaylar arasındaki ilişkilerin olasılıklarını belirlemek ve genel kurallar halinde ortaya koymak, böylece bilime katkıda bulunmak mümkündür. Fakat, bu kurallar doğal kurallar gibi kesin ve değişmez ilişkileri gösteremezler. Rastlantıya bağlı olayların incelenmesinde: uygulanan yöntemlere istatistiksel yöntemler, kullanılan sayılara istatistik bu sayılar arasındaki bağıntılara istatistiksel bağıntılar ulaşılan bilim kurallarına da istatistiksel kurallar adı verilmektedir.
17 Olasılık-İstatistik Kurallar İstatistiksel bilgiler ancak çok sayıdaki olay veya nesnenin gözlenmesi ve incelenmesi ile elde edilebilir. Bu yoldan elde edilen bilgiler ve ulaşılan kurallar da ancak çok sayıdaki olay ve nesne için geçerlidir. Tek bir olaya uygulanamazlar. (İstisna?) Olasılık-İstatistik Kurallar Örnek: Yazı gelme olasılığı %50 demekle, iki kez para atışından birinin kesinlikle yazı geleceği söylenemez. Ancak, para atışını çok kez yinelediğimiz zaman, bunlardan yaklaşık yarısının yazı geleceği önceden kestirilebilir.
18 Olasılık-İstatistik Kurallar İstatistiksel kurallarda rastlantıya bağlı bir olayın çok (sonsuz) kez yinelenmesiyle farklılaşmaya yol açan rastgele nedenlerin birbirini dengeleyeceği düşünülmektedir. Böylece, çok kez tekrar halinde, belirli ve önemli olan nedenlerin etkisinin ortalama değer olarak görülebileceği kabul edilmektedir (büyük sayılar yasası). Örnek: "Probability and Statistics with Application" kitabının yazarı Peggy Tang Strait in oğlunun 600 zar atışına karşılık 1 veya 2 gelme olaylarını grafiksel gösterimi.
19 İstatistiğin Tanımı Bilimsel anlamı ile istatistik: pozitif bilimlerin temeli olan gözlemlerin yapılması, verilerin toplanması, analizi ve yorumu için gerekli yöntemlerin geliştirilip uygulanması ile uğraşan, sonuçta verilerden gidilerek bulunan olasılık deneyimleri ile objektif karar vermede önemli rolü olan bilim dalıdır. İstatistiksel yöntemlerin görevi; Bir araştırmanın en az giderle ve en etkin yorumlamayı sağlayabilecek biçimde planlanması, Derlenen sayısal bilgilerin düzenlenmesi ve değerlendirilmesi, Elde edilen bilgilerin yorumlanması ve sonuç çıkarılması yollarını belirlemek ve öğretmektir.
20 İstatistiğin Tarihçesi
21 Olasılık Kuramının doğuşu bir kumarbazın ihtirasıyla başlar. Chevalier de Méré adlı saygın bir Fransız, kumar oynayarak servetini büyütme ihtirasına kapılmıştır. Oynadığı oyunun kuralı şudur: Bir zarı 4 atışta en az bir kez 6 getiren kazanır. Ama Chevalier oyunun kuralını değiştirerek daha çok kazanmak istemektedir. Yeni kural şudur: Çift zarı 24 atışta bir tane düşeş (toplam 6+6=12) getiren kazanacaktır. Ama kısa sürede, bu kuralın daha az kazandırdığını gördü. Bunun nedenini arkadaşı Blaise Pascal a sordu. Pascal, o dönemin iyi matematikçilerinden biriydi. O ana kadar, matematik dünyası şans oyunlarının matematikle bir ilişkisi olduğunu bilmiyordu. Pascal, kendisine sorulan sorunun yanıtını, bir matematikçi gözüyle araştırdı. Sonunda basit ama kesin çözümü ortaya koydu. Eski kuralda Chevalier in kazanma şansı %51.8 iken yeni kuralda %49.1 idi. Chevalier in kaybetme nedeni buydu. Pascal, bu basit problemi çözmekle yetinmedi. Sorunun gerisinde daha büyük bir matematik kuramının yattığını anlamıştı. Çağdaşı olan Pierre de Fermat ile mektuplaşarak fikir alışverişinde bulunmaya başladı. Sonunda, matematiğin önemli bir dalı olan Olasılık Kuramını yarattılar. Bu gün Olasılık Kuramı bilim, endüstri, ekonomi, spor, yönetim gibi çağdaş insanın yaşamını etkileyen her alana girmiştir. Örneğin bankacılık, sigortacılık, endüstride kalite kontrolü, genetik, gazların kinetik teorisi, kuantum mekaniği gibi pek çok alan olasılık kuramı olmadan ayakta duramaz.
22 İstatistiğin Sınıflandırılması Verilerin değerlendirilmesinde kullanılma durumuna göre; Açıklayıcı (deskriptif) istatistik Analitik istatistik 1.Tahmin 2. Analiz olmak üzere iki grupta incelenebilir. Açıklayıcı İstatistik: Büyük rakam (ham veri) yığınlarının özetlenerek, düzenli ve kolay anlaşılır bir şekilde ifade edilmesini sağlayan yöntemler topluluğudur. Açıklayıcı istatistik tümdengelim yöntemini kullanır. Analitik İstatistik: Araştırma sonucu elde edilen verilerden hareketle anakütle parametrelerinin tahminini yapmak ve tahmin edilen bu değerlerle ilgili hipotez testleri sonucunda da anakütle hakkında karar verme amacıyla kullanılan yöntemler topluluğudur. Analitik istatistik bu işlemleri yaparken tümevarım yöntemlerini kullanır.
23 Anakütle ve Örnek Araştırılan bir konuya ait verilerden kesin sonuçlara ulaşılmak isteniyorsa, konuya ait bütün elemanların incelenmesi gerekir. Fakat araştırmaya ayrılan para ve zamanın sınırlı olması ile bu durum imkansızdır. İstatistiksel metotlar yardımıyla konu ile ilgili elemanlardan rastgele seçilmiş sınırlı sayıda örneğin değerlendirilmesi ile elde edilen sonuçlar belirli bir güven düzeyinde tüm kütleye genelleştirilebilir. Üzerinde durulan karakteristiklerle ilgili bütün elemanları içine alan topluluğa anakütle (populasyon) denir. Anakütleden rastgele çekilen ve üzerinde inceleme yapılan sınırlı elemanlar topluluğuna ise örnek denir. Sözgelimi, Türk insanının vücut ölçüleri belirlenmek isteniyorsa, ülkenin bütün insanları üzerinde ölçüm almak yerine ülkeyi temsil edeceği düşünülen bazı bölgelerden rastgele örnekler seçilerek bunlar üzerinde ölçüm yapılır ve elde edilen sonuçlar genelleştirilir.
24 Anakütle ve Örnek
25 İstatistikte Bazı Temel kavramlar Evren Gözlem alanına giren obje ya da bireylerin tümü Örneklem Bir evrenden seçilmiş daha küçük sayıdaki obje ya da bireylerin oluşturduğu grup
26 İstatistikte Bazı Temel kavramlar Değişken Her gözleme göre farklı değerler alabilen objelere, özelliklere ya da durumlara denir Değişkenler nicel ya da nitel olabilir. Nitel veriler Sayısal veriler -kesikli sayısal veriler (maç kazanma syısı) -sürekli sayısal veriler (boy, kilo) Nitelik ve sayısal veriler arasındaki ilişki (boy sınıflandırması)
27 Değişken Tipleri
28 Verilerin Hassasiyeti İstatistiksel değerlendirmeye alınacak verilerin hassasiyeti ve doğruluk derecesi yüksek olmalıdır. Bu nedenle, araştırmaların yürütülmesinde kullanılan alet ve ekipmanların hassasiyeti ile çalışanların bilgi ve dikkati önemlidir. Aynı karakteristik kaba bir ölçü aleti (çelik metre) ile ölçülebileceği gibi, daha hassas bir ölçü aleti (mikrometre) ile de ölçülebilir. Ölçümlerde kullanılacak aletlerin hassasiyet derecesi ölçülen nesnelerin büyüklüğüne ve konunun önemine göre değişir. Rakamların hassasiyeti ondalık sayısı ile belirlenir. Hassasiyetin çok küçük tutulması güvenilirlik ve değişkenliğin kaybolmasına, gereğinden büyük tutulması da rakam çokluğu nedeniyle işlem hatalarına yol açacağından tavsiye edilmez. Bundan dolayı, bazı değerlendirmelerde verilerin yuvarlatılması faydalı olabilir. Yuvarlatma işleminde esas olarak; atılacak hanede bulunan rakam 5 veya daha büyük ise bir önceki hane değeri 1 artırılır, atılacak hanede bulunan rakam 5 den küçük ise bir önceki hane değeri aynı kalır. Örneğin, 2.6487 sayısı üç ondalık hane taşıması halinde 2.649, iki ondalık hane taşıması halinde 2.65, bir ondalık hane taşıması halinde ise 2.6 olarak alınabilir.
29 Verilerin Organize Edilmesi ve Sunulması
30 Tasnif
31 Tasnif e Örnek: 100 kişilik bir sınıftaki öğrencileri yaşlarına göre tasnif edersek;
32 Gruplama
33 Gruplama ya Örnek: Dünyadaki 29 en büyük şehir nüfus itibarıyla gruplanarak bir frekans dağılımı veya bölünmesi şeklinde ifade edilebilir.
34 İstatistikte Bazı Temel kavramlar Ölçme objelere ya da bireylere belirli bir değere sahip oluş derecelerini belirtmek için sembolik değerler verme işlemidir. Değişkenler hakkında bilgi edinmek için yapılır Ölçüm Ölçme sonucunda elde edilen değer
35 İstatistikte Bazı Temel kavramlar Anlamlı rakam 0 1 2 3 4 5 6 X=2.8 X=5.0 5 cm = 5,0cm
36 İstatistikte Bazı Temel kavramlar Sayıları yuvarlama 5,387123 = 5,39 = 5,4 = 5
Verilerin Sınıflandırılması 2,4,4,4,6,6,8,10,12,16,18 En büyük değerden en küçük değer çıkarılarak veri aralığı tespit edilir. İstenen sınıf sayısına bölünerek 2-18=16/8=2 veri aralığı 2 dir. 2-4 5-7 8-10
38 ödev Bir grup sporcunun ağırlık değerleri aşağıda verilmiştir. 55,56,60,65,65,67,68,70,75,77,80,82,84,86,88,90,92,95,97,100 n=20 Bu verileri sınıflayınız
39
40 Kız öğrencilerin okullaşma oranı ve Türkiye Türkiye, kızların okullaşma oranında İran ve Mısır dan da sonra geliyor 80 60 40 20 0 69 70 45 İran Mısır Türkiye
41 İki grubun sınıflandırması Sporcuların kuvvet değerleri Erkek: 10,10,20,20,20,30,30,30,50,40 Bayan: 5,5,10,20,20,20,30,30,40,40,
42 Veri sınıflandırması Erkek: 10,10,20,20,20,30,30,30,50,40 Bayan: 5,5,10,20,20,20,30,30,40,40 Veri aralıkları Bayan % Erkek % 5-10 11-15 16-20 21-25 26-30 31-35 36-40 41-45 46-50
43 Basit tablolaştırma Değişkenler N X ss min max Erkek 10 26,00 12,64 10 50 Bayan 10 22,00 12,95 5 40
44 Ya da Değişkenler N X ± SS(kg) Min (kg) Max(kg) Erkek 10 26,00 ±12,64 10 50 Bayan 10 22,00 ±12,95 5 40
45 Grafik seçenekleri kuvvet değerleri 27 26 25 24 23 22 21 20 erkek bayan Seri 1
46 Veri Grafikleme Türleri
47 Pasta Diyagramlar
48 Bar Grafikleri
49 Düşey Bar Grafikleri Üniversite mezunu erkek ve bayanların yaş gruplarına göre gelir dağılımı
50 Doğru Grafik Seçme AB Ülkelerinde Genel Lise Meslek Lisesi Oranları Genel Lise Meslek Lisesi 35% 100 50 0 35 65 65% Genel Lise Meslek Lisesi İkisi de olabilir. Birincisi daha uygun
51 X-Y Grafikleri