JEODEZİK VERİLERİN İSTATİSTİK ANALİZİ Prof. Dr. Mualla YALÇINKAYA Karadeniz Teknik Üniversitesi, Harita Mühendisliği Bölümü Trabzon, 2018
VERİLERİN İRDELENMESİ
Örnek: İki nokta arasındaki uzunluk 80 kere ölçülmüş olsun 84. 768m 84. 765 84. 789 84. 757 84. 773 84. 778 84. 767 84. 781 84. 761 84. 778 84. 773 84. 768 84. 766 84. 762 84. 773 84. 760 84. 796 84. 780 84. 782 84. 774 84. 779 84. 767 84. 773 84. 794 84. 765 84. 775 84. 787 84. 775 84. 786 84. 788 84. 775 84. 778 84. 784 84. 775 84. 761 84. 788 84. 779 84. 782 84. 797 84. 772 84. 790 84. 795 84. 779 84. 753 84. 793 84. 769 84. 765 84. 785 84. 762 84. 760 84. 776 84. 793 84. 777 84. 776 84. 775 84. 773 84. 795 84. 762 84. 776 84. 772 84. 785 84. 776 84. 785 84. 760 84. 778 84. 788 84. 763 84. 771 84. 763 84. 758 84. 768 84. 775 84. 762 84. 778 84. 783 84. 774 84. 771 84. 774 84. 771 84. 777
Verilerin İrdelenmesi 1- Verilerin temel sayma ve sınıflama işlemleri ile elde edilen frekans tabloları ve grafiklerle gösterimleri 2- Verilerin betimsel istatistikler olarak adlandırılan bazı sayısal değerler kullanılarak gösterimleri
1- Frekans Tabloları ve Grafikler
1- Sınıflama ve Grafik Gösterim Ham Veri: Verilerin herhangi bir sayısal düzenleme yapılmamış hali Örnek: İki nokta arasındaki uzunluk 80 kere ölçülmüş olsun 84. 768m 84. 765 84. 789 84. 757 84. 773 84. 778 84. 767 84. 781 84. 761 84. 778 84. 773 84. 768 84. 766 84. 762 84. 773 84. 760 84. 796 84. 780 84. 782 84. 774 84. 779 84. 767 84. 773 84. 794 84. 765 84. 775 84. 787 84. 775 84. 786 84. 788 84. 775 84. 778 84. 784 84. 775 84. 761 84. 788 84. 779 84. 782 84. 797 84. 772 84. 790 84. 795 84. 779 84. 753 84. 793 84. 769 84. 765 84. 785 84. 762 84. 760 84. 776 84. 793 84. 777 84. 776 84. 775 84. 773 84. 795 84. 762 84. 776 84. 772 84. 785 84. 776 84. 785 84. 760 84. 778 84. 788 84. 763 84. 771 84. 763 84. 758 84. 768 84. 775 84. 762 84. 778 84. 783 84. 774 84. 771 84. 774 84. 771 84. 777
1- Sınıflama ve Grafik Gösterim Dizi: Ham verinin küçükten büyüğe yada büyükten küçüğe sıralanmış hali 84,753 84,757 84,758 84,760 84,760 84,760 84,761 84,761 84,762 84,762 84,762 84,762 84,763 84,763 84,765 84,765 84,765 84,766 84,767 84,767 84,768 84,768 84,768 84,769 84,771 84,771 84,771 84,772 84,772 84,773 84,773 84,773 84,773 84,773 84,774 84,774 84,774 84,775 84,775 84,775 84,775 84,775 84,775 84,776 84,776 84,776 84,776 84,777 84,777 84,778 84,778 84,778 84,778 84,778 84,779 84,779 84,779 84,780 84,781 84,782 84,782 84,783 84,784 84,785 84,785 84,785 84,786 84,787 84,788 84,788 84,788 84,789 84,790 84,793 84,793 84,794 84,795 84,795 84,796 84,797
1- Sınıflama ve Grafik Gösterim Menzil: En Büyük değerle en küçük değer arasındaki fark 84,753 84,757 84,758 84,760 84,760 84,760 84,761 84,761 84,762 84,762 84,762 84,762 84,763 84,763 84,765 84,765 84,765 84,766 84,767 84,767 84,768 84,768 84,768 84,769 84,771 84,771 84,771 84,772 84,772 84,773 84,773 84,773 84,773 84,773 84,774 84,774 84,774 84,775 84,775 84,775 84,775 84,775 84,775 84,776 84,776 84,776 84,776 84,777 84,777 84,778 84,778 84,778 84,778 84,778 84,779 84,779 84,779 84,780 84,781 84,782 84,782 84,783 84,784 84,785 84,785 84,785 84,786 84,787 84,788 84,788 84,788 84,789 84,790 84,793 84,793 84,794 84,795 84,795 84,796 84,797 Menzil= 84.797-84.753=0.044 0.044/10 = 0.0044 ~5 mm
Yineleme Dağılımları Sınıflar Veriler 84,750 84,754 53 84,755 84,759 57, 58 60 64 60, 60, 60, 61, 61, 62, 62, 62, 62, 63,63 65 69 65, 65, 65, 66, 67, 67, 68, 68, 68, 69 70 74 71, 71, 71, 72, 72, 73, 73, 73, 73, 73, 74, 74, 74 75 79 75, 75, 75, 75, 75, 75, 76, 76, 76, 76, 77, 77, 78, 78, 78, 78, 78, 79, 79, 79 80 84 80, 81, 82, 82, 83, 84 85 89 85, 85, 85, 86, 87, 88, 88, 88, 89 90 94 90, 93, 93, 94 95 99 95, 95, 96, 97
Yineleme Dağılımları Gruplandırılmış Veri: Sınıflar Frekans (Yineleme Sayıları) 84,750 84,754 1 84,755 84,759 2 60 64 11 65 69 10 70 74 13 75 79 20 80 84 6 85 89 9 90 94 4 95 99 4
1- Sınıflama ve Grafik Gösterim Yineleme Dağılımlarının Genel Kuralları 1) Ham verideki en büyük ve en küçük değerleri bul ve menzili hesapla 2) Menzili uygun bir sayıya bölerek eşit sınıf aralıkları belirle (Uygulamada 5 ile 20 arasında bir sayı seçilir) 3) Her bir sınıf aralığında kaç adet gözlem düştüğünü (frekans) belirle ve çizelge yap
HİSTOGRAM: 1- Sınıflama ve Grafik Gösterim
2- Betimsel İstatistik
2- Betimsel İstatistik (Sayısal Değerler) BETİMSEL İSTATİSTİK Merkezi Eğilim Ölçüleri - Aritmetik Ortalama - Medyan (Ortanca) - Mod (Tepe noktası) Merkezden Dağılım Ölçüleri - Standart Sapma - Varyans - Ranj (Menzil) - Çeyrek Sapma
2- Betimsel İstatistik (Sayısal Değerler) Merkezi eğilim ölçüleri «merkezi yığılma ölçüleri» tek bir yığılma noktasını belirtir. Merkezi dağılım ölçüleri «merkezden yayılma ölçüleri» verilerin yayılması, çeşitlenmesi ya da farklılaşması hakkında bilgi verir.
2- Betimsel İstatistik (Sayısal Değerler) Merkezi Eğilim Ölçüleri - Aritmetik Ortalama - Medyan (Ortanca) - Mod (Tepe noktası) - Yüzdelik
Merkezi Eğilim Ölçüleri ARİTMETİK ORTALAMA
Merkezi Eğilim Ölçüleri ARİTMETİK ORTALAMANIN ÖZELLİKLERİ AVANTAJLAR Hesaplanması ve anlaşılması kolaydır. Her dağılımda bir tane aritmetik ortalama vardır. Aritmetik işlemler için elverişlidir. SAKINCALARI Dağılımdaki hatalı değerlerden ileri derecede etkilenir. Dağılımdaki hatalı değerler aritmetik ortalamayı kendilerine doğru kaydırırlar. Bu etkilenme hatalı değerlerin aşırılık ölçüsü ile doğru, dağılımdaki veri sayısıyla ters orantılıdır. Ters yöndeki hatalı değerler birbirlerinin etkisini azaltır.
Merkezi Eğilim Ölçüleri MEDYAN (Ortanca) ORTANCA: Küçükten büyüğe doğru sıralanmış bir ölçüm grubunun orta değerini gösterir. Ortanca verilerin dağılımının normalden uzak olması, sağa ya da sola çarpık olması durumunda kullanılır. Çünkü böyle durumlarda ortalama uç değerlerden etkilenirken, ortanca uç değerlerden etkilenmez.
Merkezi Eğilim Ölçüleri MEDYAN (Ortanca) Veriler büyüklük sırasına dizilir. Veri sayısı tek ise, (n+1):2 sıra numaralı değer ortanca olarak alınır. 15 18 21 24 28 Ortanca = 21 Veri sayısı çift ise n/2 sıra numaralı değer ile bir sonraki değerin aritmetik ortalaması ortanca olarak kabul edilir. 15 18 21 24 28 32 (21+24) / 2 = 22.5 Ortanca = 22.5
Merkezi Eğilim Ölçüleri MEDYANIN ÖZELLİKLERİ AVANTAJLARI Aşırı uç değerlerden etkilenmez. Her dağılımda bir medyan vardır. Veriler ile ortanca arasındaki farkın yarısı negatif yarısı pozitiftir SAKINCALARI Standart sapması ortalamanın standart sapmasından büyüktür. Büyük veri yığınlarında bilgisayar kullanmadan hesaplanması zordur. Ortanca, ölçüm sayısına eklenecek herhangi bir değerden hemen etkilenir ve değişir.
Merkezi Eğilim Ölçüleri MOD (Tepe Değeri) Bir seride en çok tekrarlanan değere Mod denir. Frekansı en büyük değerdir. En çok tekrar edilen ölçme sonucudur. Örnek: 10 öğrencinin ağırlıklarından oluşan seride mod? 72 80 58 60 65 75 51 59 60 60 73 Mod:60 kg'dır. 60 değeri en fazla tekrarlanandır. Bu tür serilere tek modlu seri denir. Örnek: 3 8 15 20 12 15 12 9 17 Birinci Mod: 12 İkinci Mod: 15 Bu tür serilere ise çok modlu seri denir.
Merkezi Eğilim Ölçüleri MOD (Tepe değeri) Özellikleri AVANTAJLARI Hesaplanması ve anlaşılması kolaydır Dağılımdaki hatalı değerlerden etkilenmez. SAKINCALARI Bazı örneklemlerde bir tepe değer yerine iki ya da daha çok tepe değer olabilir. Bu durumda ya tepe değerini hesaplamaktan vazgeçilir ya da frekans tablosu tek tepe değerli bir dağılım olacak şekilde yeniden düzenlenir. Tepe değer hesaplanırken verilerin tümü işleme katılmadığı için uç değerlerden etkilenmez. Eğrisi J, ters J ve U şeklinde olan veriler için tepe değer kullanılmaz. Veri az olduğunda güvenilir değildir
2- Betimsel İstatistik (Sayısal Değerler)
2- Betimsel İstatistik (Sayısal Değerler)
Soru: Hangi eğilim ölçüsü en iyisidir? Cevap: Veriye göre değişir. Nitel veriler için mod kullanılmalıdır. Nicel veriler için veri seti hatalı ölçüler içermedikçe aritmetik ortalama kullanılmalıdır. Hatalı (aykırı) değerler bulunan veri setinde medyan kullanılmalıdır.
2- Betimsel İstatistik (Sayısal Değerler) Merkezden Dağılım (Değişim) Ölçüleri - Standart Sapma - Varyans - Ranj (Menzil) - Çeyrek Sapma
Merkezi Değişim Ölçüleri VARYANS Ortalamadan Sapma Bir veri grubunda verilerin aritmetik ortalamadan ne kadar uzaklaştığının ölçüsüdür. Ortalamadan sapmalar toplamı her zaman sıfır eder (pozitif sapmalar negatif sapmaları götürür). Bu etki varyans ile ortadan kaldırılır. S 2 : Deneysel (örnek küme) varyans x: Aritmetik ortalama (Örnek kümenin) σ 2 : Teorik (Popülasyon) varyans μ: Teorik ortalama (Popülasyonun)
Merkezi Değişim Ölçüleri STANDART SAPMA Standart Sapma Bir veri grubunda verilerin aritmetik ortalamadan ne kadar uzaklaştığının ölçüsüdür. Verilerin ortalamadan ortalama olarak ne kadar uzaklıkta olduğunu ifade eder. Bir dağılımdaki ölçümlerin tümünü işleme kattığı için güvenilir bir değişim ölçüsüdür. S: Deneysel standart sapma σ: Teorik standart sapma
Merkezi Değişim Ölçüleri RANJ (Menzil) Bir ölçümün ranjı, ölçümlerin en büyüğü ile en küçüğü arasındaki farktır. Grubun homojen ya da heterojen bir dağılım gösterdiği hakkında bilgi verir Örnek: 78, 89, 56, 36, 48, 92, 59, 60 Ranj: 92-36=56
Çeyrekler (Dörtte Birler): Küçükten büyüğe sıralanmış veri setinin %25 lik parçalarına denk gelen verilerdir. Üç adet dörtte bir bulunur. Merkezi Değişim Ölçüleri ÇEYREK SAPMA Birinci çeyrek (alt çeyrek = Q 1 ) İkinci çeyrek (orta çeyrek = Q 2 =Medyan) Üçüncü çeyrek (üst çeyrek = Q 3 1- Veriyi ortadan ikiye bölmek için medyan değeri hesaplanır (Q 2 ) Veri sayısı tek ise medyan üst ve alt yarımlar için kullanılır. Veri sayısı çift ise medyan iki yarımda da kullanılmaz. 2- Alt grubun medyanı Q 1 ve üst grubun medyanı Q 3 dür.
Merkezi Değişim Ölçüleri ÇEYREK SAPMA Çeyrek Sapma Merkezi eğilim ölçüsü olarak ortalama yerine ortancanın kullanıldığı durumlarda değişkenlik ölçüsü olarak kullanılır. Ortancadan sapmaya ilişkin bilgi verir. Standart sapam gibi aşırı uç değerlerden etkilenmez. Çeyrek sapma, üçüncü yüzdelik ile birinci yüzdelik arasındaki farka eşittir. Çeyrek sapma = Q= Q 3 - Q 1
Merkezi Değişim Ölçüleri ÇEYREK SAPMA (9+1):2=5 Q 2 =5. veri= 8 = medyan Alt Veri Seti: 2, 3, 5, 7, 8 Q 1 =3. veri = 5 Üst Veri Seti: 8, 9, 10, 12, 15 Q 3 =7. veri = 10 Çeyrekler açıklığı Q = Q 3 -Q 1 = 10 5 = 5
Merkezi Değişim Ölçüleri ÇEYREK SAPMA Q 2 = (6. veri+7.veri):2= 15.5 = medyan Alt Veri Seti: 10, 10, 12, 14, 14,15 Q 2 = (3. veri+4.veri):2= 13 Üst Veri Seti: 16, 17, 17, 17, 18, 19 Q 2 = (9. veri+10.veri):2= 17 Çeyrekler açıklığı Q = Q 3 -Q 1 = 17 13 = 4
Merkezi Değişim Ölçüleri ÇEYREK SAPMA Çeyrekler açıklığı Q = Q 3 -Q 1 = 35 15 = 20 51:4=12.75 Q 1 =13. veri= 15 2*12.75=25,5 Q 2 =(25.veri+26. veri):2 = (22+22):2= 22=medyan 3*12.75=38.25 Q 3 =38.veri= 35
2- Betimsel İstatistik (Sayısal Değerler) Verilerin karekteristiğine ve verilerin dağılımına göre uygun betimsel istatistiklerin kestirilmesi gerekir. Her betimsel istatistik her veri setinde anlamlı olmayabilir. Her betimsel istatistiğin hesaplanmasının yanı sıra hangi durumlarda kullanılabilir olduğunun da bilinmesi gerekir. Aksi durumda elde edilen sayılar, yanıltıcı olabilir, yanlış ya da eksik yorumlamaların yapılmasına yol açabilir.