DOSYA ORGANİZASYONU ÖZLEM AYDIN TRAKYA ÜNİVERSİTESİ BİLGİSAYAR MÜHENDİSLİĞİ BÖLÜMÜ Giriş
Derse ilişkin genel bilgiler Dersi veren: Özlem AYDIN E-mail: ozlema@trakya.edu.tr Dersin yardımcısı: Tuğba ÇALIŞ Dersin web sayfası: http://ozlemaydin.trakya.edu.tr/d4.html
Derse ilişkin genel bilgiler Değerlendirme Ara sınav: %30 Final: %70 Kaynaklar File Organization and Processing", Tharp, A.L., John Wiley & Sons, 1988. G. A.V. PAI, "Data structures and algorithms, Concepts, Techniques and Applications", TMH, 1st Edition, 2008.
Derse ilişkin genel bilgiler Dersin Amacı Bu dersin amacı öğrencilere bilgisayar bilimleri ve mühendisliği temel kavramlarından biri olan ve sürekli bilgi saklamayı öngören dosyalama sistemlerinin oluşturulması ve indekslenmesini öğretmektir.
Derse ilişkin genel bilgiler Ders İçeriği Temel kavramlar Veri depolama ortamları Dosya organizasyonu tipleri Sıralı dosya organizasyonu Doğrudan erişimli dosya organizasyonu İndeks sıralı dosya organizasyonu Hashing algoritmaları Ağaç yapıları
Sunum planı Temel kavramlar Amaç Dosya yapıları Veri depolama ortamları
Temel kavramlar Dosya (file) aynı yapıya sahip ve birbirleri ile ilişki içerisinde olan kayıtlar (records) topluluğudur. Kayıt, yapılan işlemler sırasında ana belleğe yazılan veya ana bellekten okunan veri birimidir. Bir kayıt içindeki ayrı ayrı veri parçalarına alan (field) adı verilir. Örneğin bir öğrenci bilgileri dosyasını ele alırsak, öğrencinin adı, soyadı, numarası, aldığı dersler ve bu derslerden aldığı notlar ayrı ayrı birer alandır. Bir öğrenciye ait bütün bu alanlar bir araya gelerek öğrencinin kaydını oluşturmakta ve tüm öğrencilere ait kayıtlar da bir araya gelerek öğrenci bilgileri dosyasını oluşturmaktadır.
Temel kavramlar Numarası Adı Soyadı Bölümü 122 Nedim Doğan Gazetecilik 456 Ece Mumcu Hukuk 342 Bilge Aydın Bilgisayar Mühendisliği KAYIT Alan 1 Alan 2 Alan 3 Alan n
Temel kavramlar Bir bilgisayar sistemindeki veriler arasında hiyerarşik bir yapı vardır. Bu organizasyon bit, byte, alan isimleri, kayıtlar, dosyalardır. Bit, bilgisayarın işleyebileceği en küçük bilgi birimini temsil eder. 8 bit bir grup byte oluşturur ve bir karakteri temsil eder. Bu harf, rakam veya sembol olabilir. Bir grup karakter alan olarak adlandırılır. İlgili alanların oluşturduğu grup bir kayıt olarak adlandırılır. Bir dosya ise birden fazla kayıttan oluşabilir.
Veri hiyerarşisi Dosya Kayıt Alan Karakter Bit
Ek tanım Mantıksal kayıt Bir varlık hakkındaki veri (tablodaki bir kayıt) Fiziksel kayıt Veri saklama ortamı üzerindeki kayıt Genel olarak birkaç mantıksal kayıt bir fiziksel kayıtta depolanır denebilir.
Temel kavramlar Dosya yapıları, veri tabanı denilen ve güncel uygulamalarda kullanılan yapının temelini oluşturur. Alanlar kayıtları, kayıtlar dosyaları oluşturur ve dosyaların bir araya gelmesi ile de veri tabanları oluşmaktadır.
Temel kavramlar
Temel kavramlar Dosya sistemi, bir dosyanın bir disk üzerinde nasıl saklandığını ve bir bilgisayarın dosyaları yönetebilmek için disk erişimini nasıl sağlaması gerektiğini kontrol eden bir sistemdir. Örnek: FAT (File Allocation Table) NTFS (New File Technology System) Bir Veri Tabanı Yönetim Sistemi (VTYS), aralarında kayıt (record) düzeyinde ilişki bulunan dosyaların herhangi bir uygulama için bir araya getirilmesiyle oluşan sistemdir. Dosya organizasyonu, bilgiyi fiziksel seviyede, VTYS ise mantıksal seviyede yönetmek için kullanılır.
Amaç Bir yazılım sisteminden beklenen özellikler hızlı cevap süresi gerçek zamanlı uygulamalarda performans geliştirilme için gereken toplam süre etkin hafıza kullanımı kullanılabilirlik Dosya organizasyonundaki amaç tüm bu beklentiler ve sınırlamalar altında en iyi performansı elde etmektir.
Dosya erişim yöntemleri Dosyalar büyük miktarda veriler içerdiklerinden veri depolama ortamlarında saklanırlar ve kullanış amaçlarına göre değişik şekillerde düzenlenirler. Düzenleniş biçimine göre ve veri depolama ortamına bağlı olarak bir dosyaya genel olarak 2 farklı biçimde erişilir: Sıralı erişim Doğrudan erişim
Dosya erişim yöntemleri Sıralı erişim: Bir veriye (bellekte, diskte veya kasette bulunan) önceden belirlenen bir sıra izlenerek birbiri ardı sıra ulaşılması anlamına gelir. Bu erişim bazen veriye ulaşmak için tek yoldur (kasetlerde gibi). Örneğin; 500 kayıt bulunan bir dosyada 280. sıradaki kayıda ulaşmak için o kayıda gelinceye kadar olan tüm kayıtların okunması gerekir.
Dosya erişim yöntemleri Doğrudan erişim: Ulaşılmak istenen bir veriye, diğer kayıtlardan bağımsız olarak doğrudan erişmek mümkündür. Bunun için her bir kaydı diğer kayıtlardan ayıran anahtar (key) tanımlayıcısına ihtiyaç duyulur.
Dosya organizasyonu tipleri Sıralı dosya organizasyonu (Sequential file organization) Doğrudan erişimli dosya organizasyonu (Direct access file organization) İndeksli sıralı dosya organizasyonu (Indexed sequential file organization)
Sıralı dosya organizasyonu Sıralı dosyalar, bir başka deyişle ardışık dosyalar, içerdiği kayıtlara birinci kayıttan başlamak üzere sırayla erişim yapmak üzere tasarlanmış dosyalardır.
Doğrudan erişimli dosya organizasyonu Kayıtlara doğrudan erişim olanağı sağlayan dosyalardır. Doğrudan erişim için her kaydı diğer kayıtlardan ayıran özel bir tanımlayıcıya gerek duyulur. Bu özel tanımlayıcı anahtar (key) olarak adlandırılır. Anahtar bilindiği zaman, diğer kayıtlar incelenmeden ve kayıtların kaydedilme sırasına bakılmaksızın istenilen kayda doğrudan ulaşmak mümkündür.
İndeksli sıralı dosya organizasyonu Dosyadaki kayıtlara indeks kullanarak erişim sağlayan dosya türlerine indeks sıralı dosyalar denir. Yapı olarak sıralı dosyalar gibidir. Ancak kaydı oluşturan elemanlardan birisi indeks sahası olarak seçilir ve dosya yaratılmadan önce kayıtlar bu elemana göre sıraya dizilir.
Veri Depolama Ortamları Bilgisayarlar verileri veri depolama ortamları olarak bilinen manyetik disklerde, optik disklerde veya manyetik teyp gibi kalıcı hafıza birimlerinde saklar. Bu depolama ortamlarında veriler kalıcı olarak saklanır. Büyük bellek kullanırlar. Hızları ana bellekten yavaştır. Bunun sebebi de dönme hızına bağlı olarak veriye erişim hızının yavaşlığıdır.
Manyetik Harddisk Bir hard disk en basit haliyle şu parçalardan oluşur: Bilgilerin manyetik olarak depolandığı bir veya daha fazla sayıda plaka (platter), Okuma yazma kafaları, Plakalarla okuma yazma kafalarının hareketini sağlayan motorlar, Diskin kontrolünden sorumlu devreleri üzerinde barındıran kontrol kartı.
Manyetik harddisk mekanizması
Manyetik Harddisk yapısı Bilgiler plakalarda sektörler (sector) ve izler (track) halinde saklanır. Her sektör 256, 512 gibi belirli bir sayıda byte içerir ve plaka boyunca yan yana duran bütün sektörlerin oluşturduğu yapılara da iz denir. Okuma yazma kafası bir iz üzerine konumlanarak istediği sektörleri okuyup yazabilir. Birden fazla disk plakası için düşeyde aynı hizadaki tüm izleri içine alan silindir (cylinder) şeklindeki tanımlamadır. Okuma yazma kafaları hep birlikte hareket eder. İşletim sistemleri sektörleri veri kümeleri (cluster) halinde gruplar. Dosyaların yerleştirildiği ve bir diskte okuma yazma işlemi için kullanılan en küçük disk alanı veri kümesidir.
Manyetik harddisk mekanizması
Harddisk Kapasitesi İz kapasitesi = her izdeki sektör sayısı X her sektördeki byte sayısı Silindir kapasitesi = her silindirdeki iz sayısı X iz kapasitesi Sürücü kapasitesi = silindir sayısı X silindir kapasitesi Her kayıdı 256 byte olan ve 50.000 kayıttan oluşan bir dosya aşağıdaki özelliklere sahip bir diskte kaç tane silindir üzerine sığar? Sektör başına byte sayısı = 512 İz başına sektör sayısı = 63 Silindir başına iz sayısı = 16 Silindir sayısı = 4092 Gerekli sektör sayısı = (50.000 x 256)/512 = 25.000 sektör Bir silindirdeki sektör sayısı = 63 x 16 = 1008 sektör Gerekli toplam silindir sayısı = 25.000 / 1008 = 24.8 silindir
Manyetik Harddisk yapısı Diskin kendisi veya işletim sistemi sektörleri gruplayarak onları veri kümeleri (cluster) denen yapılar halinde topluca işler. Düşük seviyeli formatlama (low level formatting) denen işlemle plakalar üzerinde sektörler ve izler oluşturulur, bunların başlangıç ve bitiş noktaları plakalar üzerinde belirlenir. Daha sonra da yüksek seviyeli formatlama (high level formatting) yapılarak dosya depolama yapıları oluşturulur ve dosyaların plakalarda oluşturulan sektörlere ve izlere hangi düzende yazılacağı belirlenir.
Harddisk yapısı Düşük ve yüksek seviyeli formatlama işlemleri sonrasında plakalar okuma/yazmaya hazır hale gelir. Aşağıdaki şekilde mavi renkle bir sektör, sarıyla da bir iz gösteriliyor.
Disklerin performans ölçütleri Konumlanma süresi (seek time) Okuma yazma kafasının disk üzerinde istenen adrese yazma veya okuma amaçlı konumlanmak için harcadığı süredir. Kafanın disk üzerindeki konumuna göre bu süre kısalıp uzayabilir. Bunun için ortalama konumlanma süresinden (average seek time) bahsedilir. Bu sürenin kısalığı diskin okuma ve yazma performansının iyi olduğunu gösterir.
Disklerin performans ölçütleri Dönme zamanı (Rotational delay) Diskin ilgili sektörüne okuma yazma kafasının ulaşabilmesi için gerekli süredir. 5000 rpm (rotate per minute) ile dönen bir diskte bir tur 12 ms. dir. Transfer süresi (transfer time) Bir sektörden istenen veriyi okuyup belleğe aktarmak için geçen süredir.
CD/CD-ROM CD (Compact Disc) Philips ve Sony ortaklığı ile geliştirilmiş sayısal optik veri saklama ortamıdır. CD-ROM'lar (Compact Disc Read-Only Memory) ve CD'ler bilgisayar sektöründe çok yaygın bir biçimde kullanılan teknolojilerdir. CD-ROM sürücülerin bilgisayarlarda ilk kullanılmaya başlanması 1985 senesine rastlamaktadır. ROM kelimesi, bu sürücülerde kullanılan CD lere önceden bilgi yazılmış olması ve bu bilginin değiştirilemez olması gerçeğinden ileri gelmektedir. Manyetik ortamlarda verileri okumak için okuma ve yazma kafaları kullanılırken, optik ortamlarda disk yüzeyini tarayan lazer okuyucular kullanılmıştır.
CD yapısı CD polikarbonat bir levhadan 120mm çapında ve 1.2 mm kalınlığında, üç katmanlı olarak üretilirler ve merkezlerinde 15mm çapında bir delik bulunur. Bu levha alüminyum alaşımı olan metalik bir filmle kaplanmıştır. Alüminyum film, CD-ROM sürücüsünün bilgileri okuduğu kısımdır. Daha sonra levha, verileri korumak için polikarbonat bir kaplama ile kaplanmıştır. CD ler tek taraflıdır.
CD yapısı CD üzerinde çukur (pit) ve yüzey (land) olarak farklı iki yapı vardır. Veriler CD üzerinde damgalanmış çukurlarda saklanmaktadır. CD yüzeyindeki çukurlar CD nin katmanları
CD yapısı CD üzerindeki bu çukurluklar ve yüzeyler 1 ve 0 rakamlarına karşılık gelmektedir. Her çukur ve yüzey değişimi 1 olarak alınır. Her iki geçiş arası ise 0 olarak alınır.
CD yapısı CD ler manyetik disklerden farklı olarak spiral şeklinde tek bir izden oluşurlar. Spiral yapı CD nin iç kısmından dış kısmına doğru ilerlemektedir. Bu yapı sayesinde standart olarak 12 cm çapında üretilen CD lere göre daha küçük boyutlu ve daha az kapasiteli CD ler üretilmektedir.
CD yapısı CD lerin sektör yapısı da manyetik disklere göre farklıdır. Manyetik diskte açısal hız her yerde aynıdır. Bu nedenle diskin dış tarafı iç tarafa göre daha hızlı döner. Ayrıca diskin dışına doğru sektörlerin boyutu artmaya başlar. Ancak CD lerde spiral izin her bir sektörü eşit boyuttadır. CD sürücülerde sabit doğrusal hız (constant linear velocity) diye adlandırılan bir okuma tekniğiyle okuma hızı duruma göre değiştirilir. CD nin dış taraflarına yaklaşıldığında hız yavaşlatılırken iç taraflara doğru hız yükseltilir.
Manyetik Teyp (Tape Back-up) Sürücüleri Teyp sürücüleri, bilgilerin manyetik bir teyp kaseti üzerine kaydedildiği ve daha çok veri yedeklemede ya da arşivlemede kullanılan cihazlardır. Teyp sürücüleri, sıralı erişim (sequential access) ilkesine sahiptir. Diğer bir ifadeyle istenen bilgiye gitmek için o bilgiden önce gelen tüm bilgilere gidilmesi gerekir (ses kasetlerinde olduğu gibi). Sıralı erişim yapmalarından dolayı çok hızlı olmamalarına karşın kullanılan kasetlerin uzun ömürlü ve düşük fiyatlı olması, veri arşivlemede önemli bir pay almalarını sağlamaktadır.
Manyetik Teyp Yapısı
Kaynaklar http://www.pcsistem.net/konuimg/cdrom.htm http://megep.meb.gov.tr/mte_program_modul/ modul_pdf/481bb0013.pdf