Oku H&P section 7.3 Spatial locality nin getirdigi avantaji kullanmak Daha buyuk block (line) kullan Her bir fetch ile gelecekte yakin komsuluktaki erisimler icin data cache bulunacak Daha fazla hit e sebep olur Daha uzun line fetch etmek (ornek 4 words) icin gereken zaman cok katli zaman suresi almaz ( word fetch etmek icin gereken surenin 4 kati) /4/4 Bilgisayar Mimarisi. /4/4 Bilgisayar Mimarisi. Bandwidth succeeds if any block matches Address (showing bit positions) 3 6 5 4 3 6 Byte Tag offset Block offset Bir path deki information akisinin hizi bits/sec veya bytes/sec olarak olculur Bandwith i artirmak Information hizini artirmak veya paralel olarak daha fazla bit akisi temin etmek icin path in genisletilmesiyle olur 6 bits 8 bits V Tag 6 3 3 3 3 4K entries Mux 3 yalnizca word temin eder /4/4 Bilgisayar Mimarisi.3 /4/4 Bilgisayar Mimarisi.4
Eger miss varsa 4word uzunluklu block memory den cache getirilr Address (showing bit positions) 3 6 5 4 3 6 Byte Tag offset Block offset 6 bits 8 bits V Tag 4K entries 6 3 3 3 3 Ardisil instruction fetche leri Instruction cache miss rate yaklasik block size kac katina cikmissa o oranda duser Instruction erisimleri yuksek oranda spatial locality e sahip oldugundan block size ini artirmak mantikli Mux 3 ye yalnizca word getirilir /4/4 Bilgisayar Mimarisi.5 /4/4 Bilgisayar Mimarisi.6 Read 4 words at once into the cache Tag 3 ADD ORI LW LW LW Eger 4 word okumak icin gerekli sure word okumak icin gerekli surenin 4 katindan az ise, her bir memory erisimi cache 4 instruction getirilmesini daha kisa surede gerceklestirir rate in yukselmesini, ortalama fetch zamaninin kisalmasini saglar 4 8 6 4 8 3 36 4 44 ADD ORI LW ADD BLT CMP LUI LW LW /4/4 Bilgisayar Mimarisi.7 Miss Penalty nin ilk parcasina erisim icin gerekli zaman Latency (genelde clock cycle olarak olculur) Miss penalty iki kisimdan olusur Address decode (address cozumu) icin gerekli sure (tipic olarak 5- clock cycle veya 5 nsec) Transfer time: word transferi basina gecen zaman. Yaklasik nsec /4/4 Bilgisayar Mimarisi.8
Miss penalty memory access tarafindan domine edilir access time (address cozumunu icerir) Transfer edilen word sayisindan bagimsizdir Bu yuzden access basina daha cok data transfer et Multiplexor b. Wide memory organization bank bank bank c. Interleaved memory organization bank 3 access, transfer 4 words/ trans time a. One-word-wide memory organization access, transfer word/ transfer time access, transfer 4 words/4 tr times /4/4 Bilgisayar Mimarisi.9 /4/4 Bilgisayar Mimarisi. Ornek 5 clock cycles access time cycle transfer time (bus width = bus genisliginden bagimsiz) Bandwith (in bytes /cycles) = Nbytes/(*access time + N*transfer time) Multiplexor b. Wide memory organization bank bank bank c. Interleaved memory organization BW = 6/(*5 + *) =. bytes/cyc bank 3 a. One-word-wide memory organization BW = 6/(4*5 + 4*) =.5 bytes/cyc BW = 6/(*5 + 4*) =.8 bytes/cyc /4/4 Bilgisayar Mimarisi. /4/4 Bilgisayar Mimarisi.
Miss Penalty memory den bir block transfer etmek icin harcanan sure Genalde cycle cinsinden olculur Block boyunu cok buyuk yapma Eger block boyunu cok buyutursek miss penalty artar Miss penalty nin artmasi sonunda miss rate nin azalmasindan gelen avantaji yok eder /4/4 Bilgisayar Mimarisi.3 /4/4 Bilgisayar Mimarisi.4 4% 35% Don t make block size too big Ccahe kullaniminin sonucu Miss rate 3% 5% % 5% % 5% % 4 6 64 56 Block size (bytes) KB 8 KB 6 KB 64 KB 56 KB /4/4 Bilgisayar Mimarisi.5 Her bir hit, aranilan verinin cycle sonra register larinda bulunmasi anlamina gelir Eger hit rate yuksekse, yuksek hizlimemory e sahip oldugumuz izlenimini verir Miss rate inin dusuk olmasi, miss penalty nin yuksek olmasinin getirdigi dezavantaji dengeler /4/4 Bilgisayar Mimarisi.6
performance access (read veya write) her bir hit icin cyle alir access (read veya miss) her bir miss icin miss penalty zamani alir Penalty suresi boyunca, cache daha dsusuk level daki memory den bir block data okur time = No. of instructions Performance equation Instruction count Average cycles per instruction x CPI Time of clock cycle x Period Performansi etkileyen ana faktorler (bu faktorler Inter-dependent = kendi aralarinda bagimsiz degil) /4/4 Bilgisayar Mimarisi.7 /4/4 Bilgisayar Mimarisi.8 cache performance ornegi Miss penalty: R (read) veya W(write) icin gerekli sure (eger data cache degilse). 5-cycle yaygin Miss rate: miss e sebep olan erisinlerin orani rate: hit le sonuclanan erisimlerin orani Miss rate + rate = Ornek: cache miss penalty cycle, hit rate %95 LW icin CPI normalde 5. Miss oldugunda CPI 5 LW icin ortalama CPI nedir? Ave CPI =.95 * 5 +.5 * 5 =. Eger miss penalty = cycle olsaydi (memory daha yavas) sonuc ne olurdu? Ave CPI =.95 * 5 +.5 * 5 =. Yavas memory nin etkisi az -- miss rate yuksek degil /4/4 Bilgisayar Mimarisi.9 ozeti (simdiye kadar) (SRAM): Daha dusuk seviyedeki memory deki (ornek DRAM) verilerin bir subset ini icerir x - x DRAM den daha hizli Access hit (read veya write) cycle alir. Access miss (R veya W) penalty time kadar sure alir Miss esnasinda daha dusuk seviyen cache block getirilirken stall edilebilir (Her makina icin gecerli degil) /4/4 Bilgisayar Mimarisi.
ozet Miss penalty azaltilamayabilir (DRAM yavas) Daha buyuk block transfer ederek daha az penalty ode performance i artirmanin iki yolu rate i artir Miss penalty azalt /4/4 Bilgisayar Mimarisi. /4/4 Bilgisayar Mimarisi. Associative cache Block larin cache daha esnek yerlestirimi suretiyle hit rate i artirilabilir En son kullanilan data nin daha cogunu ayni buyuklukteki cache tutabiliriz Set-associative cache rate ini artirabilir time inde az bir artisa sebep olur Cost (maliyet): Hardware complexity artar (ayni alana daha kucuk kapasiteli memory sigar) /4/4 Bilgisayar Mimarisi.3 /4/4 Bilgisayar Mimarisi.4
Temel fikir daha dusuk seviyedeki memory den cache getirildiginde, data blogunun nereye yerlestirilecegi konusunda daha esnek ol Son zamanlarda erisilen data yi daima cache tutmaya calis /4/4 Bilgisayar Mimarisi.5 -way set-associative cache den data yi fetch et, cache deki iki locationdan birine yerlestir Tag Tag 7 38 4 3 8 Tag Tag 5 veya 6 9 38 38 4 44 8 99 3 97 36 5 4 44 4 /4/4 Bilgisayar Mimarisi.6 Tipik gorus: data yi least recently used location a yerlestir (LRU teknigi) Reading a -way set-associative cache index iki location i gosterir Tag Tag 7 38 4 3 8 Tag Tag 5 38 6 9 38 4 44 8 99 3 97 36 5 4 44 4 /4/4 Bilgisayar Mimarisi.7 Her iki tag, uretilen address in Tag iyla parallel karsilastirilir Configurations: 8 block set-associative cache All options: Block = word One-way set associative (direct mapped) Tag Block 3 4 5 6 7 Set Two-way set associative Set Tag Tag 3 Four-way set associative Tag Tag Tag Tag Eight-way set associative (fully associative) Tag Tag Tag Tag Tag Tag Tag Tag /4/4 Bilgisayar Mimarisi.8
4-way set-associative cache 3 3 9 8 3 8 Divide 3-bit address this way 53 54 55 V Tag V Tag V Tag V Tag 3 ------------- ----- Tag bits Set index (hangi line) Word ici addressleme Block icinde word address leme Eger blocksize = word ise Bu alan yoktur Blocksize = word 4 data words 56 set (her biri 4 block) 4-to- multiplexor /4/4 Bilgisayar Mimarisi.9 /4/4 Bilgisayar Mimarisi.3 Erisim icin, bir set secilmeli ve bu setteki tum block larin tag lari address den gelen tagla parallel kiyaslanmali Maliyet (Costs): Ekstra hardware, access time inda artis 53 54 55 3 3 9 8 3 8 V Tag V Tag V Tag V Tag 3 time i kisaltmak icin tag kiyaslama lari parallel yap 53 54 55 3 3 9 8 3 8 V Tag V Tag V Tag V Tag 3 4-to- multiplexor 4-to- multiplexor /4/4 Bilgisayar Mimarisi.3 /4/4 Bilgisayar Mimarisi.3
3 3 9 8 3 associativity artikca performance artar 8 5% 53 54 55 V Tag V Tag V Tag V Tag 3 Miss rate % 9% 6% Yalnizca tag i match eden word u ya gonder 4-to- multiplexor /4/4 Bilgisayar Mimarisi.33 3% % One-way Two-way Four-way Eight-way Associativity KB 6 KB KB 3 KB 4 KB 64 KB 8 KB 8 KB /4/4 Bilgisayar Mimarisi.34 5% size (boyu) artikca performance artar Multilevel s Miss rate % 9% 6% 3% chip inde primary SRAM cache ( cycle hit time, cycle miss penalty) main memory ile primary SRAM arasinda Secondary SRAM ( cycle access time, cycle miss penalty ) % One-way Two-way Four-way Eight-way Associativity KB 6 KB KB 3 KB 4 KB 64 KB 8 KB 8 KB /4/4 Bilgisayar Mimarisi.35 /4/4 Bilgisayar Mimarisi.36