Sosyal Ağ VERİ MADENCİLİĞİ Sosyal Ağlar Yrd. Doç. Dr. Şule Gündüz Öğüdücü Sosyal ağ kşler arasındak lşklern oluşturduğu br yapıdır Sosyal ağ ncelemes: ağ yapısının, kşler ya da gruplar (topluluklar) arasındak lşklern ve blg akışının ncelenmes L.C. Freeman, Vsualzng Socal Networks. Journal of Socal Structure, 000. Sosyal İlşkler: Çzge Düğümler: Kşler Ayrıtlar: sosyal lşkler ale, arkadadaş, ş Çzge G(V,E) V: düğümler kümes E: Ayrıtlar kümes Benzerlk Matrs S. Mlgram (967) Yakınlığın Altı Dereces: Sx Degrees of Separaton 3 Sosyal Ağların Özellkler Farklı (doğal) ağlar sosyal, byolojk, teknk, çerk.. Ortak özellkler Çok büyük, dnamk: düğümler, ayrıtlar ekleneblr/slneblr düğümler hang düğümlerle lşkde olacaklarına kendler karar veryorlar düğümler arası etkleşm ayrıtlarla sınırlı uzaklık/benzerlk çn soyut blg: coğraf, çerk, lşkler Sosyal ağ kuramı: lnk analz Farklı ağların genel özellkler nelerdr? Bu özellkler nasıl belrlenr, nasıl ölçülür? 4 Sosyal Ağların Özellkler Tanımlar Uzunluk (d G (s,t)): Ik düğüm (s,t) arasındak en büyük, en küçük, ortalama uzaklık Ik düğüm arasında bulunan yoldak ayrıt sayısı Ik düğüm arasında bulunan yoldak ayrıtların ağırlıklarının toplamı Derece: yönlü se düğüme gelen (n-lnk) / düğümden çıkan (out-lnk) bağlantıların sayısı Merkez: Ağdak dğer düğümlern bağlı olduğu br ya da br kaç düğüm Yoğunluk: Ağdak bağlantı sayısının olası bütün bağlantı sayısına oranı 5 σ st σ ts s ve t (s,t V) düğümler arasındak en kısa yol sayısı -> σ ss σ st (v): v V düğümünün üzernde bulunduğu s ve t düğümler arasındak en kısa yol sayısı C ( v) c t V d ( v, t) CG ( v) max d ( v, t) G t V Cs ( v) σ ( v) C ( v) B st s v t V s v t V G σ st ( v) σ st closeness centralty (Sabduss, 966) graph centralty (Hage and Harary, 995) stress centralty (Shmbel, 953) betweenness centralty (Freeman, 977; Anthonsse, 97) Ulrk Brandes, A Faster Algorthm for Betweenness Centralty, Journal of Mathematcal Socology 5():63-77, (00). 6
Tanımlar Sosyal Ağların Yeteneğ Hzp (Clque): seçleblecek her düğüm çft arasında br bağ olan alt çzge tam bağlı alt çzge Daha zayıflatılmış N-Hzp (N-Clque): Br düğümün çnde bulunduğu alt çzgedek dğer tüm düğümlere olan uzaklığı en çok N olablr N-Klan (N-Clan): N-Hzptek düğüm çftler arasındak yollar üstündek düğümler de N-Hzp üyes K-Plexes: Br düğümün n düğümden oluşan br N-Hzp çndek en az n-k düğüm le doğrudan bağlı olması Kestleme noktası (Cut Ponts): Bağlı olan br G çzgesnden, v düğümü ve bu düğüme bağlı olan bütün ayrıtlar çıkarıldığında oluşan G-v çzges bağlı değl se v kestleme noktasıdır. Özellk Derece (Degree) Yakınlık Ara düğüm Tanım Br düğümün bağlantı sayısı Dğer düğümlere olan yolun uzunluğu İk düğüm arasında yer alan düğüm Etk daha fazla seçenek Dğer düğümlerle doğrudan etkleşm Dğer k düğüm arasında lşkye sağlamak/kesmek 7 8 Problemler Web de Sosyal Ağlar Bağlı parçalar: kaç parça, büyüklükler ne, ne kadar bağlılar Ağ çapı: en uzak ortalama Bağlı olmayan düğümler / parçalar Küçük dünya özellğ Demetleme Gruplaşan lşkler/düğümler Örtüşen gruplar Grup ç ve gruplar arası lşklern oranı Grup ç ve gruplar arası lşklern rolü Ağın yapısı düğümlern dereces k : düğümünün dereces, N : düğümünün komşular kümes lşklern ağırlığının dağılımı ağ çnde öneml rolü olan düğümler: k grubu brbrne bağlayan Facebook Myspace LnkedIn Classmates Orkut Bebo Medya paylaşım steler: YouTube Flckr 9 0 Sosyal Ağlar çn Modeller Rassal çzgeler (Random Graphs: Erdös-Rény models) Watts-Strogatz modeller Scale-free Networks Boyd, D. M., & Ellson, N. B. (007). Socal network stes: Defnton, hstory, and scholarshp. Journal of Computer-Medated Communcaton, 3(), artcle. http://jcmc.ndana.edu/vol3/ssue/boyd.ellson.html
Rassal Ağlar Erdös-Rény (ER) Model: 959 yılında Paul Erdös ve Alfred Rény düğüm sayısı N, k düğüm arasında ayrıt olasılığı p, G(N,p) p /N, p /N, p /N, p0/n, p log(n)/n... N(N-)/ adet hlel yazı tura atma Derece dağılımı N çok büyük olduğunda Posson dağılımı G(N,p) le br çzge oulştur, rastgele br u düğümü Pr[deg(u) k]? Posson dağılımı ortalama λ p(n-) ~ pn Demetleme katsayısı (clusterng C coeffcent ) küçük C k λ e f ( k; λ) k! { e } λ : v j, vk N, e k ( k ) N C jk jk E 3 Erdös-Rény Model (960) Connect wth probablty p p/6 N0 k ~.5 Pál Erdös (93-996) Posson dstrbuton 4 Watts-Strogatz modeller: Caveman and Solara Erdos-Reny Ortak komşuları olması k düğüm arasında ayrıt olma olasılığını artırmıyor her ayrıt daha önceklerden bağımsız olarak oluşuyor Gerçekte oluşan ağ yapısına uygun değl k kşnn tanışma olasılığı ortak arkadaşları varsa daha fazladır Web de k sayfa brbrne bağlı se büyük olasılıkla aynı konudadırlar Watts Caveman: ayrıtların genel olarak yoğunluğu az k düğümün ortak komşuları varsa aralarında ayrıt olma olasılığı büyük Watts Solara ayrıtların genel olarak yoğunluğu az, br düğümün komşuları arasında ayrıt olma olasılığı farklı değl Erdos-Reny çzgesne benzer α-model α-model çn parametreler N düğüm sayısı k: ortalama derece p: k düğüm arasında ayrıt olma olasılığı α: yakın lşklern olasılığını artırmak çn parametre u,v düğüm çft çn m(u,v): ortak komşu sayısı R(u,v): k düğümün arasında ayrıt olma eğlm (propensty) m(u,v) > k, R(u,v) m(u,v) 0, R(u,v) p dğer durumlarda R(u,v) p + (m(u,v)/k)^α (-p) α çn Erdös-Reny çzgelerne benzyor 5 6 Watts-Strogatz Model Small Worlds - Occam s Razor Br dare etrafında eşt dağılmış N düğüm Her düğümün en yakın k komşusu arasında k ayrıt (yakın lşk) p olasılığı le br düğüme az sayıda rastgele ayrıt ekle (uzak lşk) farklı p değerler çn farklı çzgeler küçük α değerler çn demetleme katsayısı büyük Erdos-Reny çapı küçük α-model büyük demetleme katsayısı Occam s Razor farklı özellkler çn bast tek br model Watt s small world: çapı küçük demetleme katsayısı büyük Collectve dynamcs of 'small-world' networks Duncan J. Watts & Steven H. Strogatz 7 8 3
Örnek üç gerçek ağ üzernde nceleme Oyuncular batı bölgesndek güç santraller C.elegans snr sstem Small World Serbest Ölçekl Ağlar (Scale free): Örnek web düğümler web sayfaları ayrıtlar bağlantılar n k d c Actors 5,6 6 3.65 0.79 Power-grd 4,94.67 8.7 0.08 web örümcekler/web robotlar C.elegans 8 4.65 0.8 9 0 Serbest Ölçekl Ağlar Serbest Ölçekl Ağlar Düğüm sayısı N sabt değl Ağ sürekl yen düğümlern eklenmes/slnmes le değşyor web: yen sayfalar/steler eklenyor/slnyor yayınlar: yen yayınlar eklenyor Eklenen düğümlerle oluşan ayrıtlar ünform değl çok sayıda sayfanın/stenn bağlantı verdğ sayfaya/steye bağlantı verme olasılığı yüksek çok sayıda yayının referans gösterdğ yayının referans gösterlme olasılığı yüksek Pareto veya power law dağılımı çapı küçük (~log(n)) demetleme katsayısı çok büyük değl yakın komşuları le ayrıt olma olasılığı yüksek değl hub olan düğümlerle ayrıt oluşturma olasılığı yüksek Topluluk Belrleme Metabolk Proten S. Fortunato and C. Castellano, Communty Structure n Graphs, ArXv e-prnts Br çzge çnde ortak özellkler/görevler olan düğümler topluluğu aynı konudak web sayfaları benzer şleve sahp protenler aynı konuda çalışan nsan grupları aynı lg alanına sahp nsan grupları Topluluk çndek topolojk konumlarına göre düğümler sınıflandırılablr topluluğun merkeznde yer alan düğüm topluluğun sınırında yer alan düğüm Sosyal Ekonomk 3 4 4
Topluluk Tanımı Dar tanım Genş tanım Düğüm benzerlğ Dar Tanım Sadece alt çzgedek lşklere göre toplulukları belrlyor Örnek: Hzp, n-klan, k-plexes 5 6 Genş Tanım Düğüm benzerlğ Topluluk çzgnn yapısal br brm Düğümler brbrne benzer se aynı toplulukta Altçzgeler hem kend çndek lşkler hem de çzgenn ger kalanıyla olan lşkler le belrlenyor Null model: çnde topluluk bulunmayan çzge dar genş Erdös-Reny Newman-Grvan: düğümlern orjnal çzge le aynı dereceye sahp olduğu rassal çzge 7 8 Çzge Parçalama Örtüşen Topluluklar Graph Parttonng: Çzgey br düğüm br grupta kalacak şeklde gruplara (altçzgelere) bölme Problem: Gerçek dünyada br nesne brden fazla gruba üye olablr Örtüşen topluluklar Hyerarşk yapı G. Palla, I. Derény, I. Farkas, T. Vcsek, Uncoverng the overlappng communty structure of complex networks n nature and socety Nature 435, 84, 005 http://www.cfnder.org/ 9 30 5
Hyerarşk Yapı Altçzgeler tekrar parçalanablr Çzge Parçalama Hangs daya y A. Clauset, C. Moore, M.E.J. Newman, Herarchcal structure and predcton of mssng lnks Nature 453, 98, 008 3 3 İk Farklı Sonuç Brmsellk Üstünlüklern karşılaştırmak çn br krter Q Q(P) > Q(P) veya Q(P) < Q(P)? Modularty: Btşklk Matrs: m k u uv u, v V v V A A uv (u,v) E A uv 0 dger C { c, c,...}, c c ( j) e j a v c u c, v c j Q( G, C) j U c C A / m v uv k / m ( e a ) c V 33 34 Grvan-Newman Algortması Grvan-Newman Algortması M. Grvan & M.E.J Newman, Communty structure n socal and bologcal networks, PNAS 99, 78-786 (00) Toplulukları brbrne bağlayan ayrıtları belrle Betweenness bu ayrıtları slme brbrnden ayrık demetler. Bütün ayrıtların betweenness değerler hesaplanır. En büyük betweenness değerne sahp ayrıt slnr 3. Kalan ayrıtların betweenness değerler hesaplanır 4.. adıma ger dönülür 35 36 6
Gelştrlmş Grvan-Newman Algortması M.E.J. Newman & M. Grvan, Fndng and evaluatng communty structure n networks, Phys. Rev. E 69, 063 (004). Her düğüm br demet. Q değern en büyütecek k düğümü brleştr 3. Bütün düğümler tek demet olana kadar şleme devam et 4. En fazla Q değerne sahp demetlemey seç Problemler Örtüşen topluluklar Yönlü çzgeler Ağırlıklı çzgeler Karmaşıklık 37 38 7