Internet je prvi digitalni artefakt, ki ga je ustvarilo računalništvo. Mi pa ga moramo proučevati po principu znanstvenih metod.
Dr. Jure Leskovec: »Skozi oko spleta skušamo razumeti, kako deluje družba.«
Raziskovalec omrežij na univerzi Stanford v Kaliforniji
Enaintridesetletni dr. Jure Leskovec je strokovnjak za proučevanje velikih socialnih in informacijskih omrežij, svoje znanje pa kot profesor »razdaja« na eni najbolj znamenitih ameriških univerz, na Stanfordu v Kaliforniji, kjer že tretje leto poučuje na oddelku za računalništvo. Je človek, ki se v gori podatkov, ki jih za seboj puščajo uporabniki interneta, znajde kot riba v vodi. Splet je, kot pravi, njegov laboratorij za razumevanje utripa človeštva.
Danes se zdi, da sta Facebook in Twitter večna. Dejansko pa sta z nami šele nekaj let. Si je mogoče predstavljati, da ju bo sčasoma, z napredkom tehnologije, nadomestilo kaj drugega?
Zakup člankov
Celoten članek je na voljo le naročnikom. Če želite zakupiti članek, je cena 4,5 EUR. S tem nakupom si zagotovite tudi enotedenski dostop do vseh ostalih zaklenjenih vsebin. Kako do tedenskega zakupa?
Internet je prvi digitalni artefakt, ki ga je ustvarilo računalništvo. Mi pa ga moramo proučevati po principu znanstvenih metod.
Enaintridesetletni dr. Jure Leskovec je strokovnjak za proučevanje velikih socialnih in informacijskih omrežij, svoje znanje pa kot profesor »razdaja« na eni najbolj znamenitih ameriških univerz, na Stanfordu v Kaliforniji, kjer že tretje leto poučuje na oddelku za računalništvo. Je človek, ki se v gori podatkov, ki jih za seboj puščajo uporabniki interneta, znajde kot riba v vodi. Splet je, kot pravi, njegov laboratorij za razumevanje utripa človeštva.
Danes se zdi, da sta Facebook in Twitter večna. Dejansko pa sta z nami šele nekaj let. Si je mogoče predstavljati, da ju bo sčasoma, z napredkom tehnologije, nadomestilo kaj drugega?
Na to lahko odgovorim s šalo. Če znanstvenika vprašajo, kaj bo naslednje veliko odkritje, bo odgovoril, da ne ve, je pa prepričan, da se on s tem že ukvarja. In podobno je verjetno tudi s Facebookom in Twitterjem. To sicer ni vprašanje za milijon, temveč za milijarde dolarjev. Te velike zgodbe, ki prihajajo iz Silicijeve doline, so še zelo nove, hkrati pa so že izjemno spremenile naše družbeno okolje. Še nedavno nismo vedeli, zakaj sta Facebook ali Twitter sploh uporabna. In v Dolini je še veliko takih zgodb. So ’kul’, ampak še vedno ne vemo natančno, zakaj so uporabne, če sploh so. In ta podjetja skupaj z uporabniki ugotavljajo, kaj je tisto, česar si želimo več, in kaj je tisto, česar ne potrebujemo. Trenutno v Silicijevi dolini obstaja kar nekaj podjetij, ki razvijajo tako imenovana mikrosocialna omrežja. Pri teh pa je ideja v tem, da si povezan samo z najbližjimi ljudmi, morda petimi ali šestimi, s katerimi pa res deliš vse, kar se ti zgodi.
Kakor je sicer videti, niti Facebook niti Twitter še zdaleč ne bosta izginila. Morda bosta malo zavila in se usmerila v kakšno drugo smer. Sploh Facebook se zelo hitro spreminja, prilagaja razmeram, kar je njegova velika prednost. Je pa res, da se prav Facebook na nekaterih trgih že nekako zasičuje. V ZDA je omrežje že zasičeno, število ameriških uporabnikov stagnira ali celo pada. In tudi povezave nas uporabnikov znotraj Facebooka se zasičujejo. Problem je v tem, da v realnem življenju te povezave zahtevajo neko energijo, napor, da jih vzdržuješ. In ko odraščaš, se razvijaš, se nekatere povezave naravno pretrgajo. Na Facebooku pa se to ne zgodi.
Bi lahko rekli, da je Facebook povzročil napihovanje »balona« prijateljstev, tako kot se je dogajalo z napihovanjem cene vrednostnih papirjev in nepremičnin pred krizo? Ali lahko tudi ta balon poči?
Prav gotovo. Na začetku je bila najpomembnejša aktivnost na socialnih omrežjih povezovanje drug z drugim in super se nam je zdelo, da imamo čim več prijateljev. Število prijateljev je postalo celo nekakšen statusni simbol. Zdaj pa se je pojavil problem, da imaš naenkrat nekaj sto prijateljev, do katerih imaš zelo različne odnose. Eni so ti zelo blizu, eni malo manj, eni so iz enega kroga prijateljev, drugi iz drugega, tretji so znanci iz poklicnega življenja. Ti krogi se sicer nekako prekrivajo, ampak v resnici so zelo ločeni. In upravljanje vseh teh prijateljstev je zelo zapleteno. Lahko se zgodi, da se stvari zasitijo in bodo uporabniki začeli odhajati drugam ali pa bo Facebook nekako rešil težavo.
Pred časom si prišel v medije zaradi projekta, s katerim vam je v tvoji raziskovalni skupini uspelo z veliko mero verjetnosti napovedati, kdo bo naslednji prijatelj kateregakoli uporabnika na Facebooku. Kako?
V sodelovanju s Facebookom smo posodobili njihov sistem za priporočanje ljudi, ki jih morda poznate. Če začneš proučevati, kako si uporabniki Facebooka pridobivajo nove prijatelje, če analiziraš, kako se ustvarjajo nove povezave v omrežju, se izkaže, da sta pri tem ključna dva, v retrospektivi precej intuitivna dejavnika. Prvi je ta, da 90 odstotkov novih povezav na Facebooku nastane tako, da uporabnik za prijatelja doda prijatelja svojega prijatelja. Drugi pa je ta, da je verjetnost povezovanja do te osebe sorazmerna s številom skupnih prijateljev. V sodelovanju s Facebookom smo na podlagi te analize nadgradili sistem, ki danes uporabnikom priporoča nove prijatelje. Ta sistem je »naučen« na podatkih. To izvedemo tako, da na primer vzamemo podatke za eno leto, potem pa na podlagi podatkov v prvih šestih mesecih skušamo parametre svojega modela za napovedovanje novih povezav v omrežju prilagoditi tako, da se bodo napovedi za naslednjega pol leta čim bolj ujemale z dejanskimi podatki, ki jih imamo na voljo.
Kako je v resnici uspešen ta sistem?
V povprečju ima uporabnik 20 tisoč ljudi, ki so prijatelji uporabnikovih prijateljev. In če jih naš sistem izmed teh 20 tisoč ljudi izbere 20, se bo ta uporabnik v naslednjem mesecu povezal z osmimi izmed njih.
Pa ste imeli kakšno finančno korist od izboljšanja sistema priporočil za Facebook?
To je bilo znanstveno sodelovanje. Na koncu smo mi objavili odmeven članek, Facebook pa je rešil problem, ki je bil zanje zelo pomemben.
Pa obstajajo kakšni podatki o tem, koliko priporočenih prijateljstev propade? V koliko primerih se priporočilo udejanji v aktivnem prijateljstvu?
To je v resnici zelo dobro vprašanje. Meritve načeloma kažejo, da ljudje z malo prijatelji (manj kot 20) in majhno aktivnostjo v omrežni soseščini bolj verjetno zapustijo omrežje. S tega vidika so dobra priporočila o tem, kdo so še uporabniki, ki jih mogoče poznate, za nove uporabnike še kako pomembna. Je pa to vprašanje tudi del širšega vprašanja: Kaj je tista stvar, ki jo kot lastnik ali upravljavec omrežja hočeš optimizirati? Kaj je merilo kakovosti bivanja v omrežju? Doslej je precej na slepo veljalo, da več ko imaš povezav, prijateljev, bolj si zadovoljen v omrežju. In to je tisto, kar so poskušali optimizirati. Po drugi strani pa je vprašanje, kaj take strukture in hitro povečevanje števila povezav pomenijo za omrežje kot celoto na dolgi rok. Kaj so dejansko parametri, ki opisujejo »zdravo« omrežje. S tem se trenutno ukvarjamo. Ne želimo ostati samo pri napovedovanju usode enega uporabnika v omrežju, želimo se naučiti napovedovati usodo celotnega omrežja.
Omrežje Facebook se na nekaterih trgih že nekako zasičuje. V ZDA je omrežje že zasičeno, število ameriških uporabnikov stagnira ali celo pada.
Ko praviš, da se je kakovost omrežja doslej merila predvsem glede na količino povezav, takoj pomislim na aktualno razmišljanje o (ne)primernosti bruto domačega proizvoda kot najpomembnejšega merila za kakovost države in življenja v njej ter iskanje dodatnih parametrov, ki bi dali bolj realno sliko. Bo o tem treba razmisliti tudi v socialnih omrežjih?
Se strinjam. Zanimivo je recimo, da imajo pri Googlu dovolj podatkov, da lahko ugotovijo, da se jim v določenih trenutkih uporabniku ne splača pokazati oglasa. Če nimajo super relevantnega oglasa za to, kar uporabnik v tistem trenutku išče, vam oglasa ne bodo pokazali. Na prvi pogled se to zdi neumno, češ, zakaj ne bi izkoristili oglaševalskega prostora, ki je na voljo. Morda pa bo kdo vendarle kliknil na oglas. Ampak na dolgi rok se izkaže, da če uporabniku pokažejo slab oglas, bo videl, da ta oglas zanj ni zanimiv, in se bo odvadil gledati na del zaslona z oglasi, ker tam tako ali tako ni nič zanimivega. Zato enkrat v prihodnosti, ko bi bil prikazani oglas res relevanten, tega ne bo niti zaznal. To je primer nekoliko dolgoročnejše optimizacije. In tudi na socialnih omrežjih, kot je Facebook, bo prej ali slej treba iti v to smer.
Doktoriral si na področju računalništva. Vendar bolj ko te poslušam, bolj se mi zdi, da je velik del tvojega raziskovanja namenjen sociološkim vprašanjem.
To drži. Američani imajo za to že poseben izraz – računska sociologija. Zelo veliko sodelujemo s sociologi. Pri nas na Stanfordu so sociologi tudi zelo dobri v programiranju in analizi velike količine podatkov. Ravno zaradi revolucije, ki jo je prinesel internet, imamo danes dostop do velike količine podatkov, ki pasivno nastajajo kot posledica našega življenja. Za družboslovje pa je to kar velik premik. Družboslovje je doslej načeloma večino razi–skovanja opravilo z zbiranjem podatkov s pomočjo anket in opazovanja. Tudi interneta so se na začetku lotevali tako, da so, če karikiram, analize uporabnikov internetnih socialnih omrežij obravnavali enako kot bi analize socialne dinamike med taksisti v Ljubljani. Ampak med taksisti in uporabniki interneta je zelo pomembna razlika. Na internetu je veliko lažje spremljati ravnanje in dejavnosti uporabnikov. In tako imamo kar naenkrat dostop do nove velike gore podatkov, ki jih je mogoče analizirati in poskušati razumeti. Pri našem delu je sicer tudi »stari« način družboslovnega raziskovanja zelo zelo koristen in še kako dobrodošel, saj nam daje vpogled v dolgoletna razmišljanja o vprašanjih, s katerimi se ukvarjamo. Mislim, da si lahko v prihodnosti obetamo najboljše znanstvene rezultate ravno pri kombinaciji računalniških pristopov analize velikih podatkovnih baz z družboslovnimi in antropološkimi vidiki analize omrežij. Tradicionalno so bile družboslovne analize omrežij in družbene dinamike bolj opisne narave. V moji raziskovalni skupini pa si ravno prizadevamo, da bi te opisne teorije, anekdotične dokaze, pretvorili v matematično in računsko oprijemljive enačbe – nekakšne fizikalne zakone, ki jih potem potrdimo ali ovržemo na vzorcu ljudi, ki je bil zgodnejšim raziskovalcem nedostopen.
Lahko rečeš, da na tvoje raziskovalno področje vdira še kakšna druga veja znanosti?
Zagotovo se do neke mere prekrivamo tudi s fiziko kompleksnih sistemov. Množico ljudi je z našim znanjem mogoče modelirati kot oblak plina z veliko različnimi molekulami/posamezniki. Ko analiziraš obnašanje nekaj deset tisoč ljudi v nekem socialnem omrežju, opaziš zelo lepe vzorce in zakonitosti, ki jih nisi pričakoval. Tako nekako odkrivamo fizikalne zakone človeštva. Nekateri temu pravijo kar sociofizika.
Pri svojem raziskovalnem delu si pravzaprav zelo odvisen od radodarnosti lastnikov, upravljavcev socialnih omrežij, iz katerih črpaš podatke. Kako radodarni so ti ljudje s podatki, ki so pravzaprav njihovo največje bogastvo?
Dejansko so to načeloma zelo občutljivi podatki, ki se jih lotevamo zelo previdno. Ista komisija, ki na Stanfordu presoja upravičenost medicinskih raziskav, na primer preizkušanja novih zdravil na ljudeh, odobri tudi naše raziskave. Tako pri komisiji preverimo, ali naše analize posegajo v zasebnost uporabnikov. Sicer pa tudi zelo negujemo odnose s podjetji, da nam omogočijo dostop do teh podatkov. Včasih se sami sploh ne smemo dotakniti podatkov in podjetje, tako je na primer s Facebookom, najde svoje inženirje, ki potem delajo z nami in izvajajo analize.
Kar se tiče zasebnosti uporabnikov, katerih osebne podatke obdelujemo, pa je treba vedeti, da so naši rezultati načeloma agregirani na več milijonih ljudi in zasebnost posameznika ni ogrožena. Temu namenimo zelo veliko pozornosti. Zelo pazimo, da so podatki čim bolj anonimizirani, hkrati pa tudi pazimo, da vprašanja, ki jih zastavljamo, ne ogrožajo zasebnosti uporabnikov. Moja raziskovalna skupina je v industriji nekako poznana po dveh stvareh. Ena je ta, da smo operativni in »žongliramo« z ogromnimi količinami podatkov, ne da bi ob tem trenili z očesom, druga pa je ta, da na koncu vedno pokažemo nekaj zanimivega in uporabnega. In tako mi že od študentskih let podjetja zelo rada prepustijo svoje podatke.
Verjetno zato, ker se tudi njim na koncu to splača. Kot v prej omenjenem primeru Facebookovega sistema za priporočanje prijateljev.
Mogoče to res drži. Ampak sodelovanje se jim splača zelo posredno. Nikoli ne pridejo česa kupit k nam. Mi se namreč ukvarjamo s stvarmi, ki so preveč »nore« in preveč tvegane, da bi o njih v podjetjih razmišljali. In tako jim ponavadi predstavimo pet zanimivih idej za projekte, ki so znanstveno zanimive, hkrati pa še to, kako bi to na koncu utegnilo biti zanje koristno. Je pa seveda potrebnega zelo veliko vzdrževanja osebnih stikov, ker gre navsezadnje predvsem za zaupanje.
Dobivaš veliko ponudb za službe od teh podjetij?
Ja in ne. Načeloma jih dobim, ampak se vedno samo vljudno zahvalim. Mi pač vzgajamo študente; ko dobimo dobro idejo, pa tako ali tako ustanovimo spin-off podjetje.
Že imaš tovrstne »podjetniške« izkušnje?
Podjetje, v katerem sem s svojimi izkušnjami pomagal, smo ravno pred kratkim prodali Googlu.
Doslej je precej na slepo veljalo, da več ko imaš v socialnem omrežju povezav, prijateljev, bolj si v omrežju zadovoljen. Vprašanje pa je, kaj to pomeni za dolgoročni razvoj omrežja.
Torej ostajaš v akademskih vodah. Kakšna je tvoja vizija razvoja kot raziskovalca? Kaj bi rad dosegel, po čem bi rad, da bi se te svet spominjal?
Če me vprašaš, kaj je zame bistvo mojega raziskovanja, bi rekel takole: Internet je prvi digitalni artefakt, ki ga je ustvarilo računalništvo. Mi pa ga moramo proučevati po principu znanstvene metode. Torej – s proučevanjem pojavov, opazovanjem in eksperimentiranjem ter oblikovanjem in preizkušanjem hipotez. Računalništvo tradicionalno tega sploh ni počelo na tak način, ker je po svoje inženirska veda. In če inženir zasnuje internet, to pa potem deluje, mu tega pač ni treba proučevati kot kak naravni pojav, saj je zadevo ustvaril sam. In če jo je ustvaril sam, točno ve, kako deluje. A internet je postal nekakšen biološki sistem, vanj je vgrajenih že toliko neodvisnih komponent, da se je spremenil v organizem, ki zahteva drugačne pristope v raziskovanju. Tako se naše raziskovanje premika v smer, kjer bi radi uporabili internet kot senzor ali teleskop za pridobivanje podatkov o človeštvu. Potem pa bi radi razvili računske modele in zakone delovanja človeštva kot celote. To pa je že podobno znanstvenofantastičnemu konceptu iz knjig Isaaca Asimova – »psychohistory«, ki me po svoje navdušuje. Asimov to opisuje kot vedo, ki združuje sociologijo, matematiko in fiziko ter napoveduje splošno prihodnost galaktičnega imperija. Kot opisuje v svojih znanstvenofantastičnih knjigah, je potrebnih več milijard ljudi, da je potem mogoče napovedati, v kateri smeri se ta imperij globalno premika in razvija. Temu bi se rad čim bolj približal in menim, da se tudi že bližamo.
Kaj vse je na podlagi sledi, podatkov, ki jih za seboj puščajo uporabniki na internetu, danes že mogoče napovedati?
Napoved je lahko tudi preveč močna beseda, vendar so nekatere raziskave pokazale, da smo ljudje veliko bolj predvidljivi, kot bi to sami radi verjeli. Na mikroravni, na ravni posameznikov, je mogoče z 90-odstotno natančnostjo napovedati, kaj si mislite o neki osebi – ste njen prijatelj ali sovražnik. Potem je na podlagi odnosov med ljudmi mogoče napovedati izide volitev ob tem, da opazujemo le, kdo je šel na volišče, ne pa kako je volil.
Na makroravni, iz perspektive, da je internet nekakšen senzor za vpogled v človeška življenja, pa je na primer zelo zanimiv poskus, ki so ga opravili pri Googlu in s katerim so poskušali napovedati izbruhe epidemije gripe. V ZDA je sicer za to odgovoren tamkajšnji Center za nadzor bolezni, ki spremlja podatke o obiskih pri zdravnikih in z zamikom dveh tednov potem ugotovi, ali se je začela epidemija. Pri Googlu pa so uporabili njihove arhivske podatke o epidemijah in skušali izdelati model, ki bi »napovedal« število primerov gripe glede na uporabo Googlovega iskalnika. Izkazalo se je, da je dovolj, če spremljaš frekvenco 45 ključnih poizvedb na Googlovem iskalniku, in na podlagi tega lahko natančno ugotoviš, kakšno je število obolelih za gripo na določen dan. V naši skupini pa se na primer trenutno ukvarjamo s tem, kako napovedati priljubljenost predsednika Obame glede na to, kako se ljudje o njem pogovarjajo na Twitterju. Za zdaj še nimamo posebej dobrih rezultatov. Metode, ki so uporabne za napovedovanje epidemij, povsem odpovedo pri napovedovanju »epidemije« priljubljenosti Obame.
Veliko proučuješ tudi širjenje informacij po omrežjih. To je zagotovo področje, ki zanima tudi ameriško vojsko. So že navezali stike?
Pred kratkim so na primer objavili razpis za projekt »Napovedovanje dogodkov v Latinski Ameriki«, ki ga je razpisala raziskovalna agencija IARPA. Gre za napovedovanje globalnih dogodkov v Latinski Ameriki, pri čemer je dovoljeno uporabiti vsakršne podatke – od interneta in Twitterja do ekonomskih in zdravstvenih kazalcev. Ni jasno, kako uspešno je mogoče rešiti to nalogo, je pa vsekakor zanimiva.
Pa imaš kakšne moralne zadržke do sodelovanja z vojsko?
Vojska je v ZDA eden glavnih financerjev raziskav na vseh področjih znanosti. Internet, kot ga poznamo danes, je posledica ene takih raziskav. V moji skupini se držimo pravila, da mora vse, s čimer se ukvarjamo, temeljiti na javno dostopnih podatkih, pa tudi končne ugotovitve morajo biti javno objavljene. Če bi šlo torej za tajno pridobljene podatke, na primer iz Afganistana, bi sodelovanje zavrnili. Seveda pa je možno, da kdo na podlagi našega dela izvede podobno analizo na drugačnih, bolj kočljivih, tajnih podatkih. Naša filozofija je v tem, da skušamo razumeti, kako deluje svet. Bolje ga bomo razumeli, bolje bo za vse. Tudi če bo kdo to razumevanje uporabljal za slabe stvari, bo deset drugih to uporabljalo v dobro človeštva. Tako kot vsa znanstvena odkritja.
Pisma bralcev pošljite na naslov pisma@mladina.si. Minimalni pogoj za objavo je podpis z imenom in priimkom ter naslov. Slednji ne bo javno objavljen.