Objavljujući u posljednjim godinama 20. stoljeća svoje prve znanstvene radove, nisam mogao ni zamisliti koliko će se poziv znanstvenika fundamentalno promijeniti već unutar iduća dva desetljeća. Zahvaljujući svojoj golemoj snazi, današnja super-računala omogućuju istraživanja temeljena na milijunima puta većim količinama precizno izmjerenih informacija, no što smo ih ikada imali na raspolaganju u prošlosti. Stoga sam optimističan razmišljajući o spoznajama koje ćemo doseći novim, tzv. “big data” istraživanjima. Testirajući tisuće hipoteza u djeliću sekunde koristeći sve dostupne podatke, moderna računala pripisuju svakoj od mogućih hipoteza precizno izračunatu vjerojatnost. Time ostvaruju postignuća za koja bi timovima znanstvenika iz prošlog stoljeća trebale tisuće godina.
“Big data” analize u biomedicini često se označuju neologizmom “omika”, nastavkom koji označuje da se radi o istraživanjima svih mogućih informacija o nekom predmetu istraživanja – primjerice, svim genima (“genomika”) ili proteinima (“proteomika”). Naša osjetila nisu u stanju mjeriti te podatke, već to za nas iz uzoraka krvi čine iznimno sofisticirani mjerni uređaji.
Također, ljudski mozak nije u stanju pohraniti ni analizirati niti približno tolike količine informacija. Stoga nam računala omogućuju uvide u procese unutar naših organizama koje mi sami, bez njihove pomoći, ni na koji način ne bismo mogli spoznati. Međutim, u cijelom tom napretku u 21. stoljeću, moj omiljeni primjer prodora je “kulturomika”. Radi se o iznimno inovativnoj primjeni ovog istog načela - dakle, prikupljanja goleme količine podataka, a zatim sustavne računalne analize i obrade. No, u slučaju “kulturomike”, ne istražuju se pojave u prirodi niti živi organizmi, već naše kulturno nasljeđe.
Ovaj napredak povezuje se s radom znanstvenika Jean-Baptiste Michela i Ereza Aidena sa Sveučilišta Harvard.
Doznavši da kompanija Google radi na digitalizaciji svih knjiga koje su ikada objavljene, uvidjeli su da računalo knjige prepoznaje tek kao nakupine vrlo velikog broja riječi. Nakon što je Google omogućio pretraživanje i analizu svake od tih riječi u svakoj od knjiga, Michel i Aiden shvatili su da, zapravo, nema razlike istražuju li sljedove dušičnih baza u molekulama DNK raznih organizama, sljedove aminokiselina u proteinima čovjeka, ili pak sljedove riječi zapisane u knjigama. Na isti način kao što sustavno istražujemo gene i proteine, oni su odlučili istražiti tekst zapisan u milijunima knjiga iz 19. i 20. stoljeća, ne bi li dokazali da na ovaj način možemo “mjeriti” vlastito kulturno nasljeđe.
Ono što me posebno inspirira u njihovu radu jest koliko bi takvu ideju bilo nemoguće provesti prije samo dvadesetak godina. Niti jedan vrlo načitan čovjek ne bi mogao zapamtiti svaku riječ u svakoj knjizi, a još manje analizirati popularnost svake od tih riječi kroz razdoblje od dva stoljeća.
No, Michel i Aiden učinili su baš to: konstruirali su bazu digitaliziranih tekstova više od pet milijuna knjiga, što je oko 4% svih ikada tiskanih knjiga, u kojima je otisnuto 500 milijardi riječi. To im je omogućilo da izračunaju da je 1900. godine engleski jezik imao oko 500.000 riječi, a da ih danas već ima oko milijun.
Zatim su analizirali koliko se često svaka od njih pojavljivala kroz vrijeme u odnosu na sve ostale riječi, i kako je “popularnost” nekih riječi, a time i raznih ljudskih ideja i tema rasprave, rasla i padala.
Analizama su primijetili kako bi se inačice pojedinih riječi pojavljivale i postupno zamjenjivale prethodnu varijantu, doprinoseći time razumijevanju razvoja gramatike.
Također, otkrili su primjere cenzure, kada bi popularnost neke riječi rasla iz godine u godinu, a zatim bi naglo nestala iz svih knjiga. Mogli su čak i pratiti pojavljivanje imena povijesnih osoba, te “izmjeriti” koliki je doista bilo njihov utjecaj, međusobno ih uspoređujući po broju navoda u knjigama, kao i izmjeriti koliko je prosječno godina bilo potrebno da se prestanu spominjati. Zaključili su, primjerice, da američki predsjednici iz prošlog stoljeća polako padaju u zaborav, no Marylin Monroe, Sigmund Freud i Mickey Mouse se još uvijek iznenađujuće dobro drže.
*Autor je sveučilišni profesor i direktor Centra za globalno zdravlje na Sveučilištu u Edinburghu i redoviti član Kraljevskog društva Britanske akademije znanosti.
hm, dal to znaci da ce se u nekoj doglednoj buducnosti moci raskrinkravat demagoge i muljatore u stvarnom vremenu. Ono tipa dok prica na televiziji odma ide fact check i dobije veliki debeli crveni X