Prof. dr. sc. Marko Tadić i njegov tim sa zagrebačkog Filozofskog fakulteta razvili su novi sustav za strojno prevođenje baziran na neuronskim mrežama. O projektu prevođenja, ali i budućnosti hrvatskog jezika razgovarali smo s profesorom koji je, uz ovaj, sudjelovao i predvodio još 10 projekata financiranih iz EU fondova koji se bave jezičnim tehnologijama
Izradili ste prevoditelj za potrebe predsjedanja Vijećem Europske unije. Što je glavna prednost ovoga prevoditelja?
Prevoditelj za predsjedanje Vijećem EU sustav je za strojno prevođenje koji je nastao unutar projekta EU Council Presidency Translator (EUCPT) poduprtoga kroz program Instrument za povezivanje Europe (Connecting Europe Facility, CEF). Partneri na projektu su jezičnotehnološka tvrtka Tilde iz Rige, Institut za proučavanje umjetne inteligencije Rumunjske akademije iz Bukurešta, Ured finskoga premijera iz Helsinkija i Filozofski fakultet Sveučilišta u Zagrebu. Već iz sastava projektnoga konzorcija može se uočiti da se radi o raznovrsnim partnerima iz država-predsjedateljica u trenutačnoj trojki pa je za svaki domaćinski jezik napravljen i takav prijevodni sustav. Svi ti sustavi uključuju engleski i djeluju u oba prijevodna smjera. U razvoju hrvatskoga prevoditelja bilo nam je važno iskustvo prethodnih partnera i potpora CEF-ove strojnoprevoditeljske usluge eTranslation koju razvija Opća uprava EK za prevođenje (DGT), dok je tvrtka Tilde pružila informatičku i programersku potporu.
Pohvalili ste se da radi bolje od Google Translatea? Zašto ste bolji?
U istraživanjima s područja strojnoga prevođenja koristi se nekoliko mjerila za provjeru kvalitete prijevoda i ona se iskazuju u bodovima. Prva mjerenja koja smo proveli za naš strojni prevoditelj i usporedili ga s Googleovim prevoditeljem na istim tekstovima pokazuju da je naš sustav bolji za gotovo 6 BLEU bodova za smjer prijevoda englesko-hrvatski, a gotovo 3 boda za smjer hrvatsko-engleski. Naš je sustav bolji jer je treniran dodatnim podacima, tj. tekstovima iz odabranih područja, a Googleov prevoditelj uzima sve usporedne tekstove koje njihova tražilica pronađe na mreži ne vodeći računa o raznim područjima. Naš je sustav prilagođen za tekstove koje očekujemo da će biti pretežito prevođeni tijekom hrvatskoga predsjedanja, a riječ je o novinskim vijestima iz unutarnje i vanjske politike, gospodarstva, zakonskim tekstovima itd.
Koristili ste umjetnu inteligenciju, odnosno neuronske mreže. Koja je razlika između ‘običnog’ i prevođenja uz pomoć umjetne inteligencije?
Do prije dvije godine prevladavajuća metoda u strojnome prevođenju bilo je statističko strojno prevođenje. To je metoda koja je na velikome broju istih tekstova na dva različita jezika statističkim metodama pronalazila koje su riječi ili nizovi riječi na ciljnome jeziku najvjerojatniji prijevodi kojih riječi ili nizova riječi na polaznome jeziku. Za izgradnju tako postavljenih sustava trebali ste milijune uparenih rečenica gdje je jedna rečenica na polaznome jeziku, a druga na ciljnome jeziku, a zna se da su one prijevod jedna druge. Za sve te sustave koristilo se ljudsko prevoditeljsko znanje pohranjeno u prijevodima koje se moglo razotkriti tek kad su se prijevodi uparili, tj. sravnili s izvornim tekstovima. Dok se statističko strojno prevođenje ograničavalo na pronalaženje prijevoda između pojedinačnih riječi ili nizova riječi, tj. fraza, neuronsko strojno prevođenje uzima čitavu rečenicu i obrađuje je u cjelini te smješta u njezinu tekstovnu okolinu, tj. njoj prethodne i sljedeće rečenice, pa sve do opsega čitava dokumenta. Time se postiže kvaliteta prijevoda koja je do sada najsličnija ljudskome prijevodu.
Kako ste trenirali taj sustav za prevođenje? Može li taj proces ikada završiti i koliko je zapravo točan?
Za treniranje sustava neuronskim mrežama treba znatno više računalnih resursa nego prije, i to više u brzini obrade i u broju procesora pa se nerijetko za treniranje takvih sustava rabe računalni klasteri grafičkih procesora. Tako je bilo i u ovome slučaju i tu se nalazimo u području koje se naziva High Performance Computing (HPC). Naš je sustav prvo istreniran uporabom polaznoga usporednoga korpusa tekstova pravne stečevine EU u količini od nekoliko milijuna sravnjenih rečenica, a potom je dograđen pomno odabranim tekstovima iz određenih područja u količini od nešto malo manje od pola milijuna rečenica. Upravo je tim dodatnim tekstovima postignuto podizanje kvalitete prijevoda kojom smo nadmašili Googleov prevoditelj.
Ipak, pogreške i dalje nisu posve iskorijenjene, u čemu se najviše griješi?
Ključno je znati za koje je područje sustav treniran jer primijenjen upravo na tekstove iz toga područja daje najbolje rezultate. Ako sustav primijenite na tekstove iz drugoga područja, onda broj pogrešaka raste. Prošli sam tjedan napravio jedno kratko istraživanje količine i tipologije pogrešaka i ustanovio kako najviše pogrešaka sustav proizvodi kod prevođenja tekstova iz sportskoga područja, a kako ga nismo trenirali tom vrstom tekstova, takav je rezultat sasvim očekivan. Međutim, sustav se u nekim slučajevima pokazuje nevjerojatno kreativnim. Pogledajte primjer prijevoda s engleskoga: Croatia enjoyed a three-goal lead -> Hrvatska je imala trogol trag. Zanemarite na trenutak pogrešan leksički odabir lead/trag, nego pogledajte kako je sustav predložio prijevod za three-goal: trogol. Te riječi nema ni u jednome hrvatskome rječniku, ali je sastavljena prema svim pravilima tvorbe složenica u hrvatskome i nesumnjivo po uzoru na slične riječi kao što su dvoboj, troskok, sedmoboj i sl. Koliko je naš sustav točan, pozivamo vaše čitatelje da isprobaju na raznim vrstama tekstova na adresi hr.presidencymt.eu.
Koliko je obrada prirodnog jezika zapravo odmakla u praksi?
Teorijsku podlogu obrada prirodnoga jezika nalazi u računalnoj lingvistici, a kad se spoznaje iz toga područja pretoče u proizvode, onda možemo govoriti o jezičnim tehnologijama. Razvoj jezičnih tehnologija mora se obaviti za svaki pojedini jezik jer je svaki jezik odlikovan posebnom kombinacijom jezičnih kategorija i njihovih vrijednosti. Jezične tehnologije već su razmjerno dobro razvijene za veće europske i svjetske jezike (engleski, njemački, francuski, španjolski), ali i npr. češki zbog iznimne tradicije češke lingvistike. Za maloljudnije jezike jezične se tehnologije razvijaju i ti su jezici na različitim stupnjevima razvoja.
Kažete da ovaj prevoditelj predstavlja značajan iskorak u kvaliteti jednoga dijela jezičnih tehnologija za hrvatski jezik, ali ima još područja na kojima se valja potruditi i razviti sustave koristeći najnovije metode.
Tako je, osobito nam je loša situacija s govornim tehnologijama pa zapravo nemamo vlastitih dobrih računalnih sustava za diktiranje ili spikiranje na hrvatskome. Razvoj jezičnih tehnologija za neki jezik uvijek počinje prikupljanjem podataka o jeziku, a to su vrlo veliki korpus i digitalni rječnici. S korpusima stojimo relativno dobro, ali kod digitalnih smo rječnika u ozbiljnom manjku, osim značajne terminološke zbirke Struna. Vidite, tehnologija se obično definira kao skup postupaka za pretvaranje sirovina u proizvode. I ta je definicija sasvim razvidno primjenjiva na npr. kemijsku tehnologiju, nuklearnu tehnologiju, itd. Međutim, jezične su tehnologije ponešto specifične jer ovise o informacijskoj tehnologiji na isti način na koji danas ovisi i većina komunikacijskih tehnologija.
Koliko su takva rješenja, odnosno proizvodi napravljeni na temelju jezičnih tehnologija zahtjevni?
Sirovina u slučaju jezičnih tehnologija su podatci o jeziku, tj. digitalno pohranjen tekst ili, u poplavi predmetaka e-, dopustite i meni: e-tekst. Kod razvoja jezičnih tehnologija za hrvatski jezik smijemo promatrati kakva su tehnološka rješenja izvedena za druge jezike, ali sva rješenja moramo razviti za hrvatski i to nam neće napraviti nitko drugi osim nas samih, a taj je pothvat prezahtjevan, predugotrajan i preskup da bi se odvijao stihijski, već ga i za hrvatski kao i kod drugih maloljudnih jezika mora u bitnome poduprijeti država. Velika je prednost što je Hrvatska ušla u EU, pa je hrvatski jezik postao 24. službeni jezik EU i time su se otvorila vrata i za financijsku potporu iz EU. Upravo su nam ta sredstva pomogla pri razvoju ovoga prevoditelja.
Hoće li roboti ikada progovoriti na savršenom hrvatskom jeziku?
Roboti će progovoriti i na hrvatskome, i to u relativno kratkome roku. Android već ima dosta dobru podršku za hrvatski govor, ali ga Siri još nema. Ljudski će prevoditelji uvijek biti potrebni: nema još uvijek toga stojnoprevoditeljskoga sustava koji proizvodi tekstove spremne za objavu bez ikakve provjere. Međutim, u bitnome se promijenio proces prevođenja. Tehnološki potkovaniji ljudi-prevoditelji prvo pošalju tekst na strojni prijevod, a onda njegov rezultat “čiste” tj. revidiraju i ispravljaju. Tako se dobivaju brži, ali nerijetko i konzistentni prijevodi jer stroj ne podliježe onim ljudskim slabostima kao što su umor, dekoncentracija, pogreške pri prijevodu itd.
Kako vidite budućnost jezika, posebice ovih ‘malih’ među koje spada i hrvatski?
Hrvatski jezik nećemo spasiti tako da ga konzerviramo, nego jedino ako omogućimo njegovu jednostavnu uporabu u komunikacijskim kanalima 21. st. Jezične su tehnologije zapravo nova pismenost. Donedavno su se jezici dijelili na one s pismom i one bez pisma, danas se dijele na one s razvijenim jezičnim tehnologijama i bez njih. Jezici bez jezičnih tehnologija ostaju s one strane digitalne razdjelnice i te jezične zajednice ne mogu ravnopravno sudjelovati u, npr., digitalnome gospodarstvu koje će ili već postaje prevladavajuća gospodarska paradigma. Ako za hrvatski ne razvijemo puni spektar jezičnih tehnologija, postat će funkcionalno “digitalno nepismen” jezik. Naime, sigurno se nećemo odreći današnjih kanala komunikacije (a kakvi nas još čekaju, teško je i zamisliti) i još će se njezin uvijek najveći dio odvijati na prirodnome jeziku. Ako za jezik postoje razvijeni alati i pomagala koja će olakšati i ubrzati njegovu uporabu, onda će se taj jezik koristiti i dalje. Ako, međutim, za hrvatski tih pomagala ne bude, korisnici će iz čiste komocije posegnuti za jezikom za koji su jezične tehnologije razvijenije. To će značiti funkcionalnu “smrt” hrvatskoga jezika u cijelim komunikacijskim područjima, a to bismo svakako htjeli izbjeći.
Ovaj strojni prevoditelj ne biste mogli izraditi bez informatičara, no ni oni ne bi mogli bez vas. Znači, ima budućnosti i u ne-STEM vještinama i znanju?
Na ovo ću pitanje odgovoriti ponajprije kao humanistički znanstvenik jer sam po obrazovanju lingvist, fonetičar i društveno-humanistički informatičar. Kratica STEM zamijenjena je kraticom STEAM gdje A znači arts, ali ne u značenju “umjetnost”, nego se ta riječ odnosi na humanističke i društvene znanosti. Kod nas se od STEM-a, nažalost, još uvijek pravi fetiš, kao da je najvažnije imati nebrojeno mnogo STEM-ovaca i sve će u zemlji biti ružičasto. Tehnološki razvoj je nesumnjivo bitan – pa upravo svojim istraživanjima s područja jezičnih tehnologija vjerujem kako pridonosim tome. Međutim, sva istraživanja i tehnologije razvijene u raznim područjima obuhvaćenim kraticom STEM nemaju nikakva smisla ako ne razumijemo kako se ona primjenjuju, kako (pre)oblikuju nas kao pojedince i nas kao društvene skupine različitih razina složenosti. Najbolji su vam za to danas primjer mobilni uređaji u paru s društvenim mrežama i svi načini kako su oni stubokom preoblikovali društvenu interakciju, komunikaciju, sam pojam i domenu javnosti (pa i privatnosti), naše identitete, pa sve do našega temeljnoga poimanja što je to “sada” i “ovdje”, itd. Postoji nešto monstruozno u činjenici da vas svatko može dohvatiti na bilo kojem mjestu i u bilo koje vrijeme. Shvaćate li koliko je to promijenilo našu kogniciju? A proučavanje fenomena mobilnih i društvenih mreža iz smjera društvenih i humanističkih znanosti još uvijek zaostaje, a time je manjkavo i ukupno razumijevanje te pojave, kako ona utječe na pojedince i društvo, kako npr. stvara duboki jaz između e-naraštaja i ostalih naraštaja. Humanističke znanosti moraju prigrliti paradigmu e-znanosti i početi se znanstveno baviti digitalnim objektima. Tek tada možemo početi govoriti o digitalnim humanističkim znanostima.
Google često radi softver otvorenog koda, bilo bi dobro da i ovaj prevoditelj bude takav – otvorenog koda