Kad budeš imao minutu, možeš li mi donijeti piće s pulta? Ovakva molba zvuči kao prilično jednostavan zahtjev. I za čovjeka to jest; za stroj, međutim, takva glasovna uputa kompleksan je zadatak.
Razdvojimo li to, “kad budeš imao minutu” ne mora značiti ništa, nego poslužiti tek kao jezična figura, a može biti i stvaran zahtjev da robot doista nešto napravi za minutu. Ako je robot previše doslovan, “točan” odgovor na “možeš li mi donijeti piće” mogao bi biti samo “da, mogu”, čime bi robot potvrdio da je u stanju to izvršiti. Jer nije mu se izričito reklo da to učini i nije dobio jasnu uputu da donese piće premda je to korisnik očekivao.
VIDEO objašnjava PaLM-SayCan sustav
Upravo razumijevanje takvih zadataka postiglo se novim sustavom za obradu prirodnog jezika nazvanim PaLM-SayCan koji isprobavaju Googleovi istraživači te inženjeri Everyday Robotsa, tvrtke također u sastavu Alphabetha, čijim su se uspjesima nedavno pohvalili na svojim blogovima i društvenim mrežama. ”Tehnologija postaje sve pametnija, ali kada treba poučiti robote kako najbolje pomoći ljudima, dug je put do toga”, piše jedan od čelnika Everyday Robotsa i nastavlja da je Google ipak možda pronašao način da ubrza proces korištenjem jezičnog modeliranja kako bi pomogao robotima da razumiju i odgovore na ljudske zahtjeve.
“Google tvrdi kako napredak pomaže da roboti budu znatno bolji u planiranju i izvršavanju posebno složenih zadataka koji zahtijevaju nekoliko koraka. Naš tim u Everyday Robotsu surađivao je s Googleovim kako bi pomogao u razvoju PaLM-SayCan, otkrića u istraživanju umjetne inteligencije koje ujedinjuje razumijevanje prirodnog jezika s fizičkim sposobnostima robota.” Iako trenutno samo testiraju tu tehnologiju u laboratoriju, PaLM-SayCan pokazuje kako je moguće da roboti ispunjavaju složene, prirodne jezične upute kombinirajući sposobnosti razmišljanja velikih jezičnih modela s naučenim robotskim vještinama. To znači da umjesto davanja robotu niza uputa poput “1) pronađi ladicu za voće, 2) otvori ladicu, 3) pokupi bananu, 4) zatvori ladicu, 5) dostavi mi bananu” – možete jednostavno reći: “Gladan sam, možete li mi donijeti nešto za užinu?” Jer PaLM-SayCan zatim će ovu uputu visoke razine prevesti u slijed vještina niske razine koje roboti pomagači mogu koristiti za obavljanje zadatka.
”Razvijamo novu vrstu robota: robota koji može učiti sam, pomoći svakome u (gotovo) bilo čemu. Ti robotski asistenti promijenit će paradigmu u robotici – pomaknuti se s robota za koje je potrebno mukotrpno kodirati kako bi obavili određenu stvar u određenom prostoru na robote koji mogu naučiti preuzeti na sebe mnoštvo zadataka u svakodnevnom okruženju.” Razumijevanje prirodnog jezika je sposobnost računala da čita i razumije riječi kako bi poduzelo odgovarajuće radnje, kao što bi to učinila osoba. Ovo možda zvuči jednostavno, ali zapravo je vrlo složeno jer, najjednostavnije rečeno, računala “govore” u kodu, dok ljudi upotrebljavaju riječi. Stoga, primjerice, chatbotovi ne mogu shvatiti ton ili zašto trolovi mogu zaobići ograničenja sadržaja jednostavnim ali pogrešnim pisanjem. Do sada su prednosti jezičnih modela ponajprije bile ograničene na digitalni život, poput predviđanja sljedeće rečenice e-pošte ili javljanja vremena ili vijesti jednostavnim “Hey Google”. Sada, s najnovijim otkrićem Google Researcha, PaLM-SayCan ujedinjuje razumijevanje prirodnog jezika s fizičkim sposobnostima robota – što rezultira robotom kojemu se može dati uputa u obliku dugih apstraktnih uputa prirodnog jezika koje će izvršiti.
”Ovaj je rad posebno uzbudljiv jer nam pokazuje da poboljšanje temeljnih jezičnih modela može poboljšati ukupnu izvedbu robota. Uspoređujući PaLM-SayCan s manje moćnim osnovnim modelom, vidjeli smo poboljšanje od 14 posto u sposobnosti robota da mapira održiv pristup zadatku i poboljšanje od 13 posto u njegovoj sposobnosti da provede vještine niske razine zahtjeva. Uz PaLM-SayCan roboti su pokazali povećanje od 26 posto u sposobnosti planiranja dugotrajnih zadataka koji zahtijevaju osam (ili više) koraka”, izvijestili su na blogu Everyday Roboticsa.
U Googleu pak zaključuju: “Uzbuđeni smo zbog napretka koji smo vidjeli s PaLM-SayCan, interpretabilnim i općim pristupom korištenju znanja iz jezičnih modela koji robotu omogućuje da slijedi tekstualne upute visoke razine za obavljanje fizički utemeljenih zadataka. Naši eksperimenti na brojnim robotskim zadacima u stvarnom svijetu pokazuju sposobnost planiranja i dovršavanja apstraktnih uputa na prirodnom jeziku uz visoku stopu uspjeha.” Googleovo istraživanje i simulacije dostupni su istraživačkoj zajednici te se u Googleu nadaju da će taj vrijedan izvor biti koristan za buduća istraživanja koja kombiniraju robotsko učenje s naprednim jezičnim modelima.