Simulācija, kas tika nodēvēta par "TheAgentCompany", bija pilnībā aprīkota ar mākslīgiem darbiniekiem no Google, OpenAI, Anthropic un Meta. Viņi pildīja finanšu analītiķu, programmatūras inženieru un projektu vadītāju lomas, strādājot kopā ar simulētiem kolēģiem, piemēram, ar viltus personāla nodaļu un tehnisko direktoru.
Lai redzētu, kā modeļi darbojas reālās pasaules vidē, pētnieki izvirzīja uzdevumus, pamatojoties uz reāla programmatūras uzņēmuma ikdienas darbu. Dažādie mākslīgā intelekta aģenti atradās, pārvietojoties pa failu direktorijiem, virtuāli apceļojot jaunas biroja telpas un rakstot programmatūras inženieru veiktspējas pārskatus, pamatojoties uz apkopotajām atsauksmēm.
Kā pirmo reizi ziņoja Business Insider, rezultāti bija drūmi. Vislabāk funkcionējošais modelis bija "Anthropic Claude 3.5 Sonnet", kam bija grūtības pabeigt tikai 24 procentus no tam piešķirtajiem uzdevumiem. Pētījuma autori norāda, ka pat šī niecīgā veiktspēja ir pārāk dārga, vidēji veicot gandrīz 30 soļus un izmaksājot vairāk nekā 6 USD par uzdevumu.
Tikmēr Google Gemini 2.0 Flash vidēji veica laikietilpīgus 40 soļus uz vienu pabeigtu uzdevumu, taču tā veiksmes rādītājs bija tikai 11,4 procenti — otrais augstākais no visiem modeļiem. Sliktākais mākslīgā intelekta darbinieks bija Amazon Nova Pro v1, kas pabeidza tikai 1,7 procentus savu uzdevumu, vidēji veicot gandrīz 20 soļus.
Spekulējot par rezultātiem, pētnieki rakstīja, ka aģentiem trūkst vesela saprāta, ir vājas sociālās prasmes un slikta izpratne par to, kā orientēties internetā.
Boti arī cīnījās ar sevis maldināšanu — būtībā radīja īsceļus, kas noved pie pilnīgas neveiksmes. "Piemēram," rakstīja Kārnegija Melona komanda, "viena uzdevuma izpildes laikā aģents nevarēja atrast īsto personu, lai uzdotu jautājumus [uzņēmuma tērzēšanā]. Tā rezultātā tas nolēma izveidot īsceļa risinājumu, pārdēvējot citu lietotāju paredzētā lietotāja vārdā."
Lai gan mākslīgā intelekta aģenti, kā ziņots, var labi veikt dažus mazākus uzdevumus, šī un citu pētījumu rezultāti liecina, ka tie acīmredzami nav gatavi sarežģītākiem darbiem, kuros cilvēki izceļas. Viens no galvenajiem iemesliem ir tas, ka mūsu pašreizējais "mākslīgais intelekts" joprojām ir tikai jūsu tālruņa paredzamās teksta ievades sarežģīts paplašinājums, nevis saprātīgs intelekts, kas var risināt problēmas, mācīties no iepriekšējās pieredzes un pielietot šo pieredzi jaunās situācijās.
Tas viss nozīmē, ka mašīnas drīzumā nepārņems jūsu darbu — neskatoties uz to, ko apgalvo lielie tehnoloģiju uzņēmumi.