Az új, APOLLO névre keresztelt módszer pontosan ezt valósítja meg: az ember időszakosan ellenőrzi a rendszer előrehaladását, és csak akkor avatkozik be, ha az AI rossz irányba indul. A tanulmányt egyetemi és ipari kutatók közösen készítették, és október 31-én tették közzé az arXivon.
Az ötlet: egyensúly ember és AI között
Képzeljünk el egy napokig tartó kutatási folyamatot: modelltanítást, adatbázis-építést, kódolást, hibajavítást, majd eredmények kiértékelését.
Ha az ember végig jelen lenne, és minden lépést irányítana, az rendkívül költséges és időigényes lenne. Ha viszont a gép teljesen magára marad, könnyen letérhet a helyes útról, és a végeredmény értéktelen lehet.
Az APOLLO a kettő között teremt hatékony középutat: a rendszer önállóan dolgozik, de az ember időről időre belenéz a folyamatba, és csak akkor korrigál, ha hibát, zsákutcát vagy rossz stratégiát észlel. Így akár 30 órás futások is emberi támogatással kísérhetők végig, anélkül, hogy a felügyelő folyamatosan jelen lenne.
Aszinkron felügyelet és hibaszűrés: az APOLLO két pillére
Az APOLLO két kulcselemre épül:
- Aszinkron emberi felügyelet – az ember nem folyamatosan figyeli a rendszert, hanem időszakosan ellenőrzi, és ha szükséges, irányváltást javasol. Például:
– „Előbb olvasd el a dokumentációt.”
– „Használd inkább ezt a könyvtárat.”
– „Ne értékelj még, várd meg a modell tanításának végét.”
Az AI ezeket a tanácsokat beépíti a kontextusába, és hosszú távon megtanulja a helyes döntési mintákat. - Lépésszintű szűrés – amikor egy munkafolyamat befejeződik, a kutatók eltávolítják a hibás vagy az emberi tanácsnak ellentmondó lépéseket. Így a modell csak a jó döntésekből tanul, és nem sajátít el rossz viselkedésmintákat.
Látványos eredmények: 50%-os teljesítménynövekedés
A kutatók az InnovatorBench nevű tesztfeladaton próbálták ki a módszert, ahol az AI-nak valós kutatási munkát kell végeznie – adatgyűjtést, modelltanítást és eredményelemzést.
Az eredmények figyelemre méltóak: az APOLLO-val tanított GLM-4.5 modell teljesítménye több mint 50%-kal javult az alapverzióhoz képest, és 28%-kal felülmúlta azt a változatot is, amely emberi beavatkozás nélkül tanult.
Ráadásul a rendszer tartósabban fejlődött: míg az eredeti GLM-4.5 körülbelül négy óra után stagnált, az APOLLO-val tanított verzió hosszabb időn át folyamatosan javult.
Pénzügyi alkalmazások: tanuló AI a fintechben
A banki és fintech környezetben számos olyan komplex feladat van, amely hosszú, több lépésből álló folyamatokat igényel:
– ügyfélkérések vizsgálata,
– adatbázisok elemzése és tisztítása,
– tranzakciós minták azonosítása,
– automatizált jelentéskészítés.
Ha a mesterséges intelligencia megtanulja, mikor várjon, mikor értékeljen újra, és hogyan ossza be erőforrásait, sokkal megbízhatóbban tud dolgozni. Az APOLLO megmutatja, hogy az emberi beavatkozás nem kell, hogy folyamatos legyen – elég időnként irányba állítani a rendszert, ha letér a helyes útról. Ez hatékonyabb, költségkímélőbb, és végül intelligensebb, önreflexív AI-t eredményez.
Az emberi tényező marad a kulcs
Az emberi felügyelet minősége továbbra is meghatározó. A felügyelőnek nem elég a hibákat kijavítani – iránymutatást is kell adnia:
– hogyan érdemes dokumentációt olvasni,
– mikor kell új eszközt kipróbálni,
– miért fontos a türelem a hosszú futásoknál.
Ugyanilyen kritikus a helytelen lépések kiszűrése: ha az AI azt tanulja meg, hogy ellenőrzés nélkül módosít fájlokat vagy figyelmen kívül hagyja a segédeszközöket, az a jövőbeni működését is torzíthatja.
Az APOLLO valódi ereje abban rejlik, hogy az emberi tudást és a gépi tanulást ötvözi, és ezzel új szintre emeli az ember–AI együttműködést a hosszú távú, összetett feladatokban.
(Forrás: fintech.hu)
(Borítókép: Depositphotos)

Szólj hozzá