Egy friss kutatás azt vizsgálja, mi történik, ha a mesterséges intelligenciát nem teljesen önállóan hagyjuk dolgozni, hanem időről időre emberi útmutatást kap.

Az új, APOLLO névre keresztelt módszer pontosan ezt valósítja meg: az ember időszakosan ellenőrzi a rendszer előrehaladását, és csak akkor avatkozik be, ha az AI rossz irányba indul. A tanulmányt egyetemi és ipari kutatók közösen készítették, és október 31-én tették közzé az arXivon.

Az ötlet: egyensúly ember és AI között

Képzeljünk el egy napokig tartó kutatási folyamatot: modelltanítást, adatbázis-építést, kódolást, hibajavítást, majd eredmények kiértékelését.
Ha az ember végig jelen lenne, és minden lépést irányítana, az rendkívül költséges és időigényes lenne. Ha viszont a gép teljesen magára marad, könnyen letérhet a helyes útról, és a végeredmény értéktelen lehet.

Az APOLLO a kettő között teremt hatékony középutat: a rendszer önállóan dolgozik, de az ember időről időre belenéz a folyamatba, és csak akkor korrigál, ha hibát, zsákutcát vagy rossz stratégiát észlel. Így akár 30 órás futások is emberi támogatással kísérhetők végig, anélkül, hogy a felügyelő folyamatosan jelen lenne.

Aszinkron felügyelet és hibaszűrés: az APOLLO két pillére

Az APOLLO két kulcselemre épül:

  1. Aszinkron emberi felügyelet – az ember nem folyamatosan figyeli a rendszert, hanem időszakosan ellenőrzi, és ha szükséges, irányváltást javasol. Például:
    – „Előbb olvasd el a dokumentációt.”
    – „Használd inkább ezt a könyvtárat.”
    – „Ne értékelj még, várd meg a modell tanításának végét.”
    Az AI ezeket a tanácsokat beépíti a kontextusába, és hosszú távon megtanulja a helyes döntési mintákat. 
  2. Lépésszintű szűrés – amikor egy munkafolyamat befejeződik, a kutatók eltávolítják a hibás vagy az emberi tanácsnak ellentmondó lépéseket. Így a modell csak a jó döntésekből tanul, és nem sajátít el rossz viselkedésmintákat.

Látványos eredmények: 50%-os teljesítménynövekedés

A kutatók az InnovatorBench nevű tesztfeladaton próbálták ki a módszert, ahol az AI-nak valós kutatási munkát kell végeznie – adatgyűjtést, modelltanítást és eredményelemzést.
Az eredmények figyelemre méltóak: az APOLLO-val tanított GLM-4.5 modell teljesítménye több mint 50%-kal javult az alapverzióhoz képest, és 28%-kal felülmúlta azt a változatot is, amely emberi beavatkozás nélkül tanult.

Ráadásul a rendszer tartósabban fejlődött: míg az eredeti GLM-4.5 körülbelül négy óra után stagnált, az APOLLO-val tanított verzió hosszabb időn át folyamatosan javult.

Pénzügyi alkalmazások: tanuló AI a fintechben

A banki és fintech környezetben számos olyan komplex feladat van, amely hosszú, több lépésből álló folyamatokat igényel:
– ügyfélkérések vizsgálata,
– adatbázisok elemzése és tisztítása,
– tranzakciós minták azonosítása,
– automatizált jelentéskészítés.

Ha a mesterséges intelligencia megtanulja, mikor várjon, mikor értékeljen újra, és hogyan ossza be erőforrásait, sokkal megbízhatóbban tud dolgozni. Az APOLLO megmutatja, hogy az emberi beavatkozás nem kell, hogy folyamatos legyen – elég időnként irányba állítani a rendszert, ha letér a helyes útról. Ez hatékonyabb, költségkímélőbb, és végül intelligensebb, önreflexív AI-t eredményez.

Az emberi tényező marad a kulcs

Az emberi felügyelet minősége továbbra is meghatározó. A felügyelőnek nem elég a hibákat kijavítani – iránymutatást is kell adnia:
– hogyan érdemes dokumentációt olvasni,
– mikor kell új eszközt kipróbálni,
– miért fontos a türelem a hosszú futásoknál.

Ugyanilyen kritikus a helytelen lépések kiszűrése: ha az AI azt tanulja meg, hogy ellenőrzés nélkül módosít fájlokat vagy figyelmen kívül hagyja a segédeszközöket, az a jövőbeni működését is torzíthatja.

Az APOLLO valódi ereje abban rejlik, hogy az emberi tudást és a gépi tanulást ötvözi, és ezzel új szintre emeli az ember–AI együttműködést a hosszú távú, összetett feladatokban.

(Forrás: fintech.hu)

(Borítókép: Depositphotos)


Ha tetszett a cikk:

és kövess minket a Facebookon!



Szólj hozzá

Vélemény, hozzászólás?