100 ezer fonttal indult, de nem nyert az AI a Premier League-en

Az eredmények arra világítanak rá, hogy még a legfejlettebb rendszerek is nehezen kezelik a valós világ összetettségét hosszabb időtávon. A General Reasoning nevű AI-startup „KellyBench” jelentése szerint jelentős eltérés tapasztalható az AI egyes területeken – például a szoftverfejlesztésben – mutatott gyors fejlődése és az olyan feladatok között, amelyek komplex, emberi döntéshozatalt igényelnek.

Valósághű teszt egy teljes szezonon át

A londoni székhelyű vállalat nyolc vezető AI-modellt vizsgált egy virtuális szimulációban, amely a 2023–24-es Premier League-szezont modellezte. A rendszerek részletes történeti adatokat és statisztikákat kaptak a csapatokról és a korábbi mérkőzésekről, majd olyan stratégiát kellett kialakítaniuk, amely egyszerre maximalizálja a hozamot és kezeli a kockázatokat.

Az AI-ügynökök ezt követően fogadásokat kötöttek a mérkőzések kimenetelére és a gólszámokra, miközben a szezon előrehaladtával alkalmazkodniuk kellett az új fejleményekhez és friss játékosinformációkhoz.

A modellek nem férhettek hozzá az internethez, és mindegyik három különböző próbálkozást kapott arra, hogy nyereséges stratégiát alakítson ki.

Minden modell veszteséges volt

A legjobb teljesítményt az Anthropic Claude Opus 4.6 nyújtotta, amely átlagosan 11%-os veszteséget produkált, bár egy futás során megközelítette a nullszaldót.

Az xAI Grok 4.20 egy alkalommal teljesen elvesztette a tőkéjét, a másik két próbálkozását pedig nem tudta befejezni. A Google Gemini 3.1 Pro ugyan egy esetben 34%-os nyereséget ért el, de egy másik futás során teljes veszteséget könyvelt el.

A kutatás készítői szerint minden vizsgált modell összességében veszteségesen zárta a szezont, és több esetben a teljes kezdőtőke el is tűnt.

A modellek egyenként 100 000 fontos induló tőkével dolgoztak, az eredmények pedig három futtatás átlagát mutatják.

AI vs. valóság

A tanulmány arra jutott, hogy ebben a környezetben az AI „rendszeresen alulteljesítette az embereket”. Ennek egyik oka, hogy a legtöbb AI-teszt statikus környezetben zajlik, amely nem tükrözi a valós világ folyamatosan változó és kiszámíthatatlan természetét.

Ross Taylor, a kutatás egyik szerzője és a General Reasoning vezérigazgatója szerint túlzott várakozások övezik az AI automatizációs képességeit, miközben kevés olyan mérés történik, amely hosszabb időtávon, valós körülmények között vizsgálja a teljesítményt.

Nem mindenben verhetetlen az AI

A tanulmány egyfajta ellenpontot kínál a Szilícium-völgyben tapasztalható optimizmussal szemben, különösen az AI programozási képességeinek látványos fejlődése után.

Taylor szerint bár a szoftverfejlesztés kiemelten fontos és gazdaságilag értékes terület, számos más, hosszabb távú döntéshozatalt igénylő feladat is létezik, ahol az AI teljesítménye még jelentősen elmarad az emberi szinttől.

A kutatás összességében arra utal, hogy a mesterséges intelligencia jelenlegi formájában bizonyos komplex, valós döntési helyzetekben még nem képes felvenni a versenyt az emberrel.

(Forrás: fintech.hu)

(Borítókép: Depositphotos)

100 ezer fonttal indult, de nem nyert az AI a Premier League-en

Valósághű teszt egy teljes szezonon át

Minden modell veszteséges volt

AI vs. valóság

Nem mindenben verhetetlen az AI

Ha tetszett a cikk:

és kövess minket a Facebookon!

Szólj hozzá

Szólj hozzá

Vélemény, hozzászólás? Válasz megszakítása