A mesterséges intelligencia hatalmas fejlődésen ment keresztül, de vajon képes-e felvenni a versenyt az emberi gondolkodással? A PeakX kutatása felfedte, hol vallanak kudarcot a legfejlettebb modellek

A mesterséges intelligencia egyre nagyobb szerepet kap mindennapi életünkben, de vajon mennyire képes helyettesíteni az emberi gondolkodást? A PeakX, a Peak csoport mesterséges intelligencia üzletága, alapos kutatást végzett, hogy kiderítse, hogyan teljesítenek a legismertebb AI modellek a valós környezetben. A vizsgálat fókuszában a szövegértés, a matematika és más tudományterületek álltak. Az eredmények rávilágítottak arra, hogy bár a laboratóriumi tesztek optimista képet festenek az AI képességeiről, azonban a valódi környezetben már nem mindig teljesítenek olyan jól.

A vizsgálat háttere

A kutatás során a mesterséges intelligenciának magyarországi kompetenciamérések feladatait kellett megoldaniuk, amelyeket általában 6., 8. és 10. osztályos diákok töltenek ki. A teszteléshez 70 szövegértési és 70 matematikai feladatot választottak ki, valamint történelem, természettudomány és digitális kultúra kérdéseket is bevontak a vizsgálatba. Az AI modellek teljesítményét objektív pontozási rendszer alapján értékelték.

A kutatók több szempontot is figyelembe vettek:

  • Gyorsaság: Mennyi idő alatt képes az AI megoldani a feladatokat?
  • Erőforrásigény és költségek: Milyen hatékonyan működnek az egyes modellek?
  • Pontosság: Hogyan teljesítenek az AI-k a valós iskolai feladatokban a benchmark tesztekhez képest?

A vizsgálat eredményei

A kutatás megmutatta, hogy jelentős különbségek vannak az egyes AI modellek teljesítménye között, különösen a szövegértési és matematikai feladatok terén. A különböző AI modellek erősségei és gyengeségei az alábbiak:

  • OpenAI o1 – Kiváló általános tudással rendelkezik, erős szövegértési és matematikai képességei vannak, viszont lassú és költséges.
  • Anthropic Sonnet 3.7 – Kiemelkedő szövegértési teljesítményt mutat, gyors és gazdaságos, de a bonyolultabb matematikai feladatokkal meggyűlik a baja.
  • xAI Grok2 – Rendkívül gyors és olcsó, de a matematikai teljesítménye gyenge.
  • Gemini 2.0 „Flash” – Kiváló szövegértési képességekkel bír, viszont a komplex következtetések terén nem remekel.
  • Mistral Large – Költséghatékony, de az általános tudása korlátozottabb.
  • Deepseek – Olcsó és gyors, erős következtetési képességekkel, viszont nem képes vizuális elemzésre és néha furcsa hibákat vét.

Összességében elmondható, hogy a komplex gondolkodást igénylő modellek bár drágábbak és lassabbak, de pontosabb eredményeket adnak. Az eredmények rávilágítottak arra, hogy a mesterséges intelligencia még nem képes egyértelműen helyettesíteni az embereket a problémamegoldásban és analitikus gondolkodásban, különösen a matematikai készségeket igénylő feladatok esetén.

A kompetenciamérés részletei

A magyarországi kompetenciamérés célja, hogy felmérje a 6., 8. és 10. évfolyamos diákok készségeit két fő területen:

  • Szövegértés: A diákok olvasási és értelmezési képességeit vizsgálja, gyakorlati, hétköznapi példákon keresztül.
  • Matematika: Nem lexikális tudásra, hanem gyakorlati problémamegoldó készségekre fókuszál, valós életből vett példákkal.

A felmérés évfolyamfüggetlen skálán méri a tanulók teljesítményét, így lehetőséget biztosít a fejlődésük összehasonlítására.

Mivel foglalkozik a Peak?

A Peak egy innovatív vállalatcsoport, amely AI és digitális banki megoldások fejlesztésére specializálódott. A cég különböző üzletágai – köztük a Peak Fintech Solutions, PeakX, Peak Advisory és Peak Media – széleskörű szolgáltatásokat nyújtanak, a tanácsadástól kezdve az AI-alapú rendszerek fejlesztéséig. A PeakX, a vállalat mesterséges intelligencia részlege, kiemelten foglalkozik az oktatás és pénzügyi szektor számára készült AI-alapú megoldásokkal.

A kutatás egyértelműen rávilágít arra, hogy bár a mesterséges intelligencia rendkívüli fejlődésen ment keresztül, még mindig jelentős kihívásokkal küzd, amikor összetettebb, emberi gondolkodást igénylő feladatokat kell megoldania.

(Forrás: Fintech.hu)

(Címlapkép: Peak sajtóesemény)


Ha tetszett a cikk:

és kövess minket a Facebookon!



Szólj hozzá

Vélemény, hozzászólás?