A mesterséges intelligencia új mértékegysége: a memória nagysága

A mesterséges intelligencia fejlődésének korai szakaszában minden a modellek puszta számítási teljesítményéről és kreativitásáról szólt. Azonban az utóbbi hónapokban egy új versenyszám került a figyelem középpontjába: a kontextusablak mérete. Ez a paraméter határozza meg, hogy egy AI modell mennyi információt képes egyszerre „fejben tartani” és feldolgozni egyetlen beszélgetés vagy feladat során.

Ahogy a vállalati felhasználás és a komplex kutatási feladatok egyre inkább előtérbe kerülnek, úgy válik kritikussá, hogy egy rendszer képes-e átlátni több száz oldalas dokumentumokat, vagy akár teljes kódbázisokat. Amikor az AI modellek kontextusablak alapján történő rangsorolását vizsgáljuk, láthatjuk, hogy a piacvezető szereplők – mint a Google, az Anthropic vagy a Meta – folyamatosan licitálnak egymásra a memória kapacitásának növelésében.

Mi az a kontextusablak és miért számít?

A kontextusablak lényegében a nyelvi modell rövid távú memóriája. A mértékegysége a „token”, amely nagyjából szavak töredékeinek felel meg; ökölszabályként 1000 token körülbelül 750 szót jelent. Egy szűkebb ablakkal rendelkező modell egy hosszabb beszélgetés során elfelejti az elején elhangzottakat, míg a modern, kiterjesztett memóriájú rendszerek képesek akár egész könyvtárak tartalmát is aktívan kezelni.

Ez a képesség alapvetően változtatja meg a felhasználási területeket. A fejlesztők számára lehetővé teszi a teljes szoftverkód átvizsgálását hibák után kutatva, a pénzügyi elemzők pedig több tucat éves jelentést vethetnek össze pillanatok alatt. A technológia fejlődése ezen a téren exponenciális: míg néhány éve a 2-4 ezer token számított standardnak, ma már a milliós nagyságrendnél tartunk.

A nagyobb kontextusablak nem csupán mennyiségi ugrás, hanem minőségi változást hoz: lehetővé teszi az úgynevezett „agentic”, azaz ügynökszerű működést, ahol az AI önállóan képes komplex, több lépésből álló feladatok végrehajtására anélkül, hogy elveszítené a fonalat.

A verseny élmezőnye: Kik dominálnak most?

Az iparági elemzések és a legfrissebb bejelentések alapján a mezőny rendkívül szoros, és a szereplők különböző stratégiákat követnek. A Google a Gemini szériával sokáig tartotta a „memóriakirály” címet, modelljeik a több millió tokenes tartományban mozognak, ami lehetővé teszi videók, hanganyagok és hatalmas szövegek egyidejű feldolgozását.

Ezzel párhuzamosan az Anthropic a közelmúltban bemutatott Claude Opus 4.5 modellel nemcsak a nyers méretre, hanem a hatékonyságra is fókuszál. Bár a 200 000 tokenes alapértelmezett ablakuk kisebbnek tűnhet a rekordereknél, a „szelektív kontextus-tömörítés” technológiájával gyakorlatilag végtelen beszélgetési élményt ígérnek, ahol a rendszer intelligensen szelektálja a releváns információkat.

A nyílt forráskódú modellek terén is zajlik a forradalom. A Meta legújabb fejlesztései, például a Llama 4 Scout, már a 10 millió tokenes álomhatárt célozzák meg, ami gyakorlatilag a teljes vállalati tudásbázisok azonnali elérését tenné lehetővé. Eközben olyan speciális szereplők, mint a Magic.dev, még ennél is merészebb, 100 millió tokenes kapacitást ígérnek, kifejezetten a szoftverfejlesztési igényekre szabva.

Kihívások a méretnövelés mögött

Bár a hatalmas memória csábító, nem mentes a kihívásoktól. A „tű a szénakazalban” probléma továbbra is valós jelenség: minél nagyobb a feldolgozandó adatmennyiség, a modellek hajlamosak lehetnek átsiklani a szöveg közepén lévő információk felett, és inkább az elejére vagy a végére fókuszálni.

A másik kritikus tényező a költség és a sebesség. Egy több millió tokenes lekérdezés futtatása jelentős számítási kapacitást igényel, ami drágábbá és lassabbá teheti a válaszadást. A fejlesztők ezért most arra törekednek, hogy megtalálják az egyensúlyt a hatalmas memória és a gazdaságos, gyors működés között, például az úgynevezett „caching” (gyorsítótárazás) technológiák alkalmazásával.

Felhasznált források