Milijun tokena konteksta. Deset debelih romana, cijeli codebase srednje firme, godišnji arhiv ugovora — sve u jednom pozivu, sve "u glavi" modela istovremeno. Otkako je ta granica probijena početkom 2026., marketing je pisao sam sebe: zbogom komplicirane arhitekture, samo sve strpajte u prompt.

A onda stigne prvi ozbiljan račun i otkrije se detalj iz sitnog tiska matematike: pažnja modela ne košta linearno, nego kvadratno. Dupli kontekst nije dupli trošak — nego četverostruki. I odjednom staro, dosadno rješenje zvano RAG opet izgleda pametno.

Ovo je vodič kroz najskuplju moć moderne AI ere: kada je kupiti, a kada zaobići.

Zašto kvadratno: svaki token gleda svaki token

Srce transformerske arhitekture je mehanizam pažnje (attention): pri obradi, svaki token "gleda" svaki drugi token da bi razumio kontekst. Rečenica od 10 tokena znači 100 međuodnosa; dokument od 100.000 tokena — deset milijardi. Formula je O(N²): udvostručite kontekst, učetverostručili ste posao.

Upravo zato skok sa 128 tisuća na milijun i više tokena nije bio "samo povećanje brojke" — zahtijevao je fundamentalne preinake arhitekture, i zato dugi kontekst kod većine proizvođača nosi cjenovnu premiju: pozivi iznad određenog praga (tipično 200 tisuća tokena) naplaćuju se po uvećanoj tarifi. Fizika je poslala račun marketingu.

Za korisnika, praktična posljedica stane u jedan primjer: na modelu s ulazom od 3 dolara po milijunu, poziv koji šalje 500.000 tokena konteksta košta oko 1,50 dolara. Po pozivu. Aplikacija koja tako odgovara na tisuću pitanja dnevno potroši 1.500 dolara dnevno — 45 tisuća mjesečno — na sam kontekst, iznova poslan sa svakim pitanjem.

Trošak po upitu: sve u kontekst naspram RAG dohvata Trošak po upitu s rastom količine podataka sve u kontekst RAG količina podataka po upitu → Attention: O(N²) — dupli kontekst je četverostruki posao

RAG: knjižničar umjesto čitanja cijele knjižnice

Alternativa je stara koliko i primjena LLM-ova u firmama: Retrieval-Augmented Generation. Umjesto da modelu date cijelu knjižnicu, zaposlite knjižničara: dokumenti se unaprijed indeksiraju u vektorsku bazu, a na svako pitanje sustav dohvati samo relevantnih pet-deset odlomaka i pošalje modelu njih — tisuću do pet tisuća tokena umjesto pola milijuna.

Ekonomika je neumoljiva: RAG upit košta dijelove centa, jer po pozivu putuje stotinu puta manje tokena. Za aplikacije s velikim prometom — podršku, pretragu dokumentacije, interne baze znanja — usporedne analize su jednoznačne: oslanjanje na masivni kontekst pri visokoj frekvenciji upita ekonomski je neodrživo naspram RAG-a.

Zašto onda uopće postoji dugi kontekst? Zato što RAG ima svoju skrivenu cijenu — inženjersku. Vektorska baza, sinkronizacija indeksa sa svakom promjenom dokumenata, ugađanje dohvata (koji odlomci? koliko njih?), rubni slučajevi kad relevantna informacija ostane nedohvaćena... To je infrastruktura koju netko gradi i održava. Analitičari upozoravaju da ukupni trošak vlasništva RAG cjevovoda — inženjeri, održavanje, propušteni odgovori — zna premašiti skuplje API pozive, pogotovo otkad je milijun tokena dostupan po standardnoj tarifi bez premije kod dijela proizvođača.

Gdje dugi kontekst pobjeđuje bez borbe

Tri scenarija u kojima je "sve u prompt" ispravan odgovor, ma što pisalo na računu.

Prvi: analiza cjeline, ne pretraga dijelova. Kad pitanje glasi "koje su nedosljednosti u ovih 800 stranica ugovorne dokumentacije", RAG strukturno ne može pomoći — on dohvaća slične odlomke, a nedosljednost živi u odnosima među udaljenim dijelovima. Za takve zadatke dugi kontekst nije luksuz, nego jedini alat.

Drugi: dugotrajni agentni rad. Agent koji danima živi u projektu — poput onih koje pokreće Claude Fable 5, s dokumentiranom sposobnošću držanja fokusa kroz milijune tokena — treba puni radni kontekst, jer sam odlučuje što je relevantno. Benchmark podaci uz Fable pokazuju upravo tu poentu: s trajnom memorijom kroz golemi kontekst model je na složenoj igri postigao trostruko bolji rezultat od prethodnika.

Treći: jednokratne duboke analize. Due diligence, revizija, forenzika koda — mali broj poziva, golema vrijednost po pozivu. Deset dolara po pozivu je trivijalno kad poziv zamjenjuje tjedan čitanja.

Odlučivanje bez religije: četiri pitanja

U industriji se oko ovoga vode gotovo teološke rasprave ("RAG je mrtav!" / "dugi kontekst je prevara!"), a odluka je zapravo kratka provjera četiri činjenice.

Koliko je korpus velik? Preko milijun tokena — RAG, nema rasprave. Koliko često se podaci mijenjaju? Dnevno svježi podaci traže dohvat, ne statični kontekst. Koliko upita dnevno? Stotine i tisuće — RAG, jer se kontekst plaća po upitu; nekoliko — kontekst, jer se RAG plaća u inženjerima (uz napomenu: prompt caching tu mijenja matematiku, jer keširani kontekst pri ponovljenim upitima košta desetinu — hibrid "veliki keširani kontekst + česti upiti" postao je 2026. legitimna treća opcija). I četvrto: treba li odgovor razumjeti cjelinu ili naći dio? Cjelina — kontekst; dio — RAG.

U praksi zrele arhitekture završe hibridno: RAG za svakodnevni promet, dugi kontekst za analize i agente, keš za sve što se ponavlja. Dosadno? Da. Jeftino? Također.

Moć sa cjenikom

Milijun tokena konteksta autentično je čudo — sposobnost koju 2023. nije imao nitko, a 2026. je ima svatko s karticom. Ali kvadratna matematika pažnje pobrinula se da to čudo dođe s ugrađenom lekcijom iz ekonomije: to što model može pročitati sve, ne znači da treba čitati sve, svaki put.

Najbolja metafora ostaje ona knjižnična. Dugi kontekst je genijalan čitatelj kojem plaćate svaki pročitani redak; RAG je knjižničar koji zna gdje što stoji. Bogate organizacije, ispada, trebaju oboje — i računovođu koji zna kada zvati kojega.


Izvori i dodatno čitanje