Developer iz jedne zagrebačke firme ostavio je u petak popodne AI agenta da refaktorira modul. U ponedjeljak ga je čekao uredno odrađen posao — i obavijest o potrošnji od 340 dolara. Nije bug, nije prevara, nije čak ni neuobičajeno: prosječni korisnik agentnih alata za programiranje danas troši između 400 i 1.500 dolara mjesečno, a ekstremni slučajevi spale i četiri tisuće u nekoliko dana.
Kako chat koji košta centе po razgovoru postane agent koji jede stotine eura? Odgovor je arhitektonski, predvidljiv i — kad ga jednom razumijete — upravljiv.
Agent ne razgovara. Agent se vrti u krug.
Običan chat je jedna razmjena: pošaljete pitanje s malo konteksta, dobijete odgovor, kraj. Agent radi drugačije: da bi samostalno odradio zadatak, on planira, poziva alate (čita datoteke, pretražuje, izvršava kod), gleda rezultat, korigira se i ponavlja — deset, dvadeset, pedeset koraka.
A sada ključni detalj koji objašnjava račune: na svakom koraku agent modelu šalje cijeli dosadašnji kontekst. Sistemske upute, opis zadatka, sve dosadašnje korake i njihove rezultate. Model je bez memorije između poziva — svaki korak počinje čitanjem svega ispočetka. Do dvadesetog koraka, isti ste kontekst platili dvadeset puta.
Zbroji li se sve, brojke iz industrijskih analiza prestaju čuditi: agentni tijekovi rada troše između 5 i 30 puta više tokena po zadatku od običnog chat upita. EY-jeva analiza enterprise potrošnje navodi upravo taj raspon kao središnji izazov uvođenja agenata.
Od četiri centa do dolar i dvadeset
Cockroach Labs je usporedbu sročio u dvije brojke koje vrijedi zapamtiti. Jednostavan AI proces iz 2023. — upit, dohvat podataka, odgovor — koštao je oko 4 centa po interakciji. Orkestrirani agentni sustav iz 2026. — alati, rezoniranje, petlje provjere — košta oko 1,20 dolara po interakciji. Trideset puta više.
I tu je paradoks cijele industrije: cijena po tokenu u istom je razdoblju pala za otprilike 80 posto. Jeftiniji tokeni, skuplje interakcije — jer arhitektura troši tokene brže nego što cjenici pojeftinjuju. Enterprise potrošnja na AI zato je od 2024. do 2026. narasla 483 posto, unatoč deflaciji cijena. Tko je budžetirao "AI će pojeftiniti", promašio je smjer za red veličine.
Za pojedinačnog developera aritmetika izgleda ovako: dan intenzivnog rada s agentom u alatu poput Claude Codea znači stotine poziva s kontekstima od desetaka tisuća tokena. Vantageova analiza agentnog programiranja dokumentira prosjeke od 400 do 1.500 dolara mjesečno po developeru — otprilike trošak dobrog laptopa, svaki mjesec. Isplati se? Često da: ako agent zamijeni 30 sati rada, sat "agentnog vremena" košta manje od studenta na praksi. Ali samo ako netko gleda brojilo.
Anatomija curenja: kamo tokeni stvarno odu
Pogledate li raščlambu tipične agentne sesije, tri stavke dominiraju računom.
Prva: ponovljeni kontekst — opisali smo ga gore, i on je najveća stavka, često više od polovice ukupnog troška. Druga: rezultati alata. Kad agent pročita datoteku od 2.000 redaka ili dobije opsežan izlaz pretrage, sve to ulazi u kontekst i putuje kroz svaki sljedeći korak. Agent koji nemarno čita velike datoteke vuče ih kao kamenje u ruksaku do kraja zadatka. Treća: slijepe ulice. Agent koji pet koraka istražuje pogrešan trag plaća tih pet koraka jednako kao ispravne — a vi to na računu ne razlikujete.
Dodajte i "thinking" tokene rezoniranja (nevidljivo razmišljanje koje se naplaćuje po izlaznoj tarifi — o tome pišemo zasebno) i dobili ste strukturu računa u kojoj vaš stvarni zadatak, onaj korisni izlaz, čini začuđujuće mali postotak.
Kako se brani budžet: pet poluga
Dobra vijest: upravo zato što je potrošnja strukturna, strukturno se i obuzdava. Industrijska iskustva izdvajaju pet poluga, po redu učinka.
Prva i najjača: usmjeravanje po težini zadatka. U tipičnom agentnom procesu, oko 70 posto tokena po volumenu otpada na lagane poslove — čitanje, sažimanje, formatiranje — koje jeftini modeli rade jednako dobro, uz 10-20 puta nižu cijenu. Preusmjerite li taj dio na lagani model, ukupni račun pada 60-80 posto. To je razlika između agenta koji košta 1,20 i onog koji košta 0,30 dolara po interakciji.
Druga: keširanje konteksta (prompt caching) — ponovljene dijelove konteksta proizvođači naplaćuju po 10 posto cijene, ali samo ako je aplikacija to eksplicitno uključila. Za agente, čiji je kontekst po definiciji repetitivan, to je gotovo besplatnih 50+ posto uštede. Treća: higijena konteksta — agenta se uči da čita ciljano (50 relevantnih redaka umjesto cijele datoteke) i da sažima prošle korake umjesto da ih vuče doslovno. Četvrta: tvrdi limiti — budžet tokena po zadatku, nakon kojeg agent staje i pita. Empirijski katalozi "pobjeglih" agenata puni su slučajeva u kojima je petlja bez limita vrtila istu grešku cijelu noć. Peta: mjerenje po zadatku, ne po mjesecu — tek kad vidite da "generiranje izvještaja" košta 8 dolara a "trijaža mailova" 12 centi, znate gdje optimizirati.
Nevidljivi račun postaje vidljiv
Za firme, pouka je šira od tehnike. Agentna AI mijenja strukturu troška iz fiksne pretplate u varijabilni pogonski trošak — sličniji gorivu nego softverskoj licenci. A varijabilni troškovi traže ono što fiksni ne traže: brojilo, odgovornu osobu i mjesečni pregled.
Prije nego što pustite agente u pogon, postavite tri stvari: limit potrošnje po zadatku i po danu (svaki ozbiljan API to nudi), nadzornu ploču koja trošak razlama po vrsti zadatka, i pravilo da svaki novi agentni proces prvo tjedan dana radi s brojilom prije nego što dobije stalni budžet. Trideset puta skuplja interakcija može biti izvrsna investicija — Stripeov slučaj migracije koda to dokazuje — ali samo kupljena svjesno, ne otkrivena na računu.
Developer s početka priče, usput, nije prestao koristiti agenta. Uveo je routing na jeftiniji model za čitanje koda i limit od 50 dolara po zadatku. Novi mjesečni račun: 210 dolara, za isti posao. Tokeni su najjeftiniji kad ih netko broji.
Izvori i dodatno čitanje
- EY: Agentic AI Enterprise Token Cost
- Cockroach Labs: The Bill Arrives — How to Manage Agentic AI Costs at Scale
- Vantage: The Hidden Cost Driver in Agentic Coding Sessions in 2026
- LeanOps: AI Agents Burn 50x More Tokens Than Chats
- Optimum Partners: AI Token Costs — Why Enterprise AI Bills Keep Rising in 2026
- arXiv: Token Budgets — An Empirical Catalog of 63 LLM-Agent Budget-Overrun Incidents




