Nevidljivi računi: Kako AI agenti potroše 100 € prije nego što primijetite

Agenti troše 5–30× više tokena od chata jer svaki korak iznova plaća cijeli kontekst. Anatomija agentne potrošnje i pet poluga za obranu budžeta.

Developer iz jedne zagrebačke firme ostavio je u petak popodne AI agenta da refaktorira modul. U ponedjeljak ga je čekao uredno odrađen posao — i obavijest o potrošnji od 340 dolara. Nije bug, nije prevara, nije čak ni neuobičajeno: prosječni korisnik agentnih alata za programiranje danas troši između 400 i 1.500 dolara mjesečno, a ekstremni slučajevi spale i četiri tisuće u nekoliko dana.

Kako chat koji košta centе po razgovoru postane agent koji jede stotine eura? Odgovor je arhitektonski, predvidljiv i — kad ga jednom razumijete — upravljiv.

Agent ne razgovara. Agent se vrti u krug.

Običan chat je jedna razmjena: pošaljete pitanje s malo konteksta, dobijete odgovor, kraj. Agent radi drugačije: da bi samostalno odradio zadatak, on planira, poziva alate (čita datoteke, pretražuje, izvršava kod), gleda rezultat, korigira se i ponavlja — deset, dvadeset, pedeset koraka.

A sada ključni detalj koji objašnjava račune: na svakom koraku agent modelu šalje cijeli dosadašnji kontekst. Sistemske upute, opis zadatka, sve dosadašnje korake i njihove rezultate. Model je bez memorije između poziva — svaki korak počinje čitanjem svega ispočetka. Do dvadesetog koraka, isti ste kontekst platili dvadeset puta.

Zbroji li se sve, brojke iz industrijskih analiza prestaju čuditi: agentni tijekovi rada troše između 5 i 30 puta više tokena po zadatku od običnog chat upita. EY-jeva analiza enterprise potrošnje navodi upravo taj raspon kao središnji izazov uvođenja agenata.

Od četiri centa do dolar i dvadeset

Cockroach Labs je usporedbu sročio u dvije brojke koje vrijedi zapamtiti. Jednostavan AI proces iz 2023. — upit, dohvat podataka, odgovor — koštao je oko 4 centa po interakciji. Orkestrirani agentni sustav iz 2026. — alati, rezoniranje, petlje provjere — košta oko 1,20 dolara po interakciji. Trideset puta više.

I tu je paradoks cijele industrije: cijena po tokenu u istom je razdoblju pala za otprilike 80 posto. Jeftiniji tokeni, skuplje interakcije — jer arhitektura troši tokene brže nego što cjenici pojeftinjuju. Enterprise potrošnja na AI zato je od 2024. do 2026. narasla 483 posto, unatoč deflaciji cijena. Tko je budžetirao "AI će pojeftiniti", promašio je smjer za red veličine.

Za pojedinačnog developera aritmetika izgleda ovako: dan intenzivnog rada s agentom u alatu poput Claude Codea znači stotine poziva s kontekstima od desetaka tisuća tokena. Vantageova analiza agentnog programiranja dokumentira prosjeke od 400 do 1.500 dolara mjesečno po developeru — otprilike trošak dobrog laptopa, svaki mjesec. Isplati se? Često da: ako agent zamijeni 30 sati rada, sat "agentnog vremena" košta manje od studenta na praksi. Ali samo ako netko gleda brojilo.

Anatomija curenja: kamo tokeni stvarno odu

Pogledate li raščlambu tipične agentne sesije, tri stavke dominiraju računom.

Prva: ponovljeni kontekst — opisali smo ga gore, i on je najveća stavka, često više od polovice ukupnog troška. Druga: rezultati alata. Kad agent pročita datoteku od 2.000 redaka ili dobije opsežan izlaz pretrage, sve to ulazi u kontekst i putuje kroz svaki sljedeći korak. Agent koji nemarno čita velike datoteke vuče ih kao kamenje u ruksaku do kraja zadatka. Treća: slijepe ulice. Agent koji pet koraka istražuje pogrešan trag plaća tih pet koraka jednako kao ispravne — a vi to na računu ne razlikujete.

Dodajte i "thinking" tokene rezoniranja (nevidljivo razmišljanje koje se naplaćuje po izlaznoj tarifi — o tome pišemo zasebno) i dobili ste strukturu računa u kojoj vaš stvarni zadatak, onaj korisni izlaz, čini začuđujuće mali postotak.

Kako se brani budžet: pet poluga

Dobra vijest: upravo zato što je potrošnja strukturna, strukturno se i obuzdava. Industrijska iskustva izdvajaju pet poluga, po redu učinka.

Prva i najjača: usmjeravanje po težini zadatka. U tipičnom agentnom procesu, oko 70 posto tokena po volumenu otpada na lagane poslove — čitanje, sažimanje, formatiranje — koje jeftini modeli rade jednako dobro, uz 10-20 puta nižu cijenu. Preusmjerite li taj dio na lagani model, ukupni račun pada 60-80 posto. To je razlika između agenta koji košta 1,20 i onog koji košta 0,30 dolara po interakciji.

Druga: keširanje konteksta (prompt caching) — ponovljene dijelove konteksta proizvođači naplaćuju po 10 posto cijene, ali samo ako je aplikacija to eksplicitno uključila. Za agente, čiji je kontekst po definiciji repetitivan, to je gotovo besplatnih 50+ posto uštede. Treća: higijena konteksta — agenta se uči da čita ciljano (50 relevantnih redaka umjesto cijele datoteke) i da sažima prošle korake umjesto da ih vuče doslovno. Četvrta: tvrdi limiti — budžet tokena po zadatku, nakon kojeg agent staje i pita. Empirijski katalozi "pobjeglih" agenata puni su slučajeva u kojima je petlja bez limita vrtila istu grešku cijelu noć. Peta: mjerenje po zadatku, ne po mjesecu — tek kad vidite da "generiranje izvještaja" košta 8 dolara a "trijaža mailova" 12 centi, znate gdje optimizirati.

Nevidljivi račun postaje vidljiv

Za firme, pouka je šira od tehnike. Agentna AI mijenja strukturu troška iz fiksne pretplate u varijabilni pogonski trošak — sličniji gorivu nego softverskoj licenci. A varijabilni troškovi traže ono što fiksni ne traže: brojilo, odgovornu osobu i mjesečni pregled.

Prije nego što pustite agente u pogon, postavite tri stvari: limit potrošnje po zadatku i po danu (svaki ozbiljan API to nudi), nadzornu ploču koja trošak razlama po vrsti zadatka, i pravilo da svaki novi agentni proces prvo tjedan dana radi s brojilom prije nego što dobije stalni budžet. Trideset puta skuplja interakcija može biti izvrsna investicija — Stripeov slučaj migracije koda to dokazuje — ali samo kupljena svjesno, ne otkrivena na računu.

Developer s početka priče, usput, nije prestao koristiti agenta. Uveo je routing na jeftiniji model za čitanje koda i limit od 50 dolara po zadatku. Novi mjesečni račun: 210 dolara, za isti posao. Tokeni su najjeftiniji kad ih netko broji.

Nevidljivi računi: Kako AI agenti potroše 100 € prije nego što primijetite

Agent ne razgovara. Agent se vrti u krug.

Od četiri centa do dolar i dvadeset

Anatomija curenja: kamo tokeni stvarno odu

Kako se brani budžet: pet poluga

Nevidljivi račun postaje vidljiv

Izvori i dodatno čitanje

Povezano

Koliko košta AI u 2026.? Claude, ChatGPT i Gemini za male poduzetnike

Prompt caching i batch: legalni trikovi za prepolovljenje AI računa

Godina dana s AI agentima: Od Opusa do Fablea — što se stvarno promijenilo?

Prompt engineering: nova vještina koja vrijedi $300,000 godišnje