Na računu piše: 4.600 izlaznih tokena. U odgovoru koji ste dobili: 600 riječi, otprilike 800 tokena. Gdje su ostala četiri tisuće? Niste pokradeni — platili ste razmišljanje. Nevidljivo, interno, nigdje prikazano razmišljanje koje moderni "reasoning" modeli obave prije nego što napišu prvi vidljivi znak. I koje se naplaćuje po najskupljoj, izlaznoj tarifi.
Thinking tokeni najveća su slijepa točka AI računa u 2026. — pa ju osvijetlimo.
Što se događa između pitanja i odgovora
Klasični jezični model piše odgovor izravno: pitanje unutra, tekst van. Reasoning modeli — OpenAI-jeva o-serija, Anthropicov extended thinking, Geminijevi thinking modovi — umeću međukorak: prije vidljivog odgovora generiraju interni lanac razmišljanja u kojem razlažu problem, isprobavaju pristupe, love vlastite greške i tek onda formuliraju konačni odgovor.
Taj lanac je stvaran tekst, generiran token po token, istim skupim procesom kao i odgovor (sekvencijalno dekodiranje — tema našeg članka o tome zašto izlaz košta 5× više od ulaza). Razlika je jedna: ne vidite ga. Ovisno o proizvođaču, dobijete sažetak razmišljanja, ili samo brojku u polju "reasoning tokens" na API odgovoru. Ali platite ga u cijelosti, po izlaznoj tarifi.
Razmjeri? Industrijske analize navode da nevidljivo razmišljanje zna doseći 5 do 50 puta volumen vidljivog odgovora, i da kod složenih zadataka dominira ukupnim troškom poziva. Tipičan primjer iz prakse: poziv s 4.000 thinking tokena i 600-tokenskim odgovorom košta otprilike tri puta više nego isti odgovor bez razmišljanja.
Zašto to uopće plaćamo?
Jer radi. Na složenim zadacima — matematika, pravna analiza, višekoračno programiranje, planiranje — razmišljanje dramatično podiže točnost. Model koji "naglas" (za sebe) provjeri tri pristupa i odbaci dva pogrešna vraća bolji odgovor nego onaj koji piše prvo što mu padne na mrežu. Plaćate, u biti, koncept za koji ne postoji besplatna alternativa: provjeru prije tvrdnje.
Problem nije u postojanju thinking tokena, nego u njihovoj nekontroliranoj primjeni. Jer modeli s uključenim razmišljanjem misle i kad ne treba: pitate za glavni grad Francuske, a model potroši tristo tokena provjeravajući je li pitanje trik. Nous Research je toj pojavi posvetio cijeli benchmark "thinking efficiency" — mjeru koliko modela razmišlja po jedinici točnosti — s nalazom da se učinkovitost razmišljanja među modelima razlikuje višestruko, i da je to "nedostajuća brojka" na svim ljestvicama.
Tu se pojavljuje i svijetli primjer: Anthropicovi podaci uz Claude Fable 5 navode da model za iste zadatke troši otprilike trećinu thinking tokena u odnosu na Opus 4.8. Model s dvostruko višom tarifom tako zna ispasti jeftiniji po zadatku — jer manje troši na predomišljanje. Cjenici govore o cijeni tokena; računi nastaju iz njihove količine.
Kako izgleda račun kad razmišljanje pobjegne
Nekoliko stvarnih obrazaca s loših strana računa. Prvi: agentna petlja s razmišljanjem na svakom koraku. Agent od 20 koraka × 2.000 thinking tokena po koraku = 40.000 tokena razmišljanja za zadatak čiji ukupni vidljivi izlaz ima 3.000. Po izlaznoj tarifi Fablea 5 ($50/M), samo razmišljanje: 2 dolara po zadatku. Tisuću zadataka mjesečno — 2.000 dolara za tekst koji nitko nikad nije vidio.
Drugi: pogrešan default. Developer uključi "high reasoning effort" za sve pozive "da bude sigurno" — i sustav koji klasificira mailove (zadatak bez ikakve potrebe za razmišljanjem) troši kao sustav koji rješava matematičke olimpijade. Treći, najpodmukliji: budžetska nevidljivost — thinking tokeni u većini internih nadzornih ploča uopće nisu razdvojeni od izlaznih, pa firma mjesecima "ne može shvatiti" zašto izlaz košta pet puta više od očekivanog.
Ventil postoji: thinking budžeti
Dobra vijest: za razliku od većine troškova u AI-ju, ovaj ima ugrađen ventil. Svi veliki API-ji nude kontrolu opsega razmišljanja — Anthropic izravno kroz thinking budget (maksimalan broj tokena za razmišljanje po pozivu), OpenAI kroz razine reasoning efforta, Google kroz thinking konfiguraciju.
Prakse koje se u produkciji pokazuju najisplativijima: razmišljanje isključeno kao default, uključeno eksplicitno za zadatke koji ga trebaju; stupnjevanje po vrsti zadatka (klasifikacija: nula; sažimanje: malo; analiza ugovora: srednje; arhitektura sustava: visoko); i tvrdi strop po pozivu, jer je razmišljanje bez stropa upravo mehanizam kojim nastaju oni "pobjegli" računi iz kataloga incidenata — model koji je zapeo u petlji provjeravanja samog sebe.
I jedno upozorenje iz suprotnog smjera: preagresivno rezanje razmišljanja na složenim zadacima je lažna ušteda. Odgovor bez provjere koji morate ručno ispravljati košta više od thinking tokena koje ste uštedjeli — vaše vrijeme je i dalje najskuplji token u sustavu.
Cijena misli
Ostaje filozofski zaključak koji se nameće sam. Desetljećima smo softver plaćali po rezultatu: licenca, funkcija, klik. Reasoning modeli prvi su proizvod u povijesti koji nam naplaćuje proces — sirovo, izmjereno, token po token naplaćeno razmišljanje, uključujući slijepe ulice i odbačene hipoteze.
To je istovremeno pošteno (razmišljanje stvarno troši struju) i duboko neobično: račun na kojem piše koliko je stroj oklijevao. Sljedeći put kad vas AI račun iznenadi, sjetite se da u njemu piše i količina nečeg što je donedavno bilo besplatno kod ljudi, a nemjerljivo kod strojeva. Misao je dobila cjenik. Na nama je da naučimo ne plaćati predomišljanje.
Izvori i dodatno čitanje
- AI Outlooks: Thinking Tokens Explained — What Reasoning Models Cost You
- Nous Research: Measuring Thinking Efficiency in Reasoning Models — The Missing Benchmark
- EG3: What Are AI Reasoning Tokens and Their Hidden Costs
- Developers Digest: Extended Thinking in Claude — When Deep Reasoning Pays For Itself
- Anthropic: Claude Fable 5 and Claude Mythos 5
- arXiv: Token Budgets — An Empirical Catalog of 63 LLM-Agent Budget-Overrun Incidents




