Na računu piše: 4.600 izlaznih tokena. U odgovoru koji ste dobili: 600 riječi, otprilike 800 tokena. Gdje su ostala četiri tisuće? Niste pokradeni — platili ste razmišljanje. Nevidljivo, interno, nigdje prikazano razmišljanje koje moderni "reasoning" modeli obave prije nego što napišu prvi vidljivi znak. I koje se naplaćuje po najskupljoj, izlaznoj tarifi.

Thinking tokeni najveća su slijepa točka AI računa u 2026. — pa ju osvijetlimo.

Što se događa između pitanja i odgovora

Klasični jezični model piše odgovor izravno: pitanje unutra, tekst van. Reasoning modeli — OpenAI-jeva o-serija, Anthropicov extended thinking, Geminijevi thinking modovi — umeću međukorak: prije vidljivog odgovora generiraju interni lanac razmišljanja u kojem razlažu problem, isprobavaju pristupe, love vlastite greške i tek onda formuliraju konačni odgovor.

Taj lanac je stvaran tekst, generiran token po token, istim skupim procesom kao i odgovor (sekvencijalno dekodiranje — tema našeg članka o tome zašto izlaz košta 5× više od ulaza). Razlika je jedna: ne vidite ga. Ovisno o proizvođaču, dobijete sažetak razmišljanja, ili samo brojku u polju "reasoning tokens" na API odgovoru. Ali platite ga u cijelosti, po izlaznoj tarifi.

Razmjeri? Industrijske analize navode da nevidljivo razmišljanje zna doseći 5 do 50 puta volumen vidljivog odgovora, i da kod složenih zadataka dominira ukupnim troškom poziva. Tipičan primjer iz prakse: poziv s 4.000 thinking tokena i 600-tokenskim odgovorom košta otprilike tri puta više nego isti odgovor bez razmišljanja.

Vidljivi odgovor naspram nevidljivog razmišljanja u naplaćenim tokenima Naplaćeni izlazni tokeni jednog poziva "površina" — što vidite odgovor: 600 tokena thinking: 4.000 tokena (nevidljivo, naplaćeno po izlaznoj tarifi) Isti odgovor bez razmišljanja koštao bi ~3× manje — ali bi li bio točan?

Zašto to uopće plaćamo?

Jer radi. Na složenim zadacima — matematika, pravna analiza, višekoračno programiranje, planiranje — razmišljanje dramatično podiže točnost. Model koji "naglas" (za sebe) provjeri tri pristupa i odbaci dva pogrešna vraća bolji odgovor nego onaj koji piše prvo što mu padne na mrežu. Plaćate, u biti, koncept za koji ne postoji besplatna alternativa: provjeru prije tvrdnje.

Problem nije u postojanju thinking tokena, nego u njihovoj nekontroliranoj primjeni. Jer modeli s uključenim razmišljanjem misle i kad ne treba: pitate za glavni grad Francuske, a model potroši tristo tokena provjeravajući je li pitanje trik. Nous Research je toj pojavi posvetio cijeli benchmark "thinking efficiency" — mjeru koliko modela razmišlja po jedinici točnosti — s nalazom da se učinkovitost razmišljanja među modelima razlikuje višestruko, i da je to "nedostajuća brojka" na svim ljestvicama.

Tu se pojavljuje i svijetli primjer: Anthropicovi podaci uz Claude Fable 5 navode da model za iste zadatke troši otprilike trećinu thinking tokena u odnosu na Opus 4.8. Model s dvostruko višom tarifom tako zna ispasti jeftiniji po zadatku — jer manje troši na predomišljanje. Cjenici govore o cijeni tokena; računi nastaju iz njihove količine.

Kako izgleda račun kad razmišljanje pobjegne

Nekoliko stvarnih obrazaca s loših strana računa. Prvi: agentna petlja s razmišljanjem na svakom koraku. Agent od 20 koraka × 2.000 thinking tokena po koraku = 40.000 tokena razmišljanja za zadatak čiji ukupni vidljivi izlaz ima 3.000. Po izlaznoj tarifi Fablea 5 ($50/M), samo razmišljanje: 2 dolara po zadatku. Tisuću zadataka mjesečno — 2.000 dolara za tekst koji nitko nikad nije vidio.

Drugi: pogrešan default. Developer uključi "high reasoning effort" za sve pozive "da bude sigurno" — i sustav koji klasificira mailove (zadatak bez ikakve potrebe za razmišljanjem) troši kao sustav koji rješava matematičke olimpijade. Treći, najpodmukliji: budžetska nevidljivost — thinking tokeni u većini internih nadzornih ploča uopće nisu razdvojeni od izlaznih, pa firma mjesecima "ne može shvatiti" zašto izlaz košta pet puta više od očekivanog.

Ventil postoji: thinking budžeti

Dobra vijest: za razliku od većine troškova u AI-ju, ovaj ima ugrađen ventil. Svi veliki API-ji nude kontrolu opsega razmišljanja — Anthropic izravno kroz thinking budget (maksimalan broj tokena za razmišljanje po pozivu), OpenAI kroz razine reasoning efforta, Google kroz thinking konfiguraciju.

Prakse koje se u produkciji pokazuju najisplativijima: razmišljanje isključeno kao default, uključeno eksplicitno za zadatke koji ga trebaju; stupnjevanje po vrsti zadatka (klasifikacija: nula; sažimanje: malo; analiza ugovora: srednje; arhitektura sustava: visoko); i tvrdi strop po pozivu, jer je razmišljanje bez stropa upravo mehanizam kojim nastaju oni "pobjegli" računi iz kataloga incidenata — model koji je zapeo u petlji provjeravanja samog sebe.

I jedno upozorenje iz suprotnog smjera: preagresivno rezanje razmišljanja na složenim zadacima je lažna ušteda. Odgovor bez provjere koji morate ručno ispravljati košta više od thinking tokena koje ste uštedjeli — vaše vrijeme je i dalje najskuplji token u sustavu.

Cijena misli

Ostaje filozofski zaključak koji se nameće sam. Desetljećima smo softver plaćali po rezultatu: licenca, funkcija, klik. Reasoning modeli prvi su proizvod u povijesti koji nam naplaćuje proces — sirovo, izmjereno, token po token naplaćeno razmišljanje, uključujući slijepe ulice i odbačene hipoteze.

To je istovremeno pošteno (razmišljanje stvarno troši struju) i duboko neobično: račun na kojem piše koliko je stroj oklijevao. Sljedeći put kad vas AI račun iznenadi, sjetite se da u njemu piše i količina nečeg što je donedavno bilo besplatno kod ljudi, a nemjerljivo kod strojeva. Misao je dobila cjenik. Na nama je da naučimo ne plaćati predomišljanje.


Izvori i dodatno čitanje