Otvorite bilo koji AI cjenik i vidjet ćete isti čudan obrazac. Claude Fable 5: ulaz 10 dolara, izlaz 50. Opus 4.8: ulaz 5, izlaz 25. GPT-5.5: ulaz 5, izlaz 30. Gemini 3.1 Pro: 2 i 12. Različiti proizvođači, različite tehnologije, žestoka konkurencija — a omjer uvijek isti: izlaz košta pet do šest puta više od ulaza.
Kad se konkurenti ni u čemu ne slažu osim u jednom omjeru, to nije kartel. To je fizika. I vrijedi je razumjeti, jer iz nje slijede vrlo konkretne uštede.
Čitanje i pisanje nisu isti posao
Intuicija kaže: token je token, zašto bi smjer mijenjao cijenu? Zato što se ispod haube događaju dva potpuno različita procesa.
Kad modelu pošaljete tekst, on ga obrađuje u fazi koju inženjeri zovu prefill: svi ulazni tokeni prolaze kroz neuronsku mrežu odjednom, u jednom prolazu. Grafički procesor radi ono za što je dizajniran — masivne paralelne operacije nad velikim blokovima podataka. Tisuću tokena ili deset tisuća, obrada je "veleprodajna" i cijena po tokenu ispada niska.
Kad model piše odgovor, ulazi u fazu decode — i tu paralelizam umire. Sljedeći token ne može nastati prije prethodnog, jer o njemu ovisi. Svaki izlazni token zahtijeva vlastiti puni prolaz kroz mrežu: jedan token, cijeli prolaz; drugi token, opet cijeli prolaz. Deset tisuća izlaznih tokena je deset tisuća uzastopnih prolaza.
Usko grlo nije računanje — nego memorija
Druga polovica objašnjenja još je manje intuitivna. Tijekom decode faze, grafički procesor većinu vremena uopće ne računa — čeka memoriju. Za svaki novi token, mreža mora iz memorije pročitati goleme težinske matrice modela, a propusnost memorije je ograničena. Analize inferencije to formuliraju precizno: dekodiranje je ograničeno propusnošću memorije, ne računalnom snagom — GPU je "zauzet" čitanjem, dok mu računske jezgre uglavnom stoje.
Za proizvođača to znači da izlazni token okupira skupi hardver višestruko dulje od ulaznog. Cjenovni omjer 5-6× nije marketinška odluka — to je trošak proizvodnje preslikan na račun. Kako je jedan tehnički blog sažeo: vaš račun za tokene zapravo je račun za GPU vrijeme.
Postoji i treći, tiši razlog: kvaliteta izlaza je ono što prodaje model, pa proizvođači u izlaz ugrađuju i dodatni posao — provjere, filtriranje, ponekad interno rezoniranje. Sve se to knjiži na izlaznu tarifu.
Pet prema jedan u praksi: primjeri koji bole
Apstraktni omjer postaje konkretan kad ga preračunate na stvarne zadatke.
Sažimanje je jeftino: pošaljete ugovor od 20.000 tokena, dobijete sažetak od 500. Račun na Opusu 4.8: 10 centi za ulaz, 1,25 centi za izlaz — ulaz dominira, ali ukupno je sitniš. Obrnuti smjer je skup: kratki brief od 500 tokena iz kojeg model piše dokument od 20.000 tokena košta 0,25 centi za ulaz i 50 centi za izlaz — dvostruko skuplje od prvog primjera, iako je ukupan broj tokena isti. Isti tokeni, suprotan smjer, dvostruka cijena.
Najskuplja kombinacija u praksi? Brbljavi agent: sustav koji na svako pitanje odgovara esejom, generira kod s opširnim komentarima koje nitko ne čita, i "objašnjava svoj rad" u tri odlomka nakon svakog koraka. Sve to je izlaz, sve ide po najskupljoj tarifi, i većina toga završava neopročitana.
Kako se pravilo pretvara u uštedu
Iz fizike slijedi strategija, i ona stane u jednu rečenicu koju vrijedi zalijepiti iznad monitora: dugačak ulaz je jeftin, dugačak izlaz je skup.
Prvo i najisplativije: režite izlaz, ne ulaz. Uputa "odgovori u najviše tri rečenice" ili "vrati samo tablicu, bez objašnjenja" izravno reže najskuplju stavku. Praktično pravilo iz industrijskih analiza: skratiti izlaz za 100 riječi štedi otprilike koliko i skratiti ulaz za 500. Većina korisnika optimizira pogrešnu stranu.
Drugo: tražite strukturirane formate. JSON, tablica ili lista umjesto proznog odgovora zna prepoloviti izlazne tokene bez gubitka ijedne informacije. Treće: kod agenata, isključite "misli naglas" gdje nije potrebno — objašnjenja koja nitko ne čita čisti su izlazni trošak. Četvrto: za velike poslove generiranja (izvještaji, prijevodi, dokumentacija) koristite batch obradu, koja i ulaz i izlaz naplaćuje upola — pa i najskuplja strana omjera pada na podnošljivo.
I peto, strateško: kad birate model za zadatak, gledajte što zadatak pretežno radi. Zadaci teški na ulazu (analiza dokumenata, pretraga, klasifikacija) trpe skuplji model, jer je ulaz veleprodajno jeftin. Zadaci teški na izlazu (pisanje, generiranje koda) najbrže opravdaju jeftiniji ili sažetiji model — ili barem strogu dijetu za duljinu odgovora.
Omjer koji će nas preživjeti
Hoće li 5:1 ikad nestati? Arhitekture se mijenjaju, tehnike ubrzanja dekodiranja napreduju, ali temeljna asimetrija — čitanje paralelno, pisanje sekvencijalno — ugrađena je u način na koji transformerski modeli rade. Dok god plaćamo strojeve po vremenu, pisanje će koštati više od čitanja.
U tome ima nečeg gotovo književnog. Stoljećima je vrijedilo da je papir jeftin, a autorski rad skup; stroj koji piše nije to promijenio — samo je precizno izmjerio. Pet prema jedan: toliko je, ispada, i strojevima teže sricati nego slušati.
Izvori i dodatno čitanje
- Warehows: Why output tokens cost more than input tokens
- The AI Engineer: Why is Inference Slow and Expensive?
- Thakurcoder: Tokens Are Compute — Why Your LLM Bill Is Really a GPU Bill
- Introl: Inference Unit Economics — The True Cost Per Million Tokens
- Claude Platform Docs: Pricing
- Silicon Data: Understanding LLM Cost Per Token — A 2026 Practical Guide




