Na svakom AI cjeniku piše ista mjerna jedinica: dolara po milijunu tokena. Ne po pitanju, ne po stranici, ne po satu — po tokenu. A kad pitate prosječnog korisnika što je token, dobijete slijeganje ramenima i "valjda riječ?". Nije riječ. I upravo u toj razlici između tokena i riječi krije se nekoliko stvari koje izravno određuju koliko plaćate — uključujući jednu neugodnu: hrvatski jezik na AI tarifi košta više od engleskog.
Evo vodiča bez ijednog retka koda.
Gramaža inteligencije
Jezični model ne čita tekst kao mi. Prije nego što išta "shvati", tekst se razlomi na komadiće zvane tokeni — dijelove riječi koje je model naučio prepoznavati kao cjeline. Česta engleska riječ poput "the" je jedan token. Rjeđa riječ se lomi na dva-tri. Razmaci, interpunkcija, brojevi — sve se broji.
Praktična mnemotehnika za engleski: jedan token je otprilike tri četvrtine riječi, pa milijun tokena iznosi oko 700.000 riječi — otprilike deset debelih romana. Kad cjenik kaže da model košta 5 dolara po milijunu ulaznih tokena, to znači: pročitat će vam deset romana za pet dolara. Zvuči jeftino — i jest, dok ne počnete brojati koliko puta model čita isto (o tome u nastavku serije).
Zašto se uopće naplaćuje po tokenu?
Zato što je token jedinica stvarnog troška. Svaki token koji model pročita ili napiše znači konkretan rad grafičkih procesora u podatkovnom centru: množenje matrica, čitanje memorije, potrošnju struje. Naplata po tokenu je, u biti, naplata po kilovatsatu inteligencije — poštenija nego paušal, jer teški korisnici plaćaju više.
Za korisnika chat pretplate tokeni su nevidljivi: plaćate mjesečno, a proizvođač interno broji. Ali čim pređete na API — a svaka firma koja AI ugrađuje u procese pređe — tokeni postaju vaša valuta. I tada počinju vrijediti tri pravila. Prvo: ulaz i izlaz imaju različite cijene (izlaz je tipično peterostruko skuplji — zašto, objašnjavamo u zasebnom članku). Drugo: sve se broji, i sistemske upute i povijest razgovora, ne samo vaše zadnje pitanje. Treće: isti sadržaj različito košta ovisno o jeziku.
Jezični porez: koliko nas košta hrvatski
To treće pravilo zaslužuje poglavlje, jer se o njemu gotovo ne piše. Tokenizatori velikih modela trenirani su pretežno na engleskom tekstu, pa su za engleski naučili velike, efikasne tokene — a ostale jezike lome na sitniš. Istraživanja su to kvantificirala: za isto značenje, ne-engleski tekst tipično troši dva do tri puta više tokena. Njemački i talijanski na GPT tokenizatorima ispadaju oko 50 posto skuplji od engleskog; ekstremni slučajevi poput jezika Dzongkha ili Odia plaćaju i dvanaest puta više. Akademski rad s naslovom koji sve govori — "Language Model Tokenizers Introduce Unfairness Between Languages" — pokazao je da nejednakost počinje prije nego što model uopće počne razmišljati.
Hrvatski se, sa svojim padežima, dijakriticima i relativno malom količinom teksta u trening-podacima, kreće u zoni od otprilike 1,5 do 2 puta više tokena nego engleski ekvivalent. Konkretno: ugovor od 10 stranica koji na engleskom stane u 6.000 tokena, na hrvatskom će pojesti 9.000–12.000. Isti model, ista kvaliteta, viši račun — jezični porez u najčistijem obliku.
Može li se porez smanjiti?
Dijelom da, i to bez žrtvovanja kvalitete. Prva tehnika zvuči heretički, ali radi: dvojezični rad. Sistemske upute, definicije zadatka i unutarnje procese pišite na engleskom (plaćate manje tokena za isti sadržaj), a samo završni izlaz tražite na hrvatskom. Za aplikacije koje šalju iste upute tisućama puta, razlika se zbraja u ozbiljne postotke.
Druga: režite balast prije modela. Zaglavlja dokumenata, potpisi mailova, ponovljeni disclaimeri — sve to model uredno naplati, a informaciji ne pridonosi ništa. Treća: kad uspoređujete modele, uspoređujte i tokenizatore. Noviji tokenizatori s većim vokabularima (poput onih u aktualnim generacijama velikih modela) tretiraju slavenske jezike osjetno bolje nego stariji — ista rečenica na dva modela može se razlikovati 30-40 posto u broju tokena, što je popust koji se ne piše na cjeniku.
Kako sada čitati cjenik
Naoružani ovim znanjem, pogledajmo cjenik kako treba. Kad piše "Claude Fable 5: $10 ulaz / $50 izlaz po milijunu tokena", vi sada čitate: deset romana pročitanih za 10 dolara, dva romana napisana za 50 — minus jezični porez od kojih 50-100 posto ako se sve odvija na hrvatskom, minus činjenica da svaka razmjena nosi i nevidljivu prtljagu sistemskih uputa i povijesti.
I najvažnije: cijena po tokenu je najmanje bitna brojka na cjeniku. Bitno je koliko tokena vaš zadatak stvarno troši — a to, kao što smo vidjeli, ovisi o jeziku, o duljini konteksta i o tome koliko puta model čita isto. Token je gramaža; račun radi vaga. U nastavku serije bavimo se upravo vagom: zašto pisanje košta peterostruko više od čitanja, kamo nestaju "thinking" tokeni i kako agenti potroše sto eura dok trepnete.
Izvori i dodatno čitanje
- PromptCost: LLM Tokenization Explained — English vs Other Languages Cost Difference
- arXiv: Language Model Tokenizers Introduce Unfairness Between Languages
- Frontiers in AI: Tokenization efficiency of current foundational LLMs for the Ukrainian language
- AI/TLDR: Why Non-English Text Costs More Tokens in LLMs
- Omar Kamali: Tokenization is Killing our Multilingual LLM Dream
- Claude Platform Docs: Pricing




