Prompt caching i batch: legalni trikovi za prepolovljenje AI računa

Dva popusta sa službenog cjenika koje gotovo nitko ne koristi: keširanje konteksta (−90 %) i batch obrada (−50 %). Kombinirano: 5 % pune cijene.

Postoje dva popusta koja stoje na službenim cjenicima svih velikih AI proizvođača, ne traže nikakve pregovore, nikakav enterprise ugovor, nikakvog prodajnog predstavnika — i koje većina korisnika API-ja nikad ne uključi. Prvi reže cijenu ponovljenog sadržaja za 90 posto. Drugi reže sve za 50. Kombinirani, spuštaju račun na dvadesetinu.

Zovu se prompt caching i batch obrada. Ako vaša firma plaća AI po tokenima i ovo dvoje ne koristi, ovaj članak vam je najprofitabilnijih pet minuta mjeseca.

Trik prvi: ne plaćajte isti tekst dvaput

Sjetite se kako radi svaki AI poziv: uz vaše pitanje, modelu putuje i sav popratni kontekst — sistemske upute, opis posla, primjeri, dokumentacija. Kod ozbiljnih aplikacija taj fiksni dio zna imati desetke tisuća tokena. I šalje se, i naplaćuje, uz svaki poziv. Tisuću upita dnevno znači tisuću puta plaćen isti tekst.

Prompt caching to reže u korijenu: proizvođač zapamti obrađeni kontekst na svojim serverima, pa ga pri sljedećem pozivu ne obrađuje ispočetka. Cjenik je precizan: čitanje iz keša košta 10 posto normalne ulazne cijene — devedeset posto popusta. Upis u keš plaća se jednokratno nešto skuplje od običnog ulaza (1,25× za petominutni, 2× za jednosatni keš), ali već druga upotreba vraća razliku.

Tko dobiva najviše? Svatko čija aplikacija ima velik fiksni kontekst i puno poziva: chatbot korisničke podrške s opširnim uputama i bazom znanja, agent koji u svakom koraku vuče istu dokumentaciju, alat koji stotinama korisnika servira isti sistemski prompt. Za takve terete, caching tipično reže 50-80 posto ukupnog ulaznog troška — a ulaz je kod dugačkih konteksta glavnina računa.

Jedina kvaka: keš morate svjesno koristiti. Kontekst treba posložiti tako da se nepromjenjivi dio (upute, dokumentacija) nalazi na početku i bude označen za keširanje, a promjenjivi dio (korisnikovo pitanje) na kraju. Promijenite li jedan znak u keširanom dijelu, keš se ruši i plaćate novi upis. To je posao od pola dana za developera — s povratom koji se mjeri u tisućama eura godišnje.

Trik drugi: strpljenje vrijedi pola cijene

Drugi popust ne traži čak ni preslagivanje konteksta — samo strpljenje. Batch API prima velike pakete zahtjeva i obrađuje ih asinkrono, s rezultatima unutar 24 sata (u praksi često za nekoliko minuta do sati). Cijena: točno 50 posto standardne tarife, i na ulazu i na izlazu.

Logika iza popusta je poštena obostrano: proizvođač batch poslove gura u rupe između vršnih opterećenja svojih GPU klastera, pa mu njegov najskuplji resurs radi ravnomjernije — a vama vraća polovicu cijene za fleksibilnost.

Sada iskren pogled na vlastite AI poslove: koliko ih stvarno treba odgovor u sekundi? Chat s korisnikom — da. Ali noćna obrada dnevnih dokumenata, kategorizacija tisuću računa, prijevod kataloga, generiranje mjesečnih izvještaja, analiza povratnih informacija kupaca? Sve to može pričekati sat vremena — i sve to trenutno možda plaćate duplo.

I šlag: popusti se zbrajaju. Batch zahtjev s keširanim kontekstom plaća 50 posto od 10 posto — pet posto pune cijene za ulazni dio. Nije tipfeler: dvadesetinu.

Računica na stvarnom primjeru

Uzmimo konkretan, tipičan slučaj: firma ima AI podršku koja dnevno odgovori na 1.000 upita. Svaki poziv nosi 8.000 tokena fiksnog konteksta (upute + baza znanja), 200 tokena korisnikovog pitanja i 300 tokena odgovora. Model: Sonnet klasa, 3 dolara ulaz / 15 izlaz.

Bez optimizacije: 8.200 ulaznih tokena × 1.000 poziva = 8,2 milijuna ulaznih tokena dnevno, što je 24,60 dolara; plus 0,3 milijuna izlaznih za 4,50. Ukupno ~29 dolara dnevno, ~870 mjesečno.

S kešem: fiksnih 8.000 tokena ide u keš — plaćate ih po 10 posto: 2,40 umjesto 24 dolara. Novi dnevni račun: ~7 dolara, mjesečno ~210. Ušteda: 76 posto, bez ikakve promjene u kvaliteti ili brzini. Ako još i dio poslova (recimo noćnu analizu razgovora) prebacite na batch, ukupni AI trošak pada na petinu početnog.

Ista aritmetika, uzgred, objašnjava zašto neki startupi mogu nuditi AI usluge upola jeftinije od konkurencije: ne zato što imaju bolji model — nego zato što su pročitali cjenik do kraja.

Zašto ovo većina ne koristi

Otvoreno pitanje: ako je novac na stolu, zašto leži? Tri iskrena razloga iz prakse. Prvo, popusti žive u API sloju — korisnici pretplata ih ne vide, a firme koje su AI uvele "preko pretplate" nikad se ne susretnu s pojmom. Drugo, keširanje traži da netko razumije strukturu vlastitih promptova — a mnogi AI projekti su sklopljeni brzinski, bez ikoga tko ih poslije gleda. Treće, nitko ne dobiva pohvalu za smanjenje računa koji nitko ne prati; tek kad AI trošak postane vidljiva stavka, netko otvori dokumentaciju.

Zato konkretan zadatak za ovaj tjedan, u tri koraka: izvucite iz svog AI provajdera raščlambu potrošnje (svaki je nudi); pronađite udio ponovljenog konteksta u ulaznim tokenima; i pitajte developera dvije stvari — "koristimo li prompt caching?" i "koji naši poslovi mogu na batch?". Ako je odgovor na prvo "ne", upravo ste našli najbrže zarađenih 50-80 posto u firmi.

Postoji stara ekonomska izreka: na pločniku ne leže novčanice od sto dolara, jer bi ih netko već pokupio. AI cjenik 2026. je rijetka iznimka — novčanice leže, uredno dokumentirane, s uputama za podizanje. Treba se samo sagnuti.

Prompt caching i batch: legalni trikovi za prepolovljenje AI računa

Trik prvi: ne plaćajte isti tekst dvaput

Trik drugi: strpljenje vrijedi pola cijene

Računica na stvarnom primjeru

Zašto ovo većina ne koristi

Izvori i dodatno čitanje

Povezano

Koliko košta AI u 2026.? Claude, ChatGPT i Gemini za male poduzetnike

Nevidljivi računi: Kako AI agenti potroše 100 € prije nego što primijetite

Godina dana s AI agentima: Od Opusa do Fablea — što se stvarno promijenilo?

Prompt engineering: nova vještina koja vrijedi $300,000 godišnje