Pred dvije godine, GPT-4 je bio nedodirljiv. Nije bilo smislene alternative za složene zadatke zaključivanja, dugačke dokumente ili višejezične zadatke. Svaki razgovor o "manjim modelima" završavao je s: "ali kvaliteta nije ni blizu."

U 2026., ta je rečenica zastarjela.

Što je zapravo "mali" model

Terminologija je relativna, ali industrija se ustalila na grubo ovim granicama: SLM (Small Language Model) je model s 1 do 15 milijardi parametara, koji može raditi lokalno na laptopima s dovoljno RAM-a ili na cloud instanceama jeftinijeg tipa.

LLM (Large Language Model) su modeli s desecima do stotinama milijardi parametara koji zahtijevaju skupu GPU infrastrukturu i tipično se koriste putem API-ja u cloudu.

Razlika u veličini bila je i razlika u kvaliteti. Više nije.

Phi-4-mini: prekretnički primjer

Microsoft-ov Phi-4-mini ima samo 3,8 milijardi parametara — manji je od modela koje ste mogli pokrenuti na gaming PC-u od prije dvije godine. Na MMLU benchmarku, koji mjeri znanje i zaključivanje kroz stotine tema, postiže 67% točnosti.

To je razina koju je GPT-4 dominirao kada je izašao 2023. Dva su se boda spojena: manji model koji se može pokrenuti lokalno sada postiže ono što je do nedavno zahtijevalo API call za model koji košta kao cloud server.

SLM vs LLM: usporedba troška, latencije i kvalitete za različite zadatke (2026.) Dimenzija SLM (1–15B) LLM (50B+) Cijena inference-a (po 1M tokena) $0,10–$0,50 ✓ $2–$30 ✗ Latencija odgovora Niska ✓ Viša Privatnost (lokalno pokretanje) Moguće ✓ Cloud only Kompleksno zaključivanje, dugački kontekst Ograničeno Izvrsno ✓ Domain-specific fine-tuning Praktično ✓ Skupo i složeno

Popularni SLM-ovi u 2026.

  • Microsoft Phi-4 / Phi-4-mini — iznenađujuće jako zaključivanje na maloj skali
  • Meta Llama 3.2 1B i 3B — open-weight, može se instalirati i koristiti lokalno
  • Google Gemma 3 — višejezični, multimodalni, dobro dokumentiran
  • Mistral Ministral 3B — optimiziran za edge uređaje
  • Alibaba Qwen3 — jak za azijske jezike, rastući ekosustav

Hibridna arhitektura: najčešći odgovor u 2026.

Ni SLM ni LLM nisu "pobjednici" — pobjeđuje hibridni model. 70–90% zahtjeva u produkcijskim sustavima ide na SLM (jeftinije, brže, dovoljno dobro za rutinske zadatke). Ostatak — složeni slučajevi, edge cases, zahtjevi koji traže duboko zaključivanje — eskalira na LLM.

Nije to zamjena, to je specijalizacija. I to je zrelost industrije koja prolazi kroz fazu u kojoj nije sve ili ništa.


Izvori i dodatno čitanje