Doba u kojem je postojao "najbolji AI model" je prošlo. U svibnju 2026. nema jednog pobjednika — postoji pobjednik po zadatku. Anthropicov Opus 4.8, OpenAI-jev GPT-5.5 i Googleov Gemini 3.5 Flash ne natječu se više za istu krunu; svaki je optimiziran za drugačiji posao.

Pa umjesto pitanja "koji je najbolji?", korisnije je pitati: "najbolji za što?"

Gdje Opus 4.8 vodi

Claude Opus 4.8 dominira ondje gdje zadatak traje dugo, ima mnogo koraka i traži da model sam pazi na sebe.

  • Agentsko kodiranje: SWE-Bench Pro 69,2 % naspram 58,6 % za GPT-5.5 — uvjerljiva razlika.
  • Korištenje računala i preglednika: 84 % na Online-Mind2Web, najbolji rezultat među testiranim modelima; OSWorld-Verified 83,4 % naspram 78,7 % kod prethodnika.
  • Korištenje alata (MCP-Atlas): 82,2 % naspram 75,3 %.
  • Dugi, složeni zadaci: na Super-Agent benchmarku Opus 4.8 jedini je model koji je sve slučajeve doveo do kraja, uz pariranje GPT-5.5 po trošku.
Pobjednik po kategoriji: kodiranje i agenti idu Opusu, terminal GPT-u, brzina i cijena Geminiju Tko vodi po kategoriji Opus 4.8 GPT-5.5 Gemini Agentsko kodiranje Računalo i preglednik Terminal (Codex) Brzina odgovora Cijena po tokenu Pojednostavljeno; rezultati ovise o testu i alatu (harness). Izvori: Anthropic, nezavisni benchmarci 2026.

Praktično: kad treba refaktorirati kod kroz cijeli projekt, voditi istraživanje koje traje, ili analizu u kojoj je presudno da model uhvati vlastitu pogrešku — Opus je prvi izbor.

Gdje GPT-5.5 i dalje pobjeđuje

Claude nije osvojio sve. Za rad u terminalu GPT-5.5 ostaje jači — vodi na Terminal-Bench 2.1 s 78,2 % na javnom Terminus-2 testu, a čak 83,4 % pod vlastitim Codex CLI alatom.

Drugim riječima, ako vam je radni tok izgrađen oko OpenAI-jevog Codexa i komandne linije, prelazak na Claude neće automatski donijeti bolje rezultate. Alat oko modela ovdje je važan koliko i sam model.

Gdje Gemini mijenja pravila

Google se ne bori za prvo mjesto na benchmarcima zaključivanja — bori se na osi brzine i cijene, i ondje je bespoštedan. Gemini 3.5 Flash isporučuje preko 280 tokena u sekundi, otprilike četiri puta brže od usporedivih vrhunskih modela, uz djelić cijene.

A nije ni glup: oko 55 bodova na nezavisnom Artificial Analysis indeksu, unutar dva boda od Opusa 4.7. Za zadatke velikog obujma gdje je "dovoljno dobro i brzo" vrednije od "savršeno i sporo", Flash je teško pobijediti.

Kako odabrati

Pravilo palca za 2026.:

  • Dug, višekoračan, agentski posao (migracije koda, istraživanje, analiza s provjerom) → Opus 4.8.
  • Terminal i Codex radni tok → GPT-5.5.
  • Velik obujam, niska cijena, brzina → Gemini 3.5 Flash.

Trka modela počela je nalikovati alatima u kutiji: ne pitate je li čekić bolji od odvijača, nego što vam treba. Opus 4.8 je trenutno najjači "teški alat" za složene, samostalne zadatke — ali pametan korisnik drži više modela pri ruci i bira prema poslu, ne prema imenu na kutiji.


Izvori i dodatno čitanje