Zpět na blog
·Jan Tyl·3 min čtení

Jedna otázka vs. deset velkých benchmarků: jak moc se mini IQ test trefil?

Před pár dny jsem nejnovějším AI modelům položil jen jednu jedinou otázku — ne benchmark, ne tabulku skóre, jen jedinou intelektuální past. Po pár dnech je čas srovnat výsledek s velkými veřejnými benchmarky, které se mezi tím objevily. GPT-5.5 vede, Claude Opus 4.7 mu šlape na paty, Gemini 3.1 Pro byl největší odchylka, DeepSeek V4 Pro nejníž. Otázka, kterou by stálo za to položit každému modelu — než mu začnete věřit.

Jedna otázka vs. deset velkých benchmarků: jak moc se mini IQ test trefil?

Před pár dny jsem zkusil malý experiment: dát nejnovějším AI modelům jen jednu jedinou otázku.

Ne benchmark na stovkách úloh. Ne tabulku skóre. Jen jednu intelektuální past.

Model měl odvodit pravidla umělých funkcí mep a dap, spočítat nový případ, přiznat nejednoznačnost, navrhnout nejlepší test, který by jeho hypotézu mohl vyvrátit, a říct, čím si je nejméně jistý.

Pointa nebyla „změřit IQ" v psychologickém smyslu nebo ukázat, že klasické benchmarky jsou k ničemu.

Kdybych měl modelu položit jen jednu otázku, která co nejlépe odkryje jeho analytické myšlení, metakognici a práci s nejistotou — jaká by to byla?

Prohlédlo si to přes 50 tisíc lidí, ale podle komentářů spoustě lidí pointa unikla. A po pár dnech je zajímavé srovnat výsledek s velkými veřejnými benchmarky, které se mezi tím objevily.

📎 Pokud jste původní článek nečetli, najdete ho zde: Jedna otázka místo deseti benchmarků: mini IQ test pro nejnovější AI modely

Jak měří „inteligenci" Artificial Analysis

Artificial Analysis Intelligence Index dnes počítá inteligenci modelů jako vážený průměr čtyř oblastí:

  • Agents — 25 %
  • Coding — 25 %
  • General — 25 %
  • Scientific Reasoning — 25 %

Dohromady jde o 10 evaluačních sad: GDPval-AA, τ²-Bench Telecom, Terminal-Bench Hard, SciCode, AA-LCR, AA-Omniscience, IFBench, Humanity's Last Exam, GPQA Diamond a CritPt.

Je fér dodat, že jde o text-only anglickou evaluační sadu, takže neměří všechno — neměří třeba češtinu, multimodalitu, hlas nebo reálnou UX použitelnost.

A jak to vyšlo?

🥇 GPT-5.5 — nejjistější analytik

GPT-5.5 je podle Artificial Analysis aktuálně nahoře. GPT-5.5 xhigh má Intelligence Index 60, GPT-5.5 high 59.

To docela dobře odpovídá mému jednootázkovému testu, kde působil jako nejjistější analytik: přesný, kompaktní, matematicky ostrý.

🥈 Claude Opus 4.7 — výzkumník s metakognicí

Claude Opus 4.7 má podle Artificial Analysis 57, tedy těsně za GPT-5.5. V lidském hodnocení je ale často ještě výš — v Text Arena Overall je Claude Opus 4.7 thinking dokonce první.

To je přesně zajímavý rozdíl: GPT působí jako velmi přesný „matematický střelec", Claude jako výzkumník s lepší metakognicí, opatrností a formulací nejistoty.

🥉 Gemini 3.1 Pro — překvapení v širších benchmarcích

Gemini 3.1 Pro byl v mém jednootázkovém testu největší odchylka. V té konkrétní úloze působil méně ostře, trochu méně prioritizoval podstatné a méně dobře pracoval s nejednoznačností.

Jenže širší benchmarky ho staví výrazně výš: Artificial Analysis mu dává 57, tedy prakticky na úroveň Claude Opus 4.7. V Areně je také velmi silný — například v kreativním psaní, matematice, kódování i hard prompts se drží blízko špičky.

4. DeepSeek V4 Pro — silný, ale ne na špičce

DeepSeek V4 Pro vyšel v mém testu jako nejníž z této čtveřice — rychlý, bystrý, schopný pattern recognition, ale méně rigorózní v přesnosti, testování a práci s nejistotou.

To se podle benchmarků potvrdilo nejvíc. Artificial Analysis mu dává 52, tedy pod GPT-5.5, Claude i Gemini. Zároveň je důležité říct, že to není „hloupý model" — naopak je to velmi silný open-weights model, jen v této elitní skupině není na špičce.

Takže jak moc se ta jedna otázka trefila?

Podle mě překvapivě dobře.

Netrefila hlavně to, jak podhodnotila Gemini. Ale trefila hlavní strukturu:

  1. GPT-5.5 a Claude jsou špička.
  2. DeepSeek V4 Pro je z této čtveřice nejhorší.
  3. Rozdíl mezi modely není jen v tom, jestli spočítají výsledek, ale jestli umí přiznat nejistotu, hledat proti-příklad a nezaměnit elegantní domněnku za důkaz.

A to byl přesně cíl.

Nešlo mi o „nový benchmark". Šlo mi o lakmusový papírek inteligence: jednu otázku, která model donutí ukázat nejen výpočet, ale i způsob myšlení.

A tady se ukázalo něco docela povzbudivého:

Jedna dobře navržená otázka benchmarky nenahradí. Ale může překvapivě dobře odhalit charakter modelu.

Detailní pohled — Intelligence Index k 29. 4. 2026

Zde vidíte modely v širším detailu — kompletní rozpis Intelligence Indexu napříč hlavními poskytovateli (k 29. 4. 2026):

Intelligence Index k 29. 4. 2026 — kompletní srovnání modelů GPT-5.5, Claude Opus 4.7, Gemini 3.1 Pro, DeepSeek V4 Pro a dalších v testovacích sadách Artificial Analysis


Který model teď dává nejlepší výsledky vám? Jste spíš tým GPT, nebo tým Claude? Napište mi do komentářů!

#UmeleInteligence #LLM #ChatGPT #Claude #TechTrendy #Alphai

Související články