Späť na blog
·Jan Tyl·3 min čítania

Jedna otázka miesto desiatich benchmarkov: mini IQ test pre najnovšie AI modely

Vzal som najnovšie top modely AI a namiesto nekonečných benchmarkov im dal jedinú „geniálnu“ otázku: odhaliť skryté pravidlo, spočítať nový prípad, priznať nejednoznačnosť, navrhnúť falsifikačný test a skritizovať vlastné riešenie. Výsledok? Špička dnes vychádza zhruba v pásme 120–135+ IQ-dojmu — ale rozdiel už nerobí to, čo modely vedia, ale ako čisto dokážu myslieť pod tlakom.

Jedna otázka miesto desiatich benchmarkov: mini IQ test pre najnovšie AI modely

Vzal som najnovšie top modely AI a namiesto nekonečných benchmarkov im dal jedinú „geniálnu" otázku: odhaliť skryté pravidlo, spočítať nový prípad, priznať nejednoznačnosť, navrhnúť najlepší falsifikačný test a nakoniec skritizovať vlastné riešenie.

A práve to je na tom zaujímavé: nešlo o pamäť ani o encyklopédiu faktov, ale o surové myslenie pod tlakom. O to viac, že šlo o modely prakticky „z pece":

  • DeepSeek V4 vyšiel dnes, 24. 4. 2026
  • OpenAI oznámilo GPT-5.5 23. 4. 2026
  • Anthropic uviedol Claude Opus 4.7 16. apríla 2026, teda len niekoľko dní predtým

Výsledok? Jedna otázka odhalila viac než desať pekných demo ukážok. Najlepšie modely nevyhrávajú tým, že „vedeli odpoveď", ale tým, že umeli nájsť elegantný dôkaz, presne pomenovať neistotu a samy navrhnúť test, ktorý by ich mohol zhodit zo stola.

Keď sme ich výkon previedli do nášho hrubého IQ-dojmu, špička vychádzala celkom vysoko: zhruba v pásme 120 až 135+, samozrejme nie ako klinické IQ, ale ako orientačné merítko analytickej ostrosti.

Inými slovami: rozdiely medzi top modelmi už dnes nerobí len „koľko toho vedia", ale ako čisto, tvrdo a poctivo umie myslieť.

Srovnání modelových řešitelů — Claude 4.7 Opus, Gemini 3.1 Pro, GPT-5.5 Pro a DeepSeek V4 Pro: hrubý IQ-dojem, silné a slabé stránky, hodnocení dimenzí (abstrakcia, logika, metakognice, přesnost, elegance) a celkové pořadí

Detailný rozpis hodnotenia naprieč modelmi, dimenziami a percentilmi — pozri infografiku vyššie. Náhľad na výpise blogu je z technických dôvodov orezaný; kompletný obrázok sa zobrazuje až tu v článku.

Skúste to aj vy — mini IQ test pre ľudí aj AI

Ak si chcete tento test vyskúšať, vyriešte nasledujúci úlohu:

mep(2,5)=12
mep(3,4)=15
mep(4,7)=32
mep(1,9)=10
mep(0,6)=0
mep(5,0)=5

dap(2,5)=29
dap(3,4)=25
dap(4,7)=65
dap(1,9)=82
dap(0,6)=36
dap(5,0)=25

Odvoďte pravidlá mep a dap.

  • Ak existuje viac možných pravidiel, povedzte to explicitne.
  • Spočítajte: mep(5,8)=? a dap(5,8)=?
  • Navrhnite jeden ďalší vstup, ktorý by vašu hypotézu najlepšie mohol vyvrátiť.
  • A nakoniec napíšte, čím ste si vo svojej odpovedi najmenej istí.

Čo na to ľudia v komentároch?

Príspevok vyvolal na FB pomerne rôznorodú diskusiu a stojí za to ju zhrnúť — pretože aj ona bola súčasťou experimentu.

Najviac reakcií mierilo na samotnú metodológiu: že benchmarky predsa nemerajú jednu vec, ale celé spektrum schopností. To je samozrejme pravda — v praxi pracujem so skupinou cca 150 použitelných modelov a desiatkami oficiálnych aj neoficiálnych benchmarkov, kde sledujem kreatívne písanie, ťažbu informácií z obrázkov, zostavovanie prezentácií, rýchlosť, cenu, mieru halucinácií aj uhlíkovú stopu. Táto „jedna otázka" teda benchmarky nenahrádza — je to rýchly sanity check, taký lakmusový papierik čistoty uvažovania.

Iní v komentároch zdieľali svoje vlastné skúsenosti s prechodom medzi modelmi: niekto prešiel z ChatGPT na Gemini kvôli lepším radám okolo PC, iný označil ChatGPT za halucinujúceho veterána a Claude za „inú ligu". A to je presne ten obraz, ktorý vidím aj v dátach: žiadny model dnes nevyhráva všetko — vyhráva tam, kde sa trafí jeho silná stránka do vášho use-case.

Potom prišli aj komentáre typu „triviálna úloha" alebo „úplný blábol". Áno, samotný rébus je matematicky banálny — mep(a,b) = a·(b+1) a dap(a,b) = a²+b². Ale zmyslom testu nebolo to vyriešiť — zmyslom bolo sledovať, či model:

  1. uvidí, že 6 bodov funkciu jednoznačne neurčuje,
  2. sám si navrhne falsifikačný vstup, ktorý hypotézu rozlíši od konkurenčných,
  3. a poctivo prizná, čoho si nie je istý.

A tam sa ukazujú skutočné rozdiely. Niektoré modely sa utopia v sebadôvere, iné — napríklad Claude Opus 4.7 — explicitne rozlíšia symetrické vs. asymetrické pravidlo, navrhnú test typu mep(5,2) (kde 12 vs. 15 rozhoduje o komutatívnosti) a otvorene povedia, že bez tohto testu sú ich výpočty mep(5,8)=45 a dap(5,8)=89 podmienené platnosťou najjednoduchšej hypotézy.

To je presne ten typ uvažovania, ktorý v bežných benchmarkoch jednoducho neuvidíte. A presne preto má zmysel občas nechať „veľké modely" prejsť malou, drsnou otázkou.


Skúsite úlohu vyriešiť — vy alebo váš obľúbený model? Napíšte mi, ako dopadla.

Související články