Blog
Najstarší blog o AI v Českej republike
Píšeme o umelej inteligencii od roku 2017. 1000+ článkov, tisíce strán myšlienok, experimentov a reflexií. Bez senzácií, bez reklám.
Filter tagu: AI modely × zrušiť
▸Prechádzať podľa tém
Témy
Zobrazené 2 z 2 článkov

Jedna otázka vs. desať veľkých benchmarkov: ako veľmi sa mini IQ test trafil?
Pred pár dňami som najnovším AI modelom položil len jednu jedinú otázku — ani benchmark, ani tabuľku skóre, len jedinú intelektuálnu pascu. Po pár dňoch je čas porovnať výsledok s veľkými verejnými benchmarkmi, ktoré sa medzitým objavili. GPT-5.5 vedie, Claude Opus 4.7 mu šliape na päty, Gemini 3.1 Pro bol najväčšia odchýlka, DeepSeek V4 Pro najnižšie. Otázka, ktorú by stálo za to položiť každému modelu — skôr než mu začnete veriť.
Čítať
Jedna otázka miesto desiatich benchmarkov: mini IQ test pre najnovšie AI modely
Vzal som najnovšie top modely AI a namiesto nekonečných benchmarkov im dal jedinú „geniálnu“ otázku: odhaliť skryté pravidlo, spočítať nový prípad, priznať nejednoznačnosť, navrhnúť falsifikačný test a skritizovať vlastné riešenie. Výsledok? Špička dnes vychádza zhruba v pásme 120–135+ IQ-dojmu — ale rozdiel už nerobí to, čo modely vedia, ale ako čisto dokážu myslieť pod tlakom.
Čítať