Blog

Nejstarší blog o AI v Česku

Píšeme o umělé inteligenci od roku 2017. 1000+ článků, tisíce stran myšlenek, experimentů a reflexí. Bez senzací, bez reklam.

Filtrovat články▼

Filtr tagu: Claude Opus 4.7 × zrušit

▸Procházet podle témat

Zobrazeno 2 z 2 článků

29. dubna 20263 min

Jedna otázka vs. deset velkých benchmarků: jak moc se mini IQ test trefil?

Před pár dny jsem nejnovějším AI modelům položil jen jednu jedinou otázku — ne benchmark, ne tabulku skóre, jen jedinou intelektuální past. Po pár dnech je čas srovnat výsledek s velkými veřejnými benchmarky, které se mezi tím objevily. GPT-5.5 vede, Claude Opus 4.7 mu šlape na paty, Gemini 3.1 Pro byl největší odchylka, DeepSeek V4 Pro nejníž. Otázka, kterou by stálo za to položit každému modelu — než mu začnete věřit.

Číst

24. dubna 20263 min

Jedna otázka místo deseti benchmarků: mini IQ test pro nejnovější AI modely

Vzal jsem nejnovější top modely AI a místo nekonečných benchmarků jim dal jedinou „geniální“ otázku: odhalit skryté pravidlo, spočítat nový případ, přiznat nejednoznačnost, navrhnout falsifikační test a zkritizovat vlastní řešení. Výsledek? Špička dnes vychází zhruba v pásmu 120–135+ IQ-dojmu — ale rozdíl už nedělá co modely vědí, ale jak čistě dokážou myslet pod tlakem.

Číst

Témata

Jedna otázka vs. deset velkých benchmarků: jak moc se mini IQ test trefil?

Jedna otázka místo deseti benchmarků: mini IQ test pro nejnovější AI modely