Blog
Nejstarší blog o AI v Česku
Píšeme o umělé inteligenci od roku 2017. 1000+ článků, tisíce stran myšlenek, experimentů a reflexí. Bez senzací, bez reklam.
Filtrovat články▼
Filtr tagu: Claude Opus 4.7 × zrušit
▸Procházet podle témat
Témata
Zobrazeno 2 z 2 článků

Jedna otázka vs. deset velkých benchmarků: jak moc se mini IQ test trefil?
Před pár dny jsem nejnovějším AI modelům položil jen jednu jedinou otázku — ne benchmark, ne tabulku skóre, jen jedinou intelektuální past. Po pár dnech je čas srovnat výsledek s velkými veřejnými benchmarky, které se mezi tím objevily. GPT-5.5 vede, Claude Opus 4.7 mu šlape na paty, Gemini 3.1 Pro byl největší odchylka, DeepSeek V4 Pro nejníž. Otázka, kterou by stálo za to položit každému modelu — než mu začnete věřit.
Číst
Jedna otázka místo deseti benchmarků: mini IQ test pro nejnovější AI modely
Vzal jsem nejnovější top modely AI a místo nekonečných benchmarků jim dal jedinou „geniální“ otázku: odhalit skryté pravidlo, spočítat nový případ, přiznat nejednoznačnost, navrhnout falsifikační test a zkritizovat vlastní řešení. Výsledek? Špička dnes vychází zhruba v pásmu 120–135+ IQ-dojmu — ale rozdíl už nedělá co modely vědí, ale jak čistě dokážou myslet pod tlakem.
Číst