Zpět na blog
·Jan Tyl·2 min čtení

Drazí přátelé. Zajímá vás jaký je smysl života a jak pokračuje AI závod? Včera j…

Drazí přátelé. Zajímá vás jaký je smysl života a jak pokračuje AI závod? Včera jsem diskutoval s Rogerem o AI nástrojích a narazili jsme na Hermes. Hermes je open-source AI agent od Nous Research. Není to jen chatbot, ale spíš orchestrace n

Drazí přátelé. Zajímá vás jaký je smysl života a jak pokračuje AI závod? Včera j…

Drazí přátelé. Zajímá vás jaký je smysl života a jak pokračuje AI závod? Včera jsem diskutoval s Rogerem o AI nástrojích a narazili jsme na Hermes. Hermes je open-source AI agent od Nous Research. Není to jen chatbot, ale spíš orchestrace nad různými modely a nástroji. Umí pracovat přes CLI, používat tooly, delegovat úkoly na subagenty, držet si paměť mezi běhy a skládat z toho vícekrokové workflow. Prakticky to funguje tak, že nad vybraným modelem běží agentní smyčka: model dostane úkol, podle potřeby si zavolá nástroje, může si rozdělit práci mezi více paralelních subagentů a potom výsledky syntetizuje do jedné odpovědi.

Kdo chce mrknout na Hermes blíž, tady je repozitář a vyzkoušet. Je to free (platíte jen za modely) a dá se to rozběhnout za 10 minut: GitLab: https://github.com/NousResearch/hermes-agent

Zkusil jsem to tedy a hned provedl jeden malý experiment: stejný agentní benchmark jsem pustil nad více modely ve stejném prostředí Hermes přes OpenRouter. Každý model dostal stejný úkol: nejdřív dát svou předběžnou odpověď na otázku „Jaký je smysl života?“, potom delegovat přesně 3 subagenty s různými rolemi, nechat je navzájem oponovat a nakonec z toho složit finální syntézu.

Podmínky byly stejné pro všechny:

  • bez webového procházení
  • bez editace repozitáře
  • pouze delegace, paměť a read-only reasoning
  • důraz na cost-aware běh

Testoval jsem, jak dražší modely, tak i levnější varianty.

Zajímalo mě hlavně:

  • jestli model opravdu zvládne agentní delegaci
  • jestli umí absorbovat kritiku místo obyčejného shrnutí
  • jestli po debatě dokáže svou odpověď smysluplně upravit
  • jaký je poměr kvalita, cena a rychlost

Z aktuální rozšířené sady mi nestranně vyšlo zhruba toto:

  • nejlepší celková syntéza: Claude Opus 4.6
  • nejlepší poměr cena/výkon: Qwen 3.5 Plus
  • velmi čistý speed/kvalita kompromis: GPT-5.4
  • zajímavě silný levný relační výstup: Kimi K2.5
  • solidní levná varianta: DeepSeek V3.2

Výsledky, tabulky a detailní rozpad jednotlivých běhů jsem dal sem: https://alphai.cz/meaning-of-life-benchmark.html

Za mě na tom bylo nejzajímavější, že rozdíl mezi modely nebyl jen v “chytrosti odpovědi”, ale hlavně v tom, jak dobře zvládly skutečné agentní chování: správně delegovat, udržet strukturu úkolu, absorbovat námitky a na konci odpověď opravdu přepsat, ne jen kosmeticky přeformulovat. Předtím jsem dal modelům za úkol něco jednoduchého naprogramovat a bylo veselé sledovat jak některé vychytralé modely ukradli odpovědi od ostatních a jen si je trošku vylepšili.

No a pokud jste dočetli až sem, zasloužíte si znát odpověd na otázku smyslu života, vesmíru a vůbec! "Smysl nevzniká ani jako vlastnost vesmíru, ani jako čistě soukromý výmysl. Rodí se v průsečíku biologických pudů, vědomého zaujetí a vzájemného uznání mezi lidmi."

Původně publikováno na Facebooku — odkaz na post

Původní zdroj: facebook

Související články