Späť na blog
·Jan Tyl·2 min čítania

Drahí priatelia. Zaujíma vás aký je zmysel života a ako pokračuje AI závod? Včera j…

Drahí priatelia. Zaujíma vás aký je zmysel života a ako pokračuje AI závod? Včera som diskutoval s Rogerom o AI nástrojoch a narazili sme na Hermes. Hermes je open-source AI agent od Nous Research. Nie je to len chatbot, ale skôr orchestrácia n

Drahí priatelia. Zaujíma vás aký je zmysel života a ako pokračuje AI závod? Včera j…

Drahí priatelia. Zaujíma vás aký je zmysel života a ako pokračuje AI závod? Včera som diskutoval s Rogerom o AI nástrojoch a narazili sme na Hermes. Hermes je open-source AI agent od Nous Research. Nie je to len chatbot, ale skôr orchestrácia nad rôznymi modelmi a nástrojmi. Vie pracovať cez CLI, používať nástroje, delegovať úlohy na subagentov, udržiavať si pamäť medzi behmi a skladať z toho viackrokové workflow. Prakticky to funguje tak, že nad vybraným modelom beží agentná slučka: model dostane úlohu, podľa potreby si zavolá nástroje, môže si rozdeliť prácu medzi viac paralelných subagentov a potom výsledky syntetizuje do jednej odpovede.

Kto chce mrknúť na Hermes bližšie, tu je repozitár a môžete to vyskúšať. Je to zadarmo (platíte len za modely) a dá sa to rozbehnúť za 10 minút: GitLab: https://github.com/NousResearch/hermes-agent

Skúsil som to teda a hneď vykonal jeden malý experiment: rovnaký agentný benchmark som pustil nad viacerými modelmi v rovnakom prostredí Hermes cez OpenRouter. Každý model dostal rovnakú úlohu: najprv dať svoju predbežnú odpoveď na otázku „Aký je zmysel života?“, potom delegovať presne 3 subagentom s rôznymi rolami, nechať ich navzájom oponovať a nakoniec z toho zložiť finálnu syntézu.

Podmienky boli rovnaké pre všetkých:

  • bez webového prehľadávania
  • bez editácie repozitára
  • iba delegácia, pamäť a read-only reasoning
  • dôraz na cost-aware beh

Testoval som, ako drahšie modely, tak aj lacnejšie varianty.

Zaujímalo ma hlavne:

  • či model naozaj zvládne agentnú delegáciu
  • či vie absorbovať kritiku namiesto obyčajného zhrnutia
  • či po debate dokáže svoju odpoveď zmysluplne upraviť
  • aký je pomer kvalita, cena a rýchlosť

Z aktuálnej rozšírenej sady mi nestranne vyšlo zhruba toto:

  • najlepšia celková syntéza: Claude Opus 4.6
  • najlepší pomer cena/výkon: Qwen 3.5 Plus
  • veľmi čistý speed/kvalita kompromis: GPT-5.4
  • zaujímavo silný lacný relačný výstup: Kimi K2.5
  • solídna lacná varianta: DeepSeek V3.2

Výsledky, tabuľky a detailný rozpad jednotlivých behov som dal sem: https://alphai.cz/meaning-of-life-benchmark.html

Za mňa na tom bolo najzaujímavejšie, že rozdiel medzi modelmi nebol len v “chytrosti odpovede”, ale hlavne v tom, ako dobre zvládli skutočné agentné správanie: správne delegovať, udržať štruktúru úlohy, absorbovať námietky a na konci odpoveď naozaj prepisovať, nie len kozmeticky preformulovať. Predtým som dal modelom za úlohu niečo jednoduché naprogramovať a bolo veselé sledovať, ako niektoré vychytralé modely ukradli odpovede od ostatných a len si ich trošku vylepšili.

No a ak ste dočítali až sem, zaslúžite si poznať odpoveď na otázku zmyslu života, vesmíru a vôbec! "Zmysel nevzniká ani ako vlastnosť vesmíru, ani ako čistý súkromný výmysel. Rodí sa v priesečníku biologických pudov, vedomého zaujatí a vzájomného uznania medzi ľuďmi."

Pôvodne publikované na Facebooku — odkaz na post

Původní zdroj: facebook

Související články