Liebe Freunde. Interessiert Sie, was der Sinn des Lebens ist und wie der KI-Wettlauf weitergeht? Gestern habe ich…
Liebe Freunde. Interessiert Sie, was der Sinn des Lebens ist und wie der KI-Wettlauf weitergeht? Gestern habe ich mit Roger über KI-Tools diskutiert und wir sind auf Hermes gestoßen. Hermes ist ein Open-Source-KI-Agent von Nous Research. Es ist nicht nur ein Chatbot, sondern eher eine Orchestrierung über verschiedene Modelle und Tools.

Liebe Freunde. Interessiert Sie, was der Sinn des Lebens ist und wie der KI-Wettlauf weitergeht? Gestern habe ich mit Roger über KI-Tools diskutiert und wir sind auf Hermes gestoßen. Hermes ist ein Open-Source-KI-Agent von Nous Research. Es ist nicht nur ein Chatbot, sondern eher eine Orchestrierung über verschiedene Modelle und Tools. Er kann über CLI arbeiten, Tools verwenden, Aufgaben an Subagenten delegieren, sich zwischen den Durchläufen an Erinnerungen halten und daraus mehrstufige Workflows erstellen. Praktisch funktioniert es so, dass über dem ausgewählten Modell eine Agentenschleife läuft: Das Modell erhält eine Aufgabe, ruft bei Bedarf Tools auf, kann die Arbeit auf mehrere parallele Subagenten aufteilen und schließlich die Ergebnisse zu einer Antwort synthetisieren.
Wer einen genaueren Blick auf Hermes werfen möchte, hier ist das Repository, um es auszuprobieren. Es ist kostenlos (man zahlt nur für die Modelle) und kann in 10 Minuten gestartet werden: GitLab: https://github.com/NousResearch/hermes-agent
Ich habe es also ausprobiert und gleich ein kleines Experiment durchgeführt: Den gleichen Agenten-Benchmark habe ich über mehrere Modelle in derselben Hermes-Umgebung über OpenRouter laufen lassen. Jedes Modell erhielt die gleiche Aufgabe: Zuerst sollte es seine vorläufige Antwort auf die Frage „Was ist der Sinn des Lebens?“ geben, dann genau 3 Subagenten mit unterschiedlichen Rollen delegieren, sie gegeneinander argumentieren lassen und schließlich eine finale Synthese daraus erstellen.
Die Bedingungen waren für alle gleich:
- kein Web-Browsing
- keine Bearbeitung des Repositories
- nur Delegation, Gedächtnis und read-only reasoning
- Fokus auf kosteneffizienten Betrieb
Ich habe sowohl teurere Modelle als auch günstigere Varianten getestet.
Mich interessierte vor allem:
- ob das Modell wirklich Agenten-Delegation bewältigen kann
- ob es Kritik absorbieren kann, anstatt nur eine einfache Zusammenfassung zu liefern
- ob es nach der Debatte seine Antwort sinnvoll anpassen kann
- wie das Verhältnis von Qualität, Preis und Geschwindigkeit ist
Aus dem aktuellen erweiterten Set ergab sich objektiv etwa Folgendes:
- beste Gesamtsynthese: Claude Opus 4.6
- bestes Preis-Leistungs-Verhältnis: Qwen 3.5 Plus
- sehr guter Kompromiss zwischen Geschwindigkeit und Qualität: GPT-5.4
- interessant starkes günstiges relationales Ergebnis: Kimi K2.5
- solide günstige Variante: DeepSeek V3.2
Die Ergebnisse, Tabellen und eine detaillierte Aufschlüsselung der einzelnen Durchläufe habe ich hier veröffentlicht: https://alphai.cz/meaning-of-life-benchmark.html
Für mich war das Interessanteste, dass der Unterschied zwischen den Modellen nicht nur in der „Intelligenz der Antwort“ lag, sondern vor allem darin, wie gut sie echtes agentenhaftes Verhalten bewältigten: richtig delegieren, die Struktur der Aufgabe aufrechterhalten, Einwände absorbieren und am Ende die Antwort wirklich umschreiben, nicht nur kosmetisch umformulieren. Zuvor hatte ich den Modellen die Aufgabe gegeben, etwas Einfaches zu programmieren, und es war amüsant zu beobachten, wie einige schlaue Modelle Antworten von anderen stahlen und sie nur ein wenig verbesserten.
Und wenn Sie bis hierher gelesen haben, verdienen Sie es, die Antwort auf die Frage nach dem Sinn des Lebens, des Universums und überhaupt zu erfahren! „Der Sinn entsteht weder als Eigenschaft des Universums noch als rein privater Einfall. Er entsteht im Schnittpunkt biologischer Triebe, bewusster Interessen und gegenseitiger Anerkennung zwischen Menschen.“
Ursprünglich veröffentlicht auf Facebook — Link zum Post
Původní zdroj: facebook