ZurĂŒck zum Blog
·Jan Tyl·6 min Lesezeit

🔁 GPT‑5 ist da!

🔁 GPT‑5 ist da! 🧠 TL;DR: OpenAI hat heute GPT‑5 gestartet. In ChatGPT wird es schrittweise zum Standardmodell fĂŒr Free, Plus, Pro, Team und Enterprise und ist in der API als gpt‑5 / gpt‑5‑mini / gpt‑5‑nano verfĂŒgbar. Neu ist der „Router“, der automatisch

🔁 GPT‑5 ist da!

🔁 GPT‑5 ist da!

🧠 TL;DR: OpenAI hat heute GPT‑5 gestartet. In ChatGPT wird es schrittweise zum Standardmodell fĂŒr Free, Plus, Pro, Team und Enterprise und ist in der API als gpt‑5 / gpt‑5‑mini / gpt‑5‑nano verfĂŒgbar. Neu ist der „Router“, der automatisch zwischen dem schnellen und dem „thinking“ Modus je nach Aufgabe wechselt; der Benutzer kann auch explizit sagen: „think hard about this“. Die Halluzinationen in medizinischen Szenarien sinken deutlich (auf 1,6 % bei HealthBench Hard Hallucinations). Im Codieren erreicht es 74,9 % bei SWE‑bench Verified. Der Rollout erfolgt weltweit, schrittweise.

🔍 Was genau bringt GPT‑5? GPT‑5 ist nicht einfach nur ein „grĂ¶ĂŸeres GPT‑4“. Es ist eine Kombination mehrerer wesentlicher Verbesserungen: Einheitliches System + „Router“ GPT‑5 ist ein einheitliches System, das ein schnelles „smart“ Modell, ein tieferes „reasoning“ Modell und einen Router kombiniert, der in Echtzeit entscheidet, was fĂŒr die jeweilige Anfrage am besten ist (und auch berĂŒcksichtigt, wenn du etwas wie „think hard about this“ schreibst). Bei Erreichen der Grenzen wechselt es auf die „mini“ Version.

✅ Genauigkeit und weniger Halluzinationen Weniger Halluzinationen in der Medizin - Bei HealthBench Hard Hallucinations zeigt gpt‑5‑thinking eine Fehlerquote von 1,6 % (im Vergleich zu 12,9 % bei GPT‑4o und 15,8 % bei o3). In NotfĂ€llen und bei globaler Gesundheit sind die Fehler ebenfalls dramatisch niedriger. Hinweis: Dies ist keine universelle „Halluzinationsrate“, sondern eine spezifische hochriskante Reihe medizinischer Szenarien. (HealthBench).

Deutliche Reduzierung im Vergleich zu frĂŒheren Modellen.

✅ Codierung und Agentenarbeit

SWE‑bench Verified: 74,9 % (1. Versuch). Aider Polyglot (Code-Bearbeitung): 88 % (SOTA). τÂČ‑bench (Telekommunikationswerkzeugnutzung): 96,7 %, deutliche Verbesserung beim Kettensetzen von Werkzeugen und Robustheit. Nicht nur Code-Generierung, sondern auch Fehlererkennung, Planung, End-to-End-Bauten. Die Leistung wurde bei gĂ€ngigen Technologien (Web, Backend, Datenbanken) bestĂ€tigt. 🔎 Quelle: OpenAI, TechCrunch

✅ WissensfĂ€higkeiten OpenAI gibt SOTA 88,4 % bei GPQA (Diamond) fĂŒr die Variante mit erweitertem „thinking“ Modus an. (Einige Medien berichten von leicht unterschiedlichen Werten, abhĂ€ngig von den Einstellungen und „mit Werkzeugen“ vs. ohne Werkzeuge.)

GPT-5 89,4 % im GPQA-Test (PhD-Wissen). Claude Opus: 80,9 % | Grok 4: 88,9 %. 🔎 Quelle: Axios

✅ Langer Kontext GPT‑5 kann bis zu 256.000 Tokens verarbeiten, ohne an Genauigkeit zu verlieren. In ChatGPT hat der Kontextlimit bis zu 128k Tokens fĂŒr Pro/Enterprise, 32k fĂŒr Plus/Team und 8k in Free. FĂŒr die API (gpt‑5/mini/nano) gibt OpenAI 256k als KontextgrĂ¶ĂŸe im ProduktĂŒberblick an, und im Entwicklerbeitrag auch eine technische Obergrenze von bis zu 272k Eingaben + 128k Ausgaben = ~400k insgesamt (abhĂ€ngig von der Variante/Modellkarte). Praktisch bedeutet dies deutlich lĂ€ngere Eingaben und Ausgaben als zuvor.

✅ Adaptives „Routing“-System Automatisches Umschalten zwischen Modellen je nach Aufgabentyp (E-Mails vs. Analysen). 🔎 Quelle: The Verge

✅ Neue Funktionen fĂŒr Entwickler In der API wurden Parameter fĂŒr verbosity (kurze vs. lange Antworten) und reasoning_effort (Tiefe des Denkens) hinzugefĂŒgt, sowie benutzerdefinierte Werkzeuge (Werkzeugaufrufe auch ohne striktes JSON).

🎯 Das Ergebnis ist eine KI, die den Intent besser versteht, plant, erklĂ€rt und reagiert wie ein erfahrener Spezialist.

✅ Neuigkeiten in ChatGPT OpenAI hat in ChatGPT auch voreingestellte „Persönlichkeiten“ (Zyniker, Roboter, Zuhörer, Nerd) eingefĂŒhrt. Aus der Sicht der Benutzer soll GPT‑5 „intelligenter, schneller und nĂŒtzlicher“ sein und wird schrittweise zum Standardmodell fĂŒr alle Benutzer.

💬 Was sagen die Benutzer? 🧠 Reaktionen aus den Communities (Reddit, Early Access, Entwickler):

đŸ”č „Der Unterschied zwischen GPT‑4 und 5 ist visuell nicht ĂŒberwĂ€ltigend. Aber es korrigiert Code prĂ€zise und ohne Unsinn. Das verĂ€ndert das Spiel.“ – u/embeddedwizard

đŸ”č „Claude 4.1 ist stabiler bei umfangreichen Projekten. Aber GPT‑5 versteht den Kontext besser.“ – u/datadevtools

đŸ”č „GPT‑5 hat die niedrigste Halluzinationsrate, die ich je gesehen habe.“ – u/ai_benchmark_bot

đŸ”č „Es erinnert sich an Dinge von 10 Seiten zurĂŒck und verwendet sie elegant. Das ist ein Niveau, das wir bisher nicht gesehen haben.“ – u/langchainlover

đŸ§Ș Übersicht der Benchmarks Bereich GPT‑5 Claude 4.1 Grok 4 Heavy SWE‑bench (Codierung) 74,9 % 74,5 % – GPQA (wissenschaftliches Wissen) 89,4 % 80,9 % 88,9 % Humanity’s Last Exam 42 % – 44,4 % HealthBench (Halluzinationen) 1,6 % – –

📚 Quelle: OpenAI, Reddit /r/singularity, TechCrunch

🚀 Was bedeutet das fĂŒr Unternehmen? GPT‑5 ist kein technisches Spielzeug. FĂŒr das Business bringt es konkrete Vorteile:

đŸ›ïž Automatisierung von Inhalten Produktbeschreibungen, E-Mail-Kampagnen, Landing Pages.

Weniger Fehlerquote, schnellere EntwĂŒrfe, mehr Varianten.

🧠 Analyse von Kundenfeedback Sentiment-Detektion, Zusammenfassung von Bewertungen, VerbesserungsvorschlĂ€ge.

🧰 Softwareentwicklung Debugging in Echtzeit.

NatĂŒrliches Planen von Funktionen – sogenanntes Vibe Coding.

Integration in Entwicklungstools (z.B. Cursor, Copilot).

💰Preise und Zugang ChatGPT (verbraucherorientiert) Free: GPT‑5 als Standard (mit Limits), kĂŒrzerer Kontext. Plus (~$20/Monat): höhere Limits, 32k Kontext. Pro (~$200/Monat, Preis variiert je nach Region; in Großbritannien liegt der Preis bei ÂŁ200): Zugang zu GPT‑5 Pro und 128k Kontext, höhere Limits. Team/Enterprise Ă€hnlich.

API (Entwickler)

gpt‑5: $1.25/M Eingabetokens, $10/M Ausgabetokens. gpt‑5‑mini: $0.25/M Eingabe, $2/M Ausgabe. gpt‑5‑nano: $0.05/M Eingabe, $0.40/M Ausgabe.

Im ProduktĂŒberblick gibt OpenAI 256k Kontext fĂŒr diese Reihen an; siehe auch den detaillierten Entwicklerbeitrag zu langem Kontext und reasoning-Ausgaben.

💰Was bedeutet das praktisch fĂŒr Unternehmen?

  • Softwareentwicklung: GPT‑5 bewĂ€ltigt Planung, Multi-Tool-Kettensetzung, Fehlerbehebung und „hĂ€lt den Kurs“ auch bei langen Aufgaben besser (SWE‑bench 74,9 %; τÂČ‑bench 96,7 %).
  • Integration in Azure/GitHub Copilot/VS Code ist abgeschlossen.
  • Kundenservice und Agenten: Router + reasoning → niedrigere Kosten/Latenz fĂŒr einfache Anfragen, „thinking“ fĂŒr komplexe FĂ€lle.
  • Wissensarbeit: LĂ€ngerer Kontext → bessere Arbeit mit Dokumenten (Berichte, Due Diligence, Recherchen).
  • Gesundheit/Finanzen: Niedrigere Fehlerquote bei risikobehafteten Szenarien (aber immer noch kein Ersatz fĂŒr einen Arzt/Berater)!

💰Wie man GPT‑5 schnell testen kann (Tipps fĂŒr die Gruppe)

  1. Code → Plan → Build → Test „Entwerfe einen Migrationsplan fĂŒr Postgres 16, passe dann schrittweise den Code an und zeige Diff und Tests. Denke laut (think hard) und verwende die Werkzeuge schrittweise.“ („Thinking“-Modus festlegen und die Arbeit mit Werkzeugen verfolgen.) OpenAI

  2. Langer Kontext „Hier ist ein 150-seitiges Dokument (ich fĂŒge es als Text bei). Finde 5 Unstimmigkeiten, verlinke auf die Seiten, schlage Korrekturen vor und schreibe eine Zusammenfassung in 300 Wörtern.“ (ÜberprĂŒft die Suche nach „einer Nadel im Heuhaufen“ bei 128k/256k Eingaben.)

  3. Medizinische Anfragen (nur informativ!) „ErklĂ€re die Unterschiede zwischen Test A und B, weise darauf hin, wann es notwendig ist, einen Arzt zu kontaktieren und warum.“ (Beobachte, wie das Modell Risiken konservativ kennzeichnet.)

❓ Kontext und KlĂ€rung ❔ Was ist Humanity’s Last Exam? Ein fortgeschrittener Test, der die allgemeine Intelligenz von KI durch Fragen zu Ethik, Biologie, Geschichte und Logik ĂŒberprĂŒft – oft ohne eindeutige Antworten.

❔ Äußerung von Sam Altman ĂŒber die „Atombombe“? Stammt aus einem nicht öffentlichen Treffen an der Stanford-UniversitĂ€t.

đŸ—Żïž „GPT‑5 ist so intelligent, dass ich mich frage: Was haben wir da eigentlich erschaffen?“

💬 Es ist eine Metapher, keine Panikmeldung. Viele kritisieren es als marketingtechnischen Dramatisierung. Dennoch beschreibt es die wachsende Spannung zwischen Innovation und Regulierung. Es handelt sich eher um eine Beschreibung des Tempos und der Bedeutung von VerĂ€nderungen als um eine „Panikmeldung“.

đŸŒ± Und was ist mit der Nachhaltigkeit? GPT‑5 ist extrem rechenintensiv.

Der tÀgliche Energieverbrauch entspricht dem von zehntausenden Haushalten.

Neben Strom ist auch der Wasserverbrauch zur KĂŒhlung der Server ein Problem.

OpenAI sagt, dass es ein „Routing“-System implementiert, das kleinere Modelle verwendet, wo es ausreicht.

đŸŽ€ Abschließend (persönlich) Ich habe mich auf GPT‑5 gefreut, seit Altman zum ersten Mal „etwas Großes“ angedeutet hat. Und jetzt ist es da. Vielleicht vorerst nur auf dem Papier, aber die QualitĂ€t und die Möglichkeiten sind real.

🔧 FĂŒr Entwickler – eine neue Denkweise ĂŒber Code. 💡 FĂŒr Unternehmen – weniger Fehler, schnellere Inhalte, intelligentere UnterstĂŒtzung. 🎹 FĂŒr Kreative – tiefere Kontexte, bessere Sprache, Konsistenz.

Bonus: schnelles Vergleich (fĂŒr Grafiken/Slides)

  • SWE‑bench Verified: GPT‑5 74,9 % > Claude 4.1 74,5 % > Gemini 2.5 Pro 59,6 %. (TechCrunch)
  • GPQA (Diamond): GPT‑5 Pro 88,4 % (OpenAI).
  • HLE (mit Werkzeugen): GPT‑5 Pro 42 %, Grok 4 Heavy 44,4 %. (TechCrunch)
  • HealthBench Hard Hallucinations: 1,6 % (gpt‑5‑thinking).

UrsprĂŒnglich veröffentlicht auf Facebook — Link zum Post

PĆŻvodnĂ­ zdroj: facebook

Související články