đ GPTâ5 ist da!
đ GPTâ5 ist da! đ§ TL;DR: OpenAI hat heute GPTâ5 gestartet. In ChatGPT wird es schrittweise zum Standardmodell fĂŒr Free, Plus, Pro, Team und Enterprise und ist in der API als gptâ5 / gptâ5âmini / gptâ5ânano verfĂŒgbar. Neu ist der âRouterâ, der automatisch

đ GPTâ5 ist da!
đ§ TL;DR: OpenAI hat heute GPTâ5 gestartet. In ChatGPT wird es schrittweise zum Standardmodell fĂŒr Free, Plus, Pro, Team und Enterprise und ist in der API als gptâ5 / gptâ5âmini / gptâ5ânano verfĂŒgbar. Neu ist der âRouterâ, der automatisch zwischen dem schnellen und dem âthinkingâ Modus je nach Aufgabe wechselt; der Benutzer kann auch explizit sagen: âthink hard about thisâ. Die Halluzinationen in medizinischen Szenarien sinken deutlich (auf 1,6 % bei HealthBench Hard Hallucinations). Im Codieren erreicht es 74,9 % bei SWEâbench Verified. Der Rollout erfolgt weltweit, schrittweise.
đ Was genau bringt GPTâ5? GPTâ5 ist nicht einfach nur ein âgröĂeres GPTâ4â. Es ist eine Kombination mehrerer wesentlicher Verbesserungen: Einheitliches System + âRouterâ GPTâ5 ist ein einheitliches System, das ein schnelles âsmartâ Modell, ein tieferes âreasoningâ Modell und einen Router kombiniert, der in Echtzeit entscheidet, was fĂŒr die jeweilige Anfrage am besten ist (und auch berĂŒcksichtigt, wenn du etwas wie âthink hard about thisâ schreibst). Bei Erreichen der Grenzen wechselt es auf die âminiâ Version.
â Genauigkeit und weniger Halluzinationen Weniger Halluzinationen in der Medizin - Bei HealthBench Hard Hallucinations zeigt gptâ5âthinking eine Fehlerquote von 1,6 % (im Vergleich zu 12,9 % bei GPTâ4o und 15,8 % bei o3). In NotfĂ€llen und bei globaler Gesundheit sind die Fehler ebenfalls dramatisch niedriger. Hinweis: Dies ist keine universelle âHalluzinationsrateâ, sondern eine spezifische hochriskante Reihe medizinischer Szenarien. (HealthBench).
Deutliche Reduzierung im Vergleich zu frĂŒheren Modellen.
â Codierung und Agentenarbeit
SWEâbench Verified: 74,9 % (1. Versuch). Aider Polyglot (Code-Bearbeitung): 88 % (SOTA). ÏÂČâbench (Telekommunikationswerkzeugnutzung): 96,7 %, deutliche Verbesserung beim Kettensetzen von Werkzeugen und Robustheit. Nicht nur Code-Generierung, sondern auch Fehlererkennung, Planung, End-to-End-Bauten. Die Leistung wurde bei gĂ€ngigen Technologien (Web, Backend, Datenbanken) bestĂ€tigt. đ Quelle: OpenAI, TechCrunch
â WissensfĂ€higkeiten OpenAI gibt SOTA 88,4 % bei GPQA (Diamond) fĂŒr die Variante mit erweitertem âthinkingâ Modus an. (Einige Medien berichten von leicht unterschiedlichen Werten, abhĂ€ngig von den Einstellungen und âmit Werkzeugenâ vs. ohne Werkzeuge.)
GPT-5 89,4 % im GPQA-Test (PhD-Wissen). Claude Opus: 80,9 % | Grok 4: 88,9 %. đ Quelle: Axios
â Langer Kontext GPTâ5 kann bis zu 256.000 Tokens verarbeiten, ohne an Genauigkeit zu verlieren. In ChatGPT hat der Kontextlimit bis zu 128k Tokens fĂŒr Pro/Enterprise, 32k fĂŒr Plus/Team und 8k in Free. FĂŒr die API (gptâ5/mini/nano) gibt OpenAI 256k als KontextgröĂe im ProduktĂŒberblick an, und im Entwicklerbeitrag auch eine technische Obergrenze von bis zu 272k Eingaben + 128k Ausgaben = ~400k insgesamt (abhĂ€ngig von der Variante/Modellkarte). Praktisch bedeutet dies deutlich lĂ€ngere Eingaben und Ausgaben als zuvor.
â Adaptives âRoutingâ-System Automatisches Umschalten zwischen Modellen je nach Aufgabentyp (E-Mails vs. Analysen). đ Quelle: The Verge
â Neue Funktionen fĂŒr Entwickler In der API wurden Parameter fĂŒr verbosity (kurze vs. lange Antworten) und reasoning_effort (Tiefe des Denkens) hinzugefĂŒgt, sowie benutzerdefinierte Werkzeuge (Werkzeugaufrufe auch ohne striktes JSON).
đŻ Das Ergebnis ist eine KI, die den Intent besser versteht, plant, erklĂ€rt und reagiert wie ein erfahrener Spezialist.
â Neuigkeiten in ChatGPT OpenAI hat in ChatGPT auch voreingestellte âPersönlichkeitenâ (Zyniker, Roboter, Zuhörer, Nerd) eingefĂŒhrt. Aus der Sicht der Benutzer soll GPTâ5 âintelligenter, schneller und nĂŒtzlicherâ sein und wird schrittweise zum Standardmodell fĂŒr alle Benutzer.
đŹ Was sagen die Benutzer? đ§ Reaktionen aus den Communities (Reddit, Early Access, Entwickler):
đč âDer Unterschied zwischen GPTâ4 und 5 ist visuell nicht ĂŒberwĂ€ltigend. Aber es korrigiert Code prĂ€zise und ohne Unsinn. Das verĂ€ndert das Spiel.â â u/embeddedwizard
đč âClaude 4.1 ist stabiler bei umfangreichen Projekten. Aber GPTâ5 versteht den Kontext besser.â â u/datadevtools
đč âGPTâ5 hat die niedrigste Halluzinationsrate, die ich je gesehen habe.â â u/ai_benchmark_bot
đč âEs erinnert sich an Dinge von 10 Seiten zurĂŒck und verwendet sie elegant. Das ist ein Niveau, das wir bisher nicht gesehen haben.â â u/langchainlover
đ§Ș Ăbersicht der Benchmarks Bereich GPTâ5 Claude 4.1 Grok 4 Heavy SWEâbench (Codierung) 74,9 % 74,5 % â GPQA (wissenschaftliches Wissen) 89,4 % 80,9 % 88,9 % Humanityâs Last Exam 42 % â 44,4 % HealthBench (Halluzinationen) 1,6 % â â
đ Quelle: OpenAI, Reddit /r/singularity, TechCrunch
đ Was bedeutet das fĂŒr Unternehmen? GPTâ5 ist kein technisches Spielzeug. FĂŒr das Business bringt es konkrete Vorteile:
đïž Automatisierung von Inhalten Produktbeschreibungen, E-Mail-Kampagnen, Landing Pages.
Weniger Fehlerquote, schnellere EntwĂŒrfe, mehr Varianten.
đ§ Analyse von Kundenfeedback Sentiment-Detektion, Zusammenfassung von Bewertungen, VerbesserungsvorschlĂ€ge.
đ§° Softwareentwicklung Debugging in Echtzeit.
NatĂŒrliches Planen von Funktionen â sogenanntes Vibe Coding.
Integration in Entwicklungstools (z.B. Cursor, Copilot).
đ°Preise und Zugang ChatGPT (verbraucherorientiert) Free: GPTâ5 als Standard (mit Limits), kĂŒrzerer Kontext. Plus (~$20/Monat): höhere Limits, 32k Kontext. Pro (~$200/Monat, Preis variiert je nach Region; in GroĂbritannien liegt der Preis bei ÂŁ200): Zugang zu GPTâ5 Pro und 128k Kontext, höhere Limits. Team/Enterprise Ă€hnlich.
API (Entwickler)
gptâ5: $1.25/M Eingabetokens, $10/M Ausgabetokens. gptâ5âmini: $0.25/M Eingabe, $2/M Ausgabe. gptâ5ânano: $0.05/M Eingabe, $0.40/M Ausgabe.
Im ProduktĂŒberblick gibt OpenAI 256k Kontext fĂŒr diese Reihen an; siehe auch den detaillierten Entwicklerbeitrag zu langem Kontext und reasoning-Ausgaben.
đ°Was bedeutet das praktisch fĂŒr Unternehmen?
- Softwareentwicklung: GPTâ5 bewĂ€ltigt Planung, Multi-Tool-Kettensetzung, Fehlerbehebung und âhĂ€lt den Kursâ auch bei langen Aufgaben besser (SWEâbench 74,9 %; ÏÂČâbench 96,7 %).
- Integration in Azure/GitHub Copilot/VS Code ist abgeschlossen.
- Kundenservice und Agenten: Router + reasoning â niedrigere Kosten/Latenz fĂŒr einfache Anfragen, âthinkingâ fĂŒr komplexe FĂ€lle.
- Wissensarbeit: LĂ€ngerer Kontext â bessere Arbeit mit Dokumenten (Berichte, Due Diligence, Recherchen).
- Gesundheit/Finanzen: Niedrigere Fehlerquote bei risikobehafteten Szenarien (aber immer noch kein Ersatz fĂŒr einen Arzt/Berater)!
đ°Wie man GPTâ5 schnell testen kann (Tipps fĂŒr die Gruppe)
-
Code â Plan â Build â Test âEntwerfe einen Migrationsplan fĂŒr Postgres 16, passe dann schrittweise den Code an und zeige Diff und Tests. Denke laut (think hard) und verwende die Werkzeuge schrittweise.â (âThinkingâ-Modus festlegen und die Arbeit mit Werkzeugen verfolgen.) OpenAI
-
Langer Kontext âHier ist ein 150-seitiges Dokument (ich fĂŒge es als Text bei). Finde 5 Unstimmigkeiten, verlinke auf die Seiten, schlage Korrekturen vor und schreibe eine Zusammenfassung in 300 Wörtern.â (ĂberprĂŒft die Suche nach âeiner Nadel im Heuhaufenâ bei 128k/256k Eingaben.)
-
Medizinische Anfragen (nur informativ!) âErklĂ€re die Unterschiede zwischen Test A und B, weise darauf hin, wann es notwendig ist, einen Arzt zu kontaktieren und warum.â (Beobachte, wie das Modell Risiken konservativ kennzeichnet.)
â Kontext und KlĂ€rung â Was ist Humanityâs Last Exam? Ein fortgeschrittener Test, der die allgemeine Intelligenz von KI durch Fragen zu Ethik, Biologie, Geschichte und Logik ĂŒberprĂŒft â oft ohne eindeutige Antworten.
â ĂuĂerung von Sam Altman ĂŒber die âAtombombeâ? Stammt aus einem nicht öffentlichen Treffen an der Stanford-UniversitĂ€t.
đŻïž âGPTâ5 ist so intelligent, dass ich mich frage: Was haben wir da eigentlich erschaffen?â
đŹ Es ist eine Metapher, keine Panikmeldung. Viele kritisieren es als marketingtechnischen Dramatisierung. Dennoch beschreibt es die wachsende Spannung zwischen Innovation und Regulierung. Es handelt sich eher um eine Beschreibung des Tempos und der Bedeutung von VerĂ€nderungen als um eine âPanikmeldungâ.
đ± Und was ist mit der Nachhaltigkeit? GPTâ5 ist extrem rechenintensiv.
Der tÀgliche Energieverbrauch entspricht dem von zehntausenden Haushalten.
Neben Strom ist auch der Wasserverbrauch zur KĂŒhlung der Server ein Problem.
OpenAI sagt, dass es ein âRoutingâ-System implementiert, das kleinere Modelle verwendet, wo es ausreicht.
đ€ AbschlieĂend (persönlich) Ich habe mich auf GPTâ5 gefreut, seit Altman zum ersten Mal âetwas GroĂesâ angedeutet hat. Und jetzt ist es da. Vielleicht vorerst nur auf dem Papier, aber die QualitĂ€t und die Möglichkeiten sind real.
đ§ FĂŒr Entwickler â eine neue Denkweise ĂŒber Code. đĄ FĂŒr Unternehmen â weniger Fehler, schnellere Inhalte, intelligentere UnterstĂŒtzung. đš FĂŒr Kreative â tiefere Kontexte, bessere Sprache, Konsistenz.
Bonus: schnelles Vergleich (fĂŒr Grafiken/Slides)
- SWEâbench Verified: GPTâ5 74,9 % > Claude 4.1 74,5 % > Gemini 2.5 Pro 59,6 %. (TechCrunch)
- GPQA (Diamond): GPTâ5 Pro 88,4 % (OpenAI).
- HLE (mit Werkzeugen): GPTâ5 Pro 42 %, Grok 4 Heavy 44,4 %. (TechCrunch)
- HealthBench Hard Hallucinations: 1,6 % (gptâ5âthinking).
UrsprĂŒnglich veröffentlicht auf Facebook â Link zum Post
PĆŻvodnĂ zdroj: facebook