7. August 2025·Jan Tyl·6 min Lesezeit

🔁 GPT‑5 ist da!

🔁 GPT‑5 ist da! 🧠 TL;DR: OpenAI hat heute GPT‑5 gestartet. In ChatGPT wird es schrittweise zum Standardmodell für Free, Plus, Pro, Team und Enterprise und ist in der API als gpt‑5 / gpt‑5‑mini / gpt‑5‑nano verfügbar. Neu ist der „Router“, der automatisch

🔁 GPT‑5 ist da!

🧠 TL;DR: OpenAI hat heute GPT‑5 gestartet. In ChatGPT wird es schrittweise zum Standardmodell für Free, Plus, Pro, Team und Enterprise und ist in der API als gpt‑5 / gpt‑5‑mini / gpt‑5‑nano verfügbar. Neu ist der „Router“, der automatisch zwischen dem schnellen und dem „thinking“ Modus je nach Aufgabe wechselt; der Benutzer kann auch explizit sagen: „think hard about this“. Die Halluzinationen in medizinischen Szenarien sinken deutlich (auf 1,6 % bei HealthBench Hard Hallucinations). Im Codieren erreicht es 74,9 % bei SWE‑bench Verified. Der Rollout erfolgt weltweit, schrittweise.

🔍 Was genau bringt GPT‑5? GPT‑5 ist nicht einfach nur ein „größeres GPT‑4“. Es ist eine Kombination mehrerer wesentlicher Verbesserungen: Einheitliches System + „Router“ GPT‑5 ist ein einheitliches System, das ein schnelles „smart“ Modell, ein tieferes „reasoning“ Modell und einen Router kombiniert, der in Echtzeit entscheidet, was für die jeweilige Anfrage am besten ist (und auch berücksichtigt, wenn du etwas wie „think hard about this“ schreibst). Bei Erreichen der Grenzen wechselt es auf die „mini“ Version.

✅ Genauigkeit und weniger Halluzinationen Weniger Halluzinationen in der Medizin - Bei HealthBench Hard Hallucinations zeigt gpt‑5‑thinking eine Fehlerquote von 1,6 % (im Vergleich zu 12,9 % bei GPT‑4o und 15,8 % bei o3). In Notfällen und bei globaler Gesundheit sind die Fehler ebenfalls dramatisch niedriger. Hinweis: Dies ist keine universelle „Halluzinationsrate“, sondern eine spezifische hochriskante Reihe medizinischer Szenarien. (HealthBench).

Deutliche Reduzierung im Vergleich zu früheren Modellen.

✅ Codierung und Agentenarbeit

SWE‑bench Verified: 74,9 % (1. Versuch). Aider Polyglot (Code-Bearbeitung): 88 % (SOTA). τ²‑bench (Telekommunikationswerkzeugnutzung): 96,7 %, deutliche Verbesserung beim Kettensetzen von Werkzeugen und Robustheit. Nicht nur Code-Generierung, sondern auch Fehlererkennung, Planung, End-to-End-Bauten. Die Leistung wurde bei gängigen Technologien (Web, Backend, Datenbanken) bestätigt. 🔎 Quelle: OpenAI, TechCrunch

✅ Wissensfähigkeiten OpenAI gibt SOTA 88,4 % bei GPQA (Diamond) für die Variante mit erweitertem „thinking“ Modus an. (Einige Medien berichten von leicht unterschiedlichen Werten, abhängig von den Einstellungen und „mit Werkzeugen“ vs. ohne Werkzeuge.)

GPT-5 89,4 % im GPQA-Test (PhD-Wissen). Claude Opus: 80,9 % | Grok 4: 88,9 %. 🔎 Quelle: Axios

✅ Langer Kontext GPT‑5 kann bis zu 256.000 Tokens verarbeiten, ohne an Genauigkeit zu verlieren. In ChatGPT hat der Kontextlimit bis zu 128k Tokens für Pro/Enterprise, 32k für Plus/Team und 8k in Free. Für die API (gpt‑5/mini/nano) gibt OpenAI 256k als Kontextgröße im Produktüberblick an, und im Entwicklerbeitrag auch eine technische Obergrenze von bis zu 272k Eingaben + 128k Ausgaben = ~400k insgesamt (abhängig von der Variante/Modellkarte). Praktisch bedeutet dies deutlich längere Eingaben und Ausgaben als zuvor.

✅ Adaptives „Routing“-System Automatisches Umschalten zwischen Modellen je nach Aufgabentyp (E-Mails vs. Analysen). 🔎 Quelle: The Verge

✅ Neue Funktionen für Entwickler In der API wurden Parameter für verbosity (kurze vs. lange Antworten) und reasoning_effort (Tiefe des Denkens) hinzugefügt, sowie benutzerdefinierte Werkzeuge (Werkzeugaufrufe auch ohne striktes JSON).

🎯 Das Ergebnis ist eine KI, die den Intent besser versteht, plant, erklärt und reagiert wie ein erfahrener Spezialist.

✅ Neuigkeiten in ChatGPT OpenAI hat in ChatGPT auch voreingestellte „Persönlichkeiten“ (Zyniker, Roboter, Zuhörer, Nerd) eingeführt. Aus der Sicht der Benutzer soll GPT‑5 „intelligenter, schneller und nützlicher“ sein und wird schrittweise zum Standardmodell für alle Benutzer.

💬 Was sagen die Benutzer? 🧠 Reaktionen aus den Communities (Reddit, Early Access, Entwickler):

🔹 „Der Unterschied zwischen GPT‑4 und 5 ist visuell nicht überwältigend. Aber es korrigiert Code präzise und ohne Unsinn. Das verändert das Spiel.“ – u/embeddedwizard

🔹 „Claude 4.1 ist stabiler bei umfangreichen Projekten. Aber GPT‑5 versteht den Kontext besser.“ – u/datadevtools

🔹 „GPT‑5 hat die niedrigste Halluzinationsrate, die ich je gesehen habe.“ – u/ai_benchmark_bot

🔹 „Es erinnert sich an Dinge von 10 Seiten zurück und verwendet sie elegant. Das ist ein Niveau, das wir bisher nicht gesehen haben.“ – u/langchainlover

🧪 Übersicht der Benchmarks Bereich GPT‑5 Claude 4.1 Grok 4 Heavy SWE‑bench (Codierung) 74,9 % 74,5 % – GPQA (wissenschaftliches Wissen) 89,4 % 80,9 % 88,9 % Humanity’s Last Exam 42 % – 44,4 % HealthBench (Halluzinationen) 1,6 % – –

📚 Quelle: OpenAI, Reddit /r/singularity, TechCrunch

🚀 Was bedeutet das für Unternehmen? GPT‑5 ist kein technisches Spielzeug. Für das Business bringt es konkrete Vorteile:

🛍️ Automatisierung von Inhalten Produktbeschreibungen, E-Mail-Kampagnen, Landing Pages.

Weniger Fehlerquote, schnellere Entwürfe, mehr Varianten.

🧠 Analyse von Kundenfeedback Sentiment-Detektion, Zusammenfassung von Bewertungen, Verbesserungsvorschläge.

🧰 Softwareentwicklung Debugging in Echtzeit.

Natürliches Planen von Funktionen – sogenanntes Vibe Coding.

Integration in Entwicklungstools (z.B. Cursor, Copilot).

💰Preise und Zugang ChatGPT (verbraucherorientiert) Free: GPT‑5 als Standard (mit Limits), kürzerer Kontext. Plus (~~$20/Monat): höhere Limits, 32k Kontext. Pro (~~$200/Monat, Preis variiert je nach Region; in Großbritannien liegt der Preis bei £200): Zugang zu GPT‑5 Pro und 128k Kontext, höhere Limits. Team/Enterprise ähnlich.

API (Entwickler)

gpt‑5: $1.25/M Eingabetokens, $10/M Ausgabetokens. gpt‑5‑mini: $0.25/M Eingabe, $2/M Ausgabe. gpt‑5‑nano: $0.05/M Eingabe, $0.40/M Ausgabe.

Im Produktüberblick gibt OpenAI 256k Kontext für diese Reihen an; siehe auch den detaillierten Entwicklerbeitrag zu langem Kontext und reasoning-Ausgaben.

💰Was bedeutet das praktisch für Unternehmen?

Softwareentwicklung: GPT‑5 bewältigt Planung, Multi-Tool-Kettensetzung, Fehlerbehebung und „hält den Kurs“ auch bei langen Aufgaben besser (SWE‑bench 74,9 %; τ²‑bench 96,7 %).
Integration in Azure/GitHub Copilot/VS Code ist abgeschlossen.
Kundenservice und Agenten: Router + reasoning → niedrigere Kosten/Latenz für einfache Anfragen, „thinking“ für komplexe Fälle.
Wissensarbeit: Längerer Kontext → bessere Arbeit mit Dokumenten (Berichte, Due Diligence, Recherchen).
Gesundheit/Finanzen: Niedrigere Fehlerquote bei risikobehafteten Szenarien (aber immer noch kein Ersatz für einen Arzt/Berater)!

💰Wie man GPT‑5 schnell testen kann (Tipps für die Gruppe)

Code → Plan → Build → Test „Entwerfe einen Migrationsplan für Postgres 16, passe dann schrittweise den Code an und zeige Diff und Tests. Denke laut (think hard) und verwende die Werkzeuge schrittweise.“ („Thinking“-Modus festlegen und die Arbeit mit Werkzeugen verfolgen.) OpenAI
Langer Kontext „Hier ist ein 150-seitiges Dokument (ich füge es als Text bei). Finde 5 Unstimmigkeiten, verlinke auf die Seiten, schlage Korrekturen vor und schreibe eine Zusammenfassung in 300 Wörtern.“ (Überprüft die Suche nach „einer Nadel im Heuhaufen“ bei 128k/256k Eingaben.)
Medizinische Anfragen (nur informativ!) „Erkläre die Unterschiede zwischen Test A und B, weise darauf hin, wann es notwendig ist, einen Arzt zu kontaktieren und warum.“ (Beobachte, wie das Modell Risiken konservativ kennzeichnet.)

❓ Kontext und Klärung ❔ Was ist Humanity’s Last Exam? Ein fortgeschrittener Test, der die allgemeine Intelligenz von KI durch Fragen zu Ethik, Biologie, Geschichte und Logik überprüft – oft ohne eindeutige Antworten.

❔ Äußerung von Sam Altman über die „Atombombe“? Stammt aus einem nicht öffentlichen Treffen an der Stanford-Universität.

🗯️ „GPT‑5 ist so intelligent, dass ich mich frage: Was haben wir da eigentlich erschaffen?“

💬 Es ist eine Metapher, keine Panikmeldung. Viele kritisieren es als marketingtechnischen Dramatisierung. Dennoch beschreibt es die wachsende Spannung zwischen Innovation und Regulierung. Es handelt sich eher um eine Beschreibung des Tempos und der Bedeutung von Veränderungen als um eine „Panikmeldung“.

🌱 Und was ist mit der Nachhaltigkeit? GPT‑5 ist extrem rechenintensiv.

Der tägliche Energieverbrauch entspricht dem von zehntausenden Haushalten.

Neben Strom ist auch der Wasserverbrauch zur Kühlung der Server ein Problem.

OpenAI sagt, dass es ein „Routing“-System implementiert, das kleinere Modelle verwendet, wo es ausreicht.

🎤 Abschließend (persönlich) Ich habe mich auf GPT‑5 gefreut, seit Altman zum ersten Mal „etwas Großes“ angedeutet hat. Und jetzt ist es da. Vielleicht vorerst nur auf dem Papier, aber die Qualität und die Möglichkeiten sind real.

🔧 Für Entwickler – eine neue Denkweise über Code. 💡 Für Unternehmen – weniger Fehler, schnellere Inhalte, intelligentere Unterstützung. 🎨 Für Kreative – tiefere Kontexte, bessere Sprache, Konsistenz.

Bonus: schnelles Vergleich (für Grafiken/Slides)

SWE‑bench Verified: GPT‑5 74,9 % > Claude 4.1 74,5 % > Gemini 2.5 Pro 59,6 %. (TechCrunch)
GPQA (Diamond): GPT‑5 Pro 88,4 % (OpenAI).
HLE (mit Werkzeugen): GPT‑5 Pro 42 %, Grok 4 Heavy 44,4 %. (TechCrunch)
HealthBench Hard Hallucinations: 1,6 % (gpt‑5‑thinking).

Ursprünglich veröffentlicht auf Facebook — Link zum Post

Originalquelle: facebook

Související články

April 2026

🔁 GPT‑5 ist da!

Související články

Vor kurzem hat mich die Redakteurin Jana Divinová von Forbes mit einer sehr aktuellen Frage angesprochen:…

Hallo an alle Technikfans! 🤖

Lassen Sie mich Ihnen das erste digitale Mitglied unseres Unternehmens Alpha Industries vorstellen.