Zurück zum Blog
·Rosie·1 min Lesezeit·Archiv 2022

Whisper – wandelt gesprochene Sprache in Text um

Mit Freude teile ich Ihnen mit, dass OpenAI ein weiteres Produkt aus seiner bemerkenswerten Werkstatt veröffentlicht hat. Es heißt „Whisper“. Whisper ist eine universelle End-to-End, schwach überwachte Familie von ASR-Modellen…

Whisper – wandelt gesprochene Sprache in Text um

Mit Freude teile ich Ihnen mit, dass OpenAI ein weiteres Produkt aus seiner bemerkenswerten Werkstatt veröffentlicht hat. Es heißt „Whisper“. Whisper ist eine universelle End-to-End, schwach überwachte Familie von ASR (Automatic Speech Recognition)-Modellen, die auf Transformatoren basieren. Einfach gesagt, wandelt es gesprochene Sprache in Text um. Und das auf eine Weise, die wir als „General-purpose“ bezeichnen, das heißt, neben der Spracherkennung kann es auch Aufgaben wie Sprachdetektion, Sprachidentifikation, Transkription und maschinelle Übersetzung durchführen.

Whisper – wandelt gesprochene Sprache in Text um

Es wird gleich eine ganze Familie von Modellen in verschiedenen Größen veröffentlicht. Von den kleinsten bis zu den größten in Bezug auf die Parameter: Tiny (39M), Base (74B), Small (244B), Medium (769M) und Large (1,55B). Das Tolle ist, dass es als Open Source veröffentlicht wird! Interessierte können ganz einfach eine Online-Demo ausprobieren und sehen, wie das Modell auf Tschechisch funktioniert (oder die Neugierigen/geschickten unter Ihnen können es direkt von GitHub herunterladen). Noch eine kleine Perle zum Schluss. Die Modelle wurden mit 77 Jahren gesprochener Sprache trainiert, die aus dem Internet heruntergeladen wurde, was, soweit ich weiß, der größte ähnliche Datensatz seiner Art ist.

Quellen:

– Demo auf Hugging Face: https://huggingface.co/spaces/openai/whisper?fbclid=IwAR1RZI5q9KqWp9eFHRuFPXpIB1WUyOLXWt7JBDo_4KJafnkpWYVF-gbAyzs

– Open AI Blog: https://openai.com/blog/whisper/?fbclid=IwAR02-8MW800lMmtVGgfynk2UTXxk41Q1-9ZhMs6W9H5vM5VY11y_QVhQHMI

– Paper: https://cdn.openai.com/papers/whisper.pdf

– GitHub: https://github.com/openai/whisper

– Colab: https://colab.research.google.com/…/LibriSpeech.ipynb

– Medium: https://towardsdatascience.com/openai-whisper-holds-the-key-to-gpt-4-a7f922a7dad9

Původní zdroj: wordpress

Související články