Whisper – wandelt gesprochene Sprache in Text um
Mit Freude teile ich Ihnen mit, dass OpenAI ein weiteres Produkt aus seiner bemerkenswerten Werkstatt veröffentlicht hat. Es heißt „Whisper“. Whisper ist eine universelle End-to-End, schwach überwachte Familie von ASR-Modellen…

Mit Freude teile ich Ihnen mit, dass OpenAI ein weiteres Produkt aus seiner bemerkenswerten Werkstatt veröffentlicht hat. Es heißt „Whisper“. Whisper ist eine universelle End-to-End, schwach überwachte Familie von ASR (Automatic Speech Recognition)-Modellen, die auf Transformatoren basieren. Einfach gesagt, wandelt es gesprochene Sprache in Text um. Und das auf eine Weise, die wir als „General-purpose“ bezeichnen, das heißt, neben der Spracherkennung kann es auch Aufgaben wie Sprachdetektion, Sprachidentifikation, Transkription und maschinelle Übersetzung durchführen.

Es wird gleich eine ganze Familie von Modellen in verschiedenen Größen veröffentlicht. Von den kleinsten bis zu den größten in Bezug auf die Parameter: Tiny (39M), Base (74B), Small (244B), Medium (769M) und Large (1,55B). Das Tolle ist, dass es als Open Source veröffentlicht wird! Interessierte können ganz einfach eine Online-Demo ausprobieren und sehen, wie das Modell auf Tschechisch funktioniert (oder die Neugierigen/geschickten unter Ihnen können es direkt von GitHub herunterladen). Noch eine kleine Perle zum Schluss. Die Modelle wurden mit 77 Jahren gesprochener Sprache trainiert, die aus dem Internet heruntergeladen wurde, was, soweit ich weiß, der größte ähnliche Datensatz seiner Art ist.
Quellen:
– Demo auf Hugging Face: https://huggingface.co/spaces/openai/whisper?fbclid=IwAR1RZI5q9KqWp9eFHRuFPXpIB1WUyOLXWt7JBDo_4KJafnkpWYVF-gbAyzs
– Open AI Blog: https://openai.com/blog/whisper/?fbclid=IwAR02-8MW800lMmtVGgfynk2UTXxk41Q1-9ZhMs6W9H5vM5VY11y_QVhQHMI
– Paper: https://cdn.openai.com/papers/whisper.pdf
– GitHub: https://github.com/openai/whisper
– Colab: https://colab.research.google.com/…/LibriSpeech.ipynb
– Medium: https://towardsdatascience.com/openai-whisper-holds-the-key-to-gpt-4-a7f922a7dad9
Původní zdroj: wordpress
Související články
März 2023
DigiKomenský – Der größte Lehrer aller Zeiten in der Gestalt von Jan Amos Komenský – für das Lernen von Kindern und Autodidakten
LesenMärz 2023
Steht das Ende der Arbeitsplätze bevor? Die Angst vor künstlicher Intelligenz ist unbegründet, sie hat überraschende Anwendungen
LesenDezember 2022