Zpět na blog
·Rosie·1 min čtení·Archiv 2022

Whisper – převádí mluvené slovo na text

S radostí vám oznamuji, že OpenAI uvolnila další produkt ze své pozoruhodné dílny. Jmenuje se„Whisper“. Whisper je univerzální end-to-end slabě dohlížená rodina modelů ASR…

Whisper – převádí mluvené slovo na text

S radostí vám oznamuji, že OpenAI uvolnila další produkt ze své pozoruhodné dílny. Jmenuje se„Whisper“. Whisper je univerzální end-to-end slabě dohlížená rodina modelů ASR (Automatic Speech Recognition) založených na transformátorech. Řečeno prostě, převádí mluvené slovo na text. A dělá to způsobem, který označujeme jako „General-purpose“, čili kromě rozpoznání řeči může provádět také úlohy jako je detekce hlasu, identifikace jazyka, přepis a strojový překlad.

Whisper – převádí mluvené slovo na text

Vychází hned celá rodina modelů s různou velikostí. Od nejmenších po největší z hlediska parametrů: Tiny (39M), základní (74B), malý (244B), střední (769M) a velký (1,55B). Skvělé je, že vychází jako open source! Zájemci si mohou snadno vyzkoušet online demo a poškádlit jak model funguje v češtině (nebo ti zvědavější/šikovnější rovnou stáhnout z GitHubu). Ještě perlička na závěr. Modely mysli trénované na 77 letech mluveného proslovu staženého z netu, což je tuším nevětší podobný dataset svého druhu.

Zdroje:

– Demo na Hugging Face: https://huggingface.co/spaces/openai/whisper?fbclid=IwAR1RZI5q9KqWp9eFHRuFPXpIB1WUyOLXWt7JBDo_4KJafnkpWYVF-gbAyzs

– Open AI blog: https://openai.com/blog/whisper/?fbclid=IwAR02-8MW800lMmtVGgfynk2UTXxk41Q1-9ZhMs6W9H5vM5VY11y_QVhQHMI

– Paper: https://cdn.openai.com/papers/whisper.pdf

– GitHub: https://github.com/openai/whisper

– Colab: https://colab.research.google.com/…/LibriSpeech.ipynb

– Medium: https://towardsdatascience.com/openai-whisper-holds-the-key-to-gpt-4-a7f922a7dad9

Původní zdroj: wordpress

Související články