Whisper — это модель распознавания речи от OpenAI, которая работает с самыми разными языками и акцентами. Её главная фишка в том, что она обучалась на огромном массиве разнообразных аудиоданных, что делает её весьма универсальной. По сути, это трансформер, который заменил собой целый каскад классических этапов обработки звука. Модель умеет не просто переводить речь в текст, но и определять язык, и даже переводить устную речь на английский. Есть несколько вариантов модели, от самых компактных до очень больших, чтобы можно было выбрать баланс между скоростью и точностью под свои задачи. Для работы ей нужны ffmpeg и Python. Интересно, что она обрабатывает аудио фрагментами по 30 секунд, предсказывая текст последовательно для каждого такого окна.
Основные возможности:
- Распознаёт речь в аудио — переводит сказанное в текст на том же языке.
- Переводит речь — может сразу перевести иностранную речь в текст на английском.
- Определяет язык — автоматически понимает, на каком языке говорят в записи.
- Работает с разными форматами — поддерживает популярные аудиофайлы вроде mp3 или wav.
- Есть модели на любой случай — от маленьких и быстрых до больших и точных, можно выбрать под свои нужды.
- Работает из командной строки — можно быстро запустить транскрибацию прямо в терминале.
- Можно использовать в коде на Python — легко встроить в свой проект или скрипт.








