FunCineForge: MLLM для озвучки фильмов с нулевым обучением

Нейросеть FunCineForge

🎬🔊🎭🛠️🤖

Рейтинг

Fun-CineForge представляет собой исследовательский инструментарий для автоматического дубляжа кино и сериалов. Разработчики объединили конвейер обработки данных и модель на базе MLLM, способную работать в сценах с монологами, диалогами и множеством говорящих без предварительного обучения на конкретных голосах. С помощью этого пайплайна был собран крупный датасет китайского телевизионного дубляжа CineDub-CN. Система использует многомодальную цепочку рассуждений для коррекции распознавания речи и диаризации дикторов, снижая количество ошибок до уровня ручной разметки. Ключевая особенность — возможность синхронизировать аудио с артикуляцией и тембром персонажа, следуя текстовым инструкциям. Проект распространяется под открытой лицензией Apache 2.0 и ориентирован на академическое сообщество.

Перейти на официальный сайт

Основные возможности:

Генерация качественного даббинга для кино и сериалов — нейросеть создаёт голосовой дубляж, который синхронизируется с движениями губ персонажа.
Работа со сложными сценами — поддерживает монологи, диалоги, повествование и сцены с участием нескольких говорящих.
Обработка видео и аудио «из коробки» — включает готовый конвейер для очистки, нарезки и нормализации исходных файлов.
Автоматическое разделение голосов и музыки — умеет отделять речь от фонового шума и инструментальных дорожек.
Распознавание и диаризация говорящих — определяет, кто и когда говорит, привязывая реплики к конкретным лицам на видео.
Коррекция ошибок через цепочку рассуждений — использует мультимодальную модель для исправления неточностей в субтитрах и разметке дикторов.
Поддержка русского и английского языков — конвейер и модель работают с обоими языками, включая субтитры и озвучку.

Нейросеть FunCineForge

Рубрики

Популярные нейросети

Метки