Fun-CineForge представляет собой исследовательский инструментарий для автоматического дубляжа кино и сериалов. Разработчики объединили конвейер обработки данных и модель на базе MLLM, способную работать в сценах с монологами, диалогами и множеством говорящих без предварительного обучения на конкретных голосах. С помощью этого пайплайна был собран крупный датасет китайского телевизионного дубляжа CineDub-CN. Система использует многомодальную цепочку рассуждений для коррекции распознавания речи и диаризации дикторов, снижая количество ошибок до уровня ручной разметки. Ключевая особенность — возможность синхронизировать аудио с артикуляцией и тембром персонажа, следуя текстовым инструкциям. Проект распространяется под открытой лицензией Apache 2.0 и ориентирован на академическое сообщество.
Основные возможности:
- Генерация качественного даббинга для кино и сериалов — нейросеть создаёт голосовой дубляж, который синхронизируется с движениями губ персонажа.
- Работа со сложными сценами — поддерживает монологи, диалоги, повествование и сцены с участием нескольких говорящих.
- Обработка видео и аудио «из коробки» — включает готовый конвейер для очистки, нарезки и нормализации исходных файлов.
- Автоматическое разделение голосов и музыки — умеет отделять речь от фонового шума и инструментальных дорожек.
- Распознавание и диаризация говорящих — определяет, кто и когда говорит, привязывая реплики к конкретным лицам на видео.
- Коррекция ошибок через цепочку рассуждений — использует мультимодальную модель для исправления неточностей в субтитрах и разметке дикторов.
- Поддержка русского и английского языков — конвейер и модель работают с обоими языками, включая субтитры и озвучку.








