Нейросеть Dia от Nari Labs — это модель для генерации речи, которая превращает текстовые диалоги в невероятно реалистичное аудио. Модель с 1.6 миллиардами параметров умеет не только говорить, но и передавать эмоции, тон, а также воспроизводить невербальные звуки вроде смеха или кашля. Она работает по принципу условного кодирования: можно задать образец голоса, и нейросеть подстроится под его тембр и манеру. Dia создаёт целые диалоги между разными говорящими, помеченными как
Основные возможности:
- Генерация диалогов — модель создаёт речь для двух собеседников, помечая реплики тегами








