Новий метод високої швидкості синтезу природних голосів

Дослідницька група розробила метод моделей нейронного джерела-фільтра (NSF) для високошвидкісного та високоякісного синтезу голосу. Цей метод, який поєднує в собі нещодавні алгоритми глибокого навчання і класичну модель мови, що відноситься до 1960-х років, здатний не тільки генерувати високоякісні звукові форми голосу - дуже схожі на людський голос - але також і проводити стабільне навчання за допомогою нейронної мережі.

Дослідницька група розробила метод моделей нейронного джерела-фільтра (NSF) для високошвидкісного та високоякісного синтезу голосу. Цей метод, який поєднує в собі нещодавні алгоритми глибокого навчання і класичну модель мови, що відноситься до 1960-х років, здатний не тільки генерувати високоякісні звукові форми голосу - дуже схожі на людський голос - але також і проводити стабільне навчання за допомогою нейронної мережі.

На сьогоднішній день у багатьох системах синтезу мовлення прийнято вокодерний підхід, метод синтезу мовних сигналів, який широко використовується в стільникових телефонних мережах та інших додатках. Однак якість мовних сигналів, синтезованих цими методами, залишається гіршою, ніж у людського голосу. У 2016 році впливова зарубіжна технологічна компанія запропонувала WaveNet – метод синтезу мови, заснований на алгоритмах глибокого навчання, – та продемонструвала здатність синтезувати високоякісні форми мови, що нагадують людський голос.

Однак одним із недоліків WaveNet є надзвичайно складна структура її нейронних мереж, які вимагають великих обсягів голосових даних для машинного навчання та вимагають налаштування параметрів та різних інших трудомістких процедур спроб та помилок, які необхідно повторити багато разів, перш ніж можна буде отримати точні прогнози. отримано.

Одним із найбільш відомих вокодерів є вокодер з фільтром джерела, який був розроблений у 1960-х роках і досі широко використовується в даний час. Дослідницька група NII впровадила традиційний метод вокодера з фільтром джерела у сучасні алгоритми нейронної мережі, щоб розробити новий метод синтезу високоякісних мовних сигналів, що нагадують людський голос.

Однією з переваг цього методу нейронних джерел-фільтрів (NSF) є проста структура його нейронних мереж, які вимагають лише близько 1 години голосових даних для машинного навчання і можуть отримувати правильні результати прогнозування без налаштування параметрів. Більш того, великомасштабні тести на прослуховування показали, що мовні сигнали, створені за допомогою методів NSF, можна порівняти за якістю з сигналами, що генеруються WaveNet.

Оскільки теоретична основа NSF відрізняється від запатентованих технологій, що використовуються впливовими закордонними компаніями в галузі ІКТ, впровадження методів NSF, ймовірно, стимулює нові технологічні досягнення у синтезі мови. Тому вихідний код, що реалізує метод NSF, став загальнодоступним безкоштовно, що дозволило його широко використовувати.