Новый метод высокоскоростного синтеза естественных голосов

Исследовательская группа разработала метод моделей нейронного источника-фильтра (NSF) для высокоскоростного и высококачественного синтеза голоса. Этот метод, который сочетает в себе недавние алгоритмы глубокого обучения и классическую модель производства речи, относящуюся к 1960-м годам, способен не только генерировать высококачественные звуковые формы голоса — очень похожие на человеческий голос — но также и проводить стабильное обучение посредством нейронные сети.

Исследовательская группа разработала метод моделей нейронного источника-фильтра (NSF) для высокоскоростного и высококачественного синтеза голоса. Этот метод, который сочетает в себе недавние алгоритмы глубокого обучения и классическую модель производства речи, относящуюся к 1960-м годам, способен не только генерировать высококачественные звуковые формы голоса — очень похожие на человеческий голос — но также и проводить стабильное обучение посредством нейронные сети.

На сегодняшний день во многих системах синтеза речи принят вокодерный подход, метод синтеза речевых сигналов, который широко используется в сотовых телефонных сетях и других приложениях. Однако качество речевых сигналов, синтезированных этими методами, остается хуже, чем у человеческого голоса. В 2016 году влиятельная зарубежная технологическая компания предложила WaveNet — метод синтеза речи, основанный на алгоритмах глубокого обучения, — и продемонстрировала способность синтезировать высококачественные формы речи, напоминающие человеческий голос.

Однако одним из недостатков WaveNet является чрезвычайно сложная структура ее нейронных сетей, которые требуют больших объемов голосовых данных для машинного обучения и требуют настройки параметров и различных других трудоемких процедур проб и ошибок, которые необходимо повторить много раз, прежде чем можно будет получить точные прогнозы. получен.

Одним из наиболее известных вокодеров является вокодер с фильтром источника, который был разработан в 1960-х годах и до сих пор широко используется в настоящее время. Исследовательская группа NII внедрила традиционный метод вокодера с фильтром источника в современные алгоритмы нейронной сети, чтобы разработать новый метод синтеза высококачественных речевых сигналов, напоминающих человеческий голос.

Одним из преимуществ этого метода нейронных источников-фильтров (NSF) является простая структура его нейронных сетей, которые требуют только около 1 часа голосовых данных для машинного обучения и могут получать правильные результаты прогнозирования без обширной настройки параметров. Более того, крупномасштабные тесты на прослушивание показали, что речевые сигналы, созданные с помощью методов NSF, сопоставимы по качеству с сигналами, генерируемыми WaveNet.

Поскольку теоретическая основа NSF отличается от запатентованных технологий, используемых влиятельными зарубежными компаниями в области ИКТ, внедрение методов NSF, вероятно, стимулирует новые технологические достижения в синтезе речи. По этой причине исходный код, реализующий метод NSF, стал общедоступным бесплатно, что позволило его широко использовать.