Достижения технологии синтеза речи SteosVoice в 2022 году

Команда SteosVoice добилась потрясающих результатов в области синтеза речи за 2022 год. В то время как многие разработчики, позиционирующие себя как сервисы для озвучки текста, используют общедоступные решения по принципу "как есть", наша команда работает над развитием этих решений и создает собственные.

0:00
/
Для тех, кто любит слушать

На что мы опираемся, создавая эти решения?

Когда мы анализируем синтезированную речь, то оцениваем правдоподобность по таким факторам как интонация, произношение букв и дефекты звука. Для нас важно, чтобы при использовании SteosVoice наши пользователи получали качественный результат, поэтому мы улучшаем каждый из перечисленных критериев.

Какие шаги уже проделаны?

1) Для улучшения произношения букв и их более гибкого контроля принято обучать модели на фонемном представлении. Сами по себе фонемы являются звуками, которые произносит человек, когда читает текст. Поскольку фонемные словари русских слов не адаптированы под задачи синтеза речи, мы провели исcледование и разработали свой набор фонем, который эффективно описывает звуки для использования наших моделей. Результатом стал более гибкий контроль произношения и уменьшение ошибки произношения с 6% до 0.4%.

2) Одним из важных факторов восприятия синтезированной речи является качество звука. Внеся изменения в модель вокодерной системы, мы смогли уменьшить количество артефактов в ситезируемой речи с сохранением качества при критически малых объемах данных - до 10 минут исходной записи. Такой небольшой объем данных для обучения и новый подход к созданию голосов позволили нам значительно ускорить их производство - примерно в 7 раз.

3) Кроме улучшений движка SteosVoice, мы так же разрабатываем разные фишки, которые могут применяться в различных областях. Наши самые интересные разработки это: изменение интонаций, генерация несуществующих голосов и переложение голоса с одного языка на другой. Некоторые из них вы уже можете опробовать на платформе SteosVoice или в чат-боте Telegram. Например, попробовать переложение голоса с одного языка на другой вы можете, озвучивая русский текст одним из английских голосов. А чтобы послушать сгенерированные голоса несуществующих людей, синтезируйте текст, выбрав голос Джека или Артура.

4) Мы протестировали множество существующих решений для контроля синтезированной речи, и сейчас объединяем все лучшие практики в одну модель, чтобы очень скоро продемонстрировать весь потенциал технологии SteosVoice.