SteosVoice CIS
前往频道在 Telegram
Ваш любимый SteosVoice ❤️ 🤖 t.me/steosvoice_bot 💬 t.me/steosvoice_chat Реклама: https://telega.in/c/steosvoice Сотрудничество: @daniil_gorbenko 📹YT: youtube.com/@SteosFan РКН: gosuslugi.ru/snet/673c422923bfbf2cbf522af8
显示更多2025 年数字统计

501 488
订阅者
-11924 小时
-5947 天
-3 33130 天
帖子存档
照片不可用在 Telegram 中显示
🔥2 новых голоса на платформе!
Дорогие друзья, мы добавили два новых английских голоса на платформу и в телеграм бота из игры Cyberpunk 2077 (на основе английской локализации):
👉🏻 Johnny Silverhand (Keanu Reeves); 👉🏻 Delamain.Теперь они могут озвучить всё, что вы пожелаете! Протестировать можно здесь. #новости
🔥 34👍 11😍 10❤🔥 5💯 4🍓 3❤ 2
До обработки вокодером.wav8.17 KB
После обработки вокодером.wav9.10 KB
👍 33🤯 14👏 1
🤖 Синтез речи под капотом
В одном из прошлых постов мы говорили, что дефекты синтезированного звука, такие как метал и дрожание, возникают в результате преобразования очень сжатых данных в аудиофайл и для наглядности приводили пример с картинкой. Но как происходит преобразование текста в речь?
Практически любая современная система для синтеза речи работает на основе двух моделей - синтезатора и вокодера.
Синтезатор - это система, которая генерирует промежуточное представление звука. Чаще всего в качестве представления используется мел спектрограмма - сжатое представление звука, которое содержит больше всего информации на тех частотах, на которых слышит человеческое ухо. Если сравнивать это с примером про картинки, то спектрограмма это изображение размера 32х32.
Вокодер - это система, задача которой преобразовать сжатое представление звука в аудиофайл. Вокодер всегда работает в связке с синтезатором и использует данные, генерируемые синтезатором.
Разобравшись с этими двумя понятиями, вы, наверное, уже догадались, что именно вокодер выступает узким местом в данной системе, поскольку именно он отвечает за то, насколько "чистым" будет звук. Если мы снова вернемся к примеру с картинками, то его задача детализировать изображение 32х32 в изображение 256х256. А для того, что бы вы могли понимать как звучат аудиофайлы перед обработкой вокодером и после, мы прикрепили их к сообщению.
Для самых любознательных: поскольку синтезатор создает мел спектрограммы, которые сами по себе не являются звуком, мы использовали алгоритм Гриффина-Лима для реконструкции сигнала и создания аудиофайла.
#разработка
👍 21🔥 6👏 3🤩 1👌 1🆒 1
