API, чтобы разбить голос на фонемы / синтезировать новую речь, учитывая образцы речи?

Question

API, чтобы разбить голос на фонемы / синтезировать новую речь, учитывая образцы речи?

Eeeeh .... OK?

Если я заменил строку

 Copy-Item $config -Destination  $config_target_dir

на

 Copy-Item $config.FullName $config_target_dir

, она неожиданно волшебным образом сработала ... .

Что дает?

16

phoneme signal-processing audio api

задан Nathan Wailes 14 September 2017 в 21:35

2 ответа

Lyrebird - это стартап, который работает над этой самой проблемой. Учитывая образцы голоса человека и некоторый письменный текст, он может синтезировать устную версию этого письменного текста в голосе человека в образцах.

1

ответ дан Nathan Wailes 14 September 2017 в 21:35

Другие вопросы по тегам:

phoneme signal-processing audio api

Похожие вопросы:

score 13 · Accepted Answer

Нет такого программного обеспечения. Разбиение произвольной речи на составляющие ее фонемы является лишь частично решаемой проблемой: программное обеспечение преобразования текста в текст все еще несовершенно, как и преобразование текста в речь .

Идея состоит в том, чтобы воспроизвести тембр голоса цели. Даже если бы вы смогли идеально сегментировать звук, переупорядочивание фонем произвело бы звук с неестественной частотой и интонацией, не говоря уже о артефактах сплайсинга. В этот момент вы переходите к сглаживанию, масштабированию по времени и коррекции высоты тона, которые все возможны и понятны в теории, но плохо работают с данными реального мира, особенно когда рассматриваемый аудиосэмпл такой короткий, как одна фонема и далее, когда тембр необходимо сохранить.

Эти проблемы усугубляются на фонетической стороне аллофоническим изменением звуков на основе акцента и окружающих фонем; чтобы достоверно воспроизводить даже низкокачественное приближение звука, вам необходимо детальное понимание языка, акцента и речевых шаблонов цели.

Кроме того, вашей конечной проблемой является социальная инженерия , и людей нелегко обмануть, когда речь заходит о голосах людей, которых они знают. Даже при большом объеме входных данных в лучшем случае можно получить короткую некачественную выборку, которой вряд ли хватит для разговора.

Итак, хотя это, конечно, возможно, это сложно; даже если бы он существовал, он не всегда был бы достаточно хорош.