Eeeeh .... OK?
Если я заменил строку
Copy-Item $config -Destination $config_target_dir
на
Copy-Item $config.FullName $config_target_dir
, она неожиданно волшебным образом сработала ... .
Что дает?
Нет такого программного обеспечения. Разбиение произвольной речи на составляющие ее фонемы является лишь частично решаемой проблемой: программное обеспечение преобразования текста в текст все еще несовершенно, как и преобразование текста в речь .
Идея состоит в том, чтобы воспроизвести тембр голоса цели. Даже если бы вы смогли идеально сегментировать звук, переупорядочивание фонем произвело бы звук с неестественной частотой и интонацией, не говоря уже о артефактах сплайсинга. В этот момент вы переходите к сглаживанию, масштабированию по времени и коррекции высоты тона, которые все возможны и понятны в теории, но плохо работают с данными реального мира, особенно когда рассматриваемый аудиосэмпл такой короткий, как одна фонема и далее, когда тембр необходимо сохранить.
Эти проблемы усугубляются на фонетической стороне аллофоническим изменением звуков на основе акцента и окружающих фонем; чтобы достоверно воспроизводить даже низкокачественное приближение звука, вам необходимо детальное понимание языка, акцента и речевых шаблонов цели.
Кроме того, вашей конечной проблемой является социальная инженерия , и людей нелегко обмануть, когда речь заходит о голосах людей, которых они знают. Даже при большом объеме входных данных в лучшем случае можно получить короткую некачественную выборку, которой вряд ли хватит для разговора.
Итак, хотя это, конечно, возможно, это сложно; даже если бы он существовал, он не всегда был бы достаточно хорош.
Lyrebird - это стартап, который работает над этой самой проблемой. Учитывая образцы голоса человека и некоторый письменный текст, он может синтезировать устную версию этого письменного текста в голосе человека в образцах.