Есть ли сигнал- алгоритм обработки, который мог бы реконструировать то, как звуковая волна создавалась через голосовую систему группы людей?

Имея длинную аудиокассету с 3 динамиками, как получить информацию о том, как открываются / закрываются рты? У нас есть аудиозаписи с более чем одним выступающим. Звук чистый и не требует шумоподавления. Мы хотим создать анимацию с говорящими трехмерными головами. Обычно мы хотим выяснить это по движению рта звуковых данных.

На самом деле у нас есть трехмерные головы, которые каким-то образом движутся с помощью некоторой стандартной анимации. Подобно тому, как мы подготовили анимацию для звука O для каждого человека, нам нужна некоторая информация: в какой миллисекунде какой человек издал какой звук?

Таким образом, это похоже на голос в текст, но для звуков и для более чем одного человека на одной записи.

image with head on it

В общем (идеальный случай) мы хотим получить некоторые сигналы о перемещениях пар точек D9, D6, D5. От более чем одного докладчика, конечно, на английском языке.

Есть ли какие-нибудь статьи с алгоритмами или библиотеками с открытым исходным кодом?

На данный момент я нашел несколько библиотек

http://freespeech.sourceforge.net/ http://cmusphinx.sourceforge.net/

но я еще ни разу не использовал ни один из них ...

9
задан Rella 21 May 2011 в 02:24
поделиться