Имея длинную аудиокассету с 3 динамиками, как получить информацию о том, как открываются / закрываются рты? У нас есть аудиозаписи с более чем одним выступающим. Звук чистый и не требует шумоподавления. Мы хотим создать анимацию с говорящими трехмерными головами. Обычно мы хотим выяснить это по движению рта звуковых данных.
На самом деле у нас есть трехмерные головы, которые каким-то образом движутся с помощью некоторой стандартной анимации. Подобно тому, как мы подготовили анимацию для звука O для каждого человека, нам нужна некоторая информация: в какой миллисекунде какой человек издал какой звук?
Таким образом, это похоже на голос в текст, но для звуков и для более чем одного человека на одной записи.
В общем (идеальный случай) мы хотим получить некоторые сигналы о перемещениях пар точек D9, D6, D5. От более чем одного докладчика, конечно, на английском языке.
Есть ли какие-нибудь статьи с алгоритмами или библиотеками с открытым исходным кодом?
На данный момент я нашел несколько библиотек
http://freespeech.sourceforge.net/ http://cmusphinx.sourceforge.net/
но я еще ни разу не использовал ни один из них ...