Программное обеспечение с открытым исходным кодом для расшифровки речи в аудиофайлах

Может ли кто-нибудь порекомендовать надежное программное обеспечение с открытым исходным кодом для расшифровки английской речи в файлах wav? Две основные программы, которые я исследовал, - это Sphinx и Julius , но мне так и не удалось заставить их работать, и документация по каждой из них по расшифровке файлов в лучшем случае отрывочна. .

Я разрабатываю 64-битную Ubuntu 10.04, репозитории которой включают sphinx2 и julius, а также акустическую модальную версию voxforge julius для английского языка. Я сосредотачиваюсь на расшифровке файлов вместо прямой обработки звука с микрофона, потому что я отказался от ожиданий, что такие проекты будут работать со звуковой системой Ubuntu. Это не удар по Ubuntu, так как я могу отлично записывать звук с помощью своего микрофона, используя Audacity, но ни одна из систем, похоже, не может получить доступ к моему микрофону, поэтому я надеюсь, что смогу просто их конфигурацию, просто прочитав из файла.

Сначала я попробовал Sphinx2 из пакета Ubuntu sphinx2-bin. Несмотря на то, что образец sphinx2-demo, похоже, работал с расшифровкой файла, документации по конфигурации практически нет, поэтому я не уверен, как бы настроить его для чтения из произвольного wav. Аудиофайл, используемый в демонстрации, имеет некий недокументированный формат «16k», на который косвенно ссылаются через 2 файла конфигурации.Есть краткое объявление, в котором sphinx2-demo описывается как запущенный sphinx2-batch, но проверка скрипта показывает, что он на самом деле вызывает sphinx2-continuous. Хуже того, в документации --help для каждого сценария перечислено около 6 дюжин параметров, и не упоминается, какие из них являются обязательными или необязательными. В целом, отсутствие документации по сфинксу и низкое качество существующей документации сводят меня с ума.

Затем я попробовал Julius, снова из пакета Ubuntu, который был на удивление недавним (4.1), учитывая, что в кратком руководстве Voxforge используется версия 3.5. Кажется, что пакет включает немного лучшую документацию и даже пример, написанный на Python (/ usr / share / doc / julius-voxforge / examples / controlapp). После прочтения документации примера я попытался адаптировать его для чтения из файла, создав файл filelist.txt , содержащий текст «hello.wav», относящийся к файлу с тем же именем, содержащему запись кого-то. поздороваться". Поместив их в тот же каталог, я выполнил:

julius -input file -filelist filelist.txt -C julian.jconf

и получил ответ:

### read waveform input
Error: adin_file: sampling rate != 16000 (8000)
Error: adin_file: error in parsing wav header at hello.wav
Error: adin_file: failed to read speech data: "hello.wav"
0 files processed

Повторная попытка с указанием абсолютных имен файлов для filelist.txt и hello.wav приводит к той же ошибке.

Я также пробовал использовать вызов Julius, использованный в примере, для записи непосредственно с микрофона:

julius -input mic -C julian.jconf

Я вызвал его несколько раз, и ответ менялся в зависимости от ошибки:

Cannot read /dev/dsp

и:

STAT: AD-in thread created
<<< please speak >>>

В последнем случае , что бы я ни сказал в микрофон, ничего не происходит. Я не могу сказать, не может ли он по-прежнему читать микрофон или что-то читает, но просто не может расшифровать звук.

Я не знаю, что с этим делать. Ошибки, которые я получаю, не оставляют мне много дел.Почему он не может читать wav? Почему он не может читать / dev / dsp? Почему тогда кажется, что он может читать / dev / dsp, но никак не реагировать?

Кто-нибудь еще имел какой-либо успех с распознавателями речи с открытым исходным кодом, особенно в Linux?

19
задан Cerin 30 September 2011 в 16:06
поделиться