У меня есть аудиопоток, и я извлек бы слова (речь) из него. Так, например, наличие audio.wav я получил бы 001.wav, 002.wav, 003.wav, и т.д. где каждый XXX.wav является одним словом.
Я ищу библиотеку или программу, чтобы сделать это - платформа не имеет значения, но я предпочитаю решение с открытым исходным кодом.
Заранее спасибо за справку.
Nuance , компания, которая производит Dragon Naturally Speaking , имеет ряд комплектов для разработки программного обеспечения .
Набор Audio Mining , похоже, соответствует вашим требованиям:
Dragon NaturallySpeaking SDK AudioMining - это не зависящий от динамика набор инструментов для распознавания речи, позволяет индексацию 100% речевая информация в аудиофайлах. В технологии используются высокоточные распознавание речи для превращения аудиофайлов в текст XML с отметкой времени Информация. Это может быть интегрировано со стандартными продуктами текстового поиска для обеспечить быстрый доступ к определенному аудио содержание.
Преобразование речи в речь + метаданные - безусловно, самая сложная часть для правильной работы. Когда у вас есть речь + метаданные, извлечение слов в виде отдельных аудиофайлов становится гораздо более простым .