Я хочу знать о различных методах, чтобы сделать распознавание речи и текст к речевому преобразованию. Также сообщите мне о любых ресурсах как ссылки, учебные руководства, электронные книги и т.д. на нем.
Который является самой эффективной техникой для достижения его?
Я отвечу на часть о распознавании речи (поскольку я мало что знаю о распознавании речи по тексту):
Эта книга "Статистические методы распознавания речи" - классика, объясняющая математические основы статистического распознавания речи, написанная основателем этой области Фредериком Елинеком.
Самая важная концепция, которую вы должны знать, - это Скрытые модели Маркова. Люди используют их в распознавании речи на протяжении десятилетий. Недавний подход использует Conditional Random Fields , см. документ (PDF) и соответствующий программный инструментарий SCARF.
Довольно сложно написать свой собственный распознаватель речи. Это область активных исследований с несколькими научными конференциями, например ASRU, Interspeech, ICASSP.
.Обе области очень широкие. О признании: В данной схеме вы найдете, как построить базовую систему автоматического распознавания речи. Она ни в коем случае не близка к началу искусства, но является чем-то достижимым, и она работает . Если вы хотите сделать что-то более продвинутое, читайте о кепстральных коэффициентах и скрытых моделях Маркова. Взгляните на HTK, это широко используемый инструментарий для Скрытых моделей Маркова.
О тексте к речи: Я бы посмотрел на Фестиваль.
.Раз уж вы упомянули MS -
, вам просто нужно взглянуть на сайт Microsoft Speech. Он содержит множество ресурсов для работы с речью, включая ТТС и распознавание речи.
Есть несколько сфинксов. Основные активные - карманный сфинкс и сфинкс4.
Sphinx4 написан на Java. Он лучше подходит для настольных и веб-приложений.
Pocketsphinx написан на C. Он лучше подходит для встраиваемых устройств. Существуют приложения для iphone/android, которые используют его.
Звучит так, как будто вы хотите использовать pocketphinx. Попробуйте этот учебник: http://www.speech.cs.cmu.edu/sphinx/tutorial.html
Лучшее место, чтобы задавать вопросы pocketphinx/sphinx4 - на форуме sourceforge на CMU.
Также вы должны предоставить больше информации о том, что вы собираетесь сделать.
Что касается книг, то библией распознавания речи является "Spoken Language Processing"
.Если вы ищете какой-то реальный код, то обратите внимание на Sphinx, проект распознавания речи с открытым исходным кодом от CMU. Он не написан на Си++, но если вас интересуют алгоритмы, то в нём реализована куча вещей, из которых можно поучиться. (Хотелось бы повторить и точку зрения @dehmann: читайте на скрытых марковских моделях.)
.Если вам интересно, что делать с вашим распознаванием необычной речи, прочтите: Дизайн голосового взаимодействия, Рэнди Аллен Харрис
Он дает отличные советы о том, когда использовать Voice и как использовать его в приложении.