Как реализовать распознавание речи и синтез речи по тексту в C++?

Я хочу знать о различных методах, чтобы сделать распознавание речи и текст к речевому преобразованию. Также сообщите мне о любых ресурсах как ссылки, учебные руководства, электронные книги и т.д. на нем.

Который является самой эффективной техникой для достижения его?

12
задан Ashish 23 December 2009 в 06:00
поделиться

6 ответов

Я отвечу на часть о распознавании речи (поскольку я мало что знаю о распознавании речи по тексту):

http://ecx.images-amazon.com/images/I/4190SZC61CL._BO2,204,203,200_PIsitb-sticker-arrow-click,TopRight,35,-76_AA240_SH20_OU01_.jpg

Эта книга "Статистические методы распознавания речи" - классика, объясняющая математические основы статистического распознавания речи, написанная основателем этой области Фредериком Елинеком.

Самая важная концепция, которую вы должны знать, - это Скрытые модели Маркова. Люди используют их в распознавании речи на протяжении десятилетий. Недавний подход использует Conditional Random Fields , см. документ (PDF) и соответствующий программный инструментарий SCARF.

Довольно сложно написать свой собственный распознаватель речи. Это область активных исследований с несколькими научными конференциями, например ASRU, Interspeech, ICASSP.

.
8
ответ дан 2 December 2019 в 06:08
поделиться

Обе области очень широкие. О признании: В данной схеме вы найдете, как построить базовую систему автоматического распознавания речи. Она ни в коем случае не близка к началу искусства, но является чем-то достижимым, и она работает . Если вы хотите сделать что-то более продвинутое, читайте о кепстральных коэффициентах и скрытых моделях Маркова. Взгляните на HTK, это широко используемый инструментарий для Скрытых моделей Маркова.

О тексте к речи: Я бы посмотрел на Фестиваль.

.
6
ответ дан 2 December 2019 в 06:08
поделиться

Раз уж вы упомянули MS -

, вам просто нужно взглянуть на сайт Microsoft Speech. Он содержит множество ресурсов для работы с речью, включая ТТС и распознавание речи.

3
ответ дан 2 December 2019 в 06:08
поделиться

Есть несколько сфинксов. Основные активные - карманный сфинкс и сфинкс4.

Sphinx4 написан на Java. Он лучше подходит для настольных и веб-приложений.

Pocketsphinx написан на C. Он лучше подходит для встраиваемых устройств. Существуют приложения для iphone/android, которые используют его.

Звучит так, как будто вы хотите использовать pocketphinx. Попробуйте этот учебник: http://www.speech.cs.cmu.edu/sphinx/tutorial.html

Лучшее место, чтобы задавать вопросы pocketphinx/sphinx4 - на форуме sourceforge на CMU.

Также вы должны предоставить больше информации о том, что вы собираетесь сделать.

Что касается книг, то библией распознавания речи является "Spoken Language Processing"

.
4
ответ дан 2 December 2019 в 06:08
поделиться

Если вы ищете какой-то реальный код, то обратите внимание на Sphinx, проект распознавания речи с открытым исходным кодом от CMU. Он не написан на Си++, но если вас интересуют алгоритмы, то в нём реализована куча вещей, из которых можно поучиться. (Хотелось бы повторить и точку зрения @dehmann: читайте на скрытых марковских моделях.)

.
3
ответ дан 2 December 2019 в 06:08
поделиться

Если вам интересно, что делать с вашим распознаванием необычной речи, прочтите: Дизайн голосового взаимодействия, Рэнди Аллен Харрис

Он дает отличные советы о том, когда использовать Voice и как использовать его в приложении.

1
ответ дан 2 December 2019 в 06:08
поделиться
Другие вопросы по тегам:

Похожие вопросы: