Посмотрев на некоторые сервисы / инструменты, я пришел к выводу. Большинство инструментов преобразования текста в речь имеют слишком сложные, роботизированные - другими словами, голоса плохого качества.
И да, вдобавок ко всему, похоже, что они поставляются с «жестко запрограммированными» голосовыми шаблонами, поэтому сокращение разнообразие / индивидуальность. Некоторые инструменты позволяют вам установить скорость и высоту чтения », но этого недостаточно.
Я предполагаю, что проблема, лежащая в основе эмоционального аспекта - сложно судить об эмоциях по простому тексту, тем более, если это всего лишь одно или два предложения. Кроме того, старый добрый ПК - это машина - машины не обладают эмоциями, но это уже другая история.
Больше всего меня беспокоит качество. Например, существуют инструменты, которые срезают верхнюю часть слов, что приводит к появлению техничных голосов. Похоже, возникла проблема с построением предложения или что-то в этом роде. И да, пока люди работают над такими инструментами, мне интересно, что мешает им еще немного поработать над их улучшением ... отрезать верхушку, это немаловажное дело! Кроме того, нужно иметь в виду, что хорошее, качественное программное обеспечение для преобразования текста в речь стоит, ну ... МНОГО! В результате получается довольно прибыльный продукт.
О, за беглостью я скрываю вопросы, восклицания и так далее. (Возможно, это не относится к беглости речи, но я не являюсь родным английским, пожалуйста, извините меня, если это так.)
- Локендо : не хватает разнообразия голоса, есть некоторые незначительные проблемы с апексом / беглостью (зависит от предложения), слишком много кашля и оправданий в примерах!
- Nuance Vocalizer : хотя по-прежнему не хватает разнообразия, некоторые из предоставленных голосов достойны.
- eSpeak : один из лучших роботов, отсюда и логотип программы (?!)
- Natural Reader (тупой автовоспроизведение !!) : хорошо, у него есть некоторая беглость, но все же возникает чувство техничности.
- iSpeech : добрый смех при установке японского голоса с английским текстом. Держу пари, японские парни не очень довольны этим.
- Cepstral + Enhanced Voices ... плюс улучшенные голоса дают старый добрый дерьмовый результат, так что, кроме ~ 5 голосов, ничего не улучшено.
- AT&T : неплохая беглость, но проблемы с окончанием предложений и слишком много робо!
- LumenVox TTS : выглядит как будто исходит из фона с множеством речевых инструментов, но все же приводит к роботизированным голосам.
- И еще ...
Если я пропустил что-то стоящее, поделитесь. Может быть бесплатным, коммерческим, сверхдорогим ... пока это работает, мне интересно!
И вопрос ( -s ) ..