Что хорошая библиотека естественного языка должна использовать для перефразирования? [закрытый]

Я ищу существующую библиотеку, чтобы суммировать или перефразировать содержание (я стремлюсь к сообщениям в блоге) - опыт с существующими библиотеками обработки естественного языка?

Я открыт для множества языков, таким образом, я больше интересуюсь способностями и точностью.

12
задан Fabian Steeg 28 January 2009 в 00:24
поделиться

4 ответа

Ваше вхождение действительно далеко в домен типа AI. Я сделал обширную работу в текстовом преобразовании в знание машины главным образом с помощью Attempto Управляемый английский язык (см.: http://attempto.ifi.uzh.ch/site/), это - естественный язык (английский язык), который является полностью компьютером, processable в несколько различных онтологий, таких как OWLDL.

Кажется, что это было бы мы путь излишество хотя...

Существует ли причина того, чтобы не просто взять первые несколько предложений Вашего сообщения в блоге и затем добавить эллипс для Вашей сводки?

0
ответ дан 2 December 2019 в 20:43
поделиться

Было некоторое обсуждение Grok. Это теперь поддерживается как OpenCCG и будет повторно реализовано в OpenNLP также.

Можно найти OpenCCG по http://openccg.sourceforge.net/. Я также предложил бы синтаксический анализатор Curran и Clark CCG, доступный здесь: http://svn.ask.it.usyd.edu.au/trac/candc/wiki

В основном, для пересказа, в чем Вы испытываете необходимость, чтобы сделать, описывают что-то, что сначала разбирает предложения сообщений в блоге, извлекает семантическое значение этих сообщений и затем перерывает пространство vocab слов, которые композиционно создадут то же семантическое значение и затем выберут то, которое не соответствует текущему предложению. Это займет много времени, и это не могло бы иметь большой смысл. Не забывайте, что, чтобы сделать это, Вы испытываете необходимость в почти совершенном разрешении анафоры и способности взять выводы уровня дискурса.

Если Вы просто надеетесь делать сообщения в блоге, которые не имеют идентифицируемого машиной дублирующегося содержания, можно всегда просто использовать тему и фокусировать синонимы WordNet и преобразования. Определенно были сайты, которые делали деньги прочь AdWords, которые сделали это прежде.

10
ответ дан 2 December 2019 в 20:43
поделиться

Я думаю, что он хочет генерировать сообщения в блоге путем автоматического перефразирования того независимо от того, что было этим блоги, которые контролирует эта система.

Это было бы действительно интересно, если Вы могли бы объединить 2 - 10 сообщений в блоге, которые подобны, но из других источников и затем делают перефразируемую "реальную" сводку автоматически (размер 1 сообщения в блоге).

Это могло также быть большим для Homeworks. К сожалению, дело не в этом легкий сделать.

Единственным путем я видел, должен смочь разложить каждое предложение на "значение" и затем случайным образом изменить структуру предложения и некоторые слова, сохраняющие значение.

Эти предложения означают то же:

  • Я ненавижу этого парня, он является настолько немым.
  • Этот парень глуп, я ненавижу его.
  • Я презираю этого немого парня.
  • Он является немым, я ненавижу его.

Это было бы нетривиально для записи программы для преобразования одного из этих предложений другим, и это простые предложения, реальные предложения из блогов намного более сложны.

5
ответ дан 2 December 2019 в 20:43
поделиться

Спасибо за те ссылки. Похож на GROK, мертво - но он может работать все еще на мои цели.

Еще 2 ссылки:

Attempto Управляемый английский язык является интересным понятием: поскольку это - абсолютно обратный способ посмотреть на проблему. Едва ли практичный для того, что я пытаюсь сделать.

@mmattax Что касается предложения взятия нескольких предложений - я не пытаюсь представить сводку: иначе это было бы хорошим решением для дзюдо. Я надеюсь на самом деле суммировать содержание для использования для других целей оценки.

0
ответ дан 2 December 2019 в 20:43
поделиться
Другие вопросы по тегам:

Похожие вопросы: