Как определить идеи и понятия в данном тексте

Я работаю над проектом в данный момент, где было бы действительно полезно смочь обнаружить, когда определенная тема/идея упоминается в теле текста. Например, если текст содержал:

Возможно, если Вы говорите мне немного больше о том, кто г-н Jones, который помог бы. Также было бы полезно, если у меня могло бы быть описание его появления или еще лучше фотография?

Было бы замечательно смочь обнаружить, что человек попросил фотографию г-на Jones. Я мог проявить действительно наивный подход и просто искать слово "фотография" или "фотография", но это, очевидно, было бы бесполезно, если бы они записали что-то как:

Никогда не отправляйте мне фотографию г-на Jones.

Кто-либо знает, где запустить с этого? Это даже возможно?

Я изучил вещи как nltk, но я должен все же найти пример кого-то делающего что-то подобное, и все еще не совершенно уверено, чем называют этот вид анализа. Любая справка, которая может успешно начать меня, была бы большой.

Спасибо!

9
задан Nick 18 May 2010 в 09:45
поделиться

3 ответа

NLTK - неплохой фреймворк для разбора естественного языка, но имейте в виду, что это не простое дело. Выполнение подобных вещей - это программирование исследовательского уровня.

Хорошая вещь, которая значительно облегчает задачу, - это если у вас очень ограниченный домен - скажем, ваше приложение сосредоточено на информации о знаменитых писателях, тогда вы можете избежать некоторых сложностей естественного языка, таких как определенные типы двусмысленностей.

С чего начать? Хороший вопрос. Я не знаю никаких учебных пособий по этой теме (и я предполагаю, что вы попробовали вариант Google), но я полагаю, что в iTunes U есть курс по этой теме. Если нет, я могу опубликовать ссылку на курс, который я сделал, который упоминает эту тему и не был полностью ужасным: http://www.inf.ed.ac.uk/teaching/courses/inf2a/lecturematerials/index.html#lecture01

1
ответ дан 3 November 2019 в 07:12
поделиться

Лучшее, что может быть вам полезно, - это автоматический анализ настроений. Это используется, например, для определения того, является ли отзыв клиента положительным или отрицательным. Я не могу дать вам прямых указателей на доступные инструменты, но это то, что вы ищете.

Однако я должен сказать, что это актуальная тема в обработке естественного языка, и я видел ряд докладов на конференциях. Это определенно довольно сложный вопрос, и если вы начинаете с нуля, может пройти некоторое время, прежде чем вы добьетесь желаемых результатов.

3
ответ дан 3 November 2019 в 07:12
поделиться

Проблема, которую вы решаете, очень сложная.

Я бы начал с определения сущностей в тексте (проблема называется «Распознавание именованных сущностей», погуглите), а затем попытаюсь определить концепции.

Если вы хотите приблизительно определить, о чем идет речь, я предлагаю вам начать с использования WordNet и в соответствии со словами и их местами в иерархии, чтобы определить задействованные концепции. Если вы хотите создать систему, которая показывает настоящий интеллект, вам следует начать исследование таких ресурсов, как CYC (OpenCYC), которые позволят вам преобразовывать предложения в предложения FOL.

Это хардкорный ИИ, подход к решению вашей проблемы. Простому чат-боту было бы проще полагаться на простые статистические методы.

удачи

1
ответ дан 3 November 2019 в 07:12
поделиться
Другие вопросы по тегам:

Похожие вопросы: