Каков хороший подход для извлечения ключевых слов из отправленного пользователем текста?

Я создаю сайт, который позволяет пользователям разобраться в дебатах, графически представляя аргументы за и против конкретной проблемы. ( Wrangl )

Я хотел бы разделить эти дебаты на категории, чтобы их было легче найти и связать. Я не хочу раздражать человека, создающего дебаты, прося их добавить теги и категории до того, как они увидят какую-либо выгоду, поэтому я ищу способ автоматического извлечения ключевых слов.

Какой хороший подход для принятия дебатов заголовок и описание (и, возможно, содержание самих аргументов, если они есть), чтобы вытащить, скажем, десять сильных ключевых слов, которые можно использовать в качестве метаданных для объединения подобных дебатов или даже в качестве содержимого тега «meta» с ключевыми словами в заголовке HTML-страницы, на которой можно просмотреть дебаты. Например. Datamapper vs ActiveRecord

Сайт написан на Ruby с Sinatra, с использованием DataMapper для хранения данных. В идеале я ищу что-то, что будет работать на Heroku (у меня нет способа динамически записывать файлы на диск), и я бы рассмотрел веб-службу, API или, в идеале, драгоценный камень Ruby.

6
задан Christopher 21 March 2011 в 12:07
поделиться