Как я могу программно сгенерировать соответствующие теги для базы данных URL-адресов?

Я пишу программу для чтения RSS на python в качестве обучающего упражнения, и мне бы очень хотелось иметь возможность помечать отдельные записи ключевыми словами для поиска. К сожалению, большинство реальных каналов не содержат метаданных ключевых слов. В настоящее время в моей тестовой базе данных имеется около 60 000 записей из примерно 600 каналов, поэтому ручная пометка не будет эффективной. Пока мне удалось найти только два решения:

1: использовать Natural Language Toolkit для извлечения ключевых слов:

  • Плюсы: гибкость; нет зависимости от внешних служб
  • Минусы: можно индексировать только краткое содержание статьи, но не статью; Нетривиально: написание высококачественного инструмента для извлечения ключевых слов - это уже отдельный проект;

2: Используйте Google Adwords API , чтобы получать предложения ключевых слов из URL статьи:

  • Плюсы: Супер высокое качество ключевые слова; на основе всего текста статьи; проста в использовании
  • Минусы: Не бесплатно (?); Пределы скорости запроса неизвестны; Я боюсь, что мою учетную запись забанят, и я не смогу проводить кампании AdWords для моих коммерческих сайтов;

Кто-нибудь может предложить какие-нибудь предложения? Являются ли мои опасения по поводу блокировки моей учетной записи AdWords необоснованными?

5
задан Parker Ault 17 January 2011 в 05:28
поделиться