Как автоматически пометить контент, необходимые алгоритмы и предложения

Я работаю с некоторыми действительно большими базами данных газетных статей, у меня они есть в базе данных MySQL, и я могу запрашивать их все.

Сейчас я ищу способы помочь мне пометить эти статьи описательными тегами.

Все эти статьи доступны по URL-адресу, который выглядит следующим образом:

http://web.site/CATEGORY/this-is-the-title-slug

Так что, по крайней мере, я могу использовать категорию, чтобы понять, с каким типом контента мы работаем. Однако я также хочу пометить тегами на основе текста статьи.

Мой первоначальный подход заключался в следующем:

  1. Получить все статьи
  2. Получить все слова, удалить все знаки препинания, разделить пробелами и подсчитать их по вхождению
  3. Проанализируйте их и отфильтруйте общие не описательные слова, такие как «они», «я», «это», «эти», «их» и т. Д.
  4. Когда все общие слова были отфильтрованы, единственное, что осталось - это слова, достойные тегов.

Но это оказалось довольно ручной задачей, а не очень красивым или полезным подходом.

Здесь также возникла проблема со словами или именами, разделенными пробелами, например, если 1.000 статей содержат имя «Джон Доу», а 1.000 статей содержат имя «Джон Хэнсон», я бы получил только слово «Джон» вне его, а не его имени и фамилии.

28
задан the Tin Man 18 May 2011 в 04:28
поделиться

1 ответ

Если контент представляет собой изображение или видео, ознакомьтесь со следующей статьей блога:

http://scottge.net/2015/06/30/automatic-image-and-video -tagging /

Существует два основных подхода к автоматическому извлечению ключевых слов из изображений и видео.

  1. Обучение множественному экземпляру (MIL)
  2. Глубокие нейронные сети (DNN), Рекуррентные нейронные сети (RNN) и варианты

В приведенной выше статье блога, Я перечисляю последние исследовательские работы, чтобы проиллюстрировать решения. Некоторые из них даже включают демонстрационный сайт и исходный код.

Если содержимое представляет собой большой текстовый документ, ознакомьтесь с этой статьей блога:

Лучшие API-интерфейсы для извлечения ключевых фраз на рынке http://scottge.net/2015/06/13/ Лучшая ключевая фраза-извлечение-apis-in-the-market /

Спасибо, Скотт

2
ответ дан 28 November 2019 в 03:20
поделиться
Другие вопросы по тегам:

Похожие вопросы: