Как автоматически пометить контент, необходимые алгоритмы и предложения

Question

Как автоматически пометить контент, необходимые алгоритмы и предложения

Я работаю с некоторыми действительно большими базами данных газетных статей, у меня они есть в базе данных MySQL, и я могу запрашивать их все.

Сейчас я ищу способы помочь мне пометить эти статьи описательными тегами.

Все эти статьи доступны по URL-адресу, который выглядит следующим образом:

http://web.site/CATEGORY/this-is-the-title-slug

Так что, по крайней мере, я могу использовать категорию, чтобы понять, с каким типом контента мы работаем. Однако я также хочу пометить тегами на основе текста статьи.

Мой первоначальный подход заключался в следующем:

Получить все статьи
Получить все слова, удалить все знаки препинания, разделить пробелами и подсчитать их по вхождению
Проанализируйте их и отфильтруйте общие не описательные слова, такие как «они», «я», «это», «эти», «их» и т. Д.
Когда все общие слова были отфильтрованы, единственное, что осталось - это слова, достойные тегов.

Но это оказалось довольно ручной задачей, а не очень красивым или полезным подходом.

Здесь также возникла проблема со словами или именами, разделенными пробелами, например, если 1.000 статей содержат имя «Джон Доу», а 1.000 статей содержат имя «Джон Хэнсон», я бы получил только слово «Джон» вне его, а не его имени и фамилии.

28

tags nlp tagging

задан the Tin Man 18 May 2011 в 04:28

1 ответ

Другие вопросы по тегам:

tags nlp tagging

Похожие вопросы:

score 2 · Answer 1

Если контент представляет собой изображение или видео, ознакомьтесь со следующей статьей блога:

http://scottge.net/2015/06/30/automatic-image-and-video -tagging /

Существует два основных подхода к автоматическому извлечению ключевых слов из изображений и видео.

Обучение множественному экземпляру (MIL)
Глубокие нейронные сети (DNN), Рекуррентные нейронные сети (RNN) и варианты

В приведенной выше статье блога, Я перечисляю последние исследовательские работы, чтобы проиллюстрировать решения. Некоторые из них даже включают демонстрационный сайт и исходный код.

Если содержимое представляет собой большой текстовый документ, ознакомьтесь с этой статьей блога:

Лучшие API-интерфейсы для извлечения ключевых фраз на рынке http://scottge.net/2015/06/13/ Лучшая ключевая фраза-извлечение-apis-in-the-market /

Спасибо, Скотт