Я работаю с некоторыми действительно большими базами данных газетных статей, у меня они есть в базе данных MySQL, и я могу запрашивать их все.
Сейчас я ищу способы помочь мне пометить эти статьи описательными тегами.
Все эти статьи доступны по URL-адресу, который выглядит следующим образом:
http://web.site/CATEGORY/this-is-the-title-slug
Так что, по крайней мере, я могу использовать категорию, чтобы понять, с каким типом контента мы работаем. Однако я также хочу пометить тегами на основе текста статьи.
Мой первоначальный подход заключался в следующем:
Но это оказалось довольно ручной задачей, а не очень красивым или полезным подходом.
Здесь также возникла проблема со словами или именами, разделенными пробелами, например, если 1.000 статей содержат имя «Джон Доу», а 1.000 статей содержат имя «Джон Хэнсон», я бы получил только слово «Джон» вне его, а не его имени и фамилии.
Если контент представляет собой изображение или видео, ознакомьтесь со следующей статьей блога:
http://scottge.net/2015/06/30/automatic-image-and-video -tagging /
Существует два основных подхода к автоматическому извлечению ключевых слов из изображений и видео.
В приведенной выше статье блога, Я перечисляю последние исследовательские работы, чтобы проиллюстрировать решения. Некоторые из них даже включают демонстрационный сайт и исходный код.
Если содержимое представляет собой большой текстовый документ, ознакомьтесь с этой статьей блога:
Лучшие API-интерфейсы для извлечения ключевых фраз на рынке http://scottge.net/2015/06/13/ Лучшая ключевая фраза-извлечение-apis-in-the-market /
Спасибо, Скотт