Монитор выпускается под брендом с общими словами

Скажем, необходимо контролировать бренд "ONE" онлайн. Какие алгоритмы могут использоваться для разделения страниц о бренде ОДИН от страниц, содержащих общее слово ОДИН?

Я думаю, возможно, что Bayes мог работать, но является там другими способами сделать это?

13
задан Christian Davén 15 February 2010 в 13:08
поделиться

6 ответов

Если это не совсем уникальное слово, то я бы предложил следующий подход.

Представим, что наше ключевое слово - Java. Тогда есть как минимум 2 категории: о программировании и о туризме в Индонезии. Нас интересует первая.

Возьмем небольшой текст о Java (возможно, из книг или из Википедии). Затем примем некоторое пороговое значение (например, 0,7). Затем сравним наш текст с различными страницами (одним из самых быстрых способов является использование Classic Vector Space Model алгоритма, вы можете реализовать его самостоятельно или найти его реализацию в google). Затем сравните результаты с вашим порогом и отфильтруйте слабые результаты.


Насчет использования алгоритма Байеса: это неплохой подход, имо. Но вы должны "обучать" свой алгоритм очень осторожно, потому что несколько плохих входных данных могут испортить всю работу.

Позвольте мне объяснить. Входом для вашего алгоритма Байеса является текст с вашим фирменным словом. Выход - вероятность [0 ... 1] того, что текст относится к вашему бренду, а не к чему-то другому. На практике этот алгоритм очень часто дает результаты, близкие к 0 или близкие к 1, и редко возвращает значения между 0,2 и 0,8. Это означает, что алгоритм очень чувствителен к небольшим отклонениям, и 1-2 слова в тексте из 100 слов могут серьезно повлиять на результат.

5
ответ дан 2 December 2019 в 00:46
поделиться

Вы можете связать бренд ONE с его продуктами, его руководителями или конкурентами в вашем мониторинге.

4
ответ дан 2 December 2019 в 00:46
поделиться

Я подошел к делу, рассматривая Википедию как гигантскую онтологию (где каждая гиперссылка - это связь между исходным и конечным узлами).

РЕДАКТИРОВАТЬ: Один очень грубый алгоритм с примером «Java»:

  • Запрос «Java» в википедии. Среди других это должно дать вам (как минимум ) остров и язык программирования .
  • Получить узлы входа / выхода этих базовых страниц (из гиперссылок базовых страниц).
  • Теперь у вас есть небольшие наборы коррелированных слов.
  • Вычислите «расстояние» каждого набора до страницы и найдите минимальное из этих расстояний.

Расстояние, которое вы будете использовать, очень субъективно и должно быть немного изменено в соответствии с вашими потребностями. У вас также могут возникнуть проблемы с получением "ядра" каждой страницы, поскольку синтаксический анализ HTML будет серьезной проблемой.

1
ответ дан 2 December 2019 в 00:46
поделиться

Вам нужен термин Обучение концепту или Извлечение концепции . Слово Один встречается на многих страницах, но чаще всего оно относится к концепции единицы как количества. Лишь изредка это относится к концепции ОДНОГО бренда. (Другой часто используемый пример - СОЛНЦЕ, как в астральном объекте Солнце, или компания под названием Солнце).

Я знаю, что Ари Раппопорт провел много исследований по этой теме. На практике это сводится к чему-то вроде ответа mouviciel , но исследование Ари также посвящено тому, как вы можете автоматически сделать вывод, какие родственные слова вам нужно искать, чтобы отличить единицу как число от один бренд.

2
ответ дан 2 December 2019 в 00:46
поделиться

Я бы предложил неконтролируемый подход к проблеме:

  1. Получите как можно больше документов, которые описывают "ОДИН" в правильном контексте, и создайте корпус.

  2. Найдите статистически невероятные фразы в этом корпусе по сравнению со стандартным корпусом английского языка.

этот веб-сайт является хорошим примером
http://sip.s-anand.net/?url=http://en.wikipedia.org/wiki/Apple_Inc .

Как видите, термины, относящиеся к конкретным брендам, такие как ipod, powerpc и т.д., легко отфильтровываются.

После того, как вы извлечете их, вы можете создать оповещение Google или аналогичный эквивалент (если оповещения Google слишком упрощены) с такими запросами, как «SIP» И «ONE» для отслеживания новых статей.

Конечно, учитывая этот подход без присмотра, он может быть не очень эффективным, но должен работать.

1
ответ дан 2 December 2019 в 00:46
поделиться

Другой подход может заключаться в поиске страницы в Каталоге Google , где «Интернет организован по темам в категории». Вы можете использовать информацию о категории для каждой страницы, чтобы решить, о чем она.

0
ответ дан 2 December 2019 в 00:46
поделиться
Другие вопросы по тегам:

Похожие вопросы: