Как программно определить, относится ли URL-адрес к веб-сайту электронной коммерции или нет?

В проекте есть модуль, который берет URL-адрес и определяет, относится ли он к веб-сайту «Электронная торговля» или «НЕЭЛЕКТРОННАЯ КОММЕРЦИЯ».

Я пробовал следующие подходы:

  1. Использование Apache mahout, Классификация: URL ---> Взять дамп HTML ---> предварительно обработать дамп HTML с помощью a) удаление всех тегов html

    b) удаление стоп-слов (также известных как обычные слова), таких как CDATA, href, value и, of, between и т. д.

    c) обучающая модель с последующим ее тестированием.

Следующие параметры я использовал для обучения

bin / mahout trainclassifier \ -i training-data \ -o bayes-model \> -type bayes -ng 1

Тестирование:

/bin/mahout testclassifier \
  -d test-data \
  -m bayes-model \
  -type bayes -source hdfs -ng 1 -method sequential

Точность я получаю как 73%, а с алгоритмом cbayes - 52%.

Я подумываю улучшить этап предварительной обработки, извлекая информацию, которую можно найти на веб-сайте электронной коммерции, например «кнопка оплаты», «ссылка на оплату», «символ цены / доллара», текст типа «наложенный платеж», «30 дней». gurantee "и т. д.

Какие-либо предложения о том, как извлечь эту информацию или какие-либо другие способы предсказать, что сайт является электронной коммерцией или не-электронной торговлей?

6
задан Thomas Jungblut 22 January 2012 в 15:01
поделиться