В проекте есть модуль, который берет URL-адрес и определяет, относится ли он к веб-сайту «Электронная торговля» или «НЕЭЛЕКТРОННАЯ КОММЕРЦИЯ».
Я пробовал следующие подходы:
Использование Apache mahout, Классификация: URL ---> Взять дамп HTML ---> предварительно обработать дамп HTML с помощью a) удаление всех тегов html
b) удаление стоп-слов (также известных как обычные слова), таких как CDATA, href, value и, of, between и т. д.
c) обучающая модель с последующим ее тестированием.
Следующие параметры я использовал для обучения
bin / mahout trainclassifier \ -i training-data \ -o bayes-model \> -type bayes -ng 1
Тестирование:
/bin/mahout testclassifier \
-d test-data \
-m bayes-model \
-type bayes -source hdfs -ng 1 -method sequential
Точность я получаю как 73%, а с алгоритмом cbayes - 52%.
Я подумываю улучшить этап предварительной обработки, извлекая информацию, которую можно найти на веб-сайте электронной коммерции, например «кнопка оплаты», «ссылка на оплату», «символ цены / доллара», текст типа «наложенный платеж», «30 дней». gurantee "и т. д.
Какие-либо предложения о том, как извлечь эту информацию или какие-либо другие способы предсказать, что сайт является электронной коммерцией или не-электронной торговлей?