Вопросы
Я хочу классифицировать / категоризировать / кластеризовать / сгруппировать набор из нескольких тысяч веб-сайтов . Есть данные, на которых мы можем обучаться, поэтому мы можем проводить обучение с учителем, но это не данные, которые мы собрали, и мы не категорически против их использования - поэтому мы также рассматриваем возможность обучения без учителя.
Какие функции я могу использовать в алгоритме машинного обучения для работы с многоязычными данными? Обратите внимание, что некоторые из этих языков могли не рассматриваться в поле «Обработка естественного языка».
Если бы мне пришлось использовать алгоритм обучения без учителя, должен ли я просто разделить данные по языкам и работать с каждым языком по-разному? В разных языках могут быть разные релевантные категории (или нет, в зависимости от ваших психолингвистических теоретических тенденций), которые могут повлиять на решение о разделении.
Я думал об использовании деревьев решений или, возможно, опорных векторных машин (SVM), чтобы учесть больше особенности (в моем понимании). В этом сообщении предлагаются случайные леса вместо SVM. Есть мысли?
Прагматические подходы приветствуются! (Теоретические тоже, но их можно приберечь для развлечения в будущем. )
Некоторый контекст
Мы пытаемся классифицировать корпус из многих тысяч веб-сайтов на 3-5 языках (возможно, до 10, но мы не уверены).
У нас есть обучающие данные в форме сотен сайтов уже классифицированы. Однако мы можем выбрать, использовать этот набор данных или нет - если другие категории имеют больше смысла, мы готовы не использовать имеющиеся у нас обучающие данные, поскольку это не то, что мы собрали в первую очередь. Мы находимся на завершающей стадии очистки данных / текста с веб-сайтов.
Теперь мы должны решить проблемы, указанные выше. Я поработал с Brown Corpus и теггером Brill, но это не сработает из-за проблемы с несколькими языками.
Мы намерены использовать пакет машинного обучения Orange .