Выбор функций и обучение без учителя для многоязычных данных + выбор алгоритма машинного обучения

Вопросы

Я хочу классифицировать / категоризировать / кластеризовать / сгруппировать набор из нескольких тысяч веб-сайтов . Есть данные, на которых мы можем обучаться, поэтому мы можем проводить обучение с учителем, но это не данные, которые мы собрали, и мы не категорически против их использования - поэтому мы также рассматриваем возможность обучения без учителя.

  • Какие функции я могу использовать в алгоритме машинного обучения для работы с многоязычными данными? Обратите внимание, что некоторые из этих языков могли не рассматриваться в поле «Обработка естественного языка».

  • Если бы мне пришлось использовать алгоритм обучения без учителя, должен ли я просто разделить данные по языкам и работать с каждым языком по-разному? В разных языках могут быть разные релевантные категории (или нет, в зависимости от ваших психолингвистических теоретических тенденций), которые могут повлиять на решение о разделении.

  • Я думал об использовании деревьев решений или, возможно, опорных векторных машин (SVM), чтобы учесть больше особенности (в моем понимании). В этом сообщении предлагаются случайные леса вместо SVM. Есть мысли?

Прагматические подходы приветствуются! (Теоретические тоже, но их можно приберечь для развлечения в будущем. )

Некоторый контекст

Мы пытаемся классифицировать корпус из многих тысяч веб-сайтов на 3-5 языках (возможно, до 10, но мы не уверены).

У нас есть обучающие данные в форме сотен сайтов уже классифицированы. Однако мы можем выбрать, использовать этот набор данных или нет - если другие категории имеют больше смысла, мы готовы не использовать имеющиеся у нас обучающие данные, поскольку это не то, что мы собрали в первую очередь. Мы находимся на завершающей стадии очистки данных / текста с веб-сайтов.

Теперь мы должны решить проблемы, указанные выше. Я поработал с Brown Corpus и теггером Brill, но это не сработает из-за проблемы с несколькими языками.

Мы намерены использовать пакет машинного обучения Orange .

5
задан Community 23 May 2017 в 10:33
поделиться