Анализ текста для неструктурированных данных

Люди, о которых говорилось выше, уже в значительной степени объяснили эту проблему, но одна вещь, которая может прояснить ситуацию, заключается в том, что, хотя люди используют '<br/>' и все это время в HTML документах, любой '/' в таком положении в основном игнорируется и используется только при попытке сделать что-то как синтаксическое, так и XML и HTML. Например, попробуйте '<p/>foo</p>', и вы получите обычный параграф.

0
задан rames 7 March 2019 в 09:50
поделиться

1 ответ

Наивный байесовский классификатор является контролируемым методом обучения и требует от вас его обучения с использованием помеченных данных, в которых вы заранее знаете цели. Затем вы можете использовать его на немаркированных данных для прогнозирования будущих значений, но вы не можете обучить его на данных без целевых значений.

Трудно рекомендовать другой метод, не зная больше о вашей задаче, но похоже, что вы хотите изучить алгоритмы кластеризации без контроля. k-means - относительно простой для начала.

0
ответ дан Andrew McDowell 7 March 2019 в 09:50
поделиться
Другие вопросы по тегам:

Похожие вопросы: