НЛТК / НЛП построение предметного классификатора "многие-ко-многим" / с несколькими ярлыками

У меня есть помеченный людьми корпус из более чем 5000 тематических индексированных документов в XML. Они различаются по размеру от нескольких сотен килобайт до нескольких сотен мегабайт. Краткие статьи к рукописям. Все они были проиндексированы до уровня абзаца. Мне повезло, что у меня есть такой корпус, и я пытаюсь научить себя некоторым концепциям НЛП. По общему признанию, я только начал. Пока читаю только свободно распространяемую книгу NLTK, streamhacker и просматривая jacobs (?) Кулинарную книгу NLTK. Мне нравится экспериментировать с некоторыми идеями.

Мне было предложено, возможно, взять биграммы и использовать наивную байесовскую классификацию для маркировки новых документов. Я чувствую, что это неправильный подход.Наивный Байес хорошо разбирается в отношениях истинно / ложно, но чтобы использовать его в моем иерархическом наборе тегов, мне нужно было бы создать новый классификатор для каждого тега. Их почти 1000. У меня достаточно памяти и процессора для выполнения такой задачи, но я скептически отношусь к результатам. Однако сначала я попробую этот подход, чтобы удовлетворить чью-то просьбу. Скорее всего, я должен сделать это в ближайшие день или два, но я прогнозирую, что точность будет низкой.

Так что мой вопрос немного открытый. Скорее всего, из-за характера дисциплины и общего несоответствия моим данным будет трудно дать точный ответ.

  1. Какой классификатор подходит для этой задачи. Был ли я неправ, можно ли использовать байесовский метод для чего-то большего, чем истинная / ложная операция?

  2. какую функцию извлечения я должен предпринять для такой задачи. Я не жду многого от биграмм.

Каждый документ также содержит некоторую цитируемую информацию, включая автора / авторов, пол авторов m, f, mix (m & f) и другие (Gov't inst et al.), Тип документа, дату публикации (16-й ст. к текущему моменту), человек-аналитик и несколько других общих элементов. Я также был бы признателен за некоторые полезные описательные задачи, которые помогут лучше исследовать эти данные на предмет гендерной предвзятости, предвзятости аналитиков и т. Д. Но поймите, что это немного выходит за рамки этого вопроса.

7
задан matchew 15 October 2011 в 19:32
поделиться