Частеречная разметка на немецком языке

Также попробуйте свой метод для получения случайного идентификатора между МИН (идентификатор) и МАКСОМ (идентификатор), и затем

SELECT TOP 1 * FROM table WHERE Id >= @yourrandomid

Это будет всегда получать Вас одна строка.

24
задан Markus Amalthea Magnuson 26 November 2015 в 16:25
поделиться

2 ответа

Программное обеспечение на естественном языке творит чудеса, используя корпуса и предоставляемую ими статистику. Вам нужно будет сообщить nltk о каком-то немецком корпусе, чтобы помочь ему правильно разметить немецкий язык. Я считаю, что корпус EUROPARL может помочь вам в этом.

См. nltk.corpus.europarl_raw и этот ответ для примера конфигурации.

Также рассмотрите возможность пометки этого вопроса с помощью «nlp».

22
ответ дан 28 November 2019 в 23:28
поделиться

Тегирование части речи (POS) очень характерно для конкретного [естественного] языка. NLTK включает в себя множество различных тегеров, которые используют разные методы для определения тега данного токена в данном токене. Большинство (но не все) из этих теггеров используют своего рода статистическую модель в качестве основного или единственного средства «сделать свое дело». Такие теггеры требуют некоторых «обучающих данных», на основе которых строится это статистическое представление языка, а обучающие данные поступают в виде корпусов.

Само «распределение» NTLK включает в себя многие из этих корпусов, а также набор «читателей корпусов», которые предоставляют API для чтения корпусов различных типов. Я не знаю, как обстоят дела в самом НТЛК, и есть ли там какой-нибудь немецкий корпус. Однако вы можете бесплатно найти несколько бесплатных корпусов, которые затем нужно будет преобразовать в формат, который удовлетворяет требованиям надлежащего читателя корпусов NTLK, а затем вы можете использовать это для обучения тегировщика POS для немецкого языка.

Вы даже можете создать свой собственный корпус, но это чертовски кропотливая работа; если вы работаете в университете, вам нужно найти способы подкупить или иным образом принуждать студентов делать это за вас ;-)

Однако вы можете бесплатно найти несколько бесплатных корпусов, которые затем нужно будет преобразовать в формат, который удовлетворяет требованиям надлежащего читателя корпусов NTLK, а затем вы можете использовать это для обучения тегировщика POS для немецкого языка.

Вы даже можете создать свой собственный корпус, но это чертовски кропотливая работа; если вы работаете в университете, вам нужно найти способы подкупить или иным образом принуждать студентов делать это за вас ;-)

Однако вы можете бесплатно найти несколько бесплатных корпусов, которые затем нужно будет преобразовать в формат, который удовлетворяет требованиям надлежащего читателя корпусов NTLK, а затем вы можете использовать это для обучения тегировщика POS для немецкого языка.

Вы даже можете создать свой собственный корпус, но это чертовски кропотливая работа; если вы работаете в университете, вам нужно найти способы подкупить или иным образом принуждать студентов делать это за вас ;-)

4
ответ дан 28 November 2019 в 23:28
поделиться
Другие вопросы по тегам:

Похожие вопросы: