Также попробуйте свой метод для получения случайного идентификатора между МИН (идентификатор) и МАКСОМ (идентификатор), и затем
SELECT TOP 1 * FROM table WHERE Id >= @yourrandomid
Это будет всегда получать Вас одна строка.
Программное обеспечение на естественном языке творит чудеса, используя корпуса и предоставляемую ими статистику. Вам нужно будет сообщить nltk о каком-то немецком корпусе, чтобы помочь ему правильно разметить немецкий язык. Я считаю, что корпус EUROPARL может помочь вам в этом.
См. nltk.corpus.europarl_raw и этот ответ для примера конфигурации.
Также рассмотрите возможность пометки этого вопроса с помощью «nlp».
Тегирование части речи (POS) очень характерно для конкретного [естественного] языка. NLTK включает в себя множество различных тегеров, которые используют разные методы для определения тега данного токена в данном токене. Большинство (но не все) из этих теггеров используют своего рода статистическую модель в качестве основного или единственного средства «сделать свое дело». Такие теггеры требуют некоторых «обучающих данных», на основе которых строится это статистическое представление языка, а обучающие данные поступают в виде корпусов.
Само «распределение» NTLK включает в себя многие из этих корпусов, а также набор «читателей корпусов», которые предоставляют API для чтения корпусов различных типов. Я не знаю, как обстоят дела в самом НТЛК, и есть ли там какой-нибудь немецкий корпус. Однако вы можете бесплатно найти несколько бесплатных корпусов, которые затем нужно будет преобразовать в формат, который удовлетворяет требованиям надлежащего читателя корпусов NTLK, а затем вы можете использовать это для обучения тегировщика POS для немецкого языка.
Вы даже можете создать свой собственный корпус, но это чертовски кропотливая работа; если вы работаете в университете, вам нужно найти способы подкупить или иным образом принуждать студентов делать это за вас ;-)
Однако вы можете бесплатно найти несколько бесплатных корпусов, которые затем нужно будет преобразовать в формат, который удовлетворяет требованиям надлежащего читателя корпусов NTLK, а затем вы можете использовать это для обучения тегировщика POS для немецкого языка.Вы даже можете создать свой собственный корпус, но это чертовски кропотливая работа; если вы работаете в университете, вам нужно найти способы подкупить или иным образом принуждать студентов делать это за вас ;-)
Однако вы можете бесплатно найти несколько бесплатных корпусов, которые затем нужно будет преобразовать в формат, который удовлетворяет требованиям надлежащего читателя корпусов NTLK, а затем вы можете использовать это для обучения тегировщика POS для немецкого языка.Вы даже можете создать свой собственный корпус, но это чертовски кропотливая работа; если вы работаете в университете, вам нужно найти способы подкупить или иным образом принуждать студентов делать это за вас ;-)