Обработка естественного языка: Создание (маленьких) корпусов, или, “Где получить много not-too-specialized англоязычных текстовых файлов?”

Question

Обработка естественного языка: Создание (маленьких) корпусов, или, “Где получить много not-too-specialized англоязычных текстовых файлов?”

В варианте 2 вы должны определить счетчик:

counter = 0

@bot.command()
async def bid(ctx,number):
    global counter
    counter += 1
    print(str(counter))

5

corpus linguistics nlp

задан Community 23 May 2017 в 12:01

6 ответов

Википедия походит на способ пойти. Существует экспериментальная Википедия API, который мог бы быть полезным, но у меня нет подсказки, как это работает. До сих пор я только выскоблил Википедию пользовательскими пауками или даже wget.

Затем Вы могли искать страницы, которые предлагают их текст полного текста статьи в каналах RSS. RSS, потому что никакие HTML-тэги не стоят на пути.

Очистка списков рассылки и/или Usenet имеет несколько disatvantages: Вы будете получать AOLbonics и Techspeak, и это наклонит Ваш корпус плохо.

Классические корпуса являются Банком синтаксических деревьев Penn и Британским национальным корпусом, но их платят. Можно считать Корпусные архивы списка или даже спросить их об этом. Возможно, Вы найдете полезные данные с помощью сети в качестве инструментов Corpus.

У меня на самом деле есть маленький проект в конструкции, которая позволяет обработку лингвистической информации на произвольных веб-страницах. Это должно быть готово к употреблению в течение следующих нескольких недель, но это до сих пор действительно не предназначено, чтобы быть скребком. Но я мог записать модуль для него, я предполагаю, функциональность уже там.

4