В варианте 2 вы должны определить счетчик:
counter = 0
@bot.command()
async def bid(ctx,number):
global counter
counter += 1
print(str(counter))
Можно всегда получать собственное, но предупреждаться: страницы HTML часто нуждаются в тяжелой очистке, поэтому ограничивают себя каналами RSS.
Если Вы делаете это коммерчески, LDC мог бы быть жизнеспособной альтернативой.
Википедия походит на способ пойти. Существует экспериментальная Википедия API, который мог бы быть полезным, но у меня нет подсказки, как это работает. До сих пор я только выскоблил Википедию пользовательскими пауками или даже wget
.
Затем Вы могли искать страницы, которые предлагают их текст полного текста статьи в каналах RSS. RSS, потому что никакие HTML-тэги не стоят на пути.
Очистка списков рассылки и/или Usenet имеет несколько disatvantages: Вы будете получать AOLbonics и Techspeak, и это наклонит Ваш корпус плохо.
Классические корпуса являются Банком синтаксических деревьев Penn и Британским национальным корпусом, но их платят. Можно считать Корпусные архивы списка или даже спросить их об этом. Возможно, Вы найдете полезные данные с помощью сети в качестве инструментов Corpus.
У меня на самом деле есть маленький проект в конструкции, которая позволяет обработку лингвистической информации на произвольных веб-страницах. Это должно быть готово к употреблению в течение следующих нескольких недель, но это до сих пор действительно не предназначено, чтобы быть скребком. Но я мог записать модуль для него, я предполагаю, функциональность уже там.
Если Вы готовы заплатить деньги, необходимо проверить доступные данные в Лингвистическом Консорциуме Данных, такие как Банк синтаксических деревьев Penn.
Вы покрыли очевидные. Единственные другие области, что я могу думать также о дополнении:
1) Новостные статьи / блоги.
2) Журналы размещают много в Интернете свободного материала, и можно получить хорошее сечение тем.
Изучение данных Википедии, я заметил, что они сделали некоторый анализ тел сценариев фильма и ТВ. Я думал, что это могло бы интересный текст, но не с готовностью доступное - оказывается, что это везде, и это структурировано и достаточно предсказуемо, что это должно быть возможно, очищают его. Этот сайт, услужливо названный "Набор сценариев фильма и сценариев в одном месте в 'сети", вероятно, был бы полезен для любого, кто натыкается на этот поток с подобным вопросом.
Википедия кажется лучшим способом. Да, вам нужно будет проанализировать вывод. Но благодаря категориям в Википедии вы можете легко получать разные типы статей и слов. например, проанализировав все научные категории, вы можете получить много научных слов. Подробная информация о местах будет искажена географическими названиями и т. Д.