Обработка естественного языка: Создание (маленьких) корпусов, или, “Где получить много not-too-specialized англоязычных текстовых файлов?”

В варианте 2 вы должны определить счетчик:

counter = 0

@bot.command()
async def bid(ctx,number):
    global counter
    counter += 1
    print(str(counter)) 
5
задан Community 23 May 2017 в 12:01
поделиться

6 ответов

  • Используйте дампы Википедии
    • потребности много очистки
  • Посмотрите, помогает ли что-нибудь в nltk-данных Вам
    • корпуса являются обычно довольно маленькими
  • у Дурацких людей есть некоторые свободные корпуса
    • теговый
    • Вы можете паук Ваш собственный корпус с помощью их инструментария
  • Europarl свободен и основание в значительной степени каждой академической системы машинного перевода
    • разговорный язык, переведенный
  • Корпуса Агентства Рейтер являются бесплатными, но только доступными на CD

Можно всегда получать собственное, но предупреждаться: страницы HTML часто нуждаются в тяжелой очистке, поэтому ограничивают себя каналами RSS.

Если Вы делаете это коммерчески, LDC мог бы быть жизнеспособной альтернативой.

8
ответ дан 18 December 2019 в 13:21
поделиться

Википедия походит на способ пойти. Существует экспериментальная Википедия API, который мог бы быть полезным, но у меня нет подсказки, как это работает. До сих пор я только выскоблил Википедию пользовательскими пауками или даже wget.

Затем Вы могли искать страницы, которые предлагают их текст полного текста статьи в каналах RSS. RSS, потому что никакие HTML-тэги не стоят на пути.

Очистка списков рассылки и/или Usenet имеет несколько disatvantages: Вы будете получать AOLbonics и Techspeak, и это наклонит Ваш корпус плохо.

Классические корпуса являются Банком синтаксических деревьев Penn и Британским национальным корпусом, но их платят. Можно считать Корпусные архивы списка или даже спросить их об этом. Возможно, Вы найдете полезные данные с помощью сети в качестве инструментов Corpus.

У меня на самом деле есть маленький проект в конструкции, которая позволяет обработку лингвистической информации на произвольных веб-страницах. Это должно быть готово к употреблению в течение следующих нескольких недель, но это до сих пор действительно не предназначено, чтобы быть скребком. Но я мог записать модуль для него, я предполагаю, функциональность уже там.

4
ответ дан 18 December 2019 в 13:21
поделиться

Если Вы готовы заплатить деньги, необходимо проверить доступные данные в Лингвистическом Консорциуме Данных, такие как Банк синтаксических деревьев Penn.

1
ответ дан 18 December 2019 в 13:21
поделиться

Вы покрыли очевидные. Единственные другие области, что я могу думать также о дополнении:

1) Новостные статьи / блоги.

2) Журналы размещают много в Интернете свободного материала, и можно получить хорошее сечение тем.

0
ответ дан 18 December 2019 в 13:21
поделиться

Изучение данных Википедии, я заметил, что они сделали некоторый анализ тел сценариев фильма и ТВ. Я думал, что это могло бы интересный текст, но не с готовностью доступное - оказывается, что это везде, и это структурировано и достаточно предсказуемо, что это должно быть возможно, очищают его. Этот сайт, услужливо названный "Набор сценариев фильма и сценариев в одном месте в 'сети", вероятно, был бы полезен для любого, кто натыкается на этот поток с подобным вопросом.

0
ответ дан 18 December 2019 в 13:21
поделиться

Википедия кажется лучшим способом. Да, вам нужно будет проанализировать вывод. Но благодаря категориям в Википедии вы можете легко получать разные типы статей и слов. например, проанализировав все научные категории, вы можете получить много научных слов. Подробная информация о местах будет искажена географическими названиями и т. Д.

1
ответ дан 18 December 2019 в 13:21
поделиться
Другие вопросы по тегам:

Похожие вопросы: