Преимущества создания собственного корпуса в NLTK

У меня большой объем текста в таблицах Mysql. Я хочу провести некоторый статистический анализ, а затем немного NLP в моем тексте, используя инструментарий NLTK. У меня есть два варианта:

  1. Извлечь сразу весь текст из моей таблицы БД (возможно, поместить их в файл, если необходимо) и использовать функции NLTK
  2. Извлечь текст и превратить его в «корпус», который можно используется с NLTK.

Последнее кажется довольно сложным, и я не нашел статей, которые действительно описывали бы, как его использовать. Я нашел только следующее: Создание читателя корпуса с поддержкой MongoDB , который использует MongoDB в качестве своей базы данных и код довольно сложный и также требует знания MongoDB. С другой стороны, первое кажется действительно простым, но приводит к накладным расходам при извлечении текстов из БД.

Теперь вопрос в том, каковы преимущества корпуса в NLTK? Другими словами, если я возьму вызов и перейду к перезаписи методов NTLK, чтобы он мог читать из базы данных MySQL, стоило бы хлопот? Превращение моего текста в корпус дает мне то, что я не могу (или с большим трудом) сделать с обычными функциями NLTK?

Также, если вы что-то знаете о подключении MySQL к NLTK, дайте мне знать. Спасибо

8
задан JenB 22 January 2016 в 19:10
поделиться