Преобразовать по одному документу на строку в формат Blei lda-c / dtm для тематического моделирования?

Я провожу скрытый анализ Дирихле для некоторых исследований и постоянно сталкиваюсь с проблемой. Большинство программного обеспечения lda требует, чтобы документы были в формате doclines, то есть в формате CSV или другом файле с разделителями, в котором каждая строка представляет собой весь документ. Однако lda-c Блея и программное обеспечение динамической тематической модели требуют, чтобы данные были в формате: [M] [term_1]: [count] [term_2]: [count] ... [term_N ]: [count] где [M] - это количество уникальных терминов в документе, а [count], связанное с каждым термином, показывает, сколько раз этот термин появлялся. в документе. Обратите внимание, что [term_1] - это целое число, которое индексирует срок; это не строка.

Кто-нибудь знает об утилите, которая позволит мне быстро преобразовать в этот формат? Спасибо.

5
задан Anders R. Bystrup 25 February 2013 в 09:09
поделиться