Я провожу скрытый анализ Дирихле для некоторых исследований и постоянно сталкиваюсь с проблемой. Большинство программного обеспечения lda требует, чтобы документы были в формате doclines, то есть в формате CSV или другом файле с разделителями, в котором каждая строка представляет собой весь документ. Однако lda-c Блея и программное обеспечение динамической тематической модели требуют, чтобы данные были в формате: [M] [term_1]: [count] [term_2]: [count] ... [term_N ]: [count]
где [M]
- это количество уникальных терминов в документе, а [count], связанное с каждым термином, показывает, сколько раз этот термин появлялся.
в документе. Обратите внимание, что [term_1]
- это целое число, которое индексирует
срок; это не строка.
Кто-нибудь знает об утилите, которая позволит мне быстро преобразовать в этот формат? Спасибо.