Сохранение данных в sklearn

Я использую scikit-learn для кластеризации текстовых документов. Я использую классы CountVectorizer, TfidfTransformer и MiniBatchKMeans, чтобы помочь мне в этом. В систему постоянно добавляются новые текстовые документы, а это значит, что мне нужно использовать классы выше для преобразования текста и предсказания кластера. Мой вопрос: как я должен хранить данные на диске? Должен ли я просто замариновать объекты векторизатора, преобразователя и kmeans? Должен ли я просто сохранить данные? Если да, то как мне добавить его обратно в объекты векторизатора, преобразователя и kmeans?

Будем признательны за любую помощь.

5
задан ogrisel 23 June 2012 в 12:58
поделиться