Я использую следующий код, чтобы попытаться создать фрейм данных из векторизатора Tf-Idf. Вывод векторизатора fit_transform представляет собой разреженную матрицу, поэтому я использую toarray () для преобразования в массив, а затем в pandas ....
Привет всем, кто изучает машины, я аспирант, и у меня возникли проблемы с анализом данных твитов, как положительных, так и отрицательных, с использованием дерева решений. Мой пример данных - отправка Арилин, и я ...
Я сериализовал TfidfVectorizer, используя joblib. И если я захочу использовать его снова в типичном скрипте Python, я сделаю что-то вроде: stemmer = PorterStemmer () minlen = 1 def tokenize (text): tokens = ...