1
ответ

Потоковая передача на векторизатор в конвейере

У меня большой языковой корпус, и я использую векторизатор sklearn tfidf и gensim Doc2Vec для вычисления языковых моделей. В моем общем корпусе около 100 000 документов, и я понял, что мой блокнот Jupyter ...
вопрос задан: 31 January 2019 19:06
1
ответ

Машинное обучение - со склеарном

Я пишу базовый фрагмент кода для прогнозирования акций, однако постоянно получаю следующую ошибку. AttributeError: у объекта 'function' нет атрибута 'train_test_split' Мой код, кроме всего этого ...
вопрос задан: 20 January 2019 10:15
1
ответ

Цепные преобразования в трубопроводе Scikit

Я использую конвейер Scikit для создания препроцесса на наборе данных. У меня есть набор данных с четырьмя переменными: [денежный, частота1, частота2, время ожидания], и я хочу предварительно обработать все, кроме времени. ...
вопрос задан: 20 January 2019 08:11
1
ответ

Как классификатор дерева решений может работать с глобальными ограничениями?

Я создал классификатор дерева решений с помощью sklearn в Python, который хорошо работает с точки зрения точности. Я тренирую классификатор с оптимальным решением линейной программы, которая возвращает оптимальное ...
вопрос задан: 19 January 2019 21:51
1
ответ

Функция хеширования для нескольких категориальных функций (столбцы)

Я хотел бы добавить функцию «Жанр» в 6 столбцов и отдельно добавить «Издатель» в еще шесть столбцов. Я хочу что-то вроде ниже: Жанр Издатель 0 1 2 3 4 5 ...
вопрос задан: 19 January 2019 18:42
1
ответ

sklearn: TypeError: fit () отсутствует 1 обязательный позиционный аргумент: «x»

При попытке запустить это из sklearn.impute import SimpleImputer imputer = SimpleImputer (missing_values ​​= "NaN", стратегии = "mean") imputer = SimpleImputer.fit (X [:, 1: 3]) X [:, 1: 3] = SimpleImputer ....
вопрос задан: 19 January 2019 11:27
1
ответ

Машинное обучение и актуальные прогнозы [закрыто]

У меня вопрос по машинному обучению относительно прогнозов. Поэтому, как правило, у меня есть набор данных с х и у, на котором я буду тренировать свой алгоритм. Но что, если у меня просто есть набор данных с вводом ...
вопрос задан: 19 January 2019 09:26
1
ответ

Настройка функций потерь в Scikit Learn

Как я могу настроить функции потерь в Scikit Learn? Например, вместо использования среднеквадратичной ошибки, я хочу использовать MSE, умноженную на истинное значение выборки. Я использовал следующий код ...
вопрос задан: 18 January 2019 18:20
1
ответ

Хранить индексы в точечной диаграмме матрицы расстояний jaccard

У меня есть матрица расхождений, и я хотел построить ее как двухмерную диаграмму рассеяния. Я нашел путь через sklearn.manifold: mds = MDS (n_components = 2, различие = "предварительно вычислено") X_r = mds.fit (jac_sim) ....
вопрос задан: 18 January 2019 15:29
1
ответ

При применении OneHotEncoder - ошибка: не удалось преобразовать Str в число с плавающей точкой: C148

Попытка применить OneHotEncoding к набору данных Titanic. Версия sklearn - 0.19.2. Сначала Labelencoded, а теперь при попытке кодирования Onehot выдает ошибку 'Не удалось преобразовать str в ...
вопрос задан: 18 January 2019 15:25
1
ответ

Формат поезда / теста для случайного лесного классификатора с категориальными переменными

Обновлено: как мне настроить поезд / тест df для scikit randomforestclassifier для нескольких категорий? Как мне предсказать? В моем наборе учебных данных есть столбец с категориальными результатами с 4 классами, и я хочу ...
вопрос задан: 18 January 2019 10:43
1
ответ

Есть ли какие-нибудь & ldquo; официальные & rdquo; способы сохранить / загрузить модель scikit-Learn в / из простого текста, как json?

Я хочу сохранить любую модель sklearn в json, и хочу, чтобы это был официальный способ для scikit-learn. Есть ли у вас какие-либо идеи? Мне нужен такой код: из sklearn.export импортировать json_export из sklearn ....
вопрос задан: 18 January 2019 04:39
1
ответ

Почему результат отличается от использования модели логистической регрессии, созданной функцией склеарна и сигмовидной кишки

Вот деталь: допустим, у меня есть модель со следующими коэффициентами и перехватом: # Coef w1 = 0.018056353337078567 w2 = 0.000646433629145055 w3 = 0.11595942738379618 w4 = 0 ....
вопрос задан: 18 January 2019 02:28
1
ответ

Визуализация T-SNE в списке векторов слов

У меня есть список векторов слов ~ 20k ('tuple_vectors'), без меток, каждый из которых выглядит следующим образом [-2.84658718e + 00 -7.74899840e-01 -2.24296474e + 00 -8.69364500e-01 3.90927410e + 00 - 2.65316987e + 00 -9 ....
вопрос задан: 17 January 2019 15:08
1
ответ

Как указать имя функции для sklearn dump_svmlight_file в Python?

Документы: https://scikit-learn.org/stable/modules/generated/sklearn.datasets.dump_svmlight_file.html svmlight соответствует формату данных: < target > < особенность: значение > < особенность: значение > С ...
вопрос задан: 17 January 2019 11:41
1
ответ

Python scikit-learn: почему мой классификатор LinearRegression так низок?

Я работаю над сценарием, который будет прогнозировать используемое дисковое пространство% на сервере с учетом будущей даты. Использование% захватывается 1x / день из этой команды, как показано ниже: $ df -h Размер используемой файловой системы ...
вопрос задан: 17 January 2019 00:30
1
ответ

normalized_mutual_info_score в sklearn с отрицательными значениями или значениями больше 1

Я пытаюсь вычислить нормализованную взаимную информацию между двумя 256 * 256 метками изображения, сведенными в массив. В документации Склеарна было ясно, что функция ...
вопрос задан: 16 January 2019 20:44
1
ответ

Странная ошибка в подгонке классификатора

Я работаю над практическим машинным обучением О'Рейли с Scikit-Learn & amp; Tensorflow. Я работаю над обучением классификатора на наборе данных MNIST и получаю ошибку ValueError: The ...
вопрос задан: 16 January 2019 19:17
1
ответ

Поиск в гиперпараметрической таблице с помощью XGBoost - функция оценки по сравнению с оценочной метрикой

Имея дело с проблемой набора данных о дисбалансе (7% против 93%), я хочу выяснить лучшую структуру моей модели xgboost, используя перекрестную проверку по сетке. Примечание: я использую многослойную перекрестную проверку в k-кратном порядке ...
вопрос задан: 16 January 2019 09:16
1
ответ

Метрики перекрестной проверки в scikit-learn для каждого разделения данных

Пожалуйста, мне просто нужно получить статистику перекрестной проверки явно для каждого разделения данных (X_test, y_test). Итак, чтобы попытаться сделать это, я сделал: kf = KFold (n_splits = n_splits) X_train_tmp = [] ...
вопрос задан: 15 January 2019 16:22
1
ответ

Запустите анализ основных компонентов (PCA) в наборе данных, чтобы уменьшить количество функций (компонентов) с 64 до 2

Я пытаюсь уменьшить свои компоненты до 2 вместо 64, но я продолжаю получать эту ошибку: «Несоответствие длины: ожидаемая ось имеет 64 элемента, новые значения имеют 4 элемента». Почему PCA я запускаю данные ...
вопрос задан: 13 July 2018 18:34
1
ответ

Как выбрать несколько (числовых и текстовых) столбцов с использованием sklearn Pipeline & amp; FeatureUnion для классификации текста?

Я разработал текстовую модель многоклассовой классификации. В модели LinearSVC OneVsRestClassifier для подготовки модели используется sklearns Pipeline и FeatureUnion. Основные функции ввода состоят ...
вопрос задан: 13 July 2018 17:24
1
ответ

numpy argsort vs sklearn Ближайшие соседи

Я создаю систему рекомендаций с методом поиска большинства похожих элементов для данного элемента. Для этого я мог бы использовать вложение элементов в пространстве возможностей, а затем применить ближайший ...
вопрос задан: 13 July 2018 15:55
1
ответ

Как добавить диапазон к предсказаниям линейной регрессии Sklearn

Интересно, есть ли способ добавить диапазон к предсказаниям до установки модели. Переменная, о которой идет речь в моих данных поезда, технически представляет собой процентный балл, но когда я предсказываю свой набор тестов, я ...
вопрос задан: 13 July 2018 13:41
1
ответ

sklearn.feature_extraction.text.CountVectorizer Ручной расчет

Как сделать ручной расчет CountVectorizer от scikit-learn? Или любой источник, который может мне помочь.
вопрос задан: 13 July 2018 11:01
1
ответ

ValueError: ожидаемый 2D-массив, получивший 1D-массив вместо svm-распознавания

Мой код: import matplotlib.pyplot как plt из наборов данных импорта sklearn, svm digits = datasets.load_digits () clf = svm.SVC (gamma = 0.001, C = 100) print (len (digits.data)) X, y = digits.data [: - 1] ...
вопрос задан: 13 July 2018 04:48
1
ответ

Удаленное отключение с Python при попытке загрузить набор данных MNIST из sklearn [duplicate]

Я пытаюсь создать Neural Network для классификации набора данных MNIST, но я не могу загрузить в набор данных, чтобы начать с использования sklearn. Когда я использую код: из импорта sklearn.datasets ...
вопрос задан: 12 July 2018 09:11
1
ответ

Ошибка при загрузке MNIST в Jupyter - & gt; ConnectionResetError: [Errno 104] Сброс соединения с помощью сверстника [дубликат]

Я получаю сообщение об ошибке при попытке загрузить данные MNIST, используя следующие команды: from sklearn.datasets import fetch_mldata mnist = fetch_mldata ('MNIST original') mnist Я попытался удалить mldata ...
вопрос задан: 12 July 2018 09:11
1
ответ

K-кратное перекрестное подтверждение для повторных наблюдений Sklearn [duplicate]

У меня есть набор данных, где у человека есть несколько наблюдений. Я хочу генерировать k-folds таким образом, чтобы все наблюдения для индивида были в одной складке. Как я могу реализовать его ...
вопрос задан: 6 July 2018 18:06
1
ответ

кодировщик меток, кодирующий пропущенные значения

Я использую кодировщик меток для преобразования категориальных данных в числовые значения. Как LabelEncoder обрабатывает пропущенные значения? из sklearn.preprocessing import LabelEncoder импортировать панды как импорт pd ...
вопрос задан: 15 February 2018 15:28