В scikit узнайте, как бороться с данными, перемешанными с числовым и номинальным значением?

Я знаю, что вычисления в scikit -Learn основаны на NumPy, поэтому все представляет собой матрицу или массив.

Как этот пакет обрабатывает смешанные данные (числовые и номинальные значения )?

Например, у товара могут быть атрибуты «цвет» и «цена».где цвет номинальный, а цена числовая. Я заметил, что есть модель под названием «DictVectorizer» для нумерации номинальных данных. Например, два продукта:

products = [{'color':'black','price':10}, {'color':'green','price':5}]

И результатом "DictVectorizer" может быть:

[[1,0,10],
 [0,1,5]]

Если есть много разных значений атрибута «цвет», матрица будет очень разреженной. А длинные функции ухудшат производительность некоторых алгоритмов, таких как деревья решений.

Есть ли способ использовать номинальное значение без необходимости создания фиктивных кодов?

12
задан kdopen 5 May 2015 в 18:35
поделиться