Я знаю, что вычисления в scikit -Learn основаны на NumPy, поэтому все представляет собой матрицу или массив.
Как этот пакет обрабатывает смешанные данные (числовые и номинальные значения )?
Например, у товара могут быть атрибуты «цвет» и «цена».где цвет номинальный, а цена числовая. Я заметил, что есть модель под названием «DictVectorizer» для нумерации номинальных данных. Например, два продукта:
products = [{'color':'black','price':10}, {'color':'green','price':5}]
И результатом "DictVectorizer" может быть:
[[1,0,10],
[0,1,5]]
Если есть много разных значений атрибута «цвет», матрица будет очень разреженной. А длинные функции ухудшат производительность некоторых алгоритмов, таких как деревья решений.
Есть ли способ использовать номинальное значение без необходимости создания фиктивных кодов?