Это будет работать для ваших категориальных данных, вы можете использовать их для нескольких столбцов. Кодируя категориальные данные, вы будете использовать LableEncoder
для кодирования как 0,1,2 ..., в соответствии с вашими данными, но это вызовет новую проблему. и проблема здесь заключается в том, что, поскольку в одном и том же столбце находятся разные числа, модель будет неправильно понимать данные в некотором порядке, 0 < 1 < 2. Но это совсем не так. Чтобы преодолеть эту проблему, мы используем One Hot Encoder.
from sklearn.preprocessing import LabelEncoder, OneHotEncoder
labelencoder_X_1 = LabelEncoder()
X[:,1] = labelencoder_X_1.fit_transform(X[:,1])
labelencoder_X_2 = LabelEncoder()
X[:,2] = labelencoder_X_2.fit_transform(X[:,2])
onehotencoder = OneHotEncoder(categorical_features = [1])
X = onehotencoder.fit_transform(X).toarray()
Я предлагаю, чтобы Вы использовали Монитор Процесса (редактирование: художник, раньше известный как FileMon), чтобы смотреть и видеть, какое приложение точно мешает. Это может показать Вам, вся трассировка вызовов файловой системы сделала на Вашей машине.
(редактирование: благодаря @moocha для изменения в приложении)
Я сказал бы, что это - или Ваше питание антивирусного или Windows Indexing с файлом одновременно. Можно ли запустить тот же тест без антивируса. Затем выполните его снова проверка, что временный файл создается где-нибудь не индексированный Windows Search?
Это обычно означает, что что-то еще имеет открытый дескриптор на рассматриваемом файле, возможно, активное выполнение вирусного сканера? Вы попытались выполнить что-то как Монитор Процесса от сайта Sysinternals? Необходимо быть должны отфильтровать все операции файла и получить лучшее изображение того, что продолжается под капотом.
Windows имеет специальное расположение для хранения файлов приложения, и я не думаю его индексируемое (по крайней мере, не по умолчанию). В Vista путь:
C:\Users\user name\AppData
Я предполагаю, что Вы помещаете свои файлы там, если это подходит для Вашего приложения.