что лучший способ состоит в том, чтобы генерировать поддельные данные для проблемы классификации?

я работаю над проектом, и у меня есть подмножество данных времени нажатия клавиши пользователя. Это означает, что пользователь предпринимает n попытки, и я буду использовать эти зарегистрированные данные времени попытки в различных видах алгоритмов классификации для будущих пользовательских попыток проверить, что процесс входа в систему сделан пользователем или некоторым другим человеком. (Просто я могу сказать, что это - биометрика),

Я имею 3 различных раза пользовательского процесса попытки входа в систему, конечно, это - подмножество бесконечных данных.

до сих пор это - легкая проблема классификации, я решил использовать WEKA, но насколько я понимаю, что должен создать некоторые поддельные данные для питания алгоритма классификации. Измеренные попытки пользователя будут 1 и фальсифицировать данные, будет 0.

я могу использовать некоторые алгоритмы оптимизации? или есть ли какой-либо способ создать эти поддельные данные для получения минимальных ложных положительных сторон?

Спасибо

6
задан dmcer 11 April 2010 в 00:37
поделиться

1 ответ

Есть несколько разных способов приблизиться к этому.

Сбор отрицательных примеров - Одним из простых решений было бы просто собрать данные о времени нажатия клавиш от других людей, которые можно было бы использовать в качестве отрицательных примеров. Если вы хотите собрать большую выборку очень дешево , например, около 1000 образцов примерно за 10 долларов, вы можете использовать такую ​​услугу, как Amazon Mechanical Turk .

То есть, вы можете составить задачу человеческого интеллекта (HIT), в которой люди вводят случайный пароль, например последовательность. Чтобы получить информацию о времени, вам необходимо использовать Внешний вопрос , поскольку ограниченный HTML для обычных вопросов не поддерживает JavaScript.

Используйте генеративную модель - в качестве альтернативы вы можете обучить генеративную вероятностную модель поведению пользователя при нажатии клавиш. Например, вы можете обучить модель смеси Гаусса (GMM) задержке пользователя между нажатиями клавиш.

Такая модель даст вам оценку вероятности информации о времени нажатия клавиш, созданной конкретным пользователем. Затем вам просто нужно будет установить порог вероятности того, что информация о времени должна быть для аутентификации пользователя.

Использование SVM 1-го класса - Наконец, SVM 1-го класса позволяет обучать SVM-подобный классификатор, используя только положительные примеры. Чтобы изучить одноклассные SVM в WEKA , используйте оболочку LibSVM, если вы используете v3.6. Если вы используете новейшую версию для разработчиков, есть weka.classifiers.meta.OneClassClassifier .

5
ответ дан 17 December 2019 в 04:44
поделиться
Другие вопросы по тегам:

Похожие вопросы: