Я попробовал Оранжевую Платформу за Наивную байесовскую классификацию. Методы чрезвычайно неинтуитивны, и документация чрезвычайно не организована. У кого-либо здесь есть другая платформа для рекомендации?
Я использую главным образом NaiveBayesian на данный момент. Я думал об использовании NaiveClassification nltk, но затем они не думают, что могут обработать непрерывные переменные.
Каковы мои опции?
Если вы обрабатываете естественный язык, посмотрите Набор средств естественного языка .
Если вы ищете что-то еще, вот простой поиск в PyPI .
pebl
, похоже, обрабатывает непрерывные переменные.
Это может быть хорошим местом для начала. Это полный исходный код (парсер текста, хранилище данных и классификатор) для реализации наивного байесовского классификатора на языке python. Хотя это полный код, он все же достаточно мал, чтобы его можно было переварить за один сеанс. Я думаю, что код достаточно хорошо написан и хорошо прокомментирован. Это часть файлов исходного кода для книги Программирование коллективного интеллекта.
Чтобы получить исходники, нажмите на ссылку, распакуйте zip, из основной папки 'PCI_Code' перейдите в папку 'chapter 6', в которой есть исходный файл python 'docclass.py'. Это полный исходный код для байесовского фильтра спама. Данные для обучения (электронные письма) хранятся в базе данных sqlite, которая также находится в той же папке ('test.db'). Единственная внешняя библиотека, которая вам понадобится, это привязка python к sqlite (pysqlite); вам также понадобится сам sqlite, если он у вас еще не установлен).
Я просто взял материал LISP Пола Грэма и преобразовал его в Python http://www.paulgraham.com/spam.html