Я ищу производственную качественную реализацию фильтра цветка в Python для обработки довольно больших количеств объектов (скажите 100M 1B объекты с ложным положительным уровнем на 0,01%).
Pybloom является одной опцией, но это, кажется, показывает свой возраст, поскольку это бросает ошибки DeprecationWarning на Python 2.5 регулярно. У Joe Gregorio также есть реализация.
Требования являются быстрым выполнением поиска и устойчивостью. Я также открыт для создания интерфейсов Python к особенно хорошему c/c ++ реализации, или даже к Jython, если существует хорошая реализация Java.
Испытывая недостаток в этом, каких-либо рекомендациях на небольшом массиве / представление битовый вектора, которое может обработать ~16E9 биты?
В конце концов я нашел pybloomfiltermap . Я не использовал его, но похоже, что он отвечает всем требованиям.
Меня очень интересуют варианты фильтров Блума, их производительность, и я понимаю их варианты использования. Существует так много хорошо цитируемых исследовательских работ по вариантам фильтров Блума (включая те, которые опубликованы на первоклассных конференциях, таких как SIGCOMM, SIGMETRICS), но я не думаю, что они широко представлены в библиотеках основных языков. Как вы думаете, почему это так?
Хотя мой интерес не зависит от языка, я хотел поделиться статьей, которую я написал о вариантах фильтра Блума и приложениях фильтра Блума.
http://appolo85.wordpress.com/2010/08/03/bloom-filter/
Мне бы хотелось узнать больше об их вариантах использования вариантов фильтра Блума, их дизайне / реализации, а также библиотеки на других языках.
Считаете ли вы, что большинство публикаций и (код?) Вариантов фильтров Блума служат только для увеличения количества опубликованных статей аспиранта?
Или это то, что большинство людей не хотят связываться с готовой к производству стандартной реализацией фильтра Блума, которая «отлично работает»: D