2
ответа

Как поисковые системы объединяют результаты инвертированного индекса?

Как поисковые системы объединяют результаты инвертированного индекса? Например, если бы я искал инвертированные индексы слов "собака" и "летучая мышь", то было бы два огромных списка каждого документа который...
вопрос задан: 18 July 2016 22:36
1
ответ

Как искать запросы фразы в структуре инвертированного индекса?

Если мы хотим искать запрос как этот "t1 t2 t3" (t1, t2, t3 должен быть поставлен в очередь) в структуре инвертированного индекса, какие пути мы должны сделать? 1 Первое мы ищем слово "t1" и находим все документы этим...
вопрос задан: 18 April 2010 05:30
0
ответов

Хэширование строк дважды, чтобы избежать столкновений?

Я реализую основанный на хэше дисковый индекс, сопоставляя строки с объектами. Чтобы найти правильное место в хэш-таблице, я использую линейное зондирование и сравниваю хэш входной строки с хешем, хранящимся в ...
вопрос задан: 5 March 2019 16:47
0
ответов

Lucene&#Алгоритм 39;s

Я прочитал статью Дуга Каттинга; «Оптимизация пространства для общего рейтинга». Поскольку это было написано давным-давно, мне интересно, какие алгоритмы использует lucene (в отношении обхода списка сообщений и оценки...
вопрос задан: 27 May 2018 18:48
0
ответов

Загрузка большого словаря с использованием python pickle

У меня есть полный инвертированный индекс в виде вложенного словаря Python. Его структура: {word: {doc_name: [location_list]}} Например, пусть словарь будет называться индексом, затем для слова «спам», ...
вопрос задан: 23 May 2017 11:46
0
ответов

Как оптимизировать «текстовый поиск» для инвертированного индекса и реляционной базы данных? [закрыто]

Обновление 2015-10-15 Еще в 2012 году я создавал личное онлайн-приложение и на самом деле хотел заново изобрести колесо, потому что по натуре мне любопытно, для целей обучения и улучшения моего алгоритма ...
вопрос задан: 15 October 2015 22:08
0
ответов

Использование индексов для многословных запросов в полнотекстовом поиске (например, веб-поиск)

Я понимаю что фундаментальным аспектом полнотекстового поиска является использование инвертированных индексов. Таким образом, с инвертированным индексом ответ на однословный запрос становится тривиальным. Предполагая, что индекс структурирован как ...
вопрос задан: 17 May 2011 14:36
0
ответов

Советы по созданию очень большой базы данных хешей

Вопрос: Какое решение или советы вы должны иметь дело с очень большой (многотерабайтной) базой данных, проиндексированной на сильных хэшах с высокой избыточностью? Какое-то перевернутое хранилище? Есть ли ...
вопрос задан: 15 March 2011 14:42
0
ответов

Использование cPickle для сериализации большого словаря вызывает ошибку MemoryError

Я пишу инвертированный индекс для поисковой машины по набору документов. Прямо сейчас я храню индекс как словарь словарей. То есть каждое ключевое слово отображается в словарь docID -> ...
вопрос задан: 18 February 2011 03:52