Как поисковые системы объединяют результаты инвертированного индекса? Например, если бы я искал инвертированные индексы слов "собака" и "летучая мышь", то было бы два огромных списка каждого документа который...
Если мы хотим искать запрос как этот "t1 t2 t3" (t1, t2, t3 должен быть поставлен в очередь) в структуре инвертированного индекса, какие пути мы должны сделать? 1 Первое мы ищем слово "t1" и находим все документы этим...
Я реализую основанный на хэше дисковый индекс, сопоставляя строки с объектами. Чтобы найти правильное место в хэш-таблице, я использую линейное зондирование и сравниваю хэш входной строки с хешем, хранящимся в ...
Я прочитал статью Дуга Каттинга; «Оптимизация пространства для общего рейтинга». Поскольку это было написано давным-давно, мне интересно, какие алгоритмы использует lucene (в отношении обхода списка сообщений и оценки...
У меня есть полный инвертированный индекс в виде вложенного словаря Python. Его структура: {word: {doc_name: [location_list]}} Например, пусть словарь будет называться индексом, затем для слова «спам», ...
Обновление 2015-10-15 Еще в 2012 году я создавал личное онлайн-приложение и на самом деле хотел заново изобрести колесо, потому что по натуре мне любопытно, для целей обучения и улучшения моего алгоритма ...
Я понимаю что фундаментальным аспектом полнотекстового поиска является использование инвертированных индексов. Таким образом, с инвертированным индексом ответ на однословный запрос становится тривиальным. Предполагая, что индекс структурирован как ...
Вопрос: Какое решение или советы вы должны иметь дело с очень большой (многотерабайтной) базой данных, проиндексированной на сильных хэшах с высокой избыточностью? Какое-то перевернутое хранилище? Есть ли ...
Я пишу инвертированный индекс для поисковой машины по набору документов. Прямо сейчас я храню индекс как словарь словарей. То есть каждое ключевое слово отображается в словарь docID -> ...