Я просмотрел Алгоритмы интеллектуальной сети , который описывает (стр. 55) интересный алгоритм, называемый DocRank, для создания оценки, подобной PageRank , для бизнес-документов (т. Е. Документов без ссылок, таких как PDF, документы MS Word и т. д.). Короче говоря, он анализирует пересечение частотности терминов между каждым документом в коллекции.
Может ли кто-нибудь еще определить интересные алгоритмы, описанные в другом месте, или хочет поделиться здесь чем-то новым, чтобы применить их к этим типам документов для улучшения результатов поиска?
Пожалуйста, воздержитесь от ответов, связанных с отслеживанием кликов или другими действиями НЕ , касающимися анализа фактических документов.