Какие полезные алгоритмы ранжирования для документов без ссылок?

Я просмотрел Алгоритмы интеллектуальной сети , который описывает (стр. 55) интересный алгоритм, называемый DocRank, для создания оценки, подобной PageRank , для бизнес-документов (т. Е. Документов без ссылок, таких как PDF, документы MS Word и т. д.). Короче говоря, он анализирует пересечение частотности терминов между каждым документом в коллекции.

Может ли кто-нибудь еще определить интересные алгоритмы, описанные в другом месте, или хочет поделиться здесь чем-то новым, чтобы применить их к этим типам документов для улучшения результатов поиска?

Пожалуйста, воздержитесь от ответов, связанных с отслеживанием кликов или другими действиями НЕ , касающимися анализа фактических документов.

15
задан Bobrovsky 18 October 2012 в 13:49
поделиться