Какой алгоритм использует Readability для извлечения текста из URL?

Некоторое время я пытался найти способ разумного извлечения «релевантного» текста из URL-адреса путем исключения текста, связанного с ним. к рекламе и прочему беспорядку. После нескольких месяцев исследований я решил, что проблема не может быть точно определена. (Я пробовал разные способы, но ни один из них не был надежным)

Неделю назад, Я наткнулся на Readability - плагин, который преобразует любой URL в читаемый текст. Это выглядит довольно точно для меня. Я предполагаю, что у них почему-то есть алгоритм, который достаточно умен, чтобы извлечь соответствующий текст.

Кто-нибудь знает, как они это делают? Или как я могу сделать это надежно?

102
задан user300981 6 September 2010 в 15:37
поделиться