Некоторое время я пытался найти способ разумного извлечения «релевантного» текста из URL-адреса путем исключения текста, связанного с ним. к рекламе и прочему беспорядку. После нескольких месяцев исследований я решил, что проблема не может быть точно определена. (Я пробовал разные способы, но ни один из них не был надежным)
Неделю назад, Я наткнулся на Readability - плагин, который преобразует любой URL в читаемый текст. Это выглядит довольно точно для меня. Я предполагаю, что у них почему-то есть алгоритм, который достаточно умен, чтобы извлечь соответствующий текст.
Кто-нибудь знает, как они это делают? Или как я могу сделать это надежно?