Я хотел бы проанализировать страницу HTML и извлечь значимый текст из него. Кто-либо знает, что некоторые хорошие алгоритмы делают это?
Я разрабатываю свои приложения на направляющих, но я думаю, что рубин является немного медленным в этом, таким образом, я думаю, существует ли некоторая хорошая библиотека в c для этого, это было бы соответствующим.
Спасибо!!
PD: ничего не рекомендуйте с Java
ОБНОВЛЕНИЕ: Я нашел этот текст ссылки
К сожалению, находится в Python