Как значимый текст извлечения от HTML

Я хотел бы проанализировать страницу HTML и извлечь значимый текст из него. Кто-либо знает, что некоторые хорошие алгоритмы делают это?

Я разрабатываю свои приложения на направляющих, но я думаю, что рубин является немного медленным в этом, таким образом, я думаю, существует ли некоторая хорошая библиотека в c для этого, это было бы соответствующим.

Спасибо!!

PD: ничего не рекомендуйте с Java

ОБНОВЛЕНИЕ: Я нашел этот текст ссылки

К сожалению, находится в Python

6
задан Nisanio 19 October 2010 в 14:50
поделиться