Как извлечь текстовое содержимое из html, например Прочитать позже или InstaPaper Iphone app?

Я хочу извлечь основное содержание статьи из HTML в моем приложении для Iphone и показать его в TextView или CoreText.

Прочтите позже, и в приложениях InstaPaper для Iphone есть эта функция, но после исследования в Интернете, Я до сих пор не могу сказать, как они это делают.

На данный момент я беру текстовое содержимое из html с помощью этого кода, но он также требует много ненужного содержимого.

textArticle = [webView stringByEvaluatingJavaScriptFromString:@"document.body.innerText"];

Это вопрос, который я хотел, но, к сожалению это не было для приложения Iphone.
Алгоритм, подобный Instapaper

Это открытый исходный код для такого рода функций, но я не уверен, смогу ли я использовать его для приложения Iphone. https://github.com/jiminoc/goose/wiki

Кажется, что раньше smartr предоставлял API для этого, но сейчас он недоступен. http://smartrmobi.blogspot.com/2011/02/smartr-api-withdrawn-until-f Further.html

Возможно, самый простой способ сделать это - получить содержимое статьи из элемента xml, но это только моя догадка.

Я хотел бы знать, с чего начать, поэтому буду очень признателен за любые предложения.

Спасибо

9
задан Community 23 May 2017 в 12:26
поделиться