0
ответов

Использование котельной программы для извлечения статей не на английском языке

Я пытаюсь использовать java-библиотеку котельной для извлечения новостных статей с ряда веб-сайтов. Она отлично работает с текстами на английском языке, но для текста со специальными символами, например, слов с ударением ...
вопрос задан: 13 February 2012 11:51
0
ответов

Extract columns of text from a pdf file using iText

I need to extract text from pdf files using iText. The problem is: some pdf files contain 2 columns and when I extract text I get a text file where columns are merged as the result (i.e. text from ...
вопрос задан: 8 September 2011 16:03
0
ответов

извлечь текст с помощью vim

Я хотел бы извлечь некоторые данные из текста с помощью vim .. данные имеют следующий вид: 72 "title =" (168,72) "onmouseover =" posizione ('(168,72)'); "onmouseout =" posizione ('(-, -)'); ">> 72 "title =" (180, ...
вопрос задан: 3 July 2011 18:44
0
ответов

Извлечение основного текста с веб-сайтов, например, извлечение только заголовка статьи и текста, а не всего текста на сайте

Я ищу алгоритмы, которые позволяют извлекать текст из веб-сайты. Я не имею в виду «полосы html» или любую из сотен библиотек, которые это позволяют. Так, например, для новостной статьи я хотел бы ...
вопрос задан: 21 April 2011 15:51