8
ответов

Модуль Python для преобразования PDF в текст [закрыт]

Каковы лучшие модули Python для преобразования файлов PDF в текст?
вопрос задан: 10 July 2017 06:40
8
ответов

регулярное выражение для извлечения текста из HTML

Я хотел бы извлечь из общей страницы HTML, весь текст (отображенный или не). Я хотел бы удалить любые HTML-тэги Любой JavaScript, который разрабатывает Любой CSS, там регулярное выражение (один или несколько)...
вопрос задан: 2 January 2010 21:01
6
ответов

Извлечение текста от Java HTML

Я работаю над программой, которая загружает страницы HTML и затем выбирает часть информации, и запишите это в другой файл. Я хочу извлечь информацию, которая является intbetween теги абзаца, но...
вопрос задан: 12 March 2013 15:05
6
ответов

Как я извлекаю строки из файла с помощью их номера строки на Unix?

Используя sed или подобный, как Вы извлекли бы строки из файла? Если бы я хотел строки 1, 5, 1010, 20503 из файла, как я получил бы эти 4 строки? Что, если у меня есть довольно большое количество строк, я должен...
вопрос задан: 4 April 2010 17:31
4
ответа

Как извлечь распространенный / значительные фразы от ряда вводов текста

У меня есть серия текстовых объектов - необработанный HTML от базы данных MySQL. Я хочу найти наиболее распространенные фразы в этих записях (не единственная наиболее распространенная фраза, и идеально, не осуществляя слово в слово...
вопрос задан: 26 November 2017 10:40
4
ответа

Как извлечь текст из документов MS Office в C#

Я пытался извлечь текст (строка) из MS Word (.doc, .docx), Excel и Powerpoint с помощью C#. Где я могу найти, что свободная и простая библиотека .NET читает документы MS Office? Я пытался использовать NPOI, но меня...
вопрос задан: 18 June 2009 07:20
3
ответа

Как извлечь текст из довольно нормального HTML?

Моим вопросом является вид подобных этот вопрос, но у меня есть больше ограничений: Я знаю, что документ довольно нормален, они являются очень регулярными (они все произошли из того же источника, я хочу приблизительно 99%...
вопрос задан: 23 May 2017 10:30
3
ответа

Преобразование PDF в осуществимый текст с помощью [закрытого] C#

Существует ли библиотека, которая имеет класс для извлечения текста из файла PDF в c#.net? Я попробовал некоторых, но документация ужасна, таким образом, я не смог успешно начать ее. Также, если это обеспечивает...
вопрос задан: 8 September 2011 17:54
2
ответа

Каково состояние в извлечении содержимого HTML?

Существует много научной работы на извлечении содержимого HTML, например, Gupta & Kaiser (2005) Контент Извлечения от Доступных Веб-страниц и некоторые знаки интереса здесь, например, один, два, и три...
вопрос задан: 23 May 2017 12:01
2
ответа

Усовершенствованный Парсинг PDF Используя Python (извлекающий текст без таблиц, и т.д.): какова Лучшая Библиотека? [закрытый]

Я ищу библиотеку PDF, которая позволит мне извлекать текст из документа в формате PDF. Я посмотрел на PyPDF, и это может извлечь текст из документа в формате PDF очень приятно. Проблема с этим...
вопрос задан: 28 September 2011 20:53
2
ответа

Извлечение данных из электронного письма (или несколько тысяч электронных писем) [Exchange, базирующийся]

Мой маркетинговый отдел, благословите их, решил сделать тотализаторы, где люди входят по веб-странице. Это является большим, но информация не хранится к DB никакого вида, но отправляется в обмен...
вопрос задан: 30 December 2008 00:05
1
ответ

поколение тега от маленького текстового содержания (такого как твиты)

Я уже задал подобный вопрос ранее, но я заметил, что имею большой, ограничьте: Я работаю над маленьким текстовым suchs наборов как пользовательские Твиты для генерации тегов (ключевые слова). И это походит...
вопрос задан: 23 May 2017 10:30
0
ответов

Как извлечь простой текст из .doc & amp; файлы .docx? [закрыто]

Кто-нибудь знает что-нибудь, что они могут порекомендовать, чтобы извлечь только простой текст из .doc или .docx? Я нашел это - интересно, были ли еще какие-нибудь предложения?
вопрос задан: 25 April 2019 12:29
0
ответов

Извлечение текста из PDF с использованием PyPDF2

Моя задача - прочитать файлы pdf (отсканированные документы, текстовые или в другом формате) и около 600 файлов из каталога и получить из них текст. Для случаев, когда это изображение или ...
вопрос задан: 19 January 2019 00:03
0
ответов

Извлечение текста PDF с координатами

Я хотел бы извлечь текст из части (используя координаты) PDF с помощью Ghostscript. Может ли кто-нибудь мне помочь?
вопрос задан: 14 December 2018 09:48
0
ответов

Как извлечь строку по шаблону с помощью grep, regex или perl

У меня есть файл, который выглядит примерно так:
...
вопрос задан: 13 November 2018 17:21
0
ответов

Получение параметра URL в Java и извлечение конкретного текста из этого URL

У меня есть URL, и мне нужно получить значение v из этого URL. Вот мой URL: http://www.youtube.com/watch?v=_RCIP6OrQrE Любая полезная и полезная помощь высоко ценится.
вопрос задан: 31 October 2018 15:18
0
ответов

C#Извлечение текста из PDF с помощью PdfSharp

Есть ли возможность извлечь простой текст из PDF-файла с помощью PdfSharp? Я не хочу использовать iTextSharp из-за его лицензии.
вопрос задан: 3 August 2018 14:35
0
ответов

Регулярное выражение для соответствия размерам объекта

Скажу прямо: я ужасен с регулярными выражениями. Я пытался придумать один, чтобы решить мою проблему, но я действительно мало о них знаю. . . Представьте себе несколько предложений по ...
вопрос задан: 23 May 2017 12:29
0
ответов

Как извлечь совпадения regex с помощью Vim

Образец: case Foo: ... break; case Bar: ... break; case More: case Complex: ... break: ... Я хотел бы получить все совпадения regex (весь совпадающий текст, а еще лучше ...
вопрос задан: 23 May 2017 12:23
0
ответов

Есть ли способ использовать удобочитаемость и python для извлечения только текста, а не HTML?

Мне нужно извлечь чистый текст из случайной веб-страницы во время выполнения на стороне сервера. Я использую Google App Engine и порт Python Readability. Есть несколько таких. ранняя версия от gfxmonk, основанная на...
вопрос задан: 23 May 2017 11:55
0
ответов

Как извлечь текст из довольно нормального HTML?

Моим вопросом является вид подобных этот вопрос, но у меня есть больше ограничений: Я знаю, что документ довольно нормален, они являются очень регулярными (они все произошли из того же источника, я хочу приблизительно 99%...
вопрос задан: 23 May 2017 10:30
0
ответов

Извлечение текста PDF на основе правил для различных счетов и счетов-фактур

Мне нужно извлечь текст из счетов и счетов в формате pdf. Макеты файлов могут быть сложными, хотя в основном они заполнены таблицами. Прочитал уже несколько десятков статей о формате pdf, как...
вопрос задан: 24 March 2016 09:35
0
ответов

Извлечение целых слов

У меня есть большой набор реального текста, из которого мне нужно извлекать слова для ввода в программа проверки орфографии. Я хотел бы извлечь как можно больше значимых слов без лишнего шума. Я знаю, что есть ...
вопрос задан: 20 June 2014 18:55
0
ответов

Как извлечь подстроку с помощью регулярного выражения

У меня есть строка, в которой есть две одинарные кавычки, символ '. Между одинарными кавычками - нужные мне данные. Как я могу написать регулярное выражение для извлечения «данных, которые мне нужны» из следующего текста? ...
вопрос задан: 20 June 2014 07:42
0
ответов

Как извлечь текст из PDF? [закрыто]

Кто-нибудь может порекомендовать библиотеку / API для извлечения текста и изображений из PDF? Нам нужно иметь возможность получить доступ к тексту, который содержится в ранее известных областях документа, поэтому API должен будет дать ...
вопрос задан: 9 March 2013 17:25
0
ответов

Есть ли порт котла для .net?

Кто-нибудь знает порт .net для библиотеки котел?
вопрос задан: 25 October 2012 21:33
0
ответов

Как выделить текстовую область на изображении?

Я хочу выделить текстовую область на изображении в качестве шага предварительной обработки для механизма OCR tesseract, механизм работает хорошо, когда на входе только текст, но когда входное изображение содержит нетекстовый контент, он падает,...
вопрос задан: 18 April 2012 09:32
0
ответов

Jsoup -извлечение текста

Мне нужно извлечь текст из узла, подобного этому:
Здесь может находиться некоторый текст с тегами.

Также есть абзацы

Больше текста можно обойтись без...
вопрос задан: 17 April 2012 04:48
0
ответов

Как извлечь текст с помощью iTextSharp 4.1.6?

iTextSharp 4.1.6 — последняя версия, распространяемая по лицензии LGPL, и ее можно бесплатно использовать в коммерческих целях без уплаты лицензионных сборов. Для некоторых и для меня может быть интересно, как извлекать текст с помощью...
вопрос задан: 13 April 2012 15:57