Как извлечь данные из PDF?

Ваш простой случай может быть легко построен с использованием метода std::string::find . Тем не менее, взгляните на Boost.Tokenizer . Это великолепно. В Boost обычно есть очень крутые струнные инструменты.

6
задан Fermin 7 July 2009 в 11:04
поделиться

4 ответа

Все зависит от того, как они включили данные в PDF. Вообще говоря, здесь есть два возможных сценария:

  1. Данные - это просто текстовый объект в PDF. Вам нужно будет использовать инструмент для извлечения текста из PDF, а затем вставить его в вашу базу данных.

  2. Данные содержатся в полях формы в PDF. Вам нужно будет использовать инструмент для извлечения данных из полей формы и вставки их в вашу базу данных.

Надеюсь, сценарий № 2 применим к вам, потому что это именно то, для чего предназначены PDF-формы. Сценарий №1 - это просто взлом, который вы бы использовали только в том случае, если у вас не было других вариантов. Извлечь простой текст из PDF не так просто и точно, как можно было бы ожидать.

Если вы ' При получении PDF-формы все, что вам нужно сделать, это сопоставить правильные поля в PDF-форме с соответствующими полями в вашей базе данных, а затем всасывать данные. Этот процесс можно было бы полностью автоматизировать, если бы вы написали собственное приложение.

Потребуется ли для этого написание приложения или есть ли автоматизированный способ сделать это?

Да, оба эти варианта потребуют написания приложения или покупки приложения. Если вы пишете собственное приложение, вам необходимо найти стороннюю библиотеку PDF, которая поддерживает извлечение данных из полей формы или извлечение текста из PDF.

4
ответ дан 8 December 2019 в 18:40
поделиться

Как уже упоминалось, вам потребуется написать приложение для этого, но в идеале вы сможете получить необработанный данные от внешней компании вместо обработки PDF.

Однако если вы действительно хотите извлечь данные из PDF, я использовал iText и обнаружил, что он очень мощный, надежный и, что самое главное, бесплатный . Он поставляется в вариантах Java и .Net - iTextSharp - это версия .Net. Он позволяет вам программно управлять PDF-документами и будет предоставлять содержимое PDF-файла приложению, которое вы пишете.

5
ответ дан 8 December 2019 в 18:40
поделиться

Думаю, вам придется написать для этого приложение. Этот вопрос касается извлечения данных из PDF . После этого вы можете экспортировать данные в формат Excel, чтобы сохранить существующий формат import .

0
ответ дан 8 December 2019 в 18:40
поделиться

Найдите информацию о «извлечении» данных из PDF. Я считаю, что у Adobe есть инструменты, которые позволяют делать это для простого текста, но я ими не пользовался.

Честно говоря, я бы попытался сделать все возможное, чтобы получить эти данные в необработанном формате от вашего поставщика.

1116878]

0
ответ дан 8 December 2019 в 18:40
поделиться
Другие вопросы по тегам:

Похожие вопросы: