Подход извлечения текста PDF Используя [закрытый] OCR

Question

Подход извлечения текста PDF Используя [закрытый] OCR

Вы можете предотвратить кэширование файла json, добавив строку запроса

function updateTestReport()
  {
    fetch(http://somewebsite.com/file.json?vr=1.0)
    .then(response => response.json())
    .then(data => {   

       //logic
    }); 
}

5

java pdf text-parsing

задан Jon 22 April 2009 в 16:38

2 ответа

Другие вопросы по тегам:

java pdf text-parsing

Похожие вопросы:

score 7 · Answer 1

Если у вас есть текстовый PDF, я настоятельно рекомендую PDFTextStream . Это не бесплатно, но лицензирование разумно, и это намного лучше, чем PDFBox. PDFBox блокирует многие PDF-файлы, созданные новыми инструментами, и не слишком согласован с PDF-файлами, которые он может обрабатывать. PDFTextStream обрабатывает любой PDF-файл, который я добавляю, в том числе PDF-файлы со встроенными изображениями PNG, чего не может сделать PDFBox.

Если вы перебираете людей PDFTextStream, чтобы добавить OCR, они могут прослушивать.

score 1 · Answer 2

Если вы хотите извлечь OCR из текстового PDF-файла, вам, возможно, придется сначала преобразовать его в изображение.