Подход извлечения текста PDF Используя [закрытый] OCR

Вы можете предотвратить кэширование файла json, добавив строку запроса

function updateTestReport()
  {
    fetch(http://somewebsite.com/file.json?vr=1.0)
    .then(response => response.json())
    .then(data => {   

       //logic
    }); 
}
5
задан Jon 22 April 2009 в 16:38
поделиться

2 ответа

Если у вас есть текстовый PDF, я настоятельно рекомендую PDFTextStream . Это не бесплатно, но лицензирование разумно, и это намного лучше, чем PDFBox. PDFBox блокирует многие PDF-файлы, созданные новыми инструментами, и не слишком согласован с PDF-файлами, которые он может обрабатывать. PDFTextStream обрабатывает любой PDF-файл, который я добавляю, в том числе PDF-файлы со встроенными изображениями PNG, чего не может сделать PDFBox.

Если вы перебираете людей PDFTextStream, чтобы добавить OCR, они могут прослушивать.

7
ответ дан 13 December 2019 в 19:35
поделиться

Если вы хотите извлечь OCR из текстового PDF-файла, вам, возможно, придется сначала преобразовать его в изображение.

1
ответ дан 13 December 2019 в 19:35
поделиться
Другие вопросы по тегам:

Похожие вопросы: