7
ответов

Извлечение только изображений из файла PDF в java с помощью Apache Tika или PDFBox? [Дубликат]

Я ищу способ извлечь только изображения из PDF-файлов, используя apache tika или pdfbox, но изображение не должно быть размытым. Пожалуйста, помогите, я новичок в pdfbox и apache tika. Но покажи мне ...
вопрос задан: 2 January 2012 23:30
2
ответа

Как я индексирую документы в SOLR?

Я работаю, Solr 1.4 на Ubuntu 10.04 (установленный через Кв. - получают solr-кота), и это, кажется, хорошо работает. Я испытываю некоторые затруднения при нахождении любой когерентной информации о том, как индексировать документы все же. Я плохо знаком дл
вопрос задан: 8 December 2011 09:42
2
ответа

Индексация файлов PDF с использованием Symfony Lucene

Я - разработчик Symfony, и моим веб-сервером является Linux. Я уже использую sfLucene плагин. Каков самый простой способ индексировать файлы PDF для поиска на сервере PHP Linux? XPDF, установленный как это...
вопрос задан: 26 February 2010 14:13
0
ответов

Как я могу использовать парсер HTML с Apache Tika на Java для извлечения все HTML-теги?

Я скачал библиотеки tika-core и tika-parser, но не смог найти примеры кодов для синтаксического анализа HTML-документов в строку. Мне нужно избавиться от всех HTML-тегов источника веб-страницы. Что я могу сделать? Как ...
вопрос задан: 11 April 2017 19:24
0
ответов

Как настроить Apache Tika с apache Solr 1.4.1

Я хочу проиндексировать большое количество документов pdf. Я нашел ссылку, показывающую, что это можно сделать с помощью Apache Tika, но, к сожалению, я не могу найти ни одной ссылки, описывающей, что я мог бы ...
вопрос задан: 16 June 2013 16:45
0
ответов

Извлечь текст из URL-адресов с помощью TIKA

Можно ли извлекать текст из URL-адресов с помощью Tika? Любые ссылки будут оценены. Или TIKA можно использовать только для PDF, Word и любых других медиа-документов?
вопрос задан: 6 November 2012 21:53
0
ответов

Apache Tika и ограничение количества символов при разборе документов

Кто-нибудь может помочь мне разобраться? Это можно сделать так: Tika tika = new Tika (); tika.setMaxStringLength (10 * 1024 * 1024); Но если вы не используете Tika напрямую, вот так: ...
вопрос задан: 6 November 2012 21:51
0
ответов

Как использовать Тику в режиме сервера

На сайте Тики написано (что касается tika-app-1.2.jar), что он может быть использован в режиме сервера. Кто-нибудь знает, как отправлять документы и получать проанализированный текст с этого сервера после его запуска?
вопрос задан: 1 September 2012 21:39
0
ответов

Ошибка Elasticsearch Parse Exception при попытке проиндексировать PDF

Я только начинаю работать с elasticsearch. В соответствии с нашим требованием нам нужно проиндексировать тысячи PDF-файлов, и мне трудно добиться, чтобы хотя бы ОДИН из них успешно проиндексировался. Установил ...
вопрос задан: 13 June 2012 15:57
0
ответов

как я могу обнаружить веб-страницы на языке фарси с помощью tika?

Мне нужен пример кода, который поможет мне обнаружить веб-страницы на языке фарси с помощью инструментария apache tika. LanguageIdentifier identifier = new LanguageIdentifier("فارسی"); String language = identifier....
вопрос задан: 9 June 2012 14:29
0
ответов

Интеграция Spring и Tika:безопасна ли моя нить подхода-?

Меня интересует интеграция Spring и Apache Tika. Потоко-безопасен ли этот подход? Могу ли я безопасно вызывать метод обнаружения()из разных потоков?...
вопрос задан: 17 April 2012 12:11
0
ответов

Как сделать усилить документ SOLR при индексировании с помощью / solr / update

Для индексации моего веб-сайта у меня есть сценарий Ruby, который, в свою очередь, генерирует сценарий оболочки, который загружает каждый файл в корень моего документа в Solr. В сценарии оболочки есть много строк, которые выглядят так: curl -s \ "...
вопрос задан: 8 December 2011 09:51
0
ответов

интеграция с tika solr

Я пытаюсь проиндексировать с помощью запроса на основе curl запрос curl "http: // localhost: 8080 / solr1 / update / extract? Literal.id = who.pdf & uprefix = attr_ & fmap.content = attr_content & commit = true "-F" ...
вопрос задан: 8 December 2011 09:46
0
ответов

Индексирование PDF с помощью Solr

Кто-нибудь может указать мне на учебник. Мой основной опыт работы с Solr - это индексирование файлов CSV. Но я не могу найти никаких простых инструкций / учебников, которые рассказали бы мне, что мне нужно делать для индексации PDF-файлов. Я видел это
вопрос задан: 8 December 2011 09:43
0
ответов

Индексирование PDF со страницей числа с помощью Solr

Я индексирую PDF-файлы с помощью Solr, используя ExtractingRequestHandler. Я хотел бы отображать номер страницы вместе с совпадениями в документе, например, «термин foo был найден в bar.pdf на страницах 2, 3 и 5». Это ...
вопрос задан: 8 December 2011 09:43
0
ответов

PDFBox добавляет пробелы в слова

Когда я пытаюсь извлечь текст из моих файлов PDF, кажется, что между ними вставляются пробелы. слова случайно. Я использую pdfbox-app-1.6.0.jar (последняя версия) в следующем образце файла в разделе "Загрузки" ...
вопрос задан: 31 October 2011 14:06
0
ответов

Получение подтипа MimeType с помощью Apache tika

Мне нужно было бы получить MediaType iana.org вместо application / zip или application / x-tika-msoffice для таких документов, как, odt, ppt , pptx, xlsx и т. д. Если вы посмотрите на mimetypes.xml, там есть mimeType ...
вопрос задан: 21 August 2011 10:14
0
ответов

Альтернатива C / C ++ для Apache Tika

Я ищу альтернативу C / C ++ для фреймворка Apache Tika, основанного на Java. В частности, я ищу мясные данные файлов и извлечение структурированного текста в рамках одного фреймворка. ..
вопрос задан: 3 June 2011 22:11
0
ответов

Добавление языкового профиля в Apache Tika

Любой, кому удалось это сделать, может объяснить, как это сделать :-) Нужно ли мне получать файлы n-граммов для какой язык мне нужно добавить? Речь идет о создании tika.language.override.properties, ...
вопрос задан: 3 June 2011 13:25
0
ответов

Apache Tika и доступ к файлам вместо Java Input Stream

Я хочу иметь возможность создать новый синтаксический анализатор Tika для извлечения метаданных из файла. Мы уже используем Tika, и извлечение метаданных будет осуществляться последовательно. Я думаю, что столкнулся с этой проблемой / ...
вопрос задан: 17 May 2011 21:32
0
ответов

Можно ли извлекать текст за страницей для файлов word / pdf с помощью Apache Tika?

Вся документация, которую я могу найти, похоже, предполагает, что я могу извлечь только содержимое всего файла. Но мне нужно извлекать страницы по отдельности. Нужно ли мне для этого писать свой парсер? Есть ли какие-то ...
вопрос задан: 28 April 2011 20:53
0
ответов

Как получить расширение файла из типа содержимого?

Я использую Apache Tika, и у меня есть файлы ( без расширения) определенного типа контента, который необходимо переименовать, чтобы иметь расширение, отражающее тип контента. Любая идея, есть ли что-то, что я мог бы ...
вопрос задан: 4 April 2011 16:48
0
ответов

Apache Tika и метаданные документа

Я делаю простая обработка множества документов (ODS, MS office, pdf) с помощью Apache Tika. Я должен получить как минимум: количество слов, автора, заголовок, временные метки, язык и т. Д., Что не так просто. Мой ...
вопрос задан: 26 February 2011 22:04