Apache Tika и ограничение на количество символов при синтаксическом анализе документов

Не могли бы вы помочь мне разобраться?

Это можно сделать так

   Tika tika = new Tika();
   tika.setMaxStringLength(10*1024*1024);

Но если вы не используете Tika напрямую, вот так:

ContentHandler textHandler = new BodyContentHandler();
Metadata metadata = new Metadata();
Parser parser = new AutoDetectParser();

ParseContext ps = new ParseContext();
for (InputStream is : getInputStreams()) {
    parser.parse(is, textHandler, metadata, ps);
    is.close();
    System.out.println("Title: " + metadata.get("title"));
    System.out.println("Author: " + metadata.get("Author"));
}

Невозможно настроить его, потому что вы не взаимодействуете с WriteOutContentHandler . Кстати, по умолчанию он установлен на -1 , что означает отсутствие ограничений. Но итоговое ограничение составляет 100000 символов. но все это похоже на много жаргона и круговых определений. Здесь: Windows Management Instrumentation (WMI) - это ...

Я немного читал о WMI и пытался понять, что это такое, но все это похоже на много жаргона и циклических определений.

Здесь : Инструментарий управления Windows (WMI) - это инфраструктура для управления данными и операциями в операционных системах Windows.

«Инфраструктура»? А?

Это просто какие-то крючки в операционной системе для доступа к системным ресурсам, устройствам? Какой? Если да, то из чего он сделан? Это классы COM?

ЧТО ТАКОЕ WMI?

5
задан skaffman 31 July 2011 в 10:21
поделиться