Я не могу сканировать несколько страниц, чтобы получить отзывы .. Я получаю только первую страницу отзывов

С помощью Apache Tika вам понадобятся только три строки кода:

File file = new File("/path/to/file");
Tika tika = new Tika();
System.out.println(tika.detect(file));

Если у вас есть отличная консоль, просто вставьте и запустите этот код, чтобы играть с ним:

@Grab('org.apache.tika:tika-core:1.14')
import org.apache.tika.Tika;

def tika = new Tika()
def file = new File("/path/to/file")
println tika.detect(file)

Имейте в виду, что его API богаты, он может анализировать «что угодно». Начиная с tika-core 1.14 у вас есть:

String  detect(byte[] prefix)
String  detect(byte[] prefix, String name)
String  detect(File file)
String  detect(InputStream stream)
String  detect(InputStream stream, Metadata metadata)
String  detect(InputStream stream, String name)
String  detect(Path path)
String  detect(String name)
String  detect(URL url)

Для получения дополнительной информации см. apidocs .

0
задан ramneet singh 30 December 2018 в 09:44
поделиться