Библиотека PDF для [закрытого] Java

обычный grep также отлично справится

grep( "^m", a, ignore.case = TRUE, value = TRUE )
#[1] "Mom"    "mother"

тесты
ответ Тома (начинается с) - победитель, но есть место для улучшения (проверьте код startsWith2)

microbenchmark::microbenchmark(
  substr = a[substr(a, 1, 1) %in% c("M", "m")],
  grepl = a[grepl("^[Mm]", a)],
  grep = grep( "^m", a, ignore.case = TRUE, value = TRUE ),
  stringr = unlist(stringr::str_extract_all(a,regex("^M.*",ignore_case = T))),
  startsWith1 = a[startsWith(toupper(a), "M")],
  startsWith2= a[startsWith(a, c("M", "m"))]
)


# Unit: nanoseconds
#        expr   min      lq     mean median    uq    max neval
#      substr  1808  2411.0  3323.19   3314  3917   8435   100
#       grepl  3916  4218.0  5438.06   4820  6930   8436   100
#        grep  3615  4368.5  5450.10   4820  6929  19582   100
#     stringr 50913 53023.0 55764.10  54529 55132 174432   100
# startsWith1  1506  2109.0  2814.11   2711  3013  17474   100
# startsWith2   602  1205.0  1410.17   1206  1507   3013   100
30
задан Mark Elliot 8 September 2011 в 11:21
поделиться

5 ответов

Я только что начал изучать PdfBox от Apache именно для этой цели. Похоже, что один из их примеров, PrintTextLocations.java, является хорошей отправной точкой для того, что вам нужно.

19
ответ дан 27 November 2019 в 23:51
поделиться
14
ответ дан thelost 27 November 2019 в 23:51
поделиться

Вы пробовали Big Faceless - http://big.faceless.org/products/pdf/

1
ответ дан 27 November 2019 в 23:51
поделиться

Я бы сказал что iText является наиболее широко используемым

1
ответ дан 27 November 2019 в 23:51
поделиться
Другие вопросы по тегам:

Похожие вопросы: