То, что вы ищете, это стандарт границ слов в Юникоде:
http://unicode.org/reports/tr29/tr29-9.html#Word_Boundaries
Здесь есть реализация JavaScript (unciodejs.wordbreak.js)
Оказалось, что это связано с размером файла. Я оставлю этот вопрос и отвечу, если кому-то еще это понадобится.
.pdf, который я использовал, составлял 2,8 МБ, но это не удалось, я использовал гораздо меньший файл ~ 125 КБ, и это работало нормально.