Мне нужно проверять орфографию для большого количества больших html- и xml-документов (более 30 000). Мне также нужен собственный словарь и сложные алгоритмы проверки. Я стараюсь используйте BASH
+ утилиту linux ( sed
, grep
, ...) с hunspell. Hunspell
имеет параметр -H, который заставляет его проверять документ как HTML (для XML этот параметр также подходит). Но есть одна проблема: он выводит смещения, а не номер строки, также он может проверять строку за строкой, потому что в этом случае он смотрит внутрь тегов (он не может найти закрытый тег).
Итак, как правильно выполнить задачу?