Как выполнить проверку орфографии в html и xml?

Мне нужно проверять орфографию для большого количества больших html- и xml-документов (более 30 000). Мне также нужен собственный словарь и сложные алгоритмы проверки. Я стараюсь используйте BASH + утилиту linux ( sed , grep , ...) с hunspell. Hunspell имеет параметр -H, который заставляет его проверять документ как HTML (для XML этот параметр также подходит). Но есть одна проблема: он выводит смещения, а не номер строки, также он может проверять строку за строкой, потому что в этом случае он смотрит внутрь тегов (он не может найти закрытый тег). Итак, как правильно выполнить задачу?

9
задан MaXal 6 April 2011 в 02:56
поделиться