Я надеюсь делать некоторый анализ текста в программе, которую я пишу. Я ищу альтернативные источники текста в его необработанной форме, подобной тому, что обеспечивается в дампах Википедии (download.wikimedia.com).
Я не должен проходить проблему проверить веб-сайты, пытаясь проанализировать HTML, извлекая текст и т.д.