Просто используйте DOMDocument-> loadHTML () и выполняйте его. Алгоритм анализа XML в формате libxml довольно хорош и быстр, и, вопреки распространенному мнению, не задушивает искаженный HTML.
Попробуйте запустить его в Python 2 вместо Python 3 - у вас может быть более старая версия Spark
Еще одна распространенная проблема (которая у меня была) ... проверьте, чтобы у вас не было env var PYTHONPATH, указывающее на другую версию пакетов сайта python (это произошло потому, что я обновил мою версию python и не менял это ... он сначала загружается с PYTHONPATH).
(Ответ отправлен от имени OP) .
Обновление: разрешено.
Я создал файл python для одного из моих имен проектов random.py и когда numpy импортирован, он вызывал этот файл вместо собственного файла библиотеки, что приводило к ошибке. Мне пришлось удалить / переименовать random.py, который я создал, и устранил проблему.
Это случилось со мной в Windows с Anaconda. Я исправил это, удалив путь python3 из переменной среды PATH
.