Я недавно изучал Python и погружаюсь в создание веб-скребка. Ничего особенного; его единственная цель состоит в том, чтобы получить данные с веб-сайта для ставок и поместить их в Excel.
Большинство проблем разрешимы, и у меня есть хороший маленький беспорядок вокруг. Однако я столкнулся с огромным препятствием на пути решения одной проблемы. Если сайт загружает таблицу лошадей и перечисляет текущие цены на ставки, этой информации нет ни в одном исходном файле. Подсказка заключается в том, что эти данные иногда бывают живыми, причем числа, очевидно, обновляются с какого-то удаленного сервера. В HTML на моем ПК просто есть дыра, где их серверы проталкивают все интересные данные, которые мне нужны.
Теперь мой опыт работы с динамическим веб-контентом низок, поэтому у меня возникли проблемы с тем, чтобы разобраться в этом.
Я думаю, что Java или Javascript - это ключ, это часто появляется.
Скребок - это просто механизм сравнения шансов. У некоторых сайтов есть API, но мне это нужно для тех, кто этого не делает. Я использую библиотеку scrapy с Python 2.7
Я прошу прощения, если этот вопрос слишком открытый. Короче говоря, мой вопрос: как можно использовать скрап для очистки этих динамических данных, чтобы я мог их использовать? Чтобы я мог в реальном времени обработать эти данные о коэффициентах ставок?