Использование tor и python для парсинга Google Scholar

Question

Использование tor и python для парсинга Google Scholar

Я работаю над проектом по анализу того, как цитируются журнальные статьи. У меня есть большой файл названий журнальных статей. Я намерен передать их в Google Scholar и посмотреть, сколько ссылок на каждую из них.

Вот стратегия, которой я следую:

Используйте «scholar.py» изhttp://www.icir.org/christian/scholar.html. Это предварительно написанный скрипт на Python, который выполняет поиск в Google Scholar и возвращает информацию о первом обращении в формате CSV (, включая количество цитат )
. Ученый Google блокирует вас после определенного количества поисковых запросов (У меня есть около 3000 названий статей для запроса ). Я обнаружил, что большинство людей используют Tor (. Как сделать запросы urllib2 через Tor в Python? и Предотвращение блокировки пользовательского веб-краулера)чтобы решить эту проблему. Tor — это служба, которая каждые несколько минут выдает вам случайный IP-адрес.

У меня уже есть student.py и tor, которые успешно настроены и работают.Я не очень хорошо знаком с python или библиотекой urllib2 и задаюсь вопросом, какие модификации необходимы для student.py, чтобы запросы направлялись через Tor.

Я также готов предложить более простой (и потенциально значительно отличающийся )подход к массовым запросам ученых Google, если таковой существует.

Заранее спасибо

10

google-scholar python tor web-scraping

задан Community 23 May 2017 в 10:28

0 ответов

Другие вопросы по тегам:

google-scholar python tor web-scraping

Использование tor и python для парсинга Google Scholar

0 ответов

Похожие вопросы: