Использование tor и python для парсинга Google Scholar

Я работаю над проектом по анализу того, как цитируются журнальные статьи. У меня есть большой файл названий журнальных статей. Я намерен передать их в Google Scholar и посмотреть, сколько ссылок на каждую из них.

Вот стратегия, которой я следую:

  1. Используйте «scholar.py» изhttp://www.icir.org/christian/scholar.html. Это предварительно написанный скрипт на Python, который выполняет поиск в Google Scholar и возвращает информацию о первом обращении в формате CSV (, включая количество цитат )

  2. . Ученый Google блокирует вас после определенного количества поисковых запросов (У меня есть около 3000 названий статей для запроса ). Я обнаружил, что большинство людей используют Tor (. Как сделать запросы urllib2 через Tor в Python? и Предотвращение блокировки пользовательского веб-краулера)чтобы решить эту проблему. Tor — это служба, которая каждые несколько минут выдает вам случайный IP-адрес.

У меня уже есть student.py и tor, которые успешно настроены и работают.Я не очень хорошо знаком с python или библиотекой urllib2 и задаюсь вопросом, какие модификации необходимы для student.py, чтобы запросы направлялись через Tor.

Я также готов предложить более простой (и потенциально значительно отличающийся )подход к массовым запросам ученых Google, если таковой существует.

Заранее спасибо

10
задан Community 23 May 2017 в 10:28
поделиться