0
ответов

Очистка и анализ результатов поиска Google с использованием Python

Я задал вопрос о реализации общей идеи сканирования и сохранения веб-страниц. Часть оригинального вопроса: как сканировать и сохранять много страниц «О нас» из Интернета. С некоторыми дальнейшими исследованиями, ...
вопрос задан: 23 May 2017 11:54
0
ответов

Извлечение ссылок с веб-страницы с использованием R

Два сообщения ниже являются отличными примерами различных подходов к извлечению данных с веб-сайтов и их синтаксическому анализу в R. Скребок таблиц html в кадры данных R с использованием XML пакет Как я могу использовать R ...
вопрос задан: 23 May 2017 11:53
0
ответов

Автоматически загружать отчеты о продажах из iTunes Connect

У меня был красивый и хитрый Perl-скрипт для автоматического очистить и загрузить файлы отчетов о продажах из iTunes Connect. На сегодняшний день Apple переработала сайт отчетов о продажах. Он выглядит намного лучше, но в нем используется ...
вопрос задан: 23 May 2017 11:47
0
ответов

R: извлечение «чистого» текста UTF-8 из веб-страницы, очищенной с помощью RCurl

Используя R, я пытаюсь очистить веб-страницу, сохранив текст, который на японском, в файл.В конечном счете, это необходимо масштабировать, чтобы обрабатывать сотни страниц ежедневно. У меня уже есть рабочий...
вопрос задан: 23 May 2017 11:45
0
ответов

Фрагмент статьи PHP Scrape, такой как читабельность

Я видел этот вопрос, но он не совсем соответствует тому, что я ищу. Ответы на этот вопрос были либо :сняты с тега мета-описания, а второй генерировал отрывок для...
вопрос задан: 23 May 2017 11:45
0
ответов

Использование tor и python для парсинга Google Scholar

Я работаю над проектом по анализу того, как цитируются журнальные статьи. У меня есть большой файл названий журнальных статей. Я намерен передать их в Google Scholar и посмотреть, сколько ссылок на каждую из них. Вот...
вопрос задан: 23 May 2017 10:28
0
ответов

Навигация / очистка ссылок хэшбэга с помощью javascript (phantomjs)

Я пытаюсь загрузить HTML-код веб-сайта, который почти полностью создан с помощью JavaScript. Итак, мне нужно смоделировать доступ к браузеру, и я играл с PhantomJS. Проблема в том, что сайт ...
вопрос задан: 23 May 2017 02:08
0
ответов

Как я могу защитить свой сайт от HTTrack или другое программное обеспечение& #39;s копирует?

Недавно я получил одобрение шаблона сайта на Themeforest. Я получаю слишком много трафика на свой сайт и заметил, что моя демонстрация на Themeforest копируется некоторыми программами, такими как HTTrack. Если это...
вопрос задан: 4 April 2017 11:29
0
ответов

Как искать по вторичному индексу в Cassandra без равенства?

Мне нужно иметь возможность выполнять поиск по вторичным индексам, используя только <,>, <= , или> =. Я понимаю, что Cassandra требует по крайней мере одного предложения индекса равенства, потому что он выполняет итерацию по всем ...
вопрос задан: 23 December 2016 19:46
0
ответов

Ошибка Python Selen при попытке запустить Firefox

Я получаю сообщение об ошибке при попытке открыть Firefox с помощью Selenium в ноутбуке ipython. Я посмотрел вокруг и нашел похожие ошибки, но ничего, что точно соответствует ошибке, которую я получаю. Кто-нибудь ...
вопрос задан: 25 November 2016 02:27
0
ответов

PHP скрипт для очистки сайта Amazon [закрыто]

я написал скрипт php, чтобы очистить веб-сайт amazon, чтобы узнать цену товара. Я предоставляю номер ASIN, но цена не отображается. это скрипт php: (Prezzo | Precio | Цена | Prix ...
вопрос задан: 11 August 2016 08:29
0
ответов

Можно ли использовать Selenium WebDriver для управления PhantomJS?

Я изучаю документацию по Selenium WebDriver, и он, например, может управлять Chrome. Я подумал, не будет ли гораздо эффективнее «управлять» PhantomJS? Есть ли способ использовать...
вопрос задан: 20 April 2016 20:42
0
ответов

Jsoup загружает частичную страницу

Я пытаюсь очистить содержимое веб-сайтов, предлагающих ставки, но не могу получить полную страницу веб-сайта. Я использую лом на xulrunner, чтобы сначала получить страницу (поскольку ajax загружает определенные ...
вопрос задан: 11 April 2016 23:34
0
ответов

Html Agility Pack. Загрузить и очистить веб-страницу

Это лучший способ получить веб-страницу при очистке? HttpWebRequest oReq = (HttpWebRequest)WebRequest.Create(url); HttpWebResponse resp = (HttpWebResponse)oReq.GetResponse(); var doc = new ...
вопрос задан: 14 December 2015 13:54
0
ответов

Python - Простой способ очистить Google, загрузить N лучших результатов (весь. html) для данного поиска?

Есть ли простой способ очистить Google и написать текст (только текст) первых N (скажем, 1000) .html (или любых других) документов для данного поиска? В качестве примера представьте, что вы ищете фразу "...
вопрос задан: 2 November 2015 16:23
0
ответов

Зачистка ответа JSON с помощью Scrapy

Как вы используете Scrapy для очистки веб-запросов, которые возвращают JSON? Например, JSON будет выглядеть следующим образом: {"firstName": "John", "lastName": "Smith", "age": 25, "address": {"...
вопрос задан: 3 October 2015 17:38
0
ответов

Запрос модуля, как правильно извлекать символы с диакритическими знаками? � � �

Я использую: Модуль: Запрос - Упрощенный метод HTTP-запроса для очистки веб-страницы с помощью символов с диакритическими знаками á é ó ú ê ã и т. Д. Я уже пробовал кодировать: utf-8 безуспешно. Я все еще получаю это ...
вопрос задан: 21 August 2015 17:03
0
ответов

Веб-парсинг - как определить основной контент на веб-странице

Учитывая веб-страницу новостной статьи (из любого основного источника новостей, например Times или bloomberg), я хочу определить основное содержание статьи на этой странице и выбросить другие элементы, такие как реклама, меню, ...
вопрос задан: 13 August 2015 09:53
0
ответов

Веб-парсинг в расширении Google Chrome (JavaScript + API-интерфейсы Chrome)

Каковы наилучшие варианты выполнения веб-парсинга для не открытой в данный момент вкладки изнутри Расширение Google Chrome с JavaScript и другими доступными технологиями. Другой JavaScript -...
вопрос задан: 31 July 2015 08:06
0
ответов

Соскоб для стен SEC Edgar 10-K и 10-Q

Есть ли у кого-нибудь опыт работы со скребками SEC 10-K и 10-Q? Я застрял при попытке очистить ежемесячные выкупленные акции от этих заявок. В частности, я хотел бы получить ...
вопрос задан: 23 July 2015 15:43
0
ответов

Как я могу очистить сайты, требующие аутентификации с помощью node.js?

Я встречал много руководств, объясняющих, как очищать общедоступные веб-сайты, не требующие аутентификации / входа в систему, с помощью node.js. Может ли кто-нибудь объяснить, как очищать сайты, требующие входа в систему, с помощью node ....
вопрос задан: 22 June 2015 14:32
0
ответов

Каким будет наиболее этичный способ потреблять контент с сайта, который не предоставляет API? [закрыто]

Мне было интересно, что было бы наиболее этичным способом потреблять несколько байтов (точнее 386) контента с данного сайта A, с приложением (например, Google App Engine) на каком-то сайте B, но все делалось правильно , ...
вопрос задан: 1 March 2015 21:55
0
ответов

конвертировать HTML в JSON в виде соскоба PHP

Эта html-структура взята из некоторого другого URL-адреса, и нам нужно извлечь его, используя содержимое файла get или используя curl. Структура
, показанная на рисунке выше. Что я хочу сделать, это преобразовать это <...
вопрос задан: 26 February 2015 11:10
0
ответов

Python BeautifulSoup читать веб-страницу

Привет всем ... Я хочу прочитать колонку «САМЫЕ ПОПУЛЯРНЫЕ» на http://www.nydailynews.com/. Коды в Chrome выглядят следующим образом: Я делаю так: url = "http://www.nydailynews.com/" page = urllib2.urlopen (url) ...
вопрос задан: 25 February 2015 08:47
0
ответов

Веб-анализ Python для содержимого, созданного в JavaScript

Я пытаюсь использовать python3, чтобы вернуть цитату из bibtex, сгенерированную http://www.doi2bib.org/. URL-адреса являются предсказуемыми, поэтому скрипт может определить URL-адрес без взаимодействия с веб-страницей ....
вопрос задан: 3 February 2015 01:19
0
ответов

как создать веб-браузер на R с помощью readLines и grep?

Я новичок в R. Я хочу собрать корпус газетных статей объемом в 1 миллион слов. Итак, я пытаюсь написать веб-парсер для извлечения газетных статей, например, из сайт хранителя: http: // www ....
вопрос задан: 20 January 2015 17:44
0
ответов

возвращаемый список загрузчика элемента scrapy не одно значение

Я использую скрап 0,20. Я хочу использовать загрузчик элементов, это мой код: l = XPathItemLoader (item = MyItemClass (), response = response) l.add_value ('url', response.url) l.add_xpath ('title', "...
вопрос задан: 10 December 2014 01:36
0
ответов

Очистите несколько страниц с помощью BeautifulSoup и Python

Мой код успешно очищает теги tr align = center из [http://my.gwu.edu/mod/pws/courses.cfm?campId=1&termId=201501&subjId=ACCY] и записывает элементы td в текстовый файл. Тем не мение, ...
вопрос задан: 21 October 2014 22:52
0
ответов

Scrapy CrawlSpider: как получить доступ к элементу на разных уровнях анализа

Я просматриваю веб-сайт (только два уровня в глубину), и я хочу собрать информацию с сайтов на обоих уровнях. Проблема, с которой я столкнулся, заключается в том, что я хочу заполнить поля одного элемента информацией...
вопрос задан: 18 October 2014 15:03
0
ответов

Парсинг веб-сайтов с помощью Haskell

Каково текущее состояние библиотек для парсинга веб-сайтов с помощью Haskell? Я пытаюсь заставить себя выполнять больше моих быстрых одноразовых задач в Haskell, чтобы повысить уровень комфорта с помощью ...
вопрос задан: 10 September 2014 01:12