29
ответов

Варианты соскоба HTML? [закрыто]

Я подумываю попробовать Beautiful Soup, пакет Python для очистки HTML. Есть ли какие-либо другие пакеты для очистки HTML, на которые мне стоит обратить внимание? Python не является обязательным требованием, я на самом деле заинтересован в ...
вопрос задан: 31 August 2018 22:28
26
ответов

Как удалить номера из имен? [Дубликат]

Я начал очищать веб-страницы, однако мой текст имеет число 0.01, прикрепленное к нему. Например, мне хотелось бы, чтобы имя «Doe, John0.01» выглядело как «Doe, John». Вот код до сих пор ... от urllib ....
вопрос задан: 25 October 2017 10:59
23
ответа

Как очистить html-документ с помощью PHP [duplicate]

Мне нужно получить базовый контент из html-элементов, таких как контент, найденный в & lt; title & gt; тег и т. д. через PHP. Любая помощь будет очень признательна, спасибо!
вопрос задан: 1 May 2018 10:33
18
ответов

Я разработал небольшой скребок Java, который собирает ссылки на нужные файлы Excel. Как загрузить эти файлы Excel через Java? [Дубликат]

Если я открою эти ссылки в своем браузере, он загрузит файл Excel. Как я могу заставить Java сделать это?
вопрос задан: 29 August 2013 00:38
13
ответов

Средняя функция без водосливного исключения

Платформа.NET 3.5. Я пытаюсь вычислить среднее число некоторых довольно больших количеств. Например: использование Системы; использование Системы. Linq; класс Программа {статическая Основная пустота (строка [] args) {...
вопрос задан: 24 May 2010 18:06
12
ответов

Каков лучший язык анализа экранных данных? [закрытый]

Привет я хочу создать настольное приложение (c# prob), который очищает или управляет формой на сторонней веб-странице. В основном я ввожу свои данные в форму в настольном приложении, это уходит к стороннему веб-сайту...
вопрос задан: 5 December 2011 11:06
9
ответов

Как экранные скребки работают? [закрытый]

Я слышу, что люди пишут эти программы все время, и я знаю то, что они делают, но как они на самом деле делают это? Я ищу общие понятия.
вопрос задан: 10 November 2010 09:42
8
ответов

Веб-выскабливание [закрытым] Python

Я в настоящее время пытаюсь очистить веб-сайт, который справедливо плохо отформатировал HTML (часто отсутствующий закрывающие тэги, нет смысла в классах или идентификаторах, таким образом, невероятно трудно перейти прямо к элементу, который Вы хотите...
вопрос задан: 28 March 2010 11:01
8
ответов

<> А Не В VB.NET

У меня есть захватывающая задача обнаружения о VB.NET <> и операторы Not. Не - я принимаю своим маленьким использованием его - функциональный эквивалент! на языках, таких как C# и <>...
вопрос задан: 28 July 2009 12:31
7
ответов

Как “просканировать” веб-сайт (или страница) для получения информации и принести его в мою программу?

Ну, я в значительной степени пытаюсь выяснить, как вытянуть информацию от веб-страницы и принести ее в мою программу (в Java). Например, если я знаю точную страницу, я хочу информацию от, ради...
вопрос задан: 27 November 2012 18:31
6
ответов

Что самый быстрый путь состоит в том, чтобы очистить веб-страницу HTML в Android?

Я должен извлечь информацию из неструктурированной веб-страницы в Android. Информация, которую я хочу, встраивается в таблицу, которая не имеет идентификатора. <таблица> <TR> <td> Описание </td>...
вопрос задан: 4 September 2015 17:39
6
ответов

Java [закрытый] парсинг HTML

Я работаю над приложением, которое очищает данные из веб-сайта, и я задавался вопросом, как я должен пойти о получении данных. Конкретно мне нужны данные, содержавшиеся во многих тегах Div, которые используют определенный CSS...
вопрос задан: 29 August 2013 04:08
6
ответов

Ошибка преобразования строки в int [duplicate]

Я очищал страницу, и я попытался преобразовать некоторый текст из страницы в int, но я получил строку ввода не в правильном формате, текст не на английском языке: «23» Но кодовая страница страницы - это Utf8. Сначала я ...
вопрос задан: 20 March 2012 14:34
5
ответов

получить ссылки с веб-страницы, используя python и BeautifulSoup

Как я могу получить ссылки на веб-странице и скопировать URL-адрес ссылок, используя Python?
вопрос задан: 3 May 2019 05:41
5
ответов

Как искать похожие строки на веб-странице? [Дубликат]

Я использую BeautifulSoup для очистки веб-страниц и поиска элементов с конкретными текстами. Однако функции поиска супа и find_all возвращают только точные соответствия. Я бы хотел использовать fuzzywuzzy или soundex для просмотра ...
вопрос задан: 27 July 2015 01:02
5
ответов

Как знать, изменился ли очищаемый веб-сайт?

Я использую PHP, чтобы очистить веб-сайт и собрать некоторые данные. Это все обошлось без использования regex. Я использую php's, взрывают () метод для нахождения конкретных HTML-тэгов вместо этого. Это возможно это если структура...
вопрос задан: 27 March 2010 17:52
4
ответа

Соскоб в Интернете при прокрутке вниз необходим

Я хочу очистить, например, заголовок первых 200 вопросов на веб-странице https://www.quora.com/topic/Stack-Overflow-4/all_questions. И я попробовал следующий код: запросы на импорт из bs4 ...
вопрос задан: 5 March 2019 02:59
4
ответа

как извлечь текст, написанный вне тега h4, используя scrapy python

поле помечено синим, это поле, которое я пытаюсь очистить < h4 class = "inline" > Бюджет: < / h4 > "€ 650 000" ...
вопрос задан: 18 January 2019 20:35
4
ответа

BeautifulSoup: Получите содержание определенной таблицы

Мой локальный аэропорт позорно блокирует пользователей без IE и выглядит ужасным. Я хочу записать Python сценарии, которые получили бы содержание страниц Arrival и Departures каждые несколько минут и шоу...
вопрос задан: 19 February 2017 22:46
4
ответа

Python, мультипотоки, выбирает веб-страницы, загружает веб-страницы

Я хочу обработать dowload веб-страницы в пакетном режиме в одном сайте. В моем файле 'urls.txt' существует 5 000 000 ссылок URL. Это о 300M. Как делают, мультипотоки связывают эти URL и dowload эти веб-страницы? или Как пакет...
вопрос задан: 4 September 2015 17:44
4
ответа

Невозможно отправить ключи в поле ввода и выполнить поиск. [Дубликат]

Ниже приведена ошибка для этого кода: AttributeError: объект 'list' не имеет атрибута 'send_keys' из selenium import webdriver product_name = "" "// * [@ id =" 5tnhj0-acc-menu "] / li [11] / div [2] / h5 "" "driver = ...
вопрос задан: 30 April 2015 01:14
4
ответа

Кто-либо открывается, просто растяжимый поисковый робот существует?

Я ищу решение для поискового робота, какая банка является достаточно сформировавшейся и может быть просто расширена. Я интересуюсь следующими функциями... или возможностью расширить поисковый робот для встречи их: частично просто...
вопрос задан: 26 November 2012 13:08
4
ответа

Есть ли какой-либо язык, который просто “идеально подходит” для веб-очистки? [закрытый]

Я использовал 3 языка для веб-Очистки - Ruby, PHP и Python, и честно ни один из них, кажется, не совершенствует для задачи. Ruby имеет превосходное, механизируют и XML парсинг библиотеки, но электронной таблицы...
вопрос задан: 12 August 2010 13:24
4
ответа

Как вы экран скрести? [закрыто]

Когда нет доступного API веб-сервиса, единственным вариантом может быть Screen Scrape, но как это сделать в c #? как ты думаешь об этом?
вопрос задан: 11 March 2010 23:16
3
ответа

Как перенести столбец данных в одну строку с несколькими столбцами в Python?

Я пытаюсь собрать некоторые данные с веб-сайта, и мне удается собрать важную информацию, но когда я печатаю ее в файл Excel, данные просто перетекают в один столбец. Есть ли ...
вопрос задан: 28 March 2019 04:58
3
ответа

Ошибка автоматизации ввода данных сайта, так как сайт все еще загружается

У меня есть код, который берет данные из нескольких столбцов из ThisWorkbook и помещает в различные поля на сайте в Internet Explorer. Сайт загружается после нажатия на строку 1 (кнопка поиска). Тогда ...
вопрос задан: 25 March 2019 08:56
3
ответа

Предоставлен список сайтов, поиск и возврат информации в Python

Я создал функцию, которая возвращает список URL с указанием названия конкретной компании. Я хочу узнать поиск по этому списку URL-адресов и найти информацию о том, принадлежит ли компания другому ...
вопрос задан: 20 March 2019 22:18
3
ответа

извлечение данных из следующего диапазона в том же теге h1 в BeautifulSoup

Привет, я пытаюсь очистить подкатегорию subcat = soup.find (класс _ = 'bread-block-wrap'). Find (класс _ = 'breadcrumb-keyword-bg'). Find (класс _ = 'breadcrumb-keyword list-responseive-container ') .find (класс _ =' щ -...
вопрос задан: 6 March 2019 19:51
3
ответа

Очистка веб-данных из JSON с помощью Python

Я хотел бы очистить данные расписания от этого API. Возвращенные данные в формате JSON. Я использую Python. Я пробовал следующий код: snav_timetable_url = "https: //booking.snav.it/api/v1/rates / ...
вопрос задан: 26 February 2019 21:40
3
ответа

Python BeautifulSoup циклически просматривая данные таблиц

Очень новый для Python здесь. Я пытаюсь захватить некоторые данные с этой страницы этой страницы. Я пытаюсь получить имя элемента и тип элемента в двух списках. Я могу понять, как объединить их в одну ...
вопрос задан: 17 January 2019 14:48