Есть ли какой-либо язык, который просто “идеально подходит” для веб-очистки? [закрытый]

7
задан Shubham 12 August 2010 в 13:24
поделиться

4 ответа

Проверьте Python + Scrappy, это неплохо:

http://scrapy.org/

2
ответ дан 7 December 2019 в 14:26
поделиться

Почему бы просто не использовать формат XML Spreadsheet ? Его очень просто создать, и, вероятно, это будет тривиально с любым типом системы на основе классов.

Кроме того, для Python пробовали ли вы BeautifulSoup для синтаксического анализа? Urllib + BeautifulSoup представляет собой довольно мощную комбинацию.

1
ответ дан 7 December 2019 в 14:26
поделиться

Короткий ответ - нет.

Проблема в том, что HTML - это большое семейство форматов - и только самые последние варианты являются последовательными (и основаны на XML). Если вы собираетесь использовать PHP, то я бы рекомендовал использовать парсер DOM, поскольку он может обрабатывать большое количество html, который не может быть квалифицирован как хорошо сформированный XML.

Читая между строк вашего сообщения - похоже, что вы:

1) захватываете контент из Интернета с требованием сложного управления взаимодействием

2) разбираете данные в последовательный машиночитаемый формат

3) записываете данные в электронную таблицу

Что, конечно, является тремя отдельными проблемами - если ни один язык не удовлетворяет всем трем требованиям, то почему бы не использовать лучший инструмент для работы и просто беспокоиться о подходящем промежуточном формате/средстве для данных?

C.

1
ответ дан 7 December 2019 в 14:26
поделиться

Python + Beautiful Soup для веб-скрейпинга и, поскольку вы работаете на windows, вы можете использовать win32com для автоматизации Excel для генерации ваших xlsx файлов.

0
ответ дан 7 December 2019 в 14:26
поделиться