Проверка Интернета

Question

Проверка Интернета

Поскольку вы установили, что выбор производится по строкам, тогда нужно только получить строку и выполнить итерацию по ней, в этом случае используя set, получить выбранные строки и метки в столбцах.

def on_pbOk_clicked(self):
    message: str = ""
    rows = set(ix.row() for ix in self.dataView.selectedIndexes())
    for row in rows:
        values_for_row = []
        for col in range(App.MAIL_RANGE):
            it = self.dataView.model().item(row, col)
            values_for_row.append(it.text())
        text = " ".join(values_for_row)
        self.create_dialog(text)
        message += "\n" + text
    print(message)

12

text-mining information-retrieval web-crawler nlp

задан Fabian Steeg 14 May 2009 в 21:52

10 ответов

Другие вопросы по тегам:

text-mining information-retrieval web-crawler nlp

Похожие вопросы:

score 8 · Answer 1

Существует хорошая книга по предмету, который я могу рекомендовать, назвал Webbots, Пауков и Экранные Скребки: Руководство по Разработке интернет-Агентов с PHP/CURL.

score 5 · Answer 2

Независимо от того, что Вы делаете, быть добропорядочным гражданином и повиноваться файлу robots.txt. Вы могли бы хотеть проверить ссылки на уровне страницы Википедии на сфокусированных поисковых роботах. Просто реализованный, что я знаю одного из авторов Актуальных поисковых роботов: Оценка Адаптивных Алгоритмов.Мир тесен.

score 3 · Answer 3

Я думаю, что webcrawler часть будет самой легкой частью задачи. Твердая часть будет решать, какие сайты посетить и как обнаружить события на сайтах, которые Вы хотите посетить. Возможно, Вы хотите заняться использованием или Google или Yahoo API для получения данных, которые Вы хотите. Они уже сделали работу проверки большого количества страниц в Интернете - можно сфокусироваться на, по моему мнению так или иначе, намного более жесткая проблема отсеивания данных для получения событий, которые Вы ищете.

score 1 · Answer 4

Если Вы находите, что проверка Интернета становится к dawnting задачей, можно хотеть рассмотреть создание RSS-агрегатора и подписку на каналы RSS для популярных сайтов события как craigslist и upcoming.org.

Каждый из этих сайтов обеспечивает локализованные, доступные для поиска события. RSS предоставляет Вам (небольшое количество) стандартизированные форматы вместо того, чтобы иметь необходимость ко всему уродливому HTML, который составляет сеть...

Существуют библиотеки с открытым исходным кодом как РИМ (Java), который может помочь с потреблением каналов RSS.

score 0 · Answer 5

Существует ли конкретное требование языка?,

Я провел некоторое время, играя вокруг с Lib Паука Chilkat для .NET некоторое время назад для персонального экспериментирования,

В последний раз я проверил там, что паук Освобождает, лицензируются как Бесплатное программное обеспечение, (Altho не открытый исходный код насколько я знаю :()

Кажется, что у них есть Lib Python к.

http://www.example-code.com/python/pythonspider.asp #Python http://www.example-code.com/csharp/spider.asp #.Net

score 10 · Answer 6

Отличным вводным текстом по этой теме является Введение в поиск информации (полный текст доступен в Интернете). В нем есть глава о сканировании Интернета , но, что, возможно, более важно, он обеспечивает основу для того, что вы хотите делать с просканированными документами.

_{(источник: stanford.edu )}

score 0 · Answer 7

Следуя предложению Кевина о RSS-каналах, вы можете проверить каналы Yahoo . Я еще не пробовал их, но думаю, что они позволяют обрабатывать несколько каналов RSS и создавать веб-страницы или несколько каналов RSS.

score 4 · Answer 8

Ознакомьтесь с Scrapy . Это фреймворк для веб-сканирования с открытым исходным кодом, написанный на Python (я слышал, что он похож на Django, за исключением того, что вместо обслуживания страниц он загружает их). Он легко расширяемый, распределяемый / параллельный и выглядит очень многообещающим.

Я бы использовал Scrapy, потому что таким образом я мог бы сэкономить свои сильные стороны для чего-то более тривиального, например, как извлекать правильные данные из очищенного контента и т.д. и вставлять в базу данных .

score 0 · Answer 9

Nutch Crawler

0

ответ дан 2 December 2019 в 04:34

score 2 · Answer 10

На самом деле написать масштабно управляемый краулер - довольно сложная задача. Я реализовал один на работе и довольно долго поддерживал его. Есть много проблем, о существовании которых вы не подозреваете, пока не напишете их и не решите сами. В частности, это касается CDN и дружественного сканирования сайтов. Адаптивные алгоритмы очень важны, иначе вы отключите фильтры DOS. На самом деле вы все равно сделаете это, даже не зная об этом, если ваш обход будет достаточно большим.

О чем следует подумать:

What ' S кроме умелых пропускной способности?
Как вы справляетесь с отключениями сайта?
Что произойдет, если вы заблокированы?
Вы хотите участвовать в скрытом ползания (contreversial и на самом деле довольно трудно получить права)?

Я на самом деле написал кое-что, что, если я когда-нибудь дойду до него, я могу выложить в Интернете информацию о конструкции гусеничных машин, поскольку создание надлежащего намного сложнее, чем люди скажут вам. Большинство поисковых роботов с открытым исходным кодом работают достаточно хорошо для большинства людей, поэтому, если вы можете, я рекомендую вам использовать один из них. Какая из них является выбором функции / платформы.