Еще один пример для lawbot.org :
import requests
from bs4 import BeautifulSoup
base_url = 'http://lawbot.org'
search_url = base_url + '/?q=유죄'
response = requests.get(search_url)
page = BeautifulSoup(response.text, "html.parser")
lastPageNumber = int(page.select_one("li.page-item:not(.next):nth-last-child(2)").text)
casesList = []
for i in range(1, lastPageNumber + 1):
if i > 1:
response = requests.get(search_url + "&page=" + str(i))
page = BeautifulSoup(response.text, "html.parser")
cases = page.select("div.panre_center > ul.media-list li.panre_lists")
for case in cases:
title = case.findChild("h6").text
caseDocNumber = case.findChild(attrs={"class": "caseDocNumber"}).text
caseCourt = case.findChild(attrs={"class": "caseCourt"}).text
case_url = base_url + case.findChild("a")['href']
casesList.append({"title": title, "caseDocNumber": caseDocNumber, "caseCourt": caseCourt, "case_url": case_url})
# print("title:{}, caseDocNumber:{}, caseCourt:{}, caseUrl:{}".format(title, caseDocNumber, caseCourt, case_url))
for case in casesList:
response = requests.get(case["case_url"])
page = BeautifulSoup(response.text, "html.parser")
body = page.find(attrs={"class": "panre_body"}).text
print(body)
Это напомнило мне о первом написанном мной HTTP-сервере, который (очевидно) возвращал заголовок сервера: Почему вы хотите знать?
Один из возможных ответов на этот вопрос это «Потому что я провожу опрос». Например, это было бы невозможно без заголовка сервера.
Сервер не означает сервер, с которого обслуживается ресурс. Это для рекламы реализации . Что касается его полезности, это хороший вопрос. Apache httpd можно настроить так, чтобы он не включал этот заголовок, поскольку это может считаться проблемой безопасности.
Интересный вопрос. С одной стороны, возможно, изначально это рассматривалось как средство расширения возможностей, аналогично пользовательскому агенту по запросу (браузер и т. д.). На самом деле ни то, ни другое в этом отношении бесполезно, и большая часть кода теперь использует другие средства для проверки параметров. И во многих отношениях сервер (косвенно) контролирует запросы от клиентов с хорошим поведением (по крайней мере, если имеет фактор влияния).
В наши дни это иногда рассматривается как проблема безопасности, и я знаю многих помещает этот заголовок в HTML-трафик. Но для трафика, отличного от html (но все же http) (например, веб-сервисов), он все еще может служить полезной цели управления версиями (хотя в таких случаях вы часто видите заголовок управления версиями для конкретного продукта).
И во многих отношениях сервер (косвенно) контролирует запросы от клиентов с хорошим поведением (по крайней мере, если имеет фактор влияния).В наши дни это иногда рассматривается как проблема безопасности, и я знаю многих помещает этот заголовок в HTML-трафик. Но для трафика, отличного от html (но все же http) (например, веб-сервисов), он все еще может служить полезной цели управления версиями (хотя в таких случаях вы часто видите заголовок управления версиями для конкретного продукта).
И во многих отношениях сервер (косвенно) контролирует запросы от клиентов с хорошим поведением (по крайней мере, если имеет фактор влияния).В наши дни это иногда рассматривается как проблема безопасности, и я знаю многих помещает этот заголовок в HTML-трафик. Но для трафика, отличного от html (но все же http) (например, веб-сервисов), он все еще может служить полезной цели управления версиями (хотя в таких случаях вы часто видите заголовок управления версиями для конкретного продукта).
Статистика .. и кто бы это ни был, подскажет, когда и как распространяются события ..
Попробуйте доноров Google и посмотрите трехбуквенный сервер: ответ .. Таких много поскольку они купили много коробок много лет назад.
[Это все равно что утверждать, что Apache или IIS распространяются слишком быстро, прямо на расходы моего члена парламента ...]