На Python 2 вы должны использовать литерал u''
для создания строки Unicode. Кроме того, вы должны передать флаг re.UNICODE
и преобразовать свои входные данные в Unicode (например, text = data.decode('utf-8')
):
#!/usr/bin/env python
import re
text = u'This dog \U0001f602'
print(text) # with emoji
emoji_pattern = re.compile("["
u"\U0001F600-\U0001F64F" # emoticons
u"\U0001F300-\U0001F5FF" # symbols & pictographs
u"\U0001F680-\U0001F6FF" # transport & map symbols
u"\U0001F1E0-\U0001F1FF" # flags (iOS)
"]+", flags=re.UNICODE)
print(emoji_pattern.sub(r'', text)) # no emoji
This dog
Более простой способ получить содержание:
WebClient x = new WebClient();
string source = x.DownloadString("http://www.singingeels.com/");
А более простой, более надежный способ получить заголовок:
string title = Regex.Match(source, @"\<title\b[^>]*\>\s*(?<Title>[\s\S]*?)\</title\>",
RegexOptions.IgnoreCase).Groups["Title"].Value;
Inorder для выполнения этого Вы испытываете необходимость, чтобы сделать несколько вещей.
, я сделал это прежде с ботами SEO, и я смог обработать почти 10 000 запросов в единственное время. Просто необходимо удостовериться, что каждый веб-запрос может быть сам содержавшийся в потоке.