Разделите HTML после N слова в Python

Вы можете использовать этот код:

import unicodedata
s = "ˈtau̯rum" 

a = ""
for c in s:
    if unicodedata.combining(c):
        a += c
    else:
        print(a)
        a = c
else:
    print(a)

Таким образом, вы комбинируете комбинирующие символы. Вы можете заменить print(a) хранилищем кодов, которые должны храниться вместе.

7
задан rjmunro 11 December 2008 в 17:16
поделиться

4 ответа

Смотрите на функцию truncate_html_words в django.utils.text. Даже если Вы не используете Django, код там делает точно, что Вы хотите.

6
ответ дан 7 December 2019 в 03:22
поделиться

Я услышал, что Красивый Суп очень хорош в парсинге HTML. Это, вероятно, сможет помочь Вам вывести корректный HTML.

3
ответ дан 7 December 2019 в 03:22
поделиться

Я собирался упомянуть основной HTMLParser, это создается в Python, так как я не уверен, какова конечный результат Ваша попытка добраться до, это может или не может получить Вас там, Вы будете работать с обработчиками, прежде всего,

0
ответ дан 7 December 2019 в 03:22
поделиться

Можно использовать соединение regex, BeautifulSoup или Опрятный (я предпочитаю BeautifulSoup). Идея проста - разделяют все HTML-тэги сначала. Найдите энное слово (n=7 здесь), найдите количество раз, энное слово появляется в строке до n слова - потому что Вы только ищете последнее вхождение, которое будет использоваться для усечения.

Вот часть кода, хотя немного грязный, но работает

import re
from BeautifulSoup import BeautifulSoup
import tidy

def remove_html_tags(data):
    p = re.compile(r'<.*?>')
    return p.sub('', data)

input_string='<p>This is some text with a <a href="http://www.example.com/" '\
    'title="Example link">bit of linked text in it</a></p>'

s=remove_html_tags(input_string).split(' ')[:7]

###required to ensure that only the last occurrence of the nth word is                                                                                      
#  taken into account for truncating.                                                                                                                       
#  coz if the nth word could be 'a'/'and'/'is'....etc                                                                                                       
#  which may occur multiple times within n words                                                                                                            
temp=input_string
k=s.count(s[-1])
i=1
j=0
while i<=k:
    j+=temp.find(s[-1])
    temp=temp[j+len(s[-1]):]
    i+=1
####                                                                                                                                                        
output_string=input_string[:j+len(s[-1])]

print "\nBeautifulSoup\n", BeautifulSoup(output_string)
print "\nTidy\n", tidy.parseString(output_string)

Вывод - то, что Вы хотите

BeautifulSoup
<p>This is some text with a <a href="http://www.example.com/" title="Example link">bit</a></p>

Tidy
<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 3.2//EN">
<html>
<head>
<meta name="generator" content=
"HTML Tidy for Linux/x86 (vers 6 November 2007), see www.w3.org">
<title></title>
</head>
<body>
<p>This is some text with a <a href="http://www.example.com/"
title="Example link">bit</a></p>
</body>
</html>

Надеюсь, это поможет

Править: Лучший regex

`p = re.compile(r'<[^<]*?>')`
0
ответ дан 7 December 2019 в 03:22
поделиться
Другие вопросы по тегам:

Похожие вопросы: