Как Вы преобразовываете Word Document в очень простой HTML в Python? [закрытый]

Question

Как Вы преобразовываете Word Document в очень простой HTML в Python? [закрытый]

Для очень простого случая как это хорошо использовать PHP в качестве шаблона. Однако, если Вы идете вне простой логики (и Вы, скорее всего, будете), это - хорошая идея использовать движки шаблонов.

В Платформе Зенда, которая использует сценарии представления PHP по умолчанию, рекомендуемый способ сделать, это было бы похоже на это:

<?php if ($a) : ?>
    [MARKUP HERE]
<?php else : ?>
    [SOME MORE MARKUP]
<?php endif ?>

более подробный синтаксис делает намного легче соответствовать условным блокам во взгляде, чем использование фигурных скобок.

13

python html django ms-word

задан Thierry Lam 20 October 2009 в 19:52

4 ответа

Это зависит от того, с каким форматированием и изображениями вы имеете дело. Я делаю одно из двух:

Документы Google : возможно, наиболее близкое к исходному форматированию и пригодному для использования HTML.
Markdown : Отказ от форматирования. Вставьте его в текстовый редактор, прогоните через Markdown и исправьте остальное вручную.

2

ответ дан 1 December 2019 в 23:15

Вы также можете использовать Abiword / wvWare , чтобы преобразовать текстовый документ в XHTML, а затем проанализировать его с помощью BeautifulSoup / ElementTree / и т. Д. . для предварительной обработки, если вам нужно. По моему опыту, Abiword неплохо справляется с преобразованием файлов Word и создает относительно чистые файлы XHTML.

Я должен упомянуть, что Abiword можно запускать из командной строки, поэтому его легко интегрировать в автоматизированный процесс.

2

ответ дан 1 December 2019 в 23:15

Мое сверхпростое приложение WordOff имеет API для очистки от мусора HTML, экспортированного из Word. Вы можете переопределить метод сохранения вашей модели плоских страниц, чтобы ваш HTML-код передавался через API при первом сохранении. Примерно так:

import urllib
import urllib2

def decruft(html):
    data = urllib.urlencode({'html' : html})
    req = urllib2.Request('http://wordoff.org/api/clean', data)
    response = urllib2.urlopen(req)
    return response.read()

def save(self, **kwargs):
    if not self.pk: # only de-cruft when content is first added
        self.content = decruft(self.content)
    super(FlatPage, self).save(**kwargs)

3

ответ дан 1 December 2019 в 23:15

Другие вопросы по тегам:

python html django ms-word

Как Вы преобразовываете Word Document в очень простой HTML в Python? [закрытый]

4 ответа

Похожие вопросы: