Самый легкий путь или инструменты Best для преобразования текста слова для очистки (X) [закрытый] HTML

Хотя «назад» относится к перебазированию в более старый коммит, оно также отражает практику « дооснащения », которое в программном обеспечении является актом бэкпортинга

Действие по извлечению деталей из более новой версии системы программного обеспечения или компонента программного обеспечения и переносу их в более старую версию того же самого программного обеспечения. Он является частью этапа обслуживания в процессе разработки программного обеспечения и обычно используется для устранения проблем безопасности в более старых версиях программного обеспечения, а также для предоставления новых функций более старым версиям.

blockquote>

В Git этот «порт» может быть обратной перебазировкой, но чаще это вишня (потому что вы могли бы уже перебазировать свою ветвь вперед, имея необходимость реплицировать те же самые ветки). исправляет / фиксирует старую версию вашего программного обеспечения, в случае исправления ошибки)

10
задан Fionnuala 29 November 2008 в 17:03
поделиться

10 ответов

Я удивлен, что никто не упомянул это, но HTML, Опрятный обычно, делает хорошее задание этого. Я недавно не использовал его, но я понимаю, что это подходит для чистки содержимого HTML, выставленного из Word в частности.

2
ответ дан 3 December 2019 в 23:52
поделиться

Если можно установить Word 2003 или 2007, то можно использовать новый формат OOXML для генерации XML-файлов. Формат является симпатичной плотиной... комплекс, но по крайней мере можно проанализировать его со стандартными инструментами. Это должно позволить Вам извлекать информацию, в которой Вы нуждаетесь из файла.

OfficeXMLMarkupExplained_en.docx файла содержит введение и много деталей, как OOXML работает.

0
ответ дан 3 December 2019 в 23:52
поделиться

Можно хотеть дать этому инструменту попытку: Средство просмотра документов OpenXML.

Это предлагает инструмент командной строки для преобразования OpenXML (DOCX) документы в HTML.

0
ответ дан 3 December 2019 в 23:52
поделиться

Самый легкий и более быстрый путь ко мне состоит в том, чтобы скопировать весь текст с Word и вставить его в WYSIWYG-редактор DreamWeaver (любая версия от MX до CS3) использование вставки специальная команда и желание сохранить просто структуру документа. Это работает отлично, если Ваш документ слова не является слишком составным, и если это действительно сложно, Вам нужно просто дополнительное редактирование в представлении кода. Получающийся HTML является действительно чистым.

Единственная проблема с этим методом состоит в том, что Вам нужен DreamWeaver, который не свободен. Так или иначе можно протестировать метод с пробной версией DW.

1
ответ дан 3 December 2019 в 23:52
поделиться

Word очень "грязен" со своим собственным кодированием. Это могло вложить теги полужирного начертания, пустые теги полужирного начертания и все виды злобности в зависимости от того, использовал ли theuser встроенные стили (направляющийся 1, направляясь 2 и т.д.) по сравнению с изменением размеров шрифта. Что-либо, что берет документ в формате Word и пытается "преобразовать" его в HTML, наследует те же проблемы разметки также.

Лучшая вещь сделать записать макрос в Word для выполнения нескольких действий поиска-и-замены с очевидными вещами, такими как M-тире, вкладки, замещающий знак и т.д.

Затем замените концы абзаца ^p^p заполнителем (как ~), затем замените все одиночные разрывы (^p) пространством, затем замените ~ </p>^p</p> генерировать абзацы HTML.

Затем скопируйте весь документ, вставьте его в Блокнот для удаления любой разметки неASCII, затем скопируйте и вставьте это в редактор HTML и вручную разметку, 10%, это перенесено, как полужирный курсив, не соответствовали тегам абзаца и т.д.

Ничто никогда не будет так же хорошо как кодирование руки, таким образом, с этой техникой большая часть трудной работы будет сделана, и у Вас есть чистый текст для запуска с.

0
ответ дан 3 December 2019 в 23:52
поделиться

Преобразуйте в RTF и используйте XSLT для преобразования обогащенного текста в HTML. Я рекомендовал бы пытаться получить все как RTF вместо .docx или безотносительно Формата слова.

0
ответ дан 3 December 2019 в 23:52
поделиться

Давным-давно для меня определили задачу со взятием обоснованно хорошо структурированного документа слова мультимегабайта и преобразованием его в серию страниц HTML (приблизительно 20 000 из них!) Это было выполнено путем сохранения документа в формате Word как RTF (Сохранение Word, поскольку вывод HTML был слишком "грязен"), и преобразование RTF к HTML с помощью сценария Perl. Преобразование было двумя процессами передачи... Сначала очистите общие ошибки форматирования, затем преобразуйте убранный RTF в HTML.

Так как редакторы документа продолжали поддерживать документ Word, он заплатил для шифровки общих ошибок форматирования в первичной обработке, потому что ошибки часто повторялись, даже будучи зафиксированным.

Кстати, этот процесс показал очень скептическое управление, как всего через 40 часов (или так) хороший кодер мог произвести ~20 000 веб-страниц и усовершенствовать их неограниченно долго, в то время как исходные авторы (то, кто время, было еще более ценным) будут иметь, тратят несколько сотен часов, делая преобразование и был бы вынужден поддержать получающийся HTML вручную после этого.

4
ответ дан 3 December 2019 в 23:52
поделиться

Много лет назад я написал инструмент под названием CleanXHTML 1.2 для Microsoft Office Word 2003 (.NET 2.0) . Это предназначено для работы внутри Word и позволяет экспортировать XHTML на основе того, что выделено (или выбрано) в документе. Я уже много лет сижу на версии Word 2007.

1
ответ дан 3 December 2019 в 23:52
поделиться

Также попробуйте http://www.manglebracket.com/ , это веб-приложение, в которое вы загружаете документ Word, и оно конвертирует его в HTML с различными (на самом деле слишком многими) параметрами. Идеально подходит для специального преобразования, когда ваш копирайтер отправляет вам пресс-релиз в Word, и вы, например, хотите разместить его на сайте.

com / , это веб-приложение, в которое вы загружаете Word DOC и конвертируете его в HTML с различными (на самом деле слишком многими) параметрами. Идеально подходит для специального преобразования, когда ваш копирайтер отправляет вам пресс-релиз в Word, и вы, например, хотите разместить его на сайте.

com / , это веб-приложение, в которое вы загружаете Word DOC и конвертируете его в HTML с различными (на самом деле слишком многими) параметрами. Идеально подходит для специальной конверсии, когда ваш копирайтер отправляет вам пресс-релиз в Word, и вы, например, хотите разместить его на сайте.

0
ответ дан 3 December 2019 в 23:52
поделиться

Для этого я написал утилиту командной строки: подробности см. В конвертере документов в HTML .

1
ответ дан 3 December 2019 в 23:52
поделиться