Чистка Microsoft произвела HTML для хеша включая на 'чистой' веб-странице

У меня есть страница интранет, которая использует #include для включения других файлов, таких как таблицы номера телефона или расписания дежурств. Эти включенные файлы сохраняются в Microsoft Excel.

Не все они сохраняются мной (парень, отвечающий за саму интранет), таким образом, нет действительно опции отказаться признавать, что Excel произвел файлы HTML.

Проблема, которую я имею, состоит в том, что эти файлы переполнены дерьмом, которое почти наверняка не нужно браузером для отображения то, что является по существу простой таблицей с некоторым форматированием цвета в местах (и иногда текст будет полужирным или курсивным в особенности ячейки),

Что, по Вашему мнению был бы лучший способ пойти об этом? Есть ли некоторый код, который может убрать все дерьмо из файла, сохраненного Excel как HTML? Существует ли более опрятный более известный промышленностью способ отобразить содержание, встроенное сгенерированный третьими лицами?

Любые приветствующиеся предложения.

править: Решения, которые используют ASP, PHP, JavaScript также, добро пожаловать.

1
задан Joel Coehoorn 30 November 2011 в 05:44
поделиться

1 ответ

Есть ли повторяющаяся структура в ваших файлах? Экспорт в CSV (значения, разделенные запятыми) и восстановление таблиц из этого источника могут быть проще и быстрее, чем попытки удалить десятки нежелательных элементов и атрибутов, которые, по мнению Excel, он должен добавить.

Если выделенные жирным шрифтом и курсивом отдельные ячейки действительно конкретны (весь столбец данных частично выделен курсивом, а часть - нормальным), то CSV не поможет.

2
ответ дан 2 September 2019 в 23:39
поделиться
Другие вопросы по тегам:

Похожие вопросы: