Действительно ли возможно извлечь Метаинформацию из файлов MS Office и/или PDFs с PHP?

Таким образом, у меня есть файлы....

.doc
.docx
.xls
.xlsx
and .pdf

это находится на моем сервере.

Действительно ли это возможно (и если это, как) извлечь метаданные из тех файлов с помощью PHP? Я ищу вещи как Автор, ключевые слова, заголовок, и т.д...

В офисных документах это - информация, хранившая наряду со свойствами документа (Файл... Свойства... Сводка на 2003, Подготовиться... Свойства на 2007).

В PDFs это - информация, найденная в Свойствах Документа.

Это не находится на Windows Server.

6
задан Charles 24 December 2012 в 22:29
поделиться

1 ответ

Мне удалось извлечь много метаинформации с использованием XPDF в системе Linux несколько лет назад. В наше время, хотя я бы сказал Zend_PDF - это ваша лучшая ставка. Не использовал его сам, но выглядит хорошо и обещает все, что вам нужно. Похоже, нет никаких библиотечных зависимостей.

Для Word .docs, если вы не найдете лучший способ, подключите к команду / командную строку сервера OpenOffice Server и преобразовать файлы в ODT, что является XML и палями. Если невозможно извлечь метаданные данные на макрос - это должно быть, но я не знаю, сколько это работает. Эта запись форума OpenOffice дает тонну отправных точек для автоматического преобразования.

Форматы ... X - это какой-то XML, поэтому его можно легко можно легко получить метаданные данные. В качестве альтернативы, вы должны иметь возможность использовать здесь конверсионные фильтры OpenOffice, если они транспортируют метаданные.

2
ответ дан 17 December 2019 в 20:32
поделиться
Другие вопросы по тегам:

Похожие вопросы: