Действительно ли возможно извлечь Метаинформацию из файлов MS Office и/или PDFs с PHP?

Question

Действительно ли возможно извлечь Метаинформацию из файлов MS Office и/или PDFs с PHP?

Таким образом, у меня есть файлы....

.doc
.docx
.xls
.xlsx
and .pdf

это находится на моем сервере.

Действительно ли это возможно (и если это, как) извлечь метаданные из тех файлов с помощью PHP? Я ищу вещи как Автор, ключевые слова, заголовок, и т.д...

В офисных документах это - информация, хранившая наряду со свойствами документа (Файл... Свойства... Сводка на 2003, Подготовиться... Свойства на 2007).

В PDFs это - информация, найденная в Свойствах Документа.

Это не находится на Windows Server.

6

php pdf metadata ms-office

задан Charles 24 December 2012 в 22:29

1 ответ

Другие вопросы по тегам:

php pdf metadata ms-office

Похожие вопросы:

score 2 · Accepted Answer

Мне удалось извлечь много метаинформации с использованием XPDF в системе Linux несколько лет назад. В наше время, хотя я бы сказал Zend_PDF - это ваша лучшая ставка. Не использовал его сам, но выглядит хорошо и обещает все, что вам нужно. Похоже, нет никаких библиотечных зависимостей.

Для Word .docs, если вы не найдете лучший способ, подключите к команду / командную строку сервера OpenOffice Server и преобразовать файлы в ODT, что является XML и палями. Если невозможно извлечь метаданные данные на макрос - это должно быть, но я не знаю, сколько это работает. Эта запись форума OpenOffice дает тонну отправных точек для автоматического преобразования.

Форматы ... X - это какой-то XML, поэтому его можно легко можно легко получить метаданные данные. В качестве альтернативы, вы должны иметь возможность использовать здесь конверсионные фильтры OpenOffice, если они транспортируют метаданные.