Таким образом, у меня есть файлы....
.doc
.docx
.xls
.xlsx
and .pdf
это находится на моем сервере.
Действительно ли это возможно (и если это, как) извлечь метаданные из тех файлов с помощью PHP? Я ищу вещи как Автор, ключевые слова, заголовок, и т.д...
В офисных документах это - информация, хранившая наряду со свойствами документа (Файл... Свойства... Сводка на 2003, Подготовиться... Свойства на 2007).
В PDFs это - информация, найденная в Свойствах Документа.
Это не находится на Windows Server.
Мне удалось извлечь много метаинформации с использованием XPDF в системе Linux несколько лет назад. В наше время, хотя я бы сказал Zend_PDF - это ваша лучшая ставка. Не использовал его сам, но выглядит хорошо и обещает все, что вам нужно. Похоже, нет никаких библиотечных зависимостей.
Для Word .docs, если вы не найдете лучший способ, подключите к команду / командную строку сервера OpenOffice Server и преобразовать файлы в ODT, что является XML и палями. Если невозможно извлечь метаданные данные на макрос - это должно быть, но я не знаю, сколько это работает. Эта запись форума OpenOffice дает тонну отправных точек для автоматического преобразования.
Форматы ... X - это какой-то XML, поэтому его можно легко можно легко получить метаданные данные. В качестве альтернативы, вы должны иметь возможность использовать здесь конверсионные фильтры OpenOffice, если они транспортируют метаданные.