Я пишу специальный индексатор Lucene.NET для индексирования документов MS Word. Индексатор должен быть способен обрабатывать последние три версии MS Word: 2010, 2007 и 2003.
Планируется использовать сборки взаимодействия VSTO, которые устанавливаются как часть VS2010, для извлечения текстового содержимого из документов.
Is есть ли лучший способ реализовать индексацию документов Word? Означает ли это, что мне нужно будет установить все три версии Word на сервер? Или просто Word 2010?
Инструменты / Среда:
Примечание: Подробнее о том, как реализовать это, см. Текстовый поиск Sitecore в документах PDF или Word