Как индексировать документы Word 2003, 2007 и 2010 с помощью Lucene.NET

Я пишу специальный индексатор Lucene.NET для индексирования документов MS Word. Индексатор должен быть способен обрабатывать последние три версии MS Word: 2010, 2007 и 2003.

Планируется использовать сборки взаимодействия VSTO, которые устанавливаются как часть VS2010, для извлечения текстового содержимого из документов.

Is есть ли лучший способ реализовать индексацию документов Word? Означает ли это, что мне нужно будет установить все три версии Word на сервер? Или просто Word 2010?

Инструменты / Среда:

  • Lucene.NET 2.3.1.3
  • VS2010 / .NET 3.5
  • Windows 2008 / IIS 7

Примечание: Подробнее о том, как реализовать это, см. Текстовый поиск Sitecore в документах PDF или Word

5
задан Community 23 May 2017 в 11:56
поделиться