Индексируйте PDF-документы в Solr из клиента C #

В основном я пытаюсь проиндексировать Word или PDF-документы в Solr и нашел ExtractingRequestHandler, но не могу понять, как написать код на C # который выполняет HTTP-запрос POST, как в вики Solr: http://wiki.apache.org/solr/ExtractingRequestHandler .

Я установил Solr 3.4 на Tomcat 7 (7.0.22), используя файлы из каталога example / solr в zip-архиве Solr, и я ничего не менял. ExtractingRequestHandler должен быть настроен прямо из коробки в solrconfig.xml и готов к использованию, не так ли?

Могут ли некоторые из вас привести пример C # (HttpWebRequest) того, как вы делаете HTTP-запрос POST и загружаете подобный PDF-файл выполняется с помощью curl в вики Solr?

Я просмотрел весь этот сайт и многие другие, пытаясь найти пример или руководство о том, как это делается, но ничего не нашел.

РЕДАКТИРОВАТЬ:

Наконец-то мне удалось заставить его работать с помощью SolrNet!

Чтобы он работал, вам нужно скопировать это в папку lib в каталоге установки Solr из zip-архива Solr:

  • apache-solr-cell-3.4.0.jar из папки dist
  • содержимое каталога contrib \ extract \ lib

В SolrNet 0.4.0 beta 2 этот код выполняет свою работу:

Startup.Init("YOUR-SOLR-SERVICE-PATH");
var solr = ServiceLocator.Current.GetInstance>();

using (FileStream fileStream = File.OpenRead("FILE-PATH-FOR-THE-FILE-TO-BE-INDEXED"))
{
    var response =
        solr.Extract(
            new ExtractParameters(fileStream, "doc1")
            {
                ExtractFormat = ExtractFormat.Text,
                ExtractOnly = false
            });
}

solr.Commit();

Приносим извинения за проблему. Однако я надеюсь, что другие сочтут это полезным.

8
задан Paige Cook 20 January 2012 в 14:50
поделиться