Анализ файлов PDF в Hadoop Map Reduce

мне нужно проанализировать файлы PDF, которые находятся в HDFS, в программе уменьшения карты в Hadoop. Итак, я получаю PDF-файл из HDFS как Входные расщепления , и его нужно проанализировать и отправить в класс Mapper. Для реализации этого InputFormat я прошел по этой ссылке . Как можно проанализировать эти входные разбиения и преобразовать в текстовый формат?

5
задан WR10 24 February 2012 в 08:41
поделиться