прочитать файл MSWord в R

Можно ли прочитать файл MSWord 2010 в Р? У меня Windows 7 и компьютер Dell.

Я использую строку:

my.data <- readLines('c:/users/mark w miller/simple R programs/test_for_r.docx')

, чтобы попытаться прочитать файл MSWord, содержащий следующий текст:

A   20  1000    AA
B   30  1001    BB
C   10  1500    CC

Я получаю предупреждающее сообщение:

Предупреждающее сообщение: В readLines("c:/users/mark w miller/простые программы R/test_for_r.docx"): неполная последняя строка найдена в «c:/users/mark w miller/simple Rprograms/test_for_r.docx»

и my.dataкажется тарабарщиной:

# [1] "PK\003\004\024" "¤l"             "ÈFÃË‹Átí"

Я знаю, что с помощью этого простого примера я могу легко преобразовать файл MSWord в другой формат. Однако мои настоящие файлы данных состоят из сложных таблиц, которые были напечатаны десятилетия назад, а затем отсканированы в pdf-документы. Возраст исходного бумажного документа и, возможно, дефекты исходной бумаги, процесс печати и/или сканирования привели к тому, что некоторые буквы и цифры были не очень четкими. До сих пор преобразование файлов PDF в MSWord кажется наиболее успешным для правильного перевода таблиц. Преобразование файлов MSWord в Excel или форматированный текст и т. д. не очень успешно. Даже после преобразования в MSWord полученные файлы очень сложны и содержат множество ошибок. Я подумал, что если бы я мог читать файлы MSWord в R, это было бы наиболее эффективным способом их редактирования и исправления.

Я знаю о «package tm», который, как я полагаю, может считывать файлы MSWord в R, но меня немного беспокоит его использование, потому что, похоже, он требует установки стороннего программного обеспечения.

Спасибо за любые предложения.

9
задан Mark Miller 20 June 2012 в 00:11
поделиться