Можно ли прочитать файл MSWord 2010 в Р? У меня Windows 7 и компьютер Dell.
Я использую строку:
my.data <- readLines('c:/users/mark w miller/simple R programs/test_for_r.docx')
, чтобы попытаться прочитать файл MSWord, содержащий следующий текст:
A 20 1000 AA
B 30 1001 BB
C 10 1500 CC
Я получаю предупреждающее сообщение:
Предупреждающее сообщение: В readLines("c:/users/mark w miller/простые программы R/test_for_r.docx"): неполная последняя строка найдена в «c:/users/mark w miller/simple Rprograms/test_for_r.docx»
и my.data
кажется тарабарщиной:
# [1] "PK\003\004\024" "¤l" "ÈFÃË‹Átí"
Я знаю, что с помощью этого простого примера я могу легко преобразовать файл MSWord в другой формат. Однако мои настоящие файлы данных состоят из сложных таблиц, которые были напечатаны десятилетия назад, а затем отсканированы в pdf-документы. Возраст исходного бумажного документа и, возможно, дефекты исходной бумаги, процесс печати и/или сканирования привели к тому, что некоторые буквы и цифры были не очень четкими. До сих пор преобразование файлов PDF в MSWord кажется наиболее успешным для правильного перевода таблиц. Преобразование файлов MSWord в Excel или форматированный текст и т. д. не очень успешно. Даже после преобразования в MSWord полученные файлы очень сложны и содержат множество ошибок. Я подумал, что если бы я мог читать файлы MSWord в R, это было бы наиболее эффективным способом их редактирования и исправления.
Я знаю о «package tm», который, как я полагаю, может считывать файлы MSWord в R, но меня немного беспокоит его использование, потому что, похоже, он требует установки стороннего программного обеспечения.
Спасибо за любые предложения.