Как загрузить текст документа MS Word в C# (.NET)?

Вы можете создать тестовый модуль с помощью mockito - вы запускаете тест и реализуете следующий код:

Mockito.verify (mock, times (4)). Send ();

6
задан edi9999 22 September 2014 в 14:21
поделиться

6 ответов

Можно использовать wordconv.exe, который является частью Пакета Совместимости Office для преобразования от документа до docx.

http://www.microsoft.com/downloads/details.aspx?familyid=941b3470-3ae9-4aee-8f43-c6bb74cd1466&displaylang=en

Просто назовите команду как так: "C:\Program Files\Microsoft Office\Office12\wordconv.exe"-oice-nme InputFile OutputFile

Я не уверен, нужно ли Вам слово, установленное, чтобы оно работало, но оно действительно работает. Я использую его локально в качестве команды оболочки окон для преобразования старых офисных файлов в формат 2007 года каждый раз, когда я хочу.

4
ответ дан 16 December 2019 в 21:48
поделиться

Поскольку docx, отформатированный Word Documents I, нашел эту интересную статью о CodeProject

Использование DocxToText для извлечения текста из файлов DOCX

В статье автор обсуждает снятие просто самих слов.

Для Вашего документа (non-docx) Word Documents кроме использования API Office и (в фоновом режиме) порождения экземпляра Word Вы могли испытать окружение к одному из многих различных преобразователей Doc2Docx на рынке и затем применении вышеупомянутый процесс для обоих.

2
ответ дан 16 December 2019 в 21:48
поделиться

Если Вы имеете дело с docx, можно сделать это с выполнением любого interop с Word .docx файл на самом деле, ZIP содержит XML-файл, можно считать XML, отошлите ссылки ниже

http://conceptdev.blogspot.com/2007/03/open-docx-using-c-to-extract-text-for.html

Office (2007) Откройте XML File Formats

2
ответ дан 16 December 2019 в 21:48
поделиться

Aspose имеет компонент, чтобы прочитать, изменить и записать документы Word. Вот ссылка продукта: Aspose. Слова для.NET и Java

Aspose. Слова позволяют.NET и JAVA-приложениям прочитать, изменить и записать документы Word®, не используя Microsoft Word®. Aspose. Слова поддерживают огромное количество функций включая создание документа, содержание и управление форматированием, мощные способности к слиянию, всестороннюю поддержку DOC, OOXML, RTF, WordprocessingML, HTML, OpenDocument и форматов PDF. Aspose. Слова являются действительно самым доступным, самым быстрым и многофункциональным компонентом Word на рынке.

0
ответ дан 16 December 2019 в 21:48
поделиться

Я недавно провел некоторое исследование по этой теме. Оказывается, чтобы смочь управлять файлами слова программно без самого вводного слова необходимостью в некоторых очень дорогих инструментах.

Существует статья, законченная в проекте кода при управлении Word, Вы могли бы найти это полезным. Сборка автора обертка C# COM для контакта с вызовами к Word. Похоже, что это на самом деле появляется, открывают приложение слова все же.

Это сообщение на форумах неопобеды выглядит многообещающим также. Это включает довольно много вызовов PInvoked в целях извлечения текста.

Возможно, если бы Вы могли бы найти способ сохранить окно скрытым, это было бы приемлемо.

1
ответ дан 16 December 2019 в 21:48
поделиться

Я не означаю быть антагонистом, но почему?

Я извлек данные из Word Documents на серверах Linux с помощью Word2X или AbiWord и в зависимости от числа и множества docments всегда будут ошибки с извлечением. Это хуже больше маркеров, разрывов страницы, разделов документа и другие "специальные" функции, там.

Я понимаю, что существуют опции теперь для автоматизации OpenOffice для обработки документов, но мой совет, если Вы можете, просто использовать Word для обработки документов Word.

-1
ответ дан 16 December 2019 в 21:48
поделиться
Другие вопросы по тегам:

Похожие вопросы: