Как я могу искать слово, одним словом, 2007 .docx файл?

Когда вы объявляете ссылочную переменную (т. е. объект), вы действительно создаете указатель на объект. Рассмотрим следующий код, в котором вы объявляете переменную примитивного типа int:

int x;
x = 10;

В этом примере переменная x является int, и Java инициализирует ее для 0. Когда вы назначаете его 10 во второй строке, ваше значение 10 записывается в ячейку памяти, на которую указывает x.

Но когда вы пытаетесь объявить ссылочный тип, произойдет что-то другое. Возьмите следующий код:

Integer num;
num = new Integer(10);

Первая строка объявляет переменную с именем num, но она не содержит примитивного значения. Вместо этого он содержит указатель (потому что тип Integer является ссылочным типом). Поскольку вы еще не указали, что указать на Java, он устанавливает значение null, что означает «Я ничего не указываю».

Во второй строке ключевое слово new используется для создания экземпляра (или создания ) объекту типа Integer и переменной указателя num присваивается этот объект. Теперь вы можете ссылаться на объект, используя оператор разыменования . (точка).

Exception, о котором вы просили, возникает, когда вы объявляете переменную, но не создавали объект. Если вы попытаетесь разыменовать num. Перед созданием объекта вы получите NullPointerException. В самых тривиальных случаях компилятор поймает проблему и сообщит вам, что «num не может быть инициализирован», но иногда вы пишете код, который непосредственно не создает объект.

Например, вы можете имеют следующий метод:

public void doSomething(SomeObject obj) {
   //do something to obj
}

В этом случае вы не создаете объект obj, скорее предполагая, что он был создан до вызова метода doSomething. К сожалению, этот метод можно вызвать следующим образом:

doSomething(null);

В этом случае obj имеет значение null. Если метод предназначен для того, чтобы что-то сделать для переданного объекта, целесообразно бросить NullPointerException, потому что это ошибка программиста, и программисту понадобится эта информация для целей отладки.

Альтернативно, там могут быть случаи, когда цель метода заключается не только в том, чтобы работать с переданным в объекте, и поэтому нулевой параметр может быть приемлемым. В этом случае вам нужно будет проверить нулевой параметр и вести себя по-другому. Вы также должны объяснить это в документации. Например, doSomething может быть записано как:

/**
  * @param obj An optional foo for ____. May be null, in which case 
  *  the result will be ____.
  */
public void doSomething(SomeObject obj) {
    if(obj != null) {
       //do something
    } else {
       //do something else
    }
}

Наконец, Как определить исключение & amp; причина использования Трассировки стека

47
задан edi9999 20 January 2015 в 13:55
поделиться

9 ответов

Более точно .docx документ является архивом Zip в формате OpenXML: необходимо сначала распаковать его.
я загрузил образец (Google: некоторый критерий поиска filetype:docx ), и после разархивации я нашел некоторые папки. папка Word содержит сам документ в файле document.xml .

34
ответ дан PhiLho 26 November 2019 в 19:07
поделиться

В этом примере, "Курс Outline.docx" является документом Word 2007, который действительно содержит слово "Windows" и не содержит фразу "случайная другая строка".

>>> import zipfile
>>> z = zipfile.ZipFile("Course Outline.docx")
>>> "Windows" in z.read("word/document.xml")
True
>>> "random other string" in z.read("word/document.xml")
False
>>> z.close()

В основном, Вы просто открываете docx файл (который является архивом zip), использование zipfile, и найдите содержание в файле 'document.xml' в папке 'слова'. Если бы Вы хотели быть более сложными, Вы могли тогда анализировать XML, но если Вы будете просто искать фразу (который Вы знаете, то не будет тег), то можно просто посмотреть в XML для строки.

16
ответ дан Efren 26 November 2019 в 19:07
поделиться

docx является просто архивом zip с большим количеством файлов внутри. Возможно, можно ли посмотреть на часть содержания тех файлов? Кроме этого, вероятно, необходимо найти lib, который понимает формат слова так, чтобы можно было отфильтровать вещи, которыми Вы не интересуетесь.

А второй выбор был бы к interop со словом и сделал бы поиск через него.

4
ответ дан kokos 26 November 2019 в 19:07
поделиться

docx файл является по существу zip-файлом с xml в нем.
xml содержит форматирование, но это также содержит текст.

2
ответ дан shoosh 26 November 2019 в 19:07
поделиться

Автоматизация OLE, вероятно, была бы самой легкой. Необходимо рассмотреть форматирование, потому что текст мог быть похожим на это в XML:

<b>Looking <i>for</i> this <u>phrase</u>

нет никакого простого способа найти, что использование простого текста сканирует.

1
ответ дан Berkay Turancı 26 November 2019 в 19:07
поделиться

Необходимо быть в состоянии использовать интерфейс MSWord ActiveX для извлечения текста, чтобы искать (или, возможно, сделать поиск). Я понятия не имею, как Вы получаете доступ к ActiveX из Python все же.

0
ответ дан Andy Brice 26 November 2019 в 19:07
поделиться

Можно также рассмотреть использование библиотеки от OpenXMLDeveloper.org

0
ответ дан billb 26 November 2019 в 19:07
поделиться

Проблема с поиском внутри XML-файла документа Word заключается в том, что текст можно разбить на элементы по любому символу. Он обязательно будет разделен, если форматирование отличается, например, как в Hello World . Но его можно разделить в любой момент, и это действительно в OOXML. Таким образом, вы столкнетесь с подобным XML, даже если форматирование не изменится в середине фразы!

<w:p w:rsidR="00C07F31" w:rsidRDefault="003F6D7A">

<w:r w:rsidRPr="003F6D7A">

<w:rPr>

<w:b /> 

</w:rPr>

<w:t>Hello</w:t> 

</w:r>

<w:r>

<w:t xml:space="preserve">World.</w:t> 

</w:r>

</w:p>

Конечно, вы можете загрузить его в дерево XML DOM (не уверен, что это будет в Python) и попросить получать текст только в виде строки, но вы можете оказаться во многих других «тупиках» только потому, что спецификация OOXML составляет около 6000 страниц, а MS Word может писать много «вещей», которых вы не ожидаете. Так что вы можете написать свою собственную библиотеку обработки документов.

Или вы можете попробовать использовать Aspose. Слова .

Он доступен как продукты .NET и Java. Оба могут использоваться из Python. Один через COM-взаимодействие, другой через JPype. См. Руководство программиста Aspose.Words, Использование Aspose.Words на других языках программирования (извините, я не могу опубликовать вторую ссылку, stackoverflow пока не позволяет).

14
ответ дан 26 November 2019 в 19:07
поделиться

После прочтения вашего сообщения выше, я сделал 100%-ный нативный docx-модуль Python для решения этой специфической проблемы.

# Import the module
from docx import *

# Open the .docx file
document = opendocx('A document.docx')

# Search returns true if found    
search(document,'your search string')

Модуль docx находится по адресу https://python-docx.readthedocs. org/en/latest/

154
ответ дан 26 November 2019 в 19:07
поделиться
Другие вопросы по тегам:

Похожие вопросы: