Как .doc формат работает?

Что такое NullPointerException?

Хорошим местом для начала является JavaDocs . Они охватывают это:

Брошено, когда приложение пытается использовать null в случае, когда требуется объект. К ним относятся:

  • Вызов метода экземпляра нулевого объекта.
  • Доступ или изменение поля нулевого объекта.
  • Выполнение длины null, как если бы это был массив.
  • Доступ или изменение слотов с нулевым значением, как если бы это был массив.
  • Бросать нуль, как если бы это было значение Throwable.

Приложения должны бросать экземпляры этого класса для указания других незаконных видов использования нулевого объекта.

blockquote>

Также, если вы попытаетесь использовать нулевую ссылку с synchronized, который также выдаст это исключение, за JLS :

SynchronizedStatement:
    synchronized ( Expression ) Block
  • В противном случае, если значение выражения равно null, NullPointerException.
blockquote>

Как это исправить?

Итак, у вас есть NullPointerException. Как вы это исправите? Возьмем простой пример, который выдает NullPointerException:

public class Printer {
    private String name;

    public void setName(String name) {
        this.name = name;
    }

    public void print() {
        printString(name);
    }

    private void printString(String s) {
        System.out.println(s + " (" + s.length() + ")");
    }

    public static void main(String[] args) {
        Printer printer = new Printer();
        printer.print();
    }
}

Идентифицирует нулевые значения

. Первый шаг - точно определить , значения которого вызывают исключение . Для этого нам нужно выполнить некоторую отладку. Важно научиться читать stacktrace . Это покажет вам, где было выбрано исключение:

Exception in thread "main" java.lang.NullPointerException
    at Printer.printString(Printer.java:13)
    at Printer.print(Printer.java:9)
    at Printer.main(Printer.java:19)

Здесь мы видим, что исключение выбрано в строке 13 (в методе printString). Посмотрите на строку и проверьте, какие значения равны нулю, добавив протоколирующие операторы или используя отладчик . Мы обнаруживаем, что s имеет значение null, а вызов метода length на него вызывает исключение. Мы видим, что программа прекращает бросать исключение, когда s.length() удаляется из метода.

Трассировка, где эти значения взяты из

Затем проверьте, откуда это значение. Следуя вызовам метода, мы видим, что s передается с printString(name) в методе print(), а this.name - null.

Трассировка, где эти значения должны быть установлены

Где установлен this.name? В методе setName(String). С некоторой дополнительной отладкой мы видим, что этот метод вообще не вызывается. Если этот метод был вызван, обязательно проверьте порядок , что эти методы вызывают, а метод set не будет называться после методом печати. ​​

Этого достаточно, чтобы дать нам решение: добавить вызов printer.setName() перед вызовом printer.print().

Другие исправления

Переменная может иметь значение по умолчанию setName может помешать ему установить значение null):

private String name = "";

Либо метод print, либо printString может проверить значение null например:

printString((name == null) ? "" : name);

Или вы можете создать класс, чтобы name всегда имел ненулевое значение :

public class Printer {
    private final String name;

    public Printer(String name) {
        this.name = Objects.requireNonNull(name);
    }

    public void print() {
        printString(name);
    }

    private void printString(String s) {
        System.out.println(s + " (" + s.length() + ")");
    }

    public static void main(String[] args) {
        Printer printer = new Printer("123");
        printer.print();
    }
}

См. также:

Я все еще не могу найти проблему

Если вы попытались отладить проблему и до сих пор не имеете решения, вы можете отправить вопрос для получения дополнительной справки, но не забудьте включить то, что вы пробовали до сих пор. Как минимум, включите stacktrace в вопрос и отметьте важные номера строк в коде. Также попробуйте сначала упростить код (см. SSCCE ).

15
задан PaulG 4 May 2012 в 22:55
поделиться

6 ответов

Полный формат для двоичного файла .doc файлы документируется в этот pdf от ( статья Wikipedia о .doc)

11
ответ дан 1 December 2019 в 01:54
поделиться

Это не прямой ответ на Ваш вопрос, но я настоятельно рекомендую статью Joel Spolsky чтения, , Почему форматы файлов Microsoft Office являются так сложными? (И некоторые обходные решения) . Это даст Вам некоторое понимание, насколько сложный .doc формат действительно - и почему. Joel также дает очень простой обзор того, из чего состоит .doc формат:

Вы видите, файлы Excel 97-2003 являются составными документами OLE, которые являются, по существу, файловыми системами в единственном файле. Они являются достаточно сложными, что необходимо считать другую спецификацию на 9 страниц для понимания этого. И эти “specs” смотрят больше как структуры данных C, чем, о чем мы традиционно думаем как спецификация. Это - целая иерархическая файловая система.

(Кавычка относится к файлам Excel, но она относится к документам в формате Word также). Информативная статья и полезный в понимании, почему .docx и файлы ODF структурированы и разработаны настолько более логически, будучи исследованным с внешней точки зрения.

14
ответ дан 1 December 2019 в 01:54
поделиться

Основная идея позади MS Word, формат DOC является Документом Compund OLE, который, как Kibbee уже записал, является в основном дампом памяти. Это - очень сложный и замысловатый способ хранить документы, но если Вы когда-либо действительно рыли в приложение Word, Вы будете знать, как безумно много функций, которые это имеет, и если Вы использовали его в установке бизнеса, у Вас будет хорошее чувство для того, как это интегрируется с другими программами в серии Office.

В целом, OLE Документы Compund являются очень расширяемыми структурами, который позволяет, Вы для наполнения всех видов данных в один файл и даже до некоторого градуса обрабатываете данные, для которых Вам не установили приложение. Например, при вставке объекта Уравнения (из Редактора формул MS) в документ, он хранится как подобъект, который похож на файл в файле, но этот объект только содержит данные, требуемые для Редактора формул отредактировать и представить его, он также имеет универсальный битовый массив (или метафайл, возможно) представление, сохраненное, таким образом, он может быть отображен, хотя не отредактированный, на машине без установленного Редактора формул.

Это было , почему , для , как необходимо будет считать спецификации, с которыми уже связались другие люди ;)

, Если Вы хотите, чтобы простой способ работал с файлами, хотя, удостоверьтесь, что Ваше программное обеспечение работает на машине Windows с установленным Word, затем используйте Автоматизацию COM/OLE, чтобы открыть и управлять документами. Вы не должны будете волноваться о формате файла затем.

5
ответ дан 1 December 2019 в 01:54
поделиться

Документ является двоичным форматом документа слова - вот Microsoft Office документ [*.doc] Word 97-2007 Binary File Format Specification.

1
ответ дан 1 December 2019 в 01:54
поделиться

.doc формат довольно сложен. Как большинство форматов Microsoft, это отражает долгую историю изменений между версиями и поддержкой прежней версии. Они опубликовали его не слишком долго назад, поэтому если Вы хотите просмотреть его (и другие форматы перед Office 2007), удар сами здесь .

1
ответ дан 1 December 2019 в 01:54
поделиться

Существует .doc Microsoft Word и затем существует простой текст .doc. Это кажется, что Вы задаетесь вопросом о собственном формате Microsoft.

От Википедия :

формат DOC варьируется среди Форматов слова Microsoft Office. Версии Word до 97 использовали другой формат от версии Microsoft Word между 97 и 2003.

Только в Word 2007, где .docx, хотя упакованный файл, является не обязательно архивом .zip. Это - структурированный XML-документ.

0
ответ дан 1 December 2019 в 01:54
поделиться
Другие вопросы по тегам:

Похожие вопросы: