Я не знаю, как вы анализируете и пишете свой документ, но вот расширенный пример кода, основанный на вашем:
// creating the document in-memory
Document xmldoc = DocumentBuilderFactory.newInstance().newDocumentBuilder().newDocument();
Element element = xmldoc.createElement("TestElement");
xmldoc.appendChild(element);
element.appendChild(xmldoc.createCDATASection("first line\nsecond line\n"));
// serializing the xml to a string
DOMImplementationRegistry registry = DOMImplementationRegistry.newInstance();
DOMImplementationLS impl =
(DOMImplementationLS)registry.getDOMImplementation("LS");
LSSerializer writer = impl.createLSSerializer();
String str = writer.writeToString(xmldoc);
// printing the xml for verification of whitespace in cdata
System.out.println("--- XML ---");
System.out.println(str);
// de-serializing the xml from the string
final Charset charset = Charset.forName("utf-16");
final ByteArrayInputStream input = new ByteArrayInputStream(str.getBytes(charset));
Document xmldoc2 = DocumentBuilderFactory.newInstance().newDocumentBuilder().parse(input);
Node vs = xmldoc2.getElementsByTagName("TestElement").item(0);
final Node child = vs.getFirstChild();
String x = child.getNodeValue();
// print the value, yay!
System.out.println("--- Node Text ---");
System.out.println(x);
Сериализация с использованием LSSerializer - это способ W3C ( см. здесь ). Результат будет таким, как ожидалось, с разделителями строк:
--- XML ---
<?xml version="1.0" encoding="UTF-16"?>
<TestElement><![CDATA[first line
second line ]]></TestElement>
--- Node Text ---
first line
second line
Вам необходимо проверить тип каждого узла с помощью node.getNodeType (). Если тип - CDATA_SECTION_NODE, вам необходимо объединить защиту CDATA с node.getNodeValue.
Вам не обязательно использовать CDATA для сохранения символов пробела. В спецификации XML указывается, как кодировать эти символы.
Так, например, если у вас есть элемент со значением, которое содержит новое пространство, вы должны кодировать его с помощью


Возврат каретки:

И так вперед
РЕДАКТИРОВАТЬ: вырезать все ненужные вещи
Мне любопытно узнать, какую реализацию DOM вы используете, потому что она не отражает поведение по умолчанию той, что есть в нескольких JVM, которые я пробовал (они поставляются с Xerces impl). Меня также интересует, какие символы новой строки есть в вашем документе.
Я не уверен, следует ли CDATA сохранять пробелы. Я подозреваю, что здесь задействовано много факторов. Разве DTD / схемы не влияют на обработку пробелов?
Вы можете попробовать использовать атрибут xml: space = "preserve".