Нет никакой официальной документации относительно этого. Однако при рассмотрении исходного кода JavaScript, Вы будете видеть это:
function WebForm_PostBackOptions(eventTarget, eventArgument, validation, validationGroup, actionUrl, trackFocus, clientSubmit)
я думаю, что названия параметра довольно очевидны.
Для документов Word вы можете попробовать antiword
, по крайней мере, в Linux. Это утилита командной строки, которая принимает текстовый документ в качестве аргумента и выводит текст из этого документа (насколько это возможно) в стандартный вывод. Возможно, вы также можете указать выходной файл. Я не могу вспомнить, как это работает. Давно не пользовался. Не уверен, что он может обрабатывать ОО-документы.
Конечно, можно сделать это, хотя есть что-то странное и непонятное в ОО-проекте и его документации, из-за чего такие вещи сложно исследовать и следовать. Тем не менее, объектно-ориентированный объект может преобразовывать все эти типы, а не только оригинальные объектно-ориентированные типы, и может делать это с помощью двух различных форм автоматического управления.
Это два общих подхода.
Вы можете запустить объектно-ориентированный объект. и скажите ему выполнить макрос, который сделает эту работу за вас для данного файла. Затем вам просто нужно написать макрос и сценарий для циклического просмотра ваших файлов. Синтаксис выглядит примерно так:
$ oowriter -headless filename macro: //dir/Standard.Module1. sMySub
Еще одна вещь, которую имеет OO, - это сетевой API. Это основано на том, что называется UNO.
$ oowriter -accept = accept-string
Сообщает программе OpenOffice.org, что при создании
«UNO Acceptor Threads», будет использоваться «UNO Accept String».
Вам понадобится какая-то клиентская библиотека. Я думаю, что у них есть хотя бы один для Python. Используя эту технологию, программа Python или какой-либо другой язык сценариев с клиентской библиотекой OO может управлять программой и преобразовывать все файлы. Поскольку объектно-ориентированный объект читает MSO, он должен иметь возможность выполнять их все.
OpenOffice имеет встроенный конвертер документов, способный обрабатывать множество форматов. Взгляните на unoconv: http://dag.wieers.com/home-made/unoconv /
При этом у меня были некоторые проблемы с тем, чтобы заставить это работать в прошлом. Если у вас возникнут проблемы, взгляните на аналогичные программы для AbiWord (другого текстового процессора с открытым исходным кодом).
Информацию о форматах Microsoft можно найти в инструментах wvWare .
Есть программа для файлов odt и им подобных:
odt2txt - доступна в репозиториях.
$ unoconv --format=txt document1.odt
Должен выдать файл document1.txt.