Используйте , сокращает :
echo 'someletters_12345_moreleters.ext' | cut -d'_' -f 2
Более универсальный:
INPUT='someletters_12345_moreleters.ext'
SUBSTRING=$(echo $INPUT| cut -d'_' -f 2)
echo $SUBSTRING
Вы смотрели на буферы протокола Google ?:
http://code.google.com/apis/protocolbuffers/
Они кроссплатформенные (C ++, Java, Python ) со сторонними привязками для PHP. Это быстро, довольно компактно и строго типизировано.
Здесь также есть полезное сравнение между различными форматами:
http://code.google.com/p/thrift-protobuf-compare/wiki/Benchmarking
Вы можете рассмотреть Thrift или один из другие упоминаются здесь также.
У меня были очень хорошие результаты, анализируя JSON с помощью Джексона
Джексон:
процессор JSON (парсер JSON + генератор JSON), написанный на Java. Помимо базового чтения / записи JSON (синтаксический анализ, генерация), он также предлагает полную модель дерева на основе узлов, а также полную функциональность привязки данных OJM (Object / Json Mapper).
Его производительность очень высока. хорошо по сравнению со многими другими вариантами сериализации.
Вы Можно взглянуть на YAML- http://www.yaml.org/
Это надмножество JSON, поэтому структура файла данных будет вам знакома. Он поддерживает некоторые дополнительные типы данных, а также возможность использовать ссылки, которые включают часть одной структуры данных в другую.
Я понятия не имею, будет ли она «достаточно быстрой» - но синтаксический анализатор libyaml (написан в C) кажется довольно резким.