Если вы просто пытаетесь найти эти теги (без амбиций синтаксического анализа), попробуйте это регулярное выражение:
/<[^/]*?>/g
Я написал его через 30 секунд и протестировал здесь: http: //gskinner.com/RegExr/
Он соответствует типам тегов, о которых вы упомянули, игнорируя типы, которые вы сказали игнорировать.
Ну, эти данные не Avro, это JSON.
Если бы это были двоичные данные Avro, вы не смогли бы прочитать файл без предварительного использования действия avro-tools.jar tojson
.
Если вы посмотрите на документацию по использованию, по умолчанию используется JSON
-j, --json: Encode outputted data in JSON format (default)
Чтобы получить Avro, используйте arg -s schema.avsc -b -o out.avro
. Есть и другие способы . ] генерировать тестовые данные в Кафке