Сценарий Sed для редактирования файла CSV Или Python

Question

Сценарий Sed для редактирования файла CSV Или Python

В нашем проекте мы должны импортировать файл CSV в пост-ГРЭС. Существует несколько типов файлов, означающих длину изменений файла, как некоторые файлы с меньшим количеством столбцов и некоторыми со всеми ними.

Нам нужен быстрый способ импортировать этот файл в пост-ГРЭС. Я хочу использовать КОПИЮ С пост-ГРЭС, так как требование к скорости обработки очень высоко (почти 150 файлов в минуту с 20K размером файла каждый).

Так как числа столбцов файла не фиксируются, я должен предварительно обработать файл, прежде чем я передам его процедуре пост-ГРЭС. Предварительная обработка должна просто добавить дополнительные запятые в csv для столбцов, которые не находятся там в файле.

Существует две опции для меня предварительно обработать файл - Python использования или использовать Sed.

Мой первый вопрос, каков был бы самый быстрый способ, предварительно обрабатывают файл?

Второй вопрос, Если бы я использую sed, как я вставил бы запятую после того, как говорят 4-е, 5-е поля запятой?
например, если файл имеет записи как 1,23,56, мы, 89,2009-12-06, и я должен отредактировать файл с окончательным результатом как: 1,23,56, мы, 89, 06.12.2009

5

python sed awk text-processing

задан Sujit 2 March 2010 в 23:21

6 ответов

Чтобы ответить на ваш первый вопрос, sed будет иметь меньше накладных расходов, но может быть болезненным. awk было бы немного лучше (он более мощный). Perl или Python имеют больше накладных расходов, но с ними легче работать (что касается Perl, это, возможно, немного субъективно;). Лично я бы использовал Perl).

Что касается второго вопроса, я думаю, что проблема может быть немного сложнее. Например, разве вам не нужно исследовать строку, чтобы выяснить, какие поля на самом деле отсутствуют? Или гарантировано, что всегда будет 4-й и 5-й? Если это первый случай, было бы способом проще сделать это в Python или Perl, чем в sed . В противном случае:

echo "1,23,56,we,89,2009-12-06" | sed -e 's/\([^,]\+\),\([^,]\+\),\([^,]\+\),\([^,]\+\),\([^,]\+\),/\1,\2,\3,\4,,\5,,/'

или (проще для глаз):

echo "1,23,56,we,89,2009-12-06" | sed -e 's/\(\([^,]\+,\)\{3\}\)\([^,]\+\),\([^,]\+\),/\1,\3,,\4,,/'

Это добавит запятую после 5-го и 4-го столбцов, если в тексте нет других запятых.

Или вы можете использовать два sed для чего-то менее уродливого (хотя и немного):

echo "1,23,56,we,89,2009-12-06" | sed -e 's/\(\([^,]*,\)\{4\}\)/\1,/' | sed -e 's/\(\([^,]*,\)\{6\}\)/\1,/'

2