Синтаксический анализ текстовых файлов с помощью Python

Я пытаюсь разобрать серию текстовых файлов и сохранить их как файлы CSV, используя Python (2.7.3 ). Все текстовые файлы имеют 4-строчный заголовок, который необходимо удалить. Строки данных имеют различные разделители, включая "(цитата ),-(тире ), столбец :и пробел. Мне было трудно кодировать его на C++ со всеми этими различными разделителями, поэтому я решил попробовать его на Python, поскольку это относительно проще сделать по сравнению с C/C++.

Я написал фрагмент кода, чтобы протестировать его для одной строки данных, и он работает, однако мне не удалось заставить его работать для реального файла. Для разбора одной строки я использовал текстовый объект и метод «заменить». Похоже, моя текущая реализация читает текстовый файл как список, и для объекта списка нет метода замены.

Будучи новичком в Python, я застрял на этом этапе. Любой вклад будет оценен!

Спасибо!

# function for parsing the data
def data_parser(text, dic):
for i, j in dic.iteritems():
    text = text.replace(i,j)
return text

# open input/output files

inputfile = open('test.dat')
outputfile = open('test.csv', 'w')

my_text = inputfile.readlines()[4:] #reads to whole text file, skipping first 4 lines


# sample text string, just for demonstration to let you know how the data looks like
# my_text = '"2012-06-23 03:09:13.23",4323584,-1.911224,-0.4657288,-0.1166382,-0.24823,0.256485,"NAN",-0.3489428,-0.130449,-0.2440527,-0.2942413,0.04944348,0.4337797,-1.105218,-1.201882,-0.5962594,-0.586636'

# dictionary definition 0-, 1- etc. are there to parse the date block delimited with dashes, and make sure the negative numbers are not effected
reps = {'"NAN"':'NAN', '"':'', '0-':'0,','1-':'1,','2-':'2,','3-':'3,','4-':'4,','5-':'5,','6-':'6,','7-':'7,','8-':'8,','9-':'9,', ' ':',', ':':',' }

txt = data_parser(my_text, reps)
outputfile.writelines(txt)

inputfile.close()
outputfile.close()
15
задан marillion 13 August 2012 в 15:00
поделиться