У меня есть строки как это:
"MSE 2110, 3030, 4102"
Я хотел бы произвести:
[("MSE", 2110), ("MSE", 3030), ("MSE", 4102)]
Это - мой способ идти об этом, хотя я еще не вполне получил его:
def makeCourseList(str, location, tokens):
print "before: %s" % tokens
for index, course_number in enumerate(tokens[1:]):
tokens[index + 1] = (tokens[0][0], course_number)
print "after: %s" % tokens
course = Group(DEPT_CODE + COURSE_NUMBER) # .setResultsName("Course")
course_data = (course + ZeroOrMore(Suppress(',') + COURSE_NUMBER)).setParseAction(makeCourseList)
Это производит:
>>> course.parseString("CS 2110")
([(['CS', 2110], {})], {})
>>> course_data.parseString("CS 2110, 4301, 2123, 1110")
before: [['CS', 2110], 4301, 2123, 1110]
after: [['CS', 2110], ('CS', 4301), ('CS', 2123), ('CS', 1110)]
([(['CS', 2110], {}), ('CS', 4301), ('CS', 2123), ('CS', 1110)], {})
Действительно ли это - правильный способ сделать это или является мной полностью прочь?
Кроме того, вывод не довольно корректен - я хочу course_data
испускать список course
символы, которые находятся в том же формате друг как друг. Прямо сейчас первый курс отличается от других. (Это имеет a {}
, тогда как другие не делают.)
Это решение запоминает отдел при синтаксическом анализе и генерирует кортеж (dept, Coursenum) при нахождении числа.
from pyparsing import Suppress,Word,ZeroOrMore,alphas,nums,delimitedList
data = '''\
MSE 2110, 3030, 4102
CSE 1000, 2000, 3000
'''
def memorize(t):
memorize.dept = t[0]
def token(t):
return (memorize.dept,int(t[0]))
course = Suppress(Word(alphas).setParseAction(memorize))
number = Word(nums).setParseAction(token)
line = course + delimitedList(number)
lines = ZeroOrMore(line)
print lines.parseString(data)
Вывод:
[('MSE', 2110), ('MSE', 3030), ('MSE', 4102), ('CSE', 1000), ('CSE', 2000), ('CSE', 3000)]
Это правильный способ сделать это, или я Я полностью отключен?
Это один способ сделать это, хотя, конечно, есть и другие (например, использовать в качестве действий синтаксического анализа два связанных метода - чтобы экземпляр, которому принадлежит метод, мог сохранять состояние - один для кода отдела, а другой для номера курса).
Возвращаемое значение вызова parseString
сложнее подчинить вашей воле (хотя я уверен, что достаточно темная магия сделает это, и я с нетерпением жду, когда Пол Макгуайр объяснит, как ;-), так почему же не идти по маршруту связанного метода, как в ...:
from pyparsing import *
DEPT_CODE = Regex(r'[A-Z]{2,}').setResultsName("DeptCode")
COURSE_NUMBER = Regex(r'[0-9]{4}').setResultsName("CourseNumber")
class MyParse(object):
def __init__(self):
self.result = None
def makeCourseList(self, str, location, tokens):
print "before: %s" % tokens
dept = tokens[0][0]
newtokens = [(dept, tokens[0][1])]
newtokens.extend((dept, tok) for tok in tokens[1:])
print "after: %s" % newtokens
self.result = newtokens
course = Group(DEPT_CODE + COURSE_NUMBER).setResultsName("Course")
inst = MyParse()
course_data = (course + ZeroOrMore(Suppress(',') + COURSE_NUMBER)
).setParseAction(inst.makeCourseList)
ignore = course_data.parseString("CS 2110, 4301, 2123, 1110")
print inst.result
, это испускает:
before: [['CS', '2110'], '4301', '2123', '1110']
after: [('CS', '2110'), ('CS', '4301'), ('CS', '2123'), ('CS', '1110')]
[('CS', '2110'), ('CS', '4301'), ('CS', '2123'), ('CS', '1110')]
, что, кажется, именно то, что вам нужно, если я правильно прочитал ваши спецификации.