Разбор файлов mbox в Python

Новичок в Python здесь. Я хочу просмотреть большой файл mbox, анализируя сообщения электронной почты. Я могу сделать это с помощью :

import sys
import mailbox

def gen_summary(filename):
    mbox = mailbox.mbox(filename)
    for message in mbox:
       subj = message['subject']
       print subj

if __name__ == "__main__":
    if len(sys.argv) != 2:
        print 'Usage: python genarchivesum.py mbox'
        sys.exit(1)

    gen_summary(sys.argv[1])

, но мне нужно больше контроля. Мне нужно иметь возможность получить позицию байта начала данного электронного письма в файле mbox, а также мне нужно получить количество байтов в сообщении (, представленном на диске ). И затем в будущем, вместо того, чтобы повторяться с начала файла mbox, мне нужно иметь возможность искать заданное сообщение и просто анализировать его, (следовательно, одна из потребностей получения позиции байта на диске). Это большие файлы mbox, и их эффективность вызывает беспокойство.

Цель всего этого состоит в том, чтобы я мог создать файл сводки, который содержит небольшие сведения о каждом электронном письме в mbox, а затем в будущем эффективно искать отдельные электронные письма в mbox.

13
задан Mark Fletcher 20 April 2012 в 18:45
поделиться