Самый быстрый способ импортировать текстовый файл размером 500 ГБ, используя только нужные разделы.

У меня есть около 500 ГБ текстового файла, разделенного на месяцы. В этих текстовых файлах первые 43 строки — это просто информация о подключении (не требуется). следующие 75 строк являются дескрипторами наблюдения. За этим следуют 4 строки (не нужны), затем следующее наблюдение, которое составляет 75 строк.

Дело в том, что все, что мне нужно, это эти 75 строк (дескрипторы находятся в одном и том же месте для каждого наблюдения), которые характеризуются следующим образом:

ID: 5523
Date: 20052012
Mixed: <Null>
.
.

И я хочу преобразовать его в формат csv 5523;20052012;; .. для каждого наблюдения. Так что я получаю гораздо меньшие текстовые файлы. Поскольку дескрипторы одинаковы, я буду знать, например, что первая позиция - это идентификатор.

Как только я закончу с текстовым файлом, я открою следующий и допишу его (или будет быстрее создать новый файл?).

То, что я сделал, довольно неэффективно. Я открывал файл. Загрузка. Удаление этих наблюдений происходит построчно. Если для тестового образца требуется много времени, это явно не лучший метод.

Буду рад любым предложениям.

6
задан juliomalegria 20 May 2012 в 19:14
поделиться