Импортировать большой необычный файл в R

Плакат впервые здесь, поэтому я постараюсь как можно яснее объяснить, какая помощь мне нужна. Я новичок в R, и это мой первый реальный опыт независимого программирования.

У меня есть биржевые тиковые данные примерно за 2,5 года, на каждый день свой файл. Файлы имеют формат.txt и состоят примерно из 20 -30 миллионов строк, и в среднем, я думаю, 360 МБ каждый. Сейчас я работаю с одним файлом за раз. Мне не нужны все данные, содержащиеся в этих файлах, и я надеялся, что смогу использовать программирование, чтобы немного минимизировать мои файлы.

Теперь моя проблема в том, что у меня возникли некоторые трудности с написанием правильного кода, поэтому R понимает, что мне нужно.

Позвольте мне сначала показать вам некоторые данные, чтобы вы могли получить представление о форматировании.

M977
R 64266NRE1VEW107 FI0009653869 2EURXHEL 630 1
R 64516SSA0B 80SHB SE0002798108 8SEKXSTO 40 1
R 645730BBREEW750 FR0010734145 8EURXHEL 640 1
R 64655OXS1C 900SWE SE0002800136 8SEKXSTO 40 1
R 64663OXS1P 450SWE SE0002800219 8SEKXSTO 40 1
R 64801SSIEGV LU0362355355 11EURXCSE 160 1
M978

Еще один фрагмент данных:

M732
D 3547742
A 3551497B 200000 67110 02800
D 3550806
D 3547743
A 3551498S 250000 69228 09900

Как видите, каждая строка начинается с буквы. Каждая буква обозначает, что означает линия. Например, Rозначает сообщение каталога книги ордеров, Mозначает миллисекунды после последней секунды, Hозначает сообщение о действиях по торговле акциями. Всего используется 14 различных букв.

Я использовал функцию readLinesдля импорта данных в R. Однако, похоже, R обрабатывает очень много времени, когда я хочу работать с данными.

Теперь я хотел бы написать какую-то функцию If, которая говорит, что если первая буква R, то от смещения 1 до 4 код означает идентификатор сегмента рынка и т. д., и R добавляет столбцы к ним, чтобы я мог работать с данными в более структурированном виде.

Каков наилучший способ импорта таких данных, а также создания некоторой формы структуры -, т. е. использования уникальной идентификационной информации в строке данных, например, для анализа одной акции за раз.

11
задан Polynomial 26 July 2012 в 12:23
поделиться