ReadLine () VS READ () Чтобы эффективно получить CR и LF?

Я работаю над программой C #, чтобы определить длину строки для каждой строки в нескольких больших текстовых файлах с 100 000 000 строк перед импортом с использованием пакета SSIS. Я также буду проверять другие значения на каждой строке, чтобы убедиться, что они верны, чтобы их импортировать их в мою базу данных с помощью SSIS.

Например, я ожидаю длиной линии 3000 символов, а затем CR при 3001 и LF на 3002, поэтому общий объем в общей сложности 3002 символов.

При использовании readline () он читает CR или LF как и конец строки, чтобы я не могу проверить символы CR или LF. Я просто проверял длину строки в 3000, чтобы определить, была ли длина правильной. Я только что столкнулся с проблемой, где файл имеет LF в положении 3001, но пропустил CR. Таким образом, readline () говорит, что это 3000 Char Witch верна, но она будет потерпеть неудачу в моем пакете SSIS, потому что оно не хватает CR.

Я проверил, что чтение () доберется до каждого CHAR 1 одновременно, и я могу определить, есть ли каждая строка CR и LF, но это кажется довольно непродуктивным, и когда некоторые файлы столкнулись с до 5 000 000 человек Это кажется очень неэффективным. Мне также нужно будет затем добавить каждого char в строку или использовать ReadBlock () и преобразовывать массив CHAR в строку, чтобы я мог проверить другие значения в строке.

У кого-нибудь есть какие-либо идеи по эффективному способу проверить линию для CR и LF и других значений на данной линии, не тратя ненужных ресурсов и полностью добиться относительно своевременного.

5
задан John Saunders 1 September 2011 в 22:10
поделиться