У меня есть очень большие текстовые файлы (+10 ГБ ), которые я хочу прочитать для некоторых методов интеллектуального анализа данных. Для этого я использую параллельную технику с MPI, поэтому многие процессы могут одновременно обращаться к одному и тому же файлу.
На самом деле я хочу, чтобы каждый процесс читал N строк. Поскольку файл не структурирован (одинаковое количество полей, но каждое поле может содержать разное количество символов ), я обязан анализировать файл, а это не параллельно и занимает много времени. Есть ли способ получить прямой доступ к определенному количеству строк без разбора и подсчета строк? Спасибо за помощь.