Ожидаете ли вы, что Spark будет читать файлы уже в каталоге? Если это так, это распространенное заблуждение, которое застало меня врасплох. textFileStream
просматривает каталог для новых файлов, затем он их считывает. Он игнорирует файлы уже в каталоге при запуске или файлы, которые он уже прочитал.
Обоснование заключается в том, что у вас будет процесс записи файлов в HDFS, тогда вы захотите, чтобы Spark их прочитал. Обратите внимание, что эти файлы много появляются атомарно, например, они медленно записываются где-то в другом месте, затем перемещает в наблюдаемый каталог. Это связано с тем, что HDFS неправильно обрабатывает чтение и запись файла одновременно.