Если вы хотите увидеть содержимое RDD, тогда yes collect - это один параметр, но он извлекает все данные в драйвер, поэтому может возникнуть проблема
<rdd.name>.take(<num of elements you want to fetch>)
Лучше, если вы хотите просто увидеть образец
Запуск foreach и попытка печати, я не рекомендую это, потому что если вы используете это в кластере, тогда журналы печати будут локальными для исполнителя и будут печатать для данных, доступных этому исполнителю. print заявление не меняет состояние, следовательно, это не логически неправильно. Чтобы получить все журналы, вам нужно будет сделать что-то вроде
**Pseudocode**
collect
foreach print
. Но это может привести к поломке задания, так как сбор всех данных на драйвере может привести к его краху. Я бы предложил использовать команду take или если вы хотите ее проанализировать, тогда используйте образец для сбора в драйвере или напишите в файл, а затем проанализируйте его.