Правильное использование Аккумуляторов в Apache Spark [дубликат]

Попробуйте использовать:

test -x filename

или

[ -x filename ]

Из справочной страницы bash в разделе Условные выражения :

 -x file
          True if file exists and is executable.

7
задан user1052610 4 April 2016 в 11:46
поделиться

1 ответ

Ну, лучший способ сделать это - не все. В целом модель обработки Искры не дает никаких гарантий относительно

  • , где
  • , когда
  • в каком порядке (исключая, конечно, порядок трансформации, определенные линией / DAG)
  • и сколько раз

задан фрагмент кода. Более того, любые обновления, которые напрямую зависят от архитектуры Spark, не являются деталями.

Это свойства, которые делают Spark масштабируемыми и устойчивыми, но в то же время это то, что делает очень сложным

Если все, что вам нужно, это простой кеш, то у вас есть несколько опций:

  • использовать один из методов, описанных в Tzach Zohar в Кэширование в Spark
  • использует локальное кэширование (за JVM или поток исполнителей) в сочетании с конкретным разделением приложений, чтобы сохранить локальные
  • для связи с внешними системами используют локальный кэш узла, не зависящий от Spark (например, прокси Nginx для http-запросов)

Если для приложения требуется гораздо более сложная связь, вы можете попробовать различные средства передачи сообщений, чтобы сохранить синхронизированное состояние но в целом он требует сложного и потенциально хрупкого кода.

6
ответ дан 2 revs 26 August 2018 в 00:35
поделиться
Другие вопросы по тегам:

Похожие вопросы: