Python-Regex, что продолжается здесь?

Question

Python-Regex, что продолжается здесь?

У меня было похожее состояние, когда у меня было несколько объединений, и в конце мне пришлось записать окончательный кадр данных в таблицу HDFS / Hive (формат Parquet).

Spark работает над механизмом Lazy Execution, который означает, что когда ваш 53-й кадр данных активирован (Сохранить / записать как паркет), Spark затем возвращается ко всем соединениям и выполняет их, что вызывает огромную перетасовку данных и, в конечном итоге, вашу работу. контейнеры дают сбой и выбрасывают ошибки памяти.

Предложение: Вы можете сначала записать каждый присоединенный кадр данных в HDFS. Я хочу сказать, что после того, как вы объединили 2 (может быть больше 2, но ограничьте их) данных, запишите объединенный кадр данных в HDFS / Hive и используйте select * 'hive parquet table

val refinedDF1 = df1.join(df2 ,condition,'join_type')
refinedDF1.write.parquet("location") or refinedDF1.write.mode("overwrite").saveAsTable("dbname.refine1")
val refinedDF1 = hc.sql("select * from dbname.refine1")

val refinedDF2 = refinedDF1.join(df3)
refinedDF2.write.parquet("location") or refinedDF1.write.mode("overwrite").saveAsTable("dbname.refine2")
val refinedDF2 = hc.sql("select * from dbname.refine2")

Теперь вы часто записываете свои соединения в hdfs, это означает, что искра не должна будет выполнять их при вызове окончательного соединения, она будет использовать только вывод 52-го соединения что вы сохранили в виде таблицы.

С использованием этой методики мой сценарий сократился с 22 часов (включая ошибки памяти контейнера) до 15–30 (без исключения памяти / ошибок).

Несколько советов:

1) Исключите записи, в которых ваше объединение key имеет значение null, spark не дает хорошей производительности по сравнению с объединениями, имеющими условие null = null, поэтому удалите их перед объединением с фреймами данных

[ 1111] 2) Используйте широковещательные объединения, когда у вас осталось много строк, а правый - искомый или несколько строк.

3) После выполнения скрипта вам придется очистить промежуточные кадры данных, которые вы сохраняете в Hive / Hdfs.

6

regex python

задан Alan Moore 22 August 2009 в 12:56

6 ответов

Метод поиска возвратит объект, содержащий результаты Вашего regex шаблона.

groupdict возвращает словарь групп, где ключи являются именем групп, определенных (? P...). Здесь имя является именем группы.

группа возвращает список групп, которые подобраны. "Состояние: Нью-Йорк" является Вашей третьей группой. Первой является вся строка, и второй является "Zip: 10010".

Это было относительно простым вопросом между прочим. Я просто искал документацию метода относительно Google и нашел эту страницу. Google является Вашим другом.

2