У нас есть плоские файлы (CSV) с> 200 000 000 строк, которые мы импортируем в звездообразную схему с 23 таблицами измерений. В самой большой таблице измерений 3 миллиона строк. На данный момент мы запускаем процесс импорта на одном компьютере, и он занимает около 15 часов. Поскольку это слишком много времени, мы хотим использовать около 40 компьютеров для импорта.
Мой вопрос
Как мы можем эффективно использовать 40 компьютеров для импорта. Основное беспокойство вызывает то, что на репликацию таблиц измерений на всех узлах уйдет много времени, поскольку они должны быть идентичными на всех узлах. Это может означать, что, если мы будем использовать 1000 серверов для импорта в будущем, это может быть медленнее, чем использование одного, из-за обширной сетевой связи и координации между серверами.
Есть ли у кого-нибудь предложения?
РЕДАКТИРОВАТЬ:
Ниже приводится упрощение файлов CSV:
"avalue";"anothervalue"
"bvalue";"evenanothervalue"
"avalue";"evenanothervalue"
"avalue";"evenanothervalue"
"bvalue";"evenanothervalue"
"avalue";"anothervalue"
После импорта таблицы выглядят следующим образом:
Dimension_table1
id name
1 "avalue"
2 "bvalue"
Dimension_table2
id name
1 "anothervalue"
2 "evenanothervalue"
Fact table
dimension_table1_ID dimension_table2_ID
1 1
2 2
1 2
1 2
2 2
1 1