Как эффективно использовать 10+ компьютеров для импорта данных

У нас есть плоские файлы (CSV) с> 200 000 000 строк, которые мы импортируем в звездообразную схему с 23 таблицами измерений. В самой большой таблице измерений 3 миллиона строк. На данный момент мы запускаем процесс импорта на одном компьютере, и он занимает около 15 часов. Поскольку это слишком много времени, мы хотим использовать около 40 компьютеров для импорта.

Мой вопрос

Как мы можем эффективно использовать 40 компьютеров для импорта. Основное беспокойство вызывает то, что на репликацию таблиц измерений на всех узлах уйдет много времени, поскольку они должны быть идентичными на всех узлах. Это может означать, что, если мы будем использовать 1000 серверов для импорта в будущем, это может быть медленнее, чем использование одного, из-за обширной сетевой связи и координации между серверами.

Есть ли у кого-нибудь предложения?

РЕДАКТИРОВАТЬ:

Ниже приводится упрощение файлов CSV:

"avalue";"anothervalue"
"bvalue";"evenanothervalue"
"avalue";"evenanothervalue"
"avalue";"evenanothervalue" 
"bvalue";"evenanothervalue"
"avalue";"anothervalue"

После импорта таблицы выглядят следующим образом:

Dimension_table1

id  name
1   "avalue"
2   "bvalue"

Dimension_table2

id  name
1   "anothervalue"
2   "evenanothervalue"

Fact table

  dimension_table1_ID       dimension_table2_ID
    1                      1
    2                      2
    1                       2
    1                       2              
    2                       2
    1                       1
9
задан Rohita Khatiwada 20 April 2011 в 08:21
поделиться