Автоматическое разбиение postgresql?

У меня есть проблема, когда мне нужно очень быстро загрузить много данных (5+ миллиардов строк )в базу данных (в идеале менее 30 минут, но быстрее лучше ), а недавно мне предложили заглянуть в postgresql (Я потерпел неудачу с mysql и искал hbase/cassandra ). У меня есть кластер (в настоящее время 8 серверов ), которые генерируют много данных, и я думал о локальном запуске баз данных на каждой машине в кластере, он быстро пишет локально, а затем в конце (или повсюду. данные, генерирующие )данные, объединяются вместе. Данные не в каком-либо порядке, поэтому мне все равно, какой конкретный сервер находится на (до тех пор, пока он в конечном итоге там ).

У меня есть вопросы: есть ли какие-нибудь хорошие руководства или места, где можно узнать об автоматическом сегментировании PostgreSQL (Я нашел результаты таких фирм, как sykpe, занимающихся автоматическим сегментированием, но нет руководств, я хочу поиграть с этим сам )? Возможно ли то, что я пытаюсь сделать? Поскольку данные расположены не в каком-либо порядке, я собирался использовать автоматическое -увеличение идентификационного номера, вызовет ли это конфликт при объединении данных (это больше не будет большой проблемой )?

Обновление :Идея Фрэнка, приведенная ниже, как бы устранила проблему с авто -инкрементным конфликтом, о которой я спрашивал. Вопрос в основном в том, как я могу узнать об автоматическом сегментировании и будет ли он поддерживать распределенную загрузку данных на несколько серверов?

20
задан d33tah 26 March 2014 в 14:38
поделиться