Какова лучшая практика в разработке модели данных Cassandra? [закрытый]

Question

Какова лучшая практика в разработке модели данных Cassandra? [закрытый]

Как насчет одного записанного в чистый ассемблер :-), не забывают проверять сравнительные тесты .

63

database-design nosql cassandra

задан Jerry 1 October 2009 в 08:51

4 ответа

Другие вопросы по тегам:

database-design nosql cassandra

Похожие вопросы:

score 41 · Answer 1

Для меня главное - это решить, следует ли используйте OrderedPartitioner или RandomPartitioner.

Если вы используете RandomPartitioner, сканирование диапазона невозможно. Это означает, что вы должны знать точный ключ для любого действия, ВКЛЮЧАЯ ОЧИСТКУ СТАРЫХ ДАННЫХ.

Так что, если у вас много оттока, если у вас нет волшебного способа узнать, для каких именно ключей вы вставили данные. , используя случайный разделитель, вы можете легко «потерять» данные, что приведет к утечке дискового пространства и, в конечном итоге, займет все хранилище.

С другой стороны, вы можете спросить у заказанного разделителя, «какие ключи у меня есть в семействе столбцов X» между A и B "? - и он вам скажет. Затем вы можете очистить их.

Однако, есть и обратная сторона. Поскольку Cassandra не выполняет автоматическую балансировку нагрузки, если вы используете упорядоченный разделитель, по всей вероятности, все ваши данные окажутся только на одном или двух узлах и ни на одном из остальных, что означает, что вы потратите впустую ресурсы.

I у вас нет простого ответа на этот вопрос, за исключением того, что в некоторых случаях вы можете получить «лучшее из обоих миров», поместив короткое хеш-значение (того, что вы можете легко перечислить из других источников данных) в начале ваших ключей - например 16-битный шестнадцатеричный хэш идентификатора пользователя, который даст вам 4 шестнадцатеричных цифры, за которыми следует ключ, который вы действительно хотели использовать.

Затем, если у вас есть список недавно удаленных пользователей, вы можете просто хешировать их идентификаторы и диапазон сканирования, чтобы очистить все, что связано с ними.

Следующий сложный бит - вторичные индексы - Кассандра не делает этого. у них нет - поэтому, если вам нужно искать X по Y, вам нужно вставить данные под оба ключа или иметь указатель. Точно так же эти указатели могут нуждаться в очистке, когда то, на что они указывают, не существует, но на этой основе нет простого способа запрашивать информацию, поэтому ваше приложение должно просто помнить.

А ошибки приложений могут оставлять потерянные ключи, о которых вы забыли, и у вас не будет возможности легко их обнаружить, если вы не напишете сборщик мусора, который периодически сканирует каждый ключ в базе данных (это займет некоторое время - но вы можете делать это по частям), чтобы проверить те, которые больше не нужны.