Каковы передовые методы сбора, хранения и обеспечения точности огромного набора данных?

Я задаю этот вопрос, чтобы получить практический совет о том, как спроектировать систему.

Такие сайты, как amazon.com и pandora, имеют и поддерживают огромные наборы данных для ведения своей основной деятельности. Ибо пример, Amazon (и любой другой крупный сайт электронной коммерции) предлагает миллионы продуктов для продажи, изображения этих продуктов, цены, спецификации и т. д. и т. д. и т. д.

Игнорирование данных, поступающих от сторонних продавцов, и пользовательского контента все эти "вещи" должны были откуда-то поступать и кем-то поддерживаться. Кроме того, он невероятно подробный и точный. Как? Как они это делают? Есть ли просто армия клерков по вводу данных или они разработали системы для выполнения рутинной работы?

Моя компания находится в похожей ситуации. Мы ведем огромный (10 миллионов записей) каталог автомобильных запчастей и автомобилей, которые им подходят. Мы уже давно этим занимаемся и разработали ряд программ и процессов, чтобы наш каталог продолжал расти и быть точным; Однако, похоже, что каталог увеличится до x элементов, нам нужно увеличить команду до y .

Мне нужно придумать несколько способов повысить эффективность группы данных и, надеюсь, Я могу учиться на работе других. Любые предложения приветствуются, в большей степени будут ссылки на контент, который я мог бы серьезно прочитать.

8
задан Community 22 September 2017 в 17:44
поделиться